JP4896458B2

JP4896458B2 - ３ｄサブバンド符号化のための組み込み基本レイヤコーデック

Info

Publication number: JP4896458B2
Application number: JP2005204298A
Authority: JP
Inventors: ウーフェン; スージーチョン; ションルイキン; リーシペン
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2004-07-13
Filing date: 2005-07-13
Publication date: 2012-03-14
Anticipated expiration: 2025-07-13
Also published as: CN1738435A; US8374238B2; JP2006060792A; CN1738435B; KR101183304B1; KR20060092826A; EP1617678A3; EP1617678A2; US20060114993A1

Description

スケーラブルな映像符号化および復号化のための方法およびツールについて説明する。より詳細には、３Ｄサブバンド映像エンコーダは、組み込み基本レイヤコーデックを含み、３Ｄサブバンド映像デコーダは、組み込み基本レイヤデコーダを含む。

デジタル映像は、大量の記憶および伝送容量を消費する。典型的な原デジタル映像シーケンスは、毎秒１５または３０のフレームを含む。各フレームは、数万または数１０万のピクセル（ペルとも呼ばれる）を含むことができ、各ピクセルは、画像の微小要素を表す。原形式では、コンピュータは一般に、合計２４ビットの３つのサンプルからなる組としてピクセルを表す。例えば、ピクセルは、ピクセルのグレースケール成分を定める８ビットの輝度サンプル（ルマ（ｌｕｍａ）サンプルとも呼ばれ、本明細書では「輝度」と「ルマ」は交換可能に使用される）と、ピクセルの色成分を定める２つの８ビットの彩度サンプル（クロマ（ｃｈｒｏｍａ）サンプルとも呼ばれ、本明細書では「彩度」と「クロマ」は交換可能に使用される）とを含むことができる。したがって、典型的な原デジタル映像シーケンスの毎秒のビット数、またはビットレートは、毎秒５百万ビット、またはそれより大きくなり得る。

多くのコンピュータおよびコンピュータネットワークは、原デジタル映像を処理するだけのリソースを持ち合わせていない。そのため、技術者は、デジタル映像のビットレートを低くするために圧縮（コード化または符号化とも呼ばれる）を利用する。圧縮は、映像をビットレートがより低い形式に変換することによって、映像を保存および送信するコストを削減する。伸張（復号化とも呼ばれる）は、圧縮形式から元の映像の変形を再構成する。「コーデック」とは、エンコーダ／デコーダシステムのことである。圧縮は可逆とすることができ、その場合、映像の品質は損なわれないが、映像データに固有のばらつき量（エントロピーと呼ばれることもある）によって、ビットレートの減少は制限される。あるいは、圧縮は非可逆とすることができ、その場合、映像の品質は損なわれるが、達成可能なビットレートの減少はより目覚しいものとなる。非可逆圧縮は、しばしば可逆圧縮と併用され、非可逆圧縮が情報の近似を確定し、可逆圧縮がその近似を表すために適用される。

映像圧縮の一般法則として、品質は、ビットレートに直接関係して変化する。与えられた映像シーケンスについて、そのシーケンスがより高い品質で符号化されている場合、そのシーケンスのビットレートはより高くなり、そのシーケンスがより低い品質で符号化されている場合、そのシーケンスのビットレートはより低くなる。ビットレートには、時間解像度（例えば、毎秒７．５、１５、３０、または６０映像フレーム）、空間解像度（例えば、映像フレーム当たり１７６×１４４（ＱＣＩＦ）、３５２×２８８（ＣＩＦ）、または７０４×５７６（４ＣＩＦ）ピクセル）、およびサンプル解像度（例えば、ピクセル当たり８、１６、または２４ビット）を含む様々な要因が影響を及ぼし得る。品質およびビットレートは、時間、空間、および／またはサンプル解像度を上げたり下げたりすることによって、変更することができる。

品質およびビットレートは、非可逆圧縮時に情報内容の簡略化または削除によって導入された歪みの量にも依存する。これは、例えば、映像を再構成した時の映像のぼやけ、濃淡のむら、粒子の粗さなどの量に影響する。言い換えると、非可逆圧縮は、エンコーダがより低いビットレートを達成できるように、シーケンスの品質を低下させる。

別の一般法則として、品質およびビットレートは、ディテールおよび動きの観点からの映像シーケンスの複雑度に依存する。品質をあるレベルに固定した場合、複雑なシーケンスは一般に、単純なシーケンスよりも符号化に多くのビットを必要とする。これを反対から見れば、ある固定のビットレートで符号化される場合、複雑なシーケンスは一般に、単純なシーケンスよりも品質が低下する。

あるシナリオでは、単一のビットレート／品質レベルで映像を符号化することだけが必要とされる。例えば、単一のタイプの装置を用いて再生するために映像を符号化する場合、または電話回線を介したポイントツーポイントのビデオ会議で再生するために映像を符号化する場合、単一のビットレート／品質レベルで単純に映像を符号化するのが望ましいであろう。しかし、その他の多くのシナリオでは、複数のビットレート／品質レベルで映像を符号化するのが望ましい。例えば、インターネットを介して映像をストリーミングする場合、映像サーバはしばしば、性能が異なる装置に映像を提供しなければならず、かつ／または速度および信頼性特性が異なる様々な種類のネットワーク環境を介して映像を配信しなければならない。

多様なネットワークおよび再生要求条件に対処する１つの方法は、同一映像シーケンスを複数のビットレートおよび品質レベルで符号化することであるが、このようにすると、複数の独立した圧縮映像ビットストリームのために、保存および伝送が非効率なものになり得る。代替方法として、サブバンドまたはウェーブレット映像符号化が、映像シーケンスをマルチ解像度方式で単一のスケーラブルな圧縮映像ビットストリームに符号化する方法を提供する。サブバンドまたはウェーブレット符号化によって、映像シーケンスは、異なる時間および空間サブバンドに分解される。

簡単な例として、映像シーケンスは、低解像度の時間サブバンド（おおよそ、シーケンスの低フレームレートバージョンに対応）と、高解像度の時間サブバンド（低解像度の時間サブバンドと合成されて、元のフレームレートシーケンスを再構成することができる）に分割される。個々の映像フレームについての情報も同様に、低解像度の空間サブバンドと、複数の高解像度の空間サブバンドに分割される。時間分解と空間分解は、一緒に利用することができる。いずれかのタイプの分解を繰り返して、例えば、低解像度のサブバンドがさらに分解されるようにすることができる。特定のサブバンドを選択して伝送することによって、または異なる解像度で復号化することによって、時間および空間スケーラビリティを実施することができる。

さらに、個々のサブバンドについての情報は、ビット解像度の複数のレイヤを用いて、ビットプレーン（ｂｉｔｐｌａｎｅ）として表すことができる。元の符号化情報に対する忠実度は、サブバンドに関するビットの全部ではない一部を伝送することによって、（ビットレートに従って）選択的に低下させることができる。あるいは、忠実度は、サブバンドに関するすべてより少ないビットを復号化することによって、（処理要求条件に従って）選択的に低下させることができる。

A. N. Netravali and B. Prasada, "Adaptive Quantization of Picture Signals Using Spatial Masking," Proc. IEEE, vol. 65, pp. 536-548 (April 1977) Bjontegaard et al., "H.263 Anchors - Technical Description" Chen et al., "Improved MC-EZBC with Quarter-pixel Motion Vectors" Y. A. Andreopoulos et al., "A New Method for Complete-to-Overcomplete Discrete Wavelet Transforms," Proc. IEEE Conf. Digital Signal Proc. (2002） X. Li, L. Kerofsky, S. Lei, "All-phase Motion Compensated Prediction for High Performance Video Coding," Proc. ICIP, vol. 3, pp. 538-541(2001)

スケーラブルな映像符号化および復号化方法は、圧縮ビットストリームの様々な空間、時間、およびビット忠実度スケーラビリティを容易にするが、既存のスケーラブルな映像符号化および復号化方法に関して、いくつかの短所が存在する。

既存のスケーラブルな映像符号化および復号化方法は一般に、低ビットレートでは、非スケーラブルな方法に対抗し得る性能を提供しない。スケーラブルな映像符号化および復号化方法の性能は、より高いビットレートおよび品質では良好であるが、低ビットレートでは、非スケーラブルな映像符号化および復号化方法に比べて、あまりに多くのビットを使用する。

さらに、既存のハードウェアおよびソフトウェアツールの多くは、特定の非スケーラブルな映像符号化および復号化方法に従って設計された。そのようなツールのユーザは、既存のツールと互換性のない新しいスケーラブルな映像符号化および復号化の方法およびツールに投資を渋るかもしれない。さらに、コンテンツプロバイダは、映像復号化ツール用の広範にインストールされている基盤と互換性のない符号化コンテンツの制作を渋るかもしれない。

時には、デコーダは、元の空間解像度より低い空間解像度で映像を再生する。これは、例えば、デコーダ装置が狭い画面しか備えていない場合、またはより高い空間解像度情報がネットワークによって欠落した場合に起こり得る。しかし、より低い空間解像度での復号化は、符号化時に元の空間解像度で時間分解が起こっている場合には問題が多い。既存のスケーラブルな映像復号化方法は、このような復号化シナリオに適切に対処することができない。

最後に、既存のスケーラブルな映像符号化および復号化方法は、符号化および復号化時に、一定の確定性をもって、歪みの知覚可能性を明らかにし得ない。具体的には、既存のスケーラブルな映像符号化方法は、ある種の時間分解において、低解像度の時間サブバンドにきわめて大量の知覚可能な歪みを取り込んでしまう。

デジタル映像に対する圧縮および伸張の決定的な重要性を示されれば、スケーラブルな映像符号化および復号化の分野で開発が盛んに行われていることは、驚くに当たらない。これまでのスケーラブルな映像符号化および復号化方法の便益がどのようなものであれ、それらは以下に示す方法およびツールのもつ利点を備えていない。

本明細書で説明する技法およびツールは、スケーラブルな映像符号化および復号化の性能を改善する。例えば、３Ｄサブバンドビデオデコーダは、空間領域動き補償時間フィルタリング（spatial-domain motion-compensated temporal filtering）（「ＳＤＭＣＴＦ」）を使用して、１つの空間解像度で符号化された映像を受信する。３Ｄサブバンドビデオデコーダは、より低い空間解像度で出力するために、その映像を復号化する。複数の技法のいずれかを使用して、３Ｄサブバンドビデオデコーダは、そのような復号化における性能を改善する。

ツールおよび技法の第１の組によれば、３Ｄサブバンドデコーダなどのデコーダは、第１の空間解像度でＳＤＭＣＴＦによって符号化された映像を受信する。デコーダは、第１の空間解像度より低い第２の空間解像度で出力するために、インバンド逆動き補償時間フィルタリング（in-band inverse motion-compensated temporal filtering）を用いて、映像の少なくとも一部を復号化する。そのようにする際に、デコーダは、１つまたは複数の参照画像について補間を実行するが、補間は、バッファされた空間ローパスサブバンド情報に対するインバンド補間ではない。例えば、デコーダは、（１）バッファされた空間ローパスサブバンド情報に対して空間サブバンド逆変換を実行し、（２）空間サブバンド逆変換の結果に対して過完備空間サブバンド変換（ｏｖｅｒｃｏｍｐｌｅｔｅｓｐａｔｉａｌｓｕｂ−ｂａｎｄｔｒａｎｓｆｏｒｍ）を実行し（過完備空間サブバンド変換の結果に補間が適用され）、（３）動き補償予測（ｍｏｔｉｏｎ−ｃｏｍｐｅｎｓａｔｅｄｐｒｅｄｉｃｔｉｏｎ）を実行する。あるいは、デコーダは、（１）バッファされた空間ローパスサブバンド情報に対して空間サブバンド逆変換を実行し（空間サブバンド逆変換の結果に補間が適用され）、（２）補間の結果に対してダウンサンプリング離散ウェーブレット変換を実行し、（３）動き補償予測を実行する。

ツールおよび技法の第２の組によれば、３Ｄサブバンドデコーダなどのデコーダは、第１の空間解像度でＳＤＭＣＴＦによって符号化された映像を受信する。デコーダは、第１の空間解像度より低い第２の空間解像度で出力するために、空間領域逆動き補償時間フィルタリング（spatial-domain inverse motion-compensated temporal filtering）（「ＳＤＩＭＣＴＦ」）を用いて、映像の少なくとも一部を復号化する。ＳＤＩＭＣＴＦについての１つまたは複数の参照画像は、受信空間ローパスサブバンド情報からは再構成されるが、第１の空間解像度への解像度の向上に関連する受信空間ハイパスサブバンド情報からは再構成されない。例えば、デコーダは、（１）受信空間ローパスサブバンド情報に対して空間サブバンド逆変換を実行するが、空間ハイパスサブバンド情報に対しては実行せず、（２）空間サブバンド逆変換の結果に対して空間領域補間を実行し、（３）空間領域補間の結果を参照画像情報として使用して、ＳＤＩＭＣＴＦについての動き補償予測を実行し、（４）動き補償予測の結果に対して空間サブバンド変換を実行する。あるいは、デコーダは、（１）バッファされた空間領域情報に対して空間領域補間を実行し、（２）空間領域補間の結果を参照画像情報として使用して、ＳＤＩＭＣＴＦについての動き補償予測を実行する。

ツールおよび技法の第３の組によれば、３Ｄサブバンドデコーダなどのデコーダは、第１の空間解像度でＳＤＭＣＴＦによって符号化された映像を受信する。デコーダは、第１の空間解像度より低い第２の空間解像度で出力するために、ＳＤＩＭＣＴＦを用いて、映像の少なくとも一部を復号化する。復号化では、ＳＤＩＭＣＴＦにおける動き補償性能を改善するために、第１の空間解像度への解像度の向上に関連する空間ハイパスサブバンド情報を使用するが、解像度を第１の空間解像度に向上させるためには、空間ハイパスサブバンド情報を使用しない。例えば、デコーダは、（１）バッファされた空間領域情報に対して空間領域補間を実行し、（２）空間領域補間の結果を参照画像情報として使用して、ＳＤＩＭＣＴＦについての動き補償予測を実行する。空間ハイパスサブバンド情報は、ＳＤＩＭＣＴＦの中間結果として生成することができ、バッファされた空間領域情報として保持することができる。あるいは、空間ハイパスサブバンド情報は、バッファされた空間領域情報が受信空間ローパスサブバンド情報と受信空間ハイパスサブバンド情報から生成されるように、受信映像の一部とすることができる。

本発明の上記およびその他の目的、特徴、および利点は、添付の図面を参照しながら進められる以下に示す詳細な説明からより明らかとなるであろう。

３次元（３Ｄ）ウェーブレットまたはサブバンド映像符号化では、映像は、複数の時間変換および空間変換を介して、多くの時間−空間サブバンドに分解される。サブバンドは、そのいくつかをスケーラビリティのために除去することができるという点において、ある程度は独立している。例えば、低空間解像度映像を復号化するために、空間ハイパスサブバンドは除去され、デコーダは、空間ローパスサブバンドでの受信データだけを用いて復号化を実行する。

本明細書で説明する様々な方法およびツールは、独立に利用することができる。それらの方法およびツールのいくつかは、組み合わせて（例えば、結合された符号化および／または復号化プロセスの異なるフェーズで）利用することができる。

Ｉ．動作環境例（参考例）
図１に、説明する複数の実施形態を実施するのに用いられる適切なコンピューティング環境（１００）の一般化された例を示す。コンピューティング環境（１００）は、本発明の用途または機能の範囲に関して何ら限定を示唆しようとするものではなく、説明する方法およびツールは、様々な汎用または専用コンピューティング環境で実施することができる。

図１を参照すると、コンピューティング環境（１００）は、少なくとも１つのプロセッシングユニット（１１０）と、メモリ（１２０）とを含む。図１では、この最も基本的な構成（１３０）は、破線で取り囲まれている。プロセッシングユニット（１１０）は、コンピュータ実行可能命令を実行し、実プロセッサまたは仮想プロセッサとすることができる。マルチプロセッシングシステムでは、処理能力を増強するために、複数のプロセッシングユニットが、コンピュータ実行可能命令を実行する。メモリ（１２０）は、揮発性メモリ（例えば、レジスタ、キャッシュ、ＲＡＭ）、不揮発性メモリ（例えば、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリなど）、または双方の組合せとすることができる。メモリ（１２０）は、本明細書で説明する１つまたは複数の方法を利用する映像エンコーダおよび／またはデコーダを実施するソフトウェア（１８０）を記憶する。

コンピューティング環境は、さらなる機能を有することもできる。例えば、コンピューティング環境（１００）は、記憶装置（１４０）、１つまたは複数の入力装置（１５０）、１つまたは複数の出力装置（１６０）、および１つまたは複数の通信コネクション（１７０）を含む。バス、コントローラ、またはネットワークなどの相互接続機構（図示せず）が、コンピューティング環境（１００）の構成要素を相互に接続する。一般に、オペレーティングシステムソフトウェア（図示せず）が、コンピューティング環境（１００）で動作するその他のソフトウェアに動作環境を提供し、コンピューティング環境（１００）の構成要素の働きを調整する。

記憶装置（１４０）は、着脱可能または着脱不能とすることができ、磁気ディスク、磁気テープもしくはカセット、ＣＤ−ＲＯＭ、ＤＶＤ、または情報を記憶するのに使用でき、コンピューティング環境（１００）内でアクセス可能なその他の任意の媒体を含む。記憶装置（１４０）は、ソフトウェア（１８０）に関する命令を記憶する。

入力装置（１５０）は、キーボード、マウス、ペン、もしくはトラックボールなどの接触型入力装置、音声入力装置、スキャニング装置、またはコンピューティング環境（１００）に入力を提供するその他の装置とすることができる。オーディオまたは映像符号化の場合、入力装置（１５０）は、オーディオまたは映像入力をアナログまたはデジタル形式で受け入れるサウンドカード、映像カード、ＴＶチューナカード、もしくは類似の装置、またはコンピューティング環境（１００）にオーディオまたは映像サンプルを提供するＣＤ−ＲＯＭもしくはＣＤ−ＲＷとすることができる。出力装置（１６０）は、ディスプレイ、プリンタ、スピーカ、ＣＤライタ、またはコンピューティング環境（１００）からの出力を提供するその他の装置とすることができる。

通信コネクション（１７０）は、通信媒体を介して別のコンピュータエンティティと通信を行うことを可能にする。通信媒体は、コンピュータ実行可能命令、オーディオもしくは映像の入力もしくは出力、またはその他のデータなどの情報を、変調データ信号によって伝送する。変調データ信号とは、信号に情報を符号化する方式によって設定または変更された１つまたは複数の特性を有する信号のことである。例えば、通信媒体には、電気的、光学的、ＲＦ、赤外線、音響的、またはその他の搬送波を用いて実施される有線または無線技術が含まれるが、これらに限定されるものではない。

本発明の技法およびツールは、コンピュータ読取り可能媒体という一般的背景において説明することができる。コンピュータ読取り可能媒体は、コンピューティング環境内でアクセス可能な任意の利用可能媒体とすることができる。例えば、コンピューティング環境（１００）では、メモリ（１２０）、記憶装置（１４０）、通信媒体、およびこれらの任意の組合せが、コンピュータ読取り可能媒体に含まれるが、これらに限定されるものではない。

本発明の技法およびツールは、プログラムモジュールに含まれる命令など、コンピューティング環境においてターゲット実プロセッサまたは仮想プロセッサで実行されるコンピュータ実行可能命令という一般的背景において説明することができる。一般に、プログラムモジュールには、特定のタスクを実行するか、または特定の抽象データ型を実装する、ルーチン、プログラム、ライブラリ、オブジェクト、クラス、コンポーネント、データ構造などが含まれる。プログラムモジュールの機能は、様々な実施形態における要望に応じて、１つに結合することも、またはいくつかのプログラムモジュールに分割することもできる。プログラムモジュールのコンピュータ実行可能命令は、ローカルまたは分散コンピューティング環境内で実行することができる。

プレゼンテーションの目的で、詳細な説明では、「伝える」、「決定する」、および「適用する」などの用語を使用して、コンピューティング環境でのコンピュータ動作を説明する。これらの用語は、コンピュータによって実行される動作を高いレベルで抽象化したものであり、人間によって実行される行為と混同すべきではない。これらの用語に対応する実際のコンピュータ動作は、実施に応じて変化する。

ＩＩ．映像エンコーダおよび映像デコーダ例（参考例）
図２は、説明する様々な実施形態を実施するのに用いられる一般化された映像エンコーダシステム（２００）のブロック図である。図４には、時間分解の４つのレイヤの後に空間分解の１つのレイヤが続く、一般化されたエンコーダ（４００）が示されている。図３は、説明する様々な実施形態を実施するのに用いられる一般化された映像デコーダシステム（３００）のブロック図である。図５には、時間（逆）分解の４つのレイヤと空間（逆）分解の２つのレイヤを有する、結合されたエンコーダ／デコーダシステム（５００）が示されている。

エンコーダおよびデコーダ内のモジュール間に示された関係は、エンコーダおよびデコーダにおける情報の主要な流れを表しており、その他の関係は、簡略化のために示されていない。具体的には、図２および図３には、動き情報の他は、映像シーケンス、フレーム、マクロブロック、ブロックなどのために使用される、エンコーダ設定、モード、テーブルなどを表す副次的情報は示されていない。そのような副次的情報は、おそらくは副次的情報にエントロピー符号化を施した後、出力ビットストリームに収めて送信される。

実装および所望の圧縮タイプに応じて、図に示すエンコーダおよびデコーダのモジュールは、追加し、省略し、複数のモジュールに分割し、他のモジュールと結合し、かつ／または類似のモジュールで置換することができる。代替の実施形態では、異なるモジュールおよび／または他のモジュール構成を有するエンコーダまたはデコーダが、１つまたは複数の説明する技法を実行する。例えば、図２には、エンコーダシステム（２００）における、時間分解（２１０）からの空間分解（２３０）ダウンストリームが示されているが、エンコーダシステム（２００）は、代替または追加として、時間分解（２１０）を開始する前に、空間分解の１つまたは複数のレイヤを含むことができる。そのような場合、対応するデコーダシステム（３００）は、時間逆分解（３１０）の後に、空間逆分解の１つまたは複数のレイヤを含むことができる。

３Ｄサブバンド映像符号化は、中間または高ビットレートにおいて、（例えば、Ｈ．２６４またはＶＣ−１規格に準拠する）最新の非スケーラブルな映像符号化に匹敵する良好な性能を達成する。しかし、３Ｄサブバンド映像符号化において動きベクトル符号化に費やされるビット量は、従来の非スケーラブルな手法と比べて、相対的に大きい。その結果、３Ｄサブバンド映像符号化は一般に、低ビットレートでは、非スケーラブルな手法よりも性能が悪く、動きベクトルを符号化するのに費やされるビットは、総ビットレートのより大きな割合を占める。

Ａ．映像エンコーダ例
３Ｄサブバンド映像符号化は、映像の複数レベルの空間／時間サブバンド分解を利用することによって、複数レベルの空間および／または時間スケーラビリティを提供する洗練された方法である。図２には、一般的な３Ｄサブバンド映像符号化方式（２００）が示されている。エンコーダ（２００）は、ビデオ画像シーケンス（２０５）（例えば、プログレッシブビデオフレーム、インターレースビデオフレーム、またはインターレースビデオフレームのフィールド）を受信し、出力として圧縮ビデオ情報（２９５）を生成する。映像エンコーダの個々の実施形態は一般に、一般化されたエンコーダ（２００）の変形または補足バージョンを使用する。

エンコーダ（２００）は、時間サブバンド変換（２１０）によって映像信号を分解する。図２には、低解像度サブバンドおよび高解像度サブバンドへの単一レベルの時間分解による出力が示されているが、時間分解は、４、５、またはその他の数のレベルの分解を含むことができる。

図２では、時間分解（２１０）は、動き補償時間フィルタリング（「ＭＣＴＦ」）であり、エンコーダ（２００）は、映像信号について動き情報を計算するために動き推定（２２０）を実行する。動き推定（２２０）の正確な方略は、実装に応じて決まり、例えば、整数ピクセル検索（ｉｎｔｅｇｅｒｐｉｘｅｌｓｅａｒｃｈｉｎｇ）とそれに続くサブピクセル洗練（ｓｕｂ−ｐｉｘｅｌｒｅｆｉｎｅｍｅｎｔ）、スパイラル検索パターン（ｓｐｉｒａｌｓｅａｒｃｈｐａｔｔｅｒｎ）、実際またはモデル化残差符号化コストを考慮するレート歪み関数（ｒａｔｅ−ｄｉｓｔｏｒｔｉｏｎｆｕｎｃｔｉｏｎ）の最小化、動き情報符号化コスト、動き予測モードなどを含むことができる。

いくつかの実装では、エンコーダ（２００）は、動き推定（２２０）において、可変サイズブロックの動きベクトル（４×４から１６×１６）について動きベクトルを計算し、ＭＣＴＦにおいて、その動きベクトルを利用する。例えば、１６×１６のマクロブロックの場合、エンコーダ（２００）は、１つの１６×１６のパーティション、２つの１６×８のパーティション、２つの８×１６のパーティション、または４つの８×８のパーティションについて動きベクトルを計算し、各８×８のパーティションは、２つの８×４のパーティション、２つの４×８のパーティション、または４つの４×４のパーティションに分割することができる。あるいは、エンコーダ（２００）は、より高い空間解像度映像（例えば、ＣＩＦ）のより大きなブロック（例えば、３２×３２）について動きベクトルを計算して、より低い空間解像度映像（例えば、ＱＣＩＦ）だけを復号化する場合に、動きベクトルの利用を容易にする。代替として、エンコーダ（２００）は、他のサイズのブロックについて動き情報を計算する。

動き推定（２２０）およびＭＣＴＦの動き精度は、実装に応じて決まる。例えば、動き推定（２２０）およびＭＣＴＦは、クォータピクセル（ｑｕａｒｔｅｒｐｉｘｅｌ）の動きベクトルを使用する。代替として、動き推定（２２０）およびＭＣＴＦは、他の何らかの精度の動き情報を使用する。例えば、ＱＣＩＦ映像だけを復号化する場合に、クォータピクセルの使用を容易にするため、エンコーダ（２００）は、ＣＩＦ映像についてハーフピクセル（ｈａｌｆｐｉｘｅｌ）の動きベクトルを、および／または４ＣＩＦ映像について整数ピクセルの動きベクトルを計算する。

動き推定（２２０）およびＭＣＴＦの方向は、前方、後方、双方向、またはイントラ方向（ｉｎｔｒａ）とすることができる。いくつかの実装では、エンコーダ（２００）は、動き推定（２２０）および補償方向をマクロブロックのパーティション毎に、前方、後方、双方向、またはイントラ方向のいずれかに設定する。代替として、エンコーダ（２００）は、方向を他の何らかのレベルに設定し、および／またはいくつかの方向（例えば、イントラ方向）を許可しない。

いくつかの実装では、参照フレームを（例えば、単純な反復パディングによって）パディングして、参照フレームの外部で動き推定／補償を可能にすることができる。参照フレーム上でのサブピクセル補間は、双１次フィルタ、双３次フィルタ、ｓｉｎｃフィルタ、または他の何らかのフィルタを使用して、分数動き推定／補償（ｆｒａｃｔｉｏｎａｌｍｏｔｉｏｎｅｓｔｉｍａｔｉｏｎ／ｃｏｍｐｅｎｓａｔｉｏｎ）についてのサンプル値を生成する。いくつかの実装では、エンコーダは、オーバラップブロック動き補償（ｏｖｅｒｌａｐｐｅｄｂｌｏｃｋｍｏｔｉｏｎｃｏｍｐｅｎｓａｔｉｏｎ）（「ＯＢＭＣ」）を使用する。代替として、動きベクトルの範囲は、参照フレーム境界の内部に制限され、および／またはＯＢＭＣは使用されない。

ＭＣＴＦのいくつかの例を、５／３倍直交ウェーブレット構造（５／３ｂｉｏｒｔｈｏｇｏｎａｌｗａｖｅｌｅｔｓｔｒｕｃｔｕｒｅ）を使用して、以下で説明する。代替として、エンコーダ（２００）は、別の数および／またはタイプの時間サブバンド変換（２１０）（例えば、Ｈａａｒ）および／または動き推定（２２０）を実行する。図２には、最大空間解像度映像が時間的に変換される、空間領域ＭＣＴＦが示されている。代替として、エンコーダ（２００）は、時間分解（２１０）の前に１つまたは複数の空間サブバンド変換を含み、ＭＣＴＦは、初期空間分解からの空間サブバンドについてのインバンドＭＣＴＦ（ｉｎ−ｂａｎｄＭＣＴＦ）である。

時間変換（２１０）の後、エンコーダ（２００）は、１つまたは複数の２次元（「２Ｄ」）空間サブバンド変換（２３０）を利用して、信号をさらに分解する。図２には、２つのレベルの２Ｄ空間分解による出力が示されており、水平方向および垂直方向に低空間解像度を有するサブバンドは、さらに水平方向および垂直方向に分解される。例えば、２Ｄ空間サブバンド変換は、ダイアディック（ｄｙａｄｉｃ）な離散ウェーブレット変換（「ＤＷＴ」）である。ウェーブレットフィルタは、例えば、９／７ＤＷＴフィルタまたは５／３ＤＷＴフィルタとすることができる。代替として、エンコーダ（２００）は、（３または４など）別の数の空間サブバンド変換を実行し、かつ／または別のタイプの空間サブバンド変換（２３０）を実行する。

時間変換（２１０）および空間変換（２３０）の後、信号は、入力映像（２０５）の異なる空間−時間解像度に対応する、異なる空間−時間サブバンドに構成される。エンコーダ（２００）は、サブバンドにエントロピー符号化を施す。例えば、いくつかの実施では、エンコーダ（２００）は、最適切り捨てを行う３Ｄ組み込みブロック符号化（「ＥＢＣＯＴ」）を使用する。ＪＰＥＧ２０００は、ＥＢＣＯＴの２次元形式を使用し、そのような実装では、エンコーダ（２００）は基本的に、２ＤＥＢＣＯＴを３Ｄ符号化に拡張する。時間および空間変換によって生成された各サブバンドは、独立に符号化される３Ｄ符号化ブロックに分割される。各符号化ブロックについて、エンコーダ（２００）は、ビットプレーン符号化およびコンテキストベースの算術符号化を使用する。代替として、エンコーダ（２００）は、サブバンド情報のエントロピー符号化の他の何らかの形式を使用する。

エンコーダ（２００）は、動き情報（例えば、動きベクトル、動きモード選択情報）も符号化（２５０）する。例えば、エンコーダ（２００）は、単純な可変長符号など、エントロピー符号化の何らかの形式を使用して、動きベクトル情報、マクロブロックのパーティション、および動き推定／補償の方向をエントロピー符号化する。動きベクトルの場合、エンコーダ（２００）は、動きベクトルとその予測変数（ｐｒｅｄｉｃｔｏｒ）の差を符号化する。動きベクトル予測変数は、それまでの符号化／復号化動きベクトルに基づく中央値予測を使用して、または他の何らかの動きベクトル予測技法を使用して、計算することができる。代替として、エンコーダ（２００）は、動き情報に関する他のおよび／または追加の符号化（２５０）技法を使用する。

サブバンド変換（２１０、２３０）の特性によって、エンコーダ（２００）は、空間スケーラビリティおよび時間／フレームレートスケーラビリティを当然にサポートする。さらに、サブバンド係数のビットプレーン符号化によって、エンコーダ（２００）は一般に、品質／信号対雑音比（「ＳＮＲ」）スケーラビリティをもサポートする。

これらのスケーラビリティは、インターネットまたは無線ネットワークなど、エラーが起こりやすいネットワークを介する映像送信にとって非常に有益である。異なるサブバンドを符号化して、誤り訂正または通信誤りに対する回復力のレベルが異なる伝送を行うことができる。あるいは、ネットワークが優先順位づけされた伝送をサポートする場合、異なるサブバンドを異なる優先権レベルで送信することができる。

異なる装置が、異なるメモリ資源、計算性能、ディスプレイサイズ、アクセス可能帯域などを有していても、様々なスケーラビリティは、異なる装置が、同一の圧縮映像ストリームを共用する手助けをすることもできる。このようにして、ビデオ画像（２０５）を異なるビットレートで符号化するタスクは簡略化される。

マルチレベル時間分解の１つの利点は、映像信号内の時間冗長性を広い範囲で利用できる点にある。時間サブバンド変換の最初の数レベルは、近くのフレーム間の時間冗長性を利用することができ、時間サブバンド変換の最後の数レベルは、より長い距離にわたってフレーム間の依存性を利用することができる。

図４には、時間分解の４つのレイヤおよび空間分解の１つのレイヤを有する、３Ｄサブバンド映像エンコーダ（４００）が示されている。本質的に、図４には、図２の時間サブバンド変換（２１０）の１つの可能な拡張が示されており、時間分解の異なるレベルについてのデータフローも示されている。図４は、時間および空間分解に関する新しい表記も導入する。

図４では、エンコーダ（４００）は、４レベルの時間サブバンド変換を、フレームレートが毎秒ｆフレームである映像に適用する。時間サブバンド変換の各レベルＴ_iは、そのレベルに入力された信号を、２つの時間サブバンド、すなわち、時間ローパスサブバンドと時間ハイパスサブバンドに分割する。各サブバンドは、そのレベルへの入力映像信号の半分のフレームレートをもつ。図４では、用語ｔ−Ｌ_iおよびｔ−Ｈ_iはそれぞれ、第ｉレベルの時間変換Ｔ_iの後に出力されるローパスサブバンドおよびハイパスサブバンドを示す。ｔ−Ｌ_iおよびｔ−Ｈ_iは共に、ｆ／２ⁱのフレームレートをもつ。図４では、信号ｔ−Ｌ_iは、長期依存性を利用するため、またデコーダによって復号化できる低フレームレート映像を可能にするために、時間サブバンド変換Ｔ_iの数回の繰り返しによって分解される。

簡単な数値例で説明するため、入力映像は、毎秒３０フレーム（「ｆｐｓ」）のＣＩＦ映像であると仮定する。第１の時間分解からの出力ローパスサブバンドｔ−Ｌ₁は、１５ｆｐｓの映像であり、第１の時間分解からの出力ハイパスサブバンドｔ−Ｈ₁も同様である。第２の時間分解からの出力サブバンドｔ−Ｌ₂およびｔ−Ｈ₂は、７．５ｆｐｓの映像であり、第３の時間分解からの出力サブバンドｔ−Ｌ₃およびｔ−Ｈ₃は、３．７５ｆｐｓの映像である。最後に、第４の時間分解からの出力サブバンドｔ−Ｌ₄およびｔ−Ｈ₄は、１．８７５ｆｐｓの映像である。この例では、空間解像度は、すべての出力ローパスおよびハイパスサブバンドについてＣＩＦである。

フレーム間の動き情報が、異なるレベルにおいて推定され、各レベルの時間変換は、現在のレベルの動きの軌跡に沿って実行される。したがって、各レベルの時間分解は、後で符号化される動きベクトルを生成する。図４では、４つのレベルの時間分解に対応する、動きベクトルの４つの組が存在する。

出力時間ローパスサブバンドｔ−Ｌ₄および出力時間ハイパスサブバンドｔ−Ｈ₁、ｔ−Ｈ₂、ｔ−Ｈ₃、ｔ−Ｈ₄は、単一レベルの２Ｄ空間サブバンド変換Ｓ₁によって分解され、２Ｄ空間サブバンド変換Ｓ₁は、個々の入力サブバンドを、ローパス水平、ローパス垂直（「ＬＬ」）、ローパス水平、ハイパス垂直（「ＬＨ」）、ハイパス水平、ローパス垂直（「ＨＬ」）、およびハイパス水平、ハイパス垂直（「ＨＨ」）に分割する。代替として、エンコーダ（４００）は、時間分解レベルの前および／または後に、他のおよび／または追加のレベルの空間分解を含み、またはエンコーダ（４００）は、異なる空間分解パターンを使用する。

図４に関して上で開始した数値例を継続すると、ローパスサブバンドｔ−Ｌ₄は、ＣＩＦの空間解像度をもつ。単一レベルの２Ｄ空間サブバンド変換Ｓ₁によって、時間サブバンドｔ−Ｌ₄は、ＬＬサブバンド、ＬＨサブバンド、ＨＬサブバンド、およびＨＨサブバンドに分解される。ＬＬ、ＬＨ、ＨＬ、およびＨＨサブバンドの各々は、ＱＣＩＦの空間解像度をもつ。同様に、時間ハイパスサブバンドｔ−Ｈ₁、ｔ−Ｈ₂、ｔ−Ｈ₃、ｔ−Ｈ₄も、ＣＩＦ解像度から開始され、ＱＣＩＦ解像度のＬＬ、ＬＨ、ＨＬ、およびＨＨサブバンドに分解される。

その後、空間的に分解されたサブバンドは、エントロピー符号化が施され、出力される。

Ｂ．映像デコーダ例
図３には、一般的な３Ｄサブバンド映像復号化方式（３００）が示されている。デコーダ（３００）は、圧縮映像情報（３９５）を受信し、出力として映像画像シーケンス（３０５）（例えば、プログレッシブビデオフレーム、インターレースビデオフレーム、またはインターレースビデオフレームのフィールド）を生成する。映像デコーダの個々の実装形態は一般に、一般化デコーダ（３００）の変形または補足バージョンを使用する。

デコーダ（３００）は、一部または全部の空間−時間サブバンドについて情報（３９５）をエントロピー復号化する（３４０）。映像情報（３９５）はまだ、入力映像（２０５）の異なる空間−時間解像度に対応する、異なる空間−時間サブバンドに構成されている。このように、デコーダ（３００）は、異なる空間−時間解像度の間で選択を行い、圧縮ビットストリーム（３９５）の一部を無視することができ、またはデコーダ（３００）は、デコーダ（３００）が実際に受信した圧縮ビットストリーム（３９５）のあるサブセットを単純に復号化（３４０）することができる。デコーダ（３００）は本質的に、デコーダ（３００）が復号化する情報について、エンコーダ（２００）で実行されたエントロピー符号化（２４０）の逆を実行する。例えば、デコーダ（３００）は、３ＤＥＢＣＯＴを使用して符号化された情報を受信し、復号化（３４０）する。代替として、デコーダ（３００）は、一部または全部のサブバンド情報について、他の何らかの形式のエントロピー復号化を使用する。

デコーダ（３００）は、逆ＭＣＴＦ（「ＩＭＣＴＦ」）を実行するとき、多くの場合、エンコーダ（２００）で実行された符号化（２５０）の逆を実行して、動き情報（例えば、動きベクトル、動きモード選択情報）を復号化（３５０）する。例えばデコーダ（３００）は、単純な可変長符号の復号化など、エントロピー復号化の何らかの形式を使用する。動きベクトルの場合、デコーダ（３００）は、中央値予測または他の何らかの動きベクトル予測技法を使用して、動きベクトル予測を計算し、その後、デコーダ（３００）は、動きベクトル予測を動きベクトルの差分と合成する。代替として、デコーダ（３００）は、他のおよび／または追加の復号化（３５０）技法を使用する。

デコーダ（３００）は、１つまたは複数の２Ｄ空間サブバンド逆変換（３３０）を適用して、空間的に信号を再構成する。図３には、２つのレベルの２Ｄ逆空間分解に関する入力と出力が示されている。例えば、２Ｄ空間サブバンド逆変換は、ダイアディックな逆ＤＷＴ（「ＩＤＷＴ」）である。代替として、デコーダ（３００）は、別の数および／またはタイプの空間サブバンド逆変換（３３０）を実行する。

デコーダ（３００）はさらに、時間サブバンド逆変換（３１０）によって映像信号を再構成する。図３には、低解像度サブバンドおよび高解像度サブバンドからの単一レベルの時間再構成による出力が示されているが、時間合成は、４、５、またはその他の数のレベルの合成を含むことができる。

図３では、時間逆変換（３１０）は、ＩＭＣＴＦを使用し、デコーダ（３００）は、映像信号についての復号化（３５０）された動き情報を使用して、動き補償を実行する。一般に、動き情報およびＩＭＣＴＦの属性（例えば、動き補償用のパーティション、動きベクトル精度、動き補償の方向、参照フレームパディングの使用、サブピクセル補間、ＯＢＭＣの使用）は、対応するエンコーダ（２００）におけるものと同様であり、圧縮映像ビットストリーム（３９５）に収めて伝えられる。ＩＭＣＴＦのいくつかの例を、以下で説明する。代替として、デコーダ（３００）は、別の数および／またはタイプの時間サブバンド逆変換（３１０）および／または動き補償を実行する。図３には、最大空間解像度映像が逆時間変換を使用して再構成される、空間領域ＩＭＣＴＦが示されている。代替として、デコーダ（３００）は、インバンドＭＣＴＦを実行する。

図４のエンコーダ（４００）に戻ると、対応するデコーダは、ｔ−Ｌ_iだけからｆ／２ⁱフレームレートの映像を再構成することができる。あるいは、デコーダは、ｔ−Ｌ_iおよびｔ−Ｈ_i（後続の時間ハイパスサブバンド情報ｔ−Ｈ_i+1などを含む）の両方からｆ／２^i-1フレームレートの映像を再構成することができる。

図５には、エンコーダ内に４レイヤの時間分解と２レイヤの空間分解を、デコーダ内にそれぞれ同数の逆変換を有する、３Ｄサブバンド映像エンコーダ−デコーダ（「コーデック」）システム（５００）の例が示されている。本質的に、図５には、図２のエンコーダ（２００）および図３のデコーダ（３００）の可能な別形が示されている。図５は、時間および空間分解、ならびにそれらの逆操作についての別のより簡単な表記も導入している。

図５では、エンコーダは、４つのレベルの時間サブバンド変換Ｔ_i（すなわち、Ｔ₁、Ｔ₂、Ｔ₃、Ｔ₄）を映像に適用し、２つのレベルの空間サブバンド変換Ｓ_i（すなわち、Ｓ₁、Ｓ₂）を時間分解の結果に適用する。その後、エンコーダは、エントロピー符号化Ｅを実行する。デコーダは、エントロピー復号化Ｅ^-1を実行し、２つのレベルの空間サブバンド逆変換Ｓ_i ^-1（すなわち、Ｓ₂ ^-1、Ｓ₁ ^-1）をエントロピー復号化の結果に適用する。その後、デコーダは、４つのレベルの時間サブバンド逆変換Ｔ_i ^-1（すなわち、Ｔ₄ ^-1、Ｔ₃ ^-1、Ｔ₂ ^-1、Ｔ₁ ^-1）を空間再構成の結果に適用する。

ＩＩＩ．動き補償時間フィルタリング（参考例）
符号化効率を向上させるため、動き調整（ｍｏｔｉｏｎ−ａｌｉｇｎｅｄ）時間変換（あるいは、本明細書では、動き補償時間フィルタリング（「ＭＣＴＦ」）とも呼ばれる）が、時間分解において適用されて、時間冗長性を効果的に削除する。ＭＣＴＦの中心的アイデアは、時間分解の適用中に、異なるフレーム間でピクセルの位置合わせを行うというものである。動き調整３Ｄ符号化方式は、非妥協的な、または他の符号化方式に比べてはるかに優れた符号化効率に加えて、スケーラビリティ機能も提供することができる。
様々なＭＣＴＦ方式の中で、リフティングベース（ｌｉｆｔｉｎｇ−ｂａｓｅｄ）のＭＣＴＦは、柔軟で効率的な実装を提供する。図６には、５／３倍直交ウェーブレットに関するリフティングベースのＭＣＴＦにおける、入力映像フレーム、時間ローパスフレーム、および時間ハイパスフレームの間の関係が示されている。

様々なＭＣＴＦ方式の中で、リフティングベース（ｌｉｆｔｉｎｇ−ｂａｓｅｄ）のＭＣＴＦは、柔軟で効率的な実装を提供する。図６には、５／３倍直交ウェーブレットに関するリフティングベースのＭＣＴＦにおける、入力映像フレーム、時間ローパスフレーム、および時間ハイパスフレームの間の関係が示されている。

図６には、ＭＣＴＦに入力された４つの元のインデックス映像フレームに関するピクセル列が示されている（入力フレーム自体は、例えば、前のレベルのＭＣＴＦから出力された時間ローパスサブバンドとすることができる）。図６のリフティングベースのウェーブレット変換は、２つの基本ステージ、すなわち、動き補償予測（ｍｏｔｉｏｎ−ｃｏｍｐｅｎｓａｔｅｄｐｒｅｄｉｃｔｉｏｎ）（「ＭＣＰ」）ステージと、動き補償更新（ｍｏｔｉｏｎ−ｃｏｍｐｅｎｓａｔｅｄｕｐｄａｔｅ）（「ＭＣＵ」）ステージを含む。

予測ステージでは、奇数フレーム（例えば、フレームＩ_2i+1）について、１つまたは複数の隣接する偶数フレーム（例えば、フレームＩ_2iおよびＩ_2i+2）による動き補償が、奇数フレームのピクセルについての動き補償予測を表す。ハイパスフレーム（例えば、Ｈ_i）は本質的に、奇数フレームと奇数フレームの動き補償予測との差である。

更新ステージでは、１つまたは複数の利用可能なハイパスフレーム（例えば、Ｈ_iおよびＨ_i-1）が、動き補償更新を表す。ローパスフレーム（例えば、Ｌ_i）は本質的に、更新と偶数フレーム（例えば、フレームＩ_2i）との差である。

図７には、エンコーダ内のリフティングを用いる従来のＭＣＴＦが、図８には、デコーダ内の対応するＩＭＣＴＦが示されている。一貫性のため、図７および図８、ならびに本出願中の他のどこでも、偶数映像フレームは、動き補償予測の基準であり、ローパスフレームの形成のために使用され、奇数映像フレームは、ＭＣＰの対象であり、ハイパスフレームの形成のために使用される。代替として、奇数および偶数フレームの役割は入れ替えられる。

図７のＭＣＴＦ（７００）では、偶数映像フレームが、ＭＣＰ（７１０）における基準として使用される。個々の奇数映像フレームＩ_2i+1について、エンコーダは、隣接する偶数フレームＩ_2iおよびＩ_2i+2の一方または両方から、動き補償予測を計算する。予測と元の奇数フレームＩ_2i+1の差が、時間ハイパスフレームＨ_iである。

ハイパスフレームＨ_iは、ＭＣＵ（７２０）における基準として使用される。個々の偶数映像フレームＩ_2iについて、エンコーダは、隣接する奇数映像フレームについてのハイパスフレームＨ_i-1およびＨ_iの一方または両方から、動き補償更新を計算する。更新と元の偶数フレームＩ_2iの合成が、時間ローパスフレームＬ_iである。

例えば、フレームＩ₀，Ｉ₁，．．．，Ｉ_2n-1の映像シーケンスが、図７のＭＣＴＦ（７００）によって処理されると仮定する。予測モジュール（７１０）は、以下の式によって、連続する偶数フレームＩ_2iおよびＩ_2i+2から、奇数フレームＩ_2i+1の予測Ｐ（Ｉ_2i+1）を計算する。

ただし、ＭＶ_2i+1->2iは、Ｉ_2i+1からＩ_2iへの動きベクトルを意味し、ＭＶ_2i+1->2i+2は、同様の意味をもち、ＭＣ（）は、隣接する偶数フレームから現在の奇数フレームの予測の少なくとも一部を生成する動き補償を意味する（式（１）は、動きベクトルが適用される奇数フレームのマクロブロック、マクロブロックパーティション、または他の部分のＭＣＰを示すものとされ、そのようなＭＣＰは、奇数フレームの他のマクロブロック、マクロブロックパーティションなどについて繰り返される）。場合によっては、エンコーダは、動き補償予測を計算する場合に（Ｈａａｒ変換の場合のように）、隣接する偶数フレームの（両方ではなく）一方だけを考慮し、それに対応して、式（１）のＭＣ寄与および重み付け（ＭＣｃｏｎｔｒｉｂｕｔｉｏｎｓａｎｄｗｅｉｇｈｔｉｎｇ）に変更が施される。または、エンコーダは、イントラ圧縮（ｉｎｔｒａｃｏｍｐｒｅｓｓｉｏｎ）を使用して、奇数フレームの一部または全部を符号化する。組み込み基本レイヤコーデックと併せて、エンコーダは、以下で説明するように、隣接する偶数フレーム以外のフレームを参照フレームとして使用する。

その後、予測モジュール（７１０）は、以下の式によって、ハイパスフレームＨ_iを計算する。
Ｈ_i＝Ｉ_2i+1−Ｐ（Ｉ_2i+1）（２）

予測ステップ（７１０）に後続し、１つのレベルの時間変換を完了する更新ステップ（７２０）では、エンコーダは、以下の式によって、隣接するハイパスフレームから、偶数フレームＩ_2iの予測Ｕ（Ｉ_2i）を計算する。

ただし、ＭＣ（）は、隣接するハイパスフレームから偶数フレームの更新の少なくとも一部を生成する動き補償を意味する。簡単な近似として、ＭＣＵについての動きベクトルは、ＭＣＰについての対応する動きベクトルの逆として導出される（式（３）は、動きベクトルが適用される偶数フレームのマクロブロック、マクロブロックパーティション、または他の部分のＭＣＵを示すものとされ、そのようなＭＣＵは、他のマクロブロック、マクロブロックパーティションなどについて繰り返される）。場合によっては、エンコーダは、動き補償更新を計算する場合に、ハイパスフレームの（両方ではなく）一方だけを考慮し、それに対応して、式（３）のＭＣ寄与および重み付けに変更が施され、またはエンコーダは、ハイパスフレームのどちらも考慮しない。

その後、エンコーダは、以下の式によって、ローパスフレームを計算する。
Ｌ_i＝Ｉ_2i−Ｕ（Ｉ_2i）（４）

図８のＩＭＣＴＦ（８００）では、ハイパスフレームＨ_iが、ＭＣＵ（８２０）における基準として使用される。個々の偶数映像フレームＩ_2iについて、デコーダは、隣接する奇数映像フレームについてのハイパスフレームＨ_i-1およびＨ_iの一方または両方から、動き補償更新を計算する。更新と偶数フレームＩ_2iについての対応する時間ローパスフレームＬ_iとの差が、再構成された偶数フレームＩ_2iである。

偶数映像フレームが再構成されたので、偶数映像フレームが、ＭＣＰ（８１０）における基準として使用される。個々の奇数映像フレームＩ_2i+1について、デコーダは、隣接する再構成偶数フレームＩ_2iおよびＩ_2i+2の一方または両方から、動き補償予測を計算する。予測と奇数フレームＩ_2i+1についての対応する時間ハイパスフレームＨ_iとの合成が、再構成奇数フレームＩ_2i+1である。

エンコーダでは、予測ステップは一般に、予測で使用される動きベクトルと一緒にハイパスフレームを（空間分解およびエントロピー符号化によって）符号化するのに必要なビットレートを最小化または低下させるよう試みる。したがって、ハイパスフレームＨ_iは本質的に、対応する奇数インデックスの入力映像フレームＩ_2i+1を関連する偶数インデックスの元の映像フレームから引いた、双方向ＭＣＰ（または場合によっては、前方ＭＣＰもしくは後方ＭＣＰ）による残差である。その後、元の偶数インデックスの映像フレームＩ_2iは、予測残差を用いて、ローパスフレームとして更新される。

ハイパスフレームのエネルギーは、動きモデルの成功に依存し、動きモデルの成功は、動きの複雑度、フレームにわたる動きの一様性、および動きモデル自体に依存する。動き予測が正確ならば、予測残差は通常、小規模となる。しかし、動きが正しく捕捉される場合でも、更新ステップは、動きの軌跡に沿ったローパスフィルタリングに起因するノイズおよびエイリアシング（ａｌｉａｓｉｎｇ）を減らすことができる点で、依然として有用である。一般に、更新ステップは、ローパスフレームの高周波数部の除去を容易にし、したがって、符号化効率を向上させる。

動き予測が（例えば、複雑で予測不可能な動き、または動きモデル自体の欠点のせいで）不正確ならば、物体特徴は、整列することができず、様々な問題を引き起こす。不正確な動き予測の結果、ハイパスサブバンドフレーム内で、複数のエッジが生じ、エネルギーが増大し得る。これは、ハイパスサブバンド自体の符号化の圧縮性能を損ねるばかりでなく、更新ステップ中にゴーストエッジおよび輪郭を時間ローパスフレームに加えてしまう。

より一般的には、更新ステップは、時間スケーラビリティが使用可能な場合、復号化性能に影響を及ぼし得る。特に、限界のあるチャネル帯域または装置性能のせいで、時間ハイパスフレームが部分的または完全に欠落した場合、デコーダで問題が起こり得る（しばしば、ＩＭＣＴＦでの時間スケーラビリティは、時間変換領域において、時間ハイパスサブバンドを廃棄する一方、時間ローパスサブバンドは保持することによって達成される）。動き予測が効率的でない場合、ハイパスフレームは、符号化の更新ステップ中に、ローパスフレームにアーティファクト（ａｒｔｉｆａｃｔ）をもたらす（すなわち、低フレームレート映像）。映像を時間ローパスフレームだけから再構成する場合、ハイパス寄与分（ｈｉｇｈ−ｐａｓｓｃｏｎｔｒｉｂｕｔｉｏｎ）は、デコーダのＭＣＵによって一切除去されない。あるいは、時間ハイパスフレーム情報が粗く量子化されている場合、ハイパスフレームからの寄与分はデコーダのＭＣＵで近似的に除去されるにすぎないので、時間ローパスフレームの品質が損なわれ得る。したがって、ローパスフレーム中のゴーストは、ローパスフレームの符号化により多くのビットが割り当てられる場合でも、除去することができない。

可能な解決策の１つは、エンコーダのリフティングベースのＭＣＴＦにおいて更新ステップをスキップすることである。しかし、更新ステップは動きの軌跡に沿ったローパスフィルタリングに起因するノイズおよびエイリアシングを減らすことができるので、スキップすることによって、全体的な符号化性能が著しく低下し得る。さらに、更新ステップは、歪みを時間ハイパスサブバンドおよび時間ローパスサブバンドの間に拡散させることによって、デコーダにおいて全体的な歪みを減らすことができる。

ＩＶ．ＭＣＴＦおよびＩＭＣＴＦ内の適応更新ステージ（参考例）
いくつかの実施形態においては、スケーラブルな映像エンコーダは、リフティングベースのＭＣＴＦにおける更新ステップを適応的に実行し、および／またはスケーラブルな映像デコーダは、ＩＭＣＴＦにおける更新ステップを適応的に実行する。人間の視覚系の特性を利用することによって、適応更新ステップは、時間ローパスサブバンドから復号化される低フレームレート映像の知覚可能な視覚品質を向上させる。同時に、従来の更新ステップと比べて、適応更新ステップは、時間ローパスおよび時間ハイパスサブバンドから復号化されるより高いフレームレートの映像に関して、満足し得る性能を維持する。

Ａ．エンコーダおよびデコーダ例
適応更新方式は、（１）元の更新情報を可能な限り追加することと、（２）同時に、更新ステップによって導入される視覚的アーティファクトを減少させることの２つの相反する目標の間で、良好なトレードオフを達成する。

図９には、エンコーダ内の適応更新操作を用いるＭＣＴＦフレームワーク（９００）が、図１０には、デコーダ内の適応更新操作を用いるＩＭＣＴＦフレームワーク（１０００）が示されている。例えば、フレームワーク（９００、１０００）は、図２〜図５を参照しながら説明したように、エンコーダおよび／またはデコーダに組み込まれる。代替として、適応更新操作は、別のエンコーダおよび／またはデコーダに組み込まれる。

図９を参照すると、ＭＣＴＦフレームワーク（９００）は、予測（９１０）および更新（９２０）ステージを含んでいる。これらのステージでは基本的に、図７を参照しながら説明したように処理が進行する。

ＭＣＴＦフレームワーク（９００）は、人間の視覚系（ｈｕｍａｎｖｉｓｉｏｎｓｙｓｔｅｍ）（「ＨＶＳ」）モデル（９３０）を使用して、予測ステップからの信号を視覚品質の観点で評価する。例えば、エンコーダは、ＨＶＳモデル（９３０）に従って、偶数フレームの情報を評価する。いくつかの実装では、ＨＶＳモデル（９３０）は、丁度可知差異（ｊｕｓｔｎｏｔｉｃｅａｂｌｅｄｉｆｆｅｒｅｎｃｅ）（「ＪＮＤ」）を測定基準（ｍｅｔｒｉｃ）に使用する。別の実装では、ＨＶＳモデル（９３０）は、他の知覚基準を使用する。ＨＶＳモデル（９３０）は、閾値情報を閾値（９４０）ステージに提供し、閾値ステージは、閾値情報を考慮して、更新（９２０）ステージの結果を評価し、適用する。例えば、ＨＶＳモデル（９３０）は、モデルに従って評価された偶数フレームのピクセル当たりの閾値を提供する。閾値の様々な例および更新操作での用途について以下で説明する。代替として、ＨＶＳモデル（９３０）は、異なる閾値情報を提供する。

閾値（９４０）ステージの結果、更新情報は、歪みが特に目立つイメージの部分では制限されるが、イメージの他の部分では制限されない。したがって、更新情報は、偶数フレームに適用される前に、人間の知覚に応じて適応的に除去または制限をすることができる。

図１０を参照すると、ＩＭＣＴＦフレームワーク（１０００）も、予測（１０１０）および更新（１０２０）ステージを含んでいる。これらのステージでは基本的に、図８を参照しながら説明したように処理が進行する。

ＩＭＣＴＦフレームワーク（１０００）は、ＨＶＳモデル（１０３０）を使用して、信号を視覚品質の観点で評価する。例えば、デコーダは、ＨＶＳモデル（１０３０）に従って、ローパスフレームの情報を評価する。いくつかの実施では、ＨＶＳモデル（１０３０）は、丁度可知差異（「ＪＮＤ」）を測定基準に使用する。別の実施では、ＨＶＳモデル（１０３０）は、他の知覚基準を使用する。

ＨＶＳモデル（１０３０）は、閾値情報を閾値（１０４０）ステージに提供し、閾値ステージは、閾値情報を考慮して、更新（１０２０）ステージの結果を評価し、適用する。例えば、ＨＶＳモデル（１０３０）は、モデルに従って評価されたローパスフレームのピクセル当たりの閾値を提供する。閾値の様々な例および更新操作での用途について以下で説明する。代替として、ＨＶＳモデル（１０３０）は、異なる閾値情報を提供する。

図９と図１０を比較すると、エンコーダ側でのＨＶＳモデル（９３０）は、偶数フレームに適用され、デコーダ側でのＨＶＳモデル（１０３０）は、ローパスフレームに適用される。エンコーダ側とデコーダ側で同一のＨＶＳモデル（９３０、１０３０）を使用する場合であっても、閾値はわずかに異なり得る。対応する偶数フレームとローパスフレームでは閾値は非常に類似している可能性が高いので、またエンコーダおよびデコーダ状態の間の偏差は、（時間とともに累積して、より悪化することはなく）一フレームに局所的なものなので、閾値の異なりは許容できる。

さらに、図９および図１０のフレームワーク（９００、１０００）では、閾値は各レベルのＭＣＴＦ／ＩＭＣＴＦにおいて計算される。そのようなものとして、閾値は、時間的に対応するフレームであっても、異なるレベルのＭＣＴＦ／ＩＭＣＴＦで異なり得る。

したがって、いくつかの実装では、エンコーダ側のＭＣＴＦ（９００）とデコーダ側のＩＭＣＴＦ（１０００）は、ＨＶＳモデル（９３０、１０３０）において、同一のＪＮＤ測定基準を適用する。閾値はエンコーダおよびデコーダにおいて独立に計算され、適用されるので、閾値または閾値操作に関連する符号化オーバーヘッドは存在しない。代替として、エンコーダは、閾値情報または決定をデコーダに伝え、またはデコーダは、エンコーダとは異なるＨＶＳモデルを適用する。

Ｂ．ＨＶＳモデルおよび閾値操作例
エンコーダ内の適応更新ステップは一般に、Ｌ_i＝Ｉ_2i＋ｆ（Ｕ_2i）と表すことができる。関数ｆ（）は、偶数フレームＩ_2iについての更新Ｕ_2iに適用される適応関数である。Ｌ_iは合成されたローパスフレームである。

適応関数は、人間の視覚モデルの結果および成果を利用する。人間の視覚系に基づいたコンピューティングモデルを開発するために、幅広い研究が行われている。様々なモデルでは、知覚基準は、空間および時間領域においてコントラストおよび輝度の変化のレベルが変動する刺激に対して、ＨＶＳの感度に不一致が存在するという観察に基づいている。

ＨＶＳの数々のコンピューティングモデルにおいて、ＪＮＤは、知覚符号化およびイメージ透かしの中で広く使用されている。ＪＮＤは、その中で動揺（ｐｅｒｔｕｒｂａｔｉｏｎ）がちょうど人間に認識可能になるまで増加する輝度エッジの振幅の関数として定義される視感度閾値（ｖｉｓｉｂｉｌｉｔｙｔｈｒｅｓｈｏｌｄ）を使用する。さらなる情報については、非特許文献１を参照されたい。ＪＮＤは、ＨＶＳのテクスチャマスキング（ｔｅｘｔｕｒｅｍａｓｋｉｎｇ）特性と密接に関係している。この基準によれば、ノイズは、フラットまたはテクスチャなしの領域において視覚により感じられ、エッジおよびテクスチャありの領域において視覚にあまり感じられない。

ＪＮＤ閾値は、イメージに依存する。更新情報がＪＮＤ閾値より低く保たれているかぎり、「更新残差」の透過性が、ローパスフレームにおいて達成される。そのようなものとして、ＪＮＤは、適応更新方式におけるＨＶＳモデルとして良好に機能する。適応更新方式の一実装においては、ＪＮＤモデルは、以下の式によって定義される。

ただし、

は、座標が（ｉ，ｊ）のピクセルを中心とするウィンドウ内のイメージｘの局所分散（ｌｏｃａｌｖａｒｉａｎｃｅ）を表す。ＪＮＤは、計算の複雑度を小さくするために、輝度サンプルだけから計算することができる。あるいは、ＪＮＤは、輝度および彩度サンプルの両方から計算することができる。ウィンドウサイズは、実装によって左右される。ウィンドウサイズの一例に３×３があり、別の例に５×５がある。θは、個々のイメージについて選択できる調整パラメータである。これは、イメージが非定常ガウシアン（ｎｏｎ−ｓｔａｔｉｏｎａｒｙＧａｕｓｓｉａｎ）であると仮定すれば、ノイズ可視性関数値（ｎｏｉｓｅｖｉｓｉｂｉｌｉｔｙｆｕｎｃｔｉｏｎｖａｌｕｅ）と同じである。調整パラメータθは、ＪＮＤ定義においてコントラスト調整の役割を果たす。調整パラメータθは、イメージ依存とするために、以下の式によって計算することができる。

ただし、

は、与えられたイメージの最大局所分散であり、Ｄ∈［５０，１００］は、実験的に決定されるパラメータである。このＪＮＤ定義によれば、フラット領域においては、

が小さいので、ＪＮＤ値は小さく、その逆も成り立つ。

より正確な方法で、エンコーダ内の適応更新を表すと、
Ｌ_i＝Ｉ_2i＋ｆ（Ｉ_2i，Ｕ_2i）（７）
となり、ただし、

である。

は、上で定義したＪＮＤ_x（ｉ，ｊ）の一例であり、Ｓは、実装に依存する強度係数（ｓｔｒｅｎｇｔｈｆａｃｔｏｒ）であり、例えば、１２．５とする。ＪＮＤ関数は、視覚マスキングに関連するローカルフレーム特性に適応する。局所強度分散（ｌｏｃａｌｉｎｔｅｎｓｉｔｙｖａｒｉａｎｃｅ）が大きければ、ＪＮＤは、相対的に大きく（式（５）に従って、１に接近する）、動きの激しいまたは詳細な領域を示す。反対に、局所強度分散が小さければ、ＪＮＤは、相対的に小さく（式（５）に従って、０に接近する）、フラットな領域を示す。ＪＮＤは、エンコーダ内で偶数インデックスフレームから更新のために計算され、デコーダ内で偶数インデックスフレーム（実際には、それのローパスイメージ近似）から計算される。結果として、適応更新は、ハイパスフレームに起因するゴースト発生アーティファクトを効果的に軽減し、時間スケーラビリティについての符号化性能を改善する。

上で述べたように、いくつかの実装では、エンコーダおよびデコーダは、同じＪＮＤ測定基準および（式（８）のインデックス値などの変更を伴う）閾値処理を使用し、適応更新操作に関して、符号化およびデコーダへ送るためのオーバーヘッドは発生しない。エンコーダおよびデコーダは、異なるイメージ（エンコーダでは元のフレーム、デコーダでは再構成されたローパスバージョン）に処理を施すが、実験結果は、デコーダにおける結果の更新マスクが、エンコーダにおける更新マスクの非常に近い近似となることを示している。

代替として、エンコーダおよび／またはデコーダは、ＪＮＤの別の定義、別のＨＶＳモデル、および／または別の閾値操作を使用する。例えば、他のおよび／または追加のパラメータを使用することができる。

Ｃ．適応更新技法の例
図１１から図１３には、適応更新操作のための方法（１１００、１２００、１３００）が示されている。図９を参照しながら説明したようなエンコーダは、図１１および図１２に示す方法（１１００、１２００）を実行し、図１０を参照しながら説明したようなデコーダは、図１１および図１３に示す方法（１１００、１３００）を実行する。代替として、別のエンコーダまたはデコーダは、方法（１１００、１２００、１３００）を実行する。

図１１には、適応更新操作のための簡略化された汎用的方法（１１００）が示されている。エンコーダまたはデコーダは、適応更新用の閾値を計算する（１１２０）。その後、エンコーダまたはデコーダは、適応更新操作を実行する（１１６０）。

図１２には、ＭＣＰ用の追加詳細を含む、エンコーダにおける適応更新操作のための詳細な方法（１２００）が示されている。

ローパスフレームが計算される現在の偶数フレームについて、エンコーダは閾値を計算する（１２２０）。例えば、エンコーダは、前のセクションで説明したような、現在の偶数フレームのピクセルに関するＪＮＤを計算する。代替として、エンコーダは、他の何らかの測定基準を使用して閾値を計算する（１２２０）。

ＭＣＰについて、エンコーダは、例えば、隣接する奇数フレームを予測するために前方および／または後方に動きながら、現在の偶数フレームから１つまたは複数の動き補償予測を計算する（１２３０）。エンコーダは、他の偶数フレームから、隣接する奇数フレームに関する１つまたは複数の他の動き補償予測を計算する（１２３０）こともできる（または、そのような予測は、時間的により前の偶数フレームから事前に計算しておくこともできる）。その後、エンコーダは、動き補償予測および対応する隣接奇数フレームから、１つまたは複数のハイパスフレームを計算する（１２４０）。

次に、エンコーダは、１つまたは複数のハイパスフレームから、現在の偶数フレームに関する動き補償更新を計算する（１２５０）。例えば、エンコーダは逆に、現在の偶数フレームからＭＣＰ（１２３０）中に計算された動き情報を適用する。代替として、エンコーダは、更新を計算する（１２５０）のに異なるメカニズムを使用する。

その後、エンコーダは、現在の偶数フレームについて適応更新を実行し（１２６０）、ローパスフレームを得る。例えば、エンコーダは、前のセクションで説明したような、動き補償更新およびＪＮＤ閾値を使用して、適応閾値操作を実行する。代替として、エンコーダは、異なる閾値処理メカニズムを使用して、適応更新を計算する（１２６０）。

エンコーダは、ＭＣＴＦを続行するかどうかを決定し（１２９０）、続行する場合、次の偶数フレームに移って処理を続ける。

図１３には、異なるフレームレートで復号化するための別個のパスを含む、デコーダにおける適応更新操作のための詳細な方法（１３００）が示されている。

デコーダは、復号化のための時間解像度を決定する（１３１０）。時間解像度は、ユーザレベルの設定または他の何らかの設定によって決定することができ、デコーダが実際にどれだけの情報（例えば、エラーを起こしやすいチャネルを介して時間ローパス情報だけ）を受信したかに基づいて決定することができ、または他の何らかの方法で決定することができる。代替として、デコーダは、唯一の復号化パスを有することができる。例えば、個々のデコーダのリソースに適するように、あるデコーダは、低フレームレートパスを含むことができ、別のデコーダは、高フレームレートパスを含むことができる。

低フレームレートパスでは、デコーダは、受信したローパスフレーム情報から（例えば、ローパスフレームを現在のフレームとして使用して）、現在の偶数フレームを計算する（１３１２）。ハイパス情報および動き情報は無視されるか、または受信されないので、適応更新操作は実行されない。そのような情報が存在しなくても、符号化時の適応更新操作によって、認識可能な歪みの偶数フレームへの付加は制限されているので、現在の偶数フレームの品質は、（従来のＩＭＣＴＦと比べて）向上する。

高フレームレートパスでは、現在の偶数フレームについて、デコーダは、デコーダによって受信された対応するローパスフレームから閾値を計算する（１３２０）。例えば、デコーダは、前のセクションで説明したような、ローパスフレームのピクセルに関するＪＮＤを計算する。代替として、デコーダは、他の何らかの測定基準を使用して閾値を計算する（１３２０）。

デコーダは、１つまたは複数のハイパスフレームから、現在の偶数フレームに関する動き補償更新を計算する（１３３０）。例えば、デコーダは逆に、現在の偶数フレームからＭＣＰ（１２３０）中に計算された動き情報を適用する。代替として、デコーダは、更新を計算する（１３３０）のに異なるメカニズムを使用する。

その後、デコーダは、ローパスフレームについて適応更新を実行し（１３６０）、現在の偶数フレームを再構成する。例えば、デコーダは、前のセクションで説明したような、更新およびＪＮＤ閾値を使用して、適応閾値操作を実行する。代替として、デコーダは、異なる閾値処理メカニズムを使用して、適応更新を計算する（１３６０）。

ＭＣＰについて、デコーダは、例えば、隣接する奇数フレームを予測するために前方および／または後方に動きながら、再構成された現在の偶数フレームから１つまたは複数の動き補償予測を計算する（１３７０）（隣接する奇数フレームに関する他の動き補償予測を、時間的により前の偶数フレームから事前に計算しておくこともできる）。その後、デコーダは、奇数フレームに関する動き補償予測および対応するハイパスフレームから、１つまたは複数の再構成された奇数フレームを計算する（１３８０）。

デコーダは、ＩＭＣＴＦを続行するかどうかを決定し（１３９０）、続行する場合、次の偶数フレームに移って処理を続ける。

図１２および図１３に示した様々な操作は、分割することができ、他の操作と結合することができ、または順序を変更することができる。例えば、図１２には、一部の操作が並列して示されているが、代わりに、これらの操作を直列に実行することもできる。

Ｖ．３Ｄサブバンド映像符号化および復号化における組み込み基本レイヤコーデック（参考例）
本発明のいくつかの実施形態では、スケーラブルな映像エンコーダは、組み込み基本レイヤコーデックを含み、スケーラブルな映像デコーダは、組み込み基本レイヤデコーダを含む。基本的に、組み込み基本レイヤコーデックによって生成されるビットストリームは、３Ｄサブバンド映像符号化ビットストリームの低ビットレートの基本レイヤとして機能する。スケーラブルな映像符号化／復号化システムというコンテキストでは、例えば、基本レイヤは、システムのために最低の空間、時間、およびＳＮＲ解像度で映像を提供し、その上に、システムのために最高の空間、時間、およびＳＮＲ解像度までのスケーラビリティを提供する追加の増強レイヤが追加される（符号化および復号化における基本レイヤの正確な役割は、実施形態が違えば異なってくる）。例えば、３Ｄサブバンド映像エンコーダは、組み込み映像コーデックを含み、３Ｄサブバンド映像デコーダは、対応する組み込み映像デコーダを含む。

多くのタイプの組み込みコーデックについて、これは、低ビットレートでの符号化性能を向上させ、従来の３Ｄサブバンド符号化では、動き情報を符号化するのに費やされるビットが、利用可能なビットレートの非効率な割合を消費するのに比べ、組み込み映像コーデックはより効率的である。場合によっては、組み込み基本レイヤコーデックは、クローズドループ時間予測（ｃｌｏｓｅｄ−ｌｏｏｐｔｅｍｐｏｒａｌｐｒｅｄｉｃｔｉｏｎ）、インループフィルタリング（ｉｎ−ｌｏｏｐｆｉｌｔｅｒｉｎｇ）、および３Ｄサブバンド符号化に関連する制約のないレート歪み最適化（ｒａｔｅ−ｄｉｓｔｏｒｔｉｏｎｏｐｔｉｍｉｚａｔｉｏｎ）などの利点を提供する。同時に、中間およびより高いビットレートでの３Ｄサブバンド符号化の利点（例えば、空間および時間スケーラビリティ）も保たれる。

３Ｄサブバンド映像符号化にコーデックを組み込む別の利点は、組み込みコーデックと対応するデコーダに互換性が提供されることである。例えば、ＭＰＥＧ−１コーデックが組み込まれる場合、ＭＰＥＧ−１復号化機能を備える受信機ならどれでも、（ＭＰＥＧ−１コーデックが本質的に符号化性能を改善しないとしても）圧縮映像のラフなバージョンを復号化することができる。Ｈ．２６４またはＶＣ−１コーデックが組み込まれる場合、これは、互換性の他に、低ビットレートでの符号化性能を改善する。

本明細書で説明する技法およびツールは、性能および／または互換性に関する利点を有するシステムに限定されるものではない。性能および互換性の他にも、スケーラブルな映像エンコーダに基本レイヤコーデックを組み込み、スケーラブルな映像デコーダに基本レイヤデコーダを組み込むことには、他の利点が存在し得る。

Ａ．エンコーダおよびデコーダ例
図１４から図１９には、基本レイヤコーデックまたはデコーダをエンコーダまたはデコーダにそれぞれ組み込むための、３つの異なる方式が示されている。エンコーダでは、基本レイヤ用のコーデックは、時間サブバンド変換の間に組み込まれ、時間サブバンド変換の後には、空間サブバンド変換が続く。付加的な空間サブバンド変換を、時間サブバンド変換の後および／または前に配置することができ、同様にデコーダでも対応する変更が可能である。基本レイヤコーデックは、様々な変換の間の異なる位置に配置することができ、デコーダにおいても対応する変更が可能である。

一般に、組み込みコーデックの配置は、基本レイヤ映像に関するフレームレートおよび空間解像度を定める。図１４から図１９に示される３つの方式の間の比較を簡潔にするため、基本レイヤ解像度は、フレームレートの４分の１で、元の映像の空間解像度の半分であると定める。したがって、例えば、元の映像が３０ｆｐｓのＣＩＦ映像である場合、基本レイヤ映像は、７．５ｆｐｓのＱＣＩＦ映像である。

そのようなものとして、基本レイヤコーデックは、図１４、図１６、および図１８のエンコーダでは、２つの時間サブバンド変換の後に置かれ、図１５、図１７、および図１９のデコーダでは、最後の２つの時間サブバンド逆変換の前に置かれる。時間変換の間での基本レイヤコーデックおよびデコーダの配置を変更することは、基本レイヤフレームレートを変更する１つの方法である。例えば、図１４、図１６、および図１８には、ｔ−Ｌ₂サブバンドを入力として受け取るように組み込まれた基本レイヤモジュールが示されているが、代替として、基本レイヤモジュールは、ｔ−Ｌ₁サブバンド変換または別のサブバンド変換の後に配置される。一般に、時間変換の間での配置は、基本レイヤ映像について要望されるフレームレートに依存する。

図１４、図１６、および図１８では、基本レイヤに関する空間解像度の変更は、何らかの任意の係数による（組み込みコーデックまたはデコーダに隣接する）サンプリング操作または空間サブバンド変換操作によって達成される。サンプリング／空間サブバンド変換操作の比率を変更することは、基本レイヤ空間解像度を変更する１つの方法である。

図１４、図１６、および図１８には、時間サブバンド変換モジュールＴ、空間サブバンド変換モジュールＳ、ならびにＭＶ符号化およびエントロピー符号化モジュールの他、モジュールへの入力およびモジュールからの出力が含まれる。図１５、図１７、および図１９には、時間サブバンド逆変換モジュールＴ^-1、空間サブバンド逆変換モジュールＳ^-1、ならびにＭＶ復号化およびエントロピー復号化モジュールの他、モジュールへの入力およびモジュールからの出力が含まれる。一般に、これらのモジュールおよび入力／出力の役割は、図２から図５を参照しながら説明したものと同様である。

図１４、図１６、および図１８に示す基本レイヤコーデックは、規格に準拠したビットストリーム（例えば、ＭＰＥＧ−１、ＭＰＥＧ−２、ＭＰＥＧ−４、Ｈ．２６１、Ｈ．２６３、Ｈ．２６４／ＡＶＣ、またはＶＣ−１）を生成するコーデックとすることができ、図１５、図１７、および図１９には、対応する基本レイヤデコーダが示されている。あるいは、基本レイヤコーデック／デコーダは、市販製品（例えば、ＷＭＶ８、ＷＭＶ９）とすることができる。より一般的には、基本レイヤコーデック／デコーダは、所望の性能および／または互換性特性を有する任意の利用可能なコーデック／デコーダとすることができる。

１．第１の方式
図１４には、第１の方式による３Ｄサブバンドエンコーダ（１４００）が示されている。エンコーダ（１４００）は、組み込み基本レイヤコーデック（１４２０）の他、基本レイヤコーデック（１４２０）の前後に、ダウンサンプリングモジュール（１４１０）およびアップサンプリングモジュール（１４３０）を含む。

ダウンサンプリングモジュール（１４１０）およびアップサンプリングモジュール（１４３０）はオプションである。これらは、組み込みコーデック（１４２０）によって符号化される映像が、組み込みコーデック（１４２０）に入力される時間サブバンドよりも低い空間解像度をもつ場合に使用される。それ以外の場合、ダウンサンプリングモジュール（１４１０）およびアップサンプリングモジュール（１４３０）はスキップすることができる。

図１４内の破線の長方形は、２つのレベルの時間分解の後の、基本レイヤコーデック（１４２０）に関連する操作を囲っている。基本レイヤの場合、入力映像は、毎秒ｆ／４フレームであり、解像度は、ダウンサンプリングモジュール（１４１０）によって低下させることができる。したがって、基本レイヤ映像は、元の映像の低フレームレートかつ（可能性として）低空間解像度の表示を提供する。

ダウンサンプリングモジュール（１４１０）は、簡単なサブサンプリング、ローパスフィルタ、または他の何らかのフィルタリングメカニズムを使用して、ｔ−Ｌ₂時間サブバンドをダウンサンプリングする。例えば、ダウンサンプリングモジュール（１４１０）は、係数２によって垂直または水平に空間解像度を減少させる。いくつかの実装では、ダウンサンプリングモジュール（１４１０）は、非特許文献２で説明されているような「ＭＰＥＧ」フィルタ、またはドーブシ（Ｄａｕｂｅｃｈｉｅｓ）９／７ＤＷＴフィルタを利用する。より一般には、ダウンサンプリングモジュール（１４１０）は、組み込みコーデック（１４２０）への入力の空間解像度を任意の比率で変更して、所望の基本レイヤ空間解像度を達成し、および／または入力の空間解像度を基本レイヤコーデック（１４２０）で許容可能なものにする。

組み込みコーデック（１４２０）は、（ｔｓ−ＬＬサブバンドとして示されている）ダウンサンプリングされたｔ−Ｌ₂サブバンドを、組み込みコーデック（１４２０）の通常操作を使用して符号化する。組み込みコーデック（１４２０）は、基本レイヤ解像度で、出力基本レイヤビットストリーム（１４９５）を生成し、出力基本レイヤビットストリーム（１４９５）は、対応する基本レイヤデコーダと互換性がある。組み込みコーデック（１４２０）はまた、エンコーダ（１４００）内での後の符号化のため、組み込みコーデック（１４２０）用の対応する復号化操作を使用して、ｔｓ−ＬＬサブバンドを復号化し、再構成されたサブバンドｔｓ−ＬＬ’を生成する。

アップサンプリングモジュール（１４３０）は、基本レイヤコーデック（１４２０）からの再構成された出力サブバンドｔｓ−ＬＬ’を、何らかのフィルタリングメカニズムを使用してアップサンプリングし、時間サブバンドｔ−Ｌ₂の再構成バージョンｔ−Ｌ₂’を生成する。再構成サブバンドｔ−Ｌ₂’は、ｔ−Ｌ₂と同じ解像度をもつ。例えば、アップサンプリングモジュール（１４３０）は、係数２によって垂直または水平に空間解像度を増加させる。いくつかの実装では、アップサンプリングモジュール（１４３０）は、単純な６タップフィルタ｛−１，５，２０，２０，５，−１｝、非特許文献３に記されているような８タップｓｉｎｃフィルタ、またはドーブシ９／７ＩＤＷＴフィルタを利用する。アップサンプリングフィルタは、ダウンサンプリングフィルタを反転させた（ｍｉｒｒｏｒ）ものである必要はなく、例えば、ダウンサンプリング用に、ＭＰＥＧフィルタを使用することができ、アップサンプリング用に、ＩＤＷＴフィルタを使用することができる。より一般には、アップサンプリングモジュール（１４３０）は、組み込みコーデック（１４２０）からの出力の空間解像度を任意の比率で変更して、ダウンサンプリングモジュール（１４１０）以前にもっていた空間解像度まで映像を回復させる。

エンコーダ（１４００）は、元の時間サブバンドｔ−Ｌ₂から、再構成されたバージョンのｔ−Ｌ₂’を減算する。これによって、差異または残差サブバンドｔ−Ｌ₂”が生成される。基本レイヤコーデック（１４２０）が効率的であり（例えば、ＶＣ−１またはＨ．２６４／ＡＶＣ）、かつ基本レイヤビットレートが適切である場合、基本レイヤ品質は、相対的に良好であり得、差異サブバンドはあまり大きなエネルギーをもたない。反対に、基本レイヤコーデック（１４２０）があまり効率的でないか、または基本レイヤビットレートが不適切である場合、基本レイヤ品質は、相対的に貧弱なことがあり、差異サブバンドはより大きなエネルギーをもつ。

エンコーダ（１４００）は、差異サブバンドｔ−Ｌ₂”に対して、さらに２つのレベルの時間分解を実行する。最後に、エンコーダ（１４００）は、個々のサブバンド（例えば、ｔ−Ｈ₁、ｔ−Ｈ₂、ｔ−Ｈ₃、ｔ−Ｈ₄、およびｔ−Ｌ₄）に対して、空間変換およびエントロピー符号化を実行して、スケーラブルなビットストリームを生成する。

図１５には、第１の方式による対応する３Ｄサブバンドデコーダ（１５００）が示されている。デコーダ（１５００）は、組み込み基本レイヤデコーダ（１５２０）の他、基本レイヤデコーダ（１５２０）の後に、アップサンプリングモジュール（１５３０）を含む。

アップサンプリングモジュール（１５３０）はオプションである。これは、組み込みデコーダ（１５２０）によって復号化される映像が、ダウンストリーム時間逆変換レベルに出力される時間サブバンドｔ−Ｌ₂よりも低い空間解像度をもつ場合に使用される。それ以外の場合、アップサンプリングモジュール（１５３０）はスキップすることができる。

図１５内の破線の長方形は、２つの付加的レベルの時間逆分解の前にある、基本レイヤデコーダ（１５２０）に関連する操作を囲っている。基本レイヤの場合、映像は、毎秒ｆ／４フレームであり、空間解像度を、低下させることができる。したがって、基本レイヤは、映像の低フレームレートかつ（可能性として）低空間解像度の表示を提供する。実際、低フレームレートおよび（可能性として）低空間解像度を有する映像は、基本レイヤデコーダ（１５２０）を用いて直接に復号化し、出力することができる。

それ以外では、デコーダ（１５００）は、デコーダ（１５００）が映像を再構成するのに使用するスケーラブルなビットストリームからのサブバンド（例えば、ｔ−Ｈ₁、ｔ−Ｈ₂、ｔ−Ｈ₃、ｔ−Ｈ₄、およびｔ−Ｌ₄）のいずれに対しても、エントロピー復号化および空間逆分解を実行する。デコーダ（１５００）は、第３および第４のレベルの時間逆分解を実行して、ｔ−Ｈ₃、ｔ−Ｈ₄、およびｔ−Ｌ₄サブバンド、ならびに関連する動き情報から、差異サブバンドｔ−Ｌ₂”を再構成する。

組み込みデコーダ（１５２０）は、基本レイヤ解像度で符号化された映像に関する、基本レイヤビットストリーム（１５９５）を受信する。組み込みデコーダ（１５２０）は、適切な復号化操作を使用して、基本レイヤビットストリーム（１５９５）内の圧縮およびダウンサンプリングされたサブバンドｔｓ−ＬＬを復号化し、サブバンドの再構成されたバージョンｔｓ−ＬＬ’を生成する。

アップサンプリングモジュール（１５３０）は、基本レイヤデコーダ（１５２０）からの再構成出力サブバンドｔｓ−ＬＬ’を、何らかのフィルタリングメカニズムを使用してアップサンプリングし、時間サブバンドｔ−Ｌ₂の再構成されたバージョンｔ−Ｌ₂’を生成する。再構成サブバンドｔ−Ｌ₂’は、ｔ−Ｌ₂と同じ解像度をもつ。例えば、アップサンプリングモジュール（１５３０）は、係数２によって垂直または水平に空間解像度を増加させる。より一般には、アップサンプリングモジュール（１５３０）は、組み込みデコーダ（１５２０）からの出力の空間解像度を任意の比率で変更して、基本レイヤのダウンサンプリング以前にもっていた空間解像度まで映像を回復させる。

デコーダ（１５００）は、再構成された差異サブバンドｔ−Ｌ₂”を、対応する再構成サブバンドｔ−Ｌ₂’に加算する。これによって、残りの時間逆分解に入力される、時間ローパスサブバンドｔ−Ｌ₂の再構成されたバージョンが生成される。

２．第２の方式
図１６には、第２の方式による３Ｄサブバンドエンコーダ（１６００）が示されている。エンコーダ（１６００）は、組み込み基本レイヤコーデック（１６２０）の他、基本レイヤコーデック（１６２０）の前後に、ＤＷＴモジュール（１６１０）およびＩＤＷＴモジュール（１６３０）を含む。

図１４に示すダウンサンプリングモジュール（１４１０）およびアップサンプリングモジュール（１４３０）と同様に、ＤＷＴモジュール（１６１０）およびＩＤＷＴモジュール（１６３０）はオプションである。これらは、組み込みコーデック（１６２０）によって符号化される映像が、組み込みコーデック（１６２０）に入力される時間サブバンドｔ−Ｌ₂よりも低い空間解像度をもつ場合に使用される。それ以外の場合、ＤＷＴモジュール（１６１０）およびＩＤＷＴモジュール（１６３０）はスキップすることができる。

図１６内の破線の長方形は、２つのレベルの時間分解の後の、基本レイヤコーデック（１６２０）に関連する操作を囲っている。ＤＷＴモジュール（１６１０）は、ｔ−Ｌ₂時間サブバンドを処理して、ローパスサブバンドｔｓ−ＬＬを生成する。一般に、ＤＷＴモジュール（１６１０）は、組み込みコーデック（１６２０）への入力の空間解像度を変更して、所望の基本レイヤ空間解像度を達成し、および／または入力の空間解像度を基本レイヤコーデック（１６２０）において許容可能なものにする。ＤＷＴモジュール（１６１０）は、ＩＤＷＴモジュール（１６３０）に転送される、空間ハイパスサブバンドｔｓ−ＬＨ、ｔｓ−ＨＬ、およびｔｓ−ＨＨも生成する。

組み込みコーデック（１６２０）は、ｔｓ−ＬＬサブバンドを、組み込みコーデック（１６２０）の通常操作を使用して符号化する。組み込みコーデック（１６２０）は、基本レイヤ解像度で、出力基本レイヤビットストリーム（１６９５）を生成する。組み込みコーデック（１６２０）はまた、組み込みコーデック（１６２０）用の対応する復号化操作を使用して、ｔｓ−ＬＬサブバンドを復号化し、再構成されたサブバンドｔｓ−ＬＬ’を生成する。

エンコーダ（１６００）は、元のサブバンドｔｓ−ＬＬから、その再構成されたバージョンｔｓ−ＬＬ’を減算する。これによって、残差サブバンドｔｓ−ＬＬ”が生成される。図１４のエンコーダ（１４００）の場合のように、基本レイヤコーデック（１６２０）が効率的であり、かつ基本レイヤビットレートが適切である場合、残差サブバンドｔｓ−ＬＬ”は一般に、あまり大きなエネルギーをもたない。反対に、基本レイヤコーデック（１６２０）があまり効率的でないか、または基本レイヤビットレートが不適切である場合、残差サブバンドｔｓ−ＬＬ”は、より大きなエネルギーをもつことがある。

残差サブバンドｔｓ−ＬＬ”、ならびに空間ハイパスサブバンドｔｓ−ＬＨ、ｔｓ−ＨＬ、およびｔｓ−ＨＨから、ＩＤＷＴモジュール（１６３０）は、新しい残差サブバンドｔ−Ｌ₂”を生成する。新しい残差サブバンドｔ−Ｌ₂”は、ＤＷＴモジュール（１６１０）に入力されたサブバンドｔ−Ｌ₂と同じ空間解像度をもつ。

エンコーダ（１６００）は、残差サブバンドｔ−Ｌ₂”に対して、さらに２つのレベルの時間分解を実行する。最後に、エンコーダ（１６００）は、個々のサブバンド（例えば、ｔ−Ｈ₁、ｔ−Ｈ₂、ｔ−Ｈ₃、ｔ−Ｈ₄、およびｔ−Ｌ₄）に対して、空間変換およびエントロピー符号化を実行して、スケーラブルなビットストリームを生成する。

図１７には、第２の方式による対応する３Ｄサブバンドデコーダ（１７００）が示されている。デコーダ（１７００）は、組み込み基本レイヤデコーダ（１７２０）の他、基本レイヤデコーダ（１７２０）の前後に、ＤＷＴモジュール（１７１０）およびＩＤＷＴモジュール（１７３０）を含む。

ＤＷＴモジュール（１７１０）およびＩＤＷＴモジュール（１７３０））はオプションである。これらは、組み込みデコーダ（１７２０）によって復号化される映像が、ダウンストリーム時間逆変換レベルに出力される時間サブバンドｔ−Ｌ₂よりも低い空間解像度をもつ場合に使用される。それ以外の場合、ＤＷＴモジュール（１７１０）およびＩＤＷＴモジュール（１７３０）はスキップすることができる。

図１７内の破線の長方形は、２つの付加的レベルの時間逆分解の前の、基本レイヤデコーダ（１７２０）に関連する操作を囲っている。基本レイヤは、映像の低フレームレートかつ（可能性として）低空間解像度の表示を提供し、そのようなより低い品質の映像は、基本レイヤデコーダ（１７２０）を用いて直接に復号化し、出力することができる。

それ以外では、デコーダ（１７００）は、デコーダ（１７００）が映像を再構成するのに使用するスケーラブルなビットストリームからのサブバンド（例えば、ｔ−Ｈ₁、ｔ−Ｈ₂、ｔ−Ｈ₃、ｔ−Ｈ₄、およびｔ−Ｌ₄）のいずれに対しても、エントロピー復号化および空間逆分解を実行する。デコーダ（１７００）は、第３および第４のレベルの時間逆分解を実行して、ｔ−Ｈ₃、ｔ−Ｈ₄、およびｔ−Ｌ₄サブバンド、ならびに関連する動き情報から、残差サブバンドｔ−Ｌ₂”を再構成する。

ＤＷＴモジュール（１７１０）は、残差ｔ−Ｌ₂”を処理し、空間ローパス残差サブバンドｔｓ−ＬＬ”、ならびに空間ハイパスサブバンドｔｓ−ＬＨ”、ｔｓ−ＨＬ”、およびｔｓ−ＨＨ”の再構成されたバージョンを生成する。一般に、ＤＷＴモジュール（１７１０）は、ローパス残差サブバンドｔｓ−ＬＬ”が、空間解像度に関して組み込みデコーダ（１７２０）の出力と一致するように、空間解像度を変更する。

組み込みデコーダ（１７２０）は、基本レイヤ解像度で符号化された映像に関する、基本レイヤビットストリーム（１７９５）を受信する。組み込みデコーダ（１７２０）は、適切な復号化操作を使用して、基本レイヤビットストリーム（１７９５）内の圧縮および変換されたサブバンドｔｓ−ＬＬを復号化し、サブバンドの再構成されたバージョンｔｓ−ＬＬ’を生成する。

デコーダ（１７００）は、再構成された残差サブバンドｔｓ−ＬＬ”を、組み込みデコーダ（１７２０）から出力された対応する再構成されたサブバンドｔｓ−ＬＬ’に加算する。これによって、元のｔｓ−ＬＬサブバンドの再構成されたバージョンが生成される。

その後、ＩＤＷＴモジュール（１７３０）は、再構成されたｔｓ−ＬＬサブバンドを、ＤＷＴモジュール（１７１０）から出力された空間ハイパスサブバンドｔｓ−ＬＨ”、ｔｓ−ＨＬ”、およびｔｓ−ＨＨ”と合成する。これによって、残りの時間逆分解に入力される、時間ローパスサブバンドｔ−Ｌ₂の再構成されたバージョンが生成される。

３．第３の方式
最初の２つの符号化方式は、基本レイヤコーデックが、時間変換の中に組み込まれ、残差信号がさらに、後の時間変換の中で分解される。対照的に、第３の符号化方式では、後の時間変換は、（残差フレームではなく）時間ローパスフレームに適用される。

図１８には、第３の方式による３Ｄサブバンドエンコーダ（１８００）が示されている。エンコーダ（１８００）は、組み込み基本レイヤコーデック（１８２０）の他、基本レイヤコーデック（１８２０）の前後に、ダウンサンプリングモジュール（１８１０）およびアップサンプリングモジュール（１８３０）を含む。図１８内の破線の長方形は、２つのレベルの時間分解の後の、基本レイヤコーデック（１８２０）に関連する操作を囲っている。図１４に示すエンコーダ（１４００）の対応するモジュールの場合のように、ダウンサンプリングモジュール（１８１０）およびアップサンプリングモジュール（１８３０）はオプションである。第２および第３の時間変換の間のスケーラブルな映像と同様に、基本レイヤ映像は、毎秒ｆ／４フレームであり、解像度は、ダウンサンプリングモジュール（１８１０）によって低下させることができる。したがって、基本レイヤ映像はやはり、元の映像の低フレームレートかつ（可能性として）低空間解像度の表示を提供する。

ダウンサンプリングモジュール（１８１０）は、簡単なサブサンプリング、ローパスフィルタ、または他の何らかのフィルタリングメカニズムを使用して、ｔ−Ｌ₂時間サブバンドをダウンサンプリングする。一般に、ダウンサンプリングモジュール（１８１０）は、組み込みコーデック（１８２０）への入力の空間解像度を任意の比率で変更して、所望の基本レイヤ空間解像度を達成し、かつ／または入力の空間解像度を基本レイヤコーデック（１８２０）で許容可能なものする。

組み込みコーデック（１８２０）は、（ｔｓ−ＬＬサブバンドとして示されている）ダウンサンプリングされたｔ−Ｌ₂サブバンドを、組み込みコーデック（１８２０）の通常操作を使用して符号化する。組み込みコーデック（１８２０）は、基本レイヤ解像度で、ビットレートが最低の出力基本レイヤビットストリーム（１８９５）を生成し、出力基本レイヤビットストリーム（１８９５）は、対応する基本レイヤデコーダと互換性がある。組み込みコーデック（１８２０）はまた、エンコーダ（１８００）内での後の符号化のため、組み込みコーデック（１８２０）用の対応する復号化操作を使用して、ｔｓ−ＬＬサブバンドを復号化し、再構成されたサブバンドｔｓ−ＬＬ’を生成する。

アップサンプリングモジュール（１８３０）は、基本レイヤコーデック（１８２０）からの再構成された出力サブバンドｔｓ−ＬＬ’を、何らかのフィルタリングメカニズムを使用してアップサンプリングし、時間サブバンドｔ−Ｌ₂の再構成されたバージョンｔ−Ｌ₂’を生成する。再構成されたサブバンドｔ−Ｌ₂’は、ｔ−Ｌ₂と同じ解像度をもつ。一般に、アップサンプリングモジュール（１８３０）は、組み込みコーデック（１８２０）からの出力の空間解像度を任意の比率で変更して、ダウンサンプリングモジュール（１８１０）以前にもっていた空間解像度まで映像を回復させる。

エンコーダ（１８００）は、元の（基本レイヤ処理以前の）時間サブバンドｔ−Ｌ₂に対して、第３および第４のレベルの時間分解を実行する。第３および第４の時間変換の場合、エンコーダ（１８００）は、時間ハイパスサブバンドｔ−Ｈ₃およびｔ−Ｈ₄について動き補償予測を計算する。予想されるように、時間サブバンドｔ−Ｌ₂は、第４のレベルの時間分解において、動き補償のための参照フレーム候補（例えば、ｔ−Ｌ₂の偶数フレーム）を提供する。第３の方式によれば、アップサンプリングされた再構成されたサブバンドｔ−Ｌ₂’内の時間的に対応する画像は、動き補償のための参照フレーム追加候補として働く。例えば、（ｔ−Ｌ₂の奇数インデックスフレームと同じ時間をもつ）ｔ−Ｌ₂’の１つおきのフレームは、第３のレベルの時間分解において、ｔ−Ｌ₂の奇数インデックスフレームのＭＣＰ用の参照として利用可能である。（ｔ−Ｌ₃の奇数インデックスフレームと同じ時間をもつ）ｔ−Ｌ₂’の３つおきのフレームは、第４のレベルの時間分解において、ｔ−Ｌ₃の時間的に対応する奇数インデックスフレームのＭＣＰ用の参照として利用可能である。

図２０には、組み込み基本レイヤコーデックの後の時間変換における、動き補償のための異なる参照組合せ事例が示されている。参照フレーム候補は、入力時間ローパスサブバンドからのフレーム（例えば、偶数フレーム）を含む。参照フレーム候補は、基本レイヤのアップサンプリング出力からの、時間的に対応する（例えば、同じ時間の）再構成されたフレームも含む。例えば、図２０の組合せ（１）では、ハイパスサブバンドフレームＨは、前の時間サブバンドの偶数フレームに基づく第１の動き補償予測を使用し、かつ（ハイパスサブバンドフレームＨと時間的に同じところに位置する）基本レイヤからのアップサンプリングされた再構成に基づく第２の動き補償予測を使用する。これに対して、ハイパスサブバンドフレームＨは、（対応するローパスサブバンドフレームＬを生成するために）、動き補償で使用される偶数フレームを更新するためだけに使用される。基本レイヤからの参照が予測工程で使用される場合、それのための対応する更新工程は必要とされない。

いくつかの実装では、エンコーダは、マクロブロックごとに、動き補償のための参照フレームを選択し、交換する。代替として、エンコーダは、他の何らかの基準（例えば、現在の奇数フレームごと、動きベクトルおよびマクロブロックパーティションごと）に基づいて、動き補償のための参照フレームを選択し、交換する。

図１８に戻ると、最後の時間分解の後、基本レイヤ出力ｔ−Ｌ₂’のフレームレートは、最終的な時間ローパスサブバンドｔ−Ｌ₄のフレームレートの４倍である。エンコーダ（１８００）は、最終的な時間ローパスサブバンドｔ−Ｌ₄から、基本レイヤ出力ｔ−Ｌ₂’の時間的に対応するアップサンプリングされた再構成されたフレームを減算する。これによって、残差サブバンドｔ−Ｌ₄’が生成される。最後に、エンコーダ（１８００）は、個々のサブバンド（例えば、ｔ−Ｈ₁、ｔ−Ｈ₂、ｔ−Ｈ₃、ｔ−Ｈ₄、およびｔ−Ｌ₄’）に対して、空間変換およびエントロピー符号化を実行して、スケーラブルなビットストリームを生成する。

図１９には、第３の方式による対応する３Ｄサブバンドデコーダ（１９００）が示されている。デコーダ（１９００）は、組み込み基本レイヤデコーダ（１９２０）の他、基本レイヤデコーダ（１９２０）の後に、アップサンプリングモジュール（１９３０）を含む。

図１５に示すデコーダ（１５００）と同様に、アップサンプリングモジュール（１９３０）はオプションである。これは、組み込みデコーダ（１９２０）によって復号化される映像が、ダウンストリーム時間逆変換レベルによって使用される時間サブバンドフレームよりも低い空間解像度をもつ場合に使用される。それ以外の場合、アップサンプリングモジュール（１９３０）はスキップすることができる。

図１９内の破線の長方形は、４つのレベルの時間逆分解の前の、基本レイヤデコーダ（１９２０）に関連する操作を囲っている。他の基本レイヤデコーダと同様に、低い基本レイヤフレームレートおよび（可能性として）低空間解像度を有する映像は、基本レイヤデコーダ（１９２０）を用いて直接に復号化し、出力することができる。

それ以外では、デコーダ（１９００）は、デコーダ（１９００）が映像を再構成するのに使用するスケーラブルなビットストリームからのサブバンド（例えば、ｔ−Ｈ₁、ｔ−Ｈ₂、ｔ−Ｈ₃、ｔ−Ｈ₄、およびｔ−Ｌ₄’）のいずれに対しても、エントロピー復号化および空間逆分解を実行する。

組み込みデコーダ（１９２０）は、基本レイヤ解像度で符号化された映像に関する、基本レイヤビットストリーム（１９９５）を受信する。組み込みデコーダ（１９２０）は、適切な復号化操作を使用して、基本レイヤビットストリーム（１９９５）内の圧縮およびダウンサンプリングされたサブバンドｔｓ−ＬＬを復号化し、サブバンドの再構成されたバージョンｔｓ−ＬＬ’を生成する。アップサンプリングモジュール（１９３０）は、基本レイヤデコーダ（１９２０）からの再構成された出力サブバンドｔｓ−ＬＬ’を、何らかのフィルタリングメカニズムを使用してアップサンプリングし、時間サブバンドｔ−Ｌ₂の再構成されたバージョンｔ−Ｌ₂’を生成する。

デコーダ（１９００）は、残差サブバンドｔ−Ｌ₄’を、アップサンプリングされた基本レイヤ出力ｔ−Ｌ₂’の時間的に対応する（例えば、同じ時間の）フレームに加算する。これによって、第４レベルの時間逆分解に入力される、時間ローパスサブバンドｔ−Ｌ₄の再構成されたバージョンが生成される。

デコーダ（１９００）は、第３および第４のレベルの時間逆分解を実行して、再構成されたｔ−Ｈ₃、ｔ−Ｈ₄、およびｔ−Ｌ₄サブバンド、ならびに関連する動き情報から、時間サブバンドｔ−Ｌ₂を再構成する。第３および第４の時間逆分解の場合、デコーダ（１９００）は、時間ハイパスサブバンドｔ−Ｈ₃およびｔ−Ｈ₄に関して、動き補償予測を計算する。時間サブバンドｔ−Ｌ₃は、第４レベルの時間変換においてＭＣＰ用に再構成された参照フレーム（例えば、ｔ−Ｌ₃の再構成された偶数フレーム）を有し、時間サブバンドｔ−Ｌ₂は、第３レベルの時間変換においてＭＣＰ用に再構成された参照フレーム（例えば、ｔ−Ｌ₂の再構成された偶数フレーム）を有する。アップサンプリングされた再構成されたサブバンドｔ−Ｌ₂’内の時間的に対応する（例えば、同じ時間の）画像は、第３および第４のレベルの時間逆分解において、動き補償のための追加参照フレームとして働くことができる。

Ｂ．基本レイヤ情報の付加的な用途例
下位互換性の提供、および低ビットレート映像についてのレート歪みに関する圧縮効率の改善の他にも、基本レイヤからの出力には、付加的な用途が存在し得る。

１．基本レイヤからの動きベクトルの再利用
リフティングベースのＭＣＴＦを用いる３Ｄサブバンド符号化においては、ＭＣＰ工程のための動きベクトルは、動き推定によって得られる。いくつかの実装では、動き推定プロセスは、ＭＰＥＧ２、Ｈ．２６４／ＡＶＣなどの既存の映像規格に準拠するエンコーダのための従来の動き推定と同様である。さらに、Ｈａａｒおよび５／３時間変換は、それぞれ従来のＰ画像およびＢ画像の動き補償プロセスと同様である。

ＭＰＥＧ−２、ＭＰＥＧ−４、Ｈ．２６４／ＡＶＣなどの既存の規格と互換性がある基本レイヤコーデックの場合、インター画像（ｉｎｔｅｒ−ｐｉｃｔｕｒｅ）（Ｐ画像またはＢ画像）用のインター圧縮（ｉｎｔｅｒｃｏｍｐｒｅｓｓｉｏｎ）を使用して符号化されるブロックは一般に、関連する動き情報をもつ。一方、３Ｄサブバンド符号化では、基本レイヤコーデックの下流にある時間分解のレベル（例えば、図１４、図１６、および図１８の第３および第４のレベル）でのハイパスサブバンドは、時間的に対応する画像を基本レイヤ出力の中に見つけることができる。多くの場合（特に、第３の方式による場合）では、そのようなハイパスサブバンドについての動き情報と、基本レイヤ内の時間的に対応するインター画像についての動き情報の間には、高い類似性が存在する。この相関に基づいて、エンコーダおよび／またはデコーダは、数々の目的で、基本レイヤコーデックからの動きベクトルを再利用することができる。

基本レイヤ動きベクトルの付加的な用途の一例では、３Ｄサブバンドエンコーダおよび３Ｄサブバンドデコーダは、基本レイヤ動きベクトルを、時間的に対応するハイパスサブバンドフレームのブロックについての実際の動きベクトルとして単純に使用する（基本レイヤフレームとハイパスサブバンドフレームが異なる空間解像度をもつ場合、３Ｄサブバンドエンコーダおよび３Ｄサブバンドデコーダは、基本レイヤ動きベクトルをしかるべくスケーリングすることができる）。特に、３Ｄサブバンドエンコーダおよび３Ｄサブバンドデコーダは、低ビットレートにおいて、この目的で基本レイヤ動きベクトルを使用する。基本レイヤ動きベクトルは、基本レイヤビットストリームの一部としてそれまでに伝えられるので、これによって、もちろん、動き情報のためのオーバーヘッドが減少する。多くの場合では、動き予測の正確性の低下に関する不都合は少ない。

基本レイヤ動きベクトルの付加的な用途の別の例では、３Ｄサブバンドエンコーダおよび３Ｄサブバンドデコーダは、基本レイヤコーデックからの動きベクトルを、動きベクトル予測において使用する。従来の動きベクトル符号化および復号化の一部として、動きベクトル予測は、現在の動きベクトルの値についての予測を提供する。その後、現在の動きベクトルは、予測された動きベクトルに対する差として表し、伝えることができる。エンコーダおよびデコーダは共に、近隣ブロックの事前に再構成された動きベクトルから、現在の動きベクトルについての予測動きベクトルを選択または導出する。

いくつかの実装では、時間ハイパスサブバンドのブロックの現在の動きベクトルについての予測動きベクトルを選択または導出する場合、３Ｄサブバンドエンコーダおよび３Ｄサブバンドデコーダは、時間的に対応する基本レイヤフレームの空間的に対応するブロックからの動きベクトルを使用する。例えば、３Ｄサブバンドエンコーダおよび３Ｄサブバンドデコーダは、基本レイヤからの動きベクトルを、予測動きベクトルとして使用する。あるいは、３Ｄサブバンドエンコーダおよび３Ｄサブバンドデコーダは、基本レイヤからの動きベクトルを、予測動きベクトルが（例えば、候補の中央値として）選択される候補として使用する。

基本レイヤ動きベクトルの付加的な用途のさらに別の例では、３Ｄサブバンドエンコーダは、動き推定をスピードアップするために、基本レイヤ動きベクトルを使用する。例えば、３Ｄサブバンドエンコーダは、適切な現在の動きベクトルをより速やかに見つけるために、動き推定の早い段階で、対応する基本レイヤ動きベクトルについて考える。

同様に、３Ｄサブバンドエンコーダおよび３Ｄサブバンドデコーダは、基本レイヤからの動きモード（例えば、ブロックパーティション、方向）情報を再利用することができる。場合によっては、基本レイヤモード情報は、時間的に対応するハイパスサブバンドフレームのブロックの実際のモード情報として使用することができる。あるいは、基本レイヤモード情報は、モード情報の予測のため、または動き推定をスピードアップするために使用することができる。

図２１から図２３には、基本レイヤの後の時間分解において、基本レイヤからの動き情報が、時間ハイパスサブバンドにとって特に有用となる、異なる符号化構造（フレームタイプのパターン）が示されている。図２１では、基本レイヤの符号化構造は、３Ｄサブバンド符号化にとって共通の構造に適合するように調整される。３つのＢ画像が、２つのＩまたはＰ画像の間に挿入され、第２のＢ画像が、（Ｈ．２６４／ＡＶＣで使用されるストアドＢ画像（ｓｔｏｒｅｄＢ−ｐｉｃｔｕｒｅ）のように）第１および第３のＢ画像の基準として使用される。このようにして、基本レイヤ内のＢ画像の動きベクトルは、３Ｄサブバンド符号化において、時間的に対応するハイパスサブバンドフレームのために非常に自然に再利用することができる。

基本レイヤコーデック用のある既存の規格との互換性のため、図２２のフレームワークは、基本レイヤについての従来の符号化構造を使用するが、３Ｄサブバンド符号化のためにフレームタイプのパターンを調整する。３つのＢ画像が、基本レイヤ内の２つのＩ／Ｐ画像の間に挿入されるが、３つのＢ画像は、参照としてＩ／Ｐ画像だけを利用する（動き補償の参照としてＢ画像は利用しない）。３Ｄサブバンド符号化方式では、パターンは、２つのローパスサブバンドの間で生成される３つのハイパスサブバンドを含む。

図２３には、汎用的なパターンが示されている。基本レイヤでは、３Ｄサブバンド符号化におけるハイパスサブバンドに時間的に対応する画像は、ＢまたはＰ画像によって符号化される。図２１および図２２に示すパターンは、５／３時間分解に適しているが、図２３に示すパターンは、（Ｐ画像およびＢ画像関係にそれぞれ対応する）Ｈａａｒおよび５／３時間分解のために適応的に使用することができる。

２．基本レイヤからのイントラ領域の予測
映像シーケンス内に遮蔽（ｏｃｃｌｕｓｉｏｎ）または不規則な動きが存在する場合、動き推定は、時間ハイパスサブバンド内のいくつかのブロックに対して、あまりよく一致しないブロックしか見つけることができない。イントラ符号化モードが使用可能でない場合、上記のケースでの強制的なインター予測は、符号化性能を劣化させ、映像品質に悪影響をもたらし得る。

Ｈ．２６４／ＡＶＣ規格では、イントラ予測技法が、ＭＣＰが失敗した場合に対処する。イントラ予測では、現在のブロックの予測変数（ｐｒｅｄｉｃｔｏｒ）は、隣接する再構成されたピクセルから、空間予測によって得られる。しかし、オープンループＭＣＴＦ構造を用いる３Ｄサブバンド符号化では、そのような空間予測は、不一致および誤差ドリフト（ｅｒｒｏｒｄｒｉｆｔｉｎｇ）を持ち込みがちである。

上で説明した第１および第２の組み込み基本レイヤ符号化方式では、基本レイヤ符号化および復号化を終えた後、３Ｄサブバンド符号化のためのさらなる時間分解が、差異情報について実行される（例えば、図１４では、差異情報は、入力時間サブバンドｔ−Ｌ₂と、基本レイヤコーデックからの出力ｔｓ−ＬＬ’のアップサンプリングバージョンｔ−Ｌ₂’の間の残差である）。一般に、差異は高周波数エネルギーだけをもち、その空間冗長性は低い。したがって、基本レイヤコーデックにおいて、ブロックがイントラモードで符号化される場合、３Ｄサブバンド符号化における後の時間分解でのイントラ予測は、通常不必要になる。これは、オープンループ３Ｄサブバンド符号化でのイントラ予測に関連する不一致の問題を回避しながら、符号化性能および視覚品質を向上させるのに役立つ。

一方、上で説明した第３の組み込み基本レイヤ符号化方式では、３Ｄサブバンド符号化のためのさらなる時間分解が、差異情報について実行されない。しかし、第３の方式では、基本レイヤコーデックの出力が、参照画像の候補を提供することができ、参照画像の候補は、空間イントラ予測を使用して符号化されたブロックを含むことができる。基本レイヤ出力からの参照画像のイントラ符号化ブロックに対して動き補償を実行することは、ＭＣＴＦでのＭＣＰが、その他の方法では、あまりよく一致しないブロックしか見つけることができない状況に対処するのに役立つ。基本レイヤ出力からの参照画像は、後の３Ｄサブバンド符号化において、ローパスサブバンドのための予測変数として使用することもできる。３Ｄサブバンドエンコーダは、基本レイヤからのイントラモード情報を使用して、後のＭＣＰまたは他の予測のために基本レイヤ出力からの参照画像をいつ使用すべきかを決定することができる。

３．さらなる時間分解のための動き推定
純粋な３Ｄサブバンド符号化、および上で説明した第３の方式による組み込み基本レイヤデコーダを用いる３Ｄサブバンド符号化では、動き推定は元のローパスサブバンドについて実行されて、より高いレベルのハイパスサブバンドおよび動き情報が取得される。そのような動き推定は、残差情報符号化コスト対動き情報符号化コストに重みづけを行う「ラムダ（ｌａｍｂｄａ）」パラメータなどの、多くの従来の動き推定パラメータを効果的に含む。

しかし、上で説明した第１および第２の方式による組み込み基本レイヤデコーダを用いる３Ｄサブバンド符号化の場合、さらなる時間分解のための動き推定が、差異情報について実行される。そのようなものとして、動き推定は、さらなる時間分解において、近隣フレーム間での時間冗長性を利用するように、従来の動き推定パラメータを適合させる。例えば、エンコーダは、時間分解への異なる入力の原因となる（ａｃｃｏｕｎｔｆｏｒ）ように、ラムダパラメータを調整する。

Ｃ．基本レイヤコーデックまたはデコーダを使用するための方法例
図２４には、組み込み基本レイヤコーデックを用いるスケーラブルな符号化のための方法（２４００）が示されている。図２５には、組み込み基本レイヤデコーダを用いるスケーラブルな復号化のための方法（２５００）が示されている。図１４、図１６、および図１８を参照しながら説明したような３Ｄサブバンドエンコーダは、図２４に示す方法（２４００）を実行し、図１５、図１７、および図１９を参照しながら説明したような３Ｄサブバンドデコーダは、図２５に示す方法（２５００）を実行する。代替として、別のエンコーダまたはデコーダが、これらの方法（２４００、２５００）を実行する。

図２４を参照すると、３Ｄサブバンドエンコーダは、映像の１つまたは複数のレイヤを、サブバンド符号化を使用して符号化する（２４１０）。これによって、基本レイヤコーデックへの入力が生成される。例えば、３Ｄサブバンドエンコーダは、１つまたは複数のレベルのＭＣＴＦを実行して、時間ハイパスサブバンドについての動き情報を見つけ、また基本レイヤコーデックに入力される基本フレームレート映像として使用する時間ローパスサブバンドを生成する。代替として、３Ｄサブバンドエンコーダは、このステージにおいて、他のタイプおよび／または追加のタイプの符号化を実行する。

３Ｄサブバンドエンコーダは、基本レイヤ映像を、基本レイヤコーデックを用いて符号化する（２４３０）。例えば、基本レイヤコーデックは、Ｈ．２６４／ＡＶＣ、ＭＰＥＧ−２、ＶＣ−１、またはＷＭＶ９コーデックであり、対応する圧縮映像ビットストリームおよび再構成された出力映像を生成する。動き情報およびイントラモード情報は、圧縮映像ビットストリームの一部であり、またはこれらの情報は、他の何らかの形式で、別々に３Ｄサブバンドエンコーダに提供することができる。

その後、３Ｄサブバンドエンコーダは、基本レイヤコーデックからの結果を使用して、映像の１つまたは複数のレイヤを符号化する（２４５０）。例えば、３Ｄサブバンドエンコーダは、基本レイヤ符号化および復号化の結果から計算された差異情報について１つまたは複数のレベルの時間分解を実行する。あるいは、３Ｄサブバンドエンコーダは、基本レイヤコーデックからの再構成された映像内の参照画像を使用して、時間ローパスサブバンドについて１つまたは複数のレベルの時間分解を実行する。あるいは、３Ｄサブバンドエンコーダは、符号化または時間分解での決定において、動き情報および／またはイントラモード情報を使用する。代替として、３Ｄサブバンドエンコーダは、後続のサブバンド符号化において、他の何らかの方法で、基本レイヤコーデックからの結果を使用し、または後続の符号化（２４５０）をスキップする。

エンコーダは、符号化プロセスを続行するかどうかを決定し（２４９０）、続行する場合、次のフレームに移って処理を続ける。

図２５を参照すると、３Ｄサブバンドデコーダは、基本レイヤ映像を、基本レイヤデコーダを用いて符号化する（２５３０）。例えば、基本レイヤデコーダは、Ｈ．２６４／ＡＶＣ、ＭＰＥＧ−２、ＶＣ−１、またはＷＭＶ９デコーダであり、基本レイヤデコーダは、対応する圧縮映像ビットストリームを解析し、符号化し、再構成された出力映像を生成する。

３Ｄサブバンドデコーダは、復号化のための解像度を決定する（２５４０）。解像度は、ユーザレベルの設定または他の何らかの設定に従って決定することができ、デコーダが実際にどれだけの情報（例えば、基本レイヤ映像だけ、またはその上に１つまたは複数の追加レイヤ）を受信したかに従って決定することができ、または他の何らかの方法で決定することができる。代替として、３Ｄサブバンドデコーダは、復号化パスを１つだけもつ。例えば、１つのデコーダは、基本レイヤパスを含むことができるが、別のデコーダは、個々のデコーダのリソースに適するように、基本レイヤ＋スケーラブルなレイヤのパスを含む。

より高い解像度の映像を復号化する必要がない場合（例えば、判断２５４０からの「ｎｏ」パス）、３Ｄサブバンドデコーダは、ステージ（２５９０）から処理を続ける。

それ以外の場合、３Ｄサブバンドデコーダは、基本レイヤ復号化からの結果を使用して、映像の１つまたは複数の追加レイヤを復号化する。例えば、３Ｄサブバンドデコーダは、差異情報について１つまたは複数のレベルの時間逆分解を実行し、その後、再構成された差異情報を基本レイヤ復号化の結果に加算する。あるいは、３Ｄサブバンドデコーダは、基本レイヤデコーダからの再構成された映像内の参照画像を使用して、１つまたは複数のレベルの時間逆分解を実行し、時間ローパスサブバンドを再構成する。代替として、３Ｄサブバンドデコーダは、後続のサブバンド復号化において、他の何らかの方法で、基本レイヤデコーダからの結果を使用する。

最後に、デコーダは、復号化プロセスを続行するかどうかを決定し（２５９０）、続行する場合、次のフレームに移って処理を続ける。

図２４および図２５に示す様々な操作は、分割することができ、他の操作と結合することができ、または順序を変更することができる。

ＶＩ．ＳＤＭＣＴＦ符号化映像の復号化における空間スケーラビリティ
一般に、３Ｄサブバンド映像符号化においてＭＣＴＦがいつ実行されるかに応じて、ＭＣＴＦの２つのカテゴリが存在する。インバンドＭＣＴＦ（「ＩＢＭＣＴＦ」）と呼ばれる第１のカテゴリでは、エンコーダは、最初に映像を空間的に分解し、その後、サブバンド／ウェーブレット領域でＭＣＴＦを実行する。その後、エンコーダは、さらなる空間分解を実行することができる。空間領域ＭＣＴＦ（「ＳＤＭＣＴＦ」）と呼ばれる第２のカテゴリでは、エンコーダは、空間分解の前に、空間領域で直接にＭＣＴＦを実行する。同様に、復号化時には、ＩＭＣＴＦを空間領域で（「ＳＤＩＭＣＴＦ」）、またはインバンドで（「ＩＢＩＭＣＴＦ」）実行することができる。

したがって、ＳＤＭＣＴＦを用いる３Ｄサブバンド符号化では、空間領域および後続の空間変換において、映像全体が、複数の動き調整（ｍｏｔｉｏｎ−ａｌｉｇｎｅｄ）時間変換によって分解される。図５には、４つのレベルの時間（逆）変換および２つのレベルの空間（逆）変換を用い、また復号化で空間スケーラビリティを用いない、完全な符号化および復号化方式が示されている。復号化プロセスは、正確に図５の符号化の逆プロセスである。

一般に、ＩＢＭＣＴＦ方式の性能は、個々のビットレートでの品質に関して、ＳＤＭＣＴＦ方式の性能ほど良好ではない。この理由で、多くの３Ｄサブバンドエンコーダは、ＳＤＭＣＴＦを使用する。しかし、いくつかの適用例では、デコーダは、映像出力の低空間解像度バージョンを生成する。例えば、元の映像がＣＩＦ解像度（３５２×２８８ピクセル）であり、１レベルの空間スケーラビリティによる復号化を行う場合、３Ｄサブバンドデコーダは、復号化映像のＱＣＩＦバージョン（１７６×１４４ピクセル）を生成する。これは、デコーダがより狭い画面装置に関連する場合、またはデコーダが信頼性の低いコネクションを介して低空間解像度のサブバンド情報だけを受信する場合に相当し得る。しかし、動き情報、参照画像などは最大空間解像度に関して表されるので、これらのシナリオは、映像のＭＣＴＦ操作が空間領域で実行される場合に問題が多い。

このセクションでは、低空間解像度での出力用にＳＤＭＣＴＦ符号化映像を復号化する場合に、復号化性能を改善するための様々なメカニズムについて説明する。例えば、いくつかの実施形態では、３Ｄサブバンド映像デコーダは、何らかの解像度（例えば、ＣＩＦ）で、ＳＤＭＣＴＦを使用して符号化された映像を受信するが、より低い解像度（例えば、ＱＣＩＦ）で、その映像を出力用に復号化する。３Ｄサブバンドデコーダは、複数の異なるメカニズムのいずれかを使用して、復号化性能を改善する。

Ａ．ＳＤＭＣＴＦ映像の復号化における簡単な空間スケーラビリティ方式
図２６には、ＳＤＭＣＴＦ符号化映像の圧縮映像ビットストリームから、低空間解像度映像を復号化し、出力するための２つの簡単な方式（２６００、２６５０）が示されている。低空間解像度映像は、図２６の１レベルの空間スケーラビリティによる最大空間解像度とは異なる。

第１の方式（２６００）は、直接的な解法を提供する。３Ｄサブバンドデコーダは、最初に（ＣＩＦとして示される）最大空間解像度映像を回復する（第２の空間逆変換のための空間ハイパス（「ＳＨ」）サブバンドがないという仮定の下では、デコーダは、第２の空間逆変換において、ＳＨサブバンドを空（ＳＨ＝０）として扱う）。時間逆分解の後、３Ｄサブバンドデコーダは、（空間変換として示される）フィルタを用いて、最大空間解像度を（ＱＣＩＦとして示される）出力解像度にダウンサンプリングする。デコーダは、ＳＤＩＭＣＴＦを実行し、デコーダは、中間工程でＣＩＦ映像を復号化するときに、多くの復号化リソース（例えば、計算リソース、参照画像バッファ）を使用する。

一方、第２の方式（２６５０）では、３Ｄサブバンドデコーダは、ＩＢＩＭＣＴＦを実行する。第２の方式（２６５０）には、低解像度映像を復号化する経験則的（ｈｅｕｒｅｓｔｉｃ）な方法が示されている。第１の方式（２６００）と同様に、第２の方式（２６５０）は、エントロピー復号化および４つのレベルの時間逆変換を含む。第２の方式（２６５０）は、第１の方式（２６００）よりも１つ少ない空間逆変換を効果的に含む（第２の方式（２６５０）に関して示す第２の空間逆変換と後続の空間変換は、互いに相殺しあい、省略することができる）。

第２の方式（２６５０）では、３Ｄサブバンドデコーダは本質的に、空間ローパス（「ＳＬ」）サブバンド（第１の空間逆変換の出力）を、元の映像の全体として扱い、ＳＬサブバンド解像度で時間逆変換を実行する。この方式は、空間スケーラビリティを用いずに復号化プロセスを近似し、（参照画像などに関する）計算複雑度およびバッファの要求条件を低下させる利点を有する。さらに、映像の元の解像度および空間スケーラビリティを、デコーダから完全に透過的にすることができる。方式（２６５０）の性能は、低ビットレートでは満足できるが、高ビットレートでは満足できるものではない。特に、ビットレートが増加するにつれて、ビットレートが非常に高くても、高品質の低空間解像度映像を再構成することは困難または不可能になる。

図２６に示す２つの復号化方式（２６００、２６５０）の間の相違は、ＩＭＣＦＴ時にＭＣＰおよびＭＣＵ工程がどのように実行されるかにある。図２７には、１レベルのＩＭＣＴＦにおける、２つの方式（２６００、２６５０）のＭＣＰが示されている。特に、図２７には、参照画像内の利用可能なＳＬサブバンド情報（ＳＨサブバンド情報は対象外）からの、予測工程におけるＳＬリフティング信号（ｌｉｆｔｉｎｇｓｉｇｎａｌ）の生成が示されている。

ＳＤＩＭＣＴＦの場合、ＳＬリフティング信号は、以下のように生成される。

ただし、ＩＮＴＰ_SDは、参照画像情報についての、空間領域のピクセル上での補間を表し、ＭＣＰ_SDは、空間領域でのＭＣＰを表す。ＤＷＴは、線形演算であり、
ＤＷＴ（Ｆ₁＋Ｆ₂）＝ＤＷＴ（Ｆ₁）＋ＤＷＴ（Ｆ₂）（１０）
となる。ＳＬ解像度バッファを使用して、中間結果を保持するために、ＤＷＴは、空間領域予測をＳＬ領域での予測に低下させる。

ＩＢＩＭＣＴＦの場合、ＳＬリフティング信号は、以下のように生成される。

ただし、ＩＮＴＰ_SLは、参照画像情報についての、ＳＬ領域のピクセル上での補間を表し、ＭＣＰ_SLは、ＳＬ領域でのＭＣＰを表す。簡略化のため、同じ補間フィルタが、ＩＮＴＰ_SDおよびＩＮＴＰ_SL用に使用される。

Ｂ．理論的分析
様々な要因が、ＳＤＭＣＴＦ符号化映像の３Ｄサブバンド符号化において、空間スケーラビリティに関係する問題をもたらす。１つの要因は、ＳＬ領域における補間および動き補償の非効率性である。別の要因は、（符号化におけるＭＣＴＦの位置と比べた）ＩＭＣＴＦの位置である。さらに別の要因は、動き補償に起因する、サブバンド全体にわたる電力スペクトルリーク（ｐｏｗｅｒｓｐｅｃｔｒｕｍｌｅａｋ）である。

これらの要因の他にも、様々な符号化／復号化の機能の結果として、エンコーダにおけるＳＤＭＣＴＦとデコーダにおけるＩＢＩＭＣＦＴの間の不一致が生じ得る。そのような機能に、動きベクトルスケーリングおよびＯＢＭＣの２つがある。このセクションでは、簡略化のため、動きベクトルの精度は、ＩＢＩＭＣＴＦにおいて変更されず、動き補償のために使用されるサブピクセル補間は、ＩＢＩＭＣＴＦ時に動き情報を利用するのに十分な精細さをもつと仮定する。やはり簡略化のため、ＯＢＭＣは使用不可とし、ＭＣＰ操作は、適用可能な動きベクトルに従うだけの単純なピクセルフェッチ操作（ｐｉｘｅｌ−ｆｅｔｃｈｉｎｇｏｐｅｒａｔｉｏｎ）であると仮定する。これらの単純化した仮定を用いても、前の段落で列挙した要因は、ＩＢＩＭＣＴＦの性能を低下させ得る。

１．補間
空間領域補間とＳＬ領域補間の両方で、（双１次フィルタまたは８タップｓｉｎｃフィルタなど）同じ補間フィルタが使用される場合であっても、２つの操作の異なるスケールのために、フレーム内の同じ位置にある与えられた分数（ｆｒａｃｔｉｏｎａｌ）ピクセルは、ピクセルの異なる組によって補間される。この結果、サブピクセルで補間された参照画像の間で不一致が生じる。

ＳＬ領域での補間は、別の理由で非最適なものとなり得る。ウェーブレット変換のデシメーション（ｄｅｃｉｍａｔｉｏｎ）特性のため、空間ＬＬバンドだけでは、元の映像のローパス信号全体の完全な表現ではない。すなわち、ハイパス信号を考慮しない場合、またはハイパス信号が存在しない場合、位相位置の半分のところで、ローパス信号の一部が失われる。デシメーションの１つの結果は、空間ＬＬバンドのシフトバリアント（ｓｈｉｆｔ−ｖａｒｉａｎｔ）特性である。ＬＬバンドの非完全性のせいで、補間されたローパスフレームを取得した場合、ＬＬバンドでの（操作（１２）に示すような）直接的な補間の実行は、最適でないことがあり得る。

および

代替策は、過完備ウェーブレット（ｏｖｅｒｃｏｍｐｌｅｔｅｗａｖｅｌｅｔ）表現への変換によって、ハーフピクセル補間を実行することである。ＳＬサブバンドの過完備表現は、完全−過完備ＤＷＴ（ｃｏｍｐｌｅｔｅ−ｔｏ−ｏｖｅｒｃｏｍｐｌｅｔｅＤＷＴ）（図示せず）によって、または（操作１３に示す）逆ＤＷＴおよび過完備ＤＷＴ（「ＯＣＤＷＴ」）によって生成することができる。このＩＤＷＴにＯＣＤＷＴを加えた組合せは、１レベルの補間として働く。補間の残りのレベルは、操作（１３）においてＩＮＰＴＯＣ−ＬＬとして示された、過完備ウェーブレット領域における従来の補間を用いて実行することができる。

従来の過完備ウェーブレット表現への変換は、ＳＬ領域におけるハーフピクセル補間を提供するだけである。ＳＬ領域においてクォータピクセル動きベクトル精度またはより精細な動きをサポートするため、デコーダは、連続位相過完備ウェーブレット変換（continuous phase overcomplete wavelet transform）（「ＣＰＯＣＷＴ」）を使用することができる。ＳＬサブバンドのクォータピクセル位置について、デコーダは、操作（１４）に示すような、空間領域での補間を実行する。その後、補間フレームのローパスサブバンドが、ＤＷＴに与えられる。ＤＷＴは、スケールに敏感（ｓｃａｌｅｓｅｎｓｉｔｉｖｅ）な操作である。エンコーダにおけるＤＷＴと一致するように、デコーダは、補間フレーム内のｍのサンプリングピクセル（ｍ−ｓａｍｐｌｅｄｐｉｘｅｌｓ）についてＯＣＤＷＴを実行するが、ｍ×ｍは、ＯＣＤＷＴの前の空間領域補間の係数である。操作（１４）において、ＤＳＤＷＴは、空間領域補間フレームを多数のサブバンドにダウンサンプリングすること、個々のサブフレームについてＯＣＤＷＴを実行すること、および取得した係数を元通りインターリーブすることを表す。そのようなものとして、ＤＳＤＷＴは、ＯＣＤＷＴの一種である。

操作（１２）から操作（１４）の各々によれば、デコーダは、ｍ×ｍの参照画像について、ＳＬ領域における動き補償予測を実行する。

２．ＤＷＴとＭＣＰの位置交換
ＩＢＩＭＣＴＦの場合、（１４）に示すように、インバンド補間が空間領域補間で置き換えられたとしても、ＭＣＰのための参照画像は依然としてローパスフレームであり、ＭＣＰはウェーブレット領域で起こる。エンコーダと比較して、ＤＷＴとＭＣＰの期待される順序は交換される（エンコーダでは、ＭＣＰがＤＷＴの前に置かれる）。しかし、ＤＷＴのシフトバリアント特性のため、ＤＷＴ操作とＭＣＰ操作は非可換である。

ＤＷＴ（ＭＣＰ_SD（Ｆ_SD））≠ＭＣＰ_SL（ＤＷＴ（Ｆ_SD））（１５）、および
ＩＤＷＴ（ＭＣＰ_SL（Ｆ_SL））≠ＭＣＰ_SD（ＩＤＷＴ（Ｆ_SL））（１６）
簡略化のために、ＭＣＰが単純なブロックベースの動きシフト（ｍｏｔｉｏｎｓｈｉｆｔ）操作を含むと仮定すると、式（１５）は以下のように示すことができる。現在のフレームは、ブロックＢ＝｛Ｂ_i｜ｉ＝１，．．．，ｍ｝に分割され、これらのブロックの動きベクトルは、ＭＶ＝｛ｍｖ_i｜ｉ＝１，．．．，ｍ｝であると仮定する。

は、参照フレームＦ_refの新しいバージョンであり、ブロックＢ_iによって参照されるピクセルだけが保持され、その他のピクセルは０に設定される。

（１８）の第１の不等式は、ＤＷＴのシフトバリアント特性によるものである。（１８）の第２の不等式は、動きが非常に複雑な場合、ＭＣＰにおける動きシフト時のオーバーラップおよびアンカバー（ｕｎｃｏｖｅｒｉｎｇ）によるものである。

１つの可能な解決策は、操作（１９）に示すように、ＤＷＴに先立って、ＭＣＰを空間領域に移動させることである。その場合、ＭＣＰは、ＳＤＩＭＣＴＦの一部となる。

３．動きシフトによる電力スペクトルリーク
３Ｄウェーブレット符号化では、空間−時間サブバンドは独立であると通常は仮定される。多くの適用例では、空間−時間サブバンドは、特にハイパスサブバンドは、任意に除去される。しかし、ＭＣＴＦを用いる３Ｄサブバンド符号化では、近隣フレームのローパスサブバンドおよびハイパスサブバンドは、動きシフトによって持ち込まれる電力スペクトルリークのために類似性をもつ。

１つの空間サブバンドに信号を含むだけのフレームが、動きに従ってシフトする場合、信号の一部は、他の空間サブバンドに転送される。図２８には、単純な全体的な動き（ｇｌｏｂａｌｍｏｔｉｏｎ）についての現象が示されている。図２８の第１行では、元のフレームＯｒｇが、ＳＬ信号ＡとＳＨ信号Ｂの２つの部分に分割される。第２行では、ＳＬ信号Ａを含むだけのフレームが、単純なイメージ領域動きシフト（「ＩＭＳ」）によって、空間領域でシフトされ、シフトされたフレームは、ＳＨ信号を含む。同様に、図２８の第３行では、ＳＨ信号Ｂを含むだけのフレームが、空間領域でシフトされ、シフトされたフレームは、ＳＬ信号を含む。スペクトルリーク問題は、動きが複雑な場合、より一層深刻になる。

したがって、エンコーダではＳＤＭＣＴＦを用いるが、ＩＭＣＴＦはＳＬ情報を使用する場合、参照フレームのＳＬ成分は、フレームのＳＨ成分の一部を予測する。したがって、デコーダは、最初にＳＬサブバンド情報しかもっていない場合でも、ＩＭＣＴＦの各レベルの中間結果の中で、意味のあるＳＨサブバンド情報を獲得する。しかし、ＩＭＣＴＦのレベルの間で中間結果を保持するために、デコーダがＳＬ解像度バッファを使用すると、そのために、ＩＭＣＴＦの次のレベルのＭＣＰにとって有益かもしれないＳＨサブバンド情報が除去される。

さらに、参照フレームのＳＨ成分は、フレームのＳＬ成分の一部を予測する。ＳＬ成分を符号化するため、エンコーダは、参照フレーム内のＳＨサブバンド情報を利用することができる。デコーダがこれらのＳＨ成分にアクセスできない場合、ＳＨサブバンドが存在しない結果、一種のドリフティングが生じる（例えば、エンコーダは（ＳＨ情報を含む）最大解像度フレームからＭＣＰを実行し、デコーダはＳＬ情報しかもたない場合）。その結果、ＰＳＮＲは頭打ち状態、すなわち、ＰＳＮＲ曲線は比較的低ビットレートで水平となる。

Ｃ．空間スケーラビリティを用いるＳＤＭＣＴＦ符号化映像の復号化のための改良方式例
本発明のいくつかの実施形態では、３Ｄサブバンドデコーダは、低空間解像度出力についてＳＤＭＣＴＦ符号化映像を復号化する場合の復号化性能を改善するために、複数の方法のいずれかを使用する。これらの方法は、段階的に復号化性能を改善し、大部分は、エンコーダおよび送信ビットストリームに対する変更を必要としない。概して、これらの方法は、異なるレベルの複雑さにおいて異なるオプションをもった、柔軟な復号化方式を提供する。

いくつかの方式では、デコーダは、復号化に特別のリソースを割り当てる。一般に、デコーダは、特別の計算リソースが復号化用に充当された場合、より良好な映像を再構成する。さらに、デコーダは、特別のバッファリソースが参照画像情報の保存用に充当された場合、より良好な映像を再構成する。

あるいは、エンコーダまたはデコーダは、ＳＬ映像を復号化するためにＳＨサブバンド情報を強調する。例えば、ＳＨサブバンド情報をＩＭＣＴＦ決定に関与させるため、デコーダがＳＬ解像度映像を再構成するだけの場合でも、ビットストリーム抽出器は、ＳＨ係数を完全に除去する代わりに、それらに帯域を割り当てる。

このセクションの様々な図（すなわち、図２９から図３４）には、１レベルの空間スケーラビリティが示されている。代替として、３Ｄサブバンドデコーダは、複数レベルの空間スケーラビリティについて映像を出力する。同様に、このセクションの様々な図には、ＭＣＴＦによってＣＩＦ解像度で符号化された元の映像についてＱＣＩＦ映像を出力する３Ｄサブバンドデコーダが示されている。本明細書で説明する技法およびツールは、ＣＩＦおよびＱＣＩＦ解像度での使用に限定されるものではない。

このセクションの多くの図では、動きベクトルは、元の解像度ではハーフピクセル精度を、ＳＬ解像度ではクォータピクセル精度をもつ。これは、サブピクセル補間などの操作に影響を及ぼす。代替として、動きベクトルは、その他の精度をもち、デコーダは、より多いまたは少ないサブピクセル補間をしかるべく実行する。さらに、このセクションの複数の図には、補間用のｓｉｎｃフィルタが示されているが、代替として、デコーダは、別のタイプのフィルタ（例えば双１次、双３次）を使用する。

最後に、このセクションの様々な図には、ダイアディック（ｄｙａｄｉｃ）なＤＷＴおよびＩＤＷＴ操作が示されている。代替として、デコーダは、空間変換および空間逆変換のためのその他の操作を使用する。

１．方式Ａ：ＩＢＩＭＣＴＦ（基準）
後続の方式との比較のため、図２９には、復号化時に専用される付加的な計算またはバッファ資源をもたないＩＢＩＭＣＴＦが示されている。図２９の方式は、図２６のＩＢＩＭＣＴＦデコーダ（２６５０）の１レベルのＩＭＣＴＦに対応する。図２９に示す操作は、ウェーブレット領域で生じる。

図２９によれば、３Ｄサブバンドデコーダは、ＳＬバッファ（２９１０）を使用して、参照画像情報として使用されるＳＬサブバンド情報を保存する。ＳＬサブバンド情報の有効解像度はＱＣＩＦである。

デコーダは、４×４ｓｉｎｃフィルタを使用して、サブピクセル補間（２９２０）を実行する（ＳＬ領域におけるＭＣＰについての動きベクトル精度は、クォータピクセル精度である）。これによって、サブピクセル補間された参照フレーム（２９３０）が生成される。補間参照フレームの有効解像度は４ＣＩＦ（７０４×５７６ピクセル）である。

デコーダは、参照画像情報用の補間参照フレーム（２９３０）を使用して、ＳＬ領域でＭＣＰ（２９４０）を実行する。ＭＣＰ_SL（２９４０）は、ＳＬ領域で予測（２９５０）を生成する。やはり、予測（２９５０）の有効解像度はＱＣＩＦである。

２．方式Ｂ：最適化ＩＢＩＭＣＴＦ
第２のタイプの方式では、３Ｄサブバンドデコーダは、補間操作および／またはＭＣＰ操作を空間領域に移動することによって、ＩＭＣＴＦを改良する。デコーダは、参照画像情報用のＳＬ解像度バッファを依然として使用する。図３０には、第２のタイプの方式のための一般化されたフレームワークが示されており、時間逆変換が最適化された時間逆変換ＯＴ_i ^-1として示されている。図３１、図３２、および図３３には、第２のタイプの方式の様々な変形による１レベルのＩＭＣＴＦの例が示されている。

ａ．方式Ｂ１
図３１に示された方式（方式Ｂ１）によれば、３Ｄサブバンドデコーダは、ＳＬバッファ（３１１０）を使用して、参照画像情報として使用されるＳＬサブバンド情報を保存する。デコーダは、バッファされたＳＬサブバンド情報を使用して、ＩＤＷＴ操作（３１２０）を実行する。ＩＤＷＴ操作（３１２０）では、ＳＨサブバンドは空（ＳＨ＝０）として用いられる。したがって、ＩＤＷＴ操作（３１２０）は、ＳＬサブバンド情報から参照フレーム（３１３０）を生成する。ＳＬサブバンド情報の有効解像度がＱＣＩＦである場合、参照フレーム（３１３０）の有効解像度はＣＩＦである。

その後、デコーダは、参照フレームについてＯＣＤＷＴ（３１４０）操作を実行して、過完備表現（３１５０）を生成する。代替として、デコーダは、ＩＤＷＴ（３１２０）およびＯＣＤＷＴ（３１４０）の代わりに、完全−過完備ＤＷＴを実行する。どちらの方法でも、過完備表現（３１５０）は、ハーフピクセルＭＣＰに適した位相シフトされた値を含む。

クォータピクセルＭＣＰに備えて、その後、デコーダは、２×２ｓｉｎｃフィルタを使用して、サブピクセル補間（３１６０）を実行する。これによって、サブピクセル補間された参照フレーム（３１７０）が生成される。補間参照フレーム（３１７０）の有効解像度は４ＣＩＦ（７０４×５７６ピクセル）である。

デコーダは、参照画像情報用の補間参照フレーム（３１７０）を使用して、ＳＬ領域でＭＣＰ（３１８０）を実行する。ＭＣＰ_SL（３１８０）は、ＳＬ領域で予測（３１９０）を生成する。やはり、予測（３１９０）の有効解像度はＱＣＩＦである。

ｂ．方式Ｂ２
図３２に示された方式（方式Ｂ２）によれば、３Ｄサブバンドデコーダは、ＳＬバッファ（３２１０）を使用して、参照画像情報として使用されるＳＬサブバンド情報を保存する。デコーダは、バッファされたＳＬサブバンド情報を使用して、ＩＤＷＴ操作（３２２０）を実行する。ＩＤＷＴ操作（３２２０）では、ＳＨサブバンドは空（ＳＨ＝０）として用いられる。したがって、ＩＤＷＴ操作（３２２０）は、ＳＬサブバンド情報から参照フレーム（３２３０）を生成する。ＳＬサブバンド情報の有効解像度がＱＣＩＦである場合、参照フレーム（３２３０）の有効解像度はＣＩＦである。

デコーダは、２×２ｓｉｎｃフィルタを使用して、サブピクセル補間（３２４０）を実行する。これによって、サブピクセル補間された参照フレーム（３２５０）が生成され、解像度は水平および垂直に係数２によって増大される。補間参照フレーム（３２５０）の有効解像度は４ＣＩＦである。

その後、デコーダは、補間参照フレーム（３２５０）についてＤＳＤＷＴ（３２６０）操作を実行する。これによって、参照フレーム情報の過完備表現（３２７０）が生成される。過完備表現（３２７０）は、クォータピクセルＭＣＰに適した位相シフトされた値を含む。

デコーダは、参照画像情報用の補間参照フレーム（３２７０）を使用して、ＳＬ領域でＭＣＰ（３２８０）を実行する。ＭＣＰ_SL（３２８０）は、ＳＬ領域で予測（３２９０）を生成する。やはり、予測（３２９０）の有効解像度はＱＣＩＦである。

ｃ．方式Ｂ３
図３３に示された方式（方式Ｂ３）によれば、３Ｄサブバンドデコーダは、ＳＬバッファ（３３１０）を使用して、参照画像情報として使用されるＳＬサブバンド情報を保存する。デコーダは、バッファされたＳＬサブバンド情報を使用して、ＩＤＷＴ操作（３３２０）を実行する。ＩＤＷＴ操作（３３２０）では、ＳＨサブバンドは空（ＳＨ＝０）として用いられる。したがって、ＩＤＷＴ操作（３３２０）は、ＳＬサブバンド情報から参照フレーム（３３３０）を生成する。ＳＬサブバンド情報の有効解像度がＱＣＩＦである場合、参照フレーム（３３３０）の有効解像度はＣＩＦである。

デコーダは、２×２ｓｉｎｃフィルタを使用して、サブピクセル補間（３３４０）を実行する。これによって、サブピクセル補間された参照フレーム（３３５０）が生成され、解像度は水平および垂直に係数２によって増大される。補間参照フレーム（３３５０）の有効解像度は４ＣＩＦである。

デコーダは、参照画像情報用の補間参照フレーム（３３５０）を使用して、空間領域でＭＣＰ（３３６０）を実行する。（ハーフピクセル精度の動きベクトルをもつ）ＭＣＰ_SD（３３６０）は、空間領域で予測（３３７０）を生成する。この場合、予測（３３７０）の有効解像度はＣＩＦである。

デコーダは、予測（３３７０）についてＤＷＴ操作（３３８０）を実行して、予測（３３７０）の低空間解像度バージョン（３３９０）を生成する。低空間解像度予測（３３９０）の有効解像度はＱＣＩＦである。

３．方式Ｃ：ＳＤＩＭＣＴＦ
図３４には、復号化時に専用される付加的な計算またはバッファリソースをもつＳＤＩＭＣＴＦが示されている。図３４の方式は、図２６のＳＤＩＭＣＴＦデコーダ（２６００）の１レベルのＩＭＣＴＦに対応する。図３４に示す操作は、空間領域で生じる。方式Ｂ３と比べると、方式Ｃの参照画像バッファは、ＳＤバッファであり、デコーダは、ＩＭＣＴＦのレベルごとにＩＤＷＴおよびＤＷＴ操作を実行しない。このようにして、中間結果のＳＨ情報は、後のＳＤＩＭＣＴＦで使用するために保持される。

方式Ｃによれば、３Ｄサブバンドデコーダは、ＳＤバッファ（３４１０）を使用して、参照画像情報として使用されるＳＬサブバンド情報を保存する。最初の時間逆変換のために、最後の空間逆変換は、ＳＬサブバンド情報からＳＤバッファ（３４１０）に収める情報を生成する。後続の時間逆変換のために、ＳＤバッファ（３４１０）内の情報は、先行する時間逆変換から保持され、ＳＤバッファ（３４１０）内の情報は、電力スペクトルリークによって発生したＳＨ情報を含むことができる。ＳＤバッファ（３４１０）内の情報の有効解像度はＣＩＦである。

デコーダは、２×２ｓｉｎｃフィルタを使用して、サブピクセル補間（３４２０）を実行する。これによって、サブピクセル補間された参照フレーム（３４３０）が生成され、解像度は水平および垂直に係数２によって増大される。補間参照フレーム（３４３０）の有効解像度は４ＣＩＦである。

デコーダは、参照画像情報用の補間参照フレーム（３４３０）を使用して、空間領域でＭＣＰ（３４４０）を実行する。（ハーフピクセル精度の動きベクトルをもつ）ＭＣＰ_SD（３４４０）は、空間領域で予測（３４５０）を生成する。この場合、予測（３４５０）の有効解像度はＣＩＦである。

４．方式Ｄ：ＳＨ係数を有するＳＤＩＭＣＴＦ
ＳＨドリフティング問題に対処するため、ビットストリーム抽出器において、帯域をＳＨ係数に割り当てる。これは、ＳＬ解像度映像出力のための復号化時に、ＳＨサブバンド情報を単純に除去する、従来の空間スケーラビリティとは異なる。

ＳＨ係数の最適レートを決定するため、低空間解像度映像の歪みの低減に対するＳＨ係数の貢献度が測定される（対照的に、従来の空間スケーラビリティを実施する場合は、元の空間解像度映像全体の歪みの低減に対するＳＨ係数の貢献度が測定される）。言い換えると、低空間解像度映像を出力する場合であっても、ＳＬ映像の歪みの低減において、ＳＨサブバンドの利点（例えば、改善された動き補償予測精度）の原因となるように、ＳＨサブバンドの利得係数が考慮される。このようにして、ＳＨサブバンド情報がＳＬ映像の復号化に関与する可能性がより高まる。

方式Ｄでは、デコーダが元の解像度映像を抽出したかのように、ＳＬ映像を復号化するとき、ＳＨサブバンドの現在の利得係数が使用される。ＳＬおよびＳＨサブバンドの係数は、最終的なビットストリームに含まれることができる。代替として、元の空間解像度復号化用およびＳＬ復号化用のＳＨサブバンドについて、異なる利得係数が計算される。

方式Ｄでは、３Ｄサブバンドデコーダは、ＳＬ映像を復号化する場合、１レベルのＩＭＣＴＦ用に、図３４に示す復号化フレームワークを使用する。参照画像バッファ（３４１０）はＳＤバッファである。最初の時間逆変換のために、ＳＤバッファは、最終的な出力映像が実際上ＳＬ解像度だけを有するとしても、ＳＬサブバンド情報および（少なくともいくつかの）ＳＨサブバンド情報を使用して再構成された参照画像情報を含む。中間結果のＳＨ情報も、後のＳＤＩＭＣＴＦで使用するために保持される。

デコーダは、２×２ｓｉｎｃフィルタを使用して、サブピクセル補間（３４２０）を実行する。これによって、サブピクセル補間された参照フレーム（３４３０）が生成され、解像度は水平および垂直に係数２によって増大される。デコーダは、参照画像情報用の補間参照フレーム（３４３０）を使用して、空間領域でＭＣＰ（３４４０）を実行する。（ハーフピクセル精度の動きベクトルをもつ）ＭＣＰ_SD（３４４０）は、空間領域で予測（３４５０）を生成する。

５．比較
以下の表は、方式Ａ、Ｂ１、Ｂ２、Ｂ３、Ｃ、およびＤの特性を比較したものである。

代替として、デコーダは、低空間解像度出力用にＳＤＭＣＴＦ符号化映像を復号化する場合の復号化性能を改善するため、空間領域補間、空間領域動き補償、空間領域参照画像バッファ、および／またはＳＨ情報の使用の他の何らかの組合せを使用する。

ＶＩＩ．連続位相過完備サブバンド変換
ＩＢＭＣＴＦおよびＩＢＩＭＣＴＦに伴う１つの問題は、動き推定および補償についてのウェーブレット変換のシフト変動（ｓｈｉｆｔｖａｒｉａｎｃｅ）効果をいかに低減するかであり、イメージ領域でのシフト／動きは、変換領域に直接にマッピングされない。いくつかの方法が、整数ピクセル移動を変換領域にマッピングする（例えば、非特許文献４、および非特許文献５を参照）。このセクションでは、分数ピクセル移動を変換領域での位相変化にマッピングするための方法について説明する。そうすることによって、動き推定および補償をより正確に実行でき、そのことが、符号化性能に著しい影響を及ぼし得る。

このセクションでは、１レベルの１次元ウェーブレット変換を例にして、連続位相過完備サブバンド変換（continuous phase overcomplete sub-band transform）（「ＣＰＯＳＴ」）について説明する。ｐピクセルＣＰＯＳＴの分解プロセスは、４つの連続ステージ、すなわち、（１）ｐピクセル補間、（２）連続シフティング、（３）ダウンサンプリング、および（４）ウェーブレット変換を有する。

連続ｐピクセル位相過完備変換（ｐ＝１，１／２，１／４，１／８，．．．）について考える。ｐ＝１の場合、ＣＰＯＳＴは、整数ピクセル位相過完備のケースとなる。その他のｐの値は、サブピクセル位相過完備のケースを提供する。入力信号が離散時間領域における系列｛ｘ（ｎ）｝、ｎ＝０，１，２，３，．．．であると仮定する。エンコーダまたはデコーダは、最初に｛ｘ（ｎ）｝のｐピクセル補間を行い、その後、ｐピクセル補間系列を

回連続的にシフトし、シフト系列をダウンサンプリングする。これによって、｛ｘ_p ⁱ（ｎ）｝、

で表される、｛ｘ（ｎ）｝の１組の連続位相シフト系列が生成される。最後に、エンコーダまたはデコーダは、｛ｘ_p ⁱ（ｎ）｝についてウェーブレット分解変換を実行する。

ｐ＝１／２の場合、連続位相シフト系列は、以下のようになる。｛ｙ（ｎ）｝は、｛ｘ（ｎ）｝の１／２ピクセル補間点から構成される系列である。
．．．ｘ（ｎ）ｙ（ｎ）ｘ（ｎ＋１）ｙ（ｎ＋１）ｘ（ｎ＋２）ｙ（ｎ＋２）ｘ（ｎ＋３）ｙ（ｎ＋３）
０−位相．．．ｘ（ｎ）ｘ（ｎ＋１）ｘ（ｎ＋２）．．．
１／２−位相．．．ｙ（ｎ）ｙ（ｎ＋１）ｙ（ｎ＋２）．．．
１−位相．．．ｘ（ｎ＋１）ｘ（ｎ＋２）ｘ（ｎ＋３）．．．
３／２−位相．．．ｙ（ｎ＋１）ｙ（ｎ＋２）ｙ（ｎ＋３）．．．

２ＤＣＰＯＳＴは、２つの連続的な１ＤＣＰＯＳＴをそれぞれ水平および垂直方向に行うことによって、実施することができる。

ウェーブレット領域では、連続ｐピクセル位相シフト系列は、１組の予測フィルタ

を使用して、取得することができる。これらのフィルタは、サブピクセル補間系列を連続的にシフトし、それらのシフト系列をダウンサンプリングすることと等価である。ｐピクセルＣＰＯＳＴの分解プロセスは、フィルタの｛ｘ（ｎ）｝への適用として提供することができ、続いて、ウェーブレット分解変換のために、その結果をローパスフィルタＧ_L（ｚ）を用いて、また別にハイパスフィルタＧ_H（ｚ）を用いて処理し、その後、ダウンサンプリングする。ｌ_p ⁱ（ｎ）およびｈ_p ⁱ（ｎ）

は、それぞれＣＰＯＳＴのローパス係数およびハイパス係数である。ｚ領域では、Ｘ（ｚ）およびＸ_p ⁱ（ｚ）は、それぞれ｛ｘ（ｎ）｝および｛ｘ_p ⁱ（ｎ）｝のｚ変換である。Ｌ_p ⁱ（ｚ）およびＨ_p ⁱ（ｚ）は、それぞれｌ_p ⁱ（ｎ）およびｈ_p ⁱ（ｎ）のｚ変換である。

ｐピクセルＣＰＯＳＴの分解プロセスは、以下の行列表現に対応する。

表現（２２）は、シフトが行われていない元の系列のウェーブレット分解変換を示す。表現（２３）は、連続サブ位相（ｓｕｂ−ｐｈａｓｅ）シフト系列のウェーブレット分解変換を示す。表現（２２）および（２３）は、ＣＰＯＳＴを構成する。Ｌ_p ⁱ（ｚ）、Ｈ_p ⁱ（ｚ）およびＬ_p ⁰（ｚ）、Ｈ_p ⁰（ｚ）の間の関係に関して、（２０）から（２３）より、

（２２）から（２４）より、

ただし、

であり、Ｇ^-1（ｚ）はＧ（ｚ）の逆行列である。

（２５）によれば、サブピクセル位相シフト系列のウェーブレット変換を得るために、変換行列Ｔ_p ⁱ（ｚ）および逆変換行列ＩＴ_p ⁱ（ｚ）を、元の系列（すなわち、０−位相シフト系列）のウェーブレット変換から取得することができる。

（２６）から、表現（２８）が成り立てば、過完備ウェーブレット変換の後のサブピクセル補間の結果は、離散時間領域でのサブピクセル補間の後の過完備ウェーブレット変換の結果と等しい。それ以外の場合は、過完備ウェーブレット変換の後のサブピクセル補間の結果は、離散時間領域でのサブピクセル補間の後の過完備ウェーブレット変換の結果とは等しくない。

一般に、表現（２８）は成り立たず、そのことは、インバンド映像符号化のためのサブピクセル補間とウェーブレット変換の順序は交換できないことを示唆している。しかし（２５）によれば、元の系列のＣＰＯＳＴ係数は、そのウェーブレット変換係数から導出することができる。

ＣＰＯＳＴ方法は、整数ピクセル位相過完備ウェーブレット変換ばかりでなく、サブピクセル位相過完備ウェーブレット変換も実現する。ｐ＝１／２とし、５−３ウェーブレット変換および６タップ補間フィルタを用いる、連続位相過完備変換行列の係数は、以下のようになる。変換行列Ｔ_1/2 ¹（ｚ）、Ｔ_1/2 ²（ｚ）、およびＴ_1/2 ³（ｚ）の各要素の係数は、以下のようになる。
Ｔ_1/2 ¹（０，０）＝［０．００９８ −０．０９５７０．８８６７０．２２２７ −０．０２１５ −０．００２０］
Ｔ_1/2 ¹（０，１）＝［−０．００２４０．０４８８ −０．２２９００．３２４２ −０．１４４００．００２００．０００５］
Ｔ_1/2 ¹（１，０）＝［０．０３９１ −０．２３４４０．３４３８ −０．１４０６ −０．００７８］
Ｔ_1/2 ¹（１，１）＝［−０．００９８０．１５８２０．３６３３ −０．５３５２０．０２１５０．００２０］
Ｔ_1/2 ²（０，０）＝［−０．０６２５０．５６２５０．５６２５ −０．０６２５］
Ｔ_1/2 ²（０，１）＝［０．０１５６２５ −０．２５０．４６８７５ −０．２５０．０１５６２５］
Ｔ_1/2 ²（１，０）＝［−０．２５０．５ −０．２５］
Ｔ_1/2 ²（１，１）＝［０．０６２５ −０．５６２５ −０．５６２５０．０６２５］
Ｔ_1/2 ³（０，０）＝［−０．００２０ −０．０２１５０．２２２７０．８８６７ −０．０９５７０．００９８］
Ｔ_1/2 ³（０，１）＝［０．０００５０．００２０ −０．１４４００．３２４１ −０．２２９００．０４８８ −０．００２４］
Ｔ_1/2 ³（１，０）＝［−０．００７８ −０．１４０６０．３４３８ −０．２３４４０．０３９１］
Ｔ_1/2 ³（１，１）＝［０．００２００．０２１５ −０．５３５２０．３６３３０．１５８２ −０．００９８］

開示された本発明の原理を適用できる数多くの可能な実施形態に鑑みて、説明した実施形態は、本発明の好ましい実施例に過ぎず、本発明の範囲を限定するものと解釈すべきでないことを理解されたい。むしろ、本発明の範囲は、添付の特許請求の範囲によって定められる。したがって、発明者らは、添付の特許請求の範囲の範囲および主旨に包含されるすべてを本発明として主張する。

スケーラブルな映像符号化および復号化のための一般化された動作環境のブロック図である。説明する様々な実施形態を実施するのに用いられる一般化された映像エンコーダのブロック図である。説明する様々な実施形態を実施するのに用いられる一般化された映像デコーダのブロック図である。説明する様々な実施形態を実施するのに用いられる一般化された映像エンコーダのブロック図である。説明する様々な実施形態を実施するのに用いられる一般化された映像エンコーダおよびデコーダのブロック図である。動き補償時間フィルタリング（「ＭＣＴＦ」）における、入力映像フレーム、時間ローパスフレーム、および時間ハイパスフレームの間の関係を示した図である。エンコーダにおけるＭＣＴＦを示したブロック図である。デコーダにおける逆ＭＣＴＦ（「ＩＭＣＴＦ」）を示したブロック図である。エンコーダにおいて適応更新ステージを用いるＭＣＴＦを示したブロック図である。デコーダにおいて適応更新ステージを用いるＩＭＣＴＦを示したブロック図である。適応更新操作のための方法を説明するフローチャートである。適応更新操作のための方法を説明するフローチャートである。適応更新操作のための方法を説明するフローチャートである。３Ｄサブバンドエンコーダに基本レイヤコーデックを組み込むための異なる方式を示したブロック図である。３Ｄサブバンドデコーダに基本レイヤデコーダを組み込むための異なる方式を示したブロック図である。３Ｄサブバンドエンコーダに基本レイヤコーデックを組み込むための異なる方式を示したブロック図である。３Ｄサブバンドデコーダに基本レイヤデコーダを組み込むための異なる方式を示したブロック図である。３Ｄサブバンドエンコーダに基本レイヤコーデックを組み込むための異なる方式を示したブロック図である。３Ｄサブバンドデコーダに基本レイヤデコーダを組み込むための異なる方式を示したブロック図である。基本レイヤコーデックまたはデコーダが参照候補を提供する場合の、異なる参照フレーム組合せを示した図である。３Ｄサブバンドコーデックおよび組み込み基本レイヤコーデックを用いる符号化のためのフレームパターンを示した図である。３Ｄサブバンドコーデックおよび組み込み基本レイヤコーデックを用いる符号化のためのフレームパターンを示した図である。３Ｄサブバンドコーデックおよび組み込み基本レイヤコーデックを用いる符号化のためのフレームパターンを示した図である。組み込み基本レイヤコーデックを有する３Ｄサブバンドエンコーダを用いるスケーラブルな符号化のための方法を説明するフローチャートである。組み込み基本レイヤデコーダを有する３Ｄサブバンドデコーダを用いるスケーラブルな復号化のための方法を説明するフローチャートである。ＳＤＭＣＴＦ符号化映像を低空間解像度での出力用に復号化するための２つの方式を示したブロック図である。ＳＤＩＭＣＴＦおよびＩＢＩＭＣＴＦにおける動き補償予測を示した図である。動きシフトに起因する電力スペクトルリークを説明するグラフィックである。低空間解像度での出力用にＳＤＭＣＴＦ符号化映像を復号化するための基準となる方式を示した図である。低空間解像度での出力用にＳＤＭＣＴＦ符号化映像を復号化するための一般化方式を示したブロック図である。低空間解像度での出力用にＳＤＭＣＴＦ符号化映像を復号化するための方式を示した図である。低空間解像度での出力用にＳＤＭＣＴＦ符号化映像を復号化するための方式を示した図である。低空間解像度での出力用にＳＤＭＣＴＦ符号化映像を復号化するための方式を示した図である。低空間解像度での出力用にＳＤＭＣＴＦ符号化映像を復号化するための方式を示した図である。

符号の説明

１００コンピューティング環境
１１０プロセシングユニット
１２０メモリ
１４０記憶装置
１５０入力装置
１６０出力装置
１７０通信コネクション

Claims

ビデオデコーダを実装したコンピューティング装置において、
ビデオデコーダを実装した前記コンピューティング装置で、第１の空間解像度で空間領域動き補償時間フィルタリング（ＳＤＭＣＴＦ）によって符号化された映像を受信するステップであって、前記ＳＤＭＣＴＦは、前記第１の空間解像度よりも低い第２の空間解像度で、ローパスサブバンド領域を含む複数のサブバンド領域へ空間分解する前に、空間領域における空間領域値の動き補償時間フィルタリングで符号化することによって特徴付けられており、前記ＳＤＭＣＦＴは前記第１の空間解像度で前記空間領域において動き補償予測を生成する、受信するステップと、
ビデオデコーダを実装した前記コンピューティング装置を使用して、前記第１の空間解像度より低い前記第２の空間解像度で出力するために、インバンド逆動き補償時間フィルタリング（ＩＢＩＭＣＴＦ）を用いて前記映像の少なくとも一部を復号化するステップであって、前記ＩＢＩＭＣＴＦは、サブバンド値の逆動き補償時間フィルタリングによって特徴づけられており、１つ以上の参照画像について補間を実行することを含み、前記補間は、バッファされた空間ローパスサブバンド情報に対する補間ではなく、前記ＩＢＩＭＣＴＦは、前記第２の空間解像度で前記ローパスサブバンド領域における動き補償予測を生成する、復号化するステップと
を備えることを特徴とする方法。
前記復号化するステップは、
前記バッファされた空間ローパスサブバンド情報に対して、空間サブバンド逆変換を実行するステップと、
前記空間サブバンド逆変換の結果に対して、過完備空間サブバンド変換を実行するステップであって、前記過完備空間サブバンド変換の結果に前記補間が適用されるステップと、
前記補間の結果への前記ＩＢＩＭＣＴＦに対して、前記動き補償予測を実行するステップと
を含むことを特徴とする請求項１に記載の方法。
前記空間サブバンド逆変換は、離散逆ウェーブレット変換（ＩＤＷＴ）であり、前記過完備空間サブバンド変換は、過完備離散ウェーブレット変換（ＤＷＴ）であることを特徴とする請求項２に記載の方法。
前記復号化するステップは、
前記バッファされた空間ローパスサブバンド情報に対して空間サブバンド逆変換を実行するステップであって、前記補間は前記空間サブバンド逆変換の結果に適用するステップと、
前記補間の結果に対してダウンサンプリング離散ウェーブレット変換（ＤＳＤＷＴ）を実行するステップと、
前記ＤＳＤＷＴの結果への前記ＩＢＩＭＣＦＴに対して、前記動き補償予測を実行するステップと
を含むことを特徴とする請求項１に記載の方法。
前記空間サブバンド逆変換は、逆離散ウェーブレット変換（ＩＤＷＴ）であり、前記ＤＳＤＷＴは、ｍサンプリング過完備離散ウェーブレット変換（ＤＷＴ）であることを特徴とする請求項４に記載の方法。
前記ＩＢＩＭＣＴＦに対する前記動き補償予測は、前記ＳＤＭＣＴＦからの動き情報を使用することを特徴とする請求項１に記載の方法。
前記復号化するステップはさらに、前記バッファされた空間ローパスサブバンド情報に対して空間サブバンド逆変換を実行するが、空間ハイパスサブバンド情報に対しては実行しないステップを含み、前記補間は、前記空間サブバンド逆変換の後に続くことを特徴とする請求項１に記載の方法。
前記第１の空間解像度は、水平および垂直方向について前記第２の空間解像度の２倍であることを特徴とする請求項１に記載の方法。
ビデオデコーダを実装したコンピューティング装置において、
ビデオデコーダを実装した前記コンピューティング装置で、第１の空間解像度で空間領域動き補償時間フィルタリング（ＳＤＭＣＴＦ）によって符号化された映像を受信するステップあって、前記ＳＤＭＣＴＦは、前記第１の空間解像度より低い第２の空間解像度で、ローパスサブバンド領域を含む複数のサブバンド領域へ空間分解する前に、空間領域において空間領域値の動き予測時間フィルタリングで符号化することによって特徴付けられている、受信するステップと、
ビデオデコーダを実装した前記コンピューティング装置を使用して、前記第１の空間解像度より低い前記第２の空間解像度で出力するために、空間領域逆動き補償時間フィルタリング（ＳＤＩＭＣＴＦ）を用いて前記映像の少なくとも一部を復号化するステップであって、前記ＳＤＩＭＣＴＦは空間領域値の逆動き補償時間フィルタリングによって特徴付けられており、前記ＳＤＩＭＣＴＦは前記第１の空間解像度で前記空間領域において動き補償予測を生成する１つ以上の参照画像を使用し、前記ＳＤＩＭＣＴＦに対する前記１つ以上の参照画像は、前記第２の空間解像度で前記ローパスサブバンド領域における受信された空間ローパスサブバンド情報からは再構成されるが、前記第１の空間解像度への解像度の向上に関連付けられた受信された空間ハイパスサブバンド情報からは再構成されない、復号化するステップと
を備えることを特徴とする方法。
前記復号化するステップは、
前記受信された空間ローパスサブバンド情報に対して空間サブバンド逆変換を実行するが、空間ハイパスサブバンド情報に対しては実行しないステップと、
前記空間サブバンド逆変換の結果に対して空間領域補間を実行するステップと、
前記空間領域補間の結果を参照画像情報として使用して、前記ＳＤＩＭＣＴＦに対する前記動き補償予測を実行するステップと、
前記ＳＤＩＭＣＴＦに対する前記動き補償予測の結果に、空間サブバンド変換を実行するステップと
を含むことを特徴とする請求項９に記載の方法。
前記空間サブバンド逆変換は、逆離散ウェーブレット変換（ＩＤＷＴ）であり、前記空間サブバンド変換は、離散ウェーブレット変換（ＤＷＴ）であることを特徴とする請求項１０に記載の方法。
１つまたは複数のバッファは、前記受信された空間ローパスサブバンド情報を保存するが、空間ハイパスサブバンド情報は保存しないことを特徴とする請求項１０に記載の方法。
前記復号化するステップは、
バッファされた空間領域情報に対して空間領域補間を実行するステップと、
前記空間領域補間の結果を参照画像情報として使用して、前記ＳＤＩＭＣＴＦに対する前記動き補償予測を実行するステップと
を含むことを特徴とする請求項９に記載の方法。
前記ＳＤＩＭＣＴＦの初期レベルでは、前記バッファされた空間領域情報は、前記受信された空間ローパスサブバンド情報から生成されるが、空間ハイパスサブバンド情報からは生成されず、前記ＳＤＩＭＣＴＦの１つ以上の後続のレベルでは、前記バッファされた空間領域情報は、前記ＳＤＩＭＣＴＦの中間結果として生成された空間ハイパスサブバンド情報を保持することを特徴とする請求項１３に記載の方法。
ビデオデコーダを実装したコンピューティング装置において、
ビデオデコーダを実装した前記コンピューティング装置で、第１の空間解像度で空間領域動き補償時間フィルタリング（ＳＤＭＣＴＦ）によって符号化された映像を受信するステップであって、前記ＳＤＭＣＴＦは、空間分解の前に、空間領域において空間領域値の動き補償時間フィルタリングで符号化することによって特徴付けられている、受信するステップと、
ビデオデコーダを実装した前記コンピューティング装置を使用して、前記第１の空間解像度より低い第２の空間解像度で出力するために、空間領域逆動き補償時間フィルタリング（ＳＤＩＭＣＴＦ）を用いて前記映像の少なくとも一部を復号化するステップであって、前記ＳＤＩＭＣＴＦは、空間領域値の逆動き補償予測時間フィルタリングによって特徴付けられており、前記ＳＤＩＭＣＴＦは、前記第１の空間解像度で前記空間領域において動き補償予測を生成し、空間解像度を前記第１の空間解像度までに強化するために空間ハイパスサブバンド情報を使用することなしに、前記ＳＤＩＭＣＴＦにおける動き補償性能を向上する、前記第１の空間解像度に関連付けられた前記空間ハイパスサブバンド情報を使用するステップを含む、復号化するステップと
を備えることを特徴とする方法。
前記復号化するステップは、
バッファされた空間領域情報に対して空間領域補間を実行するステップと、
前記空間領域補間の結果を参照画像情報として使用して、前記ＳＤＩＭＣＴＦに対して前記動き補償予測を実行するステップと
を含むことを特徴とする請求項１５に記載の方法。
前記空間ハイパスサブバンド情報は、前記ＳＤＩＭＣＴＦの中間結果として生成され、前記バッファされた空間領域情報として保持されることを特徴とする請求項１６に記載の方法。
前記空間ハイパスサブバンド情報は、前記受信された映像の一部とすることができ、前記バッファされた空間領域情報は、受信された空間ローパスサブバンド情報と前記受信された空間ハイパスサブバンド情報とから生成されることを特徴とする請求項１６に記載の方法。
前記空間ハイパスサブバンド情報の使用は、前記ＳＤＩＭＣＴＦにおけるドリフトを制御する助けとなることを特徴とする請求項１５に記載の方法。
前記空間ハイパスサブバンド情報に関連付けられた１つ以上の利得係数は、前記空間ハイパスサブバンド情報が、前記第２の空間解像度での前記出力における歪みをどれだけ低減するかを明らかにすることを特徴とする請求項１５に記載の方法。