JP4896458B2 - 3dサブバンド符号化のための組み込み基本レイヤコーデック - Google Patents

3dサブバンド符号化のための組み込み基本レイヤコーデック Download PDF

Info

Publication number
JP4896458B2
JP4896458B2 JP2005204298A JP2005204298A JP4896458B2 JP 4896458 B2 JP4896458 B2 JP 4896458B2 JP 2005204298 A JP2005204298 A JP 2005204298A JP 2005204298 A JP2005204298 A JP 2005204298A JP 4896458 B2 JP4896458 B2 JP 4896458B2
Authority
JP
Japan
Prior art keywords
spatial
subband
information
decoder
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005204298A
Other languages
English (en)
Other versions
JP2006060792A (ja
Inventor
ウー フェン
スー ジーチョン
ション ルイキン
リー シペン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2006060792A publication Critical patent/JP2006060792A/ja
Application granted granted Critical
Publication of JP4896458B2 publication Critical patent/JP4896458B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • H04N19/615Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding using motion compensated temporal filtering [MCTF]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/63Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/63Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
    • H04N19/635Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets characterised by filter definition or implementation details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

スケーラブルな映像符号化および復号化のための方法およびツールについて説明する。より詳細には、3Dサブバンド映像エンコーダは、組み込み基本レイヤコーデックを含み、3Dサブバンド映像デコーダは、組み込み基本レイヤデコーダを含む。
デジタル映像は、大量の記憶および伝送容量を消費する。典型的な原デジタル映像シーケンスは、毎秒15または30のフレームを含む。各フレームは、数万または数10万のピクセル(ペルとも呼ばれる)を含むことができ、各ピクセルは、画像の微小要素を表す。原形式では、コンピュータは一般に、合計24ビットの3つのサンプルからなる組としてピクセルを表す。例えば、ピクセルは、ピクセルのグレースケール成分を定める8ビットの輝度サンプル(ルマ(luma)サンプルとも呼ばれ、本明細書では「輝度」と「ルマ」は交換可能に使用される)と、ピクセルの色成分を定める2つの8ビットの彩度サンプル(クロマ(chroma)サンプルとも呼ばれ、本明細書では「彩度」と「クロマ」は交換可能に使用される)とを含むことができる。したがって、典型的な原デジタル映像シーケンスの毎秒のビット数、またはビットレートは、毎秒5百万ビット、またはそれより大きくなり得る。
多くのコンピュータおよびコンピュータネットワークは、原デジタル映像を処理するだけのリソースを持ち合わせていない。そのため、技術者は、デジタル映像のビットレートを低くするために圧縮(コード化または符号化とも呼ばれる)を利用する。圧縮は、映像をビットレートがより低い形式に変換することによって、映像を保存および送信するコストを削減する。伸張(復号化とも呼ばれる)は、圧縮形式から元の映像の変形を再構成する。「コーデック」とは、エンコーダ/デコーダシステムのことである。圧縮は可逆とすることができ、その場合、映像の品質は損なわれないが、映像データに固有のばらつき量(エントロピーと呼ばれることもある)によって、ビットレートの減少は制限される。あるいは、圧縮は非可逆とすることができ、その場合、映像の品質は損なわれるが、達成可能なビットレートの減少はより目覚しいものとなる。非可逆圧縮は、しばしば可逆圧縮と併用され、非可逆圧縮が情報の近似を確定し、可逆圧縮がその近似を表すために適用される。
映像圧縮の一般法則として、品質は、ビットレートに直接関係して変化する。与えられた映像シーケンスについて、そのシーケンスがより高い品質で符号化されている場合、そのシーケンスのビットレートはより高くなり、そのシーケンスがより低い品質で符号化されている場合、そのシーケンスのビットレートはより低くなる。ビットレートには、時間解像度(例えば、毎秒7.5、15、30、または60映像フレーム)、空間解像度(例えば、映像フレーム当たり176×144(QCIF)、352×288(CIF)、または704×576(4CIF)ピクセル)、およびサンプル解像度(例えば、ピクセル当たり8、16、または24ビット)を含む様々な要因が影響を及ぼし得る。品質およびビットレートは、時間、空間、および/またはサンプル解像度を上げたり下げたりすることによって、変更することができる。
品質およびビットレートは、非可逆圧縮時に情報内容の簡略化または削除によって導入された歪みの量にも依存する。これは、例えば、映像を再構成した時の映像のぼやけ、濃淡のむら、粒子の粗さなどの量に影響する。言い換えると、非可逆圧縮は、エンコーダがより低いビットレートを達成できるように、シーケンスの品質を低下させる。
別の一般法則として、品質およびビットレートは、ディテールおよび動きの観点からの映像シーケンスの複雑度に依存する。品質をあるレベルに固定した場合、複雑なシーケンスは一般に、単純なシーケンスよりも符号化に多くのビットを必要とする。これを反対から見れば、ある固定のビットレートで符号化される場合、複雑なシーケンスは一般に、単純なシーケンスよりも品質が低下する。
あるシナリオでは、単一のビットレート/品質レベルで映像を符号化することだけが必要とされる。例えば、単一のタイプの装置を用いて再生するために映像を符号化する場合、または電話回線を介したポイントツーポイントのビデオ会議で再生するために映像を符号化する場合、単一のビットレート/品質レベルで単純に映像を符号化するのが望ましいであろう。しかし、その他の多くのシナリオでは、複数のビットレート/品質レベルで映像を符号化するのが望ましい。例えば、インターネットを介して映像をストリーミングする場合、映像サーバはしばしば、性能が異なる装置に映像を提供しなければならず、かつ/または速度および信頼性特性が異なる様々な種類のネットワーク環境を介して映像を配信しなければならない。
多様なネットワークおよび再生要求条件に対処する1つの方法は、同一映像シーケンスを複数のビットレートおよび品質レベルで符号化することであるが、このようにすると、複数の独立した圧縮映像ビットストリームのために、保存および伝送が非効率なものになり得る。代替方法として、サブバンドまたはウェーブレット映像符号化が、映像シーケンスをマルチ解像度方式で単一のスケーラブルな圧縮映像ビットストリームに符号化する方法を提供する。サブバンドまたはウェーブレット符号化によって、映像シーケンスは、異なる時間および空間サブバンドに分解される。
簡単な例として、映像シーケンスは、低解像度の時間サブバンド(おおよそ、シーケンスの低フレームレートバージョンに対応)と、高解像度の時間サブバンド(低解像度の時間サブバンドと合成されて、元のフレームレートシーケンスを再構成することができる)に分割される。個々の映像フレームについての情報も同様に、低解像度の空間サブバンドと、複数の高解像度の空間サブバンドに分割される。時間分解と空間分解は、一緒に利用することができる。いずれかのタイプの分解を繰り返して、例えば、低解像度のサブバンドがさらに分解されるようにすることができる。特定のサブバンドを選択して伝送することによって、または異なる解像度で復号化することによって、時間および空間スケーラビリティを実施することができる。
さらに、個々のサブバンドについての情報は、ビット解像度の複数のレイヤを用いて、ビットプレーン(bit plane)として表すことができる。元の符号化情報に対する忠実度は、サブバンドに関するビットの全部ではない一部を伝送することによって、(ビットレートに従って)選択的に低下させることができる。あるいは、忠実度は、サブバンドに関するすべてより少ないビットを復号化することによって、(処理要求条件に従って)選択的に低下させることができる。
A. N. Netravali and B. Prasada, "Adaptive Quantization of Picture Signals Using Spatial Masking," Proc. IEEE, vol. 65, pp. 536-548 (April 1977) Bjontegaard et al., "H.263 Anchors - Technical Description" Chen et al., "Improved MC-EZBC with Quarter-pixel Motion Vectors" Y. A. Andreopoulos et al., "A New Method for Complete-to-Overcomplete Discrete Wavelet Transforms," Proc. IEEE Conf. Digital Signal Proc. (2002) X. Li, L. Kerofsky, S. Lei, "All-phase Motion Compensated Prediction for High Performance Video Coding," Proc. ICIP, vol. 3, pp. 538-541(2001)
スケーラブルな映像符号化および復号化方法は、圧縮ビットストリームの様々な空間、時間、およびビット忠実度スケーラビリティを容易にするが、既存のスケーラブルな映像符号化および復号化方法に関して、いくつかの短所が存在する。
既存のスケーラブルな映像符号化および復号化方法は一般に、低ビットレートでは、非スケーラブルな方法に対抗し得る性能を提供しない。スケーラブルな映像符号化および復号化方法の性能は、より高いビットレートおよび品質では良好であるが、低ビットレートでは、非スケーラブルな映像符号化および復号化方法に比べて、あまりに多くのビットを使用する。
さらに、既存のハードウェアおよびソフトウェアツールの多くは、特定の非スケーラブルな映像符号化および復号化方法に従って設計された。そのようなツールのユーザは、既存のツールと互換性のない新しいスケーラブルな映像符号化および復号化の方法およびツールに投資を渋るかもしれない。さらに、コンテンツプロバイダは、映像復号化ツール用の広範にインストールされている基盤と互換性のない符号化コンテンツの制作を渋るかもしれない。
時には、デコーダは、元の空間解像度より低い空間解像度で映像を再生する。これは、例えば、デコーダ装置が狭い画面しか備えていない場合、またはより高い空間解像度情報がネットワークによって欠落した場合に起こり得る。しかし、より低い空間解像度での復号化は、符号化時に元の空間解像度で時間分解が起こっている場合には問題が多い。既存のスケーラブルな映像復号化方法は、このような復号化シナリオに適切に対処することができない。
最後に、既存のスケーラブルな映像符号化および復号化方法は、符号化および復号化時に、一定の確定性をもって、歪みの知覚可能性を明らかにし得ない。具体的には、既存のスケーラブルな映像符号化方法は、ある種の時間分解において、低解像度の時間サブバンドにきわめて大量の知覚可能な歪みを取り込んでしまう。
デジタル映像に対する圧縮および伸張の決定的な重要性を示されれば、スケーラブルな映像符号化および復号化の分野で開発が盛んに行われていることは、驚くに当たらない。これまでのスケーラブルな映像符号化および復号化方法の便益がどのようなものであれ、それらは以下に示す方法およびツールのもつ利点を備えていない。
本明細書で説明する技法およびツールは、スケーラブルな映像符号化および復号化の性能を改善する。例えば、3Dサブバンドビデオデコーダは、空間領域動き補償時間フィルタリング(spatial-domain motion-compensated temporal filtering)(「SDMCTF」)を使用して、1つの空間解像度で符号化された映像を受信する。3Dサブバンドビデオデコーダは、より低い空間解像度で出力するために、その映像を復号化する。複数の技法のいずれかを使用して、3Dサブバンドビデオデコーダは、そのような復号化における性能を改善する。
ツールおよび技法の第1の組によれば、3Dサブバンドデコーダなどのデコーダは、第1の空間解像度でSDMCTFによって符号化された映像を受信する。デコーダは、第1の空間解像度より低い第2の空間解像度で出力するために、インバンド逆動き補償時間フィルタリング(in-band inverse motion-compensated temporal filtering)を用いて、映像の少なくとも一部を復号化する。そのようにする際に、デコーダは、1つまたは複数の参照画像について補間を実行するが、補間は、バッファされた空間ローパスサブバンド情報に対するインバンド補間ではない。例えば、デコーダは、(1)バッファされた空間ローパスサブバンド情報に対して空間サブバンド逆変換を実行し、(2)空間サブバンド逆変換の結果に対して過完備空間サブバンド変換(overcomplete spatial sub−band transform)を実行し(過完備空間サブバンド変換の結果に補間が適用され)、(3)動き補償予測(motion−compensated prediction)を実行する。あるいは、デコーダは、(1)バッファされた空間ローパスサブバンド情報に対して空間サブバンド逆変換を実行し(空間サブバンド逆変換の結果に補間が適用され)、(2)補間の結果に対してダウンサンプリング離散ウェーブレット変換を実行し、(3)動き補償予測を実行する。
ツールおよび技法の第2の組によれば、3Dサブバンドデコーダなどのデコーダは、第1の空間解像度でSDMCTFによって符号化された映像を受信する。デコーダは、第1の空間解像度より低い第2の空間解像度で出力するために、空間領域逆動き補償時間フィルタリング(spatial-domain inverse motion-compensated temporal filtering)(「SDIMCTF」)を用いて、映像の少なくとも一部を復号化する。SDIMCTFについての1つまたは複数の参照画像は、受信空間ローパスサブバンド情報からは再構成されるが、第1の空間解像度への解像度の向上に関連する受信空間ハイパスサブバンド情報からは再構成されない。例えば、デコーダは、(1)受信空間ローパスサブバンド情報に対して空間サブバンド逆変換を実行するが、空間ハイパスサブバンド情報に対しては実行せず、(2)空間サブバンド逆変換の結果に対して空間領域補間を実行し、(3)空間領域補間の結果を参照画像情報として使用して、SDIMCTFについての動き補償予測を実行し、(4)動き補償予測の結果に対して空間サブバンド変換を実行する。あるいは、デコーダは、(1)バッファされた空間領域情報に対して空間領域補間を実行し、(2)空間領域補間の結果を参照画像情報として使用して、SDIMCTFについての動き補償予測を実行する。
ツールおよび技法の第3の組によれば、3Dサブバンドデコーダなどのデコーダは、第1の空間解像度でSDMCTFによって符号化された映像を受信する。デコーダは、第1の空間解像度より低い第2の空間解像度で出力するために、SDIMCTFを用いて、映像の少なくとも一部を復号化する。復号化では、SDIMCTFにおける動き補償性能を改善するために、第1の空間解像度への解像度の向上に関連する空間ハイパスサブバンド情報を使用するが、解像度を第1の空間解像度に向上させるためには、空間ハイパスサブバンド情報を使用しない。例えば、デコーダは、(1)バッファされた空間領域情報に対して空間領域補間を実行し、(2)空間領域補間の結果を参照画像情報として使用して、SDIMCTFについての動き補償予測を実行する。空間ハイパスサブバンド情報は、SDIMCTFの中間結果として生成することができ、バッファされた空間領域情報として保持することができる。あるいは、空間ハイパスサブバンド情報は、バッファされた空間領域情報が受信空間ローパスサブバンド情報と受信空間ハイパスサブバンド情報から生成されるように、受信映像の一部とすることができる。
本発明の上記およびその他の目的、特徴、および利点は、添付の図面を参照しながら進められる以下に示す詳細な説明からより明らかとなるであろう。
3次元(3D)ウェーブレットまたはサブバンド映像符号化では、映像は、複数の時間変換および空間変換を介して、多くの時間−空間サブバンドに分解される。サブバンドは、そのいくつかをスケーラビリティのために除去することができるという点において、ある程度は独立している。例えば、低空間解像度映像を復号化するために、空間ハイパスサブバンドは除去され、デコーダは、空間ローパスサブバンドでの受信データだけを用いて復号化を実行する。
本明細書で説明する様々な方法およびツールは、独立に利用することができる。それらの方法およびツールのいくつかは、組み合わせて(例えば、結合された符号化および/または復号化プロセスの異なるフェーズで)利用することができる。
I.動作環境例(参考例)
図1に、説明する複数の実施形態を実施するのに用いられる適切なコンピューティング環境(100)の一般化された例を示す。コンピューティング環境(100)は、本発明の用途または機能の範囲に関して何ら限定を示唆しようとするものではなく、説明する方法およびツールは、様々な汎用または専用コンピューティング環境で実施することができる。
図1を参照すると、コンピューティング環境(100)は、少なくとも1つのプロセッシングユニット(110)と、メモリ(120)とを含む。図1では、この最も基本的な構成(130)は、破線で取り囲まれている。プロセッシングユニット(110)は、コンピュータ実行可能命令を実行し、実プロセッサまたは仮想プロセッサとすることができる。マルチプロセッシングシステムでは、処理能力を増強するために、複数のプロセッシングユニットが、コンピュータ実行可能命令を実行する。メモリ(120)は、揮発性メモリ(例えば、レジスタ、キャッシュ、RAM)、不揮発性メモリ(例えば、ROM、EEPROM、フラッシュメモリなど)、または双方の組合せとすることができる。メモリ(120)は、本明細書で説明する1つまたは複数の方法を利用する映像エンコーダおよび/またはデコーダを実施するソフトウェア(180)を記憶する。
コンピューティング環境は、さらなる機能を有することもできる。例えば、コンピューティング環境(100)は、記憶装置(140)、1つまたは複数の入力装置(150)、1つまたは複数の出力装置(160)、および1つまたは複数の通信コネクション(170)を含む。バス、コントローラ、またはネットワークなどの相互接続機構(図示せず)が、コンピューティング環境(100)の構成要素を相互に接続する。一般に、オペレーティングシステムソフトウェア(図示せず)が、コンピューティング環境(100)で動作するその他のソフトウェアに動作環境を提供し、コンピューティング環境(100)の構成要素の働きを調整する。
記憶装置(140)は、着脱可能または着脱不能とすることができ、磁気ディスク、磁気テープもしくはカセット、CD−ROM、DVD、または情報を記憶するのに使用でき、コンピューティング環境(100)内でアクセス可能なその他の任意の媒体を含む。記憶装置(140)は、ソフトウェア(180)に関する命令を記憶する。
入力装置(150)は、キーボード、マウス、ペン、もしくはトラックボールなどの接触型入力装置、音声入力装置、スキャニング装置、またはコンピューティング環境(100)に入力を提供するその他の装置とすることができる。オーディオまたは映像符号化の場合、入力装置(150)は、オーディオまたは映像入力をアナログまたはデジタル形式で受け入れるサウンドカード、映像カード、TVチューナカード、もしくは類似の装置、またはコンピューティング環境(100)にオーディオまたは映像サンプルを提供するCD−ROMもしくはCD−RWとすることができる。出力装置(160)は、ディスプレイ、プリンタ、スピーカ、CDライタ、またはコンピューティング環境(100)からの出力を提供するその他の装置とすることができる。
通信コネクション(170)は、通信媒体を介して別のコンピュータエンティティと通信を行うことを可能にする。通信媒体は、コンピュータ実行可能命令、オーディオもしくは映像の入力もしくは出力、またはその他のデータなどの情報を、変調データ信号によって伝送する。変調データ信号とは、信号に情報を符号化する方式によって設定または変更された1つまたは複数の特性を有する信号のことである。例えば、通信媒体には、電気的、光学的、RF、赤外線、音響的、またはその他の搬送波を用いて実施される有線または無線技術が含まれるが、これらに限定されるものではない。
本発明の技法およびツールは、コンピュータ読取り可能媒体という一般的背景において説明することができる。コンピュータ読取り可能媒体は、コンピューティング環境内でアクセス可能な任意の利用可能媒体とすることができる。例えば、コンピューティング環境(100)では、メモリ(120)、記憶装置(140)、通信媒体、およびこれらの任意の組合せが、コンピュータ読取り可能媒体に含まれるが、これらに限定されるものではない。
本発明の技法およびツールは、プログラムモジュールに含まれる命令など、コンピューティング環境においてターゲット実プロセッサまたは仮想プロセッサで実行されるコンピュータ実行可能命令という一般的背景において説明することができる。一般に、プログラムモジュールには、特定のタスクを実行するか、または特定の抽象データ型を実装する、ルーチン、プログラム、ライブラリ、オブジェクト、クラス、コンポーネント、データ構造などが含まれる。プログラムモジュールの機能は、様々な実施形態における要望に応じて、1つに結合することも、またはいくつかのプログラムモジュールに分割することもできる。プログラムモジュールのコンピュータ実行可能命令は、ローカルまたは分散コンピューティング環境内で実行することができる。
プレゼンテーションの目的で、詳細な説明では、「伝える」、「決定する」、および「適用する」などの用語を使用して、コンピューティング環境でのコンピュータ動作を説明する。これらの用語は、コンピュータによって実行される動作を高いレベルで抽象化したものであり、人間によって実行される行為と混同すべきではない。これらの用語に対応する実際のコンピュータ動作は、実施に応じて変化する。
II.映像エンコーダおよび映像デコーダ例(参考例)
図2は、説明する様々な実施形態を実施するのに用いられる一般化された映像エンコーダシステム(200)のブロック図である。図4には、時間分解の4つのレイヤの後に空間分解の1つのレイヤが続く、一般化されたエンコーダ(400)が示されている。図3は、説明する様々な実施形態を実施するのに用いられる一般化された映像デコーダシステム(300)のブロック図である。図5には、時間(逆)分解の4つのレイヤと空間(逆)分解の2つのレイヤを有する、結合されたエンコーダ/デコーダシステム(500)が示されている。
エンコーダおよびデコーダ内のモジュール間に示された関係は、エンコーダおよびデコーダにおける情報の主要な流れを表しており、その他の関係は、簡略化のために示されていない。具体的には、図2および図3には、動き情報の他は、映像シーケンス、フレーム、マクロブロック、ブロックなどのために使用される、エンコーダ設定、モード、テーブルなどを表す副次的情報は示されていない。そのような副次的情報は、おそらくは副次的情報にエントロピー符号化を施した後、出力ビットストリームに収めて送信される。
実装および所望の圧縮タイプに応じて、図に示すエンコーダおよびデコーダのモジュールは、追加し、省略し、複数のモジュールに分割し、他のモジュールと結合し、かつ/または類似のモジュールで置換することができる。代替の実施形態では、異なるモジュールおよび/または他のモジュール構成を有するエンコーダまたはデコーダが、1つまたは複数の説明する技法を実行する。例えば、図2には、エンコーダシステム(200)における、時間分解(210)からの空間分解(230)ダウンストリームが示されているが、エンコーダシステム(200)は、代替または追加として、時間分解(210)を開始する前に、空間分解の1つまたは複数のレイヤを含むことができる。そのような場合、対応するデコーダシステム(300)は、時間逆分解(310)の後に、空間逆分解の1つまたは複数のレイヤを含むことができる。
3Dサブバンド映像符号化は、中間または高ビットレートにおいて、(例えば、H.264またはVC−1規格に準拠する)最新の非スケーラブルな映像符号化に匹敵する良好な性能を達成する。しかし、3Dサブバンド映像符号化において動きベクトル符号化に費やされるビット量は、従来の非スケーラブルな手法と比べて、相対的に大きい。その結果、3Dサブバンド映像符号化は一般に、低ビットレートでは、非スケーラブルな手法よりも性能が悪く、動きベクトルを符号化するのに費やされるビットは、総ビットレートのより大きな割合を占める。
A.映像エンコーダ例
3Dサブバンド映像符号化は、映像の複数レベルの空間/時間サブバンド分解を利用することによって、複数レベルの空間および/または時間スケーラビリティを提供する洗練された方法である。図2には、一般的な3Dサブバンド映像符号化方式(200)が示されている。エンコーダ(200)は、ビデオ画像シーケンス(205)(例えば、プログレッシブビデオフレーム、インターレースビデオフレーム、またはインターレースビデオフレームのフィールド)を受信し、出力として圧縮ビデオ情報(295)を生成する。映像エンコーダの個々の実施形態は一般に、一般化されたエンコーダ(200)の変形または補足バージョンを使用する。
エンコーダ(200)は、時間サブバンド変換(210)によって映像信号を分解する。図2には、低解像度サブバンドおよび高解像度サブバンドへの単一レベルの時間分解による出力が示されているが、時間分解は、4、5、またはその他の数のレベルの分解を含むことができる。
図2では、時間分解(210)は、動き補償時間フィルタリング(「MCTF」)であり、エンコーダ(200)は、映像信号について動き情報を計算するために動き推定(220)を実行する。動き推定(220)の正確な方略は、実装に応じて決まり、例えば、整数ピクセル検索(integer pixel searching)とそれに続くサブピクセル洗練(sub−pixel refinement)、スパイラル検索パターン(spiral search pattern)、実際またはモデル化残差符号化コストを考慮するレート歪み関数(rate−distortion function)の最小化、動き情報符号化コスト、動き予測モードなどを含むことができる。
いくつかの実装では、エンコーダ(200)は、動き推定(220)において、可変サイズブロックの動きベクトル(4×4から16×16)について動きベクトルを計算し、MCTFにおいて、その動きベクトルを利用する。例えば、16×16のマクロブロックの場合、エンコーダ(200)は、1つの16×16のパーティション、2つの16×8のパーティション、2つの8×16のパーティション、または4つの8×8のパーティションについて動きベクトルを計算し、各8×8のパーティションは、2つの8×4のパーティション、2つの4×8のパーティション、または4つの4×4のパーティションに分割することができる。あるいは、エンコーダ(200)は、より高い空間解像度映像(例えば、CIF)のより大きなブロック(例えば、32×32)について動きベクトルを計算して、より低い空間解像度映像(例えば、QCIF)だけを復号化する場合に、動きベクトルの利用を容易にする。代替として、エンコーダ(200)は、他のサイズのブロックについて動き情報を計算する。
動き推定(220)およびMCTFの動き精度は、実装に応じて決まる。例えば、動き推定(220)およびMCTFは、クォータピクセル(quarter pixel)の動きベクトルを使用する。代替として、動き推定(220)およびMCTFは、他の何らかの精度の動き情報を使用する。例えば、QCIF映像だけを復号化する場合に、クォータピクセルの使用を容易にするため、エンコーダ(200)は、CIF映像についてハーフピクセル(half pixel)の動きベクトルを、および/または4CIF映像について整数ピクセルの動きベクトルを計算する。
動き推定(220)およびMCTFの方向は、前方、後方、双方向、またはイントラ方向(intra)とすることができる。いくつかの実装では、エンコーダ(200)は、動き推定(220)および補償方向をマクロブロックのパーティション毎に、前方、後方、双方向、またはイントラ方向のいずれかに設定する。代替として、エンコーダ(200)は、方向を他の何らかのレベルに設定し、および/またはいくつかの方向(例えば、イントラ方向)を許可しない。
いくつかの実装では、参照フレームを(例えば、単純な反復パディングによって)パディングして、参照フレームの外部で動き推定/補償を可能にすることができる。参照フレーム上でのサブピクセル補間は、双1次フィルタ、双3次フィルタ、sincフィルタ、または他の何らかのフィルタを使用して、分数動き推定/補償(fractional motion estimation/compensation)についてのサンプル値を生成する。いくつかの実装では、エンコーダは、オーバラップブロック動き補償(overlapped block motion compensation)(「OBMC」)を使用する。代替として、動きベクトルの範囲は、参照フレーム境界の内部に制限され、および/またはOBMCは使用されない。
MCTFのいくつかの例を、5/3倍直交ウェーブレット構造(5/3 biorthogonal wavelet structure)を使用して、以下で説明する。代替として、エンコーダ(200)は、別の数および/またはタイプの時間サブバンド変換(210)(例えば、Haar)および/または動き推定(220)を実行する。図2には、最大空間解像度映像が時間的に変換される、空間領域MCTFが示されている。代替として、エンコーダ(200)は、時間分解(210)の前に1つまたは複数の空間サブバンド変換を含み、MCTFは、初期空間分解からの空間サブバンドについてのインバンドMCTF(in−band MCTF)である。
時間変換(210)の後、エンコーダ(200)は、1つまたは複数の2次元(「2D」)空間サブバンド変換(230)を利用して、信号をさらに分解する。図2には、2つのレベルの2D空間分解による出力が示されており、水平方向および垂直方向に低空間解像度を有するサブバンドは、さらに水平方向および垂直方向に分解される。例えば、2D空間サブバンド変換は、ダイアディック(dyadic)な離散ウェーブレット変換(「DWT」)である。ウェーブレットフィルタは、例えば、9/7 DWTフィルタまたは5/3 DWTフィルタとすることができる。代替として、エンコーダ(200)は、(3または4など)別の数の空間サブバンド変換を実行し、かつ/または別のタイプの空間サブバンド変換(230)を実行する。
時間変換(210)および空間変換(230)の後、信号は、入力映像(205)の異なる空間−時間解像度に対応する、異なる空間−時間サブバンドに構成される。エンコーダ(200)は、サブバンドにエントロピー符号化を施す。例えば、いくつかの実施では、エンコーダ(200)は、最適切り捨てを行う3D組み込みブロック符号化(「EBCOT」)を使用する。JPEG2000は、EBCOTの2次元形式を使用し、そのような実装では、エンコーダ(200)は基本的に、2D EBCOTを3D符号化に拡張する。時間および空間変換によって生成された各サブバンドは、独立に符号化される3D符号化ブロックに分割される。各符号化ブロックについて、エンコーダ(200)は、ビットプレーン符号化およびコンテキストベースの算術符号化を使用する。代替として、エンコーダ(200)は、サブバンド情報のエントロピー符号化の他の何らかの形式を使用する。
エンコーダ(200)は、動き情報(例えば、動きベクトル、動きモード選択情報)も符号化(250)する。例えば、エンコーダ(200)は、単純な可変長符号など、エントロピー符号化の何らかの形式を使用して、動きベクトル情報、マクロブロックのパーティション、および動き推定/補償の方向をエントロピー符号化する。動きベクトルの場合、エンコーダ(200)は、動きベクトルとその予測変数(predictor)の差を符号化する。動きベクトル予測変数は、それまでの符号化/復号化動きベクトルに基づく中央値予測を使用して、または他の何らかの動きベクトル予測技法を使用して、計算することができる。代替として、エンコーダ(200)は、動き情報に関する他のおよび/または追加の符号化(250)技法を使用する。
サブバンド変換(210、230)の特性によって、エンコーダ(200)は、空間スケーラビリティおよび時間/フレームレートスケーラビリティを当然にサポートする。さらに、サブバンド係数のビットプレーン符号化によって、エンコーダ(200)は一般に、品質/信号対雑音比(「SNR」)スケーラビリティをもサポートする。
これらのスケーラビリティは、インターネットまたは無線ネットワークなど、エラーが起こりやすいネットワークを介する映像送信にとって非常に有益である。異なるサブバンドを符号化して、誤り訂正または通信誤りに対する回復力のレベルが異なる伝送を行うことができる。あるいは、ネットワークが優先順位づけされた伝送をサポートする場合、異なるサブバンドを異なる優先権レベルで送信することができる。
異なる装置が、異なるメモリ資源、計算性能、ディスプレイサイズ、アクセス可能帯域などを有していても、様々なスケーラビリティは、異なる装置が、同一の圧縮映像ストリームを共用する手助けをすることもできる。このようにして、ビデオ画像(205)を異なるビットレートで符号化するタスクは簡略化される。
マルチレベル時間分解の1つの利点は、映像信号内の時間冗長性を広い範囲で利用できる点にある。時間サブバンド変換の最初の数レベルは、近くのフレーム間の時間冗長性を利用することができ、時間サブバンド変換の最後の数レベルは、より長い距離にわたってフレーム間の依存性を利用することができる。
図4には、時間分解の4つのレイヤおよび空間分解の1つのレイヤを有する、3Dサブバンド映像エンコーダ(400)が示されている。本質的に、図4には、図2の時間サブバンド変換(210)の1つの可能な拡張が示されており、時間分解の異なるレベルについてのデータフローも示されている。図4は、時間および空間分解に関する新しい表記も導入する。
図4では、エンコーダ(400)は、4レベルの時間サブバンド変換を、フレームレートが毎秒fフレームである映像に適用する。時間サブバンド変換の各レベルTiは、そのレベルに入力された信号を、2つの時間サブバンド、すなわち、時間ローパスサブバンドと時間ハイパスサブバンドに分割する。各サブバンドは、そのレベルへの入力映像信号の半分のフレームレートをもつ。図4では、用語t−Liおよびt−Hiはそれぞれ、第iレベルの時間変換Tiの後に出力されるローパスサブバンドおよびハイパスサブバンドを示す。t−Liおよびt−Hiは共に、f/2iのフレームレートをもつ。図4では、信号t−Liは、長期依存性を利用するため、またデコーダによって復号化できる低フレームレート映像を可能にするために、時間サブバンド変換Tiの数回の繰り返しによって分解される。
簡単な数値例で説明するため、入力映像は、毎秒30フレーム(「fps」)のCIF映像であると仮定する。第1の時間分解からの出力ローパスサブバンドt−L1は、15fpsの映像であり、第1の時間分解からの出力ハイパスサブバンドt−H1も同様である。第2の時間分解からの出力サブバンドt−L2およびt−H2は、7.5fpsの映像であり、第3の時間分解からの出力サブバンドt−L3およびt−H3は、3.75fpsの映像である。最後に、第4の時間分解からの出力サブバンドt−L4およびt−H4は、1.875fpsの映像である。この例では、空間解像度は、すべての出力ローパスおよびハイパスサブバンドについてCIFである。
フレーム間の動き情報が、異なるレベルにおいて推定され、各レベルの時間変換は、現在のレベルの動きの軌跡に沿って実行される。したがって、各レベルの時間分解は、後で符号化される動きベクトルを生成する。図4では、4つのレベルの時間分解に対応する、動きベクトルの4つの組が存在する。
出力時間ローパスサブバンドt−L4および出力時間ハイパスサブバンドt−H1、t−H2、t−H3、t−H4は、単一レベルの2D空間サブバンド変換S1によって分解され、2D空間サブバンド変換S1は、個々の入力サブバンドを、ローパス水平、ローパス垂直(「LL」)、ローパス水平、ハイパス垂直(「LH」)、ハイパス水平、ローパス垂直(「HL」)、およびハイパス水平、ハイパス垂直(「HH」)に分割する。代替として、エンコーダ(400)は、時間分解レベルの前および/または後に、他のおよび/または追加のレベルの空間分解を含み、またはエンコーダ(400)は、異なる空間分解パターンを使用する。
図4に関して上で開始した数値例を継続すると、ローパスサブバンドt−L4は、CIFの空間解像度をもつ。単一レベルの2D空間サブバンド変換S1によって、時間サブバンドt−L4は、LLサブバンド、LHサブバンド、HLサブバンド、およびHHサブバンドに分解される。LL、LH、HL、およびHHサブバンドの各々は、QCIFの空間解像度をもつ。同様に、時間ハイパスサブバンドt−H1、t−H2、t−H3、t−H4も、CIF解像度から開始され、QCIF解像度のLL、LH、HL、およびHHサブバンドに分解される。
その後、空間的に分解されたサブバンドは、エントロピー符号化が施され、出力される。
B.映像デコーダ例
図3には、一般的な3Dサブバンド映像復号化方式(300)が示されている。デコーダ(300)は、圧縮映像情報(395)を受信し、出力として映像画像シーケンス(305)(例えば、プログレッシブビデオフレーム、インターレースビデオフレーム、またはインターレースビデオフレームのフィールド)を生成する。映像デコーダの個々の実装形態は一般に、一般化デコーダ(300)の変形または補足バージョンを使用する。
デコーダ(300)は、一部または全部の空間−時間サブバンドについて情報(395)をエントロピー復号化する(340)。映像情報(395)はまだ、入力映像(205)の異なる空間−時間解像度に対応する、異なる空間−時間サブバンドに構成されている。このように、デコーダ(300)は、異なる空間−時間解像度の間で選択を行い、圧縮ビットストリーム(395)の一部を無視することができ、またはデコーダ(300)は、デコーダ(300)が実際に受信した圧縮ビットストリーム(395)のあるサブセットを単純に復号化(340)することができる。デコーダ(300)は本質的に、デコーダ(300)が復号化する情報について、エンコーダ(200)で実行されたエントロピー符号化(240)の逆を実行する。例えば、デコーダ(300)は、3D EBCOTを使用して符号化された情報を受信し、復号化(340)する。代替として、デコーダ(300)は、一部または全部のサブバンド情報について、他の何らかの形式のエントロピー復号化を使用する。
デコーダ(300)は、逆MCTF(「IMCTF」)を実行するとき、多くの場合、エンコーダ(200)で実行された符号化(250)の逆を実行して、動き情報(例えば、動きベクトル、動きモード選択情報)を復号化(350)する。例えばデコーダ(300)は、単純な可変長符号の復号化など、エントロピー復号化の何らかの形式を使用する。動きベクトルの場合、デコーダ(300)は、中央値予測または他の何らかの動きベクトル予測技法を使用して、動きベクトル予測を計算し、その後、デコーダ(300)は、動きベクトル予測を動きベクトルの差分と合成する。代替として、デコーダ(300)は、他のおよび/または追加の復号化(350)技法を使用する。
デコーダ(300)は、1つまたは複数の2D空間サブバンド逆変換(330)を適用して、空間的に信号を再構成する。図3には、2つのレベルの2D逆空間分解に関する入力と出力が示されている。例えば、2D空間サブバンド逆変換は、ダイアディックな逆DWT(「IDWT」)である。代替として、デコーダ(300)は、別の数および/またはタイプの空間サブバンド逆変換(330)を実行する。
デコーダ(300)はさらに、時間サブバンド逆変換(310)によって映像信号を再構成する。図3には、低解像度サブバンドおよび高解像度サブバンドからの単一レベルの時間再構成による出力が示されているが、時間合成は、4、5、またはその他の数のレベルの合成を含むことができる。
図3では、時間逆変換(310)は、IMCTFを使用し、デコーダ(300)は、映像信号についての復号化(350)された動き情報を使用して、動き補償を実行する。一般に、動き情報およびIMCTFの属性(例えば、動き補償用のパーティション、動きベクトル精度、動き補償の方向、参照フレームパディングの使用、サブピクセル補間、OBMCの使用)は、対応するエンコーダ(200)におけるものと同様であり、圧縮映像ビットストリーム(395)に収めて伝えられる。IMCTFのいくつかの例を、以下で説明する。代替として、デコーダ(300)は、別の数および/またはタイプの時間サブバンド逆変換(310)および/または動き補償を実行する。図3には、最大空間解像度映像が逆時間変換を使用して再構成される、空間領域IMCTFが示されている。代替として、デコーダ(300)は、インバンドMCTFを実行する。
図4のエンコーダ(400)に戻ると、対応するデコーダは、t−Liだけからf/2iフレームレートの映像を再構成することができる。あるいは、デコーダは、t−Liおよびt−Hi(後続の時間ハイパスサブバンド情報t−Hi+1などを含む)の両方からf/2i-1フレームレートの映像を再構成することができる。
図5には、エンコーダ内に4レイヤの時間分解と2レイヤの空間分解を、デコーダ内にそれぞれ同数の逆変換を有する、3Dサブバンド映像エンコーダ−デコーダ(「コーデック」)システム(500)の例が示されている。本質的に、図5には、図2のエンコーダ(200)および図3のデコーダ(300)の可能な別形が示されている。図5は、時間および空間分解、ならびにそれらの逆操作についての別のより簡単な表記も導入している。
図5では、エンコーダは、4つのレベルの時間サブバンド変換Ti(すなわち、T1、T2、T3、T4)を映像に適用し、2つのレベルの空間サブバンド変換Si(すなわち、S1、S2)を時間分解の結果に適用する。その後、エンコーダは、エントロピー符号化Eを実行する。デコーダは、エントロピー復号化E-1を実行し、2つのレベルの空間サブバンド逆変換Si -1(すなわち、S2 -1、S1 -1)をエントロピー復号化の結果に適用する。その後、デコーダは、4つのレベルの時間サブバンド逆変換Ti -1(すなわち、T4 -1、T3 -1、T2 -1、T1 -1)を空間再構成の結果に適用する。
III.動き補償時間フィルタリング(参考例)
符号化効率を向上させるため、動き調整(motion−aligned)時間変換(あるいは、本明細書では、動き補償時間フィルタリング(「MCTF」)とも呼ばれる)が、時間分解において適用されて、時間冗長性を効果的に削除する。MCTFの中心的アイデアは、時間分解の適用中に、異なるフレーム間でピクセルの位置合わせを行うというものである。動き調整3D符号化方式は、非妥協的な、または他の符号化方式に比べてはるかに優れた符号化効率に加えて、スケーラビリティ機能も提供することができる。
様々なMCTF方式の中で、リフティングベース(lifting−based)のMCTFは、柔軟で効率的な実装を提供する。図6には、5/3倍直交ウェーブレットに関するリフティングベースのMCTFにおける、入力映像フレーム、時間ローパスフレーム、および時間ハイパスフレームの間の関係が示されている。
様々なMCTF方式の中で、リフティングベース(lifting−based)のMCTFは、柔軟で効率的な実装を提供する。図6には、5/3倍直交ウェーブレットに関するリフティングベースのMCTFにおける、入力映像フレーム、時間ローパスフレーム、および時間ハイパスフレームの間の関係が示されている。
図6には、MCTFに入力された4つの元のインデックス映像フレームに関するピクセル列が示されている(入力フレーム自体は、例えば、前のレベルのMCTFから出力された時間ローパスサブバンドとすることができる)。図6のリフティングベースのウェーブレット変換は、2つの基本ステージ、すなわち、動き補償予測(motion−compensated prediction)(「MCP」)ステージと、動き補償更新(motion−compensated update)(「MCU」)ステージを含む。
予測ステージでは、奇数フレーム(例えば、フレームI2i+1)について、1つまたは複数の隣接する偶数フレーム(例えば、フレームI2iおよびI2i+2)による動き補償が、奇数フレームのピクセルについての動き補償予測を表す。ハイパスフレーム(例えば、Hi)は本質的に、奇数フレームと奇数フレームの動き補償予測との差である。
更新ステージでは、1つまたは複数の利用可能なハイパスフレーム(例えば、HiおよびHi-1)が、動き補償更新を表す。ローパスフレーム(例えば、Li)は本質的に、更新と偶数フレーム(例えば、フレームI2i)との差である。
図7には、エンコーダ内のリフティングを用いる従来のMCTFが、図8には、デコーダ内の対応するIMCTFが示されている。一貫性のため、図7および図8、ならびに本出願中の他のどこでも、偶数映像フレームは、動き補償予測の基準であり、ローパスフレームの形成のために使用され、奇数映像フレームは、MCPの対象であり、ハイパスフレームの形成のために使用される。代替として、奇数および偶数フレームの役割は入れ替えられる。
図7のMCTF(700)では、偶数映像フレームが、MCP(710)における基準として使用される。個々の奇数映像フレームI2i+1について、エンコーダは、隣接する偶数フレームI2iおよびI2i+2の一方または両方から、動き補償予測を計算する。予測と元の奇数フレームI2i+1の差が、時間ハイパスフレームHiである。
ハイパスフレームHiは、MCU(720)における基準として使用される。個々の偶数映像フレームI2iについて、エンコーダは、隣接する奇数映像フレームについてのハイパスフレームHi-1およびHiの一方または両方から、動き補償更新を計算する。更新と元の偶数フレームI2iの合成が、時間ローパスフレームLiである。
例えば、フレームI0,I1,...,I2n-1の映像シーケンスが、図7のMCTF(700)によって処理されると仮定する。予測モジュール(710)は、以下の式によって、連続する偶数フレームI2iおよびI2i+2から、奇数フレームI2i+1の予測P(I2i+1)を計算する。
Figure 0004896458
ただし、MV2i+1->2iは、I2i+1からI2iへの動きベクトルを意味し、MV2i+1->2i+2は、同様の意味をもち、MC()は、隣接する偶数フレームから現在の奇数フレームの予測の少なくとも一部を生成する動き補償を意味する(式(1)は、動きベクトルが適用される奇数フレームのマクロブロック、マクロブロックパーティション、または他の部分のMCPを示すものとされ、そのようなMCPは、奇数フレームの他のマクロブロック、マクロブロックパーティションなどについて繰り返される)。場合によっては、エンコーダは、動き補償予測を計算する場合に(Haar変換の場合のように)、隣接する偶数フレームの(両方ではなく)一方だけを考慮し、それに対応して、式(1)のMC寄与および重み付け(MC contributions and weighting)に変更が施される。または、エンコーダは、イントラ圧縮(intra compression)を使用して、奇数フレームの一部または全部を符号化する。組み込み基本レイヤコーデックと併せて、エンコーダは、以下で説明するように、隣接する偶数フレーム以外のフレームを参照フレームとして使用する。
その後、予測モジュール(710)は、以下の式によって、ハイパスフレームHiを計算する。
i=I2i+1−P(I2i+1) (2)
予測ステップ(710)に後続し、1つのレベルの時間変換を完了する更新ステップ(720)では、エンコーダは、以下の式によって、隣接するハイパスフレームから、偶数フレームI2iの予測U(I2i)を計算する。
Figure 0004896458
ただし、MC()は、隣接するハイパスフレームから偶数フレームの更新の少なくとも一部を生成する動き補償を意味する。簡単な近似として、MCUについての動きベクトルは、MCPについての対応する動きベクトルの逆として導出される(式(3)は、動きベクトルが適用される偶数フレームのマクロブロック、マクロブロックパーティション、または他の部分のMCUを示すものとされ、そのようなMCUは、他のマクロブロック、マクロブロックパーティションなどについて繰り返される)。場合によっては、エンコーダは、動き補償更新を計算する場合に、ハイパスフレームの(両方ではなく)一方だけを考慮し、それに対応して、式(3)のMC寄与および重み付けに変更が施され、またはエンコーダは、ハイパスフレームのどちらも考慮しない。
その後、エンコーダは、以下の式によって、ローパスフレームを計算する。
i=I2i−U(I2i) (4)
図8のIMCTF(800)では、ハイパスフレームHiが、MCU(820)における基準として使用される。個々の偶数映像フレームI2iについて、デコーダは、隣接する奇数映像フレームについてのハイパスフレームHi-1およびHiの一方または両方から、動き補償更新を計算する。更新と偶数フレームI2iについての対応する時間ローパスフレームLiとの差が、再構成された偶数フレームI2iである。
偶数映像フレームが再構成されたので、偶数映像フレームが、MCP(810)における基準として使用される。個々の奇数映像フレームI2i+1について、デコーダは、隣接する再構成偶数フレームI2iおよびI2i+2の一方または両方から、動き補償予測を計算する。予測と奇数フレームI2i+1についての対応する時間ハイパスフレームHiとの合成が、再構成奇数フレームI2i+1である。
エンコーダでは、予測ステップは一般に、予測で使用される動きベクトルと一緒にハイパスフレームを(空間分解およびエントロピー符号化によって)符号化するのに必要なビットレートを最小化または低下させるよう試みる。したがって、ハイパスフレームHiは本質的に、対応する奇数インデックスの入力映像フレームI2i+1を関連する偶数インデックスの元の映像フレームから引いた、双方向MCP(または場合によっては、前方MCPもしくは後方MCP)による残差である。その後、元の偶数インデックスの映像フレームI2iは、予測残差を用いて、ローパスフレームとして更新される。
ハイパスフレームのエネルギーは、動きモデルの成功に依存し、動きモデルの成功は、動きの複雑度、フレームにわたる動きの一様性、および動きモデル自体に依存する。動き予測が正確ならば、予測残差は通常、小規模となる。しかし、動きが正しく捕捉される場合でも、更新ステップは、動きの軌跡に沿ったローパスフィルタリングに起因するノイズおよびエイリアシング(aliasing)を減らすことができる点で、依然として有用である。一般に、更新ステップは、ローパスフレームの高周波数部の除去を容易にし、したがって、符号化効率を向上させる。
動き予測が(例えば、複雑で予測不可能な動き、または動きモデル自体の欠点のせいで)不正確ならば、物体特徴は、整列することができず、様々な問題を引き起こす。不正確な動き予測の結果、ハイパスサブバンドフレーム内で、複数のエッジが生じ、エネルギーが増大し得る。これは、ハイパスサブバンド自体の符号化の圧縮性能を損ねるばかりでなく、更新ステップ中にゴーストエッジおよび輪郭を時間ローパスフレームに加えてしまう。
より一般的には、更新ステップは、時間スケーラビリティが使用可能な場合、復号化性能に影響を及ぼし得る。特に、限界のあるチャネル帯域または装置性能のせいで、時間ハイパスフレームが部分的または完全に欠落した場合、デコーダで問題が起こり得る(しばしば、IMCTFでの時間スケーラビリティは、時間変換領域において、時間ハイパスサブバンドを廃棄する一方、時間ローパスサブバンドは保持することによって達成される)。動き予測が効率的でない場合、ハイパスフレームは、符号化の更新ステップ中に、ローパスフレームにアーティファクト(artifact)をもたらす(すなわち、低フレームレート映像)。映像を時間ローパスフレームだけから再構成する場合、ハイパス寄与分(high−pass contribution)は、デコーダのMCUによって一切除去されない。あるいは、時間ハイパスフレーム情報が粗く量子化されている場合、ハイパスフレームからの寄与分はデコーダのMCUで近似的に除去されるにすぎないので、時間ローパスフレームの品質が損なわれ得る。したがって、ローパスフレーム中のゴーストは、ローパスフレームの符号化により多くのビットが割り当てられる場合でも、除去することができない。
可能な解決策の1つは、エンコーダのリフティングベースのMCTFにおいて更新ステップをスキップすることである。しかし、更新ステップは動きの軌跡に沿ったローパスフィルタリングに起因するノイズおよびエイリアシングを減らすことができるので、スキップすることによって、全体的な符号化性能が著しく低下し得る。さらに、更新ステップは、歪みを時間ハイパスサブバンドおよび時間ローパスサブバンドの間に拡散させることによって、デコーダにおいて全体的な歪みを減らすことができる。
IV.MCTFおよびIMCTF内の適応更新ステージ(参考例)
いくつかの実施形態においては、スケーラブルな映像エンコーダは、リフティングベースのMCTFにおける更新ステップを適応的に実行し、および/またはスケーラブルな映像デコーダは、IMCTFにおける更新ステップを適応的に実行する。人間の視覚系の特性を利用することによって、適応更新ステップは、時間ローパスサブバンドから復号化される低フレームレート映像の知覚可能な視覚品質を向上させる。同時に、従来の更新ステップと比べて、適応更新ステップは、時間ローパスおよび時間ハイパスサブバンドから復号化されるより高いフレームレートの映像に関して、満足し得る性能を維持する。
A.エンコーダおよびデコーダ例
適応更新方式は、(1)元の更新情報を可能な限り追加することと、(2)同時に、更新ステップによって導入される視覚的アーティファクトを減少させることの2つの相反する目標の間で、良好なトレードオフを達成する。
図9には、エンコーダ内の適応更新操作を用いるMCTFフレームワーク(900)が、図10には、デコーダ内の適応更新操作を用いるIMCTFフレームワーク(1000)が示されている。例えば、フレームワーク(900、1000)は、図2〜図5を参照しながら説明したように、エンコーダおよび/またはデコーダに組み込まれる。代替として、適応更新操作は、別のエンコーダおよび/またはデコーダに組み込まれる。
図9を参照すると、MCTFフレームワーク(900)は、予測(910)および更新(920)ステージを含んでいる。これらのステージでは基本的に、図7を参照しながら説明したように処理が進行する。
MCTFフレームワーク(900)は、人間の視覚系(human vision system)(「HVS」)モデル(930)を使用して、予測ステップからの信号を視覚品質の観点で評価する。例えば、エンコーダは、HVSモデル(930)に従って、偶数フレームの情報を評価する。いくつかの実装では、HVSモデル(930)は、丁度可知差異(just noticeable difference)(「JND」)を測定基準(metric)に使用する。別の実装では、HVSモデル(930)は、他の知覚基準を使用する。HVSモデル(930)は、閾値情報を閾値(940)ステージに提供し、閾値ステージは、閾値情報を考慮して、更新(920)ステージの結果を評価し、適用する。例えば、HVSモデル(930)は、モデルに従って評価された偶数フレームのピクセル当たりの閾値を提供する。閾値の様々な例および更新操作での用途について以下で説明する。代替として、HVSモデル(930)は、異なる閾値情報を提供する。
閾値(940)ステージの結果、更新情報は、歪みが特に目立つイメージの部分では制限されるが、イメージの他の部分では制限されない。したがって、更新情報は、偶数フレームに適用される前に、人間の知覚に応じて適応的に除去または制限をすることができる。
図10を参照すると、IMCTFフレームワーク(1000)も、予測(1010)および更新(1020)ステージを含んでいる。これらのステージでは基本的に、図8を参照しながら説明したように処理が進行する。
IMCTFフレームワーク(1000)は、HVSモデル(1030)を使用して、信号を視覚品質の観点で評価する。例えば、デコーダは、HVSモデル(1030)に従って、ローパスフレームの情報を評価する。いくつかの実施では、HVSモデル(1030)は、丁度可知差異(「JND」)を測定基準に使用する。別の実施では、HVSモデル(1030)は、他の知覚基準を使用する。
HVSモデル(1030)は、閾値情報を閾値(1040)ステージに提供し、閾値ステージは、閾値情報を考慮して、更新(1020)ステージの結果を評価し、適用する。例えば、HVSモデル(1030)は、モデルに従って評価されたローパスフレームのピクセル当たりの閾値を提供する。閾値の様々な例および更新操作での用途について以下で説明する。代替として、HVSモデル(1030)は、異なる閾値情報を提供する。
図9と図10を比較すると、エンコーダ側でのHVSモデル(930)は、偶数フレームに適用され、デコーダ側でのHVSモデル(1030)は、ローパスフレームに適用される。エンコーダ側とデコーダ側で同一のHVSモデル(930、1030)を使用する場合であっても、閾値はわずかに異なり得る。対応する偶数フレームとローパスフレームでは閾値は非常に類似している可能性が高いので、またエンコーダおよびデコーダ状態の間の偏差は、(時間とともに累積して、より悪化することはなく)一フレームに局所的なものなので、閾値の異なりは許容できる。
さらに、図9および図10のフレームワーク(900、1000)では、閾値は各レベルのMCTF/IMCTFにおいて計算される。そのようなものとして、閾値は、時間的に対応するフレームであっても、異なるレベルのMCTF/IMCTFで異なり得る。
したがって、いくつかの実装では、エンコーダ側のMCTF(900)とデコーダ側のIMCTF(1000)は、HVSモデル(930、1030)において、同一のJND測定基準を適用する。閾値はエンコーダおよびデコーダにおいて独立に計算され、適用されるので、閾値または閾値操作に関連する符号化オーバーヘッドは存在しない。代替として、エンコーダは、閾値情報または決定をデコーダに伝え、またはデコーダは、エンコーダとは異なるHVSモデルを適用する。
B.HVSモデルおよび閾値操作例
エンコーダ内の適応更新ステップは一般に、Li=I2i+f(U2i)と表すことができる。関数f()は、偶数フレームI2iについての更新U2iに適用される適応関数である。Liは合成されたローパスフレームである。
適応関数は、人間の視覚モデルの結果および成果を利用する。人間の視覚系に基づいたコンピューティングモデルを開発するために、幅広い研究が行われている。様々なモデルでは、知覚基準は、空間および時間領域においてコントラストおよび輝度の変化のレベルが変動する刺激に対して、HVSの感度に不一致が存在するという観察に基づいている。
HVSの数々のコンピューティングモデルにおいて、JNDは、知覚符号化およびイメージ透かしの中で広く使用されている。JNDは、その中で動揺(perturbation)がちょうど人間に認識可能になるまで増加する輝度エッジの振幅の関数として定義される視感度閾値(visibility threshold)を使用する。さらなる情報については、非特許文献1を参照されたい。JNDは、HVSのテクスチャマスキング(texture masking)特性と密接に関係している。この基準によれば、ノイズは、フラットまたはテクスチャなしの領域において視覚により感じられ、エッジおよびテクスチャありの領域において視覚にあまり感じられない。
JND閾値は、イメージに依存する。更新情報がJND閾値より低く保たれているかぎり、「更新残差」の透過性が、ローパスフレームにおいて達成される。そのようなものとして、JNDは、適応更新方式におけるHVSモデルとして良好に機能する。適応更新方式の一実装においては、JNDモデルは、以下の式によって定義される。
Figure 0004896458
ただし、
Figure 0004896458
は、座標が(i,j)のピクセルを中心とするウィンドウ内のイメージxの局所分散(local variance)を表す。JNDは、計算の複雑度を小さくするために、輝度サンプルだけから計算することができる。あるいは、JNDは、輝度および彩度サンプルの両方から計算することができる。ウィンドウサイズは、実装によって左右される。ウィンドウサイズの一例に3×3があり、別の例に5×5がある。θは、個々のイメージについて選択できる調整パラメータである。これは、イメージが非定常ガウシアン(non−stationary Gaussian)であると仮定すれば、ノイズ可視性関数値(noise visibility function value)と同じである。調整パラメータθは、JND定義においてコントラスト調整の役割を果たす。調整パラメータθは、イメージ依存とするために、以下の式によって計算することができる。
Figure 0004896458
ただし、
Figure 0004896458
は、与えられたイメージの最大局所分散であり、D∈[50,100]は、実験的に決定されるパラメータである。このJND定義によれば、フラット領域においては、
Figure 0004896458
が小さいので、JND値は小さく、その逆も成り立つ。
より正確な方法で、エンコーダ内の適応更新を表すと、
i=I2i+f(I2i,U2i) (7)
となり、ただし、
Figure 0004896458
である。
Figure 0004896458
は、上で定義したJNDx(i,j)の一例であり、Sは、実装に依存する強度係数(strength factor)であり、例えば、12.5とする。JND関数は、視覚マスキングに関連するローカルフレーム特性に適応する。局所強度分散(local intensity variance)が大きければ、JNDは、相対的に大きく(式(5)に従って、1に接近する)、動きの激しいまたは詳細な領域を示す。反対に、局所強度分散が小さければ、JNDは、相対的に小さく(式(5)に従って、0に接近する)、フラットな領域を示す。JNDは、エンコーダ内で偶数インデックスフレームから更新のために計算され、デコーダ内で偶数インデックスフレーム(実際には、それのローパスイメージ近似)から計算される。結果として、適応更新は、ハイパスフレームに起因するゴースト発生アーティファクトを効果的に軽減し、時間スケーラビリティについての符号化性能を改善する。
上で述べたように、いくつかの実装では、エンコーダおよびデコーダは、同じJND測定基準および(式(8)のインデックス値などの変更を伴う)閾値処理を使用し、適応更新操作に関して、符号化およびデコーダへ送るためのオーバーヘッドは発生しない。エンコーダおよびデコーダは、異なるイメージ(エンコーダでは元のフレーム、デコーダでは再構成されたローパスバージョン)に処理を施すが、実験結果は、デコーダにおける結果の更新マスクが、エンコーダにおける更新マスクの非常に近い近似となることを示している。
代替として、エンコーダおよび/またはデコーダは、JNDの別の定義、別のHVSモデル、および/または別の閾値操作を使用する。例えば、他のおよび/または追加のパラメータを使用することができる。
C.適応更新技法の例
図11から図13には、適応更新操作のための方法(1100、1200、1300)が示されている。図9を参照しながら説明したようなエンコーダは、図11および図12に示す方法(1100、1200)を実行し、図10を参照しながら説明したようなデコーダは、図11および図13に示す方法(1100、1300)を実行する。代替として、別のエンコーダまたはデコーダは、方法(1100、1200、1300)を実行する。
図11には、適応更新操作のための簡略化された汎用的方法(1100)が示されている。エンコーダまたはデコーダは、適応更新用の閾値を計算する(1120)。その後、エンコーダまたはデコーダは、適応更新操作を実行する(1160)。
図12には、MCP用の追加詳細を含む、エンコーダにおける適応更新操作のための詳細な方法(1200)が示されている。
ローパスフレームが計算される現在の偶数フレームについて、エンコーダは閾値を計算する(1220)。例えば、エンコーダは、前のセクションで説明したような、現在の偶数フレームのピクセルに関するJNDを計算する。代替として、エンコーダは、他の何らかの測定基準を使用して閾値を計算する(1220)。
MCPについて、エンコーダは、例えば、隣接する奇数フレームを予測するために前方および/または後方に動きながら、現在の偶数フレームから1つまたは複数の動き補償予測を計算する(1230)。エンコーダは、他の偶数フレームから、隣接する奇数フレームに関する1つまたは複数の他の動き補償予測を計算する(1230)こともできる(または、そのような予測は、時間的により前の偶数フレームから事前に計算しておくこともできる)。その後、エンコーダは、動き補償予測および対応する隣接奇数フレームから、1つまたは複数のハイパスフレームを計算する(1240)。
次に、エンコーダは、1つまたは複数のハイパスフレームから、現在の偶数フレームに関する動き補償更新を計算する(1250)。例えば、エンコーダは逆に、現在の偶数フレームからMCP(1230)中に計算された動き情報を適用する。代替として、エンコーダは、更新を計算する(1250)のに異なるメカニズムを使用する。
その後、エンコーダは、現在の偶数フレームについて適応更新を実行し(1260)、ローパスフレームを得る。例えば、エンコーダは、前のセクションで説明したような、動き補償更新およびJND閾値を使用して、適応閾値操作を実行する。代替として、エンコーダは、異なる閾値処理メカニズムを使用して、適応更新を計算する(1260)。
エンコーダは、MCTFを続行するかどうかを決定し(1290)、続行する場合、次の偶数フレームに移って処理を続ける。
図13には、異なるフレームレートで復号化するための別個のパスを含む、デコーダにおける適応更新操作のための詳細な方法(1300)が示されている。
デコーダは、復号化のための時間解像度を決定する(1310)。時間解像度は、ユーザレベルの設定または他の何らかの設定によって決定することができ、デコーダが実際にどれだけの情報(例えば、エラーを起こしやすいチャネルを介して時間ローパス情報だけ)を受信したかに基づいて決定することができ、または他の何らかの方法で決定することができる。代替として、デコーダは、唯一の復号化パスを有することができる。例えば、個々のデコーダのリソースに適するように、あるデコーダは、低フレームレートパスを含むことができ、別のデコーダは、高フレームレートパスを含むことができる。
低フレームレートパスでは、デコーダは、受信したローパスフレーム情報から(例えば、ローパスフレームを現在のフレームとして使用して)、現在の偶数フレームを計算する(1312)。ハイパス情報および動き情報は無視されるか、または受信されないので、適応更新操作は実行されない。そのような情報が存在しなくても、符号化時の適応更新操作によって、認識可能な歪みの偶数フレームへの付加は制限されているので、現在の偶数フレームの品質は、(従来のIMCTFと比べて)向上する。
高フレームレートパスでは、現在の偶数フレームについて、デコーダは、デコーダによって受信された対応するローパスフレームから閾値を計算する(1320)。例えば、デコーダは、前のセクションで説明したような、ローパスフレームのピクセルに関するJNDを計算する。代替として、デコーダは、他の何らかの測定基準を使用して閾値を計算する(1320)。
デコーダは、1つまたは複数のハイパスフレームから、現在の偶数フレームに関する動き補償更新を計算する(1330)。例えば、デコーダは逆に、現在の偶数フレームからMCP(1230)中に計算された動き情報を適用する。代替として、デコーダは、更新を計算する(1330)のに異なるメカニズムを使用する。
その後、デコーダは、ローパスフレームについて適応更新を実行し(1360)、現在の偶数フレームを再構成する。例えば、デコーダは、前のセクションで説明したような、更新およびJND閾値を使用して、適応閾値操作を実行する。代替として、デコーダは、異なる閾値処理メカニズムを使用して、適応更新を計算する(1360)。
MCPについて、デコーダは、例えば、隣接する奇数フレームを予測するために前方および/または後方に動きながら、再構成された現在の偶数フレームから1つまたは複数の動き補償予測を計算する(1370)(隣接する奇数フレームに関する他の動き補償予測を、時間的により前の偶数フレームから事前に計算しておくこともできる)。その後、デコーダは、奇数フレームに関する動き補償予測および対応するハイパスフレームから、1つまたは複数の再構成された奇数フレームを計算する(1380)。
デコーダは、IMCTFを続行するかどうかを決定し(1390)、続行する場合、次の偶数フレームに移って処理を続ける。
図12および図13に示した様々な操作は、分割することができ、他の操作と結合することができ、または順序を変更することができる。例えば、図12には、一部の操作が並列して示されているが、代わりに、これらの操作を直列に実行することもできる。
V.3Dサブバンド映像符号化および復号化における組み込み基本レイヤコーデック(参考例)
本発明のいくつかの実施形態では、スケーラブルな映像エンコーダは、組み込み基本レイヤコーデックを含み、スケーラブルな映像デコーダは、組み込み基本レイヤデコーダを含む。基本的に、組み込み基本レイヤコーデックによって生成されるビットストリームは、3Dサブバンド映像符号化ビットストリームの低ビットレートの基本レイヤとして機能する。スケーラブルな映像符号化/復号化システムというコンテキストでは、例えば、基本レイヤは、システムのために最低の空間、時間、およびSNR解像度で映像を提供し、その上に、システムのために最高の空間、時間、およびSNR解像度までのスケーラビリティを提供する追加の増強レイヤが追加される(符号化および復号化における基本レイヤの正確な役割は、実施形態が違えば異なってくる)。例えば、3Dサブバンド映像エンコーダは、組み込み映像コーデックを含み、3Dサブバンド映像デコーダは、対応する組み込み映像デコーダを含む。
多くのタイプの組み込みコーデックについて、これは、低ビットレートでの符号化性能を向上させ、従来の3Dサブバンド符号化では、動き情報を符号化するのに費やされるビットが、利用可能なビットレートの非効率な割合を消費するのに比べ、組み込み映像コーデックはより効率的である。場合によっては、組み込み基本レイヤコーデックは、クローズドループ時間予測(closed−loop temporal prediction)、インループフィルタリング(in−loop filtering)、および3Dサブバンド符号化に関連する制約のないレート歪み最適化(rate−distortion optimization)などの利点を提供する。同時に、中間およびより高いビットレートでの3Dサブバンド符号化の利点(例えば、空間および時間スケーラビリティ)も保たれる。
3Dサブバンド映像符号化にコーデックを組み込む別の利点は、組み込みコーデックと対応するデコーダに互換性が提供されることである。例えば、MPEG−1コーデックが組み込まれる場合、MPEG−1復号化機能を備える受信機ならどれでも、(MPEG−1コーデックが本質的に符号化性能を改善しないとしても)圧縮映像のラフなバージョンを復号化することができる。H.264またはVC−1コーデックが組み込まれる場合、これは、互換性の他に、低ビットレートでの符号化性能を改善する。
本明細書で説明する技法およびツールは、性能および/または互換性に関する利点を有するシステムに限定されるものではない。性能および互換性の他にも、スケーラブルな映像エンコーダに基本レイヤコーデックを組み込み、スケーラブルな映像デコーダに基本レイヤデコーダを組み込むことには、他の利点が存在し得る。
A.エンコーダおよびデコーダ例
図14から図19には、基本レイヤコーデックまたはデコーダをエンコーダまたはデコーダにそれぞれ組み込むための、3つの異なる方式が示されている。エンコーダでは、基本レイヤ用のコーデックは、時間サブバンド変換の間に組み込まれ、時間サブバンド変換の後には、空間サブバンド変換が続く。付加的な空間サブバンド変換を、時間サブバンド変換の後および/または前に配置することができ、同様にデコーダでも対応する変更が可能である。基本レイヤコーデックは、様々な変換の間の異なる位置に配置することができ、デコーダにおいても対応する変更が可能である。
一般に、組み込みコーデックの配置は、基本レイヤ映像に関するフレームレートおよび空間解像度を定める。図14から図19に示される3つの方式の間の比較を簡潔にするため、基本レイヤ解像度は、フレームレートの4分の1で、元の映像の空間解像度の半分であると定める。したがって、例えば、元の映像が30fpsのCIF映像である場合、基本レイヤ映像は、7.5fpsのQCIF映像である。
そのようなものとして、基本レイヤコーデックは、図14、図16、および図18のエンコーダでは、2つの時間サブバンド変換の後に置かれ、図15、図17、および図19のデコーダでは、最後の2つの時間サブバンド逆変換の前に置かれる。時間変換の間での基本レイヤコーデックおよびデコーダの配置を変更することは、基本レイヤフレームレートを変更する1つの方法である。例えば、図14、図16、および図18には、t−L2サブバンドを入力として受け取るように組み込まれた基本レイヤモジュールが示されているが、代替として、基本レイヤモジュールは、t−L1サブバンド変換または別のサブバンド変換の後に配置される。一般に、時間変換の間での配置は、基本レイヤ映像について要望されるフレームレートに依存する。
図14、図16、および図18では、基本レイヤに関する空間解像度の変更は、何らかの任意の係数による(組み込みコーデックまたはデコーダに隣接する)サンプリング操作または空間サブバンド変換操作によって達成される。サンプリング/空間サブバンド変換操作の比率を変更することは、基本レイヤ空間解像度を変更する1つの方法である。
図14、図16、および図18には、時間サブバンド変換モジュールT、空間サブバンド変換モジュールS、ならびにMV符号化およびエントロピー符号化モジュールの他、モジュールへの入力およびモジュールからの出力が含まれる。図15、図17、および図19には、時間サブバンド逆変換モジュールT-1、空間サブバンド逆変換モジュールS-1、ならびにMV復号化およびエントロピー復号化モジュールの他、モジュールへの入力およびモジュールからの出力が含まれる。一般に、これらのモジュールおよび入力/出力の役割は、図2から図5を参照しながら説明したものと同様である。
図14、図16、および図18に示す基本レイヤコーデックは、規格に準拠したビットストリーム(例えば、MPEG−1、MPEG−2、MPEG−4、H.261、H.263、H.264/AVC、またはVC−1)を生成するコーデックとすることができ、図15、図17、および図19には、対応する基本レイヤデコーダが示されている。あるいは、基本レイヤコーデック/デコーダは、市販製品(例えば、WMV8、WMV9)とすることができる。より一般的には、基本レイヤコーデック/デコーダは、所望の性能および/または互換性特性を有する任意の利用可能なコーデック/デコーダとすることができる。
1.第1の方式
図14には、第1の方式による3Dサブバンドエンコーダ(1400)が示されている。エンコーダ(1400)は、組み込み基本レイヤコーデック(1420)の他、基本レイヤコーデック(1420)の前後に、ダウンサンプリングモジュール(1410)およびアップサンプリングモジュール(1430)を含む。
ダウンサンプリングモジュール(1410)およびアップサンプリングモジュール(1430)はオプションである。これらは、組み込みコーデック(1420)によって符号化される映像が、組み込みコーデック(1420)に入力される時間サブバンドよりも低い空間解像度をもつ場合に使用される。それ以外の場合、ダウンサンプリングモジュール(1410)およびアップサンプリングモジュール(1430)はスキップすることができる。
図14内の破線の長方形は、2つのレベルの時間分解の後の、基本レイヤコーデック(1420)に関連する操作を囲っている。基本レイヤの場合、入力映像は、毎秒f/4フレームであり、解像度は、ダウンサンプリングモジュール(1410)によって低下させることができる。したがって、基本レイヤ映像は、元の映像の低フレームレートかつ(可能性として)低空間解像度の表示を提供する。
ダウンサンプリングモジュール(1410)は、簡単なサブサンプリング、ローパスフィルタ、または他の何らかのフィルタリングメカニズムを使用して、t−L2時間サブバンドをダウンサンプリングする。例えば、ダウンサンプリングモジュール(1410)は、係数2によって垂直または水平に空間解像度を減少させる。いくつかの実装では、ダウンサンプリングモジュール(1410)は、非特許文献2で説明されているような「MPEG」フィルタ、またはドーブシ(Daubechies)9/7DWTフィルタを利用する。より一般には、ダウンサンプリングモジュール(1410)は、組み込みコーデック(1420)への入力の空間解像度を任意の比率で変更して、所望の基本レイヤ空間解像度を達成し、および/または入力の空間解像度を基本レイヤコーデック(1420)で許容可能なものにする。
組み込みコーデック(1420)は、(ts−LLサブバンドとして示されている)ダウンサンプリングされたt−L2サブバンドを、組み込みコーデック(1420)の通常操作を使用して符号化する。組み込みコーデック(1420)は、基本レイヤ解像度で、出力基本レイヤビットストリーム(1495)を生成し、出力基本レイヤビットストリーム(1495)は、対応する基本レイヤデコーダと互換性がある。組み込みコーデック(1420)はまた、エンコーダ(1400)内での後の符号化のため、組み込みコーデック(1420)用の対応する復号化操作を使用して、ts−LLサブバンドを復号化し、再構成されたサブバンドts−LL’を生成する。
アップサンプリングモジュール(1430)は、基本レイヤコーデック(1420)からの再構成された出力サブバンドts−LL’を、何らかのフィルタリングメカニズムを使用してアップサンプリングし、時間サブバンドt−L2の再構成バージョンt−L2’を生成する。再構成サブバンドt−L2’は、t−L2と同じ解像度をもつ。例えば、アップサンプリングモジュール(1430)は、係数2によって垂直または水平に空間解像度を増加させる。いくつかの実装では、アップサンプリングモジュール(1430)は、単純な6タップフィルタ{−1,5,20,20,5,−1}、非特許文献3に記されているような8タップsincフィルタ、またはドーブシ9/7IDWTフィルタを利用する。アップサンプリングフィルタは、ダウンサンプリングフィルタを反転させた(mirror)ものである必要はなく、例えば、ダウンサンプリング用に、MPEGフィルタを使用することができ、アップサンプリング用に、IDWTフィルタを使用することができる。より一般には、アップサンプリングモジュール(1430)は、組み込みコーデック(1420)からの出力の空間解像度を任意の比率で変更して、ダウンサンプリングモジュール(1410)以前にもっていた空間解像度まで映像を回復させる。
エンコーダ(1400)は、元の時間サブバンドt−L2から、再構成されたバージョンのt−L2’を減算する。これによって、差異または残差サブバンドt−L2”が生成される。基本レイヤコーデック(1420)が効率的であり(例えば、VC−1またはH.264/AVC)、かつ基本レイヤビットレートが適切である場合、基本レイヤ品質は、相対的に良好であり得、差異サブバンドはあまり大きなエネルギーをもたない。反対に、基本レイヤコーデック(1420)があまり効率的でないか、または基本レイヤビットレートが不適切である場合、基本レイヤ品質は、相対的に貧弱なことがあり、差異サブバンドはより大きなエネルギーをもつ。
エンコーダ(1400)は、差異サブバンドt−L2”に対して、さらに2つのレベルの時間分解を実行する。最後に、エンコーダ(1400)は、個々のサブバンド(例えば、t−H1、t−H2、t−H3、t−H4、およびt−L4)に対して、空間変換およびエントロピー符号化を実行して、スケーラブルなビットストリームを生成する。
図15には、第1の方式による対応する3Dサブバンドデコーダ(1500)が示されている。デコーダ(1500)は、組み込み基本レイヤデコーダ(1520)の他、基本レイヤデコーダ(1520)の後に、アップサンプリングモジュール(1530)を含む。
アップサンプリングモジュール(1530)はオプションである。これは、組み込みデコーダ(1520)によって復号化される映像が、ダウンストリーム時間逆変換レベルに出力される時間サブバンドt−L2よりも低い空間解像度をもつ場合に使用される。それ以外の場合、アップサンプリングモジュール(1530)はスキップすることができる。
図15内の破線の長方形は、2つの付加的レベルの時間逆分解の前にある、基本レイヤデコーダ(1520)に関連する操作を囲っている。基本レイヤの場合、映像は、毎秒f/4フレームであり、空間解像度を、低下させることができる。したがって、基本レイヤは、映像の低フレームレートかつ(可能性として)低空間解像度の表示を提供する。実際、低フレームレートおよび(可能性として)低空間解像度を有する映像は、基本レイヤデコーダ(1520)を用いて直接に復号化し、出力することができる。
それ以外では、デコーダ(1500)は、デコーダ(1500)が映像を再構成するのに使用するスケーラブルなビットストリームからのサブバンド(例えば、t−H1、t−H2、t−H3、t−H4、およびt−L4)のいずれに対しても、エントロピー復号化および空間逆分解を実行する。デコーダ(1500)は、第3および第4のレベルの時間逆分解を実行して、t−H3、t−H4、およびt−L4サブバンド、ならびに関連する動き情報から、差異サブバンドt−L2”を再構成する。
組み込みデコーダ(1520)は、基本レイヤ解像度で符号化された映像に関する、基本レイヤビットストリーム(1595)を受信する。組み込みデコーダ(1520)は、適切な復号化操作を使用して、基本レイヤビットストリーム(1595)内の圧縮およびダウンサンプリングされたサブバンドts−LLを復号化し、サブバンドの再構成されたバージョンts−LL’を生成する。
アップサンプリングモジュール(1530)は、基本レイヤデコーダ(1520)からの再構成出力サブバンドts−LL’を、何らかのフィルタリングメカニズムを使用してアップサンプリングし、時間サブバンドt−L2の再構成されたバージョンt−L2’を生成する。再構成サブバンドt−L2’は、t−L2と同じ解像度をもつ。例えば、アップサンプリングモジュール(1530)は、係数2によって垂直または水平に空間解像度を増加させる。より一般には、アップサンプリングモジュール(1530)は、組み込みデコーダ(1520)からの出力の空間解像度を任意の比率で変更して、基本レイヤのダウンサンプリング以前にもっていた空間解像度まで映像を回復させる。
デコーダ(1500)は、再構成された差異サブバンドt−L2”を、対応する再構成サブバンドt−L2’に加算する。これによって、残りの時間逆分解に入力される、時間ローパスサブバンドt−L2の再構成されたバージョンが生成される。
2.第2の方式
図16には、第2の方式による3Dサブバンドエンコーダ(1600)が示されている。エンコーダ(1600)は、組み込み基本レイヤコーデック(1620)の他、基本レイヤコーデック(1620)の前後に、DWTモジュール(1610)およびIDWTモジュール(1630)を含む。
図14に示すダウンサンプリングモジュール(1410)およびアップサンプリングモジュール(1430)と同様に、DWTモジュール(1610)およびIDWTモジュール(1630)はオプションである。これらは、組み込みコーデック(1620)によって符号化される映像が、組み込みコーデック(1620)に入力される時間サブバンドt−L2よりも低い空間解像度をもつ場合に使用される。それ以外の場合、DWTモジュール(1610)およびIDWTモジュール(1630)はスキップすることができる。
図16内の破線の長方形は、2つのレベルの時間分解の後の、基本レイヤコーデック(1620)に関連する操作を囲っている。DWTモジュール(1610)は、t−L2時間サブバンドを処理して、ローパスサブバンドts−LLを生成する。一般に、DWTモジュール(1610)は、組み込みコーデック(1620)への入力の空間解像度を変更して、所望の基本レイヤ空間解像度を達成し、および/または入力の空間解像度を基本レイヤコーデック(1620)において許容可能なものにする。DWTモジュール(1610)は、IDWTモジュール(1630)に転送される、空間ハイパスサブバンドts−LH、ts−HL、およびts−HHも生成する。
組み込みコーデック(1620)は、ts−LLサブバンドを、組み込みコーデック(1620)の通常操作を使用して符号化する。組み込みコーデック(1620)は、基本レイヤ解像度で、出力基本レイヤビットストリーム(1695)を生成する。組み込みコーデック(1620)はまた、組み込みコーデック(1620)用の対応する復号化操作を使用して、ts−LLサブバンドを復号化し、再構成されたサブバンドts−LL’を生成する。
エンコーダ(1600)は、元のサブバンドts−LLから、その再構成されたバージョンts−LL’を減算する。これによって、残差サブバンドts−LL”が生成される。図14のエンコーダ(1400)の場合のように、基本レイヤコーデック(1620)が効率的であり、かつ基本レイヤビットレートが適切である場合、残差サブバンドts−LL”は一般に、あまり大きなエネルギーをもたない。反対に、基本レイヤコーデック(1620)があまり効率的でないか、または基本レイヤビットレートが不適切である場合、残差サブバンドts−LL”は、より大きなエネルギーをもつことがある。
残差サブバンドts−LL”、ならびに空間ハイパスサブバンドts−LH、ts−HL、およびts−HHから、IDWTモジュール(1630)は、新しい残差サブバンドt−L2”を生成する。新しい残差サブバンドt−L2”は、DWTモジュール(1610)に入力されたサブバンドt−L2と同じ空間解像度をもつ。
エンコーダ(1600)は、残差サブバンドt−L2”に対して、さらに2つのレベルの時間分解を実行する。最後に、エンコーダ(1600)は、個々のサブバンド(例えば、t−H1、t−H2、t−H3、t−H4、およびt−L4)に対して、空間変換およびエントロピー符号化を実行して、スケーラブルなビットストリームを生成する。
図17には、第2の方式による対応する3Dサブバンドデコーダ(1700)が示されている。デコーダ(1700)は、組み込み基本レイヤデコーダ(1720)の他、基本レイヤデコーダ(1720)の前後に、DWTモジュール(1710)およびIDWTモジュール(1730)を含む。
DWTモジュール(1710)およびIDWTモジュール(1730))はオプションである。これらは、組み込みデコーダ(1720)によって復号化される映像が、ダウンストリーム時間逆変換レベルに出力される時間サブバンドt−L2よりも低い空間解像度をもつ場合に使用される。それ以外の場合、DWTモジュール(1710)およびIDWTモジュール(1730)はスキップすることができる。
図17内の破線の長方形は、2つの付加的レベルの時間逆分解の前の、基本レイヤデコーダ(1720)に関連する操作を囲っている。基本レイヤは、映像の低フレームレートかつ(可能性として)低空間解像度の表示を提供し、そのようなより低い品質の映像は、基本レイヤデコーダ(1720)を用いて直接に復号化し、出力することができる。
それ以外では、デコーダ(1700)は、デコーダ(1700)が映像を再構成するのに使用するスケーラブルなビットストリームからのサブバンド(例えば、t−H1、t−H2、t−H3、t−H4、およびt−L4)のいずれに対しても、エントロピー復号化および空間逆分解を実行する。デコーダ(1700)は、第3および第4のレベルの時間逆分解を実行して、t−H3、t−H4、およびt−L4サブバンド、ならびに関連する動き情報から、残差サブバンドt−L2”を再構成する。
DWTモジュール(1710)は、残差t−L2”を処理し、空間ローパス残差サブバンドts−LL”、ならびに空間ハイパスサブバンドts−LH”、ts−HL”、およびts−HH”の再構成されたバージョンを生成する。一般に、DWTモジュール(1710)は、ローパス残差サブバンドts−LL”が、空間解像度に関して組み込みデコーダ(1720)の出力と一致するように、空間解像度を変更する。
組み込みデコーダ(1720)は、基本レイヤ解像度で符号化された映像に関する、基本レイヤビットストリーム(1795)を受信する。組み込みデコーダ(1720)は、適切な復号化操作を使用して、基本レイヤビットストリーム(1795)内の圧縮および変換されたサブバンドts−LLを復号化し、サブバンドの再構成されたバージョンts−LL’を生成する。
デコーダ(1700)は、再構成された残差サブバンドts−LL”を、組み込みデコーダ(1720)から出力された対応する再構成されたサブバンドts−LL’に加算する。これによって、元のts−LLサブバンドの再構成されたバージョンが生成される。
その後、IDWTモジュール(1730)は、再構成されたts−LLサブバンドを、DWTモジュール(1710)から出力された空間ハイパスサブバンドts−LH”、ts−HL”、およびts−HH”と合成する。これによって、残りの時間逆分解に入力される、時間ローパスサブバンドt−L2の再構成されたバージョンが生成される。
3.第3の方式
最初の2つの符号化方式は、基本レイヤコーデックが、時間変換の中に組み込まれ、残差信号がさらに、後の時間変換の中で分解される。対照的に、第3の符号化方式では、後の時間変換は、(残差フレームではなく)時間ローパスフレームに適用される。
図18には、第3の方式による3Dサブバンドエンコーダ(1800)が示されている。エンコーダ(1800)は、組み込み基本レイヤコーデック(1820)の他、基本レイヤコーデック(1820)の前後に、ダウンサンプリングモジュール(1810)およびアップサンプリングモジュール(1830)を含む。図18内の破線の長方形は、2つのレベルの時間分解の後の、基本レイヤコーデック(1820)に関連する操作を囲っている。図14に示すエンコーダ(1400)の対応するモジュールの場合のように、ダウンサンプリングモジュール(1810)およびアップサンプリングモジュール(1830)はオプションである。第2および第3の時間変換の間のスケーラブルな映像と同様に、基本レイヤ映像は、毎秒f/4フレームであり、解像度は、ダウンサンプリングモジュール(1810)によって低下させることができる。したがって、基本レイヤ映像はやはり、元の映像の低フレームレートかつ(可能性として)低空間解像度の表示を提供する。
ダウンサンプリングモジュール(1810)は、簡単なサブサンプリング、ローパスフィルタ、または他の何らかのフィルタリングメカニズムを使用して、t−L2時間サブバンドをダウンサンプリングする。一般に、ダウンサンプリングモジュール(1810)は、組み込みコーデック(1820)への入力の空間解像度を任意の比率で変更して、所望の基本レイヤ空間解像度を達成し、かつ/または入力の空間解像度を基本レイヤコーデック(1820)で許容可能なものする。
組み込みコーデック(1820)は、(ts−LLサブバンドとして示されている)ダウンサンプリングされたt−L2サブバンドを、組み込みコーデック(1820)の通常操作を使用して符号化する。組み込みコーデック(1820)は、基本レイヤ解像度で、ビットレートが最低の出力基本レイヤビットストリーム(1895)を生成し、出力基本レイヤビットストリーム(1895)は、対応する基本レイヤデコーダと互換性がある。組み込みコーデック(1820)はまた、エンコーダ(1800)内での後の符号化のため、組み込みコーデック(1820)用の対応する復号化操作を使用して、ts−LLサブバンドを復号化し、再構成されたサブバンドts−LL’を生成する。
アップサンプリングモジュール(1830)は、基本レイヤコーデック(1820)からの再構成された出力サブバンドts−LL’を、何らかのフィルタリングメカニズムを使用してアップサンプリングし、時間サブバンドt−L2の再構成されたバージョンt−L2’を生成する。再構成されたサブバンドt−L2’は、t−L2と同じ解像度をもつ。一般に、アップサンプリングモジュール(1830)は、組み込みコーデック(1820)からの出力の空間解像度を任意の比率で変更して、ダウンサンプリングモジュール(1810)以前にもっていた空間解像度まで映像を回復させる。
エンコーダ(1800)は、元の(基本レイヤ処理以前の)時間サブバンドt−L2に対して、第3および第4のレベルの時間分解を実行する。第3および第4の時間変換の場合、エンコーダ(1800)は、時間ハイパスサブバンドt−H3およびt−H4について動き補償予測を計算する。予想されるように、時間サブバンドt−L2は、第4のレベルの時間分解において、動き補償のための参照フレーム候補(例えば、t−L2の偶数フレーム)を提供する。第3の方式によれば、アップサンプリングされた再構成されたサブバンドt−L2’内の時間的に対応する画像は、動き補償のための参照フレーム追加候補として働く。例えば、(t−L2の奇数インデックスフレームと同じ時間をもつ)t−L2’の1つおきのフレームは、第3のレベルの時間分解において、t−L2の奇数インデックスフレームのMCP用の参照として利用可能である。(t−L3の奇数インデックスフレームと同じ時間をもつ)t−L2’の3つおきのフレームは、第4のレベルの時間分解において、t−L3の時間的に対応する奇数インデックスフレームのMCP用の参照として利用可能である。
図20には、組み込み基本レイヤコーデックの後の時間変換における、動き補償のための異なる参照組合せ事例が示されている。参照フレーム候補は、入力時間ローパスサブバンドからのフレーム(例えば、偶数フレーム)を含む。参照フレーム候補は、基本レイヤのアップサンプリング出力からの、時間的に対応する(例えば、同じ時間の)再構成されたフレームも含む。例えば、図20の組合せ(1)では、ハイパスサブバンドフレームHは、前の時間サブバンドの偶数フレームに基づく第1の動き補償予測を使用し、かつ(ハイパスサブバンドフレームHと時間的に同じところに位置する)基本レイヤからのアップサンプリングされた再構成に基づく第2の動き補償予測を使用する。これに対して、ハイパスサブバンドフレームHは、(対応するローパスサブバンドフレームLを生成するために)、動き補償で使用される偶数フレームを更新するためだけに使用される。基本レイヤからの参照が予測工程で使用される場合、それのための対応する更新工程は必要とされない。
いくつかの実装では、エンコーダは、マクロブロックごとに、動き補償のための参照フレームを選択し、交換する。代替として、エンコーダは、他の何らかの基準(例えば、現在の奇数フレームごと、動きベクトルおよびマクロブロックパーティションごと)に基づいて、動き補償のための参照フレームを選択し、交換する。
図18に戻ると、最後の時間分解の後、基本レイヤ出力t−L2’のフレームレートは、最終的な時間ローパスサブバンドt−L4のフレームレートの4倍である。エンコーダ(1800)は、最終的な時間ローパスサブバンドt−L4から、基本レイヤ出力t−L2’の時間的に対応するアップサンプリングされた再構成されたフレームを減算する。これによって、残差サブバンドt−L4’が生成される。最後に、エンコーダ(1800)は、個々のサブバンド(例えば、t−H1、t−H2、t−H3、t−H4、およびt−L4’)に対して、空間変換およびエントロピー符号化を実行して、スケーラブルなビットストリームを生成する。
図19には、第3の方式による対応する3Dサブバンドデコーダ(1900)が示されている。デコーダ(1900)は、組み込み基本レイヤデコーダ(1920)の他、基本レイヤデコーダ(1920)の後に、アップサンプリングモジュール(1930)を含む。
図15に示すデコーダ(1500)と同様に、アップサンプリングモジュール(1930)はオプションである。これは、組み込みデコーダ(1920)によって復号化される映像が、ダウンストリーム時間逆変換レベルによって使用される時間サブバンドフレームよりも低い空間解像度をもつ場合に使用される。それ以外の場合、アップサンプリングモジュール(1930)はスキップすることができる。
図19内の破線の長方形は、4つのレベルの時間逆分解の前の、基本レイヤデコーダ(1920)に関連する操作を囲っている。他の基本レイヤデコーダと同様に、低い基本レイヤフレームレートおよび(可能性として)低空間解像度を有する映像は、基本レイヤデコーダ(1920)を用いて直接に復号化し、出力することができる。
それ以外では、デコーダ(1900)は、デコーダ(1900)が映像を再構成するのに使用するスケーラブルなビットストリームからのサブバンド(例えば、t−H1、t−H2、t−H3、t−H4、およびt−L4’)のいずれに対しても、エントロピー復号化および空間逆分解を実行する。
組み込みデコーダ(1920)は、基本レイヤ解像度で符号化された映像に関する、基本レイヤビットストリーム(1995)を受信する。組み込みデコーダ(1920)は、適切な復号化操作を使用して、基本レイヤビットストリーム(1995)内の圧縮およびダウンサンプリングされたサブバンドts−LLを復号化し、サブバンドの再構成されたバージョンts−LL’を生成する。アップサンプリングモジュール(1930)は、基本レイヤデコーダ(1920)からの再構成された出力サブバンドts−LL’を、何らかのフィルタリングメカニズムを使用してアップサンプリングし、時間サブバンドt−L2の再構成されたバージョンt−L2’を生成する。
デコーダ(1900)は、残差サブバンドt−L4’を、アップサンプリングされた基本レイヤ出力t−L2’の時間的に対応する(例えば、同じ時間の)フレームに加算する。これによって、第4レベルの時間逆分解に入力される、時間ローパスサブバンドt−L4の再構成されたバージョンが生成される。
デコーダ(1900)は、第3および第4のレベルの時間逆分解を実行して、再構成されたt−H3、t−H4、およびt−L4サブバンド、ならびに関連する動き情報から、時間サブバンドt−L2を再構成する。第3および第4の時間逆分解の場合、デコーダ(1900)は、時間ハイパスサブバンドt−H3およびt−H4に関して、動き補償予測を計算する。時間サブバンドt−L3は、第4レベルの時間変換においてMCP用に再構成された参照フレーム(例えば、t−L3の再構成された偶数フレーム)を有し、時間サブバンドt−L2は、第3レベルの時間変換においてMCP用に再構成された参照フレーム(例えば、t−L2の再構成された偶数フレーム)を有する。アップサンプリングされた再構成されたサブバンドt−L2’内の時間的に対応する(例えば、同じ時間の)画像は、第3および第4のレベルの時間逆分解において、動き補償のための追加参照フレームとして働くことができる。
B.基本レイヤ情報の付加的な用途例
下位互換性の提供、および低ビットレート映像についてのレート歪みに関する圧縮効率の改善の他にも、基本レイヤからの出力には、付加的な用途が存在し得る。
1.基本レイヤからの動きベクトルの再利用
リフティングベースのMCTFを用いる3Dサブバンド符号化においては、MCP工程のための動きベクトルは、動き推定によって得られる。いくつかの実装では、動き推定プロセスは、MPEG2、H.264/AVCなどの既存の映像規格に準拠するエンコーダのための従来の動き推定と同様である。さらに、Haarおよび5/3時間変換は、それぞれ従来のP画像およびB画像の動き補償プロセスと同様である。
MPEG−2、MPEG−4、H.264/AVCなどの既存の規格と互換性がある基本レイヤコーデックの場合、インター画像(inter−picture)(P画像またはB画像)用のインター圧縮(inter compression)を使用して符号化されるブロックは一般に、関連する動き情報をもつ。一方、3Dサブバンド符号化では、基本レイヤコーデックの下流にある時間分解のレベル(例えば、図14、図16、および図18の第3および第4のレベル)でのハイパスサブバンドは、時間的に対応する画像を基本レイヤ出力の中に見つけることができる。多くの場合(特に、第3の方式による場合)では、そのようなハイパスサブバンドについての動き情報と、基本レイヤ内の時間的に対応するインター画像についての動き情報の間には、高い類似性が存在する。この相関に基づいて、エンコーダおよび/またはデコーダは、数々の目的で、基本レイヤコーデックからの動きベクトルを再利用することができる。
基本レイヤ動きベクトルの付加的な用途の一例では、3Dサブバンドエンコーダおよび3Dサブバンドデコーダは、基本レイヤ動きベクトルを、時間的に対応するハイパスサブバンドフレームのブロックについての実際の動きベクトルとして単純に使用する(基本レイヤフレームとハイパスサブバンドフレームが異なる空間解像度をもつ場合、3Dサブバンドエンコーダおよび3Dサブバンドデコーダは、基本レイヤ動きベクトルをしかるべくスケーリングすることができる)。特に、3Dサブバンドエンコーダおよび3Dサブバンドデコーダは、低ビットレートにおいて、この目的で基本レイヤ動きベクトルを使用する。基本レイヤ動きベクトルは、基本レイヤビットストリームの一部としてそれまでに伝えられるので、これによって、もちろん、動き情報のためのオーバーヘッドが減少する。多くの場合では、動き予測の正確性の低下に関する不都合は少ない。
基本レイヤ動きベクトルの付加的な用途の別の例では、3Dサブバンドエンコーダおよび3Dサブバンドデコーダは、基本レイヤコーデックからの動きベクトルを、動きベクトル予測において使用する。従来の動きベクトル符号化および復号化の一部として、動きベクトル予測は、現在の動きベクトルの値についての予測を提供する。その後、現在の動きベクトルは、予測された動きベクトルに対する差として表し、伝えることができる。エンコーダおよびデコーダは共に、近隣ブロックの事前に再構成された動きベクトルから、現在の動きベクトルについての予測動きベクトルを選択または導出する。
いくつかの実装では、時間ハイパスサブバンドのブロックの現在の動きベクトルについての予測動きベクトルを選択または導出する場合、3Dサブバンドエンコーダおよび3Dサブバンドデコーダは、時間的に対応する基本レイヤフレームの空間的に対応するブロックからの動きベクトルを使用する。例えば、3Dサブバンドエンコーダおよび3Dサブバンドデコーダは、基本レイヤからの動きベクトルを、予測動きベクトルとして使用する。あるいは、3Dサブバンドエンコーダおよび3Dサブバンドデコーダは、基本レイヤからの動きベクトルを、予測動きベクトルが(例えば、候補の中央値として)選択される候補として使用する。
基本レイヤ動きベクトルの付加的な用途のさらに別の例では、3Dサブバンドエンコーダは、動き推定をスピードアップするために、基本レイヤ動きベクトルを使用する。例えば、3Dサブバンドエンコーダは、適切な現在の動きベクトルをより速やかに見つけるために、動き推定の早い段階で、対応する基本レイヤ動きベクトルについて考える。
同様に、3Dサブバンドエンコーダおよび3Dサブバンドデコーダは、基本レイヤからの動きモード(例えば、ブロックパーティション、方向)情報を再利用することができる。場合によっては、基本レイヤモード情報は、時間的に対応するハイパスサブバンドフレームのブロックの実際のモード情報として使用することができる。あるいは、基本レイヤモード情報は、モード情報の予測のため、または動き推定をスピードアップするために使用することができる。
図21から図23には、基本レイヤの後の時間分解において、基本レイヤからの動き情報が、時間ハイパスサブバンドにとって特に有用となる、異なる符号化構造(フレームタイプのパターン)が示されている。図21では、基本レイヤの符号化構造は、3Dサブバンド符号化にとって共通の構造に適合するように調整される。3つのB画像が、2つのIまたはP画像の間に挿入され、第2のB画像が、(H.264/AVCで使用されるストアドB画像(stored B−picture)のように)第1および第3のB画像の基準として使用される。このようにして、基本レイヤ内のB画像の動きベクトルは、3Dサブバンド符号化において、時間的に対応するハイパスサブバンドフレームのために非常に自然に再利用することができる。
基本レイヤコーデック用のある既存の規格との互換性のため、図22のフレームワークは、基本レイヤについての従来の符号化構造を使用するが、3Dサブバンド符号化のためにフレームタイプのパターンを調整する。3つのB画像が、基本レイヤ内の2つのI/P画像の間に挿入されるが、3つのB画像は、参照としてI/P画像だけを利用する(動き補償の参照としてB画像は利用しない)。3Dサブバンド符号化方式では、パターンは、2つのローパスサブバンドの間で生成される3つのハイパスサブバンドを含む。
図23には、汎用的なパターンが示されている。基本レイヤでは、3Dサブバンド符号化におけるハイパスサブバンドに時間的に対応する画像は、BまたはP画像によって符号化される。図21および図22に示すパターンは、5/3時間分解に適しているが、図23に示すパターンは、(P画像およびB画像関係にそれぞれ対応する)Haarおよび5/3時間分解のために適応的に使用することができる。
2.基本レイヤからのイントラ領域の予測
映像シーケンス内に遮蔽(occlusion)または不規則な動きが存在する場合、動き推定は、時間ハイパスサブバンド内のいくつかのブロックに対して、あまりよく一致しないブロックしか見つけることができない。イントラ符号化モードが使用可能でない場合、上記のケースでの強制的なインター予測は、符号化性能を劣化させ、映像品質に悪影響をもたらし得る。
H.264/AVC規格では、イントラ予測技法が、MCPが失敗した場合に対処する。イントラ予測では、現在のブロックの予測変数(predictor)は、隣接する再構成されたピクセルから、空間予測によって得られる。しかし、オープンループMCTF構造を用いる3Dサブバンド符号化では、そのような空間予測は、不一致および誤差ドリフト(error drifting)を持ち込みがちである。
上で説明した第1および第2の組み込み基本レイヤ符号化方式では、基本レイヤ符号化および復号化を終えた後、3Dサブバンド符号化のためのさらなる時間分解が、差異情報について実行される(例えば、図14では、差異情報は、入力時間サブバンドt−L2と、基本レイヤコーデックからの出力ts−LL’のアップサンプリングバージョンt−L2’の間の残差である)。一般に、差異は高周波数エネルギーだけをもち、その空間冗長性は低い。したがって、基本レイヤコーデックにおいて、ブロックがイントラモードで符号化される場合、3Dサブバンド符号化における後の時間分解でのイントラ予測は、通常不必要になる。これは、オープンループ3Dサブバンド符号化でのイントラ予測に関連する不一致の問題を回避しながら、符号化性能および視覚品質を向上させるのに役立つ。
一方、上で説明した第3の組み込み基本レイヤ符号化方式では、3Dサブバンド符号化のためのさらなる時間分解が、差異情報について実行されない。しかし、第3の方式では、基本レイヤコーデックの出力が、参照画像の候補を提供することができ、参照画像の候補は、空間イントラ予測を使用して符号化されたブロックを含むことができる。基本レイヤ出力からの参照画像のイントラ符号化ブロックに対して動き補償を実行することは、MCTFでのMCPが、その他の方法では、あまりよく一致しないブロックしか見つけることができない状況に対処するのに役立つ。基本レイヤ出力からの参照画像は、後の3Dサブバンド符号化において、ローパスサブバンドのための予測変数として使用することもできる。3Dサブバンドエンコーダは、基本レイヤからのイントラモード情報を使用して、後のMCPまたは他の予測のために基本レイヤ出力からの参照画像をいつ使用すべきかを決定することができる。
3.さらなる時間分解のための動き推定
純粋な3Dサブバンド符号化、および上で説明した第3の方式による組み込み基本レイヤデコーダを用いる3Dサブバンド符号化では、動き推定は元のローパスサブバンドについて実行されて、より高いレベルのハイパスサブバンドおよび動き情報が取得される。そのような動き推定は、残差情報符号化コスト対動き情報符号化コストに重みづけを行う「ラムダ(lambda)」パラメータなどの、多くの従来の動き推定パラメータを効果的に含む。
しかし、上で説明した第1および第2の方式による組み込み基本レイヤデコーダを用いる3Dサブバンド符号化の場合、さらなる時間分解のための動き推定が、差異情報について実行される。そのようなものとして、動き推定は、さらなる時間分解において、近隣フレーム間での時間冗長性を利用するように、従来の動き推定パラメータを適合させる。例えば、エンコーダは、時間分解への異なる入力の原因となる(account for)ように、ラムダパラメータを調整する。
C.基本レイヤコーデックまたはデコーダを使用するための方法例
図24には、組み込み基本レイヤコーデックを用いるスケーラブルな符号化のための方法(2400)が示されている。図25には、組み込み基本レイヤデコーダを用いるスケーラブルな復号化のための方法(2500)が示されている。図14、図16、および図18を参照しながら説明したような3Dサブバンドエンコーダは、図24に示す方法(2400)を実行し、図15、図17、および図19を参照しながら説明したような3Dサブバンドデコーダは、図25に示す方法(2500)を実行する。代替として、別のエンコーダまたはデコーダが、これらの方法(2400、2500)を実行する。
図24を参照すると、3Dサブバンドエンコーダは、映像の1つまたは複数のレイヤを、サブバンド符号化を使用して符号化する(2410)。これによって、基本レイヤコーデックへの入力が生成される。例えば、3Dサブバンドエンコーダは、1つまたは複数のレベルのMCTFを実行して、時間ハイパスサブバンドについての動き情報を見つけ、また基本レイヤコーデックに入力される基本フレームレート映像として使用する時間ローパスサブバンドを生成する。代替として、3Dサブバンドエンコーダは、このステージにおいて、他のタイプおよび/または追加のタイプの符号化を実行する。
3Dサブバンドエンコーダは、基本レイヤ映像を、基本レイヤコーデックを用いて符号化する(2430)。例えば、基本レイヤコーデックは、H.264/AVC、MPEG−2、VC−1、またはWMV9コーデックであり、対応する圧縮映像ビットストリームおよび再構成された出力映像を生成する。動き情報およびイントラモード情報は、圧縮映像ビットストリームの一部であり、またはこれらの情報は、他の何らかの形式で、別々に3Dサブバンドエンコーダに提供することができる。
その後、3Dサブバンドエンコーダは、基本レイヤコーデックからの結果を使用して、映像の1つまたは複数のレイヤを符号化する(2450)。例えば、3Dサブバンドエンコーダは、基本レイヤ符号化および復号化の結果から計算された差異情報について1つまたは複数のレベルの時間分解を実行する。あるいは、3Dサブバンドエンコーダは、基本レイヤコーデックからの再構成された映像内の参照画像を使用して、時間ローパスサブバンドについて1つまたは複数のレベルの時間分解を実行する。あるいは、3Dサブバンドエンコーダは、符号化または時間分解での決定において、動き情報および/またはイントラモード情報を使用する。代替として、3Dサブバンドエンコーダは、後続のサブバンド符号化において、他の何らかの方法で、基本レイヤコーデックからの結果を使用し、または後続の符号化(2450)をスキップする。
エンコーダは、符号化プロセスを続行するかどうかを決定し(2490)、続行する場合、次のフレームに移って処理を続ける。
図25を参照すると、3Dサブバンドデコーダは、基本レイヤ映像を、基本レイヤデコーダを用いて符号化する(2530)。例えば、基本レイヤデコーダは、H.264/AVC、MPEG−2、VC−1、またはWMV9デコーダであり、基本レイヤデコーダは、対応する圧縮映像ビットストリームを解析し、符号化し、再構成された出力映像を生成する。
3Dサブバンドデコーダは、復号化のための解像度を決定する(2540)。解像度は、ユーザレベルの設定または他の何らかの設定に従って決定することができ、デコーダが実際にどれだけの情報(例えば、基本レイヤ映像だけ、またはその上に1つまたは複数の追加レイヤ)を受信したかに従って決定することができ、または他の何らかの方法で決定することができる。代替として、3Dサブバンドデコーダは、復号化パスを1つだけもつ。例えば、1つのデコーダは、基本レイヤパスを含むことができるが、別のデコーダは、個々のデコーダのリソースに適するように、基本レイヤ+スケーラブルなレイヤのパスを含む。
より高い解像度の映像を復号化する必要がない場合(例えば、判断2540からの「no」パス)、3Dサブバンドデコーダは、ステージ(2590)から処理を続ける。
それ以外の場合、3Dサブバンドデコーダは、基本レイヤ復号化からの結果を使用して、映像の1つまたは複数の追加レイヤを復号化する。例えば、3Dサブバンドデコーダは、差異情報について1つまたは複数のレベルの時間逆分解を実行し、その後、再構成された差異情報を基本レイヤ復号化の結果に加算する。あるいは、3Dサブバンドデコーダは、基本レイヤデコーダからの再構成された映像内の参照画像を使用して、1つまたは複数のレベルの時間逆分解を実行し、時間ローパスサブバンドを再構成する。代替として、3Dサブバンドデコーダは、後続のサブバンド復号化において、他の何らかの方法で、基本レイヤデコーダからの結果を使用する。
最後に、デコーダは、復号化プロセスを続行するかどうかを決定し(2590)、続行する場合、次のフレームに移って処理を続ける。
図24および図25に示す様々な操作は、分割することができ、他の操作と結合することができ、または順序を変更することができる。
VI.SDMCTF符号化映像の復号化における空間スケーラビリティ
一般に、3Dサブバンド映像符号化においてMCTFがいつ実行されるかに応じて、MCTFの2つのカテゴリが存在する。インバンドMCTF(「IBMCTF」)と呼ばれる第1のカテゴリでは、エンコーダは、最初に映像を空間的に分解し、その後、サブバンド/ウェーブレット領域でMCTFを実行する。その後、エンコーダは、さらなる空間分解を実行することができる。空間領域MCTF(「SDMCTF」)と呼ばれる第2のカテゴリでは、エンコーダは、空間分解の前に、空間領域で直接にMCTFを実行する。同様に、復号化時には、IMCTFを空間領域で(「SDIMCTF」)、またはインバンドで(「IBIMCTF」)実行することができる。
したがって、SDMCTFを用いる3Dサブバンド符号化では、空間領域および後続の空間変換において、映像全体が、複数の動き調整(motion−aligned)時間変換によって分解される。図5には、4つのレベルの時間(逆)変換および2つのレベルの空間(逆)変換を用い、また復号化で空間スケーラビリティを用いない、完全な符号化および復号化方式が示されている。復号化プロセスは、正確に図5の符号化の逆プロセスである。
一般に、IBMCTF方式の性能は、個々のビットレートでの品質に関して、SDMCTF方式の性能ほど良好ではない。この理由で、多くの3Dサブバンドエンコーダは、SDMCTFを使用する。しかし、いくつかの適用例では、デコーダは、映像出力の低空間解像度バージョンを生成する。例えば、元の映像がCIF解像度(352×288ピクセル)であり、1レベルの空間スケーラビリティによる復号化を行う場合、3Dサブバンドデコーダは、復号化映像のQCIFバージョン(176×144ピクセル)を生成する。これは、デコーダがより狭い画面装置に関連する場合、またはデコーダが信頼性の低いコネクションを介して低空間解像度のサブバンド情報だけを受信する場合に相当し得る。しかし、動き情報、参照画像などは最大空間解像度に関して表されるので、これらのシナリオは、映像のMCTF操作が空間領域で実行される場合に問題が多い。
このセクションでは、低空間解像度での出力用にSDMCTF符号化映像を復号化する場合に、復号化性能を改善するための様々なメカニズムについて説明する。例えば、いくつかの実施形態では、3Dサブバンド映像デコーダは、何らかの解像度(例えば、CIF)で、SDMCTFを使用して符号化された映像を受信するが、より低い解像度(例えば、QCIF)で、その映像を出力用に復号化する。3Dサブバンドデコーダは、複数の異なるメカニズムのいずれかを使用して、復号化性能を改善する。
A.SDMCTF映像の復号化における簡単な空間スケーラビリティ方式
図26には、SDMCTF符号化映像の圧縮映像ビットストリームから、低空間解像度映像を復号化し、出力するための2つの簡単な方式(2600、2650)が示されている。低空間解像度映像は、図26の1レベルの空間スケーラビリティによる最大空間解像度とは異なる。
第1の方式(2600)は、直接的な解法を提供する。3Dサブバンドデコーダは、最初に(CIFとして示される)最大空間解像度映像を回復する(第2の空間逆変換のための空間ハイパス(「SH」)サブバンドがないという仮定の下では、デコーダは、第2の空間逆変換において、SHサブバンドを空(SH=0)として扱う)。時間逆分解の後、3Dサブバンドデコーダは、(空間変換として示される)フィルタを用いて、最大空間解像度を(QCIFとして示される)出力解像度にダウンサンプリングする。デコーダは、SDIMCTFを実行し、デコーダは、中間工程でCIF映像を復号化するときに、多くの復号化リソース(例えば、計算リソース、参照画像バッファ)を使用する。
一方、第2の方式(2650)では、3Dサブバンドデコーダは、IBIMCTFを実行する。第2の方式(2650)には、低解像度映像を復号化する経験則的(heurestic)な方法が示されている。第1の方式(2600)と同様に、第2の方式(2650)は、エントロピー復号化および4つのレベルの時間逆変換を含む。第2の方式(2650)は、第1の方式(2600)よりも1つ少ない空間逆変換を効果的に含む(第2の方式(2650)に関して示す第2の空間逆変換と後続の空間変換は、互いに相殺しあい、省略することができる)。
第2の方式(2650)では、3Dサブバンドデコーダは本質的に、空間ローパス(「SL」)サブバンド(第1の空間逆変換の出力)を、元の映像の全体として扱い、SLサブバンド解像度で時間逆変換を実行する。この方式は、空間スケーラビリティを用いずに復号化プロセスを近似し、(参照画像などに関する)計算複雑度およびバッファの要求条件を低下させる利点を有する。さらに、映像の元の解像度および空間スケーラビリティを、デコーダから完全に透過的にすることができる。方式(2650)の性能は、低ビットレートでは満足できるが、高ビットレートでは満足できるものではない。特に、ビットレートが増加するにつれて、ビットレートが非常に高くても、高品質の低空間解像度映像を再構成することは困難または不可能になる。
図26に示す2つの復号化方式(2600、2650)の間の相違は、IMCFT時にMCPおよびMCU工程がどのように実行されるかにある。図27には、1レベルのIMCTFにおける、2つの方式(2600、2650)のMCPが示されている。特に、図27には、参照画像内の利用可能なSLサブバンド情報(SHサブバンド情報は対象外)からの、予測工程におけるSLリフティング信号(lifting signal)の生成が示されている。
SDIMCTFの場合、SLリフティング信号は、以下のように生成される。
Figure 0004896458
ただし、INTPSDは、参照画像情報についての、空間領域のピクセル上での補間を表し、MCPSDは、空間領域でのMCPを表す。DWTは、線形演算であり、
DWT(F1+F2)=DWT(F1)+DWT(F2) (10)
となる。SL解像度バッファを使用して、中間結果を保持するために、DWTは、空間領域予測をSL領域での予測に低下させる。
IBIMCTFの場合、SLリフティング信号は、以下のように生成される。
Figure 0004896458
ただし、INTPSLは、参照画像情報についての、SL領域のピクセル上での補間を表し、MCPSLは、SL領域でのMCPを表す。簡略化のため、同じ補間フィルタが、INTPSDおよびINTPSL用に使用される。
B.理論的分析
様々な要因が、SDMCTF符号化映像の3Dサブバンド符号化において、空間スケーラビリティに関係する問題をもたらす。1つの要因は、SL領域における補間および動き補償の非効率性である。別の要因は、(符号化におけるMCTFの位置と比べた)IMCTFの位置である。さらに別の要因は、動き補償に起因する、サブバンド全体にわたる電力スペクトルリーク(power spectrum leak)である。
これらの要因の他にも、様々な符号化/復号化の機能の結果として、エンコーダにおけるSDMCTFとデコーダにおけるIBIMCFTの間の不一致が生じ得る。そのような機能に、動きベクトルスケーリングおよびOBMCの2つがある。このセクションでは、簡略化のため、動きベクトルの精度は、IBIMCTFにおいて変更されず、動き補償のために使用されるサブピクセル補間は、IBIMCTF時に動き情報を利用するのに十分な精細さをもつと仮定する。やはり簡略化のため、OBMCは使用不可とし、MCP操作は、適用可能な動きベクトルに従うだけの単純なピクセルフェッチ操作(pixel−fetching operation)であると仮定する。これらの単純化した仮定を用いても、前の段落で列挙した要因は、IBIMCTFの性能を低下させ得る。
1.補間
空間領域補間とSL領域補間の両方で、(双1次フィルタまたは8タップsincフィルタなど)同じ補間フィルタが使用される場合であっても、2つの操作の異なるスケールのために、フレーム内の同じ位置にある与えられた分数(fractional)ピクセルは、ピクセルの異なる組によって補間される。この結果、サブピクセルで補間された参照画像の間で不一致が生じる。
SL領域での補間は、別の理由で非最適なものとなり得る。ウェーブレット変換のデシメーション(decimation)特性のため、空間LLバンドだけでは、元の映像のローパス信号全体の完全な表現ではない。すなわち、ハイパス信号を考慮しない場合、またはハイパス信号が存在しない場合、位相位置の半分のところで、ローパス信号の一部が失われる。デシメーションの1つの結果は、空間LLバンドのシフトバリアント(shift−variant)特性である。LLバンドの非完全性のせいで、補間されたローパスフレームを取得した場合、LLバンドでの(操作(12)に示すような)直接的な補間の実行は、最適でないことがあり得る。
Figure 0004896458
および
Figure 0004896458
代替策は、過完備ウェーブレット(overcomplete wavelet)表現への変換によって、ハーフピクセル補間を実行することである。SLサブバンドの過完備表現は、完全−過完備DWT(complete−to−overcomplete DWT)(図示せず)によって、または(操作13に示す)逆DWTおよび過完備DWT(「OCDWT」)によって生成することができる。このIDWTにOCDWTを加えた組合せは、1レベルの補間として働く。補間の残りのレベルは、操作(13)においてINPTOC−LLとして示された、過完備ウェーブレット領域における従来の補間を用いて実行することができる。
従来の過完備ウェーブレット表現への変換は、SL領域におけるハーフピクセル補間を提供するだけである。SL領域においてクォータピクセル動きベクトル精度またはより精細な動きをサポートするため、デコーダは、連続位相過完備ウェーブレット変換(continuous phase overcomplete wavelet transform)(「CPOCWT」)を使用することができる。SLサブバンドのクォータピクセル位置について、デコーダは、操作(14)に示すような、空間領域での補間を実行する。その後、補間フレームのローパスサブバンドが、DWTに与えられる。DWTは、スケールに敏感(scale sensitive)な操作である。エンコーダにおけるDWTと一致するように、デコーダは、補間フレーム内のmのサンプリングピクセル(m−sampled pixels)についてOCDWTを実行するが、m×mは、OCDWTの前の空間領域補間の係数である。操作(14)において、DSDWTは、空間領域補間フレームを多数のサブバンドにダウンサンプリングすること、個々のサブフレームについてOCDWTを実行すること、および取得した係数を元通りインターリーブすることを表す。そのようなものとして、DSDWTは、OCDWTの一種である。
操作(12)から操作(14)の各々によれば、デコーダは、m×mの参照画像について、SL領域における動き補償予測を実行する。
2.DWTとMCPの位置交換
IBIMCTFの場合、(14)に示すように、インバンド補間が空間領域補間で置き換えられたとしても、MCPのための参照画像は依然としてローパスフレームであり、MCPはウェーブレット領域で起こる。エンコーダと比較して、DWTとMCPの期待される順序は交換される(エンコーダでは、MCPがDWTの前に置かれる)。しかし、DWTのシフトバリアント特性のため、DWT操作とMCP操作は非可換である。
DWT(MCPSD(FSD))≠MCPSL(DWT(FSD)) (15)、および
IDWT(MCPSL(FSL))≠MCPSD(IDWT(FSL)) (16)
簡略化のために、MCPが単純なブロックベースの動きシフト(motion shift)操作を含むと仮定すると、式(15)は以下のように示すことができる。現在のフレームは、ブロックB={Bi|i=1,...,m}に分割され、これらのブロックの動きベクトルは、MV={mvi|i=1,...,m}であると仮定する。
Figure 0004896458
は、参照フレームFrefの新しいバージョンであり、ブロックBiによって参照されるピクセルだけが保持され、その他のピクセルは0に設定される。
Figure 0004896458
(18)の第1の不等式は、DWTのシフトバリアント特性によるものである。(18)の第2の不等式は、動きが非常に複雑な場合、MCPにおける動きシフト時のオーバーラップおよびアンカバー(uncovering)によるものである。
1つの可能な解決策は、操作(19)に示すように、DWTに先立って、MCPを空間領域に移動させることである。その場合、MCPは、SDIMCTFの一部となる。
Figure 0004896458
3.動きシフトによる電力スペクトルリーク
3Dウェーブレット符号化では、空間−時間サブバンドは独立であると通常は仮定される。多くの適用例では、空間−時間サブバンドは、特にハイパスサブバンドは、任意に除去される。しかし、MCTFを用いる3Dサブバンド符号化では、近隣フレームのローパスサブバンドおよびハイパスサブバンドは、動きシフトによって持ち込まれる電力スペクトルリークのために類似性をもつ。
1つの空間サブバンドに信号を含むだけのフレームが、動きに従ってシフトする場合、信号の一部は、他の空間サブバンドに転送される。図28には、単純な全体的な動き(global motion)についての現象が示されている。図28の第1行では、元のフレームOrgが、SL信号AとSH信号Bの2つの部分に分割される。第2行では、SL信号Aを含むだけのフレームが、単純なイメージ領域動きシフト(「IMS」)によって、空間領域でシフトされ、シフトされたフレームは、SH信号を含む。同様に、図28の第3行では、SH信号Bを含むだけのフレームが、空間領域でシフトされ、シフトされたフレームは、SL信号を含む。スペクトルリーク問題は、動きが複雑な場合、より一層深刻になる。
したがって、エンコーダではSDMCTFを用いるが、IMCTFはSL情報を使用する場合、参照フレームのSL成分は、フレームのSH成分の一部を予測する。したがって、デコーダは、最初にSLサブバンド情報しかもっていない場合でも、IMCTFの各レベルの中間結果の中で、意味のあるSHサブバンド情報を獲得する。しかし、IMCTFのレベルの間で中間結果を保持するために、デコーダがSL解像度バッファを使用すると、そのために、IMCTFの次のレベルのMCPにとって有益かもしれないSHサブバンド情報が除去される。
さらに、参照フレームのSH成分は、フレームのSL成分の一部を予測する。SL成分を符号化するため、エンコーダは、参照フレーム内のSHサブバンド情報を利用することができる。デコーダがこれらのSH成分にアクセスできない場合、SHサブバンドが存在しない結果、一種のドリフティングが生じる(例えば、エンコーダは(SH情報を含む)最大解像度フレームからMCPを実行し、デコーダはSL情報しかもたない場合)。その結果、PSNRは頭打ち状態、すなわち、PSNR曲線は比較的低ビットレートで水平となる。
C.空間スケーラビリティを用いるSDMCTF符号化映像の復号化のための改良方式例
本発明のいくつかの実施形態では、3Dサブバンドデコーダは、低空間解像度出力についてSDMCTF符号化映像を復号化する場合の復号化性能を改善するために、複数の方法のいずれかを使用する。これらの方法は、段階的に復号化性能を改善し、大部分は、エンコーダおよび送信ビットストリームに対する変更を必要としない。概して、これらの方法は、異なるレベルの複雑さにおいて異なるオプションをもった、柔軟な復号化方式を提供する。
いくつかの方式では、デコーダは、復号化に特別のリソースを割り当てる。一般に、デコーダは、特別の計算リソースが復号化用に充当された場合、より良好な映像を再構成する。さらに、デコーダは、特別のバッファリソースが参照画像情報の保存用に充当された場合、より良好な映像を再構成する。
あるいは、エンコーダまたはデコーダは、SL映像を復号化するためにSHサブバンド情報を強調する。例えば、SHサブバンド情報をIMCTF決定に関与させるため、デコーダがSL解像度映像を再構成するだけの場合でも、ビットストリーム抽出器は、SH係数を完全に除去する代わりに、それらに帯域を割り当てる。
このセクションの様々な図(すなわち、図29から図34)には、1レベルの空間スケーラビリティが示されている。代替として、3Dサブバンドデコーダは、複数レベルの空間スケーラビリティについて映像を出力する。同様に、このセクションの様々な図には、MCTFによってCIF解像度で符号化された元の映像についてQCIF映像を出力する3Dサブバンドデコーダが示されている。本明細書で説明する技法およびツールは、CIFおよびQCIF解像度での使用に限定されるものではない。
このセクションの多くの図では、動きベクトルは、元の解像度ではハーフピクセル精度を、SL解像度ではクォータピクセル精度をもつ。これは、サブピクセル補間などの操作に影響を及ぼす。代替として、動きベクトルは、その他の精度をもち、デコーダは、より多いまたは少ないサブピクセル補間をしかるべく実行する。さらに、このセクションの複数の図には、補間用のsincフィルタが示されているが、代替として、デコーダは、別のタイプのフィルタ(例えば双1次、双3次)を使用する。
最後に、このセクションの様々な図には、ダイアディック(dyadic)なDWTおよびIDWT操作が示されている。代替として、デコーダは、空間変換および空間逆変換のためのその他の操作を使用する。
1.方式A:IBIMCTF(基準)
後続の方式との比較のため、図29には、復号化時に専用される付加的な計算またはバッファ資源をもたないIBIMCTFが示されている。図29の方式は、図26のIBIMCTFデコーダ(2650)の1レベルのIMCTFに対応する。図29に示す操作は、ウェーブレット領域で生じる。
図29によれば、3Dサブバンドデコーダは、SLバッファ(2910)を使用して、参照画像情報として使用されるSLサブバンド情報を保存する。SLサブバンド情報の有効解像度はQCIFである。
デコーダは、4×4sincフィルタを使用して、サブピクセル補間(2920)を実行する(SL領域におけるMCPについての動きベクトル精度は、クォータピクセル精度である)。これによって、サブピクセル補間された参照フレーム(2930)が生成される。補間参照フレームの有効解像度は4CIF(704×576ピクセル)である。
デコーダは、参照画像情報用の補間参照フレーム(2930)を使用して、SL領域でMCP(2940)を実行する。MCPSL(2940)は、SL領域で予測(2950)を生成する。やはり、予測(2950)の有効解像度はQCIFである。
2.方式B:最適化IBIMCTF
第2のタイプの方式では、3Dサブバンドデコーダは、補間操作および/またはMCP操作を空間領域に移動することによって、IMCTFを改良する。デコーダは、参照画像情報用のSL解像度バッファを依然として使用する。図30には、第2のタイプの方式のための一般化されたフレームワークが示されており、時間逆変換が最適化された時間逆変換OTi -1として示されている。図31、図32、および図33には、第2のタイプの方式の様々な変形による1レベルのIMCTFの例が示されている。
a.方式B1
図31に示された方式(方式B1)によれば、3Dサブバンドデコーダは、SLバッファ(3110)を使用して、参照画像情報として使用されるSLサブバンド情報を保存する。デコーダは、バッファされたSLサブバンド情報を使用して、IDWT操作(3120)を実行する。IDWT操作(3120)では、SHサブバンドは空(SH=0)として用いられる。したがって、IDWT操作(3120)は、SLサブバンド情報から参照フレーム(3130)を生成する。SLサブバンド情報の有効解像度がQCIFである場合、参照フレーム(3130)の有効解像度はCIFである。
その後、デコーダは、参照フレームについてOCDWT(3140)操作を実行して、過完備表現(3150)を生成する。代替として、デコーダは、IDWT(3120)およびOCDWT(3140)の代わりに、完全−過完備DWTを実行する。どちらの方法でも、過完備表現(3150)は、ハーフピクセルMCPに適した位相シフトされた値を含む。
クォータピクセルMCPに備えて、その後、デコーダは、2×2sincフィルタを使用して、サブピクセル補間(3160)を実行する。これによって、サブピクセル補間された参照フレーム(3170)が生成される。補間参照フレーム(3170)の有効解像度は4CIF(704×576ピクセル)である。
デコーダは、参照画像情報用の補間参照フレーム(3170)を使用して、SL領域でMCP(3180)を実行する。MCPSL(3180)は、SL領域で予測(3190)を生成する。やはり、予測(3190)の有効解像度はQCIFである。
b.方式B2
図32に示された方式(方式B2)によれば、3Dサブバンドデコーダは、SLバッファ(3210)を使用して、参照画像情報として使用されるSLサブバンド情報を保存する。デコーダは、バッファされたSLサブバンド情報を使用して、IDWT操作(3220)を実行する。IDWT操作(3220)では、SHサブバンドは空(SH=0)として用いられる。したがって、IDWT操作(3220)は、SLサブバンド情報から参照フレーム(3230)を生成する。SLサブバンド情報の有効解像度がQCIFである場合、参照フレーム(3230)の有効解像度はCIFである。
デコーダは、2×2sincフィルタを使用して、サブピクセル補間(3240)を実行する。これによって、サブピクセル補間された参照フレーム(3250)が生成され、解像度は水平および垂直に係数2によって増大される。補間参照フレーム(3250)の有効解像度は4CIFである。
その後、デコーダは、補間参照フレーム(3250)についてDSDWT(3260)操作を実行する。これによって、参照フレーム情報の過完備表現(3270)が生成される。過完備表現(3270)は、クォータピクセルMCPに適した位相シフトされた値を含む。
デコーダは、参照画像情報用の補間参照フレーム(3270)を使用して、SL領域でMCP(3280)を実行する。MCPSL(3280)は、SL領域で予測(3290)を生成する。やはり、予測(3290)の有効解像度はQCIFである。
c.方式B3
図33に示された方式(方式B3)によれば、3Dサブバンドデコーダは、SLバッファ(3310)を使用して、参照画像情報として使用されるSLサブバンド情報を保存する。デコーダは、バッファされたSLサブバンド情報を使用して、IDWT操作(3320)を実行する。IDWT操作(3320)では、SHサブバンドは空(SH=0)として用いられる。したがって、IDWT操作(3320)は、SLサブバンド情報から参照フレーム(3330)を生成する。SLサブバンド情報の有効解像度がQCIFである場合、参照フレーム(3330)の有効解像度はCIFである。
デコーダは、2×2sincフィルタを使用して、サブピクセル補間(3340)を実行する。これによって、サブピクセル補間された参照フレーム(3350)が生成され、解像度は水平および垂直に係数2によって増大される。補間参照フレーム(3350)の有効解像度は4CIFである。
デコーダは、参照画像情報用の補間参照フレーム(3350)を使用して、空間領域でMCP(3360)を実行する。(ハーフピクセル精度の動きベクトルをもつ)MCPSD(3360)は、空間領域で予測(3370)を生成する。この場合、予測(3370)の有効解像度はCIFである。
デコーダは、予測(3370)についてDWT操作(3380)を実行して、予測(3370)の低空間解像度バージョン(3390)を生成する。低空間解像度予測(3390)の有効解像度はQCIFである。
3.方式C:SDIMCTF
図34には、復号化時に専用される付加的な計算またはバッファリソースをもつSDIMCTFが示されている。図34の方式は、図26のSDIMCTFデコーダ(2600)の1レベルのIMCTFに対応する。図34に示す操作は、空間領域で生じる。方式B3と比べると、方式Cの参照画像バッファは、SDバッファであり、デコーダは、IMCTFのレベルごとにIDWTおよびDWT操作を実行しない。このようにして、中間結果のSH情報は、後のSDIMCTFで使用するために保持される。
方式Cによれば、3Dサブバンドデコーダは、SDバッファ(3410)を使用して、参照画像情報として使用されるSLサブバンド情報を保存する。最初の時間逆変換のために、最後の空間逆変換は、SLサブバンド情報からSDバッファ(3410)に収める情報を生成する。後続の時間逆変換のために、SDバッファ(3410)内の情報は、先行する時間逆変換から保持され、SDバッファ(3410)内の情報は、電力スペクトルリークによって発生したSH情報を含むことができる。SDバッファ(3410)内の情報の有効解像度はCIFである。
デコーダは、2×2sincフィルタを使用して、サブピクセル補間(3420)を実行する。これによって、サブピクセル補間された参照フレーム(3430)が生成され、解像度は水平および垂直に係数2によって増大される。補間参照フレーム(3430)の有効解像度は4CIFである。
デコーダは、参照画像情報用の補間参照フレーム(3430)を使用して、空間領域でMCP(3440)を実行する。(ハーフピクセル精度の動きベクトルをもつ)MCPSD(3440)は、空間領域で予測(3450)を生成する。この場合、予測(3450)の有効解像度はCIFである。
4.方式D:SH係数を有するSDIMCTF
SHドリフティング問題に対処するため、ビットストリーム抽出器において、帯域をSH係数に割り当てる。これは、SL解像度映像出力のための復号化時に、SHサブバンド情報を単純に除去する、従来の空間スケーラビリティとは異なる。
SH係数の最適レートを決定するため、低空間解像度映像の歪みの低減に対するSH係数の貢献度が測定される(対照的に、従来の空間スケーラビリティを実施する場合は、元の空間解像度映像全体の歪みの低減に対するSH係数の貢献度が測定される)。言い換えると、低空間解像度映像を出力する場合であっても、SL映像の歪みの低減において、SHサブバンドの利点(例えば、改善された動き補償予測精度)の原因となるように、SHサブバンドの利得係数が考慮される。このようにして、SHサブバンド情報がSL映像の復号化に関与する可能性がより高まる。
方式Dでは、デコーダが元の解像度映像を抽出したかのように、SL映像を復号化するとき、SHサブバンドの現在の利得係数が使用される。SLおよびSHサブバンドの係数は、最終的なビットストリームに含まれることができる。代替として、元の空間解像度復号化用およびSL復号化用のSHサブバンドについて、異なる利得係数が計算される。
方式Dでは、3Dサブバンドデコーダは、SL映像を復号化する場合、1レベルのIMCTF用に、図34に示す復号化フレームワークを使用する。参照画像バッファ(3410)はSDバッファである。最初の時間逆変換のために、SDバッファは、最終的な出力映像が実際上SL解像度だけを有するとしても、SLサブバンド情報および(少なくともいくつかの)SHサブバンド情報を使用して再構成された参照画像情報を含む。中間結果のSH情報も、後のSDIMCTFで使用するために保持される。
デコーダは、2×2sincフィルタを使用して、サブピクセル補間(3420)を実行する。これによって、サブピクセル補間された参照フレーム(3430)が生成され、解像度は水平および垂直に係数2によって増大される。デコーダは、参照画像情報用の補間参照フレーム(3430)を使用して、空間領域でMCP(3440)を実行する。(ハーフピクセル精度の動きベクトルをもつ)MCPSD(3440)は、空間領域で予測(3450)を生成する。
5.比較
以下の表は、方式A、B1、B2、B3、C、およびDの特性を比較したものである。
Figure 0004896458
代替として、デコーダは、低空間解像度出力用にSDMCTF符号化映像を復号化する場合の復号化性能を改善するため、空間領域補間、空間領域動き補償、空間領域参照画像バッファ、および/またはSH情報の使用の他の何らかの組合せを使用する。
VII.連続位相過完備サブバンド変換
IBMCTFおよびIBIMCTFに伴う1つの問題は、動き推定および補償についてのウェーブレット変換のシフト変動(shift variance)効果をいかに低減するかであり、イメージ領域でのシフト/動きは、変換領域に直接にマッピングされない。いくつかの方法が、整数ピクセル移動を変換領域にマッピングする(例えば、非特許文献4、および非特許文献5を参照)。このセクションでは、分数ピクセル移動を変換領域での位相変化にマッピングするための方法について説明する。そうすることによって、動き推定および補償をより正確に実行でき、そのことが、符号化性能に著しい影響を及ぼし得る。
このセクションでは、1レベルの1次元ウェーブレット変換を例にして、連続位相過完備サブバンド変換(continuous phase overcomplete sub-band transform)(「CPOST」)について説明する。pピクセルCPOSTの分解プロセスは、4つの連続ステージ、すなわち、(1)pピクセル補間、(2)連続シフティング、(3)ダウンサンプリング、および(4)ウェーブレット変換を有する。
連続pピクセル位相過完備変換(p=1,1/2,1/4,1/8,...)について考える。p=1の場合、CPOSTは、整数ピクセル位相過完備のケースとなる。その他のpの値は、サブピクセル位相過完備のケースを提供する。入力信号が離散時間領域における系列{x(n)}、n=0,1,2,3,...であると仮定する。エンコーダまたはデコーダは、最初に{x(n)}のpピクセル補間を行い、その後、pピクセル補間系列を
Figure 0004896458
回連続的にシフトし、シフト系列をダウンサンプリングする。これによって、{xp i(n)}、
Figure 0004896458
で表される、{x(n)}の1組の連続位相シフト系列が生成される。最後に、エンコーダまたはデコーダは、{xp i(n)}についてウェーブレット分解変換を実行する。
p=1/2の場合、連続位相シフト系列は、以下のようになる。{y(n)}は、{x(n)}の1/2ピクセル補間点から構成される系列である。
...x(n) y(n) x(n+1) y(n+1) x(n+2) y(n+2) x(n+3) y(n+3)
0−位相 ...x(n) x(n+1) x(n+2)...
1/2−位相 ...y(n) y(n+1) y(n+2)...
1−位相 ...x(n+1) x(n+2) x(n+3)...
3/2−位相 ...y(n+1) y(n+2) y(n+3)...
2D CPOSTは、2つの連続的な1D CPOSTをそれぞれ水平および垂直方向に行うことによって、実施することができる。
ウェーブレット領域では、連続pピクセル位相シフト系列は、1組の予測フィルタ
Figure 0004896458
を使用して、取得することができる。これらのフィルタは、サブピクセル補間系列を連続的にシフトし、それらのシフト系列をダウンサンプリングすることと等価である。pピクセルCPOSTの分解プロセスは、フィルタの{x(n)}への適用として提供することができ、続いて、ウェーブレット分解変換のために、その結果をローパスフィルタGL(z)を用いて、また別にハイパスフィルタGH(z)を用いて処理し、その後、ダウンサンプリングする。lp i(n)およびhp i(n)
Figure 0004896458
は、それぞれCPOSTのローパス係数およびハイパス係数である。z領域では、X(z)およびXp i(z)は、それぞれ{x(n)}および{xp i(n)}のz変換である。Lp i(z)およびHp i(z)は、それぞれlp i(n)およびhp i(n)のz変換である。
Figure 0004896458
pピクセルCPOSTの分解プロセスは、以下の行列表現に対応する。
Figure 0004896458
表現(22)は、シフトが行われていない元の系列のウェーブレット分解変換を示す。表現(23)は、連続サブ位相(sub−phase)シフト系列のウェーブレット分解変換を示す。表現(22)および(23)は、CPOSTを構成する。Lp i(z)、Hp i(z)およびLp 0(z)、Hp 0(z)の間の関係に関して、(20)から(23)より、
Figure 0004896458
(22)から(24)より、
Figure 0004896458
ただし、
Figure 0004896458
であり、G-1(z)はG(z)の逆行列である。
(25)によれば、サブピクセル位相シフト系列のウェーブレット変換を得るために、変換行列Tp i(z)および逆変換行列ITp i(z)を、元の系列(すなわち、0−位相シフト系列)のウェーブレット変換から取得することができる。
Figure 0004896458
(26)から、表現(28)が成り立てば、過完備ウェーブレット変換の後のサブピクセル補間の結果は、離散時間領域でのサブピクセル補間の後の過完備ウェーブレット変換の結果と等しい。それ以外の場合は、過完備ウェーブレット変換の後のサブピクセル補間の結果は、離散時間領域でのサブピクセル補間の後の過完備ウェーブレット変換の結果とは等しくない。
Figure 0004896458
一般に、表現(28)は成り立たず、そのことは、インバンド映像符号化のためのサブピクセル補間とウェーブレット変換の順序は交換できないことを示唆している。しかし(25)によれば、元の系列のCPOST係数は、そのウェーブレット変換係数から導出することができる。
CPOST方法は、整数ピクセル位相過完備ウェーブレット変換ばかりでなく、サブピクセル位相過完備ウェーブレット変換も実現する。p=1/2とし、5−3ウェーブレット変換および6タップ補間フィルタを用いる、連続位相過完備変換行列の係数は、以下のようになる。変換行列T1/2 1(z)、T1/2 2(z)、およびT1/2 3(z)の各要素の係数は、以下のようになる。
1/2 1(0,0)=[0.0098 −0.0957 0.8867 0.2227 −0.0215 −0.0020]
1/2 1(0,1)=[−0.0024 0.0488 −0.2290 0.3242 −0.1440 0.0020 0.0005]
1/2 1(1,0)=[0.0391 −0.2344 0.3438 −0.1406 −0.0078]
1/2 1(1,1)=[−0.0098 0.1582 0.3633 −0.5352 0.0215 0.0020]
1/2 2(0,0)=[−0.0625 0.5625 0.5625 −0.0625]
1/2 2(0,1)=[0.015625 −0.25 0.46875 −0.25 0.015625]
1/2 2(1,0)=[−0.25 0.5 −0.25]
1/2 2(1,1)=[0.0625 −0.5625 −0.5625 0.0625]
1/2 3(0,0)=[−0.0020 −0.0215 0.2227 0.8867 −0.0957 0.0098]
1/2 3(0,1)=[0.0005 0.0020 −0.1440 0.3241 −0.2290 0.0488 −0.0024]
1/2 3(1,0)=[−0.0078 −0.1406 0.3438 −0.2344 0.0391]
1/2 3(1,1)=[0.0020 0.0215 −0.5352 0.3633 0.1582 −0.0098]
開示された本発明の原理を適用できる数多くの可能な実施形態に鑑みて、説明した実施形態は、本発明の好ましい実施例に過ぎず、本発明の範囲を限定するものと解釈すべきでないことを理解されたい。むしろ、本発明の範囲は、添付の特許請求の範囲によって定められる。したがって、発明者らは、添付の特許請求の範囲の範囲および主旨に包含されるすべてを本発明として主張する。
スケーラブルな映像符号化および復号化のための一般化された動作環境のブロック図である。 説明する様々な実施形態を実施するのに用いられる一般化された映像エンコーダのブロック図である。 説明する様々な実施形態を実施するのに用いられる一般化された映像デコーダのブロック図である。 説明する様々な実施形態を実施するのに用いられる一般化された映像エンコーダのブロック図である。 説明する様々な実施形態を実施するのに用いられる一般化された映像エンコーダおよびデコーダのブロック図である。 動き補償時間フィルタリング(「MCTF」)における、入力映像フレーム、時間ローパスフレーム、および時間ハイパスフレームの間の関係を示した図である。 エンコーダにおけるMCTFを示したブロック図である。 デコーダにおける逆MCTF(「IMCTF」)を示したブロック図である。 エンコーダにおいて適応更新ステージを用いるMCTFを示したブロック図である。 デコーダにおいて適応更新ステージを用いるIMCTFを示したブロック図である。 適応更新操作のための方法を説明するフローチャートである。 適応更新操作のための方法を説明するフローチャートである。 適応更新操作のための方法を説明するフローチャートである。 3Dサブバンドエンコーダに基本レイヤコーデックを組み込むための異なる方式を示したブロック図である。 3Dサブバンドデコーダに基本レイヤデコーダを組み込むための異なる方式を示したブロック図である。 3Dサブバンドエンコーダに基本レイヤコーデックを組み込むための異なる方式を示したブロック図である。 3Dサブバンドデコーダに基本レイヤデコーダを組み込むための異なる方式を示したブロック図である。 3Dサブバンドエンコーダに基本レイヤコーデックを組み込むための異なる方式を示したブロック図である。 3Dサブバンドデコーダに基本レイヤデコーダを組み込むための異なる方式を示したブロック図である。 基本レイヤコーデックまたはデコーダが参照候補を提供する場合の、異なる参照フレーム組合せを示した図である。 3Dサブバンドコーデックおよび組み込み基本レイヤコーデックを用いる符号化のためのフレームパターンを示した図である。 3Dサブバンドコーデックおよび組み込み基本レイヤコーデックを用いる符号化のためのフレームパターンを示した図である。 3Dサブバンドコーデックおよび組み込み基本レイヤコーデックを用いる符号化のためのフレームパターンを示した図である。 組み込み基本レイヤコーデックを有する3Dサブバンドエンコーダを用いるスケーラブルな符号化のための方法を説明するフローチャートである。 組み込み基本レイヤデコーダを有する3Dサブバンドデコーダを用いるスケーラブルな復号化のための方法を説明するフローチャートである。 SDMCTF符号化映像を低空間解像度での出力用に復号化するための2つの方式を示したブロック図である。 SDIMCTFおよびIBIMCTFにおける動き補償予測を示した図である。 動きシフトに起因する電力スペクトルリークを説明するグラフィックである。 低空間解像度での出力用にSDMCTF符号化映像を復号化するための基準となる方式を示した図である。 低空間解像度での出力用にSDMCTF符号化映像を復号化するための一般化方式を示したブロック図である。 低空間解像度での出力用にSDMCTF符号化映像を復号化するための方式を示した図である。 低空間解像度での出力用にSDMCTF符号化映像を復号化するための方式を示した図である。 低空間解像度での出力用にSDMCTF符号化映像を復号化するための方式を示した図である。 低空間解像度での出力用にSDMCTF符号化映像を復号化するための方式を示した図である。
符号の説明
100 コンピューティング環境
110 プロセシングユニット
120 メモリ
140 記憶装置
150 入力装置
160 出力装置
170 通信コネクション

Claims (20)

  1. ビデオデコーダを実装したコンピューティング装置において、
    ビデオデコーダを実装した前記コンピューティング装置で、第1の空間解像度で空間領域動き補償時間フィルタリング(SDMCTFによって符号化された映像を受信するステップであって、前記SDMCTFは、前記第1の空間解像度よりも低い第2の空間解像度で、ローパスサブバンド領域を含む複数のサブバンド領域へ空間分解する前に、空間領域における空間領域値の動き補償時間フィルタリングで符号化することによって特徴付けられており、前記SDMCFTは前記第1の空間解像度で前記空間領域において動き補償予測を生成する、受信するステップと、
    ビデオデコーダを実装した前記コンピューティング装置を使用して、前記第1の空間解像度より低い前記第2の空間解像度で出力するために、インバンド逆動き補償時間フィルタリング(IBIMCTFを用いて前記映像の少なくとも一部を復号化するステップであって、前記IBIMCTFは、サブバンド値の逆動き補償時間フィルタリングによって特徴づけられており、つ以上の参照画像について補間を実行することを含み、前記補間は、バッファされた空間ローパスサブバンド情報に対する補間ではなく、前記IBIMCTFは、前記第2の空間解像度で前記ローパスサブバンド領域における動き補償予測を生成する、復号化するステップ
    を備えことを特徴とする方法。
  2. 前記復号化するステップは、
    前記バッファされた空間ローパスサブバンド情報に対して、空間サブバンド逆変換を実行するステップと、
    前記空間サブバンド逆変換の結果に対して、過完備空間サブバンド変換を実行するステップであって、前記過完備空間サブバンド変換の結果に前記補間が適用されるステップと、
    前記補間の結果への前記IBIMCTFに対して、前記動き補償予測を実行するステップと
    を含むことを特徴とする請求項1に記載の方法。
  3. 前記空間サブバンド逆変換は、離散逆ウェーブレット変換(IDWTであり、前記過完備空間サブバンド変換は、過完備離散ウェーブレット変換(DWTであることを特徴とする請求項2に記載の方法。
  4. 前記復号化するステップは、
    前記バッファされた空間ローパスサブバンド情報に対して空間サブバンド逆変換を実行するステップであって、前記補間は前記空間サブバンド逆変換の結果に適用するステップと、
    前記補間の結果に対してダウンサンプリング離散ウェーブレット変換(DSDWTを実行するステップと、
    前記DSDWTの結果への前記IBIMCFTに対して、前記動き補償予測を実行するステップと
    を含むことを特徴とする請求項1に記載の方法。
  5. 前記空間サブバンド逆変換は、逆離散ウェーブレット変換(IDWTであり、前記DSDWTは、mサンプリング過完備離散ウェーブレット変換(DWTであることを特徴とする請求項4に記載の方法。
  6. 前記IBIMCTFに対する前記動き補償予測は、前記SDMCTFからの動き情報を使用することを特徴とする請求項1に記載の方法。
  7. 前記復号化するステップはさらに、前記バッファされた空間ローパスサブバンド情報に対して空間サブバンド逆変換を実行するが、空間ハイパスサブバンド情報に対しては実行しないステップを含み、前記補間は、前記空間サブバンド逆変換の後に続くことを特徴とする請求項1に記載の方法。
  8. 前記第1の空間解像度は、水平および垂直方向について前記第2の空間解像度の2倍であることを特徴とする請求項1に記載の方法。
  9. ビデオデコーダを実装したコンピューティング装置において、
    ビデオデコーダを実装した前記コンピューティング装置で、第1の空間解像度で空間領域動き補償時間フィルタリング(SDMCTFによって符号化された映像を受信するステップあって、前記SDMCTFは、前記第1の空間解像度より低い第2の空間解像度で、ローパスサブバンド領域を含む複数のサブバンド領域へ空間分解する前に、空間領域において空間領域値の動き予測時間フィルタリングで符号化することによって特徴付けられている、受信するステップと、
    ビデオデコーダを実装した前記コンピューティング装置を使用して、前記第1の空間解像度より低い前記第2の空間解像度で出力するために、空間領域逆動き補償時間フィルタリング(SDIMCTFを用いて前記映像の少なくとも一部を復号化するステップであって、前記SDIMCTFは空間領域値の逆動き補償時間フィルタリングによって特徴付けられており、前記SDIMCTFは前記第1の空間解像度で前記空間領域において動き補償予測を生成する1つ以上の参照画像を使用し、前記SDIMCTFに対する前記1つ以上の参照画像は、前記第2の空間解像度で前記ローパスサブバンド領域における受信された空間ローパスサブバンド情報からは再構成されるが、前記第1の空間解像度への解像度の向上に関連付けられた受信された空間ハイパスサブバンド情報からは再構成されない、復号化するステップ
    を備えことを特徴とする方法。
  10. 前記復号化するステップは、
    前記受信された空間ローパスサブバンド情報に対して空間サブバンド逆変換を実行するが、空間ハイパスサブバンド情報に対しては実行しないステップと、
    前記空間サブバンド逆変換の結果に対して空間領域補間を実行するステップと、
    前記空間領域補間の結果を参照画像情報として使用して、前記SDIMCTFに対する前記動き補償予測を実行するステップと、
    前記SDIMCTFに対する前記動き補償予測の結果に空間サブバンド変換を実行するステップと
    を含むことを特徴とする請求項9に記載の方法。
  11. 前記空間サブバンド逆変換は、逆離散ウェーブレット変換(IDWTであり、前記空間サブバンド変換は、離散ウェーブレット変換(DWTであることを特徴とする請求項10に記載の方法。
  12. 1つまたは複数のバッファは、前記受信された空間ローパスサブバンド情報を保存するが、空間ハイパスサブバンド情報は保存しないことを特徴とする請求項10に記載の方法。
  13. 前記復号化するステップは、
    バッファされた空間領域情報に対して空間領域補間を実行するステップと、
    前記空間領域補間の結果を参照画像情報として使用して、前記SDIMCTFに対する前記動き補償予測を実行するステップと
    を含むことを特徴とする請求項9に記載の方法。
  14. 前記SDIMCTFの初期レベルでは、前記バッファされた空間領域情報は、前記受信された空間ローパスサブバンド情報から生成されるが、空間ハイパスサブバンド情報からは生成されず、前記SDIMCTFの1つ以上の後続のレベルでは、前記バッファされた空間領域情報は、前記SDIMCTFの中間結果として生成された空間ハイパスサブバンド情報を保持することを特徴とする請求項13に記載の方法。
  15. ビデオデコーダを実装したコンピューティング装置において、
    ビデオデコーダを実装した前記コンピューティング装置で、第1の空間解像度で空間領域動き補償時間フィルタリング(SDMCTFによって符号化された映像を受信するステップであって、前記SDMCTFは、空間分解の前に、空間領域において空間領域値の動き補償時間フィルタリングで符号化することによって特徴付けられている、受信するステップと、
    ビデオデコーダを実装した前記コンピューティング装置を使用して、前記第1の空間解像度より低い第2の空間解像度で出力するために、空間領域逆動き補償時間フィルタリング(SDIMCTFを用いて前記映像の少なくとも一部を復号化するステップであって、前記SDIMCTFは、空間領域値の逆動き補償予測時間フィルタリングによって特徴付けられており、前記SDIMCTFは、前記第1の空間解像度で前記空間領域において動き補償予測を生成し、空間解像度を前記第1の空間解像度までに強化するために空間ハイパスサブバンド情報を使用することなしに、前記SDIMCTFにおける動き補償性能を向上する、前記第1の空間解像度に関連付けられた前記空間ハイパスサブバンド情報を使用するステップを含む、復号化するステップ
    を備えることを特徴とする方法。
  16. 前記復号化するステップは、
    バッファされた空間領域情報に対して空間領域補間を実行するステップと、
    前記空間領域補間の結果を参照画像情報として使用して、前記SDIMCTFに対して前記動き補償予測を実行するステップと
    を含むことを特徴とする請求項15に記載の方法。
  17. 前記空間ハイパスサブバンド情報は、前記SDIMCTFの中間結果として生成され、前記バッファされた空間領域情報として保持されることを特徴とする請求項16に記載の方法。
  18. 前記空間ハイパスサブバンド情報は、前記受信された映像の一部とすることができ、前記バッファされた空間領域情報は、受信された空間ローパスサブバンド情報と前記受信された空間ハイパスサブバンド情報から生成されることを特徴とする請求項16に記載の方法。
  19. 前記空間ハイパスサブバンド情報の使用は、前記SDIMCTFにおけるドリフトを制御する助けとなることを特徴とする請求項15に記載の方法。
  20. 前記空間ハイパスサブバンド情報に関連付けられた1つ以上の利得係数は、前記空間ハイパスサブバンド情報が、前記第2の空間解像度での前記出力における歪みをどれだけ低減するかを明らかにすることを特徴とする請求項15に記載の方法。
JP2005204298A 2004-07-13 2005-07-13 3dサブバンド符号化のための組み込み基本レイヤコーデック Expired - Fee Related JP4896458B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US58784204P 2004-07-13 2004-07-13
US60/587,842 2004-07-13
US11/127,001 2005-05-10
US11/127,001 US8374238B2 (en) 2004-07-13 2005-05-10 Spatial scalability in 3D sub-band decoding of SDMCTF-encoded video

Publications (2)

Publication Number Publication Date
JP2006060792A JP2006060792A (ja) 2006-03-02
JP4896458B2 true JP4896458B2 (ja) 2012-03-14

Family

ID=36107853

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005204298A Expired - Fee Related JP4896458B2 (ja) 2004-07-13 2005-07-13 3dサブバンド符号化のための組み込み基本レイヤコーデック

Country Status (5)

Country Link
US (1) US8374238B2 (ja)
EP (1) EP1617678A3 (ja)
JP (1) JP4896458B2 (ja)
KR (1) KR101183304B1 (ja)
CN (1) CN1738435B (ja)

Families Citing this family (78)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7580461B2 (en) 2004-02-27 2009-08-25 Microsoft Corporation Barbell lifting for wavelet coding
US8369405B2 (en) 2004-05-04 2013-02-05 Qualcomm Incorporated Method and apparatus for motion compensated frame rate up conversion for block-based low bit rate video
MX2007000254A (es) 2004-07-01 2007-04-09 Qualcomm Inc Metodo y aparato para utilizar tecnicas de conversion ascendente de indice de cuadro en codificacion de video que se puede escalar.
TW200625964A (en) 2004-07-20 2006-07-16 Qualcomm Inc Method and apparatus for encoder assisted-frame rate up conversion (EA-FRUC) for video compression
US8553776B2 (en) 2004-07-21 2013-10-08 QUALCOMM Inorporated Method and apparatus for motion vector assignment
KR20060027779A (ko) * 2004-09-23 2006-03-28 엘지전자 주식회사 영상 블록의 시간상 및 공간상 상관관계를 이용한영상신호의 엔코딩 및 디코딩 방법과 장치
KR100679022B1 (ko) * 2004-10-18 2007-02-05 삼성전자주식회사 계층간 필터링을 이용한 비디오 코딩 및 디코딩방법과,비디오 인코더 및 디코더
US7471850B2 (en) * 2004-12-17 2008-12-30 Microsoft Corporation Reversible transform for lossy and lossless 2-D data compression
US8300693B2 (en) * 2005-01-18 2012-10-30 Ecole Polytechnique Federale De Lausanne Image transform for video coding
KR20060088461A (ko) * 2005-02-01 2006-08-04 엘지전자 주식회사 영상신호의 엔코딩/디코딩시에 영상블록을 위한 모션벡터를베이스 레이어 픽처의 모션벡터로부터 유도하는 방법 및장치
TWI301953B (en) * 2005-03-14 2008-10-11 Qisda Corp Methods and apparatuses for video encoding
US7455232B2 (en) * 2005-03-31 2008-11-25 Symbol Technologies, Inc. Systems and methods for dataform decoding
EP1908292A4 (en) * 2005-06-29 2011-04-27 Nokia Corp METHOD AND DEVICE FOR THE UPDATE STEP IN VIDEO CODING USING MOTION COMPENSATED TIME FILTERING
US8036274B2 (en) * 2005-08-12 2011-10-11 Microsoft Corporation SIMD lapped transform-based digital media encoding/decoding
KR20080044874A (ko) * 2005-08-15 2008-05-21 노키아 코포레이션 비디오 코딩 시의 갱신 연산을 위한 서브 픽셀 보간 방법및 장치
US20090161762A1 (en) * 2005-11-15 2009-06-25 Dong-San Jun Method of scalable video coding for varying spatial scalability of bitstream in real time and a codec using the same
US8619865B2 (en) * 2006-02-16 2013-12-31 Vidyo, Inc. System and method for thinning of scalable video coding bit-streams
US8750387B2 (en) 2006-04-04 2014-06-10 Qualcomm Incorporated Adaptive encoder-assisted frame rate up conversion
US8634463B2 (en) 2006-04-04 2014-01-21 Qualcomm Incorporated Apparatus and method of enhanced frame interpolation in video compression
WO2007139266A1 (en) * 2006-06-01 2007-12-06 Electronics And Telecommunications Research Institute Method and apparatus for video coding on pixel-wise prediction
US9332274B2 (en) * 2006-07-07 2016-05-03 Microsoft Technology Licensing, Llc Spatially scalable video coding
JP4265642B2 (ja) 2006-10-16 2009-05-20 ソニー株式会社 情報処理装置および方法、記録媒体、並びにプログラム
US8233532B2 (en) * 2007-09-21 2012-07-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Information signal, apparatus and method for encoding an information content, and apparatus and method for error correcting an information signal
MY162861A (en) 2007-09-24 2017-07-31 Koninl Philips Electronics Nv Method and system for encoding a video data signal, encoded video data signal, method and system for decoding a video data signal
JP5451626B2 (ja) * 2007-10-19 2014-03-26 トムソン ライセンシング 統合された空間・ビット深度スケーラビリティ
US8155184B2 (en) * 2008-01-16 2012-04-10 Sony Corporation Video coding system using texture analysis and synthesis in a scalable coding framework
BRPI0906767A2 (pt) * 2008-01-18 2015-07-14 Thomson Licensing Método para a avaliação da qualidade perceptual
US8804831B2 (en) 2008-04-10 2014-08-12 Qualcomm Incorporated Offsets at sub-pixel resolution
US20090257499A1 (en) * 2008-04-10 2009-10-15 Qualcomm Incorporated Advanced interpolation techniques for motion compensation in video coding
US9967590B2 (en) 2008-04-10 2018-05-08 Qualcomm Incorporated Rate-distortion defined interpolation for video coding based on fixed filter or adaptive filter
US8369638B2 (en) * 2008-05-27 2013-02-05 Microsoft Corporation Reducing DC leakage in HD photo transform
US8447591B2 (en) * 2008-05-30 2013-05-21 Microsoft Corporation Factorization of overlapping tranforms into two block transforms
US8275209B2 (en) * 2008-10-10 2012-09-25 Microsoft Corporation Reduced DC gain mismatch and DC leakage in overlap transform processing
US20100149301A1 (en) * 2008-12-15 2010-06-17 Microsoft Corporation Video Conferencing Subscription Using Multiple Bit Rate Streams
GB2471323B (en) 2009-06-25 2014-10-22 Advanced Risc Mach Ltd Motion vector estimator
US8576269B2 (en) * 2009-09-17 2013-11-05 Magor Communications Corporation Method and apparatus for communicating an image over a network with spatial scalability
US8902978B2 (en) 2010-05-30 2014-12-02 Lg Electronics Inc. Enhanced intra prediction mode signaling
JP2011259093A (ja) * 2010-06-07 2011-12-22 Sony Corp 画像復号化装置と画像符号化装置およびその方法とプログラム
US8947492B2 (en) * 2010-06-18 2015-02-03 Microsoft Corporation Combining multiple bit rate and scalable video coding
WO2012016354A1 (en) * 2010-08-04 2012-02-09 Nxp B.V. Video player
EP2509315B1 (en) * 2011-04-04 2016-08-17 Nxp B.V. Video decoding switchable between two modes of inverse motion compensation
US9008180B2 (en) * 2011-04-21 2015-04-14 Intellectual Discovery Co., Ltd. Method and apparatus for encoding/decoding images using a prediction method adopting in-loop filtering
US8767824B2 (en) * 2011-07-11 2014-07-01 Sharp Kabushiki Kaisha Video decoder parallelization for tiles
JP5810700B2 (ja) * 2011-07-19 2015-11-11 ソニー株式会社 画像処理装置及び画像処理方法
TWI595770B (zh) 2011-09-29 2017-08-11 杜比實驗室特許公司 具有對稱圖像解析度與品質之圖框相容全解析度立體三維視訊傳達技術
JP5735181B2 (ja) 2011-09-29 2015-06-17 ドルビー ラボラトリーズ ライセンシング コーポレイション デュアルレイヤフレームコンパチブルフル解像度立体3dビデオ配信
WO2013067435A1 (en) * 2011-11-04 2013-05-10 Huawei Technologies Co., Ltd. Differential pulse code modulation intra prediction for high efficiency video coding
WO2013112744A2 (en) * 2012-01-24 2013-08-01 Futurewei Technologies, Inc. Compressed domain watermarking with reduced error propagation
US9111376B2 (en) * 2012-01-26 2015-08-18 Samsung Electronics Co., Ltd. Image processing method and apparatus for 3D video
KR20130086911A (ko) * 2012-01-26 2013-08-05 삼성전자주식회사 3차원 비디오를 위한 영상 처리 방법 및 장치
JP2013198059A (ja) * 2012-03-22 2013-09-30 Sharp Corp 画像符号化装置、画像復号装置、画像符号化方法、画像復号方法およびプログラム
JP5470415B2 (ja) * 2012-03-30 2014-04-16 Eizo株式会社 イプシロンフィルタの閾値決定方法およびローパスフィルタの係数決定方法
US9860558B2 (en) * 2012-09-28 2018-01-02 Intel Corporation Inter-layer intra mode prediction
KR102445274B1 (ko) * 2012-10-01 2022-09-20 지이 비디오 컴프레션, 엘엘씨 향상 레이어에서 변환 계수 블록들의 서브블록-기반 코딩을 이용한 스케일러블 비디오 코딩
KR20140071809A (ko) 2012-12-04 2014-06-12 삼성전자주식회사 비디오 데이터의 처리 방법 및 장치
US9596465B2 (en) 2013-01-04 2017-03-14 Intel Corporation Refining filter for inter layer prediction of scalable video coding
US9609336B2 (en) * 2013-04-16 2017-03-28 Fastvdo Llc Adaptive coding, transmission and efficient display of multimedia (acted)
US9313493B1 (en) * 2013-06-27 2016-04-12 Google Inc. Advanced motion estimation
US9973780B2 (en) 2013-10-31 2018-05-15 Microsoft Technology Licensing, Llc Scaled video for pseudo-analog transmission in spatial domain
US9812788B2 (en) 2014-11-24 2017-11-07 Nxp B.V. Electromagnetic field induction for inter-body and transverse body communication
US10014578B2 (en) 2014-05-05 2018-07-03 Nxp B.V. Body antenna system
US9819395B2 (en) 2014-05-05 2017-11-14 Nxp B.V. Apparatus and method for wireless body communication
US10009069B2 (en) 2014-05-05 2018-06-26 Nxp B.V. Wireless power delivery and data link
US9819075B2 (en) 2014-05-05 2017-11-14 Nxp B.V. Body communication antenna
US10015604B2 (en) 2014-05-05 2018-07-03 Nxp B.V. Electromagnetic induction field communication
CN114554199B (zh) * 2014-09-30 2023-11-10 寰发股份有限公司 用于视频编码的自适应运动向量分辨率的方法
US10283091B2 (en) 2014-10-13 2019-05-07 Microsoft Technology Licensing, Llc Buffer optimization
US9819097B2 (en) 2015-08-26 2017-11-14 Nxp B.V. Antenna system
US9807416B2 (en) 2015-09-21 2017-10-31 Google Inc. Low-latency two-pass video coding
US10320086B2 (en) 2016-05-04 2019-06-11 Nxp B.V. Near-field electromagnetic induction (NFEMI) antenna
US10574999B2 (en) * 2016-05-05 2020-02-25 Intel Corporation Method and system of video coding with a multi-pass prediction mode decision pipeline
US10796464B2 (en) * 2017-08-25 2020-10-06 Siemens Healthcare Gmbh Selective image reconstruction
US10762691B2 (en) * 2017-09-08 2020-09-01 Microsoft Technology Licensing, Llc Techniques for compensating variable display device latency in image display
CN113424533A (zh) 2019-02-14 2021-09-21 北京字节跳动网络技术有限公司 复杂度降低的解码器侧运动推导
CN117692630A (zh) 2019-05-11 2024-03-12 北京字节跳动网络技术有限公司 视频处理中编解码工具的选择性使用
WO2021061493A1 (en) * 2019-09-24 2021-04-01 Futurewei Technologies, Inc. Temporal identifier constraints for sei messages
KR20220073752A (ko) 2019-10-12 2022-06-03 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 비디오 코딩 툴들을 위한 상위 레벨 신택스
WO2021171259A1 (en) * 2020-02-27 2021-09-02 Ssimwave Inc. Real-time latency measurement of video streams

Family Cites Families (129)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SU1506554A1 (ru) 1987-10-06 1989-09-07 Предприятие П/Я А-1772 Кодер видеосигнала
USRE35910E (en) 1989-05-11 1998-09-29 Matsushita Electric Industrial Co., Ltd. Moving image signal encoding apparatus and decoding apparatus
JP3303869B2 (ja) 1990-11-30 2002-07-22 株式会社日立製作所 画像符号化方法、画像符号化装置、画像復号化方法
US5136377A (en) 1990-12-11 1992-08-04 At&T Bell Laboratories Adaptive non-linear quantizer
US5611038A (en) 1991-04-17 1997-03-11 Shaw; Venson M. Audio/video transceiver provided with a device for reconfiguration of incompatibly received or transmitted video and audio information
US5414469A (en) 1991-10-31 1995-05-09 International Business Machines Corporation Motion video compression system with multiresolution features
US5270813A (en) * 1992-07-02 1993-12-14 At&T Bell Laboratories Spatially scalable video coding facilitating the derivation of variable-resolution images
US5300949A (en) 1992-10-22 1994-04-05 International Business Machines Corporation Scalable digital video decompressor
KR970000683B1 (ko) 1993-05-31 1997-01-16 삼성전자 주식회사 해상도 가변 적응적 화상압축/복원방법 및 장치
US5592226A (en) * 1994-01-26 1997-01-07 Btg Usa Inc. Method and apparatus for video data compression using temporally adaptive motion interpolation
US5828421A (en) 1994-10-11 1998-10-27 Hitachi America, Ltd. Implementation efficient digital picture-in-picture decoding methods and apparatus
US5821986A (en) 1994-11-03 1998-10-13 Picturetel Corporation Method and apparatus for visual communications in a scalable network environment
US5864637A (en) 1995-04-18 1999-01-26 Advanced Micro Devices, Inc. Method and apparatus for improved video decompression by selective reduction of spatial resolution
US6002801A (en) 1995-04-18 1999-12-14 Advanced Micro Devices, Inc. Method and apparatus for improved video decompression by selection of IDCT method based on image characteristics
US5825929A (en) 1995-10-05 1998-10-20 Microsoft Corporation Transformation block optimization method
US6957350B1 (en) 1996-01-30 2005-10-18 Dolby Laboratories Licensing Corporation Encrypted and watermarked temporal and resolution layering in advanced television
JP2000506687A (ja) 1996-03-29 2000-05-30 サーノフ コーポレイション 知覚量を用いて符号化を最適化し自動操作可能な画像圧縮を実行する装置及び方法
JP3466032B2 (ja) 1996-10-24 2003-11-10 富士通株式会社 動画像符号化装置および復号化装置
AR016812A1 (es) 1997-08-14 2001-08-01 Samsung Electronics Co Ltd Metodo para transmitir informacion de video comprimida, disposiciones de compresion y de grabacion de video y aparato de reproduccion de video
US6339434B1 (en) 1997-11-24 2002-01-15 Pixelworks Image scaling circuit for fixed pixed resolution display
WO1999029112A1 (en) 1997-12-01 1999-06-10 Matsushita Electric Industrial Co., Ltd. Image processor, image data processor and variable length encoder/decoder
US6239847B1 (en) 1997-12-15 2001-05-29 Netergy Networks, Inc. Two pass multi-dimensional data scaling arrangement and method thereof
US6873368B1 (en) 1997-12-23 2005-03-29 Thomson Licensing Sa. Low noise encoding and decoding method
US6229570B1 (en) * 1998-09-25 2001-05-08 Lucent Technologies Inc. Motion compensation image interpolation—frame rate conversion for HDTV
US6501484B1 (en) 1998-09-29 2002-12-31 Globalstreams, Inc. System and method for high definition video rescaling
US6418166B1 (en) 1998-11-30 2002-07-09 Microsoft Corporation Motion estimation and block matching pattern
US6259741B1 (en) 1999-02-18 2001-07-10 General Instrument Corporation Method of architecture for converting MPEG-2 4:2:2-profile bitstreams into main-profile bitstreams
US6499060B1 (en) 1999-03-12 2002-12-24 Microsoft Corporation Media coding for loss recovery with remotely predicted data units
FR2792798B1 (fr) 1999-04-26 2001-05-25 Thomson Multimedia Sa Procede et dispositif de quantification pour compression video
US6678424B1 (en) 1999-11-11 2004-01-13 Tektronix, Inc. Real time human vision system behavioral modeling
US6700933B1 (en) 2000-02-15 2004-03-02 Microsoft Corporation System and method with advance predicted bit-plane coding for progressive fine-granularity scalable (PFGS) video coding
US6510177B1 (en) 2000-03-24 2003-01-21 Microsoft Corporation System and method for layered video coding enhancement
US6456663B1 (en) 2000-03-29 2002-09-24 Matsushita Electric Industrial Co., Ltd. DCT domain down conversion system that compensates for IDCT mismatch
JP4560897B2 (ja) * 2000-06-02 2010-10-13 ソニー株式会社 通信装置、通信方法及び媒体
US6647061B1 (en) 2000-06-09 2003-11-11 General Instrument Corporation Video size conversion and transcoding from MPEG-2 to MPEG-4
US7023922B1 (en) 2000-06-21 2006-04-04 Microsoft Corporation Video coding system and method using 3-D discrete wavelet transform and entropy coding with motion information
WO2002001881A2 (en) * 2000-06-30 2002-01-03 Koninklijke Philips Electronics N.V. Encoding method for the compression of a video sequence
KR100370076B1 (ko) 2000-07-27 2003-01-30 엘지전자 주식회사 다운 컨버젼 기능을 갖는 비디오 디코더 및 비디오 신호를디코딩 하는 방법
KR20020064791A (ko) 2000-08-08 2002-08-09 코닌클리케 필립스 일렉트로닉스 엔.브이. 웨이브렛 분해에 기초한 비디오 인코딩 방법
US6937291B1 (en) 2000-08-31 2005-08-30 Intel Corporation Adaptive video scaler
US6940905B2 (en) 2000-09-22 2005-09-06 Koninklijke Philips Electronics N.V. Double-loop motion-compensation fine granular scalability
DE10048735A1 (de) 2000-09-29 2002-04-11 Bosch Gmbh Robert Verfahren zur Codierung und Decodierung von Bildsequenzen sowie Einrichtungen hierzu
US20020159484A1 (en) 2000-12-05 2002-10-31 Murat Azizoglu Coding scheme using a control code map for signal transmission in optical communications networks
US7072525B1 (en) 2001-02-16 2006-07-04 Yesvideo, Inc. Adaptive filtering of visual image using auxiliary image information
US6831947B2 (en) 2001-03-23 2004-12-14 Sharp Laboratories Of America, Inc. Adaptive quantization based on bit rate prediction and prediction error energy
JP2004523994A (ja) 2001-04-10 2004-08-05 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 一連のフレームを符号化する方法
US7206453B2 (en) 2001-05-03 2007-04-17 Microsoft Corporation Dynamic filtering for lossy compression
US6907143B2 (en) 2001-05-16 2005-06-14 Tektronix, Inc. Adaptive spatio-temporal filter for human vision system models
WO2003003749A1 (en) 2001-06-29 2003-01-09 Ntt Docomo, Inc. Image encoder, image decoder, image encoding method, and image decoding method
US7876820B2 (en) * 2001-09-04 2011-01-25 Imec Method and system for subband encoding and decoding of an overcomplete representation of the data structure
US6992725B2 (en) 2001-10-22 2006-01-31 Nec Electronics America, Inc. Video data de-interlacing using perceptually-tuned interpolation scheme
US7639739B2 (en) 2001-11-02 2009-12-29 The Regents Of The University Of California Technique to enable efficient adaptive streaming and transcoding of video and other signals
EP2262269B1 (en) 2001-12-17 2018-01-24 Microsoft Technology Licensing, LLC Skip macroblock coding
KR20040077777A (ko) 2002-01-22 2004-09-06 코닌클리케 필립스 일렉트로닉스 엔.브이. 드리프트-없는 비디오 엔코딩 및 디코딩 방법, 및 대응장치들
US7596179B2 (en) 2002-02-27 2009-09-29 Hewlett-Packard Development Company, L.P. Reducing the resolution of media data
US7317759B1 (en) 2002-02-28 2008-01-08 Carnegie Mellon University System and methods for video compression mode decisions
US6993078B2 (en) 2002-03-28 2006-01-31 International Business Machines Corporation Macroblock coding technique with biasing towards skip macroblock coding
AUPS291002A0 (en) 2002-06-12 2002-07-04 Unisearch Limited Method and apparatus for scalable compression of video
JP4724351B2 (ja) 2002-07-15 2011-07-13 三菱電機株式会社 画像符号化装置、画像符号化方法、画像復号装置、画像復号方法、および通信装置
US7154952B2 (en) 2002-07-19 2006-12-26 Microsoft Corporation Timestamp-independent motion vector prediction for predictive (P) and bidirectionally predictive (B) pictures
US7010037B2 (en) 2002-08-06 2006-03-07 Koninklijke Philips Electronics N.V. System and method for rate-distortion optimized data partitioning for video coding using backward adaptation
US7072394B2 (en) 2002-08-27 2006-07-04 National Chiao Tung University Architecture and method for fine granularity scalable video coding
US7379496B2 (en) 2002-09-04 2008-05-27 Microsoft Corporation Multi-resolution video coding and decoding
EP1554887A1 (en) * 2002-10-16 2005-07-20 Koninklijke Philips Electronics N.V. Fully scalable 3-d overcomplete wavelet video coding using adaptive motion compensated temporal filtering
GB0228556D0 (en) 2002-12-06 2003-01-15 British Telecomm Video quality measurement
JP2006521039A (ja) 2003-02-25 2006-09-14 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーバコンプリートウェーブレット展開での動き補償時間フィルタリングを使用した3次元ウェーブレットビデオ符号化
FR2852773A1 (fr) 2003-03-20 2004-09-24 France Telecom Procedes et dispositifs de codage et de decodage d'une sequence d'images par decomposition mouvement/texture et codage par ondelettes
US8761252B2 (en) 2003-03-27 2014-06-24 Lg Electronics Inc. Method and apparatus for scalably encoding and decoding video signal
US20130107938A9 (en) 2003-05-28 2013-05-02 Chad Fogg Method And Apparatus For Scalable Video Decoder Using An Enhancement Stream
US7653133B2 (en) 2003-06-10 2010-01-26 Rensselaer Polytechnic Institute (Rpi) Overlapped block motion compression for variable size blocks in the context of MCTF scalable video coders
US8107535B2 (en) * 2003-06-10 2012-01-31 Rensselaer Polytechnic Institute (Rpi) Method and apparatus for scalable motion vector coding
JP4207684B2 (ja) 2003-06-27 2009-01-14 富士電機デバイステクノロジー株式会社 磁気記録媒体の製造方法、および、製造装置
US20060159173A1 (en) 2003-06-30 2006-07-20 Koninklijke Philips Electronics N.V. Video coding in an overcomplete wavelet domain
WO2005001772A1 (en) 2003-06-30 2005-01-06 Koninklijke Philips Electronics, N.V. System and method for video processing using overcomplete wavelet coding and circular prediction mapping
TWI232681B (en) 2003-08-27 2005-05-11 Mediatek Inc Method of transforming one video output format into another video output format without degrading display quality
KR100519776B1 (ko) 2003-11-24 2005-10-07 삼성전자주식회사 영상 신호의 해상도 변환 방법 및 장치
KR100597402B1 (ko) 2003-12-01 2006-07-06 삼성전자주식회사 스케일러블 비디오 코딩 및 디코딩 방법, 이를 위한 장치
CN1890974B (zh) 2003-12-03 2012-05-16 皇家飞利浦电子股份有限公司 用于mpeg-2***中的改进缩放性支持的***和方法
US7471845B2 (en) 2004-01-06 2008-12-30 Sharp Laboratories Of America, Inc. De-ringing filter
US20050157791A1 (en) 2004-01-20 2005-07-21 Eastman Kodak Company System and method for video tone scale reduction
JP2005217940A (ja) 2004-01-30 2005-08-11 Ntt Docomo Inc 動画像符号化装置、動画像符号化方法及び動画像符号化プログラム
KR100596705B1 (ko) 2004-03-04 2006-07-04 삼성전자주식회사 비디오 스트리밍 서비스를 위한 비디오 코딩 방법과 비디오 인코딩 시스템, 및 비디오 디코딩 방법과 비디오 디코딩 시스템
US20050195896A1 (en) 2004-03-08 2005-09-08 National Chiao Tung University Architecture for stack robust fine granularity scalability
BRPI0509563A (pt) * 2004-04-02 2007-09-25 Thomson Licensing codificação de vìdeo de complexidade escalonável
EP1599046A1 (en) 2004-05-19 2005-11-23 THOMSON Licensing Method for coding video data of a sequence of pictures
US20050259729A1 (en) 2004-05-21 2005-11-24 Shijun Sun Video coding with quality scalability
CN100588257C (zh) 2004-06-23 2010-02-03 新加坡科技研究局 采用栅格运动估计和补偿的可扩展视频编码
KR100654436B1 (ko) 2004-07-07 2006-12-06 삼성전자주식회사 비디오 코딩 방법과 디코딩 방법, 및 비디오 인코더와디코더
US8340177B2 (en) 2004-07-12 2012-12-25 Microsoft Corporation Embedded base layer codec for 3D sub-band coding
US20060013305A1 (en) 2004-07-14 2006-01-19 Sharp Laboratories Of America, Inc. Temporal scalable coding using AVC coding tools
US9071847B2 (en) 2004-10-06 2015-06-30 Microsoft Technology Licensing, Llc Variable coding resolution in video codec
US8243820B2 (en) 2004-10-06 2012-08-14 Microsoft Corporation Decoding variable coded resolution video with native range/resolution post-processing operation
DE102004059993B4 (de) 2004-10-15 2006-08-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen einer codierten Videosequenz unter Verwendung einer Zwischen-Schicht-Bewegungsdaten-Prädiktion sowie Computerprogramm und computerlesbares Medium
KR100679022B1 (ko) 2004-10-18 2007-02-05 삼성전자주식회사 계층간 필터링을 이용한 비디오 코딩 및 디코딩방법과,비디오 인코더 및 디코더
KR20060043115A (ko) 2004-10-26 2006-05-15 엘지전자 주식회사 베이스 레이어를 이용하는 영상신호의 엔코딩/디코딩 방법및 장치
KR100888962B1 (ko) 2004-12-06 2009-03-17 엘지전자 주식회사 영상 신호의 인코딩 및 디코딩 방법
KR100888963B1 (ko) 2004-12-06 2009-03-17 엘지전자 주식회사 영상 신호의 스케일러블 인코딩 및 디코딩 방법
US7801220B2 (en) * 2005-01-07 2010-09-21 Microsoft Corporation In-band wavelet video coding with spatial scalability
KR100714689B1 (ko) 2005-01-21 2007-05-04 삼성전자주식회사 다 계층 구조 기반의 스케일러블 비디오 코딩 및 디코딩방법, 이를 위한 장치
US20080152251A1 (en) 2005-01-31 2008-06-26 Koninklijke Philips Electronics, N.V. Pyramidal Decomposition for Multi-Resolution Image Filtering
US7876833B2 (en) 2005-04-11 2011-01-25 Sharp Laboratories Of America, Inc. Method and apparatus for adaptive up-scaling for spatially scalable coding
US8619860B2 (en) 2005-05-03 2013-12-31 Qualcomm Incorporated System and method for scalable encoding and decoding of multimedia data using multiple layers
EP1727372A1 (en) 2005-05-27 2006-11-29 Thomson Licensing Method and apparatus for encoding and decoding video data,
US20070014349A1 (en) 2005-06-03 2007-01-18 Nokia Corporation Residual prediction mode in scalable video coding
US7830961B2 (en) 2005-06-21 2010-11-09 Seiko Epson Corporation Motion estimation and inter-mode prediction
MX2008000522A (es) 2005-07-11 2008-03-06 Thomson Licensing Metodo y aparato para la prediccion adaptable de intra-textura entre capas de macrobloque.
US7216279B2 (en) * 2005-07-19 2007-05-08 Lsi Logic Corporation Testing with high speed pulse generator
EP1746839A1 (en) 2005-07-22 2007-01-24 Thomson Licensing Method and apparatus for encoding video data
EP1775958A1 (en) 2005-10-14 2007-04-18 Thomson Licensing Method and apparatus for reconstructing the texture of a spatial enhancement-layer video picture
KR100772868B1 (ko) 2005-11-29 2007-11-02 삼성전자주식회사 복수 계층을 기반으로 하는 스케일러블 비디오 코딩 방법및 장치
US8023569B2 (en) 2005-12-15 2011-09-20 Sharp Laboratories Of America, Inc. Methods and systems for block-based residual upsampling
GB0600141D0 (en) 2006-01-05 2006-02-15 British Broadcasting Corp Scalable coding of video signals
US7956930B2 (en) 2006-01-06 2011-06-07 Microsoft Corporation Resampling and picture resizing operations for multi-resolution video coding and decoding
JP2009522974A (ja) 2006-01-09 2009-06-11 ノキア コーポレイション 低複雑度の動き補償付き微細粒度スケーラブルビデオ符号化のためのシステムと装置
KR100772873B1 (ko) 2006-01-12 2007-11-02 삼성전자주식회사 스무딩 예측을 이용한 다계층 기반의 비디오 인코딩 방법,디코딩 방법, 비디오 인코더 및 비디오 디코더
US8848789B2 (en) 2006-03-27 2014-09-30 Qualcomm Incorporated Method and system for coding and decoding information associated with video compression
KR100781524B1 (ko) 2006-04-04 2007-12-03 삼성전자주식회사 확장 매크로블록 스킵 모드를 이용한 인코딩/디코딩 방법및 장치
US20070274396A1 (en) 2006-05-26 2007-11-29 Ximin Zhang Complexity adaptive skip mode estimation for video encoding
WO2008004816A1 (en) 2006-07-04 2008-01-10 Electronics And Telecommunications Research Institute Scalable video encoding/decoding method and apparatus thereof
US8120660B2 (en) 2006-07-10 2012-02-21 Freescale Semiconductor, Inc. Image data up sampling
JP4647558B2 (ja) 2006-07-27 2011-03-09 日本電信電話株式会社 映像符号化並列処理方法,映像符号化装置,映像符号化プログラムおよびその記録媒体
US9014280B2 (en) 2006-10-13 2015-04-21 Qualcomm Incorporated Video coding with adaptive filtering for motion compensated prediction
US20080095235A1 (en) 2006-10-20 2008-04-24 Motorola, Inc. Method and apparatus for intra-frame spatial scalable video coding
US8311120B2 (en) 2006-12-22 2012-11-13 Qualcomm Incorporated Coding mode selection using information of other coding modes
US8199812B2 (en) 2007-01-09 2012-06-12 Qualcomm Incorporated Adaptive upsampling for scalable video coding
US7983496B2 (en) 2007-06-26 2011-07-19 Mitsubishi Electric Research Laboratories, Inc. Inverse tone mapping for bit-depth scalable image coding adapted to variable block sizes
US8160132B2 (en) 2008-02-15 2012-04-17 Microsoft Corporation Reducing key picture popping effects in video
US8953673B2 (en) 2008-02-29 2015-02-10 Microsoft Corporation Scalable video coding and decoding with sample bit depth and chroma high-pass residual layers
US9338475B2 (en) 2008-04-16 2016-05-10 Intel Corporation Tone mapping for bit-depth scalable video codec

Also Published As

Publication number Publication date
CN1738435A (zh) 2006-02-22
US8374238B2 (en) 2013-02-12
JP2006060792A (ja) 2006-03-02
CN1738435B (zh) 2010-08-04
KR101183304B1 (ko) 2012-09-14
KR20060092826A (ko) 2006-08-23
EP1617678A3 (en) 2011-07-06
EP1617678A2 (en) 2006-01-18
US20060114993A1 (en) 2006-06-01

Similar Documents

Publication Publication Date Title
JP4896458B2 (ja) 3dサブバンド符号化のための組み込み基本レイヤコーデック
JP4989048B2 (ja) 3dサブバンド符号化のための組み込み基本レイヤコーデック
JP5276252B2 (ja) 動き補償時間フィルタリングにおける適応アップデート
Andreopoulos et al. In-band motion compensated temporal filtering
US7801220B2 (en) In-band wavelet video coding with spatial scalability
JP4891234B2 (ja) グリッド動き推定/補償を用いたスケーラブルビデオ符号化
US8031776B2 (en) Method and apparatus for predecoding and decoding bitstream including base layer
US8873623B2 (en) Apparatus and method for generating a coded video sequence and for decoding a coded video sequence by using an intermediate layer residual value prediction
KR100679031B1 (ko) 다 계층 기반의 비디오 인코딩 방법, 디코딩 방법 및 상기방법을 이용한 장치
JP4844741B2 (ja) 動画像符号化装置及び動画像復号装置と、その方法及びプログラム
US20060104354A1 (en) Multi-layered intra-prediction method and video coding method and apparatus using the same
JP2008506328A (ja) 基礎階層を利用するスケーラブルビデオコーディング方法および装置。
Pau et al. Motion compensation and scalability in lifting-based video coding
KR20050052532A (ko) 적응성 움직임 보상 시간 필터링을 이용하는 충분히 크기조정가능 3-d 오버컴플릿 웨이브릿 비디오 코딩
Turaga et al. Unconstrained motion compensated temporal filtering (UMCTF) for efficient and flexible interframe wavelet video coding
JP2004266794A (ja) マルチ・リゾルーション・ビデオ符号化および復号化
Ji et al. Architectures of incorporating MPEG-4 AVC into three dimensional subband video coding
Clerckx et al. Complexity scalable motion-compensated temporal filtering

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080714

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110621

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110624

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110926

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110929

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111024

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111027

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111213

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111221

R150 Certificate of patent or registration of utility model

Ref document number: 4896458

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150106

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees