JP2007509362A

JP2007509362A - デジタル信号をスケーラブルビットストリームにエンコードする方法、及びスケーラブルビットストリームをデコードする方法

Info

Publication number: JP2007509362A
Application number: JP2006532254A
Authority: JP
Inventors: ユ，ロンシャン; リン，シャオ; ラハージャ，スサント
Original assignee: Agency for Science Technology and Research Singapore
Current assignee: Agency for Science Technology and Research Singapore
Priority date: 2003-10-10
Filing date: 2004-10-06
Publication date: 2007-04-12
Anticipated expiration: 2024-10-06
Also published as: CN1890711B; TWI347755B; EP1673764A4; EP1673764B1; ES2305852T3; EP1673764A1; DE602004013031T2; WO2005036528A1; EP1939863A2; EP1939863A3; US20070274383A1; KR20060115385A; ATE391988T1; DE602004013031D1; TW200520400A; KR101141247B1; MY137785A; US8446947B2; CN1890711A; JP4849466B2

Abstract

デジタル信号をスケーラブルビットストリームにエンコードする方法であって、デジタル信号を量子化し、量子化された信号をエンコードしてコア層ビットストリームを形成する量子化工程と、デジタル信号及びコア層ビットストリームに基づきエラーマッピングを行い、前記コア層ビットストリームにエンコードされた情報を除去して、エラー信号を生じるエラーマッピング工程と、知覚モデルを用いて決定されるデジタル信号の知覚情報に基づきエラー信号をビットプレーン符号化し、上位層ビットストリームを生じるビットプレーン符号化工程と、コア層ビットストリーム及び上位層ビットストリームを多重化し、スケーラブルビットストリームを生成する多重化工程とを備える方法。スケーラブルビットストリームをデジタル信号にデコードする方法であって、スケーラブルビットストリームをコア層ビットストリーム及び上位層ビットストリームに逆多重化する逆多重化工程と、コア層ビットストリームをデコード及び逆量子化して、コア層信号を生成するデコード逆量子化工程と、デジタル信号の知覚情報に基づいて、上位層ビットストリームをビットプレーン復号化するビットプレーン復号化工程と、ビットプレーン復号化された上位層ビットストリームと逆量子化されたコア層信号に基づきエラーマッピングを行い、再構成された変換信号を生じるエラーマッピング工程とを備え、再構成された変換信号がデジタル信号である方法。

Description

近年、コンピュータの進歩に伴って、インターネット、無線ＬＡＮ、ホームネットワーク及び民生用携帯電話システム等のネットワーク上におけるストリーミング音声コンテンツのネットワーキング及び通信が、音声サービス配信の主流の手段になってきている。ｘＤＳＬ、光ファイバー、及びブロードバンド無線アクセスを含むブロードバンドネットワーク基盤の発展とともに、これらのチャンネルのビットレートが、高サンプリングレートで高振幅解像度（例えば、９６ｋＨｚ、２４ビット／サンプル）のロスレス（可逆）音声信号を配信するためのレートに、急速に近づいていると思われる。他方、ＭＰＥＧ−４ＡＡＣ（後述の文献１に記載）等の高圧縮デジタル音声フォーマットを必要とするアプリケーションも未だに存在する。結果として、現在のチャンネルと、急速に現れているブロードバンドチャンネルとを橋渡しする相互運用のソリューションが、大いに要求されている。加えて、ブロードバンドチャンネルが広く利用可能であって、且つ突き詰めればバンド幅の制限がなくなる場合でさえ、伝送中にビットレートを動的に変更可能な階層的なビットストリームを生成できるビットレートスケーラブル符号化システムが、依然として非常に有利である。例えば、何らかのアクシデント又はリソースをシェアする要求によりパケット損失が時折起こる用途に対しては、ＰＣＭ（パルスコード変調）やロスレス符号化フォーマット等の現在のブロードバンドの波形方式は、ストリーミング時に深刻な歪みを受ける可能性がある。しかしながら、ネットワークリソースが動的に変化する場合にパケットの優先度を設定できれば、この問題を解決することができる。最後に、ビットレートスケーラブル符号化システムは、クライアントのサイトから過剰な要求が来た場合にＱｏＳの正常な低下を達成できるような、音声ストリーミングサービスに都合のよいサーバーも提供する。

これまで、多くのロスレス音声符号化アルゴリズムが提案されてきた（後述の文献２から８を参照）。大抵の手法は、元の音声信号の冗長分を、残留成分をエントロピー符号化する間に除去する予測フィルタに頼るものである（後述の文献５から１２に記載）。予測フィルタの存在によって、これらの予測に基づく手法で生成したビットストリームは、拡張が不可能でない場合は、ビットレートスケーラビリティを得難く効率的ではない。後述の文献３に記載されるようなその他の手法では、元の音声信号を先ずロッシー（非可逆）エンコーダで符号化し、その後、その残留成分を残りのエンコーダでロスレス符号化する二層手法を介してロスレス音声符号器を構成する。この二層手法では、ある程度のビットレートスケーラビリティが得られるが、その精度がかなり粗いので音声ストリーミング用途であまり高く評価されない。ビットレートに関して高精細スケーラビリティを与える音声コーデックが、かつて、後述の文献４及び１８で提案されたが、ここで説明するシステムとは異なり、それらのコーデックでは、両コーデックにより生じるロッシービットストリームが任意の既存の音声コーデックとの互換性がないという、下位互換性が得られない。

後述の文献２１、２２及び２３には、知覚モデルが記載されている。

本発明の課題は、下位互換性を保持しつつ、スケーラブルビットストリームのデジタル信号をエンコードする方法を提供することである。

デジタル信号をスケーラブルビットストリームにエンコードするエンコード方法であって、前記デジタル信号を量子化し、量子化された信号をエンコードしてコア層ビットストリームを形成する量子化工程と、前記デジタル信号及び前記コア層ビットストリームに基づきエラーマッピングを行い、前記コア層ビットストリームにエンコードされた情報を除去して、エラー信号を生じるエラーマッピング工程と、知覚モデルを用いて決定される前記デジタル信号の知覚情報に基づき前記エラー信号をビットプレーン符号化し、上位層ビットストリームを生じるビットプレーン符号化工程と、前記コア層ビットストリーム及び前記上位層ビットストリームを多重化し、前記スケーラブルビットストリームを生成する多重化工程とを備えることを特徴とするエンコード方法を提供する。

更に、上記の方法に係る、デジタル信号をスケーラブルビットストリームにエンコードするエンコーダ、コンピュータ読取可能媒体、コンピュータプログラム要素、スケーラブルビットストリームをデジタル信号にデコードする方法、スケーラブルビットストリームをデジタル信号にデコードするデコーダ、更なるコンピュータ読取可能媒体、及び更なるコンピュータプログラム要素を提供する。

一の実施形態では、次の特徴を持った高精細なビットレートスケーラビリティ（ＦＧＢＳ）を達成するロスレス音声符号化が提示される。即ち、
−下位互換性：ＭＰＥＧ−４ＡＡＣビットストリーム等の高圧縮コア層ビットストリームがロスレスビットストリームに埋め込まれる。
−知覚的に埋め込まれたロスレスビットストリーム：ロスレスビットストリームを、再構成された音声の知覚の最適性において、損失無く任意のロッシーレートにて切り捨てることができる。
−低複雑性：非常に限定的なメモリと同様、ＡＡＣ（二進算術コーデック）時に、非常に限定的な演算が加えられるのみである。

提示された音声コーデックがもたらす豊富な機能性は、異なる音声ストリーミング用途又はストレージ用途のための各種レート／品質要求を満たすような「普遍的な」音声フォーマットとなる性能を意味するものである。例えば、コア層ビットストリームとして用いられるＭＰＥＧ−４ＡＡＣ準拠ビットストリームは、従来のＭＰＥＧ−４ＡＡＣ音声サービス用コーデックを用いて生成されたビットストリームから容易に取り出すことができる。他方、ロスレス圧縮も、ロスレス再構成要求とともに、音声編集用途及びストレージ用途用のコーデックにより提供される。ＦＧＢＳが必要とされる音声ストリーミング用途では、コーデックのロスレスビットストリームは、実際のシステムで生じる可能性のある任意のレート／フィデリティ／複雑性の制約のために、エンコーダ／デコーダにおいて又は通信チャンネルにおいて、より低いビットレートへ更に切り捨てることができる。

一の実施形態では、デジタル信号をエンコードしてスケーラブルビットストリームを形成する方法が提供される。ここでは、デコーダによりデコードされる際に、このスケーラブルビットストリームを任意の点で切捨て、より低品質の（損失を伴う）信号を生じることができる。この方法は、音声、画像又は映像信号等の任意の種類のデジタル信号をエンコードするのに用いることができる。物理的に測定される信号に対応するデジタル信号は、対応するアナログ信号（例えば、ビデオ信号の輝度及び色度値、アナログ音声信号の振幅、又はセンサーからのアナログ検出信号）の少なくとも一つの特徴をスキャンすることで生成されてよい。例えば、マイクロホンを用いてアナログ音声信号を取得してもよい。そして、取得されたアナログ音声信号をサンプリングして量子化することにより、デジタル音声信号に変換する。ビデオカメラを用いてアナログ映像信号を取得してもよい。そして、適切なアナログ−デジタル信号変換機を用いて、デジタル映像信号に変換する。或いは、デジタルカメラを用いて、画像信号又は映像信号をデジタル信号として画像センサ（ＣＭＯＳ又はＣＣＤ）上において直接取得してもよい。

デジタル信号は、量子化及び符号化されて、コア層ビットストリームが形成される。コア層ビットストリームは、最小ビットレート／品質のスケーラブルビットストリームを形成する。

上位層ビットストリームを用いて、更なるビットレート／品質のスケーラブルビットストリームを得る。上位層ビットストリームは、本発明に従って、変換信号及びコア層ビットストリームに基づいてエラーマッピングを行ってエラー信号を生成することにより形成される。エラーマッピングを行う目的は、コア層ビットストリームへと既に符号化された情報を除去することである。

エラー信号はビットプレーン符号化され、上位層ビットストリームが形成される。エラー信号のビットプレーン符号化は、デジタル信号の知覚情報、即ち、知覚された又は知覚の重要性に基づいて行われる。本発明で用いられる知覚情報は、人間の感覚システム、例えば、人間の視覚システム（即ち、人間の目）や人間の聴覚システム（即ち、人間の耳）に関連する情報に関する。このようなデジタル信号（映像又は音声）用の知覚情報は、知覚モデルを用いて得られる。例えば、音声信号用のＭＰＥＧ−１オーディオにおける心理音響モデルＩ又はＩＩ（後述の文献２１に記載）、画像用ヒト視覚システムモデル（後述の文献２２に記載）、及び映像で用いられる時間空間モデル（後述の文献２３に記載）である。

心理音響モデルは、人間の耳が、各種の環境条件に依存するある周波数バンド内の音のみを拾い上げることができるという作用に基づくものである。同様に、ＨＶＭ（ヒト視覚モデル）は、人間の目が、ある動き、色及びコントラストに注意をより払っているという作用に基づくものである。

コア層ビットストリーム及び上位層ビットストリームは多重化されてスケーラブルビットストリームを形成する。

スケーラブルビットストリームはデコードされて、ロスレス（可逆）的にデジタル信号を再構成することができる。上述のように、コア層ビットストリームは、最小ビットレート／品質のスケーラブルビットストリームを形成する埋め込み（エンベデッド）ビットストリームであり、上位層ビットストリームは、スケーラブルビットストリームのロスレス部分に対してロッシー（非可逆）を形成する。上位層ビットストリームは知覚的にビットプレーン符号化されるので、知覚的に重要性が低い上位層ビットストリームのデータを先ず切り捨てる方法で上位層ビットストリームを切り捨てることで、スケーラブルビットストリームの知覚スケラービリティを得ることができる。言い換えれば、上位層ビットストリーム、故にスケーラブルビットストリームを、より低いビットレート／品質に切り捨てる際に、知覚的に最適化するように、上位層ビットストリームを切り捨てることによってスケーラブルビットストリームをスケーラブル化することができる。

本発明に係る方法は、高バンド幅又はハイファイシステムにおいて、画像、映像又は音声信号等のデジタル信号用のロスレスエンコーダとして用いることができる。必要とされるバンド幅が変化する場合、エンコーダにより生成されるビットストリームのビットレートは、バンド幅の変化に合わせて変化してよい。このような方法は、ＪＰＥＧ２０００のＭＥＧ音声、画像及び映像圧縮等の、多くの用途及びシステムで実施することができる。

本発明の一の実施例によれば、前記デジタル信号は、量子化により量子化信号を形成する前に、適切なドメインへ変換される。デジタル信号は、同じドメイン内で変換されてよい。または、デジタル信号をよりよく示すために一のドメインから他のドメインへ変換されてよい。これにより、コア層ビットストリームが形成するための簡単且つ効率的なデジタル信号の量子化及び符号化が可能となる。このようなドメインは、時間ドメイン、周波数ドメイン、並びに時間及び周波数混合ドメインを含んでよいが、これらに限定されない。デジタル信号の変換は、ユニタリ行列Ｉにより実行されてもよい。

一の実施形態では、前記デジタル信号を、整数型修正離散コサイン変換（ｉｎｔＭＤＣＴ）を用いて変換デジタル信号に変換する。ｉｎｔＭＤＣＴは、ＭＰＥＧ−４ＡＡＣコーダで通常用いられる修正離散コサイン変換（ＭＤＣＴ）のフィルタバンクに対する可逆的近似法である。デジタル信号を更なる処理用の適切なドメインに変換するその他の変換も用いることができる。その他の変換は、離散コサイン変換、離散サイン変換、高速フーリエ変換及び離散ウェーブレット変換を含むが、これらに限定されない。

ｉｎｔＭＤＣＴを用いてデジタル信号を変換信号に変換する際、前記変換信号（詳細には、変換信号を表すｉｎｔＭＤＣＴ係数）を正規化又はスケーラブル化してＭＤＣＴのフィルタバンクの出力を近似することが好ましい。ｉｎｔＭＤＣＴ変換信号の正規化は、変換信号を量子化する量子化器、例えばＡＡＣ量子化器が、ｉｎｔＭＤＣＴフィルタバンクの精細度とは異なる精細度を持つＭＤＣＴフィルタバンクを有する場合に有用であろう。このような正規化工程では、適切に量子化器で直接量子化及び符号化してコア層ビットストリームを形成するように、ｉｎｔＭＤＣＴ変換信号をＭＤＣＴフィルタバンクに近似させる。

音声デジタル信号をエンコードするために、ＭＰＥＧＡＡＣ仕様に従ってデジタル／変換信号を量子化及び符号化し、コア層ビットストリームを生成することが好ましい。これは、低ビットレートではあるけれども高品質の音声ビットストリームを生成するには、最も効率的な知覚音声符号化アルゴリズムのうちの一つがＡＡＣであるからである。従って、ＡＡＣ（ＡＡＣビットストリームと称する）を用いて生成されたコア層ビットストリームのビットレートは低く、スケーラブルビットストリームがコア層ビットストリームに切り捨てられる際にも、切り捨てられたビットストリームの知覚品質は依然高いままである。その他の量子化符号化アルゴリズム／方法、例えばＭＰＥＧ−１オーディオレイヤ３、又はコア層ビットストリームを生成するその他の専有符号化／量子化方法も用いることができることに留意すべきである。

コア層ビットストリームへと既に符号化された情報を除去し、残留信号（又はエラー信号）を生成するエラーマッピングは、量子化された信号の各量子化値のより低い量子化閾値（ゼロに近い閾値）を、変換信号から差し引くことにより行われる。このような量子化閾値に基づくエラーマッピング方式は、残留信号の値が常に正であるという利点があり、残留信号の振幅が量子化閾値とは独立している。これにより、複雑性が低く効率的なエンベデッド符号化スキームの実施が可能となる。しかしながら、再構成された変換信号を変換信号から差し引いて残留信号を生成することもできる。

エラー信号におけるビットプレーン符号化用の前記デジタル信号の知覚情報を決定するために、前記知覚モデルとして心理音響モデルを用いることができる。心理音響モデルは、ＭＰＥＧ−１オーディオで用いられる心理音響モデルＩ又はＩＩ（後述の文献２１に記載）、或いはＭＰＥＧ−４オーディオにおける心理音響モデル（後述の文献１９に記載）に基づいてよい。ＡＡＣの使用に応じて用いられる量子化器等の知覚量子化器を、デジタル／変換信号の量子化及び符号化に用いる際には、知覚量子化器で用いる知覚モデルを用いて、エラー信号のビットプレーン符号化用の知覚情報を決定してもよい。言い換えれば、この場合、エラー信号のビットプレーン符号化用の知覚情報を得るために別々の知覚モデルは必要ない。

エラー信号のビットプレーン符号化用の知覚情報を、コア層ビットストリーム及び上位層ビットストリームとともに更に多重化して、スケーラブルビットストリームをサイド情報として生成することが好ましい。サイド情報を用いて、エラー信号をデコーダにより再構成することができる。

エラー信号は複数のビットプレーンに配列され、各ビットプレーンは複数のビットプレーン記号を有する。

本発明の一の実施形態では、エラー信号のビットプレーンの配列又は順序が変化され或いはシフトされ、続いてビットプレーンが連続的にスキャン及び符号化される。シフトされたビットプレーンに対してビットプレーン符号化が行われる際、より知覚的に重要なビットプレーン記号からなるビットプレーンが先ず符号化されるように、ビットプレーンがシフトされる。この実施形態では、ビットプレーンにおけるすべてのビットプレーン記号は、その後に続く隣接ビットプレーンのビットプレーン記号を符号化する前に、符号化される。

本発明の他の実施形態では、ビットプレーンのビットプレーン記号は、知覚情報に基づく順にスキャン及び符号化される。言い換えれば、別のビットプレーンのビットプレーン記号を符号化する前に、あるビットプレーンにおけるすべてのビットプレーン記号が符号化されるとは限らない。複数のビットプレーンのビットプレーン記号のスキャン及び符号化の順は、より知覚的に重要なビットプレーン記号が先ず符号化されるように、知覚情報に基づき決定される。

知覚モデルにより決定されるデジタル信号の知覚情報は、エラー信号のビットプレーン符号化用の複数のビットプレーンにおける第１（又は最大）ビットプレーンＭ（ｓ）（即ち、第１ビットプレーンを特定する数（指標））、及びデジタル信号の丁度可知歪み（ＪＮＤ）レベルの少なくとも一方を含んでよい。知覚情報は、異なるドメイン特徴（たとえば、周波数、時間、信号振幅等）毎に又は一連のドメイン特徴におけるデジタル信号に関するものであることに留意すべきである。例えば、デジタル信号が周波数ドメインに変換される際には、周波数毎の又はある周波数バンド（周波数バンドｓ、又はより一般的には、ドメインバンドｓ）値におけるデジタル信号の知覚情報は異なっていてよい。これは、特定の周波数では、信号が知覚的により重要となり得ることを示すものである。

本発明の一の実施形態では、各周波数バンドｓに対応するデジタル信号の知覚有意性Ｐｓ（ｓ）が、知覚情報として決定される。この実施形態では、エラー信号のビットプレーンに対応するデジタル信号のＪＮＤレベルτ（ｓ）が決定される。そして、ＪＮＤレベルτ（ｓ）に対応するビットプレーンを、エラー信号のビットプレーン符号化用の複数のビットプレーンにおける第１ビットプレーンＭ（ｓ）の指標から差し引くことにより、知覚有意性Ｐｓ（ｓ）が生じる。知覚有意性Ｐｓ（ｓ）を用いてビットプレーンのシフトを制御することができ、従って、より知覚的に重要なビットプレーン記号からなるビットプレーンが初めにスキャン及び符号化される。より有利なことに、知覚有意性Ｐｓ（ｓ）を用いて、より知覚的に重要なビットプレーン記号が初めに符号化されるように、複数のビットプレーンのビットプレーン記号のスキャン及び符号化順を制御することができる。

本発明の更なる実施形態では、知覚有意性Ｐｓ（ｓ）は正規化されて、正規化された知覚有意性Ｐｓ’（ｓ）が形成される。この実施形態では、知覚有意性Ｐｓ（ｓ）の関数に基づき、デジタル信号における共通の知覚有意性Ｐｓ（ｓ）＿ｃｏｍｍｏｎが規定される。このような知覚有意性Ｐｓ（ｓ）の関数の例には、知覚有意性Ｐｓ（ｓ）の平均値、最大値、最小値又は正規化値が含まれる。共通の知覚有意性Ｐｓ（ｓ）＿ｃｏｍｍｏｎを知覚有意性Ｐｓ８ｓ）から差し引くことにより、各周波数バンドｓに対して正規化された知覚有意性Ｐｓ’（ｓ）が生成される。周波数バンドｓが、少なくとも一つのゼロ以外の値の量子化信号を含む場合は、周波数バンドｓは有意バンドである。そうでなければ、周波数バンドｓは非有意バンドｓである。有意バンドに対しては、その対応する知覚有意性Ｐｓ（ｓ）の値は、共通の知覚有意性Ｐｓ（ｓ）＿ｃｏｍｍｏｎの値に設定される。非有意バンドに対しては、対応する正規化された知覚有意性Ｐｓ’（ｓ）が、コア層ビットストリーム及び上位層ビットストリームとともに多重化されて、伝送用のスケーラブルビットストリームが生成される。この正規化された知覚有意性Ｐｓ’（ｓ）は、デコーダにおいてスケーラブルビットストリームをデコードするために用いられるサイド情報として、スケーラブルビットストリームに含まれて伝送される。

共通の知覚有意性Ｐｓ（ｓ）＿ｃｏｍｍｏｎを規定することにより行われる知覚有意性Ｐｓ（ｓ）の正規化は、コア層ビットストリームを生成するためにデジタル信号／変換信号を量子化する際に得られる情報を用いることにより、スケーラブルビットストリーム中に含まれて伝送されるべき知覚情報量を減少させるという利点がある。従って、知覚情報、特に正規化された知覚有意性Ｐｓ’（ｓ）は、非有意バンドに対してのみデコーダ側へ伝送される必要がある。有意バンド用の知覚情報は、デコーダで容易に再生成できるからである。

デジタル信号の知覚情報の一部である、エラー信号のビットプレーン符号化用の複数のビットプレーンにおける第１（又は最大）ビットプレーンＭ（ｓ）の指標は、デジタル信号／変換信号を量子化するために用いる最大量子化間隔から決定することができる。有意バンドに対しては、最大量子化間隔（量子化信号の各量子化値に対応する高い量子化閾値と低い量子化閾値との差異）が決定され、これに応じて、（Ｍ（ｓ）により特定される）第１ビットプレーンが決定される。このような最大量子化間隔も、デコーダ側で決定できる。故に、（Ｍ（ｓ）により特定される）第１ビットプレーンは、この場合、スケーラブルビットストリームの一部として（有意バンドに対して）伝送される必要はない。

デジタル信号をスケーラブルビットストリームにエンコードする方法について説明したが、本発明は、上述のようなこの方法を逆にすることで、スケーラブルビットストリームをデジタル信号にデコードする方法も含むことは理解されるであろう。

本発明の一の実施形態では、スケーラブルビットストリームをデジタル信号にデコードするデコード方法であって、スケーラブルビットストリームをコア層ビットストリーム及び上位層ビットストリームに逆多重化する逆多重化工程と、コア層ビットストリームをデコード及び逆量子化して、コア層信号を生成するデコード逆量子化工程と、前記デジタル信号の知覚情報に基づいて上位層ビットストリームをビットプレーン復号化するビットプレーン復号化工程と、ビットプレーン復号化された上位層ビットストリームと逆量子化されたコア層信号に基づきエラーマッピングを行い、再構成された変換信号を生じるエラーマッピング工程とを備え、再構成された変換信号はデジタル信号であることを特徴とするデコード方法を提供する。スケーラブルビットストリームをデコードする方法は、上述のようなデジタル信号をスケーラブルビットストリームにエンコードする方法と組み合わせるだけでなく別々に用いてよいことに留意すべきである。

デジタル信号が再構成された変換信号とは異なるドメインにある場合、再構成された変換信号を変換して、デジタル信号を生成してよい。

スケーラブルビットストリームをデコードすることによるデジタル信号の実際の生成は、スケーラブルビットストリームがエンコーダによりどのようにエンコードされたかに依存する。一例として、ｉｎｔＭＤＣＴを用いて、再構成された変換信号が変換され、デジタル信号が生成されてよい。ＭＰＥＧＡＡＣ仕様に従って、コア層ビットストリームがデコード及び逆量子化されてよい。変換信号及びビットプレーン復号化された上位層ビットストリームを逆量子化するために用いられるより低い量子化閾値を加えてエラーマッピングが行われ、再構成された変換信号が生成される。デコーダの利点及びその他の実施は、既に説明したエンコーダと同様である。

知覚情報がサイド情報としてスケーラブルビットストリームに多重化されている場合、デジタル信号の知覚情報は、スケーラブルビットストリームの逆多重化により取得されてもよい。或いは、コア層ビットストリームが知覚的にエンコードされる場合、コア層ビットストリームをデコード及び逆量子化することで取得される知覚情報は、上位層ビットストリームのビットプレーン復号化に用いられてもよい。

本発明の一の実施形態では、上位層ビットストリームを連続的にビットプレーン復号化して、複数のビットプレーン記号からなる複数のビットプレーンが生成され、ビットプレーンは、デジタル信号の知覚情報に基づきシフトされて、ビットプレーン復号化上位層ビットストリームが生成される。

本発明の他の実施形態では、上位層ビットストリームを、デジタル信号の知覚情報に基づく順にビットプレーン復号化して、複数のビットプレーン記号からなる複数のビットプレーンを生成し、これによりビットプレーン復号化された上位層ビットストリームが生成される。

デジタル信号の知覚情報は、（１）上位層ビットストリームのビットプレーン復号化が開始される際の上位層ビットストリームに対応するビットプレーンＭ（ｓ）と、（２）デジタル信号の丁度可知歪み（ＪＮＤ：ＪｕｓｔＮｏｔｉｃｅａｂｌｅＤｉｓｔｏｒｔｉｏｎ）レベルとのうちの少なくとも一方である。ｓはデジタル信号の周波数バンドに相当する。

上位層ビットストリームのビットプレーン復号化が開始される際の前記上位層ビットストリームに対応する前記ビットプレーンM(s)を、前記コア層ビットストリームを反量子化するために用いる最大量子化間隔から決定する。

本発明の第２の態様は、スケーラブルビットストリームをデジタル信号にデコーダする方法に関するだけでなく、コンピュータプログラム、コンピュータ読取可能媒体、及び該方法を実施する装置を含むものである。

本発明の各種実施例及び実施について、図面を参照して詳細に説明する。

図１は、本発明の実施例に係るエンコーダ１００を示す。

エンコーダ１００は、スケーラブルビットストリームを生成する働きをし、二つの異なる層、即ち、コア層ビットストリームを生成するコア層と、上位層ビットストリームを生成するロスレス上位（ＬＬＥ：Lossless Enhancement)層とからなる。

エンコーダは、ドメイン変換器１０１、量子化器１０２、エラーマッピングユニット１０３、知覚ビットプレーンコーダ１０４及びマルチプレクサ１０５を備える。

エンコーダ１００では、まず、ドメイン変換器１０１により、デジタル信号が周波数ドメイン等のような適切なドメインに変換される。その結果、変換信号が生成される。変換信号係数は、量子化器１０２により量子化され、そして符号化されて、コア層ビットストリームが生成される。ＬＬＥ層に対応するエラーマッピングユニット１０３によりエラーマッピングが行われ、変換信号係数から、コア層ビットストリームを形成するためにコア層において使用又は符号化された情報が除去される。その結果生じる残留成分又はエラー信号、特にエラー係数は、知覚ビットプレーンコーダ１０４によりビットプレーン符号化され、エンベデッドＬＬＥビットストリームが生成される。このエンベデッドビットストリームは、エンコーダ１００若しくは対応するデコーダ（図２に示し、且つ以下に記載するデコーダ２００）又は通信チャンネルにおいて、要求される或いはレート／フィデリティに適合ように、低ビットレートに更に切り捨てられる。知覚モデル１０６は、エラー係数のビットプレーン符号化を制御するために用いられる。従って、知覚的により有意なエラー係数のビットが先ず符号化される。

最後に、取得されたＬＬＥ層ビットストリームは、マルチプレクサ１０５によりコア層ビットストリームと多重化され、スケーラブルビットストリームが生成される。加えて、エラー係数のビットプレーン符号化を制御するための知覚情報も、対応するビットプレーンデコーダがエラー係数を正しい順序で再構成できるように、サイド情報として伝送されてもよい。

ＬＬＥビットストリームを低レートに切り捨てる場合、デコード信号は元の入力信号のロッシーバージョンであろう。

図２は本発明の実施例に係るデコーダ２００を示す。

デコーダ２００は、エンコーダ１００により生成されたスケーラブルビットストリームをデコードし、エンコーダ１００によりエンコードされたデジタル信号を再構成する。

デコーダ２００は、ドメイン変換器２０１、逆量子化器２０２、エラーマッピングユニット２０３、知覚ビットプレーンデコーダ２０４、及びデマルチプレクサ２０５を備える。

デマルチプレクサ２０５は、入力としてスケーラブルビットストリームを受け取り、このスケーラブルビットストリームを、エンコーダ１００により生成されるようなコア層ビットストリームと上位層ビットストリームとに分離する。コア層ビットストリームは、逆量子化器２０２によりデコード及び逆量子化され、コア層信号を生成する。上位層ビットストリームは、知覚ビットプレーンデコーダ２０４により、知覚モデル２０６により与えられる知覚情報に基づいて知覚的にビットプレーン復号化される。続いて、エラーマッピングユニット２０３によりコア層信号を用いてエラーマッピングが行われ、上位層信号が生成される。最後に、上位層信号は、ドメイン変換器２０１によりデジタル信号のドメインに変換され、再構成されたデジタル信号である上位層変換信号が取得される。

エンコーダ１００及びデコーダ２００により実施される処理を、次に詳細に説明する。

入力信号は、通常、コア層ビットストリームを形成するために量子化器１０２（コア層エンコーダの一部）により量子化される前に、ドメイン変換器１０１により周波数ドメインに変換される。離散コサイン変換（ＤＣＴ）、修正離散コサイン変換（ＭＤＣＴ）、整数型ＭＤＣＴ（ＩｎｔＭＤＣＴ）又は高速フーリエ変換（ＦＦＴ）等の各種の変換関数を用いて、入力信号を周波数ドメインに変換してよい。

ＭＰＥＧ−４ＡＡＣエンコーダをコア層エンコーダ（音声信号用）として用いる場合には、後述の文献１に記載のように、入力音声信号を周波数ドメインに変換するためにＭＤＣＴが通常用いられる。後述の文献１３では、ＭＰＥＧ−４ＡＡＣエンコーダと共に用いられる変形離散コサイン変換（ＭＤＣＴ）フィルタバンクに対して、整数型ＭＤＣＴ（ＩｎｔＭＤＣＴ）が復帰可能な近似法として提案された。ＩｎｔＭＤＣＴを実施するために一般的に用いられる方法は、ＭＤＣＴフィルタバンクを、次の数１に示されるギブンス回転に因数分解することである。

これは更に、数２に示すように３つのステップに因数分解される。

各ステップは、最も近い整数に丸める処理ｒ：Ｒ→Ｚを行いつつ、整数マッピングに対する復帰可能な整数により近似できる。例えば、最後のステップは数３により近似される。

数３は、数４により可逆的に回復される。

よって、上述のような復帰可能な整数を用いてすべてのギブンス回転を実施することにより、ＩｎｔＭＤＣＴが取得される。

デコーダでは、ドメイン変換器２０１によりｉｎｔＭＤＣＴが再び用いられて、上位層信号が（再構成された）デジタル信号に変換される。

コア層では、変換信号係数ｃ（ｋ）（但し、ｋ＝１，．．．，１０２４は、コア層ビットストリームのフレーム長である）が、量子化器１０２により量子化され、コア層ビットストリームに符号化される。入力音声信号の内容については、ＭＰＥＧ−４ＡＣＣコーダ、ＭＰＥＧ−１レイヤ３オーディオ（ＭＰ３）コーダ又は任意の専有音声コーダの量子化値に従って、変換信号係数を量子化してよい。

ＭＰＥＧ−４ＡＣＣコーダをＩｎｔＭＤＣＴとともに用いる際には、まず、変換信号係数（ＩｎｔＭＤＣＴ係数としても知られる）ｃ（ｋ）が、数５のように正規化され、正規化された出力をＭＤＣＴフィルタバンクの出力に近似させる。次に、正規化されたＩｎｔＭＤＣＴ係数ｃ’（ｋ）は、例えば数６で示されるＡＡＣ量子化器（後述の文献１９参照）に従って、量子化及び符号化される。

ここで、数７の記号は、浮動型オペランドを整数に切り捨てるフロアリング処理を意味する。

ｉ（ｋ）はＡＡＣ量子化係数である。ｓｃａｌｅ＿ｆａｃｔｏｒ（ｓ）は、係数ｃ（ｋ）が属するスケールファクタバンドｓのスケールファクタである。スケールファクタは、人間の聴覚系のマスキング閾値で量子化ノイズが最もマスクされるように、ノイズシェイピング法によって順応的に調整できる。このノイズシェイピング法に広く採用される手法は、後述の文献１に詳細に記載されるような、ネスト量子化−コーディングループである。

量子化係数ｉ（ｋ）は、例えば後述の文献１７に記載されているようなハフマン符号又はＢＳＡＣ（Ｂｉｔ−ＳｌｉｃｅｄＡｒｉｔｈｍｅｔｉｃＣｏｄｅ）を用いて、ノイズを出さずに符号化される（この実施例においては、量子化器１０２により符号化される）。ＢＳＡＣは、ビットレートスケーラビリティがコア層ビットストリームにおいて必要とされる場合に好ましい。スケールファクタは、例えば、後述の文献１に記載のＤＰＣＭエンコード処理により又はハフマン符号を用いて、別個にエンコードされる。そして、ＡＡＣビットストリームのシンタックに従い、符号化情報のすべてを多重化することにより、スコア層ビットストリームを生成することができる。

ＭＰＥＧＡＡＣに関するより総合的な説明は、後述の文献１又は１９中のＭＰＥＧＡＡＣに関する国際標準書類に記載されている。

ＭＰＥＧ−４ＡＡＣに準拠したビットストリームの埋め込み（エンベデッド）機構を説明したが、後述の文献２０に記載されているＭＰＥＧ１／２レイヤＩ、ＩＩ、ＩＩＩ（ＭＰ３）、ドルビーＡＣ３又はソニーのＡＴＲＡＣに専有のエンコーダ等の、その他のコーダに準拠するビットストリームを用いることもできることに留意すべきである。

量子化器１０２がＭＰＥＧＡＡＣコーダに従って作用する場合、逆量子化器２０２は、コア層ビットストリームをデコードし逆量子化するデコーダ２００内のＭＰＥＧＡＡＣデコーダに準じて作用することが好ましい。詳細には、上位層信号を生成するデコーダ２００のエラーマッピングユニット２０３により行われるエラーマッピングに用いられるコア層信号が、逆量子化器２０２を用いて生成される。

しかしながら、ＭＰ３又はその他の専有デコーダ等のその他の仕様に準じた逆量子化器をデコーダ２００において用いてよいことに留意すべきである。

ＬＬＥ層では、コア層ビットストリームへと既に符号化された情報を除去するために、エラーマッピング処理が行われる。このようなエラーマッピング処理を行うために考えられる手法は、各量子化係数のより低い（ゼロに近い）量子化閾値を、対応する変換入力信号の係数から差し引くことである。

これは、次式で例示できる。

ｅ（ｋ）＝ｃ（ｋ）−ｔｈｒ（ｋ）
但し、ｔｈｒ（ｋ）は、ｃ（ｋ）に対するより低い（ゼロに近い）量子化閾値であり、ｅ（ｋ）は、エラー信号を表すエラー係数である。

ＭＰＥＧ−４ＡＡＣコーダを量子化器として用いる場合、数８となる。

実際の用途では、ロバスト再構成を確保するために、整数ｉ（ｋ）から整数ｔｈｒ（ｋ）までのマッピングが、照合表を用いて行われてよい。上記の数式から明らかなように、合計４つの表が、スケールファクタの異なる値に必要である（ビットシフトにより係Ｍｏｄｕｌｕｓ４を有する場合、異なる値のスケールファクタ間で同じ表を共有することが可能である）。ここで、各表は、Ｍｏｄｕｌｕｓ４を有する一連のスケールファクタのうちの任意のスケールファクタに対して、ｉ（ｋ）のあらゆる値と、これに対応するｔｈｒ（ｋ）との間のマッピングを含む。

後述の文献３に記載の変換信号係数から変換入力信号係数の再構成係数を差し引くことでエラーマッピング処理を行うこともできる。これは数９で例示できる。

但し、数１０の記号は、再構成された変換信号係数である。

一般に、次式に基づくエラーマッピング処理を行うこともできる。

ｅ（ｋ）＝ｃ（ｋ）−ｆ（ｋ）
但し、ｆ（ｋ）は、次式のようなｃ（ｋ）に対応する任意の関数である。

ｆ（ｋ）＝１／２（ｔｈｒ（ｋ＋１）−ｔｈｒ（ｋ））
明らかに、コア層において既に有効であるｃ（ｋ）に対して（ｔｈｒ（ｋ）≠０）、ＩｎｔＭＤＣＴ残留成分ｅ（ｋ）の符号をコア層再構成から決定できる。故に、その振幅のみがＬＬＥ層で符号化される必要がある。加えて、大抵の音声信号に対して、数１１の確率密度関数（ｐｄｆ：ＰｒｏｂａｂｉｌｉｔｙＤｅｎｓｉｔｙＦｕｎｃｔｉｏｎ）を有するラプラスランダム変数によりｃ（ｋ）を近似できることは、よく知られている。

但し、σはｃ（ｋ）の分散値である。ラプラス確率密度関数の「無記憶」性から、ｅ（ｋ）の振幅が数１２のように幾何学的に分散していることを容易に検証できる。

但し、分散パラメータθ（ｋ）は、ｃ（ｋ）の分散値及びコア層量子化器のステップサイズにより決定される。この性質により、エラー信号をエンコードするためのビットプレーンゴロム符号（ＢＰＧＣ）０等の、非常に効率的なビットプレーン符号化スキームを利用することができる。

デコーダ２００では、次式に従ってエラーマッピングユニット２０３により行われるエラーマッピング処理により、変換信号の係数を再構成してよい。

ｃ（ｋ）＝ｅ’（ｋ）＋ｔｈｒ（ｋ）
但し、ｅ’（ｋ）は、エンコーダ１００のエラー係数ｅ（ｋ）に対応するビットプレーン復号化された上位層ビットストリームを示す復号化エラー係数である。故に、復号化エラー係数ｅ’（ｋ）（ＬＬＥビットストリームを低レートに切り捨てる場合に可能性があるのは、ロッシーバージョン）と、エンベデッドコア層（ＡＡＣ）ビットストリームに含まれる量子化指標ｉ（ｋ）を有するエンコーダにおいて同様に生成された量子化閾値ｔｈｒ（ｋ）とから、変換信号係数ｃ（ｋ）を再生成可能であることがわかる。

エンコーダ１００と同様に、デコーダ２００の変換信号係数ｃ（ｋ）を、復号化エラー係数ｅ’（ｋ）とコア層ビットストリームの再構成係数とを用いて（加えて）、生成してもよい。また、変換信号係数ｃ（ｋ）は、復号化エラー係数ｅ’（ｋ）とｃ（ｋ）の関数とを用いて（加えて）生成してよい。

最終エンベデッドロスレスビットストリームのロスレス部分についてスケーラブル化するために、ＬＬＥ層において、ビットプレーン符号化、即ち、後述の文献３の音声符号化又は後述の文献５の画像符号化で広く採用されているエンベデッド符号化技術を用いる知覚ビットプレーンコーダ１０４により、残留成分又はエラー信号が更に符号化される。

一般的なビットプレーン符号化は、後述の文献４及び１５に説明されている。入力ｎ次元データベクトルｘ _ｎ＝{ｘ_１、．．．、ｘ_ｎ}を考える。但し、ｘ_ｉは、数１３にて示されるアルファベットのランダム源から抽出される。

明らかに、ｘ_ｉは、数１５に示す２値化された符号ｓ_ｉと振幅記号ｂ_ｉ，ｊ∈｛０，１｝とを含むバイナリビットプレーン記号により、数１４に示すようにバイナリ形式で表すことができる。

実際には、ベクトルｘ _ｎの最大ビットプレーンＭから、ビットプレーン符号化を開始することができる。ここで、Ｍは数１６を満たし、ｘ _ｎが整数ベクトルである場合にビットプレーン０で終了する整数である。

本発明の一の実施例に係る例であって、かつ知覚ビットプレーンコーダ１０４及び知覚ビットプレーンデコーダ２０４により行われる例として、ビットプレーン符号化及び復号化工程を、図３を参照して次に説明する。

図３は、上述のビットプレーン符号化工程（ＢＰＣ：ＢｉｔＰｌａｎｅＣｏｄｉｎｇ）を示す。ここで、各入力ベクトルは、先ず、２値化された符号及び振幅記号に分解され、次にこれらが、ビットプレーンスキャンユニット３０１により所望の順序でスキャンされ、エントロピーコーダ３０２（例えば、算術符号、ハフマン符号又はランレングス符号として）により符号化される。加えて、例えば入力信号のラプラス分布に基づく統計モデル３０３を通常用いて、符号化すべき２値化された記号の夫々毎に確率割当が決定される。対応するデコーダでは、データの欠陥が逆転される。即ち、エントロピーエンコーダ３０２の出力が、対応する統計モデル３０４を用いるエントロピーデコーダ３０３でデコードされ、その結果は、ビットプレーン再構成ユニット３０４によりビットプレーンとして再構成される。ここで、データベクトルのビットプレーンを再構成するためにデコードされる符号及び振幅記号は、エンコーダにおけるスキャン順序に従っている。

上述のようなビットプレーン符号化システムを有することの最も意義のある利点は、得られる圧縮ビットストリームを任意の所望レートに容易に切り捨てることができることである。ここで、数１７にて示されるデータベクトルを、この切り捨てられたビットストリームからデコードされた部分的再構成ビットプレーンより得ることもできる。最良の符号化性能を発揮するために、エンベデッド原理（後述の文献２４を参照）がＢＰＣに通常採用される。これに従って、ビットプレーン記号は、単位レートあたりの最終歪みに対して最も多大な影響を与える記号が常に最初に符号化されるように、レート歪みの傾きが減少する順序で符号化される。

ビットプレーンスキャン順序の選択は、所望の歪み測定に依存する。平均二乗誤差（ＭＳＥ）又は平方誤差関数の期待値が、数１８に示すような歪み測定として用いられる。

但し、数１９の記号は歪み値であり、ｘ_ｎは元のデータベクトルであり、数２０の記号は、デコーダにおけるｘ_ｎの再構成ベクトルである。

後述の文献２４から得られる結果は、非常に歪んだビットプレーン記号の分布をもつソース以外のほとんどのソースに対する逐次ビットプレーンスキャン及び符号化処理により、エンベデッド原理が満たされることを示している。

簡単な逐次ビットプレーンスキャン及び符号化方式の例は、次のステップを含む。
１．最有意ビットプレーンｊ＝Ｍ−１から開始する。
２．ｂ_{ｉ，Ｍ−１}＝ｂ_{ｉ，Ｍ−２}＝．．．＝ｂ_{ｉ，ｊ＋１}＝０であるｂ_ｉ，ｊのみをエンコードする。有意スキャンにおいてｂ_ｉ，ｊ＝１の場合、ｓ_ｉをエンコードする（ｓｉｇｎｉｆｉｃａｎｃｅｐｒｏｐａｇａｔｉｏｎパス）
３．ｓｉｇｎｉｆｉｃａｎｃｅｐｒｏｐａｇａｔｉｏｎパスにおいてエンコードされないｂ_ｉ，ｊをエンコードする（Ｒｅｎｉｎｅｍｅｎｔパス）。
４．ビットプレーンｊ−１まで進む。

表１．ビットプレーンスキャン及び符号化方式
上記処理は、通常予め規定されたレート／歪み制限である、特定の停止基準に至るまで繰り返される。加えて、ビットプレーン記号に均一でない分布が見つかった場合には、ｓｉｇｎｉｆｉｃａｎｃｅｐｒｏｐａｇａｔｉｏｎパスにおける符号化順の更なる調整が必要とされ得る。

上記逐次符号化処理の一例を、４次元の、例えば｛９，−７，１４，２｝を有するデータベクトルｘを考慮して示す。よって、その最有意ビットプレーン４からビットプレーン符号化される。すべての要素がまだ有意ではないので、ｓｉｇｎｉｆｉｃａｎｃｅｐｒｏｐａｇａｔｉｏｎパスから開始される。（Ｘは、バイパス記号を意味する）。符号は、次のように符号化される。即ち、正を１として符号化し、負を０として符号化する。

従って、出力バイナリストリームは、１１０１１０１０００１００１１１１１１０である。次に、これがエントロピー符号化され、デコーダに伝送される。デコーダでは、元のデータベクトルのビットプレーン構造が再構成される。全バイナリストリームがデコーダで受信される場合、元のデータベクトルのビットプレーンは復帰可能であり、よって、元のデータベクトルをロスレスに再構成することができる。バイナリストリームのサブセット（最有意部分）のみが受信される場合も、デコーダは、元のデータベクトルの一部のビットプレーンについて復帰することができる。従って、元のデータベクトルの再構成（量子化）バージョンは粗くなる。

以上は、ビットプレーンスキャン符号化処理のほんの簡単な例である。実際には、ｓｉｇｎｉｆｉｃａｎｃｅｐｒｏｐａｇａｔｉｏｎパスを更に細分して、ＪＰＥＧ２０００におけるビットプレーン符号化工程等のデータベクトルにおける要素の統計的相関、又は後述の文献４に記載のエンベデッド音声符号器（ＥＡＣ：ＥｍｂｅｄｄｅｄＡｕｄｉｏＣｏｄｅｒ）における要素の統計的相関を検討することができる。

上記逐次ビットプレーンスキャン符号化方式は、ＭＳＥ性能を最適化する試みを与えるだけである。音声、画像又は映像符号化の領域では、ＭＳＥの代わりに知覚の歪みを最小にすることが、通常、再構成された音声、画像又は映像信号において最適な知覚品質を得るためのより効率的な符号化方法である。従って、エラー信号の逐次ビットプレーン符号化は、疑いなく、次善の選択肢である。

エンコーダ１００では、好ましくは、各周波数バンドｓが連続した多数のエラー係数を含むように、エラー係数は周波数バンドにグループ化される。（知覚コーダを量子化器１０２として用いる場合には、スケールファクタバンドグループ化は、量子化器１０２において採用されるバンドグループ化に基づいていてよい。しかしながら、その他のバンドグループ化も可能である。）
量子化器からの量子化係数ｔｈｒ（ｋ）がゼロではないような、周波数バンドsにエラー係数が存在する場合、周波数バンドｓは有意であるといえる。言い換えれば、ｅ（ｋ）が周波数バンドのエラー係数である場合、即ち、ｅ（ｋ）＝ｃ（ｋ）−ｔｈｒ（ｋ）の場合、周波数バンドｓは有意であり、ｔｈｒ（ｋ）≠０であり（ｉ（ｋ）＝０のときｔｈｒ（ｋ）＝０）、故にｅ（ｋ）＝ｃ（ｋ）である。そうでなければ、周波数バンドｓは非有意とみなされる。

エラー係数のビットにおける知覚有意性は、周波数位置ｉにおける丁度可知歪み（ＪＮＤ：Just Noticeable Distortion）のレベルにより決定できる。このＪＮＤのレベルＴ_ｉは、心理音響モデル（Ｉ又はＩＩ）又は任意の専有知覚モデル等の、知覚モデルから決定できる。コア層ビットストリームの形成に知覚量子化器を用いる場合、量子化器で用いられる知覚モデルを用いて、エラー係数の知覚ビットプレーン符号化のためのＪＮＤを生成してよい。

簡単にするために、同じ周波数バンドｓでのエラー係数のビットにおける知覚有意性を、同じ値に設定できる。

次に、知覚ビットプレーン符号化において考えられる実施態様を、図４を参照して説明する。

図４は、本発明の実施例に係るエンコーダ４００を示す。

エンコーダ１００と同じように、エンコーダ４００は、ドメイン変換器４０１、量子化器４０２、エラーマッピングユニット４０３、知覚ビットプレーンコーダ４０４（知覚モデル４０６を使用）、及びマルチプレクサ４０５を備える。

知覚ＢＰＣブロック、即ち、知覚ビットプレーンコーダ４０４は、ビットプレーンシフティングブロック４０７と従来型ＢＰＣブロック４０８とを備える。

ビットプレーンシフティングブロック４０７では、ビットプレーンが知覚的に移動され、この知覚的に移動されたビットプレーンが、ＢＰＣブロック４０８において、従来の逐次スキャン及び符号化方法で符号化される。

次の数２１に示すような（修正された）知覚的に重み付けされた歪み測定を考慮する。

知覚音声符号化においては、通常、音声信号は、データベクトルｘ _ｎが変換音声信号であって、重み付け関数ｗ_ｉ（ｘ_ｉ）が異なる周波数位置ｉにおけるｘ_ｉの重要度である、即ち、ｗ_ｉ（ｘ_ｉ）＝１／Ｔ_ｉであるように、周波数ドメインで量子化されて符号化される。

上記知覚的に重み付けされた歪み関数は、数２２のように書き直されてよい。

但し、ｘ’_ｉは数２３により示される。

故に、重み付け平方誤差関数は、拡張ベクトルｘ’_ｎ＝{ｘ’_１，．．．，ｘ’_ｎ}に関する平方誤差関数となる。従って、単純にｘ’_ｎの逐次ビットプレーン符号化を行うことにより、ｘ_ｎの知覚的に最適化された符号化を達成することができる。対応するデコーダでは、数２４の記号により示されるビットプレーン復号化データベクトルの各要素を、数２５の記号により示される再構成データベクトルを得るために、数２６に示すように拡張しなおすことができる。

明らかに、重みＴ_ｉがデコーダで知られていない場合は、サイド情報としてデコーダへ伝送することが好ましい。

ｗ_ｉを更に量子化し、数２７となるように、２の偶数べき乗とする。

但し、τ_ｉ=１／２（ｌｏｇ_２Ｔ_ｉ）であり、よって、拡張データベクトルは、元のデータベクトルにおける各要素を数２８のようにビットシフティングすることにより得ることができる。

これは、τ_ｉによりｘ_ｉについて右寄せ動作（right shifting operation）を行うことにより容易に得られる。例えば、ｘ_ｉが０００１００１１であり、τ_ｉが−２の場合、拡張データベクトル要素ｘ’_ｉは０１００１１００である。τ_ｉが２の場合、０００００１００．１１である。

このように、エラー係数のビットプレーンは、逐次ビットプレーン符号化がシフトビットプレーンについて行われる際に、（最も高いＭＳＥを有する代わりに）より知覚的に有意なビットが先ずエンコードされるような方法で、知覚的にシフトされる。

明らかに、元のデータベクトルの各要素が有限長を有する整数の場合に、例えば、ｘの各要素が最大ビットプレーンＬを有する場合に、スケーラブル化されるベクトルにおけるすべてのｘ’_ｉがビットプレーン−τ_ｉからＬ−τ_ｉまでビットプレーン符号化されるならば、ｘのロスレス符号化を達成することができる。

前述のように、ＪＮＤレベル等の知覚有意性に関する情報が、知覚モデルからビットプレーンシフティングブロックへ提供されうる。

ビットプレーン符号化工程では、最大ビットプレーンＭ（ｓ）を用いて、ビットプレーンスキャン及び符号化を開始すべき開始ビットプレーンを特定することができる。最大ビットプレーンＭ（ｓ）及びτ_ｉは、デコーダがビットストリームを正確にデコードすることができるように、スケーラブルビットストリームにおけるサイド情報として、対応するデコーダに伝送されることが好ましい。サイド情報量を減らすために、Ｍ（ｓ）及びτ_iを、エンコーダの同じスケールファクタバンドｓに対して同じ値に制限してよい。

各周波数バンドｓにおける最大ビットプレーンＭ（ｓ）の値は、数２９を用いてエラー係数ｅ（ｋ）から決定できる。

更に、各有意周波数バンドｓにおけるエラー係数の最大絶対値max(|e(k)|)は、数３０に示すように、知覚量子化器の量子化間隔(quantizer interval)によって境界される。

従って、これにより、数３１で決定されるべき各有意周波数バンドｓに対する最大ビットプレーンＭ（ｓ）が得られる。

知覚量子化器ｉ（ｋ）の量子化係数はデコーダに知られているので、有意周波数バンドsに対する最大ビットプレーンＭ（ｓ）の値を、デコーダにサイド情報として伝送する必要はない。

最大ビットプレーンＭ（ｓ）の値も、エンコーダ及びデコーダにおいて予め規定してよい。故に、サイド情報として伝送する必要はない。

図５は、本発明の実施例に係るデコーダ５００を示す。

デコーダ５００は、ビットプレーンシフティングと従来型（逐次）ビットプレーン符号化を含む知覚ビットプレーンデコーダを備える。

デコーダ２００と同様に、デコーダ５００は、ドメイン変換器５０１、逆量子化器５０２、エラーマッピングユニット５０３、知覚ビットプレーンデコーダ５０４（知覚モデル５０６を使用）、及びデマルチプレクサ５０５を備える。

知覚ビットプレーン符号器４０４と同様に、知覚ビットプレーンデコーダ５０４は、ビットプレーンシフティングブロック５０７と従来型ＢＰＣブロック５０８とを備える。

エンコーダ４００により生成された上位層ビットストリームは、連続的逐次方法（エンコーダ４００と同じ逐次ビットプレーンスキャン方式）で、デコーダ５００によりビットプレーン符号化され、ビットプレーンが再構成される。再構成されたビットプレーンは、受信した又は再生成された値τ_ｉに基づいて、エンコーダ４００とは逆の方法でシフトされ、ビットプレーン復号化上位層ビットストリームを示す復号化エラー係数ｅ’（ｋ）が生成される。

図６は、本発明の実施例に係るエンコーダ６００を示す。

エンコーダ６００は、知覚ビットプレーン符号化を用いる。

エンコーダ６００は、ドメイン変換器（ｉｎｔＭＤＣＴ）６０１、量子化器（ＡＣＣ量子化符号化器）６０２、エラーマッピングユニット６０３、知覚有意性算出ユニット６０４（心理音響モデル６０５を使用）、知覚ビットプレーン符号化ユニット６０６、及びマルチプレクサ６０７を備える。

この実施において、ビットプレーン及びビットプレーン記号のスキャン順序は、連続している必要はないが、異なる周波数バンドに対応するビットプレーン記号における知覚の重要性に基づくものである。ビットプレーン記号における知覚の重要性は、知覚有意性及びビットプレーン復号化に対する第１（最大）ビットプレーン等の、知覚情報に関連するパラメータを算出することにより決定される。知覚情報パラメータの算出は、知覚有意性算出ブロック、即ち、知覚的ビットプレーン符号化ユニット６０４として表される。

異なる周波数バンドに対応するビットプレーン記号の知覚の重要性又は特に知覚有意性を決定する方法は多数ある。広く採用されている一の方法は、入力デジタル信号における心理音響モデル、例えば後述の文献１９に記載の心理音響モデル２等を用いることである。心理音響モデルを用いて決定される各周波数バンドに対する丁度可知歪み（ＪＮＤ）レベルＴ（ｓ）は、τ（ｓ）＝１／２（ｌｏｇ_２（Ｔ（ｓ））のようにビットプレーンレベルτ（ｓ）の単位に変換できる。

しかしながら、本発明は、Ｔ（ｓ）又はτ（ｓ）をどのように得ることができるかに関する方法を制約するものではない。

ここで、Ｐｓ（ｓ）が周波数バンドｓの知覚有意性を表すとする。これは、Ｐｓ（ｓ）＝Ｍ（ｓ）−τ（ｓ）のようにＭ（ｓ）からτ（ｓ）までの距離から決定することができる。

更に、ノイズレベル又はＩｎｔＭＤＣＴエラー係数ｅ（ｋ）のレベルは、（コアコーダにおけるノイズシェイピング機構の結果）有意バンドに対するＪＮＤレベルに対して変化が少ない傾向にあることに留意することができる。言い換えれば、Ｐｓ（ｓ）の値は、もし同一でなければ、有意周波数バンドに対して非常に近いものであろう。この事実は、共通ファクタＰｓ＿ｃｏｍｍｏｎをすべての周波数バンドで共有することにより、本発明に係る方法において検討することができる。Ｐｓ＿ｃｏｍｍｏｎの選択として、有意なすべてのｓに対する平均値、最大値、最小値又はその他のＰｓ（ｓ）の妥当な関数が考えられる。よって、Ｐｓ（ｓ）を、Ｐｓ’（ｓ）＝Ｐｓ（ｓ）−Ｐｓ＿ｃｏｍｍｏｎのように正規化できる。

有意バンドｓに対するＰｓ’（ｓ）はゼロであることが知られているので、デコーダに伝送される必要はない。そうでなければ、非有意バンドｓに対するＰｓ’（ｓ）は、対応するデコーダにサイド情報として伝送されることが好ましい。

その他の実施例においては、有意バンドがない場合、Ｐｓ＿ｃｏｍｍｏｎを０に設定できる。

知覚符号化に対する必要性に応えるために、コアエンコーダにおいてノイズシェイピング法を用いることもできる。よって、任意のノイズシェイピング又は上位層における知覚的有意識別を更に実施する必要はない。このような場合、Ｐｓ’（ｓ）＝０をすべてのｓに対して設定することができる。通常、これらがすべてゼロであることがデコーダに知られている場合には、デコーダに伝送する必要はない。

知覚ビットプレーン符号化機構において可能な実施を、次の擬似符号を用いて表すことができる。ここで、周波数バンドの総数は、ｓ＿ｔｏｔａｌとして示される。

１．最大Ｐｓ’（ｓ）を有する周波数バンドｓを見つける。

２．バンドｓにおいて、ｅ（ｋ）に対するビットプレーンＭ（ｓ）のビットプレーン記号をエンコードする。

３．Ｍ（ｓ）＝Ｍ（ｓ）−１、Ｐｓ’（ｓ）＝Ｐｓ’（ｓ）−１
４．数３２に対するバンドｓが存在する場合、上記１に進む。

最大ビットプレーンＭ（ｓ）を得る方法をここに示す。

ＡＡＣ量子化器等の知覚量子化器が用いられる場合、有意バンドに対するＭ（ｓ）は、最大量子化間隔から決定できる。詳細には、Ｍ（ｓ）は数３３を満足する整数である。

この場合、ｉ（ｋ）はデコーダに知られているので、Ｍ（ｓ）をデコーダに伝送する必要はない。

非有意バンドに対するＭ（ｓ）については、数３４のようにｅ（ｋ）から算出できる。

また、これらの周波数に対するＭ（ｓ）は、サイド情報としてデコーダに伝送されることが好ましく、このような情報はコア層ビットストリームに含まれない。

最大ビットプレーンＭ（ｓ）の値もまた、エンコーダ６００及び対応するデコーダにおいて予め規定されてよく、故に、サイド情報として伝送される必要はない。

ある所望のノイズシェイピング目標に対して、ビットプレーン符号化手法におけるＰｓ（ｓ）を検討するためのその他の代替手法も可能である。一般に、Ｐｓ（ｓ）は、Ｍ（ｓ）及びτ（ｓ）の任意の関数、例えばＰｓ（ｓ）＝Ｍ（ｓ）−２τ（ｓ）又はＰｓ（ｓ）＝（Ｍ（ｓ）−τ（ｓ））／２により得ることもできる。

図７は、本発明の実施例に係るデコーダ７００を示す。

デコーダ７００は、コーダ６００の対応するデコーダである。ここでは、上述のような知覚ビットプレーンスキャン方式を用いて、知覚ビットプレーン復号化が行われる。

従って、デコーダ７００は、ドメイン変換器（逆ｉｎｔＭＤＣＴ）７０１、逆量子化器（ＡＣＣ逆量子化デコーダ）７０２、エラーマッピングユニット７０３、知覚有効性算出ユニット７０４、知覚ビットプレーン復号化ユニット７０６及びデマルチプレクサ７０７を備える。

デコーダ７００では、有意バンドに対して、’Ｐｓ’（ｓ）をゼロに設定し、エンコーダと同じ方法で、ＡＡＣ量子化指標ｉ（ｋ）からＭ（ｓ）を算出できる。即ち、数３５に示すようにＭ（ｓ）を算出できる。

非有意バンドに対しては、伝送されたサイド情報から、Ｐｓ（ｓ）及びＭ（ｓ）を簡単に回復できる。一旦Ｐｓ（ｓ）及びＭ（ｓ）がすべての周波数バンドに対して回復されると、受け取られたビットストリームをデコードすることにより、数３６の記号により示されるＩｎｔＭＤＣＴエラー係数を容易に再構成でき、そのビットプレーン記号を、エンコーダ７００と全く同じ順序で再構成できる。

例えば、上述のエンコードの例をデコードする工程は、
１．最大’Ｐｓ’（ｓ）を有する周波数バンドｓを見つける。

２．バンドにおいて数３５の記号により示されるＩｎｔＭＤＣＴエラー係数に対するビットプレーンＭ（ｓ）のビットプレーン記号をデコードする。

３．Ｍ（ｓ）＝Ｍ（ｓ）−１、Ｐｓ’（ｓ）＝Ｐｓ’（ｓ）−１
４．数３７に対するバンドｓが存在する場合、上記１に進む。

エラー係数のビットプレーン符号化に対する最大ビットプレーンの決定
有意バンドs（即ち、数３８により示されるエラー係数）に対して、ｅ（ｋ）の最大絶対値は、数３９に示すようにＡＡＣ量子化器における量子化間隔により境界される。

即ち、

従って、最大ビットプレーンＭ（ｋ）は、数４０を用いて決定できる。

ｉ（ｋ）は既にデコーダに知られており、またデコーダはｔｈｒ（ｋ）を再生成できるので、Ｍ（ｋ）をデコーダに伝送する必要はなく、故に有意バンドｓに対するｉ（ｋ）からＭ（ｋ）が得られる。

非有意バンドに対しては、Ｍ（ｋ）をｅ（ｋ）から数４１のように算出できる。

また、算出されたＭ（ｓ）は、上位層ビットストリームとともに、正確にビットプレーン復号化すべき上位層ビットストリームに対するサイド情報として伝送されることが好ましい。

サイド情報量を減らすために、更にＭ（ｓ）は、コア層量子化器の同じスケールファクタバンドｓに対するｋに対して同じ値を有するように制限してよい。従って、Ｍ（ｋ）をＭ（ｓ）として示してもよい。

デコーダ７００では、エラー信号に対応するエラー係数を、Ｍ（ｓ）に基づくエンコーダと同じビットプレーンスキャン方式を用いた上位層ビットストリームのビットプレーン復号化により再構成できる。有意バンドに対して、Ｍ（ｓ）は、数４２を用いて再生成できる。

非有意バンドに対しては、デコーダは、エンコーダによりサイド情報として伝送されたＭ（ｓ）を用いる。

＜文献１＞ M. Bosi and et al, "ISO/IEC Mpeg-2 Advanced Audio Coding", J. Audio Eng. Soc., Vol. 45, No. 10, pp. 789-814, 1997 OCT.
＜文献２＞ Jr. Stuart and et. al., "MLP lossless compression, "AES 9th Regional Convention Tokyo.
＜文献３＞ R. Geiger, J. Herre, J. Koller, and K. Brandenburg, "INTMDCT - A link between perceptual and lossless audio coding," IEEE Proc. ICASSP 2002.
＜文献４＞ J. Li, "Embedded audio coding (EAC) with implicit auditory masking", ACM Multimedia 2002, Nice, France, Dec. 2002
＜文献５＞ T. Moriya, N. Iwakami, T. Mori, and A. Jin, "A design of lossy and lossless scalable audio coding," IEEE Proc. ICASSP 2000.
＜文献６＞ T. Moriya and et. al., "Lossless Scalable Audio Coder and Quality Enhancement, " Proceeding of ICASSP 2002.
＜文献７＞ M. Hans and R.W. Schafer, "Lossless Compression of Digital Audio," IEEE Signal processing magazine. Vol. 18, No. 4, pp. 21-32, 2001.
＜文献８＞ Lin Xial, Li Gang, Li Zhengguo, CHia Thien King, Yoh Ai Ling, "A Novel Prediction Scheme for Lossless Compression of Audio Waveform", Proc. IEEE ICME2001, Aug. Japan.
＜文献９＞ Shorten: http://www.softsound.com/Shorten.html
＜文献１０＞ WaveZip: http://www.gadgetlabs.com/wavezip.htmp
＜文献１１＞ LPAC: http;//www-ft.ee.tu-berlin.de/~liebchen/
＜文献１２＞ Wave Archiver: www.ecf.utoronto.ca/~denlee/wavarc.html
＜文献１３＞ R. Geiger, T. Sporer, J. Koller, and K. Brandenburg," Audio Coding based on Integer Transforms," 111th AES Convention, Sep. 2001.
＜文献１４＞ J. Johnston, "Estimation of Perceptual Entropy," Proc. ICASSP 1988.
＜文献１５＞ R. Yu, C. C. Ko, X. Lin and S. Rahardja, "Bit-plane Golomb code for sources with Laplacian distributions, " proceeding of ICASSP 2003.
＜文献１６＞ Monkey's Audio, http://www.monkeysaudio.com
＜文献１７＞ S. H. Park et al., "Multi-Layer Bit-Sliced Bit Rate Scalable MPEG-4 Audio Coder", presented at the 103th Convention of the AES, New York, Sep. 1997 (preprint 4520)
＜文献１８＞ Ralf Geiger and et. al., "FINE GRAIN SCALABLE PERCEPTUAL AND LOSSLESS AUDIO CODING BASED ON INTMDCT," Proceeding of IDASSP 2003.
＜文献１９＞ ISO/IEC 14496-3 Subpart 4, Information Technology - Coding of Audiovisual Objects, Part 3. Audio, Subpart 4 Time / Frequency Coding, ISO/JTC 1/SC 29/WG11, 1998
＜文献２０＞ T. Painter, A. Spanias, "Perceptual Coding of Digital Audio", IEEE Proceedings, vol. 88, no. 4, Apr 2000.
＜文献２１＞ ISO/IEC 11172-3, "CODING OF MOVING PICTURES AND ASSOCIATED AUDIO FOR DIGITAL STORAGE MEDIA AT UP TO ABOUT 1.5 MBIT/s, Part 3 AUDIO
＜文献２２＞ Westen, S. J. P., R. L. Lagendijk, and J. Biemond, "Optimization of JPEG color image coding using a human visual system model", SPIE conference on Human Vision and Electronic Imaging
＜文献２３＞ Westen, S. J. P., R. L. Lagendijk, and J. Biemond, "Spatio-Temporal Model of Human Vision For Digital Video Compression," SPIE Proceeding of Electronic Imaging 97.
＜文献２４＞ J. Li and S. Lie, "An embedded still image coder with rate-distortion optimization," IEEE Trans. On Image Processing, vol. 8, no. 7, pp. 913-924, July 1999

本発明の実施例に係るエンコーダを示す図である。本発明の実施例に係るデコーダを示す図である。ビットプレーン符号化工程の構造を例示する図である。本発明の実施例に係るエンコーダを示す図である。本発明の実施例に係るデコーダを示す図である。本発明の実施例に係るエンコーダを示す図である。本発明の実施例に係るデコーダを示す図である。

Claims

デジタル信号をスケーラブルビットストリームにエンコードするエンコード方法であって、
前記デジタル信号を量子化し、量子化された信号をエンコードしてコア層ビットストリームを形成する量子化工程と、
前記デジタル信号及び前記コア層ビットストリームに基づきエラーマッピングを行い、前記コア層ビットストリームにエンコードされた情報を除去して、エラー信号を生じるエラーマッピング工程と、
知覚モデルを用いて決定される前記デジタル信号の知覚情報に基づき前記エラー信号をビットプレーン符号化し、上位層ビットストリームを生じるビットプレーン符号化工程と、
前記コア層ビットストリーム及び前記上位層ビットストリームを多重化し、前記スケーラブルビットストリームを生成する多重化工程と
を備えることを特徴とするエンコード方法。
前記デジタル信号を適切なドメインに変換する変換工程を更に備えており、
前記変換信号は、前記量子化された信号をエンコードする前に、前記量子化された信号を生成するために量子化されることを特徴とする請求項１に記載のエンコード方法。
前記デジタル信号の知覚情報を、前記コア層ビットストリーム及び前記上位層ビットストリームとともに更に多重化して、前記スケーラブルビットストリームを生成することを特徴とする請求項１又は２に記載のエンコード方法。
前記デジタル信号を、整数型修正離散コサイン変換を用いて変換デジタル信号に変換することを特徴とする請求項２に記載のエンコード方法。
前記変換信号を正規化してＭＤＣＴフィルタバンクの出力を近似することを特徴とする請求項４に記載のエンコード方法。
ＭＰＥＧＡＡＣ（ＭｏｖｉｎｇＰｉｃｔｕｒｅｓＥｘｐｅｒｔＧｒｏｕｐＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ）仕様に従って、前記デジタル信号又は前記変換デジタル信号を量子化及びエンコードすることを特徴とする請求項１から５のいずれか一項に記載のエンコード方法。
前記エラーマッピングは、前記量子化された信号の各量子化値に対応するより低い量子化閾値を前記デジタル信号又は前記変換デジタル信号から差し引くことにより行われ、これにより前記エラー信号を生成することを特徴とする請求項１から６のいずれか一項に記載のエンコード方法。
前記デジタル信号の知覚情報を決定する前記知覚モデルとして、心理音響モデルを用いることを特徴とする請求項１から７のいずれか一項に記載のエンコード方法。
前記エラー信号は複数のビットプレーン記号を含むビットプレーンで表され、前記エラー信号のビットプレーン符号化中に連続的に前記ビットプレーンがスキャン及び符号化される際、より知覚的に重要なビットプレーンが初めに符号化されるように、前記ビットプレーンが前記デジタル信号の知覚情報に基づきシフトされることを特徴とする請求項１から８のいずれか一項に記載のエンコード方法。
前記エラー信号は複数のビットプレーン記号を含むビットプレーンで表され、前記ビットプレーン及び前記ビットプレーン記号は、より知覚的に重要な前記ビットプレーンのビットプレーン記号が先ず符号化されるように、前記エラー信号のビットプレーン符号化中に、前記デジタル信号の知覚情報に基づく順にスキャン及び符号化されることを特徴とする請求項１から８のいずれか一項に記載のエンコード方法。
前記エラー信号のビットプレーン符号化が開始される前記エラー信号のビットプレーンＭ（ｓ）と、前記デジタル信号の丁度可知歪み（ＪＮＤ：ＪｕｓｔＮｏｔｉｃｅａｂｌｅＤｉｓｔｏｒｔｉｏｎ）レベルとの情報のうち少なくとも一方は、前記知覚モデルにより前記デジタル信号の知覚情報として決定され、
ｓは前記デジタル信号又は前記変換デジタル信号の周波数バンドに相当することを特徴とする請求項９又は１０に記載のエンコード方法。
前記デジタル信号の知覚有意性Ｐｓ（ｓ）は、前記知覚情報として更に決定され、
前記知覚有意性は、
前記デジタル信号のＪＮＤレベルτ（ｓ）に対応する前記エラー信号のビットプレーンを決定する決定工程と、
前記デジタル信号のＪＮＤレベルτ（ｓ）に対応する前記エラー信号のビットプレーンを、前記エラー信号のビットプレーン符号化が開始される前記エラー信号のビットプレーンＭ（ｓ）から差し引くことにより、前記知覚有意性Ｐｓ（ｓ）を決定する差引工程と
から決定され、
前記知覚有意性Ｐｓ（ｓ）を用いて、少なくとも前記ビットプレーン又は該ビットプレーンのビットプレーン記号のスキャン及び符号化順を制御することを特徴とする請求項１１に記載のエンコード方法。
前記知覚有意性Ｐｓ（ｓ）は、
前記知覚有意性Ｐｓ（ｓ）の関数に基づいて、共通の知覚有意性Ｐｓ（ｓ）＿ｃｏｍｍｏｎを規定する規定工程と、
前記共通の知覚有意性Ｐｓ（ｓ）＿ｃｏｍｍｏｎを前記知覚有意性Ｐｓ（ｓ）から差し引くことにより、正規化された知覚有意性’Ｐｓ’（ｓ）を生成する差引工程と
により正規化され、
前記量子化値がすべてゼロではない周波数バンドｓに対しては、前記知覚有意性Ｐｓ（ｓ）の値を、前記共通の知覚有意性Ｐｓ（ｓ）＿ｃｏｍｍｏｎの値に設定し、
前記量子化値がすべてゼロである周波数バンドｓに対しては、前記正規化された知覚有意性’ＰＳ’（ｓ）を、前記コア層ビットストリーム及び前記上位層ビットストリームとともに多重化して、前記スケーラブルビットストリームを生成することを特徴とする請求項１２に記載のエンコード方法。
前記エラー信号のビットプレーン符号化を開始させる前記エラー信号のビットプレーンは、前記デジタル信号又は前記変換デジタル信号を量子化するための前記周波数バンドsで用いる最大量子化間隔から決定することを特徴とする請求項１１に記載のエンコード方法。
デジタル信号をスケーラブルビットストリームにエンコードするエンコーダであって、
前記デジタル信号を量子化し、量子化された信号をエンコードしてコア層ビットストリームを形成する量子化手段と、
前記デジタル信号及び前記コア層ビットストリームに基づきエラーマッピングを行い、前記コア層ビットストリームにエンコードされた情報を除去して、エラー信号を生じるエラーマッピング手段と、
知覚モデルを用いて決定される前記デジタル信号の知覚情報に基づき前記エラー信号をビットプレーン符号化し、上位層ビットストリームを生じる知覚ビットプレーン符号化手段と、
前記コア層ビットストリーム及び前記上位層ビットストリームを多重化し、前記スケーラブルビットストリームを生成する多重化手段と
を備えることを特徴とするエンコーダ。
デジタル信号をスケーラブルビットストリームにエンコードする方法であって、
前記デジタル信号を量子化し、量子化された信号をエンコードしてコア層ビットストリームを形成する量子化工程と、
前記デジタル信号及び前記コア層ビットストリームに基づきエラーマッピングを行い、前記コア層ビットストリームにエンコードされた情報を除去して、エラー信号を生じるエラーマッピング工程と、
知覚モデルを用いて決定される前記デジタル信号の知覚情報に基づき前記エラー信号をビットプレーン符号化し、上位層ビットストリームを生じるビットプレーン符号化工程と、
前記コア層ビットストリーム及び前記上位層ビットストリームを多重化し、前記スケーラブルビットストリームを生成する多重化工程と
を備えるエンコード方法を、コンピュータによりプログラムが実施される際に、該コンピュータに実行させる前記プログラムが記録されていることを特徴とするコンピュータ読取可能媒体。
デジタル信号をスケーラブルビットストリームにエンコードする方法であって、
前記デジタル信号を量子化し、量子化された信号をエンコードしてコア層ビットストリームを形成する量子化工程と、
前記デジタル信号及び前記コア層ビットストリームに基づきエラーマッピングを行い、前記コア層ビットストリームにエンコードされた情報を除去して、エラー信号を生じるエラーマッピング工程と、
知覚モデルを用いて決定される前記デジタル信号の知覚情報に基づき前記エラー信号をビットプレーン符号化し、上位層ビットストリームを生じるビットプレーン符号化工程と、
前記コア層ビットストリーム及び前記上位層ビットストリームを多重化し、前記スケーラブルビットストリームを生成する多重化工程と
を備える方法を、コンピュータによりプログラム要素が実施される際に、該コンピュータに実行させることを特徴とするコンピュータプログラム要素。
スケーラブルビットストリームをデジタル信号にデコードするデコード方法であって、
前記スケーラブルビットストリームをコア層ビットストリーム及び上位層ビットストリームに逆多重化する逆多重化工程と、
前記コア層ビットストリームをデコード及び逆量子化して、コア層信号を生成するデコード逆量子化工程と、
前記デジタル信号の知覚情報に基づいて、前記上位層ビットストリームをビットプレーン復号化するビットプレーン復号化工程と、
ビットプレーン復号化された上位層ビットストリームと逆量子化されたコア層信号に基づきエラーマッピングを行い、再構成された変換信号を生じるエラーマッピング工程と
を備えており、
前記再構成された変換信号は前記デジタル信号であることを特徴とするデコード方法。
前記再構成された変換信号を更に再構成された信号に変換し、該再構成された信号が前記デジタル信号であることを特徴とする請求項１８に記載のデコード方法。
前記デジタル信号の知覚情報は、前記スケーラブルビットストリームの逆多重化により取得されることを特徴とする請求項１８又は１９に記載のデコード方法。
前記コア層信号及び前記上位層信号は、整数型修正離散コサイン変換を用いて変換されることを特徴とする請求項１９又は２０に記載のデコード方法。
前記コア層ビットストリームを、ＭＰＥＧＡＡＣ（ＭｏｖｉｎｇＰｉｃｔｕｒｅｓＥｘｐｅｒｔＧｒｏｕｐＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ）仕様に従ってデコード及び逆量子化することを特徴とする請求項１８から２１のいずれか一項に記載のデコード方法。
前記エラーマッピングは、前記変換信号及び前記ビットプレーン復号化された上位層ビットストリームを逆量子化するために用いられたより低い量子化閾値を加えることにより行われ、これにより前記上位層信号を生成することを特徴とする請求項１８から２２のいずれか一項に記載のデコード方法。
前記上位層ビットストリームは連続的にビットプレーン復号化されて、複数のビットプレーン記号を含む複数のビットプレーンが生成され、前記ビットプレーンは、前記デジタル信号の知覚情報に基づきシフトされて、前記ビットプレーン復号化上位層ビットストリームが生成されることを特徴とする請求項１８から２３のいずれか一項に記載のデコード方法。
前記上位層ビットストリームを、前記デジタル信号の知覚情報に基づく順にビットプレーン復号化して複数のビットプレーン記号からなる複数のビットプレーンを生成し、これにより前記ビットプレーン復号化された上位層ビットストリームを生成することを特徴とする請求項１８から２３のいずれか一項に記載のデコード方法。
前記上位層ビットストリームのビットプレーン復号化が開始される際の前記上位層ビットストリームに対応する前記ビットプレーンであって、数Ｍ（ｓ）により特定される前記ビットプレーンと、
前記デジタル信号の弁別閾（ＪＮＤ：ＪｕｓｔＮｏｔｉｃｅａｂｌｅＤｉｓｔｏｒｔｉｏｎ）レベルと、
の情報のうち、少なくとも一方を、前記知覚モデルにより前記デジタル信号の知覚情報として受け取り、
ｓは前記デジタル信号又は前記変換デジタル信号の周波数バンドに対応することを特徴とする請求項２４又は２５に記載のデコード方法。
前記上位層ビットストリームのビットプレーン復号化が開始される際の前記上位層ビットストリームに対応する前記ビットプレーンＭ（ｓ）は、前記コア層ビットストリームを逆量子化するための前記周波数バンドsで用いる最大量子化間隔から決定することを特徴とする請求項２６に記載のデコード方法。
スケーラブルビットストリームをデジタル信号にデコードするデコーダであって、
前記スケーラブルビットストリームをコア層ビットストリーム及び上位層ビットストリームに逆多重化する逆多重化手段と、
前記コア層ビットストリームをデコード及び逆量子化して、コア層信号を生成するデコード逆量子化手段と、
前記デジタル信号の知覚情報に基づいて、前記上位層ビットストリームをビットプレーン復号化するビットプレーン復号化手段と、
ビットプレーン復号化された上位層ビットストリームと逆量子化されたコア層信号に基づきエラーマッピングを行い、再構成された変換信号を生じるエラーマッピング手段と
を備えており、
前記再構成された変換信号は前記デジタル信号であることを特徴とするデコーダ。
スケーラブルビットストリームをデジタル信号にデコードするデコード方法であって、
前記スケーラブルビットストリームをコア層ビットストリーム及び上位層ビットストリームに逆多重化する逆多重化工程と、
前記コア層ビットストリームをデコード及び逆量子化して、コア層信号を生成するデコード逆量子化工程と、
前記デジタル信号の知覚情報に基づいて、前記上位層ビットストリームをビットプレーン復号化するビットプレーン復号化工程と、
ビットプレーン復号化された上位層ビットストリームと逆量子化されたコア層信号に基づきエラーマッピングを行い、再構成された変換信号を生じるエラーマッピング工程と
を備え、前記再構成された変換信号は前記デジタル信号であるデコード方法を、コンピュータによりプログラムが実施される際に、該コンピュータに実行させる前記プログラムが記録されていることを特徴とするコンピュータ読取可能媒体。
スケーラブルビットストリームをデジタル信号にデコードするデコード方法であって、
前記スケーラブルビットストリームをコア層ビットストリーム及び上位層ビットストリームに逆多重化する逆多重化工程と、
前記コア層ビットストリームをデコード及び逆量子化して、コア層信号を生成するデコード逆量子化工程と、
前記デジタル信号の知覚情報に基づいて、前記上位層ビットストリームをビットプレーン復号化するビットプレーン復号化工程と、
ビットプレーン復号化された上位層ビットストリームと逆量子化されたコア層信号に基づきエラーマッピングを行い、再構成された変換信号を生じるエラーマッピング工程と
を備え、前記再構成された変換信号は前記デジタル信号であるデコード方法を、コンピュータによりプログラム要素が実施される際に、該コンピュータに実行させることを特徴とするコンピュータプログラム要素。