JP5096468B2

JP5096468B2 - サイド情報なしの時間的ノイズエンベロープの自由な整形

Info

Publication number: JP5096468B2
Application number: JP2009524635A
Authority: JP
Inventors: ヴィントン、マーク・スチュアート
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2006-08-15
Filing date: 2007-08-10
Publication date: 2012-12-12
Anticipated expiration: 2027-08-10
Also published as: WO2008021247A9; ATE496365T1; WO2008021247A3; DE602007012116D1; CN101501761A; US8706507B2; TW200818123A; WO2008021247A2; EP2054882B1; CN101501761B; US20100094637A1; TWI456567B; JP2010500631A; EP2054882A2

Description

本発明はディジタルオーディオコーディングに関する。特に、本発明の特徴はディジタルオーディオエンコーディング方法、該ディジタルオーディオエンコーディング方法により生成したビットストリームをデコードするのに適したディジタルオーディオデコーダ、ディジタルオーディオデコーディング方法、ディジタルオーディオエンコーダにおける周波数領域ノイズフィードバック量子化方法、このような装置や方法をコンピュータに制御させるためにコンピュータ読取可能な媒体に記憶させたコンピュータプログラム、及び、ディジタルオーディオエンコーダにおける周波数領域ノイズフィードバック量子化装置に関するものである。

スペクトル領域のオーディオコーディングシステムが有する、時間と周波数のトレードオフ関係により、可聴なコーディング誤差を最小限にする一方、高いオーディオコーディング性能をもたらすいくつかの技術がもたらされた。そのような技術には、ブロック切換及び時間的ノイズ整形（ＴＮＳ）（以下の、参考文献１参照）が含まれ、両者ともＭＰＥＧ−２／４ＡＡＣ（ＡＡＣ）（以下の、参考文献２参照）を採用している。時間的ノイズ整形（ＴＮＳ）では、可聴なアーティファクトを最小限にするためノイズの時間的エンベロープを確実に調整する一方、比較的長い変換ブロック長を用いる方法を提供している。

ＴＮＳを用いた先行技術のスペクトル領域のコーディングシステム（エンコーダ及びデコーダ）の単純化したブロック図を図１に示す。エンコーダ部分において、「時間・周波数変換」装置又は機能２は、あるサンプリング周波数ｆ_ｓで音源からサンプリングした、離散時間シーケンスｘ［ｎ］で表された時間領域のオーディオ信号をスペクトル領域（又は「周波数」領域）に変換する。ＡＡＣの場合は、２０４８サンプルの修正離散コサイン変換（ＭＤＣＴ）（以下の、参考文献３参照）が用いられている。量子化装置又は量子化機能（Ｑ）４により量子化する前に、エンコーダは、伝達関数をＺ領域でＡ（ｚ）と表すことのできる、フィルター又はフィルター機能６（Ａ（ｚ））をスペクトル領域の信号に適用する。このエンコーダは、サイド情報として、フィルター係数をデコーダに送る。このコーダのデコーダ部分は、ビットストリームをデコードし、そのスペクトルに、伝達関数がＺ領域で１／Ａ（ｚ）と表すことのできる、フィルター又はフィルター機能８（１／Ａ（ｚ））を適用する。「周波数・時間変換」装置又は機能（時間・周波数変換２の逆の変換を行う）は、スペクトル領域の信号を離散時間領域の信号ｙ（ｎ）に変換する。簡単にするために、図１では、知覚できる量子化ノイズ及び他の既知のＡＡＣ及びＴＮＳの詳細について無視する。

ＴＮＳを用いた量子化装置４の全体的なスペクトル領域の出力は、式（１）のようなＺ変換領域で表現することができる。この分析及び以下に説明する他の分析は、量子化の単純な加法モデルの基づくものである。

ここで、Ｅ（ｚ）は量子化誤差であり、Ａ（ｚ）はＴＮＳフィルターの伝達関数である。

式（１）は、簡単化すると式（２）のようになる、

式（２）は、Ｚ領域における畳み込み処理（１／Ａ（ｚ）で乗算する処理）がオーディオスペクトルの量子化過程で加わったノイズに適用されることを示している。スペクトル領域における畳み込みは、時間領域における乗算と等価なので、ノイズを１／Ａ（ｚ）で畳み込みすることにより、ノイズの時間的形状が逆ＴＮＳフィルターの時間的応答で乗算されたことを示している。従って、フィルターＡ（ｚ）を適切に選択することにより、量子化ノイズは、低くした時間分解能により生成された可聴なアーティファクトを最小化することにより調整することができる。ＴＮＳはＡＡＣの性能を顕著に改善することが示され、従って、ＴＮＳはＡＡＣにおける重要なツールとなる。

しかしながら、ＴＮＳにはいくつかの制限事項がある。すなわち、エンコーダはフィルター係数をデコーダに伝送しなければならず、デコーダは、デコードされたスペクトルを逆フィルターで畳み込まなければならない。これらの要求により以下の制限事項が導かれる。

１．フィルター係数を伝送するためにビットレート消費量が増大する
２．ＡＣ−３のような既存のシステムに対する下位互換性をＴＮＳに持たせることができないスペクトル手段に、逆フィルターを適用する必要がある
３．スペクトルに、逆フィルターを適用する必要があるので、デコーダの複雑さが増大する
本発明の特徴によれば、ノイズフィードバック量子化（ＮＦＱ）に基づく新技術により、スペクトル領域コーディングシステムにおける量子化ノイズの時間エンベロープを、ＭＰＥＧ−２／４・ＡＡＣに用いられるＴＮＳコーディングツールにより課された制限を克服しつつ修正する。本発明の特徴によれば、ＡＡＣシステムにおけるＴＮＳの代わりにＮＦＱを採用する。本発明の特徴によれば、ＮＦＱはまた、ＡＣ−３システムのような他のスペクトル領域のコーディングシステムにおいて採用することもできる。

本発明の特徴によれば、離散時間領域信号をエンコーディングするためのディジタルオーディオエンコーディング方法が提供され、本方法では、離散時間領域信号の周波数領域表現の量子化を採用する。本方法では、量子化誤差の指標（その程度を数値化したもの）を抽出し、この量子化誤差の指標にフィルターを掛けて、フィルターされた量子化誤差の指標を生成し、このフィルターされた量子化誤差の指標を、量子化の前に離散時間領域信号の周波数領域表現にフィードバック信号として適用する。ここで、フルターを掛けるためのフィルター係数により、周波数領域から時間領域に逆変換したときに、離散時間領域信号の量子化された周波数領域表現の時間領域における量子化ノイズを整形する効果がもたらされる。

このディジタルオーディオエンコーディング方法は、離散時間領域信号の周波数領域表現のスペクトルの全セグメントに亘って、フィルターされた量子化誤差の指標が変化することができるように、１以上の周波数ビン又は周波数ビンのグループの各々にフィルターされた量子化誤差の指標を生成するために、量子化誤差の指標にフィルターを掛ける。フィルター係数は動的に制御可能とすることができる。このような可制御性は、離散時間領域信号の指標、又は離散時間領域信号の周波数領域表現に応答させることができる。フィルター係数は、時間的マスキングモデル（不図示）に応答させることもできる。離散時間領域信号の量子化された周波数領域表現は、続いて、エンコードされてエンコードされたビットストリームを生成する。

本発明の他の特徴によれば、先に説明したエンコーディング方法により生成したビットストリームをデコードするために適用されるディジタルオーディオデコーダが提供される。

本発明のさらに他の特徴によれば、離散時間領域信号の周波数領域表現を量子化し、量子化誤差を抽出し、フィルターされた量子化誤差の指標を生成するために量子化誤差の指標にフィルターを掛け、離散時間領域信号の量子化する前の周波数領域表現に、フィードバック信号としてフィルターされた量子化誤差の指標を適用し、離散時間領域信号の量子化された周波数領域表現をビットストリームにエンコードする、エンコーダによって生成されたエントロピーエンコードされたビットストリームをデコーディングするためのディジタルオーディオデコーディング方法が提供される。このデコーディング方法でビットストリームをデコードして、離散時間領域信号の量子化された周波数領域表現又はその近似を生成し、量子化された周波数領域表現又はその近似を逆量子化し、周波数領域表現又はその近似を時間領域に逆変換しオーディオ信号を生成し、これにより、エンコーダ中のフィルター係数がオーディオ信号の量子化ノイズを整形するという効果がもたらされる。
本発明のさらに他の特徴によれば、ディジタルオーディオエンコーダにおける、周波数領域ノイズフィードバック量子化の方法が提供される。この方法では、時間領域オーディオ信号から抽出した周波数領域信号をノイズフィードバック信号と結合させ、量子化装置の入力信号を生成し、量子化装置の入力信号を量子化して量子化装置の出力信号を生成し、量子化装置の入力信号と量子化装置の出力信号とを結合して量子化誤差信号を生成し、量子化誤差信号にフィルターを掛けてノイズフィードバック信号を生成する。

本発明の特徴によれば、ディジタルオーディオエンコーダにおける、周波数領域ノイズフィードバック量子化の方法を実行するのに適した装置が提供される。

本発明の他の特徴によれば、上述の装置又は方法をコンピュータに制御させるための、コンピュータで読取可能な媒体に記憶させた、コンピュータプログラムが提供される。

本発明のさらに他の特徴によれば、ディジタルオーディオエンコーダで用いるための周波数領域ノイズフィードバック量子化装置が提供される。この周波数領域ノイズフィードバック量子化装置には、時間領域オーディオ信号から抽出した周波数領域信号をノイズフィードバック信号と結合して、量子化装置の入力信号を生成する、第１の合成器と、量子化装置の入力信号を量子化して量子化装置の出力信号を生成する量子化装置と、量子化装置の入力信号と量子化装置の出力信号とを結合して、量子化誤差信号を生成する第２の合成器と、量子化誤差信号にフィルターを掛けてノイズフィードバック信号を生成するノイズフィードバックフィルターとが含まれる。

スペクトルオーディオコーディングシステム中の量子化ノイズの時間的整形は、効率よくオーディオ圧縮を行う上で重要である。ＭＰＥＧ−２／４・ＡＡＣにおけるＴＮＳコーディングツールは量子化ノイズの時間的整形を行うが、デコーダにフィルター係数を伝送する必要性から、それは限定されたものとなる。本発明の特徴によれば、スペクトル量子化処理又はスペクトル量子化装置には、広い範囲で自由に整形できるよう制御するための、量子化ノイズの時間的整形を可能とするフィードバック回路又はフィードバック処理が含まれている。さらに、エンコーダ／デコーダ・コーディングシステムにおいて、デコーダにフィルター係数を伝送する必要がなくなっている。本発明は、ＭＰＥＧ−２／４・ＡＡＣのＴＮＳコーディングツールに対し以下に示す１以上の利点があり、ＴＮＳの代わりに使うことができる。

１．ノイズ整形性能はＴＮＳに匹敵する
２．エンコーダのみの処理である
３．サイド情報の伝送を必要としない
４．既存のオーディオコーディングシステムと下位互換性がある
５．デコーダの複雑性を軽減する
本発明の他の利点は、ノイズの時間的進展がスペクトルグループの信号特性によく合致するように、フィードバックフィルターを全スペクトルに亘って変化させることができる点である。言い換えると、１以上の周波数ビン又は周波数ビンのグループ、ここで周波数ビンはスペクトルグループを形成している、の各々に一意的なフィードバックフィルターを採用することができる。ＴＮＳもそのような能力を持つが、デコーダに要求されるスペクトルグループを示すことの必要性と共に、フィルター係数をデコーダに伝送する必要性があるので、使うことのできるスペクトル領域の数は非常に制限される。

時間的ノイズ整形（ＴＮＳ）を用いた、先行技術のスペクトル領域のコーディングシステム（エンコーダ及びデコーダ）の単純化した概略ブロック図である。先行技術の近代的なオーディオコーディングシステムを単純化させたものを示す概略ブロック図であり、入力がスペクトル領域に変換され、スペクトルで表した信号が量子化される。本発明の特徴に係るノイズフィードバック量子化 (ＮＦＱ)を採用した、単純化したオーディオコーディングシステムの１つの実施例の概略機能ブロック図である。区分化された信号対ノイズ比がほぼ一定であるような特定の変換ブロックのオーディオコンテンツのためにノイズフィードバックフィルターが設計された本発明の実施の形態を適用した結果の一例である。図４に示した入力信号に対しＮＦＱを適用しなかった単純なスペクトル領域コーダと、典型的な次数が１０のＮＦＱシステムを適用したものの区分化された信号対ノイズ比を示す。先行技術のＭＰＥＧ−２／４・ＡＡＣエンコーダの単純化した概略ブロック図である。本発明の特徴に係るノイズフィードバック量子化を採用した、単純化したＡＡＣオーディオコーディングシステムの１つの実施例の概略機能ブロック図である。

［スペクトル領域ノイズフィードバック量子化（ＮＦＱ）］
ＡＡＣ（以下の参考文献２参照）及びＡＣ−３（以下の参考文献３参照）を含む最新のオーディオコーディング技術では、量子化により生じたノイズを、知覚的に適切な方法で、制御するためにスペクトル領域における量子化を行う。一般に、ＭＤＣＴのような時間・周波数変換を用いて、入力時間波形をスペクトル領域に変換する。時間・周波数変換と平行して、知覚モデルを計算し、時間・周波数変換の出力係数のそれぞれに生じる量子化ノイズを調整するために知覚モデルを用いる。図２は、入力をスペクトル領域に変換し信号のスペクトル表現を量子化する、先行技術のオーディオコーディングシステム（エンコーダ及びデコーダ）の単純化して示した概略ブロック図である。離散的時間領域信号ｘ（ｎ）を、周波数領域（又はスペクトル領域）の信号を生成するための、時間・周波数変換又は時間・周波数変換機能（時間・周波数変換）１２に適用する。スペクトル領域の信号を、量子化装置又は量子化機能（Ｑ）１４により量子化し、周波数領域の信号を量子化したものＹ（Ｋ）を生成する。システムのデコーダ部分には、時間領域の出力信号をもたらす逆変換又は逆変換機能（周波数・時間変換）１６が含まれる。

一般に、最新のオーディオコーディングシステムに用いられる変換では、良好なコーディング効率を保つために５１２サンプル以上の長さを持つ。例えば、ＭＰＥＧ−２／４・ＡＡＣは、擬似固定信号として２０４８点のＭＤＣＴを採用する。この変換は良好なコーディング効率をもたらすが、長さが大きい変換により量子化ノイズの拡散と（量子化ノイズが変換ブロック全体に拡がる）、固定されていない信号に対する可聴な信号劣化とをもたらす。ブロック切換、ＴＮＳ、及びゲイン制御のような技術が、この問題に対処するために設計されてきた。

本発明の特徴によれば、スペクトル領域で量子化処理を行うときに生じる量子化ノイズの時間的エンベロープを調整するために、このスペクトル領域において、ノイズフィードバック量子化（ＮＦＱ）が採用される。図３は、本発明の特徴に係るＮＦＱを採用するオーディオコーディングシステムの単純化した例の概略機能ブロック図である。時間・周波数変換処理又は時間・周波数変換装置（時間・周波数変換）１２の出力（Ｘ（ｋ））は、元の変換された信号に、フィルターされた量子化誤差を適用するフィードバック処理又はフィードバック回路を具備するＮＦＱ量子化装置又はＮＦＱ量子化機能１８により量子化される。このような装置又は処理中の量子化装置又は量子化機能（Ｑ）２０の出力（Ｙ（ｋ））は、式（３）のように表すことができる。

ここで、Ｅ（ｋ）は量子化誤差、Ｆ（ｍ）はフィードバックフィルターにおける係数、Ｘ（ｋ）は時間・周波数変換１２の周波数領域出力、ｋはスペクトルビン指数、及びｍはフィルタータップ指数である。

代替的に、式（３）はＺ変換形式を用いて式（４）のように書き換えることができる。

スペクトル領域での畳み込みは、時間領域での乗算と等価なので、式（４）で示したような、Ｅ（ｚ）を（１−ｚ^−１Ｆ（ｚ））で畳み込むことで、時間誤差信号を、対応するＮＦＱフィードバック及び量子化構成（１−ｚ^−１Ｆ（ｚ））の時間的効果で乗算する効果が得られる。このことは、Ｆ（ｚ）を適切に選択することにより、量子化誤差の時間的エンベロープを自由に変更することができることを示唆している。従って、有効なフィルター伝達関数を生成する２つの方法を以下に記載しているが、本発明は、コーディングシステムの設計者に量子化誤差の時間的エンベロープを変更する上で役に立つと見なされるフィルター伝達関数を抽出する他の方法を意図していることを理解すべきである。

Ｆ（ｚ）は式（５）で示した形式を取らなければならないことが参考文献５に示されている。さらに、参考文献５では、式（６）で示されたような式（５）で得られた制限をつけることによりＦ（ｚ）に対して最適に解く技法が示されている。

ａ_０＝１であり、

ここで

１つの方法は、時間的信号のエンベロープを計算し、その時間的信号のエンベロープの逆数をとり、式（７）で示したような計算結果の逆ＤＦＴ（離散フーリエ変換）を計算することである。この方法は、フィードバックを伴うスペクトル領域の量子化の結果得られたノイズ特性により、変換ブロック内のすべてのサンプルでほぼ等しい部分的な信号対ノイズ比（少数のサンプルについて計算した信号対ノイズ比）が導かれることを確実なものにする。これは以下のように示される。

ここで、Ｅ［ｎ］は時間的信号のエンベロープであり、正の値のみを持ち、Ｎは変換ブロックの長さである。

代替的に、Ｆ（ｚ）の好ましい解を求める他の方法は、ＴＮＳフィルターの逆演算を採用することである。例えば、フィルター係数は、入力オーディオスペクトルＸ（ｋ）の自己相関から抽出したＬＰＣ（線形予測コーディング）係数のインパルス応答から生成することができる。

ノイズフィードバックフィルターの適用と計算は静的なものである必要はない。Ｆ（ｚ）は、例えば、変換ブロック毎に、量子化ノイズの適切な時間的整形をもたらすために時間と共に変化し、周期的に改定されるのが好ましい。また、上述のように、唯一のＦ（ｚ）を、１以上の周波数ビン又は周波数ビンのグループに採用してもよい。このように、Ｆ（ｚ）は、ビンごとに（周波数的に）及び変換ブロック（時間的に）で異なった係数を持つことができる。

図３の記載に戻って、ＮＦＱ装置又はＮＦＱ処理１８では、合成器２２において、量子化装置又は量子化機能２０の入力をその出力から減算し、量子化誤差信号Ｅ（ｋ）を生成する。一方誤差信号は、フィルター又はフィルター機能２４によりフィルターされて、合成器２６において、時間・周波数変換１２の周波数領域出力Ｘ（ｋ）から減算される。ＮＦＱ装置又はＮＦＱ処理１８の出力Ｙ（ｋ）は、時間・周波数変換１２とは逆の変換を行う、周波数・時間変換装置又は処理２８に適用される。フィルター又はフィルター機能２４は動的であり、そのフィルターが（１）時間領域入力信号ｘ（ｎ）、又は（２）ダイナミックノイズフィードバックフィルター計算装置又はダイナミックノイズフィードバックフィルター機能３０で測定した入力信号の周波数領域バージョンＸ（ｋ）のどちらかの指標で制御されることが好ましい。

時間的ノイズの具体的な再整形では、特定のコーディング構成の設計者により、広い範囲の自由な形を選択することができるが、オーディオの静かなセグメントからオーディオの音量の大きいセグメントにノイズを移動させることが好ましい。

［スペクトルＮＦＱの性能］
本発明の実施の形態を適用したときの性能の一例を図４に示す。ここで、ノイズフィードバックフィルター又はノイズフィードバックフィルター機能を、結果生じた部分的な信号対ノイズ比がほぼ一定になるような、オーディオコンテンツの特定の変換ブロックに適用するよう設計されている。部分的な信号対ノイズ比は、この例では、変換ブロックにおけるサンプル数より少ない、少数のサンプルについて計算したＳＮＲとして定義される。さらにこの例では、ノイズフィードバックフィルターの次数は１０に設定されている。図４の上段は、鋭い過渡信号を有する変換ブロック内の時間領域における入力波形を示す。中段は、単純なスペクトル領域のコーダの出力信号を示し、ここでは、量子化ノイズが過渡信号の始まる前の変換ブロック全体に拡がっている。下段は、次数が１０のＮＦＱを採用した本発明の実施の形態を適用したスペクトル領域オーディオコーダの出力を示す。本例における、ＮＦＱ処理又はＮＦＱシステムに対して、フィードバックフィルターは、断片的なＳＮＲが、変換ブロック全体を通してほぼ一定に維持されるように計算される。量子化ノイズの時間的エンベロープを修正させる本発明の能力を示すように、ＮＦＱ処理又はＮＦＱシステムの出力は、ＮＦＱがない場合の構成に比べて顕著にプリエコー（過渡信号に先立つ、変換ブロック内にノイズが拡がっている部分）が少なくなっている。

図５は、ＮＦＱなしでの、簡単なスペクトル領域コーダの断片的なＳＮＲと、次数が１０のＮＦＱ構成を採用したようなコーダの断片的なＳＮＲとを示したものであり、エンコーダは図４で示した入力信号を受け取る。ＮＦＱなしの処理又はシステムでは過渡信号の始まる前の断片的なＳＮＲは非常に小さいのに対して、ＮＦＱを施した処理又はシステムでは、断片的なＳＮＲは変換ブロック全体に亘ってほぼ一定に維持されている。

断片的なＳＮＲを一定にすることは、ＮＦＱを採用する本発明の実施の形態の利点を示しているが、ノイズの最適配分を採用する例を反映していないかもしれない。実際には、処理又は装置の設計者は、信号の時間的特性に応じて自分が適切だと思うような時間的ノイズ配分を選択することができる。以下に示すように、本発明の特徴は、必要に応じて、量子化ノイズの好ましい時間的ノイズエンベロープを抽出するための複雑な時間的マスキングモデルを用いることができることである。

［知覚オーディオコーディングシステムにおけるノイズフィードバック量子化の適用］
先行技術のＭＰＥＧ−２／４・ＡＡＣエンコーダの単純化した概略ブロック図を図６に示す。入力パルスコード変調（ＰＣＭ）オーディオが、２０４８点のＭＤＣＴ３２を用いて、スペクトル領域に変換され、そのブロックに対するマスキング曲線の推定値が心理音響モデル３４を用いて計算される。次に、（スペクトルの量子化による）ノイズ対マスク比（ＮＭＲ）をできるだけ低く維持するようにスケールファクターが選択される（３６）。結果生じた信号は量子化され（３８）、次いでエントロピーコード化される（４０）。フォーマッタ又はフォーマット処理（ビットストリーム）４２は、エンコードされたビットストリーム出力を生成する。しかしながらこの技術は、個々の変換ブロック内での時間的マスキングを無視する。本発明の特徴によれば、量子化ノイズを時間的に配置する方法が示されている。図６に示したＡＡＣエンコーダを、図７で示したように、ノイズフィードバック量子化装置１８及びダイナミックノイズフィードバック計算３０を加算し、補完的なＴＮＳエンコーディング・デコーディングフィルター（すなわち、図１のフィルター６及び８）を削除し、ＴＮＳフィルター係数をエンコーダからデコーダに伝送する必要性を削除すると、先に示唆したように、スペクトル領域量子化ノイズを、（スペクトル領域にスケールファクターを適用することにより）スペクトルマスキングモデルに適するのみならず（ＮＦＱを適用することにより）時間的マスキングモデルにも適するように再配置することができる。ダイナミックノイズフィードバック計算３０は、（１）ＰＣＭ時間領域入力、又は（２）ＭＤＣＴ３２の周波数領域出力のどちらか一方からの入力を受け取る。時間的マスキングモデルは図７には示されていない。

第１の技法によれば、ＭＤＣＴと共に用いるための（例えばＡＡＣエンコーダ又はエンコーダ／デコーダシステムで用いるための）ＮＦＱフィルターを計算するために、時間領域入力信号はまず別名化しなければならない。所定の変換ブロックに対する所定の時間シーケンスは、
ｘ（ｎ）ｎ＝０，１，．．．Ｎ−１
別名化した時間シーケンスを抽出することができ、

及び

続いて、量子化ノイズの好ましい時間的エンベロープ（Ｅ’［ｎ］）を抽出することができる。理想的には、時間的マスキング効果は、好ましいエンベロープの計算により明らかにされるべきであるが、ＭＤＣＴの別名化の特性により、この問題に時間的マスキングを適用することが妨げられる。従って、時間的エネルギーエンベロープの逆演算を用いることができる．すなわち、大きな音量の信号領域に多くのノイズを配置してもよい。

及び

ノイズフィードバックフィルターは、先の式（６）及び（７）により得られる。

あるいは、ＴＮＳ（下記参考文献１参照）がそのエンコーディングフィルターを生成しその結果を逆変換するのと同じ方法で、ＮＦＱフィルターを生成することができる。まず、現変換ブロックのＭＤＣＴを計算し、

次いで、ＭＤＣＴの自己相関を計算し、

次に、ＬｅｖｉｎｓｏｎＤｕｒｂｉｎａｌｇｏｒｉｔｈｍ（下記参考文献１参照）を用いてＴＮＳ（Ａ（ｚ））に用いられるような、線形予測係数を計算することができる。次いで、ノイズフィードバックフィルターが以下の通り計算される。

ここで、Ｆはノイズフィードバックフィルター伝達関数、Ｍはノイズフィードバックフィルターの次数、Ｌは予測係数の次数である。

式（１１）〜（１３）により得られたＮＦＱフィルターは、式（８ａ）〜（１０）のような時間的ノイズ整形とほぼ同じ時間的ノイズ整形を提供する。すなわち、オーディオの静かなセグメントからオーディオの音量の大きいセグメントにノイズが移動する。

［ノイズフィードバック量子化の適用が予定されるもの］
本発明に係るノイズフィードバック量子化の適用には、以下のうちの少なくとも１つが含まれる。

・既存のオーディオコーディングシステムへの適用：本発明の特徴はエンコーダにのみ適用することができる。従って、サイド情報の必要はなく、ＭＰＥＧ−２／４・ＡＡＣ及びＡＣ−３のような既存の技術に適用することができる。

・複雑でないデコーディングに対するＡＡＣへの適用：ノイズフィードバック量子化はエンコーダでのみ実行されるので、ＴＮＳをエンコーダのみのノイズフィードバック量子化に置き換えることにより、ＡＡＣデコーダを単純化することができる。

・無損失で拡大縮小できるＡＡＣへの適用：元のオーディオの無損失表現を再構成することができるように、無損失オーディオコーダ（ＳＬＳ）に拡大縮小できる新たなＭＰＥＧは、ベース層としてＭＰＥＧ−４・ＡＡＣを用いコード化された信号と元の信号との差を伝送する。これは、デコーダ中にビットを正確に逆変換しないので、ＡＡＣを、正確に逆変換することのできる整数ＭＤＣＴのようなものに限定し、ＴＮＳのようなツールを使えなくする。しかし、本発明に係るＮＦＱは、エンコーダにのみ適用することができるので、ＭＰＥＧ−４のＳＬＳプロフィールに用いることができる。

［参考文献及び参考文献としての編入］
以下の特許、特許出願、及び、刊行物は参照としてそのすべてを本明細書に編入する。

［１］J.Herre及びJ.Johnstonによる、101st Convention Audio Engineering. Society、１９９６年予稿４３８４にて公表された「Enhancing the performance of perceptual audio coders by using temporal noise shaping (TNS)」
［２］ＭＰＥＧ−２／４・ＡＡＣの詳細は以下の参考文献に記載されている
１）ISO/IEC IS-14496（パート３、オーディオ）、１９９６年、AAC ISO/IEC JTC1/SC29, 「Information technology-very low bitrate audio-visual coding」、
２） ISO/IEC 13818-7、International Standard、１９９７年「MPEG-2 advanced audio coding, AAC」、
３） M. Bosi、K. Brandenburg、S. Quackenbush、L. Fielder、K. Akagiri、H. Fuchs、M. Dietz、J. Herre、G. Davidson、及び、Y. Oikawaによる、１９９６年、Proc. of the 101st AES-Convention、「ISO/IEC MPEG-2 Advanced Audio Coding」、
４） M. Bosi、K. Brandenburg、S. Quackenbush、L. Fielder、K. Akagiri、H. Fuchs、M. Dietz、J. Herre、G. Davidson、及び、Y. Oikawaによる、Journal of the AES, Vol.45, No.10, October 1997, pp. 789-814、「ISO/IEC MPEG-2 Advanced Audio Coding」、
５） Karlheinz Brandenburgによる、Proc. of the AES 17th International Conference on High Quality Audio Coding, Florence, Italy, 1999、「MP3 and AAC explained」、及び、
６） G. A. Soulodre他による、J. Audio Eng. Soc, Vol.46, No.3, pp 164-177 March 1998、「Subjective Evaluation of State-of-the-Art Two-Channel Audio Codecs」
［３］J. Princen、A. Bradleyによる、IEEE Trans. Accoust. Speech Signal Processing, vol. ASSP-34 pp. 1153-1161, Oct. 1986、「Analysis/synthesis filter bank design based on time domain aliasing cancellation」
［４］ＡＣ−３、ドルビーデジタル（Dolby Digital）としても知られている（ドルビーとドルビーデジタルはドルビー・ラボラトリーズ・ライセンシング・コーポレーションの登録商標である）は、「A/52B document」に定義されている（Digital Audio Compression Standard (AC-3, E-AC-3) Revision B、及びそれに先行する標準、「Ａ５２／Ａ」書面（ＡＴＳＣ標準：Digital Audio Compression Standard (AC-3), Revision A）及び「Ａ５２／Ａ」(Digital Audio Compression Standard (AC-3))。

さらに、
１）Steve Vernonによる、１９９５年８月の EEE Trans．Consumer Electronics，Vol.41,No. 3、「Design and Implementation of AC-3 Coders」
２）Mark Davisによる、１９９３年１０月のAudio Engineering Society Preprint 3774, 95th AES Convention,「The AC-3 Multichannel Coder」
３）Bosi他による、１９９２年１０月のAudio Engineering Society Preprint 3365, 93rd AES Convention,「High Quality, Low-Rate Audio Transform Coding for Transmission and Multimedia Applications」
［５］Werner Verhelst、Dreten De Koningによる２００２年６月の、「Least Squares Theory and Design of Optimal Noise Shaping Filters」AES 22nd International Conference on Virtual, Synthetic and Entertainment Audio。

［実施の形態］
本発明は、ハードウェア又はソフトウェア又は両方を組み合わせたもの（例えば、プログラマブルロジックアレー）で実施することができる。特記なき場合は、本発明の１部として含まれるアルゴリズムは、特定の計算機または特定の他の装置に本質的に関連するものではない。具体的には、種々の汎用機を、ここに記載された内容に従って書かれたプログラムと共に用いてもよい、あるいは、要求の方法を実行するために、より特化した装置（例えば、集積回路）を構成することが便利かもしれない。このように、本発明は、それぞれ少なくとも１つのプロセッサ、少なくとも１つの記憶システム（揮発性及び非揮発性メモリー及び／又は記憶素子を含む）、少なくとも１つの入力装置又は入力ポート、及び少なくとも１つの出力装置又は出力ポートを具備する、１つ以上のプログラマブルコンピュータシステム上で実行される１つ以上のコンピュータプログラムにより実現することができる。ここに記載した機能を遂行し、出力情報を出力させるために入力データにプログラムコードを適用する。この出力情報は、公知の方法で、１以上の出力装置に適用される。

このようなプログラムの各々は、コンピュータシステムとの通信のために、必要とされるどんなコンピュータ言語（機械語、アセンブリ、又は、高級な、手続言語、論理型言語、又は、オブジェクト指向言語を含む）ででも実現することができる。いずれにせよ、言語はコンパイル言語であってもインタープリタ言語であってもよい。

このようなコンピュータプログラムの各々は、ここに記載の手順を実行するために、コンピュータにより記憶媒体又は記憶装置を読み込んだとき、コンピュータを設定し動作させるための、汎用プログラマブルコンピュータ又は専用プログラマブルコンピュータにより、読み込み可能な記憶媒体又は記憶装置（例えば、半導体メモリー又は半導体媒体、又は磁気又は光学媒体）に保存又はダウンロードすることが好ましい。本発明のシステムはまた、コンピュータプログラムにより構成されるコンピュータにより読み込み可能な記憶媒体として実行することを考えることもできる。ここで、この記憶媒体は、コンピュータシステムを、ここに記載した機能を実行するために、具体的にあらかじめ定めた方法で動作させる。

本発明の多くの実施の形態について記載した。しかしながら、本発明の精神と技術範囲を逸脱することなく多くの修正を加えることができることは明らかであろう。例えば、ここに記載したステップのいくつかの順序は独立であり、従って、記載とは異なる順序で実行することができる。

Claims

離散時間領域信号の周波数領域表現の量子化を採用する、離散時間領域信号をエンコーディングするためのディジタルオーディオエンコーディング方法であって、
周波数領域量子化誤差の指標（Ｅ（ｋ））を、周波数領域で、抽出するステップ（２０，２２）と、
周波数領域で、フィルター係数を用いて前記量子化誤差の指標にフィルター処理を行って、フィルター処理された量子化誤差の指標を生成するステップ（２４）と、
前記フィルター処理された量子化誤差の指標を、周波数領域で、周波数領域量子化（２０）の前に前記離散時間領域信号の周波数領域表現にフィードバック信号として適用するステップ（２６）と、
を具備し、
前記フィルター処理を行うステップ（２４）は、前記離散時間領域信号および前記離散時間領域信号の周波数領域表現のうちの一つに基づいて前記フィルター係数を動的に制御することを含み、前記フィルター係数は、時間的信号のエンベロープを計算し、該時間的信号のエンベロープの逆数をとり、その結果の逆ＤＦＴを計算することを含む処理と、線形予測コーディング（ＬＰＣ）計算を含む処理とのうちの一つにより取得されることを特徴とする方法。
前記フィルター処理を行うステップでは、離散時間領域信号の周波数領域表現のスペクトルの全セグメントに亘ってフィルター処理された量子化誤差の指標が変化することができるように、１以上の周波数ビン又は周波数ビンのグループの各々にフィルター処理された量子化誤差の指標を生成するために前記量子化誤差の指標にフィルター処理を行うことを特徴とする請求項１に記載の方法。
前記フィルター係数は、時間的マスキングモデルに応答することを特徴とする請求項１又は２に記載の方法。
前記時間的マスキングモデルは、量子化したノイズの時間的整形をおこなおうとすることを特徴とする請求項３に記載の方法。
前記時間的マスキングモデルは、変換ブロック内で前記離散時間領域信号の相対的に音量の小さいセグメントから音量の大きいセグメントに前記量子化ノイズを移動させようとすることを特徴とする請求項３に記載の方法。
エンコードされたビットストリームを生成するために（４０，４２）、前記離散時間領域信号の前記量子化した周波数領域表現をエンコードするステップをさらに具備することを特徴とする請求項１乃至請求項５のいずれか１項に記載のディジタルオーディオエンコーディング方法。
ディジタルオーディオエンコーダにおける、周波数領域ノイズフィードバック量子化の方法であって、
周波数領域量子化装置の入力信号を生成するために時間領域オーディオ信号から抽出した周波数領域信号を周波数領域ノイズフィードバック信号と結合させるステップ（２６）と、
周波数領域量子化装置の出力信号を生成するために、前記周波数領域量子化装置の入力信号を量子化するステップ（２０）と、
周波数領域量子化誤差信号を生成するために、前記周波数領域量子化装置の前記入力信号を前記周波数領域量子化装置の前記出力信号と結合させるステップ（２２）と、
前記周波数領域ノイズフィードバック信号を生成するために、フィルター係数を用いて前記周波数領域量子化誤差信号にフィルター処理を行うステップ（２４）と、
前記時間領域オーディオ信号および前記周波数領域信号のうちの一つに基づいて前記フィルター係数を動的に制御するステップと
を具備し、前記フィルター係数は、時間的信号のエンベロープを計算し、該時間的信号のエンベロープの逆数をとり、その結果の逆ＤＦＴを計算することを含む処理と、線形予測コーディング（ＬＰＣ）計算を含む処理とのうちの一つにより取得されることを特徴とする方法。
前記動的に制御するステップでは、時間的マスキングモデルに応答して前記フィルター係数を制御することを特徴とする請求項７に記載の方法。
請求項１乃至請求項８のいずれか１項に記載の方法のすべてのステップを実施するようにした手段を具備する装置。
請求項１乃至請求項８のいずれか１項に記載の方法のすべてのステップをコンピュータに実行させるようにした、コンピュータ読み取り可能な媒体に記憶させたコンピュータプログラム。
ディジタルオーディオエンコーダで用いるための周波数領域ノイズフィードバック量子化装置であって、
周波数領域量子化装置の入力信号を生成するために、時間領域オーディオ信号から抽出した周波数領域信号を周波数領域ノイズフィードバック信号と結合させる第１の合成器（２６）と、
周波数領域量子化装置の出力信号を生成するために、前記周波数領域量子化装置の入力信号を量子化する量子化装置（２０）と、
量子化誤差信号を生成するために、前記周波数領域量子化装置の入力信号と前記周波数領域量子化装置の出力信号とを結合する第２の合成器（２２）と、
周波数領域ノイズフィードバック信号を生成するために、フィルター係数を用いて前記周波数領域量子化誤差信号にフィルター処理を行うノイズフィードバックフィルター（２４）と、
前記時間領域オーディオ信号および前記周波数領域信号のうちの一つに基づいて前記フィルター係数を動的に制御する周波数領域フィルター係数制御装置（３０）と
を具備し、前記フィルター係数は、時間的信号のエンベロープを計算し、該時間的信号のエンベロープの逆数をとり、その結果の逆ＤＦＴを計算することを含む処理と、線形予測コーディング（ＬＰＣ）計算を含む処理とのうちの一つにより取得されることを特徴とする装置。
前記周波数領域フィルター係数制御装置（３０）は、時間的マスキングモデルに応答して前記フィルター係数を制御することを特徴とする請求項１１に記載の量子化装置。
前記ノイズフィードバックフィルターの次数は１０から２０の範囲であることを特徴とする請求項１１または請求項１２に記載の量子化装置。