JP2008529056A

JP2008529056A - マルチチャネル音声符号化における適応ビット割り当て

Info

Publication number: JP2008529056A
Application number: JP2007552087A
Authority: JP
Inventors: アニスタレブ，; ステファンアンデション，
Original assignee: テレフオンアクチーボラゲットエルエムエリクソン（パブル）
Priority date: 2005-02-23
Filing date: 2005-12-22
Publication date: 2008-07-31
Anticipated expiration: 2025-12-22
Also published as: CN101128867B; ATE521143T1; EP1851866A4; CN101128866A; WO2006091139A1; EP1851866A1; US20060246868A1; JP4809370B2; CN101124740B; ES2389499T3; US7945055B2; EP1851866B1; US7822617B2; ATE518313T1; CN101128866B; CN101124740A; US20060195314A1; CN101128867A; JP5171269B2; JP2008532064A

Abstract

マルチチャネル音声信号を符号化する効率のよい技術を提供する。本発明が拠りどころとする基本原理は、第１エンコーダ（１３０）で複数のチャネルの１つ以上の第１の信号を符号化し、第２のマルチステージ・エンコーダ（１４０）で複数のチャネルの１つ以上の第２の信号を符号化することである。この手順を大幅に強化するために、マルチチャネル音声信号特性に基づき、第２マルチステージ・エンコーダ（１４０）の異なる符号化ステージ間に符号化ビット数を適応的に割り当てるコントローラ（１５０）を提供する。

Description

本発明は、音声符号化及び復号化技術に関し、具体的には、ステレオ符号化などのマルチチャネル音声符号化に関する。

高い音声品質を維持しながら音声信号を低ビットレートで伝送し保存することへの市場の要求は大きい。特に、伝送リソース又は記憶装置が限られている場合、低ビットレートでの運用はコスト要因として不可欠である。このことが典型的に当てはまるのは、例えば、ＧＳＭ、ＵＭＴＳ又はＣＤＭＡなどのモバイル通信システムでのストリーミング及びメッセージングのアプリケーションの場合である。

図１を用いて、マルチチャネル符号化／復号化を使用する音声伝送システムの一般的な例を概略的に説明する。全体のシステムは基本的に、送信側にマルチチャネル・オーディオエンコーダ１００と送信モジュール１０を備え、受信側に受信モジュール２０とマルチチャネル・オーディオデコーダ２００を備える。

音声信号のステレオ符号化又はマルチチャネル符号化の最も単純な方法は、図２に示すように、異なるチャネルの信号を個別に独立の信号として別々に符号化することである。しかしこれでは、複数のチャネル間の冗長性は取り除かれず、ビットレートはチャネル数に比例することになる。

もう１つの基本的な方法で、ステレオＦＭラジオ放送で使用され、昔からあるモノラル・ラジオ受信機と互換性を確保する方法は、関与する２つのチャネルの和と差の信号を送信することである。

ＭＰＥＧ−１／２レイヤIII及びＭＰＥＧ−２／４ＡＡＣなどの最先端のオーディオコーデックは、いわゆるジョイントステレオ符号化を使用する。この技術によれば、異なるチャネルの信号は別々に個別に処理されるのではなく、一緒に処理される。最も広く使用されているジョイントステレオ符号化 (joint stereo coding) は、「Ｍｉｄ／Ｓｉｄｅ」（Ｍ／Ｓ）ステレオ符号化及びインテンシティステレオ符号化 (intensity stereo coding) として知られる２つの符号化であり、それらは普通、符号化されるステレオ信号又はマルチチャネル信号のサブバンドに適用される。

Ｍ／Ｓステレオ符号化は、チャネルのサブバンドの和と差の信号を符号化して送信し、それによりチャネルのサブバンド間の冗長性を利用する点において、前述のステレオＦＭラジオの手順と類似している。Ｍ／Ｓステレオ符号化に基づくコーダの構成と動作については、例えば文献[1]（特許文献１）に記載されている。

他方、インテンシティステレオは、ステレオの無関係さを使用することができる。インテンシティステレオでは、（異なるサブバンドの）チャネルの連結強度(joint intensity)を、チャネル間に信号の強度がどのように分布しているかを示す位置情報と共に送信する。インテンシティステレオでは、チャネルのスペクトル振幅情報だけを出力し、位相情報は伝達しない。このため及び、チャネル間時間情報（より具体的にはチャネル間時間差）は特に低周波数においては心理音響関連性が大きいことから、インテンシティステレオは、例えば２ｋＨｚを超える高い周波数でのみの使用とすることができる。インテンシティステレオ符号化方法は、例えば文献[2]（特許文献２）に記載されている。

バイノーラルキュー符号化（ＢＣＣ）と呼ばれる最近開発されたステレオ符号化方法が、文献[3]（非特許文献１）に記載されている。この方法はパラメトリック・マルチチャネル音声符号化方法である。この種のパラメトリック符号化技術の基本原理は、符号化側においてＮ個のチャネルからの入力信号を１つのモノラル信号に合成することである。モノラル信号は、従来のどのモノラルのオーディオコーデックを使用しても符号化できる。並行して、パラメータはマルチチャネル音像を表すチャネル信号から引き出せる。パラメータは符号化され、音声ビット・ストリームと一緒にデコーダに送信される。デコーダはまずモノラル信号を復号し、次にマルチチャネル音像のパラメトリック表現に基づきチャネル信号を再生する。

バイノーラルキュー符号化（ＢＣＣ）法の原理は、符号化モノラル信号及びいわゆるＢＣＣパラメータを送信することである。ＢＣＣパラメータは、元のマルチチャネル入力信号のサブバンドに関する符号化されたチャネル間レベル差及び符号化されたチャネル間時間差を含む。デコーダは、ＢＣＣパラメータに基づき、モノラル信号のサブバンドに関するレベルならびに位相及び／又は遅延の補正を活用することにより、異なるチャネルの信号を再生する。例えばＭ／Ｓステレオ又はインテンシティステレオに対する利点は、チャネル間時間情報を備えるステレオ情報がはるかに低いビットレートで送信されることである。しかし、ＢＣＣは演算量の要求が厳しく、また、一般には聴感上の最適化ができない。

文献[4]（特許文献３）に記載される別の技術は、モノラル信号及びいわゆるサイド情報 (side information) を符号化する同じ原理を使用する。この場合、サイド情報は予測フィルタ (predictor signal) 及び状況に応じて残差信号 (residual signal) で構成される。予測フィルタは、ＬＭＳアルゴリズムで推定され、モノラル信号に適用されると、マルチチャネル音声信号の予測を与える。この技術を使用して、マルチチャネル音源を非常に低いビットレートで符号化することができるが、品質低下という犠牲を伴う。

図３に、そのパラメトリック・ステレオ符号化の基本原理を示す。図３は、ダウンミキシング・モジュール１２０、中核のモノラルコーデック１３０、２３０、及びパラメトリック・ステレオ・サイド情報エンコーダ／デコーダ１４０、２４０を備えるステレオコーデックの構成を示している。ダウンミキシングは、マルチチャネル（この場合はステレオ）信号をモノラル信号に変換する。パラメトリック・ステレオコーデックの目的は、復元されたモノラル信号と付加的なステレオ・パラメータを与えて、デコーダでステレオ信号を再生することである。

最後に、すべてを網羅するために、３Ｄ音声で使用される技術にも触れておく。この技術は、いわゆる頭部関連フィルタで音源信号をフィルタリングして左右のチャネル信号を合成する。しかし、この技術は、分離される異なる音源信号を必要とし、それ故、一般にステレオ又はマルチチャネルの符号化に適用されることはない。

[1] 米国特許第５，２８５，４９８号 [2] 欧州特許第０，４９７，４１３号 [4] 米国特許第５，４３４，９４８号 [3] C. Faller et al., "Binaural cue coding applied to stereo and multi-channel audio compression", 112th AES convention, May 2002, Munich, Germany. [5] C. Faller and F. Baumgarte, "Binaural cue coding - Part I: Psychoacoustic fundamentals and design principles", IEEE Trans. Speech Audio Processing, vol. 11, pp. 509-519, Nov. 2003. [6] J. Robert Stuart, "The psychoacoustics of multichannel audio", Meridian Audio Ltd, June 1998 [7] S-S. Kuo, J. D. Johnston, "A study why cross channel prediction is not applicable to perceptual audio coding", IEEE Signal Processing Lett, vol. 8, pp. 245-247. [8] Y. Linde, A. Buzo and R. M. Gray, "An algorithm for vector quantizer design", IEEE Trans, on Commun., vol. COM-28, ρp.84-95, Jan. 1980. [9] B. Edler, C. Faller and G. Schuller, "Perceptual audio coding using a time- varying linear pre- and post-filter", in AES Convention, Los Angeles, CA, Sept. 2000. [10] Bernd Edler and Gerald Schuller, "Audio coding using a psychoacoustical pre- and post-filter", ICASSP-2000 Conference Record, 2000. [11] Dieter Bauer and Dieter Seitzer, "Statistical properties of high-quality stereo signals in the time domain", IEEE International Conf. on Acoustics, Speech, and Signal Processing, vol. 3, pp. 2045-2048, May 1989. [12] Gene H. Golub and Charles F. van Loan, "Matrix Computations", second edition, chapter 4, pages 137-138, The John Hopkins University Press, 1989. [13] B-H. Juag and A. H. Gray Jr, "Multiple stage vector quantization for speech coding", In International Conference on Acoustics, Speech, and Signal Processing, vol. 1, pp. 597-600, Paris, April 1982.

本発明は先行技術による装置の上記及び他の欠点を克服する。

本発明の全体的な目的は、低ビットレートで高品質のマルチチャネル音声を提供することである。

特に、比較的少ない符号化ビット数を使用して、ステレオ又はマルチチャネルの情報を正確に表す能力のある効率的な符号化処理を提供することが望ましい。ステレオ符号化に関しては、例えば、ステレオ音像の躍動感がよく表現され、ステレオ信号の再生品質が高められることが重要である。

マルチステージ副信号エンコーダが利用可能なビット割り当て量を効率的に使用することも、本発明の目的である。

マルチチャネル音声信号を符号化する方法及び装置を提供することは、本発明の特定の目的である。

本発明の別の特定の目的は、符号化マルチチャネル音声信号を復号化する方法及び装置を提供することである。

本発明のまた別の目的は、音声符号化及び復号化技術に基づき改良された音声伝送システムを提供することである。

上記及び他の目的は、特許請求の範囲で定義される本発明により達成される。

現在のところ、例えばモバイル通信システムでも経済的負担が少なく使用する気を起こさせるビットレートで、高品質のステレオ又はマルチチャネルの音声を提供する標準化されたコーデックは入手できない。入手可能なコーデックで可能なことは、音声信号のモノラルでの伝送及び／又は保存である。ある程度までは、ステレオでの伝送や保存も可能ではあるが、多くの場合、ビットレートの制約によってステレオ表現を極めて大幅に制限されることになる。

これらの問題を克服するために、本発明は、音声信号からステレオ又はマルチチャネルの情報を分離し、その情報を低ビットレートで正確に表現することを可能にする解決策を提案する。

本発明の基本的なアイデアは、マルチチャネルの音声信号を符号化する効率のよい技術を提供することである。本発明が拠りどころとする基本原理は、第１信号符号化処理でマルチチャネルのうちの少なくとも１つのチャネルの第１の信号の符号化と、第２マルチステージ信号符号化処理でマルチチャネルのうちの少なくとも１つのチャネルの第２の信号の符号化である。この手順は、マルチチャネル音声信号特性に基づいて、第２マルチステージ信号符号化処理の異なる符号化ステージ間に符号化ビットを適応的に割り当てることにより大幅に特性を改善することができる。

例えば、マルチステージ符号化処理内の１つのステージの性能が飽和する場合、その特定の符号化ステージに符号化／量子化のために割り当てられるビット数を増加しても役に立たない。その代わりに、全体的な性能の大きい改善を図るためには、マルチステージ符号化処理の別の符号化ステージにより多くのビットを割り当てたほうがよい。このため、少なくとも１つの符号化ステージの推定性能に基づきビット割り当てを実行するのは特に有益であることがわかった。特定の符号化ステージへのビットの割り当ては、例えばその符号化ステージの推定性能に基づくことができる。あるいは、符号化ビットを、符号化ステージの全体的な性能に基づき異なる符号化ステージ間に一緒に割り当ててもよい。

例えば、第１信号符号化処理を主符号化処理とし、第１の信号は主信号とすることができる。第２信号符号化処理は、マルチステージ処理であり、例えば副信号処理とし、その場合、第２の信号はステレオ副信号などの副信号とすることができる。

第２マルチステージ信号符号化処理で利用可能なビット割り当て量は、マルチチャネル音声信号のチャネル間相関特性に基づき異なる符号化ステージ間に適応して割り当てられるのが好ましい。これは、第２のマルチステージ信号符号化処理がチャネル間予測（ＩＣＰ、Inter-Channel Prediction）ステージなどのパラメトリック符号化ステージを有するときに、特に役に立つ。チャネル間相関が弱い場合には、マルチチャネル又はステレオの符号化手段としてのパラメトリック（ＩＣＰ）フィルタが生成する対象信号の予測値は比較的悪いものとなる。それ故、フィルタ量子化のために割り当てビット数を増やしてもあまり性能の向上にはならない。このようにＩＣＰフィルタ及び一般的なパラメトリック符号化の性能は飽和するので、ビット使用に関しては、これらの技術では効率が悪い。一方、そのビットは、例えばノンパラメトリック符号化などの別の符号化ステージで異なる符号化に使用することができ、そうすると全体的な性能を大幅に改善することができる。

特定の実施形態では、本発明は、パラメトリックとノンパラメトリックとのハイブリッド符号化処理を含み、パラメトリックとノンパラメトリックの符号化ステージ間で利用可能な符号化ビットの効率的な割り当てに基づき、（チャネル間予測）パラメトリック表現とノンパラメトリック表現の長所を利用して、パラメトリック品質飽和の問題を克服する。

特定の符号化ステージにビットを割り当てる手順は、その符号化ステージに割り当てられるビット数に対する、その符号化ステージの推定性能の評価に基づくのが好ましい。

一般に、ビット割り当ては、追加的なステージの性能又は２つ以上のステージの全体的な性能に依存させてもよい。例えば、ビット割り当ては、パラメトリック表現とノンパラメトリック表現の両方を組み合わせた全体的な性能に基づいてもよい。

例えば、第２の信号を予測するための第１の適応チャネル間予測（ＩＣＰ）ステージの事例を考慮する。ＩＣＰ符号化ステージの推定性能は、通常、関連する品質測定値の判定に基づく。その品質測定値は、例えば、いわゆる第２の信号の予測誤差に基づき推定できるが、好ましくはチャネル間予測により生成される第２の信号復元データの量子化に割り当てられるビット数に応じて、量子化誤差の推定値と一緒に推定できることである。第２の信号復元データは、通常はチャネル間予測（ＩＣＰ）フィルタ係数である。

特に有利な実施形態は、第２マルチステージ信号符号化処理が、第１のステージからの信号予測誤差の表現を符号化するために、第２の符号化ステージに符号化処理をさらに備えるものである。

第２信号符号化処理は、通常、ビット割り当ての出力データを生成する。この出力データは、第２信号復元データの形態で符号化／量子化情報を正しく変換するために復号化側で必要となるだろうからである。復号化側では、デコーダは、第２信号符号化処理中、異なる信号符号化ステージ間にビット割り当て量がどのように割り当てられたかを表すビット割り当て情報を受信する。このビット割り当て情報は、第２の信号を正しく復号するために、対応する第２のマルチステージ信号復号化処理で、第２の信号復元データを変換するために使用される。

マルチチャネル音声符号化メカニズムをさらに改善するために、第２信号符号化処理の性能又はその符号化ステージの少なくとも１つの性能に基づき、効率的な可変次元数／可変レートビット割り当てを使用することも可能である。実際面では、このことは、第１の符号化ステージに割り当てられるビット数とフィルタ長／次元数との組み合わせは、第１のステージの性能又は幾つかのステージを合成した性能を表す測定値を最適化するように選択される。長いフィルタの使用は、より優れた性能をもたらす一方、長いフィルタの量子化は、ビットレートが固定されている場合には量子化誤差が増加してしまう。フィルタ長を増加すると、性能が向上する可能性もあるが、そうなるためにはビットが余分に必要となる。選択されたフィルタ長／次元数と量子化誤差の増加との間にはトレードオフがある。そこでアイデアは、性能測定値を使用し、それに応じてフィルタ長と必要ビット量とを変更して、最適値を見つけることである。

ビットの割り当て及び符号化／復号化は、たいていフレームごとに実施されるが、サイズが変更可能なフレームでビット割り当て及び符号化／復号化を実施し、信号適応最適化フレーム処理をすることが可能である。

特に、可変フィルタ次元数及び可変ビットレートは固定フレームで使用してもよいが、可変長のフレームでも使用してよい。

可変長のフレームに関して、符号化フレームは、一般に、様々なフレーム分割構成に従って、相当数のサブフレームに分割してもよい。サブフレームは、様々なサイズがあってもよいが、所与のどのフレーム分割構成でも、サブフレームの長さの合計は、符号化フレームの全長に等しい。本発明の好適な実施形態のアイデアは、全体の符号化フレームにわたって、検討する第２信号符号化処理（すなわち、その信号符号化ステージの少なくとも１つ）の性能を表す測定値を最適化するように、フレーム分割構成の組み合わせ、ならびに各サブフレームに対するビット割り当て及びフィルタ長／次元数を選択することである。次いで第２の信号は、ビット割り当てとフィルタ次元数との選択された組み合わせに従って、選択されたフレーム分割構成の各サブフレームで、別々に符号化される。本発明の信号適応ビット割り当てにより提供される全般的に低ビットレートで高品質な性能に加えて、可変フレーム長処理手法の顕著な利点は、ステレオ又はマルチチャネルの音像の躍動感が非常にうまく表現されることである。

ここで第２の信号符号化処理は、復号化側に転送するために、出力データ、選択されたフレーム分割構成の表現、ならびに選択されたフレーム分割構成の各サブフレームに対するビット割り当て及びフィルタ長の表現を、生成するのが好ましい。しかし、音声伝送システムにおける符号化側から復号化側への信号伝送のビットレート要件を減少するために、各サブフレームに対するフィルタ長は、サブフレーム長に従って選ばれるのが好ましい。このことが意味することは、符号化フレームのサブフレームセットへのフレーム分割構成の表示は同時に、各サブフレームに対する選択されたフィルタ次元数の表示も提供し、それにより必要な信号伝送量を減少することである。

本発明は、以下の利点を提供する。
・マルチチャネル音声符号化／復号化の改善。
・音声伝送システムの改善。
・マルチチャネル音声復元品質の改善。
・比較的低ビットレートでの高品質マルチチャネル音声。
・マルチステージ副信号エンコーダなどのマルチステージ・エンコーダに対する利用可能なビット割り当て量の効率的使用。
・ステレオ音像の躍動感あふれる表現。
・ステレオ信号再生品質の向上。
本発明が提供する他の利点は、以下の本発明の実施形態の詳細な説明を読めば理解されるであろう。

添付の図面及び以下の説明によって、本発明は、その他の目的及び利点とともに、最もよく理解されるであろう。

全図面を通して同じ参照番号は同一又は類似の要素に用いられるものとする。

本発明は、音声アプリケーションのマルチチャネル符号化／復号化技術に関し、特に音声伝送システム及び／又は音声ストレージ用のステレオ符号化／復号化に関する。音声アプリケーションとしてふさわしい例としては、電話会議システム、モバイル通信システムにおけるステレオ音声伝送、音声サービスを提供する様々なシステム、及びマルチチャネル・ホーム・シネマ・システム等が挙げられる。

本発明の理解を助けるために、既存技術の問題について簡潔な概観と分析から始めるのが役に立つと思われる。前述のように、現在のところ、例えばモバイル通信システムでも経済的負担が少なく使用する気を起こさせるビットレートで高品質のステレオ又はマルチチャネル音声を提供する標準化されたコーデックは入手できない。入手できるコーデックで可能なことは、音声信号のモノラルでの伝送及び／又は保存である。ある程度までは、ステレオ伝送や保存も可能であるが、多くの場合、ビットレートの制約により極めて大きくステレオ表現が制限される。

最先端のマルチチャネル符号化技術の問題は、優れた品質を提供するためには高ビットレートが必要となることである。インテンシティステレオは、例えばたった２、３ｋｂｐｓほどの低ビットレートで利用される場合には、チャネル間時間情報をほとんど提供できないので上手くいかない。この情報は例えば２ｋＨｚ未満の低周波数に対して聴感上重要なので、そのような低周波数でステレオ効果を提供することはできない。

他方ＢＣＣは、チャネル間時間情報も伝送するので、例えば３ｋｂｐｓの低ビットレートで、低周波数でもステレオ音像又はマルチチャネル音像を再生することができる。しかし、この技術は、エンコーダとデコーダの両方でチャネルのそれぞれについて、演算量の多い時間／周波数変換を必要とする。さらに、ＢＣＣは、元のチャネル信号との知覚差を最小にする意味では、伝送されたモノラル信号からチャネル信号へのマッピングを行おうとしない。

チャネル間予測（Inter-channel prediction : ＩＣＰ）とも呼ばれる、マルチチャネル符号化用のＬＭＳ技術（文献[4]（特許文献３）参照）は、残差信号の伝送を省略することにより低ビットレートを可能にしている。チャネル復元フィルタを得るために、条件なしの誤差最小化手順を用い、その出力信号が対象信号に最も一致するようにフィルタを計算する。フィルタを計算するために、幾つかの誤差測定値を使用できる。平均二乗誤差あるいは加重平均二乗誤差が周知であり、少ない演算量で済む。

一般的に、最先端の方法の大部分がハイファイのオーディオ信号又は単なる音声の符号化のために開発されたと言うことができる。信号エネルギが低周波数領域に集中している音声符号化では、サブバンド符号化は滅多に使用されない。ＢＣＣのような方法は、低ビットレートでステレオ音声の符号化を可能にするけれども、サブバンド変換符号化処理では演算量も遅延も多くなる。

線形チャネル間予測（ＩＣＰ）を音声符号化に適用すると、マルチチャネル信号に対する圧縮率が増加するかどうかについて研究が長く続いている。

研究の結論は、ＩＣＰ符号化技術は、低い周波数にエネルギが集中しているステレオ信号に対しては、高品質のステレオ信号を得ることはできないが、冗長性の削減は可能である［７］（非特許文献４）。ＩＣＰフィルタリングの白色化効果により、高周波数領域のエネルギが増加し、知覚変換符号化器にとっては正味の符号化損失になる。これらの結果は、文献［９］（非特許文献６）及び［１０］（非特許文献７）で確認され、品質の向上は音声信号に対してだけ報告された。

ＩＣＰ復元信号の精度は、存在するチャネル間相関により決定される。Bauer等による文献［１１］（非特許文献８）は、音声信号の左チャネルと右チャネルとの間に線形関係を見出せなかった。しかし、図４のモノラル信号と副信号とのクロススペクトルから見ることができるように、音声信号の低周波数領域（０〜２０００Ｈｚ）で強いチャネル間相関が見られる。

ステレオ符号化手段としてのＩＣＰフィルタでは、チャネル間相関が弱い場合には、対象信号の予測値の精度が劣化する。生成される予測値は、フィルタの量子化の前でさえ精度が悪い。それ故、フィルタ量子化に対し割り当てビット数を増加しても、性能の向上につながらないか又はごくわずかにしか性能が向上しない。

ＩＣＰ及び一般的なパラメトリック法の性能はこのように飽和してしまうため、これらの技術のビット利用効率は非常に悪いものである。ビットの中には例えばノンパラメトリック符号化技術で代わりに使用できるものがあり、そうすれば全体的な性能を大幅に向上させることができる。また、これらのパラメトリック技術は、符号化方法に特有の特徴的な歪み (artifacts) はビットレートを高くしても消えないだろうから、最適なものとはいえない。

図５は、本発明の好適な実施形態におけるマルチチャネル・エンコーダのブロック図である。マルチチャネル・エンコーダは、基本的に任意の前処理部１１０、オプショナル（任意）の（線形）結合部１２０、第１エンコーダ１３０、少なくとも１つの追加的な（第２）エンコーダ１４０、コントローラ１５０、及び任意のマルチプレクサ（ＭＵＸ）部１６０を備える。

任意の前処理部１１０にはマルチチャネル信号又はポリフォニック信号 (polyphonic signal) が入力されうる。前処理部１１０では様々な信号調整手順を実行することができる。入力チャネルの信号は、音声信号ストレージ（不図示）から供給されてもよいし、例えばマイクロホンのセット（不図示）から生で供給されてもよい。音声信号がデジタル化されていない場合には、マルチチャネル・エンコーダに入る前にデジタル化される。

（任意で前処理された）信号は、任意の信号結合部１２０に出力される。信号結合部１２０は、入力信号の線形結合などの様々な信号結合手順を実行して少なくとも第１の信号と第２の信号を作り出す複数の結合モジュールを有する。例えば、第１の符号化処理を主符号化処理とし、第１の信号を主信号とすることができる。第２の符号化処理はマルチステージ処理であり、例えば補助（副 (side) ）信号処理とすることができ、その場合、第２の信号は、ステレオ副信号 (stereo side signal) などの補助（副）信号とすることができる。従来のステレオ符号化では、例えば、ＬチャネルとＲチャネルの信号を足しその和信号を２で割って、第１の信号（主信号）として従来のモノラル信号を出力する。ＬチャネルとＲチャネルを引き算しその差信号を２で割って、第２の信号として従来の副信号を出力することもできる。本発明によれば、信号結合部において、異なるチャネルの少なくとも一部からの信号の寄与を重み付けして、さまざまな種類の線形結合や他の種類の信号結合を実行することができる。本発明が使用する信号結合は２つのチャネルに限定されるわけではなく、多数のチャネルを含みうることはいうまでもない。図５に示されるように、２以上の付加（副）信号をを生成することも可能である。入力チャネルの１つを直接第１の信号として、もう１つの入力チャネルを第２の信号として使用することも可能である。ステレオ符号化に関しては、例えば、Ｌチャネルを主信号として使用し、Ｒチャネルを副信号として使用してもよいし、あるいはその逆でもよい。この他にも変形例は多数存在する。

第１エンコーダ１３０に第１の信号が入力されると、エンコーダ１３０は適切な符号化原理に従って第１の信号（主信号）を符号化する。その原理は従来技術を利用できるため、その詳細な説明は省略する。

第２の信号は、第２マルチステージ・エンコーダ１４０に供給され、そこで第２の信号（補助／副信号）が符号化される。

また、マルチチャネル・エンコーダはコントローラ１５０を備える。コントローラ１５０は少なくとも、マルチステージ・エンコーダ１４０の符号化ステージ間に、第２のマルチステージ信号符号化で利用可能なビットを適応的に割り当てるビット割り当てモジュールを有する。マルチステージ・エンコーダは、２つ以上の符号化部を有するマルチユニット・エンコーダとも呼ばれる。

例えば、マルチステージ・エンコーダ１４０のステージの１つの性能が飽和している場合、その特定の符号化ステージに割り当てられるビット数を増加してもほとんど意味がない。全体として大きな性能改善をするためには、その代わりに、マルチステージ・エンコーダ内の別の符号化ステージにより多くのビットを割り当てたほうがよいであろう。このため、少なくとも１つの符号化ステージの推定性能に基づいてビット割り当てを行うのが好適であるといえる。特定の符号化ステージへのビットの割り当ては、例えばその符号化ステージの推定性能に基づいてもよい。しかし代替の実施形態では、符号化ビットは、符号化ステージ全体の総合性能に基づき異なる符号化ステージ間に一緒に割り当てられる。

もちろん、マルチチャネル・エンコーダ装置全体に対する全体のビット割り当て量があり、その全体のビット割り当て量は、第１エンコーダ１３０と、マルチステージ・エンコーダ１４０と、公知の原理により実現可能な他のエンコーダ・モジュールとの間で分割される。以下では、マルチステージ・エンコーダで利用可能なビット割り当て量をどのようにその異なる符号化ステージ間に割り当てるかについて重点的に説明する。

第２符号化処理で利用可能なビット割り当て量は、チャネル間相関特性などのマルチチャネル音声信号の所定の特性に基づき、マルチステージ・エンコーダの異なる符号化ステージ間に、適応して割り当てられるのが好ましい。この方法が特に役に立つのは、第２マルチステージ・エンコーダがチャネル間予測（ＩＣＰ）ステージなどのパラメトリック符号化ステージを有するときである。チャネル間（例えば、入力チャネルの第１の信号と第２の信号との間）の相関が弱い場合には、マルチチャネル又はステレオの符号化手段としてのパラメトリック・フィルタでは多くの場合、対象信号の予測値は精度の悪いものとなる。したがって、フィルタ量子化に対する割り当てビット数を増やしても、大幅な性能の向上は見込めない。（ＩＣＰ）フィルタ及び一般的なパラメトリック符号化の性能はこのように飽和するので、ビット利用に関しては、これらの技術では効率が悪い。しかし、そのビットは例えばノンパラメトリック符号化などの別の符号化ステージで別の符号化で使用でき、そうすれば、総合性能を一層向上させることができる。

特定の実施形態では、本発明は、パラメトリックとノンパラメトリックのハイブリッド・マルチステージ信号符号化処理を含み、パラメトリックとノンパラメトリックの符号化ステージ間に利用可能な符号化ビットを効率的に割り当てる。このようにパラメトリック表現とノンパラメトリック符号化との長所を活かして、パラメトリック手法の品質飽和の問題を克服する。

特定の符号化ステージに対して、ビットは、例えば以下の手順に基づき割り当てられるとよい。
・符号化ステージに割り当てられると仮定されたビット数に従い、符号化ステージ性能を推定する。
・符号化ステージの推定性能を評価する。
・推定性能の評価に基づき、第１の符号化ステージに第１のビット量を割り当てる。

２つのステージだけを使用し、推定性能に基づき第１のビット量を第１のステージに割り当てた場合には、残りの符号化ビット量を第２の符号化ステージに単に割り当てるようにすればよい。

一般に、ビットの割り当ては、追加的なステージの性能又は２つ以上のステージ全体の性能に依存するようにするとよい。前者の場合は、追加的な符号化ステージの推定性能に基づいてビットをその追加的な符号化ステージに割り当てるとよい。後者の場合は、ビット割り当ては、例えば、パラメトリック表現とノンパラメトリック表現の両方を合成した全体の性能に基づくとよい。

例えば、ビット割り当ての変更をしても適切な評価基準によっても大幅な性能の向上が見込めないときは、マルチステージ・エンコーダにおける異なるステージ間のビットの割り当てに従いビット割り当てを決定してもよい。特に、性能の飽和に関して、割り当てビット数をそれ以上に増加しても適切な評価基準によってもあるステージの性能の大幅な向上がないときは、そのステージに割り当てられるビット数を、当該ビット数に決定してもよい。

上記のように、第２マルチステージ・エンコーダは、図５に示されるように、第１の信号及び第２の信号に基づき、第２の信号の予測に対する適応チャネル間予測（ＩＣＰ）ステージを有してもよい。第１の信号（主信号）情報は、第１エンコーダからの破線で示されるように、第１エンコーダ１３０が生成する符号化パラメータから同様に推定するようにしてもよい。この場合、ＩＣＰステージに「続いて」誤差符号化ステージを使用するのが適切なこともある。例えば、信号予測の第１適応ＩＣＰステージは、第１及び第２の信号に基づき信号復元データを生成し、第２符号化ステージは信号予測誤差に基づき信号復元データをさらに生成する。

コントローラ１５０は、第１の信号及び第２の信号及びマルチステージ（副）エンコーダ１４０の１つ以上のステージの性能に応じて、ビット割り当てを行うように設定されるのが好ましい。

図５に示されるように、２以上であるＮ通りの信号（それぞれの入力チャネルが個別の信号として直接入力される例も含む）が入力されてもよい。好適には、第１の信号は主信号であり、残りのＮ−１の信号は副信号などの補助信号である。各補助信号は、ビット割り当てを適応制御するマルチステージ・エンコーダ又は専用の補助（副）エンコーダで個別に符号化されるのが好ましい。

エンコーダ１３０、１４０の出力信号は、コントローラ１５０からのビット割り当て情報を含み、マルチプレクサ部１６０で１つの伝送（又はストレージ）信号に多重化されるのが好ましい。しかし、その代わりに、出力信号は個別に伝送（又は保存）されてもよい。

本発明の拡張として、（例えば、チャネル間予測のために）使用するビット割り当てとフィルタ次元数／長さの組み合わせを選択し、第２符号化処理の性能を表す測定値を最適化することも可能である。選択されたフィルタ次元数／長さとそれにより発生する量子化誤差との間にトレードオフがあるだろう。アイデアは性能測定値を使用し、それに対応してフィルタ長と必要なビット量を変更することにより最適値を見つけることである。

符号化／復号化及び関連するビット割り当ては、たいていフレームごとに実施されるが、符号化／復号化及びビット割り当ては、信号適応最適化フレーム処理を可能にする可変サイズのフレームで実施するようにすることもできる。このことは、追って説明するように、性能測定値を最適化するさらに大きい自由度を提供する可能性も与える。

図６は、本発明の好適な実施形態による基本マルチチャネル符号化手順を説明するフローチャートである。ステップＳ１では、１つ以上の音声チャネルの第１の信号が、第１信号符号化処理で符号化される。ステップＳ２では、第２信号符号化処理で利用可能なビット割り当て量が、上記のようにチャネル間相関などのマルチチャネル入力信号特性に従って、第２マルチステージ信号符号化処理の異なるステージ間に割り当てられる。異なるステージ間のビットの割り当ては、一般にフレームごとに変わってもよい。本発明が提案するビット割り当てのさらに詳細な実施形態は後述する。ステップＳ３では、第２の信号が、ビット割り当て量に沿って第２マルチステージ信号符号化処理で符号化される。

図７は、本発明の好適な実施形態による対応するマルチチャネル復号化手順を説明するフローチャートである。ステップＳ１１では、符号化された第１の信号が、符号化側から受信した第１の信号復元データに応答して、第１の信号復号化処理で復号される。ステップＳ１２では、専用のビット割り当て情報が符号化側から受信される。ビット割り当て情報は、第２の符号化に対するビット割り当て量が符号化側の異なる符号化ステージ間にどのように割り当てられたかを表す。ステップＳ１３では、符号化側から受信した第２の信号復元データが、受信したビット割り当て情報に基づき変換される。ステップＳ１４では、符号化された第２の信号が、変換された第２の信号復元データに基づき、第２マルチステージ信号復号化処理で復号される。

全体の復号化処理は、周知のものであり、基本的には、着信データストリームの読み取り、データの変換、逆量子化、マルチチャネル音声信号の復元を含む。復号化手順の詳細は、本発明の実施形態に従い後述する。

以下の実施形態の説明は、主にステレオ（２チャネル）の符号化及び復号化に関するが、本発明は一般に多数のチャネルに適応可能であることに留意すべきである。その例として、５．１（前左、前中央、前右、後左、後右及びサブウーファ）又は２．１（左、右及び中央サブウーファ）マルチチャネル音の符号化／復号化が挙げられるがそれに限定されるものではない。

図８は、本発明の好適な実施形態による（ステレオ）エンコーダの関連部分を示すブロック図である。（ステレオ）エンコーダは基本的に、標準的なモノラル信号などの第１の信号（主信号）を符号化する第１（主）エンコーダ１３０、（補助／副）信号を符号化する第２マルチステージ（補助／副）エンコーダ１４０、コントローラ１５０及び任意のマルチプレクサ部１６０を備える。この特定の例では、補助／副エンコーダ１４０は、２つ（又はそれ以上）のステージ１４２、１４４を備える。第１のステージ１４２すなわちステージＡは、主信号及び副信号に応じて量子化フィルタ係数などの副信号復元データを生成する。第２のステージ１４４すなわちステージＢは、残留符号化器であることが好ましく、その残留符号化器は、第１のステージ１４２からの残留誤差を符号化／量子化し、それによりステレオ復元品質を向上するために追加の副信号復元データを生成する。コントローラ１５０は、ビット割り当てモジュール、フィルタ次元数を制御する任意のモジュール、及び可変フレーム長処理を制御する任意のモジュールを備える。コントローラ１５０は、出力データとして、副信号符号化に利用可能なビット割り当て量が副エンコーダ１４０の２つの符号化ステージ１４２、１４４の間にどのように割り当てられるかを表すビット割り当て情報を少なくとも出力する。量子化フィルタ係数、量子化残留誤差及びビット割り当て情報を含む情報セットは、主信号符号化パラメータとともに、マルチプレクサ部１６０で１つの伝送信号又はストレージ信号に多重化されるのが好ましい。

図９は、本発明の好適な実施形態による（ステレオ）デコーダの関連部分を示すブロック図である。（ステレオ）デコーダは基本的に、任意のデマルチプレクサ部２１０、第１（主）デコーダ２３０、第２（補助／副）デコーダ２４０、コントローラ２５０、任意の信号結合部２６０及び任意の後処理部２７０を備える。デマルチプレクサ２１０は、第１の信号（主信号）復元データ、第２の信号（補助／副信号）復元データ、及びビット割り当て情報等の制御情報などの着信復元情報を分離するのが好ましい。第１（主）デコーダ２３０は、符号化パラメータを表す第１の信号（主信号）の形態で普通提供される第１の信号（主信号）復元データに応じて、第１の信号（主信号）を「復元」する。第２（補助／副）デコーダ２４０は、２つ（又はそれ以上）の復号化ステージ２４２、２４４を備えることが好ましい。復号化ステージ２４４すなわちステージＢは、符号化／量子化された残留誤差情報に応えて、残留誤差を「復元」する。復号化ステージ２４２すなわちステージＡは、量子化フィルタ係数、復元された第１の信号及び復元された残留誤差に応じて、第２の信号を「復元」する。第２デコーダ２４０も、コントローラ２５０により制御される。コントローラは、符号化側からビット割り当て情報ならびに任意でフィルタ次元数及びフレーム長の情報を受信し、それに対応して副デコーダ２４０を制御する。

以下では、本発明の十分な理解に資するために、チャネル間予測などのパラメトリック符号化原理に基づく様々な例示の実施形態を参照して、本発明を詳細に説明する。

（チャネル間予測を使用するパラメトリック・ステレオ符号化）
一般に、チャネル間予測（ＩＣＰ）技術は、チャネル間に内在するチャネル間相関を利用する。ステレオ符号化では、チャネルは普通、左信号ｌ（ｎ）と右信号ｒ（ｎ）により表される。それと等価の表現は、モノラル信号ｍ（ｎ）（主信号の特殊な場合）及び副信号ｓ（ｎ）である。両方の表現は同等であり、通常は従来の行列演算で関連付けられる。

図１０Ａに示されるように、ＩＣＰ技術では予測値＾Ｓ（ｎ）で副信号ｓ（ｎ）を表すことを狙いとしている。予測値＾Ｓ（ｎ）は、モノラル信号ｍ（ｎ）を次式で表されるＮ個のフィルタ係数ｈ_t（ｉ）を有する時変ＦＩＲフィルタＨ（ｚ）でフィルタリングすることで取得される。

同じ方法が、左チャネルと右チャネルにも直接適用できることに注意すべきである。

エンコーダで推定されるＩＣＰフィルタは、副信号予測誤差ｅ（ｎ）の例えば平均二乗誤差（ＭＳＥ）又は関連する性能測定値、例えば心理音響的に重み付けした平均二乗誤差を最小化することで推定されうる。ＭＳＥは、通常次式で求められる。

上式で、Ｌはフレームサイズ、ＮはＩＣＰフィルタの長さ(length)／次数(order)／次元(dimension)である。簡単に言うと、ＩＣＰフィルタの性能ひいてはＭＳＥの大きさは、最終的にステレオ分離を決定する主要因である。副信号は左チャネルと右チャネルとの間の差を表現するので、正確な副信号の再現は十分な広がりのあるステレオ音像を確実にするのに必要不可欠である。

最適なフィルタ係数は、全サンプルにわたる予測誤差のＭＳＥを最小化することで見つけられ、次式で求められる。

式（４）の相関ベクトルｒ及び共分散行列Ｒは、以下により定義される。

ただし、

式（５）を式（３）に代入することにより、（量子化されていない）ＩＣＰフィルタの最小ＭＳＥ（ＭＭＳＥ）に関する単純化した代数式が得られる。

ただし、Ｐ_ssは副信号の電力であり、ｓ^Tｓとも表される。

ｒ＝Ｒｈ_optを式（７）に代入すると、次式が得られる。

ＲをＬＤＬＴ因数分解（文献[12]（非特許文献９）参照）すると、次の等式が得られる。

ここでまず、反復的な方法でｚを解く。

これから新しいベクトルｑ＝Ｌ^Tｈを導入する。行列Ｄは対角成分だけ０でない値をとるので、ｑを見つけるのは容易である。

求めるフィルタ・ベクトルｈは、式（１０）と同じ方法で反復的に計算できる。

正則行列反転に比べて計算量が節約できることのほかに、この解決策は異なる次元数ｎ（フィルタ長）に相当するフィルタ係数を効率的に計算する可能性を提供する。

最適ＩＣＰ（ＦＩＲ）フィルタ係数ｈ_optが推定され、量子化され、フレームごとにデコーダに送信されうる。

（残留符号化によるマルチステージ・ハイブリッド・マルチチャネル符号化）
図１０Ｂは、モノラル符号化とマルチステージ・ハイブリッド副信号符号化とを有するオーディオエンコーダを示している。モノラル信号ｍ（ｎ）は、復号化側に転送するために、符号化され量子化（Ｑ₀）される。副信号予測用のＩＣＰモジュールは、ＦＩＲフィルタＨ（ｚ）を提供し、それは、復号化側への転送のため量子化（Ｑ₁）される。追加の品質は、副信号予測誤差ｅ（ｎ）を符号化及び／又は量子化（Ｑ₂）することにより取得してもよい。残留誤差が量子化されるとき、符号化はもはや純粋にパラメトリックと呼ぶことはできないので、副エンコーダはハイブリッド・エンコーダと呼ばれることに注意のこと。

（適応ビット割り当て）
本発明は、チャネル間相関が弱いと副信号予測の精度が悪化するという認識を基にしている。他方、チャネル間相関が強ければ多くの場合、副信号予測の精度は高い。

図１１の（ａ）は、モノラル信号及び副信号ならびにモノラル信号と副信号との間のチャネル間相関を示す周波数領域特性図である。チャネル間相関は単に相互相関とも呼ぶ。図１１の（ｂ）は、元の副信号と共に予測副信号を示す、図１１の（ａ）に対応する時間領域特性図である。

図１１の（ｃ）は、別のモノラル信号及び副信号ならびにその相互相関を示す周波数領域特性図である。図１１の（ｄ）は、元の副信号と一緒に予測副信号を示す、図１１の（ｃ）に対応する時間領域特性図である。

チャネル間相関が強いと対象信号の予測値の精度は高く、その反対に、チャネル間相関が弱いと、対象信号の予測値の精度は低いものとなる。生成される予測値がフィルタ量子化の前でさえ不正確である場合には、フィルタ量子化に多くのビットを割り当てる意味はない。その代わりに、少なくともビットの一部を、副信号予測誤差のノンパラメトリック符号化などの異なる符号化で使用する方が、全体の性能を向上させることができ、役に立つと思われる。相関が強い場合は、比較的少ないビットでフィルタを量子化しても、非常に正確な結果を取得することが可能なことも時にはある。他の例では、相関が比較的強い場合でさえ、量子化にはビット量を多く使用しなくてはならなくて、この量のビットを使用することはビット割り当ての視点から「経済的」かどうか判定しなければならないだろう。

特定の実施形態では、コーデックは、ＩＣＰフィルタにより提供されるパラメトリック・ステレオ表現と残留誤差符号化などのノンパラメトリック表現の両方の長所の組み合わせに基づいて、ある意味ではステレオ入力信号の特性に従って、適応させて設計されるのが好ましい。

図１２は、本発明の特定の実施形態による、マルチステージ副エンコーダと共に適応ビット割り当てコントローラを示す概略図である。

先に示唆したように、利用可能なビット割り当て量を十分に活用し、ステレオ信号再生品質をさらに向上するために、少なくとも第２の量子化器を使用して、すべてのビットが予測フィルタの量子化に回されるのを防ぐ必要があるだろう。第２の量子化器の使用により、本発明で利用できる自由度が大きくなる。したがって、マルチステージ・エンコーダは、ＩＣＰフィルタなどのフィルタと関連する第１の量子化器Ｑ₁とを有する第１のパラメトリック・ステージならびに第２の量子化器Ｑ₂に基づく第２のステージを有する。

ＩＣＰフィルタの予測誤差、すなわち、ｅ（ｎ）＝ｓ（ｎ）−＾Ｓ（ｎ）は、通常は波形コーダ若しくは変換コーダ又は両方の組み合わせのノンパラメトリック・コーダを使用して量子化される。そうではあるが、ＣＥＬＰ（符号励振線形予測）符号化などの他の種類の予測誤差の符号化を使用することも可能なことは理解されるべきである。

副信号符号化処理に対する合計ビット割り当て量は、Ｂ＝ｂ_ICP＋ｂ₂であり、ここでｂ_ICPはＩＣＰフィルタの量子化用のビット数であり、ｂ₂は残留誤差ｅ（ｎ）の量子化用のビット数である。

最適なのは、符号化ステージの全体の性能に基づき、ビットが異なる符号化ステージ間に一緒に割り当てられることであり、図１２に、ビット割り当てモジュールにｅ（ｎ）とｅ₂（ｎ）とを入力することで概要を示す。知覚的に重み付けした判断で、合計誤差ｅ₂（ｎ）の最小化に努めることは妥当なことがある。

もっと簡潔で直接的な実装は、ビット割り当てモジュールが第１のパラメトリック（ＩＣＰ）フィルタリング手順の性能に基づき第１の量子化器にビットを割り当て、残りのビットを第２の量子化器に割り当てる。パラメトリック（ＩＣＰ）フィルタの性能は、予測誤差ｅ（ｎ）のＭＳＥ又は知覚加重ＭＳＥなどの忠実度評価基準に基づくのが好ましい。

パラメトリック（ＩＣＰ）フィルタの性能は、通常、利用可能なビットレートに加えて、異なる信号フレームの特性とともに変わる。

例えば、チャネル間相関が弱い場合には、フィルタ量子化の前でさえ、ＩＣＰフィルタリング手順で生成される対象（副）信号の予測値の精度は低い。したがって、そこにより多くのビットを割り当てても大幅な性能の改善は見込めない。その代わりに、第２の量子化器にもっと多くのビットを割り当てたほうがよい。

他の例では、モノラル信号と副信号との間の冗長性は、あるビットレートで量子化されたＩＣＰフィルタの独占的使用で十分に除去でき、したがって第２の量子化器にビットをより多く割り当てるのは効率が悪いだろう。

ＩＣＰ性能の内在的な限界は、モノラル信号と副信号との間の相関度の直接の結果である。ＩＣＰの性能は、非量子化フィルタが提供できる最大達成可能性能により常に制限される。

図１３は、量子化ＩＣＰフィルタ性能がビット量でどのように変化するかの典型的な事例を示している。一般的な忠実度評価基準ならどれでも使用してよい。品質測定値Ｑの形態の忠実度評価基準を使用してもよい。そのような品質測定値は、例えば信号対雑音比（ＳＮＲ）に基づいてもよく、その場合はＱ_snrと表される。例えば、副信号電力と副信号予測誤差ｅ（ｎ）のＭＳＥとの比に基づく品質測定値は、次式で表せる。

最小のビットレートｂ_minがあり、そのビットレート以上では、ＩＣＰの使用によって、１すなわち０ｄＢを超えるＱ_snrの値で特徴付けられる改善が得られる。明らかに、ビットレートが増加するとき、その性能は非量子化フィルタＱ_maxの性能に達する。他方、量子化にｂ_maxビットを超えて割り当てても、品質は飽和してしまう。

通常は、適切な測定基準で判定して、それ以上のビットレートでは性能がもはやあまり向上しない、ビットレートより低いビットレートの中から選択される（図１３のｂ_opt）。選択評価基準は、特定のアプリケーション及びその固有の要件に従って、通常は計画される。

モノラル／副相関が０に近い問題のある信号に対しては、ＩＣＰフィルタリングはまったく使用せず、代わりにビット割り当て量全部を第２の量子化器に割り当てるほうがよい。同じ種類の信号に対して、第２の量子化器の性能が十分でない場合、信号は純粋なパラメトリックＩＣＰフィルタリングを使用して符号化してもよい。

一般に、フィルタ係数はベクトルとして取り扱われ、そのベクトルはベクトル量子化（ＶＱ）を使用して効率的に量子化される。フィルタ係数の量子化は、ＩＣＰ符号化手順の最も重要な面の１つである。当然のことながら、フィルタ係数に関して持ち込まれる量子化雑音は、ＭＳＥの減少に直接関連することがある。

ＭＭＳＥは、前記したとおり、以下のように定義されている。

ｈ_optの量子化は、次式で表される量子化誤差ｅを生じる。

新しいＭＳＥは、次式のように表される。

Ｒｈ_opt＝ｒなので、式（１６）の最後の２項は打ち消され、量子化フィルタのＭＳＥは次式のようになる。

この意味することは、少しでも予測利得を得るためには、量子化誤差項の値は予測項の値未満、すなわち、

である必要があるということである。

図１４から、ＩＣＰフィルタ量子化に関してｂ_minビット未満を割り当てても、副信号予測誤差エネルギが減らないことがわかる。実際のところ、予測誤差エネルギは対象副信号のエネルギを超え、ＩＣＰフィルタリングを使用することは不合理である。これにより、信号表現及び符号化の手段としてＩＣＰを使用するのに適した範囲の下限が設定される。それ故、好適な実施形態ではビット割り当てコントローラは、これをＩＣＰに対する下限とみなすことになる。

フィルタ係数を直接量子化するのは多くの場合、良い結果が得られないので、むしろ、

の項を最小化するようにフィルタを量子化すべきである。望ましい歪み測定値の例は、次式により与えられる。

この式は、重み付きベクトル量子化（ＶＱ）手順の使用を示唆する。類似の重み付き量子化器は、［８］（非特許文献５）の音声圧縮アルゴリズムで使用されている。

予測重み付きベクトル量子化を使用する場合には、ビットレートに関しても明確な利点を得ることができる。実際には、上記のコンセプトから得られる予測フィルタは一般に時間に関係する。

図１２にもう一度戻って、ビット割り当てモジュールは、相関ベクトルｒ及び共分散行列Ｒを計算するために、入力として主信号ｍ（ｎ）と副信号ｓ（ｎ）とを必要とすることが理解されてもよい。明らかに、ｈ_optも量子化フィルタのＭＳＥ計算のために必要である。対応する品質測定値は、ＭＳＥから推定してもよく、ビット割り当ての基礎として使用してもよい。可変サイズのフレームが使用される場合、一般にビット割り当てモジュールにフレームサイズ情報を提供する必要がある。

本発明の好適な実施形態によるステレオ・デコーダを示す図１５を参照して、復号化手順を詳細に説明する。デマルチプレクサは、受信するステレオ復元データをモノラル信号復元データ、副信号復元データ、及びビット割り当て情報に分離するために使用してもよい。モノラル信号はモノラルデコーダで符号化され、そのモノラルデコーダは復元された主信号予測値＾ｍ（ｎ）を生成する。フィルタ係数は量子化ＩＣＰフィルタ＾Ｈ（ｚ）を復元するため、逆量子化で復号化される。副信号＾ｓ（ｎ）は量子化ＩＣＰフィルタ＾Ｈ（ｚ）を通して、復元されたモノラル信号＾ｍ（ｎ）をフィルタリングすることで復元される。品質改善のために、予測誤差＾ｅ_s（ｎ）は、逆量子化Ｑ₂ ^-1で復元され、副信号推定値＾ｓ（ｎ）に加えられる。最終的に、出力ステレオ信号は次式のように求められる。

副信号品質、したがってステレオ品質は、残留誤差符号化と、モノラル再生及びＩＣＰフィルタ量子化の正確さとの両方により影響されることに留意することは大事である。

（可変レート・可変次元数フィルタリング）
前述のように、所与の性能測定値を最適化するために、（例えば、チャネル間予測のために）使用されるビット割り当てとフィルタ次元数／長さとの組み合わせを選択することも可能である。

第１の符号化ステージの性能を表す測定値又はマルチステージ（補助／副）エンコーダの符号化ステージの合成を最適化するために、第１の符号化ステージに割り当てられるビット数と第１の符号化ステージで使用されるフィルタ長との組み合わせを選択することが、例えば好都合なこともある。

例えば、ノンパラメトリック・コーダがパラメトリック・コーダを伴うと仮定すると、ＩＣＰフィルタリングの目標は、予測誤差のＭＳＥを最小化することであってもよい。フィルタ次元数を増加することにより、ＭＳＥを減少できることは知られている。しかし、信号フレームによっては、モノラル信号と副信号は振幅だけが異なり、時間的並びが同じものもある。したがって、この場合は１つのフィルタ係数で十分であろう。

前述のように、異なる次元数でフィルタ係数を繰り返し計算することは可能である。フィルタは対称行列Ｒとベクトルｒにより完全に決定されるので、異なる次元数のＭＭＳＥを繰り返し計算することも可能である。式（８）に、

を代入すると次式が得られる。

ただし、ｄｉ≧０，∀ｉである。したがって、フィルタ次元数を増加するとＭＭＳＥが減少する。それ故、各次元に対してｒ^Tｈ_optを再計算する必要なしに、追加のフィルタ次元数が提供する利得を計算することは可能である。

フレームによっては、長いフィルタを使用すると利得が顕著なものもあるが、長いフィルタの使用による性能の増加がほぼないに等しいものもある。このことは、チャネル間の最大の非相関処理が長いフィルタの使用なしで達成されることがあることで説明される。このことが特に当てはまるのは、チャネル間相関量が弱いフレームである。

図１６は、フィルタ次元数に対する平均の量子化誤差及び予測誤差を示す。量子化誤差は、ビットレートが固定されているので、次元数とともに増加する。すべての場合に、長いフィルタの使用は性能の向上につながる。しかし、図１６に示されるように長いベクトルの量子化は、ビットレートが固定されている場合、量子化誤差も大きくなる。フィルタが長くすると性能向上の可能性もあるが、性能向上に結び付けるにはより多くのビットが必要である。

可変レート／可変次元数方式のアイデアは、ビット増によって大幅に性能が向上するフレームに対してのみ正確なフィルタ量子化が実施されるように、（ＩＣＰ）フィルタの一様でない性能を利用することである。

図１７は、異なるビット数で異なる次元数を量子化するときに達成される総合品質を示す。例えば、最小のＭＳＥを与える次元数とビットレートとの組み合わせを選択するとき、最高品質が達成されるように、目的を規定してもよい。量子化ＩＣＰフィルタのＭＳＥは次式で定義されている。

性能は、選択されたフィルタ次元数ｎとそれにより発生する量子化誤差とのトレードオフであるとみなすことができる。このことは図１７に示されており、そこでは、ビットレートの範囲が異なるところでは、次元数が異なると性能も異なる。

（ＩＣＰ）フィルタに対する必要なビットの割り当ては、Ｑ_N,max曲線に基づき効率的に実施される。この最適な性能−レート曲線Ｑ_N,maxは、フィルタ次元数とそれに対応して必要なビット量とを変更することで取得できる最適性能を示す。このカーブが、ビットレート（及び関連する次元数）を増加しても性能／品質測定値Ｑ_snrをわずかしか改善しない領域を示していることも興味深い。通常これらの水平領域では、（ＩＣＰ）フィルタの量子化のビット量を増加しても著しい向上は達成できない。

もっと単純だが次善の方法は、例えば合計ビット数と次元数との一定の比を作り、次元数に比例して合計ビット量を変更することを備える。次いで、可変レート／可変次元数符号化は、ＭＳＥの最小化につながる次元数（又は同等にビットレート）の選択を含む。

別の実施形態では、次元数は固定されて、ビットレートが変更される。閾値のセットを用いて、例えば図１８に記述されるＭＳＱＶの手法（文献［１３］（非特許文献１０））で追加のステージを選択することで、フィルタの量子化にもっとビットを使用することが実行可能かどうかを判定する。

可変レート符号化は、主（モノラル）信号と副信号との間に様々な相関特性があることが、使用される直接の原因となっている。相関が弱い場合は、次元の低いフィルタを符号化するためにほんの少しのビットが割り当てられる一方で、ビット割り当て量の残りはノンパラメトリック・コーダで残留誤差の符号化のために使用できる。

（チャネル間予測に基づくパラメトリック符号化の改善）
簡単に述べたように、主／副の相関が０に近い場合は、ＩＣＰフィルタリングを全然使用しないで、その代わりビット割り当て量全部を第２の量子化器に割り当てたほうがよいことがある。同じ種類の信号に関しては、第２の量子化器の性能が十分でない場合、信号は純粋なパラメトリックＩＣＰフィルタリングを使用して符号化してもよい。後者の場合は、許容できるステレオ又はマルチチャネルの復元を提供するため、ＩＣＰフィルタリング手順をいくぶん変更するのがよいこともある。

この変更形態の意図は、チャネル間予測（ＩＣＰ）だけに基づきステレオ又はマルチチャネルの符号化演算をして、それにより低ビットレート運用を可能にすることである。実際のところ、副信号復元がＩＣＰフィルタリングだけに基づく手法では、モノラル信号と副信号の相関が弱ければ多くの場合、品質が劣化するであろう。このことは、フィルタ係数の量子化後、特に当てはまる。

（共分散行列修正）
パラメトリック表現だけが使用される場合、目的はもはやＭＳＥだけを最小化することではなく、モノラル信号と副信号との相関がない事例にうまく対処できるように、ＭＳＥと平滑化及び正則化を結びつけることである。

非公式のリスニングテストによれば、ＩＣＰフィルタによって生じる符号化歪み (coding artifacts) はステレオ帯域の一時的な減少よりも耳障りなものとして知覚されることが分かった。それ故、ステレオ帯域すなわち副信号エネルギは、問題のあるフレームに遭遇したときはいつも意図的に減らされる。最悪の場合、すなわちＩＣＰフィルタを全く作用させない場合は、その結果生じるステレオ信号は純粋なモノラルになる。

共分散行列Ｒと相関ベクトルｒから、実際のフィルタリングを実施しないで、期待される予測利得を計算することは可能である。符号化歪みは、予期される予測利得が低いときか又は同等にモノラル信号と副信号との相関が弱いとき、復元された副信号に主に存在することがわかっている。このため、フレーム分類アルゴリズムに従い予測利得の推定レベルに基づき分類を実行する。予測利得（又は相関）がある閾値以下に下がるとき、ＩＣＰフィルタを推定するために使用される共分散行列は、次式により修正される。

ρの値は、様々な修正レベルを容易に利用できるようにするため適応させてもよい。修正されたＩＣＰフィルタは次式により計算される。

明らかに、ＩＣＰフィルタのエネルギは低減され、それによって復元される副信号のエネルギも低減する。持ち込まれた推定誤差を減少する他のスキームも、もっともらしく思われる。

（フィルタ平滑化）
連続したフレーム間のＩＣＰフィルタ特性の急激な変化により、復元されたステレオ音像に邪魔なエイリアシング歪みと不安定な状態が起こる。この原因は、予測アプローチによって固定フィルタリング手法とは対照的に大きなスペクトル変動が生じることにある。

類似の効果は、近隣のサブバンドのスペクトル成分が異なって修正されるとき、ＢＣＣにも存在する［５］（非特許文献２）。この問題を回避するため、ＢＣＣは、分析と合成の両方でオーバーラッピング・ウィンドウを使用する。

オーバーラッピング・ウィンドウの使用によって、ＩＣＰのエイリアシング問題も解決される。しかし、この方法は、ＭＳＥのかなり大幅な減少という犠牲を伴う。その理由は、フィルタ係数が現在のフレームに対してもはや最適ではないからである。コスト関数の修正が示唆される。それは、次式で定義される。

上式で、ｈ_tとｈ_t-1はそれぞれ、フレームｔとフレーム（ｔ−１）におけるＩＣＰフィルタである。式（２３）の偏導関数を計算し０に設定すると、次式で表される新しい平滑化ＩＣＰフィルタが求められる。

平滑化係数μは以前のＩＣＰフィルタの寄与を決定し、それにより平滑化のレベルを制御する。提案のフィルタ平滑化は、効率的に符号化歪みを取り除き、ステレオ音像を安定させる。しかし、これには、ステレオ音像帯域の減少という犠牲が伴う。

平滑化によるステレオ音像帯域減少の問題は、平滑化係数を適応させることで克服できる。現在のフレームに適用される以前のフィルタの予測利得が大きいとき、大きな平滑化係数が使用される。しかし、以前のフィルタが予測利得の悪化をもたらす場合、平滑化係数は徐々に下げられる。

（周波数帯域処理）
以前示唆されたアルゴリズムは、周波数帯域処理を利用してよい結果を得る。実際のところ、空間音響心理学の教えるところでは、低い周波数の音の定位の支配的なきっかけはチャネル間の時間差であり［６］（非特許文献３）、一方高い周波数ではチャネル間のレベル差である。この示唆するところは、ステレオ又はマルチチャネルの復元に当たっては、スペクトムの異なる領域は、異なる方法及び異なるビットレートを使用して符号化することで利益を得ることができるということである。例えば、適応制御ビット割り当てを行うパラメトリックとノンパラメトリックのハイブリッド符号化は、低周波数帯域で実施でき、他の符号化スキームには高周波数帯域で使用できるものがある。

（可変長最適化フレーム処理）
可変フレーム長に関しては、符号化フレームは、様々なフレーム分割構成に従って、一般に相当数のサブフレームに分割してもよい。サブフレームのサイズは異なってもよいが、所与のフレーム分割構成のどれをとっても、サブフレームの長さの合計は、通常全体の符号化フレームの長さに等しい。例として引用によって本明細書に援用する同時係属の米国特許出願第１１／０１１７６５号及び対応国際出願ＰＣＴ／ＳＥ２００４／００１８６７に記載されるように、複数の符号化スキームが提供されている。ここで、各符号化スキームは、それぞれのサブフレームを全部合わせると全体の符号化フレーム（マスタフレームとも呼ばれる）を構成するサブフレームセットを特徴とするか、又はそれに関連する。好ましくは、符号化される信号の信号コンテンツに少なくとも一部依存して、特定の符号化スキームが選択され、次いで信号は、選択されたサブフレームセットの各サブフレームでそれぞれ符号化される。

一般に符号化は、通常１度に１フレーム実施され、各フレームは通常所定の時間枠内の音声サンプルを備える。サンプルをフレームに分割すると、フレームの境界に切れ目が生じることが避けられない。音の変化に応じて符号化パラメータが変化するのだが、符号化パラメータは基本的に各フレーム境界で変化することになる。これが、知覚されてしまうような誤差となりうる。これを少しでも補償する一方法は、符号化されるサンプルだけでなく、フレームの絶対的に近いサンプルも基にして符号化することである。その方法で、異なるフレーム間の遷移が滑らかになるだろう。その代わりにあるいは追加的に、フレーム境界で生じる知覚歪みを減少させるために補間法も使用される。しかし、そのような手順はいずれも、大量の追加的な演算リソースが必要となり、そのような符号化技術に対してリソースを配分することは困難となる可能性もある。

この観点から考えると、フレームの境界数が少なくなるように、なるべく長いフレームを使用するほうが都合がよい。また、符号化効率も高くなり、必要な伝送ビットレートも低くできる。しかし、フレームが長いと、プリエコーやゴーストのような音の問題を引き起こす。

逆に短いフレームを利用すると、符号化効率は減少して伝送ビットレートは高くなり、フレーム境界の歪みの問題が増加するだろうことは、当業者なら誰でも理解するであろう。しかし、フレームが短くなると、例えばゴーストのような音やプリエコーなどの知覚歪みの影響であまり困ることはなくなる。符号化誤差をなるべく少なくするためには、できるだけ短いフレーム長を使用すべきである。

したがって、フレーム長については相反する要件が有るように見える。それ故、音声知覚のためには、符号化する信号に存在する信号特性に基づいたフレーム長を使用するのが好ましい。音声知覚に関するフレーム長の影響は符号化する音の性質に依存して異なるだろうから、信号自体の性質を使用するフレーム長に関係させることで改善が見込める。特に、この手順は、副信号符号化に好都合であるとわかっている。

小さな一時的変動のために、例えば場合によっては、比較的長いフレームを使用して副信号を符号化するほうがよいこともある。これに相当するのは、コンサートの録音などの拡散音場が大きい録音のこともある。ステレオ音声会話などのそれ以外の場合には、短いフレームが好ましい。

例えば、使用されるサブフレーム長は、次式により選ぶことができよう。

ここで、ｌ_sfはサブフレーム長であり、ｌ_fは全体の符号化フレーム長であり、ｎは整数である。しかし、これが単なる例であることは理解されるべきである。サブフレームセットの合計長が一定に維持される限り、どのフレーム長も使用可能である。

どのフレーム長を使用するかの決定方法としては一般に、閉ループ決定又は開ループ決定の２つの基本的方法がある。

閉ループ決定を使用する場合、入力信号は通常すべての利用可能符号化スキームで符号化される。好ましくは、フレーム長のすべての可能な組み合わせがテストされ、目的の品質、例えば信号対雑音比や重み付き信号対雑音比について、最良の結果となる関連サブフレームセットを有する符号化スキームが選択される。

もう一方の手法は、信号の統計に基づく開ループ決定によるフレーム長の決定である。すなわち、この手法では、（副）信号のスペクトル特性が、どの符号化スキームを使用しようとしているかを決定する基礎として使用される。前述のように、様々なサブフレームセットを特徴とする様々な符号化スキームが利用可能である。しかし、この実施形態では、入力（副）信号がまず分析され、次に適切な符号化スキームが選択され利用される。

開ループ決定の利点は、実際にはただ１つの符号化しか実行しなくてもよいことである。反対に不利な点は、信号特性の分析が極めて複雑になることがあり、前もって起こりうる行動を予測することが難しいことである。音の統計的分析を、大量に実施しなければならない。符号化スキームの小さな変更でも、統計的性質が大幅に変わることもある。

閉ループ選択を使用すると、符号化スキームは実装に何らの変更を起こすことなく、交換することが可能である。他方、多くの符号化スキームが調査される場合、計算上の要件が厳しくなる。

入力（副）信号に対するそのような可変フレーム長符号化の利点は、一方で精細な時間解像度と粗い周波数解像度との間で選択してもよく、他方で粗い時間解像度と精細な周波数解像度との間で選択してもよいことである。上記の実施形態は、マルチチャネル音像又はステレオ音像を可能な最善の方法で維持するであろう。

異なる符号化スキームで利用される実際の符号化については、幾つかの要件もある。特に、閉ループ選択を使用する場合、相当数のほぼ同時の符号化を実施するために、演算リソースが多くなくてはならない。符号化処理が複雑になればなるほど演算能力が必要となる。さらに、伝送の点で低ビットレートであることも望まれる。

本発明の例示の実施形態による可変長最適化フレーム処理は、入力として大きな「マスタフレーム」を必要とし、ある数のフレーム分割構成を与えられ、例えばＭＳＥ又は重み付きＭＳＥでもよい所与の歪み測定値に関して最善のフレーム分割構成を選択する。

フレーム分割は様々なサイズでもよいが、分割されたフレームの全部の合計はマスタフレームの全長に及ぶ。

例示の手順を説明するために、図１９に示される長さＬミリ秒のマスタフレームと可能なフレーム分割を考慮しよう。図２０に例示のフレーム構成を示す。

本発明の特定の例示の実施形態では、アイデアは、全体の符号化フレーム（マスタフレーム）にわたり、考慮される符号化処理又はその信号符号化ステージの性能を表す測定値を最適化するように、関連するフレーム分割構成を有する符号化スキームと各サブフレームに対するフィルタ長／次元数との組み合わせを選択することである。各サブフレームに対してフィルタ長を調整することができれば、自由度が増し、性能の向上させることができる。

しかし、符号化側から復号化側への送信中の信号伝送量を減らすため、ある長さの各サブフレームは所定のフィルタ長と関連するのが好ましい。たいていは、長いフィルタは長いフレームに割り当てられ、短いフレームは短いフレームに割り当てられる。

以下の表に、可能なフレーム構成を挙げる。

（ｍ₁，ｍ₂，ｍ₃，ｍ₄）の形をしており、ここでｍ_kは、マスタフレーム内のＬ／４ミリ秒の長さのｋ番目の（サブ）フレームに対して選択されるフレームタイプを表す。例えば次の如くである。

ｍ_k＝０は、フィルタ長をＰとしてＬ／４ミリ秒のフレーム。
ｍ_k＝１は、フィルタ長を２×ＰとしてＬ／２ミリ秒のフレーム。
ｍ_k＝２は、フィルタ長を４×ＰとしてＬミリ秒の最大フレーム。

例えば、構成（０，０，１，１）は、Ｌミリ秒のマスタフレームが、フィルタ長をＰとするＬ／４ミリ秒の２つの（サブ）フレームと、これに続く、フィルタ長を２×ＰとするＬ／２ミリ秒の１つの（サブ）フレームとに分割されることを示す。また、構成（２，２，２，２）は、フィルタ長を４×ＰとするＬミリ秒のフレームが使用されることを示す。このように、（ｍ₁，ｍ₂，ｍ₃，ｍ₄）の情報は、フレーム分割の構成のみならずフィルタ長の情報も同時に示すことがわかる。

最適構成は、例えばＭＳＥ又は同等に最大ＳＮＲに基づき選択される。例えば、構成（０，０，１，１）が使用される場合、長さＰのフィルタ２つと長さ２×Ｐのフィルタ１つで、フィルタの合計数は３である。

その対応するフィルタとそれぞれの長さで、（ＳＮＲ又はＭＳＥで測定して）最良の性能となるフレーム構成が選択される。

フレーム選択前のフィルタの計算は、フィルタの量子化ステージを含むことで、開ループか又は閉ループのどちらでもよい。

この手法を使用する利点は、この手順ではステレオ音像又はマルチチャネル音像の躍動感がよく表現されることである。伝送されるパラメータは、フレーム構成及び符号化されたフィルタである。

可変フレーム長処理に伴って、エンコーダの分析窓同士のオーバーラップ長を異ならせるようにしてもよい。それ故デコーダでは、それに対応してチャネル信号の窓への合成や異なる信号長のオーバーラップ加算が不可欠である。

定常信号に関してはステレオ音像が非常に安定していて、推定チャネル・フィルタがまったく変動がないことはよくある。この場合、長いインパルス応答を有するＦＩＲフィルタ、すなわちステレオ音像の優れたモデル化が役に立つだろう。

前述のビット割り当て手順を可変フレーム長且つ調節可能なフィルタ長処理に組み入れることも、また別の自由度を加えることに特に役立つことがわかっている。本発明の好適な実施形態では、アイデアはフレーム分割構成と各サブフレームに対するビット割り当て及びフィルタ長／次元数との組み合わせを選択し、符号化フレーム全体にわたり、考慮される符号化処理又は信号符号化ステージの性能を表す測定値を最適化する。次いで、考慮された信号は、選択されたビット割り当て及びフィルタ次元数に従って、選択されたフレーム分割構成の各サブフレームに対して別々に符号化される。

好ましいのは、考慮される信号は副信号であり、エンコーダはパラメトリック（ＩＣＰ）ステージとノンパラメトリック・ステージなどの補助ステージとを備えるマルチステージ・エンコーダであることである。ビット割り当て情報は、量子化ビットが幾つパラメトリック・ステージに割り当てられるべきであり、幾つが補助にステージに割り当てられるべきかを制御し、フィルタ長情報はパラメトリック（ＩＣＰ）フィルタ長に関連するのが好ましい。

ここで信号符号化処理は、復号化側に転送する選択されたフレーム分割構成を表す出力データと、選択されたフレーム分割構成の各サブフレームに対するビット割り当て及びフィルタ長出力データとを生成する。

大きい自由度があれば、本当に最適な選択を見つけることは可能である。しかし、復号側に転送される制御情報量が増加する。音声伝送システムの符号化側から復号化側への信号伝送におけるビットレートを低減させるためには、各サブフレームに対するフィルタ長を上記のようにサブフレーム長に従って選択することが好ましい。これは、符号化フレームすなわちマスタフレームのサブフレームセットへのフレーム分割構成の表示が、各サブフレームに対して選択されたフィルタ次元数の表示を同時に提供すること意味し、それにより必要な信号伝送量が低減する。

上述した実施形態は単なる例示にすぎず、本発明が実施形態に限定されるものではない。本明細書の開示と特許請求の範囲に記載される基礎をなす原理を維持しつつ更に行う修正、変更、改善は、本発明の範疇に含まれる。

マルチチャネル符号化／復号化を使用する音声伝送システムの一般的な例を示すブロック図である。異なるチャネルの信号が個別で無関係な信号として、それぞれどのように符号化されるかを説明する図である。パラメトリック・ステレオ符号化の基本原理を示すブロック図である。モノラル信号と副信号とのクロススペクトルを示す図である。本発明の好適な実施形態に係るマルチチャネル・エンコーダのブロック図である。本発明の好適な実施形態に係る基本マルチチャネル符号化手順を示すフローチャートである。本発明の好適な実施形態に係る対応するマルチチャネル復号化手順を示すフローチャートである。本発明の好適な実施形態による（ステレオ）エンコーダの関連部を示すブロック図である。本発明の好適な実施形態による（ステレオ）デコーダの関連部を示す略ブロック図である。チャネル間予測（ＦＩＲ）フィルタリングを用いた副信号推定を示す図である。モノラル符号化及びマルチステージ・ハイブリッド副信号符号化を有するオーディオエンコーダの図である。（ａ）は、モノラル信号及び副信号、並びにそれらのチャネル間相関すなわち相互相関を示す周波数領域の特性図、（ｂ）は、（ａ）の例に対応する原副信号及び予測副信号を示す時間領域の特性図、（ｃ）は、別のモノラル信号及び副信号、並びにそれらの相互相関を示す周波数領域の特性図、（ｄ）は、（ｃ）の例に対応する原副信号及び予測副信号を示す時間領域の特性図である。本発明の特定の実施形態に係るマルチステージ副エンコーダと関係する適応ビット割り当てコントローラを示す概略図である。ＩＣＰフィルタ係数の量子化に使用されるビットに対する復元副信号の品質を示す図である。予測可能性を説明する図である。本発明の好適な実施形態に係るステレオ・デコーダを示す図である。フィルタ次数に対する取得した平均量子化誤差及び予測誤差の例を示す図である。異なるビット数で様々な次数を量子化するときに達成される総合品質を示す図である。マルチステージ・ベクトル符号化の例を示す図である。マスタフレームを様々にフレーム分割したときのタイムチャートである。本発明の実施形態に係る様々なフレーム構成を示す図である。

Claims

マルチチャネル音声信号を符号化する符号化方法であって、
第１信号符号化処理で前記マルチチャネルのうちの少なくとも１つのチャネルの第１の信号を符号化する第１符号化ステップと、
マルチステージ符号化処理である第２信号符号化処理で、前記マルチチャネルのうちの少なくとも１つのチャネルの第２の信号を符号化する第２符号化ステップと、
前記マルチチャネル音声信号の特性に基づいて、前記マルチステージ信号符号化処理における異なる符号化ステージ間に符号化ビット数を適応的に割り当てる割り当てステップと、
を有することを特徴とする符号化方法。
前記割り当てステップは、前記マルチチャネル音声信号のチャネル間相関特性に基づいて実行されることを特徴とする請求項１に記載の符号化方法。
前記割り当てステップは、フレームごとに実行されることを特徴とする請求項１に記載の符号化方法。
前記割り当てステップは、前記符号化ステージの少なくとも１つの推定性能に基づいて実行されることを特徴とする請求項１に記載の符号化方法。
前記割り当てステップは、
前記第１の符号化ステージに割り当てられると仮定されるビット数に従い、第１の符号化ステージの推定性能を評価するステップと、
前記評価に基づいて、第１の符号化ビット量を前記第１の符号化ステージに割り当てるステップと、
を有することを特徴とする請求項４に記載の符号化方法。
前記マルチステージ信号符号化処理は、前記第１の信号及び前記第２の信号に基づいて前記第２の信号の予測のための適応チャネル間予測を第１の符号化ステージ内に有し、信号予測誤差に少なくとも一部基づいて性能を推定することを特徴とする請求項４又は５に記載の符号化方法。
前記性能は、前記チャネル間予測で生成される第２の信号復元データの量子化のために割り当てられるビット数に応じて、量子化誤差の推定にも基づいて推定されることを特徴とする請求項６に記載の符号化方法。
前記マルチステージ信号符号化処理は、更に、前記第１の符号化ステージからの前記信号予測誤差を符号化する符号化処理を第２の符号化ステージ内に備えることを特徴とする請求項６に記載の符号化方法。
前記マルチステージ信号符号化処理は、パラメトリック符号化処理とノンパラメトリック符号化処理とのハイブリッド処理であり、符号化ビットは、チャネル間相関特性に基づいてパラメトリック符号化ステージとノンパラメトリック符号化ステージとの間に割り当てられることを特徴とする請求項１に記載の符号化方法。
前記符号化ビット数は前記マルチステージ信号符号化処理に対するビット割り当て量によって決定され、前記ビット割り当てを表す出力データも生成されることを特徴とする請求項１に記載の符号化方法。
前記第２信号符号化処理の性能を表す測定値を最適化するために、符号化のためのビット割り当てとフィルタ長との組み合わせを選択する選択ステップを更に有することを特徴とする請求項１に記載の符号化方法。
少なくとも前記第１の符号化ステージの性能を表す測定値を最適化するために、前記第１の符号化ステージに割り当てられるビット数と前記第１の符号化ステージで使用されるフィルタ長との組み合わせを選択するステップを更に有することを特徴とする請求項５に記載の符号化方法。
前記選択されたビット割り当てとフィルタ長とを表す出力データが生成されることを特徴とする請求項１１又は１２に記載の符号化方法。
符号化フレーム全体にわたり、前記第２信号符号化処理の性能を表す測定値を最適化するために、符号化フレームのサブフレームセットへのフレーム分割構成と、各サブフレームの符号化のためのビット割り当て及びフィルタ長との組み合わせを選択するステップと、
前記選択された組み合わせに応じて、前記選択されたサブフレームセットの各サブフレームで、前記第２の信号を別々に符号化するステップと、
を更に有することを特徴とする請求項１に記載の符号化方法。
符号化フレーム全体にわたり、少なくとも前記第１の符号化ステージの前記性能を表す測定値を最適化するために、符号化フレームのサブフレームセットへのフレーム分割構成と、各サブフレームに対する前記第１の符号化ステージに割り当てられるビット数と、各サブフレームに対する前記第１の符号化ステージで使用されるフィルタ長との組み合わせを選択するステップと、
前記選択された組み合わせに応じて、前記選択されたサブフレームセットの各サブフレームの前記第２の信号を別々に符号化するステップと、
を更に有することを特徴とする請求項５に記載の符号化方法。
前記選択されたフレーム分割構成と、前記選択されたフレーム分割構成の各サブフレームに対するビット割り当て及びフィルタ長とを表す出力データが生成されることを特徴とする請求項１４又は１５に記載の符号化方法。
各サブフレームに対する前記フィルタ長は、符号化フレームのサブフレームセットへのフレーム分割構成の表示が同時に各サブフレームに対する選択されたフィルタ次元数の表示を提供しそれにより必要な信号伝送量を減少できるように、前記サブフレーム長に依存して選択されることを特徴とする請求項１６に記載の符号化方法。
符号化されたマルチチャネルの音声信号を復号化する方法であって、
第１の信号復元データに応じて、第１信号復号化処理において前記マルチチャネルのうちの少なくとも１つのチャネルの符号化された第１の信号を復号化する第１復号化ステップと、
第２の信号復元データに応じて、第２マルチステージ信号復号化処理において前記マルチチャネルのうちの少なくとも１つのチャネルの符号化された第２の信号を復号化する第２復号化ステップと、
対応する第２マルチステージ信号符号化処理において、異なる符号化ステージ間にビット数がどのように割り当てられたかを表すビット割り当て情報を受信する受信ステップと、
前記ビット割り当て情報に基づき、前記第２マルチステージ信号復号化処理において前記第２の信号復元データを分析する方法を決定する決定ステップと、
を有することを特徴とする復号化方法。
マルチチャネルの音声信号を符号化する装置であって、
前記マルチチャネルのうちの少なくとも１つのチャネルの第１の信号を符号化する第１エンコーダと、
前記マルチチャネルのうちの少なくとも１つのチャネルの第２の信号を符号化する第２マルチステージ・エンコーダと、
前記マルチチャネルの音声信号の特性に基づいて、前記第２マルチステージ・エンコーダにおける異なる符号化ステージ間への符号化ビット数の割り当てを適応的に制御する制御手段と、
を有することを特徴とする装置。
前記制御手段は、前記マルチチャネルの音声信号のチャネル間相関特性に基づいて、前記異なる符号化ステージ間への符号化ビット数の割り当てを制御可能であることを特徴とする請求項１９に記載の装置。
前記制御手段は、フレームごとに前記異なる符号化ステージ間へのビットの割り当てを適応的に制御可能であることを特徴とする請求項１９に記載の装置。
前記制御手段は、前記符号化ステージの少なくとも１つの推定性能に基づき、前記異なる符号化ステージ間への符号化ビット数の割り当てを適応的に制御可能であることを特徴とする請求項１９に記載の装置。
前記制御手段は、
前記第１の符号化ステージに割り当てられると見なされるビット数に応じて、前記第２のマルチステージ・エンコーダの第１の符号化ステージの推定性能を評価する手段と、
前記評価に基づき、前記第１の符号化ステージに前記第１の符号化ビット量を割り当てる手段と、
を備えることを特徴とする請求項２２に記載の装置。
前記第１の符号化ステージは、前記第１の信号と前記第２の信号とに基づいて第２の信号の予測のための適応チャネル間予測フィルタを有し、前記制御手段は、信号予測誤差に少なくとも一部基づいて少なくとも前記第１の符号化ステージの推定性能を評価する手段を有することを特徴とする、請求項２２又は２３に記載の装置。
前記評価手段は、前記チャネル間予測フィルタの量子化のために割り当てられたビット数に応じた推定量子化誤差の評価に基づき、少なくとも前記第１の符号化ステージの推定性能を評価可能であることを特徴とする請求項２４に記載の装置。
前記第２マルチステージ・エンコーダは、前記第１の符号化ステージからの前記信号予測誤差を符号化する第２の符号化ステージを更に備えることを特徴とする請求項２４に記載の装置。
前記第２マルチステージ・エンコーダは、パラメトリック符号化とノンパラメトリック符号化とのハイブリッド・エンコーダであり、前記制御手段は、チャネル間相関特性に基づきパラメトリック符号化ステージとノンパラメトリック符号化ステージとの間の符号化ビットの割り当てを制御可能であることを特徴とする請求項１９に記載の装置。
前記符号化ビット数は前記第２マルチステージ・エンコーダに対するビット割り当て量により決定され、前記第２マルチステージ・エンコーダは前記ビット割り当てを表す出力データを生成可能であることを特徴とする請求項１９に記載の装置。
前記第２マルチステージ・エンコーダの性能を表す測定値を最適化するために、ビット割り当てとフィルタ長との組み合わせを選択する選択手段を更に備えることを特徴とする請求項１９に記載の装置。
少なくとも前記第１の符号化ステージの性能を表す測定値を最適化するために、前記第１の符号化ステージに割り当てられるビット数と前記第１の符号化ステージで使用されるフィルタ長との組み合わせを選択する選択手段を更に備えることを特徴とする請求項２３に記載の装置。
前記第２マルチステージ・エンコーダは、前記選択されたビット割り当てとフィルタ長とを表す出力データを生成可能であることを特徴とする請求項２９又は３０に記載の装置。
符号化フレーム全体にわたり、前記第２マルチステージ・エンコーダの前記性能を表す測定値を最適化するために、符号化フレームのサブフレームセットへのフレーム分割構成と、各サブフレームを符号化するためのビット割り当て及びフィルタ長との組み合わせを選択する手段と、
前記選択された組み合わせに応じて、前記選択されたサブフレームセットの各サブフレームの前記第２の信号を別々に符号化する手段と、
を更に備えることを特徴とする請求項１９に記載の装置。
符号化フレーム全体にわたり、少なくとも前記第１の符号化ステージの性能を表す測定値を最適化するために、１）符号化フレームのサブフレームセットへのフレーム分割構成と、２）各サブフレームに対し前記第１の符号化ステージに割り当てられるビット数と、３）各サブフレームに対し前記第１の符号化ステージで使用されるフィルタ長との組み合わせを選択する手段と、
前記選択された組み合わせに基づき、前記選択されたサブフレームセットの各サブフレームの前記第２の信号を別々に符号化する手段と、
を更に備えることを特徴とする請求項２３に記載の装置。
前記第２マルチステージ・エンコーダは、前記選択されたフレーム分割構成と、前記選択されたフレーム分割構成の各サブフレームに対するビット割り当てとフィルタ長とを表す出力データを生成可能であることを特徴とする請求項３２又は３３に記載の装置。
前記第２マルチステージ・エンコーダは、符号化フレームのサブフレームセットへのフレーム分割構成の表示が各サブフレームに対し選択されたフィルタ次元数の表示を同時に提供し、それにより必要な信号伝送を減少できるように、前記サブフレーム長に基づいて各サブフレームに対する前記フィルタ長を選択可能であることを特徴とする請求項３４に記載の装置。
符号化されたマルチチャネルの音声信号を復号化する装置であって、
第１の信号復元データに応じて、前記マルチチャネルのうちの少なくとも１つのチャネルの符号化された第１の信号を復号化する第１デコーダと、
第２の信号復元データに応じて、前記マルチチャネルのうちの少なくとも１つのチャネルの符号化された第２の信号を復号化する第２マルチステージ・デコーダと、
を備え、
対応する第２マルチステージ・エンコーダの異なる符号化ステージ間にビット数がどのように割り当てられたかを表すビット割り当て情報を受信する受信手段と、
前記ビット割り当て情報に基づき、前記第２の信号を復号化するために、前記第２マルチステージ・デコーダの前記第２の信号復元データを分析する分析手段と、
を有することを特徴とする復号化装置。
請求項１９に記載の符号化装置と請求項３６に記載の復号化装置とを備えることを特徴とする音声伝送システム。