JP2011501828A

JP2011501828A - Ｍｄｃｔスペクトルの組み合せエンコーディングを使用する、スケーラブルなスピーチおよびオーディオエンコーディング

Info

Publication number: JP2011501828A
Application number: JP2010531210A
Authority: JP
Inventors: レズニク、ユリー; フアン、ペンジュン
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2007-10-22
Filing date: 2008-10-22
Publication date: 2011-01-13
Also published as: IL205131A0; EP2255358A1; MX2010004282A; CN101836251B; KR20100085994A; US20090234644A1; RU2459282C2; AU2008316860A1; CA2701281A1; CN101836251A; US8527265B2; EP2255358B1; BRPI0818405A2; TW200935402A; RU2010120678A; WO2009055493A1; CN102968998A; AU2008316860B2; JP2013178539A; TWI407432B

Abstract

組み合せスペクトルエンコーディングを実現する、スケーラブルなスピーチおよびオーディオコーデックを提供する。残差信号が、コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤから取得され、残差信号は、元のオーディオ信号と、元のオーディオ信号の再構成されたバージョンとの間の差である。残差信号は、離散コサイン変換（ＤＣＴ）タイプの変換レイヤにおいて変換されて、複数のスペクトル線を有する対応する変換スペクトルが取得される。変換スペクトルのスペクトル線は、組み合せ位置コード化技術を使用して変換される。組み合せ位置コード化技術は、選択されたサブセットのスペクトル線に対する辞書式インデックスを発生させることを含み、各辞書式インデックスは、選択されたサブセットのスペクトル線の位置を表している複数の可能性のあるバイナリストリングのうちの１つを表す。

Description

合衆国法典第３５部第１１９条に基づく優先権の主張

特許に対する本出願は、２００７年１０月２２日に出願され、本出願の譲受人に譲渡され、参照により明白にここに組み込まれている、“スケーラブルなスピーチ＋オーディオコーデックにおける、量子化ＭＤＣＴスペクトルのエンコーディング／デコーディングに対する低複雑さの技術”と題する米国仮出願第６０／９８１，８１４号に対する優先権を主張する。

分野

以下の記述は一般に、エンコーダおよびデコーダに関し、より詳細には、スケーラブルなスピーチおよびオーディオコーデックの一部として修正離散コサイン変換（ＭＤＣＴ）スペクトルをコード化する効率的な方法に関する。

背景

オーディオコード化の１つの目標は、できるだけ元のサウンド品質を保持しながら、オーディオ信号を所望の制限された情報量に圧縮することである。エンコーディングプロセスにおいて、時間領域におけるオーディオ信号は、周波数領域に変換される。

ＭＰＥＧレイヤ−３（ＭＰ３）、ＭＰＥＧ−２およびＭＰＥＧ−４のような知覚オーディオコード化技術は、データ量を低減させるために、人間の耳の信号マスキング特性を利用する。そうすることによって、量子化雑音は、優勢な全信号によってかき消されるような、すなわち、聞こえないままであるような方法で、周波数帯域に分配される。オーディオ品質の知覚可能な損失をほとんどまたはまったく伴わずに、かなりの記憶装置のサイズの低減が可能である。知覚オーディオコード化技術は、スケーラブルであることが多く、ベースまたはコアレイヤと、少なくとも１つの拡張レイヤとを有する階層化されたビットストリームを生成させる。これは、ビットレートのスケーラビリティ、すなわち、デコーダ側において異なるオーディオ品質レベルでデコードすること、または、トラフィックシェーピングまたはトラフィックコンディショニングによって、ネットワークにおいてビットレートを低減させることを可能にする。

コード励振線形予測（ＣＥＬＰ）は、代数ＣＥＬＰ（ＡＣＥＬＰ）、リラックスＣＥＬＰ（ＲＣＥＬＰ）、低遅延（ＬＤ−ＣＥＬＰ）およびベクトル和励振線形予測（ＶＳＥＬＰ）を含むアルゴリズムのクラスであり、スピーチコード化のために広く使用されている。ＣＥＬＰの背景にある１つの原理は、合成による分析（ＡｂＳ）と呼ばれており、エンコーディング（分析）が、閉ループにおいてデコードされた（合成）信号を知覚的に最適化することによって実行されることを意味する。理論上は、最良のＣＥＬＰストリームは、すべての可能性のあるビットの組み合せを試み、かつ、最良の響きのデコード信号を生成させる１つを選択することによって、生成される。これは、明らかに、２つの理由から実際には可能でない：実現するのに非常に複雑であり、“最良の響き”の選択基準が、人間のリスナーを含意する。限定された計算リソースを使用してリアルタイムのエンコーディングを達成するために、ＣＥＬＰサーチは、知覚的重み付け関数を使用して、より小さく扱いやすい逐次サーチに分解される。通常、エンコーディングは、（ａ）入力オーディオ信号に対して、線形予測コード化係数を（通常、線スペクトル対として）計算および／または量子化することと、（ｂ）コードブックを使用して、ベストマッチをサーチして、コード化された信号を発生させることと、（Ｃ）コード化信号と、真の入力信号との間の差である誤差信号を生成させることと、（ｄ）さらに、１つ以上のレイヤにおいて（通常、ＭＤＣＴスペクトルにおける）そのような誤差信号をエンコードして、再構成された、または合成された信号の品質を向上させることとを含む。

ＣＥＬＰアルゴリズムに基づいてスピーチおよびオーディオコーデックを実現するのに多くの異なる技術が利用可能である。これらの技術のうちのいくつかにおいて、誤差信号が発生され、その後、（通常、ＤＣＴ、ＭＤＣＴ、または類似の変換を使用して）変換され、エンコードされて、エンコードされた信号の品質がさらに改善される。しかしながら、多くの移動デバイスおよびネットワークの、処理および帯域幅の制限により、そのようなＭＤＣＴスペクトルコード化の効率的な構成は、記憶または送信される情報のサイズを低減させることが望ましい。

概要

いくつかの実施形態の基本的な理解を提供するために、以下の記述は、１つ以上の実施形態の単純化した概要を与える。この概要は、考えられるすべての実施形態の広範な概観ではなく、すべての実施形態の主なまたは重要な要素を識別するようにも、いくつかのまたはすべての実施形態の範囲を詳細に描写するようにも向けられていない。その唯一の目的は、後に与えられるより詳細な説明に対するプレリュードとして、単純化した形態で１つ以上の実施形態のいくつかの概念を与えることである。

スケーラブルなスピーチおよびオーディオ圧縮アルゴリズムにおける、ＭＤＣＴ（または、類似の変換ベースの）スペクトルのエンコーディング／デコーディングのための効率的な技術を提供する。この技術は、コードの構造を規定する際に、知覚的に量子化されるＭＤＣＴスペクトルのスパース性を利用し、コード化された帯域における非ゼロのスペクトル線の位置を記述する要素を含み、組み合せ列挙技術を使用して、この要素を計算する。

１つの例において、スケーラブルなスピーチおよびオーディオコーデック中でＭＤＣＴスペクトルをエンコードする方法を提供する。変換スペクトルのそのようなエンコーディングは、エンコーダハードウェア、エンコーディングソフトウェア、および／または２つの組み合せによって実行され、プロセッサ、処理回路および／または機械読み取り可能媒体において具現されてもよい。残差信号は、コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤから取得され、ここで、残差信号は、元のオーディオ信号と、元のオーディオ信号の再構成されたバージョンとの間の差である。元のオーディオ信号の再構成されたバージョンは、（ａ）ＣＥＬＰベースのエンコーディングレイヤからの、元のオーディオ信号のエンコードされたバージョンを合成して、合成信号を取得することと、（ｂ）合成信号を再強調することと、および／または、（ｃ）元のオーディオ信号の再構成されたバージョンを取得するために、再強調された信号をアップサンプリングすることと、によって取得されてもよい。

残差信号は、離散コサイン変換（ＤＣＴ）タイプの変換レイヤにおいて変換されて、複数のスペクトル線を有する対応する変換スペクトルが取得される。ＤＣＴタイプの変換レイヤは、修正離散コサイン変換（ＭＤＣＴ）レイヤであってもよく、変換スペクトルはＭＤＣＴスペクトルである。

変換スペクトルのスペクトル線は、組み合せ位置コード化技術を使用してエンコードされる。変換スペクトルのスペクトル線のエンコーディングは、非ゼロのスペクトル線の位置に対して組み合せ位置コード化技術を使用してスペクトル線の位置を表すことに基づいて、選択されたサブセットのスペクトル線の位置をエンコードすることを含む。いくつかの構成において、エンコーディングに先立って、１組のスペクトル線を落として、スペクトル線の数を低減させてもよい。別の例において、組み合せ位置コード化技術は、選択されたサブセットのスペクトル線に対する辞書式インデックスを発生させることを含んでいてもよく、各辞書式インデックスは、選択されたサブセットのスペクトル線の位置を表している複数の可能性のあるバイナリストリングのうちの１つを表す。辞書式インデックスは、バイナリストリングの長さよりも少ないビットで、バイナリストリング中のスペクトル線を表わしてもよい。

別の例において、組み合せ位置コード化技術は、バイナリストリング内のスペクトル線の位置を表すインデックスを発生させることを含んでいてもよく、スペクトル線の位置は、次の組み合せ公式に基づいてエンコードされる。

ここで、ｎはバイナリストリングの長さであり、ｋはエンコードされる選択されたスペクトル線の数であり、ｗ_jはバイナリストリングの個々のビットを表す。

いくつかの構成において、複数のスペクトル線は、複数のサブバンドに分割されてもよく、連続するサブバンドが、リージョンにグループ化されてもよい。リージョン中のサブバンドのそれぞれに対する複数のスペクトル線から選択されたメインパルスがエンコードされてもよく、リージョン中の選択されたサブセットのスペクトル線は、サブバンドのそれぞれに対するメインパルスを除外する。さらに、リージョン内の選択されたサブセットのスペクトル線の位置は、非ゼロのスペクトル線の位置に対して組み合せ位置コード化技術を使用してスペクトル線の位置を表すことに基づいて、エンコードされてもよい。リージョン中の選択されたサブセットのスペクトル線は、サブバンドのそれぞれに対するメインパルスを除外してもよい。変換スペクトルのスペクトル線のエンコーディングは、リージョン中のすべての位置に等しい長さのすべての可能性のあるバイナリストリングの、選択されたサブセットのスペクトル線の位置に基づいて、アレイを発生させることを含んでもよい。リージョンは、オーバーラップしていてもよく、各リージョンは、複数の連続するサブバンドを含んでもよい。

別の例において、スケーラブルなスピーチおよびオーディオコーデックにおいて変換スペクトルをデコードする方法を提供する。変換スペクトルのそのようなデコーディングは、デコーダハードウェア、デコーディングソフトウェア、および／または２つの組み合せによって実行されてもよく、プロセッサ、処理回路、および／または機械読み取り可能媒体において具現されてもよい。残差信号の複数の変換スペクトルのスペクトル線を表すインデックスが取得され、ここで、残差信号は、元のオーディオ信号と、コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤからの、元のオーディオ信号の再構成されたバージョンとの間の差である。インデックスは、バイナリストリングの長さよりも少ないビットで、バイナリストリングにおける非ゼロのスペクトル線を表してもよい。１つの例において、取得されたインデックスは、バイナリストリング内のスペクトル線の位置を表してもよく、スペクトル線の位置は、次の組み合せ公式に基づいてエンコードされている。

ここで、ｎはバイナリストリングの長さであり、ｋはエンコードされる選択されたスペクトル線の数であり、ｗ_jは前記バイナリストリングの個々のビットを表す。

インデックスは、複数の変換スペクトルのスペクトル線をエンコードするために使用される組み合せ位置コード化技術を逆に行うことによって、デコードされる。残差信号のバージョンは、逆離散コサイン変換（ＩＤＣＴ）タイプの逆変換レイヤにおいて、デコードされた、複数の変換スペクトルのスペクトル線を使用して合成される。残差信号のバージョンを合成することは、逆ＤＣＴタイプの変換を変換スペクトルのスペクトル線に適用して、残差信号の時間領域バージョンを生成させることを含んでいてもよい。変換スペクトルのスペクトル線をデコードすることは、非ゼロのスペクトル線の位置に対して組み合せ位置コード化技術を使用してスペクトル線の位置を表すことに基づいて、選択されたサブセットのスペクトル線の位置をデコードすることを含んでもよい。ＤＣＴタイプの逆変換レイヤは、逆修正離散コサイン変換（ＩＭＤＣＴ）レイヤであってもよく、変換スペクトルは、ＭＤＣＴスペクトルである。

さらに、元のオーディオ信号をエンコードしているＣＥＬＰエンコード信号を受信してもよい。ＣＥＬＰエンコード信号をデコードして、デコードされた信号を発生させてもよい。デコードされた信号を、残差信号の合成されたバージョンと組み合わせて、元のオーディオ信号の（より高い忠実度の）再構成されたバージョンを取得してもよい。

同一の参照文字が全体を通して対応したものを識別している図面を参照すると、以下で示される詳細な説明から様々な特徴、特質、および利点が明白となろう。

図１は、１つ以上のコード化の特徴を実現してもよい通信システムを図示するブロック図である。図２は、１つの例にしたがって、効率的なオーディオコード化を実行するように構成されていてもよい送信デバイスを図示するブロック図である。図３は、１つの例にしたがって、効率的なオーディオデコーディングを実行するように構成されていてもよい受信デバイスを図示するブロック図である。図４は、１つの例にしたがった、スケーラブルなエンコーダのブロック図である。図５は、エンコーダによって実現されてもよいＭＤＣＴスペクトルエンコーディングプロセスを図示するブロック図である。図６は、ＭＤＣＴスペクトルのエンコーディングを容易にするために、フレームが選択され、リージョンおよびサブバンドに分割される方法の１つの例を図示する図である。図７は、効率的な方法でオーディオフレームをエンコードする一般的なアプローチを図示する。図８は、ＭＤＣＴオーディオフレームにおいてパルスを効率的にエンコードするエンコーダを図示するブロック図である。図９は、フレームに対する形状ベクトルを取得する方法を説明するフロー図である。図１０は、スケーラブルなスピーチおよびオーディオコーデックにおいて変換スペクトルをエンコードする方法を説明するブロック図である。図１１は、デコーダの例を図示するブロック図である。図１２は、スケーラブルなスピーチおよびオーディオコーデックにおいて変換スペクトルをエンコードする方法を図示するブロック図である。図１３は、スケーラブルなスピーチおよびオーディオコーデックにおいて変換スペクトルをデコードする方法を図示するブロック図である。

詳細な説明

図面に関連して、さまざまな実施形態をこれから記述し、全体を通して同じ要素に言及するために、同じ参照番号を使用する。以下の記述において、説明のため、１つ以上の実施形態の完全な理解を提供するために、多数の特定の詳細な説明を述べる。しかしながら、これらの特定の詳細な説明なしに、そのような実施形態を実施できることは明白であるかもしれない。他の例において、１つ以上の実施形態を記述することを容易にするために、よく知られている構造およびデバイスをブロック図の形態で示す。

概観

オーディオ信号を繰り返してエンコードするために、コード化の複数のレイヤが使用される、オーディオ信号をエンコード／デコードするスケーラブルなコーデックにおいて、修正離散コサイン変換を１つ以上のコード化レイヤにおいて使用してもよく、オーディオ信号の残差が、エンコーディングのために（例えば、ＭＤＣＴ領域に）変換される。ＭＤＣＴ領域において、フレームのスペクトル線は、サブバンドに分割されてもよく、オーバーラップするサブバンドのリージョンが規定される。リージョン中の各サブバンドに対して、メインパルス（すなわち、サブバンドにおける最も強いスペクトル線またはスペクトル線のグループ）が選択されてもよい。メインパルスの位置は、整数を使用してエンコードして、それらのサブバンドのそれぞれ内でのその位置を表してもよい。メインパルスのそれぞれの振幅／大きさは、別々にエンコードしてもよい。さらに、すでに選択されているメインパルスを除外して、リージョン中の複数（例えば、４つ）のサブパルス（例えば、残りのスペクトル線）が選択される。選択されたサブパルスは、リージョン内のそれらの全体の位置に基づいてエンコードされる。これらのサブパルスの位置は、組み合せ位置コード化技術を使用してエンコードされて、リージョンのすべての長さに対するよりも少ないビットで表すことができる辞書式インデックスが生成されてもよい。この方法でメインパルスおよびサブパルスを表すことによって、それらは、記憶および／または送信のために、比較的少ない数のビットを使用してエンコードできる。

通信システム
図１は、１つ以上のコード化の特徴を実現してもよい通信システムを図示するブロック図である。コーダ１０２は、到来する入力オーディオ信号１０４を受け取り、エンコードされたオーディオ信号１０６を発生させる。エンコードされたオーディオ信号１０６は、（例えば、ワイヤレスまたはワイヤードの）送信チャネルを通してデコーダ１０８に送信される。デコーダ１０８は、エンコードされたオーディオ信号１０６に基づいて入力オーディオ信号１０４を再構成することを試みて、再構成された出力オーディオ信号１１０を発生させる。説明のために、コーダ１０２は、送信デバイス上で動作してもよく、一方、デコーダデバイスは、受信デバイス上で動作してもよい。しかしながら、そのようなデバイスは、エンコーダおよびデコーダの両方を含んでいてもよいことが明白であるはずである。

図２は、１つの例にしたがって、効率的なオーディオコード化を実行するように構成されている送信デバイス２０２を図示するブロック図である。入力オーディオ信号２０４が、マイクロフォン２０６によって取り込まれ、増幅器２０８によって増幅され、Ａ／Ｄコンバータ２１０によってデジタル信号に変換され、デジタル信号は、スピーチエンコーディングモジュール２１２に送られる。スピーチエンコーディングモジュール２１２は、入力信号の多層の（スケーリングされた）コード化を実行するように構成されており、少なくとも１つのそのようなレイヤは、ＭＤＣＴスペクトルにおける残差（誤差信号）をエンコードすることを伴う。スピーチエンコーディングモジュール２１２は、図４、５、６、７、８、９および１０に関して説明するようにエンコーディングを実行してもよい。スピーチエンコーディングモジュール２１２からの出力信号は、送信パスエンコーディングモジュール２１４に送られ、そこでは、チャネルデコーディングが実行され、結果として生じる出力信号が、変調回路２１６に送られて変調されて、Ｄ／Ａコンバータ２１８およびＲＦ増幅器２２０を介して、エンコードされたオーディオ信号２２４の送信のためにアンテナ２２２に送られる。

図３は、１つの例にしたがって、効率的なオーディオデコーディングを実行するように構成されていてもよい受信デバイス３０２を図示するブロック図である。エンコードされたオーディオ信号３０４が、アンテナ３０６によって受信され、ＲＦ増幅器３０８によって増幅され、Ａ／Ｄコンバータ３１０を介して復調回路３１２に送られ、それにより、復調された信号が、送信パスデコーディングモジュール３１４に提供される。送信パスデコーディングモジュール３１４からの出力信号は、入力信号の多層の（スケーリングされた）デコーディングを実行するように構成されているスピーチデコーディングモジュール３１６に送られ、ここで、少なくとも１つのそのようなレイヤは、ＩＭＤＣＴスペクトルにおける残差（誤差信号）をデコードすることを伴う。スピーチデコーディングモジュール３１６は、図１１、１２および１３に関して説明したような信号デコーディングを実行してもよい。スピーチデコーディングモジュール３１６からの出力信号は、Ｄ／Ａコンバータ３１８に送られる。Ｄ／Ａコンバータ３１８からのアナログスピーチ信号は、増幅器３２０を介してスピーカ３２２に送られて、再構成された出力オーディオ信号３２４が提供される。

スケーラブルなオーディオコーデックアーキテクチャ
コーダ１０２（図１）、デコーダ１０８（図１）、スピーチ／オーディオエンコーディングモジュール２１２（図２）および／またはスピーチ／オーディオデコーディングモジュール３１６（図３）は、スケーラブルなオーディオコーデックとして実現されてもよい。そのようなスケーラブルなオーディオコーデックは、高品質の、配信されるエンコードされた狭帯域スピーチ信号または広帯域オーディオ／音楽信号をともなう、誤りをこうむりやすい電気通信チャネルに対して、高性能広帯域スピーチコード化を提供するように実現されていてもよい。スケーラブルなオーディオコーデックに対する１つのアプローチは、反復的エンコーディングレイヤを提供することであり、１つのレイヤからの誤差信号（残差）が、後続のレイヤにおいてエンコードされて、前のレイヤにおいてエンコードされたオーディオ信号がさらに改善される。例えば、コードブック励振線形予測（ＣＥＬＰ）は、異なる励振信号のコードブックがエンコーダおよびデコーダ上で維持される線形予測コード化の概念に基づいている。エンコーダは、最も適切な励振信号を見つけ、（固定型の代数コードブック、および／または適応型コードブックから）その対応するインデックスをデコーダに送り、デコーダは次に、それを使用して、（コードブックに基づいて）信号を再生する。エンコーダは、オーディオ信号をエンコードし、次にデコードすることによって、合成による分析を実行して、再構成された、または合成されたオーディオ信号を生成する。エンコーダは次に、誤差信号の、すなわち、元のオーディオ信号と、再構成された、または、合成されたオーディオ信号との間の差の、エネルギーを最小にするパラメータを見つける。出力ビットレートは、より多いまたはより少ないコード化レイヤを使用することによって調整して、チャネル要求および所望のオーディオ品質を満たすことができる。そのようなスケーラブルなオーディオコーデックは、いくつかのレイヤを含んでいてもよく、より低いレイヤのデコーディングに影響を及ぼすことなく、より高いレイヤのビットストリームを廃棄できる。

そのような多層アーキテクチャを使用する既存のスケーラブルなコーデックの例は、ＩＴＵ−Ｔ勧告Ｇ．７２９．１と、新生のＩＴＵ−Ｔ標準規格と、コード名がつけられたＧ．ＥＶ−ＶＢＲとを含む。例えば、エンベデッド可変ビットレート（ＥＶ−ＶＢＲ）コーデックは、複数のレイヤＬ１（コアレイヤ）ないしＬＸ（ここで、Ｘは、最も高い拡張レイヤの番号である）として実現してもよい。そのようなコーデックは、１６ｋＨｚでサンプリングされた広帯域（ＷＢ）信号と、８ｋＨｚでサンプリングされた狭帯域（ＮＢ）信号との両方を受け入れてもよい。同様に、コーデック出力は、広帯域または狭帯域とすることができる。

コーデック（例えば、ＥＶ−ＶＢＲコーデック）に対するレイヤ構造の例は、表１において示され、Ｌ１（コアレイヤ）ないしＬ５（最も高い拡張レイヤ）と呼ばれている５つのレイヤを備えている。より低い２つのレイヤ（Ｌ１およびＬ２）は、コード励振線形予測（ＣＥＬＰ）アルゴリズムに基づいていてもよい。コアレイヤＬ１は、可変マルチレート広帯域（ＶＭＲ−ＷＢ）スピーチコード化アルゴリズムから導出されてもよく、異なる入力信号に対して最適化されるいくつかのコード化モードを含んでいてもよい。すなわち、コアレイヤＬ１は、入力信号を分類して、オーディオ信号をより良くモデル化してもよい。コアレイヤＬ１からのコード化誤差（残差）は、適応型コードブックおよび固定型代数コードブックに基づいて、強化または拡張レイヤＬ２によってエンコードされる。レイヤＬ２からの誤差信号（残差）は、修正離散コサイン変換（ＭＤＣＴ）を使用して、変換領域において、より高いレイヤ（Ｌ３ないしＬ５）によってさらにコード化されてもよい。フレーム消失隠蔽（ＦＥＣ）を向上させるために、サイド情報がレイヤＬ３中で送られてもよい。

コアレイヤＬ１コーデックは本質的に、ＣＥＬＰベースのコーデックであり、適応マルチレート（ＡＭＲ）、ＡＭＲワイドバンド（ＡＭＲ−ＷＢ）、可変マルチレートワイドバンド（ＶＭＲ−ＷＢ）、拡張可変レートコーデック（ＥＶＲＣ）、または、ＥＶＲワイドバンド（ＥＶＲＣ−ＷＢ）コーデックのような、多数のよく知られている狭帯域または広帯域のボコーダのうちの１つと互換性があってもよい。

スケーラブルなコーデックにおけるレイヤ２は、コードブックを使用して、コアレイヤＬ１からの知覚的に重み付けされたコード化誤差（残差）をさらに最小にしてもよい。コーデックフレーム消失隠蔽（ＦＥＣ）を向上させるために、サイド情報が計算されて、後続のレイヤＬ３中に送信されてもよい。コアレイヤのコード化モードとは無関係に、サイド情報は、信号の分類を含んでいてもよい。

広帯域出力に対して、レイヤＬ２エンコーディング後の重み付けされた誤差信号は、修正離散コサイン変換（ＭＤＣＴ）または類似のタイプの変換に基づく、重複加算（overlap-add）変換を使用してコード化される。すなわち、コード化レイヤＬ３、Ｌ４および／またはＬ５に対して、信号は、ＭＤＣＴスペクトルにおいてエンコードされてもよい。結果として、ＭＤＣＴスペクトルにおいて信号をコード化する効率的な方法が提供される。

エンコーダの例
図４は、１つの例にしたがった、スケーラブルなエンコーダ４０２のブロック図である。エンコーディングの前の事前処理の段階において、入力信号４０４は、望まれない低周波数成分を抑制するためにハイパスフィルタリング４０６されて、フィルタリングされた入力信号Ｓ_HP（ｎ）が生成される。例えば、ハイパスフィルタ４０６は、広帯域入力信号に対して２５Ｈｚのカットオフと、狭帯域入力信号に対して１００Ｈｚのカットオフとを有していてもよい。フィルタリングされた入力信号Ｓ_HP（ｎ）は次に、再サンプリングモジュール４０８によって再サンプリングされて、再サンプリングされた入力信号Ｓ_12.8（ｎ）が生成される。例えば、オリジナル入力信号４０４は、１６ｋＨｚでサンプリングされていてもよく、１２．８ｋＨｚに再サンプリングされ、１２．８ｋＨｚは、レイヤＬ１および／またはＬ２エンコーディングに対して使用される内部周波数であってもよい。事前エンファシスモジュール４１０が次に、１次ハイパスフィルタを適用して、再サンプリングされた入力信号Ｓ_12.8（ｎ）のより高い周波数を強調し、（および低周波数を減衰させる）。結果として生じる信号は次に、エンコーダ／デコーダモジュール４１２に渡され、エンコーダ／デコーダモジュール４１２は、コード励振線形予測（ＣＥＬＰ）ベースのアルゴリズムに基づいてレイヤＬ１および／またはＬ２エンコーディングを実行してもよく、スピーチ信号は、スペクトル包絡を表す線形予測（ＬＰ）合成フィルタを通過した励振信号によってモデル化される。信号エネルギーが、各知覚臨界帯域に対して計算されて、レイヤＬ１およびＬ２エンコーディングの一部として使用されてもよい。さらに、エンコードされるエンコーダ／デコーダモジュール４１２はまた、入力信号のバージョンを合成（再構成）してもよい。すなわち、エンコーダ／デコーダモジュール４１２が入力信号をエンコードした後、エンコーダ／デコーダモジュール４１２は、入力信号をデコードし、逆エンファシスモジュール４１６および再サンプリングモジュール４１８が、入力信号４０４のバージョンｓ₂^（ｎ）を再作成する。残差信号ｘ₂（ｎ）が、元の信号Ｓ_HP（ｎ）と、再作成された信号ｓ₂^（ｎ）との間の差４２０を取ることにより発生される（すなわち、ｘ₂（ｎ）＝Ｓ_HP（ｎ）−ｓ₂^（ｎ））。残差信号ｘ₂（ｎ）は次に、重み付けモジュール４２４によって知覚的に重み付けされ、ＭＤＣＴモジュール４２８によってＭＤＣＴスペクトルまたは領域に変換されて、残差信号Ｘ₂（ｋ）が発生される。残差信号Ｘ₂（ｋ）は次に組み合せスペクトルエンコーダ４３２に提供され、組み合せスペクトルエンコーダ４３２は、残差信号Ｘ₂（ｋ）をエンコードして、レイヤＬ３、Ｌ４および／またはＬ５に対してエンコードされたパラメータを生成させる。１つの例において、組み合せスペクトルエンコーダ４３２は、残差信号Ｘ₂（ｋ）において非ゼロのスペクトル線（パルス）を表すインデックスを発生させる。例えば、インデックスは、非ゼロのスペクトル線の位置を表す複数の可能性のあるバイナリストリングのうちの１つを表してもよい。組み合せ技術のために、インデックスは、バイナリストリングの長さよりも少ないビットで、バイナリストリングにおける非ゼロのスペクトル線を表してもよい。

レイヤＬ１ないしＬ５からのパラメータは、出力ビットストリーム４３６として機能を果たすことができ、後に、デコーダにおいて元の入力信号４０４のバージョンを再構成または合成するために使用できる。

レイヤ１−分類エンコーディング：コアレイヤＬ１は、エンコーダ／デコーダモジュール４１２において実現されてもよく、信号分類および４つの別個のコード化モードを使用して、エンコーディング性能を向上させてもよい。１つの例において、各フレームの異なるエンコーディングに対して考慮できる、これらの４つの別個の信号クラスは、（１）無声音のスピーチフレームに対する無声音コード化（ＵＣ）と、（２）滑らかなピッチ展開を有する準周期的セグメントに対して最適化される有声音コード化（ＶＣ）と、（３）フレームの消失のケースにおいて誤り伝播を最小にするように設計された、有声音の開始に続くフレームに対する移行モード（ＴＣ）と、（４）他のフレームに対する共通コード化（ＧＣ）とを含んでいてもよい。無声音コード化（ＵＣ）において、適応型コードブックは使用されず、励振がガウスコードブックから選択される。準周期的セグメントは、有声音コード化（ＶＣ）モードによりエンコードされる。有声音コード化の選択は、滑らかなピッチ展開によって調整される。有声音コード化モードは、ＡＣＥＬＰ技術を使用してもよい。移行コード化（ＴＣ）フレームにおいて、最初のピッチ周期の声門インパルスを含んでいるサブフレームにおける適応型コードブックは、固定型コードブックに取って代わられる。

コアレイヤＬ１において、信号は、スペクトル包絡を表す線形予測（ＬＰ）合成フィルタを通過する励振信号によるＣＥＬＰベースのパラダイムを使用してモデル化されてもよい。ＬＰフィルタは、共通コード化モードおよび有声音コード化モードに対して、セーフティネットアプローチおよび多段ベクトル量子化（ＭＳＶＱ）を使用して、イミタンススペクトル周波数（ＩＳＦ）領域において量子化されてもよい。開ループ（ＯＬ）ピッチ分析が、滑らかなピッチ輪郭を保証するためにピッチ追跡アルゴリズムによって実行される。しかしながら、ピッチ推定のロバストネスを向上させるために、２つの同時発生のピッチ展開の輪郭が比較されてもよく、より滑らかな輪郭を生じるトラックが選択される。

２つの組のＬＰＣパラメータが推定され、２０ｍｓの分析ウィンドを使用してほとんどのモードにおいてフレーム毎にエンコードされる。２組のＬＰＣパラメータのうちの一方は、フレームエンドに対するものであり、他方は、ミッドフレームに対するものである。ミッドフレームＩＳＦは、各ＩＳＦサブグループに対して見つけられている線形補間係数を有する補間分割ＶＱによりエンコードされ、それにより、推定された量子化ＩＳＦと補間された量子化ＩＳＦとの差が最小化される。１つの例において、ＬＰ係数のＩＳＦ表現を量子化するために、（弱い予測および強い予測に対応する）２つのコードブックの組が同時にサーチされて、推定されるスペクトル包絡の歪みを最小にする予測量およびコードブックを見つけてもよい。セーフティネットアプローチに対する主な理由は、フレームの消失が、スペクトル包絡が急速に発達しているセグメントと同時に起こるときに誤り伝播を低減させることである。追加の誤りのロバストネスを提供するために、弱い予測子は、ゼロに設定されることがあり、予測を有さない量子化を結果として生じる。予測を有さないパスは、その量子化歪みが、予測を有するパスに十分に近いときに、または、その量子化歪みが、トランスペアレントなコード化を提供するほど十分に小さいときに、常に選ばれてもよい。さらに、強い予測コードブックサーチにおいて、準最適コードベクトルがクリーンチャネル性能に影響を及ぼさず、フレーム消失がある状態で誤り伝播を低下させることが予測される場合、準最適コードベクトルが選ばれる。ＵＣおよびＴＣフレームのＩＳＦは、予測を有さないで、さらに体系的に量子化される。ＵＣフレームに対して、予測を有さない場合でさえ非常に良好なスペクトル量子化を可能にするために、十分なビットが利用可能である。ＴＣフレームは、クリーンチャネル性能における低減の可能性にもかかわらず、フレーム消失に対して非常に影響されやすく、予測を使用できないと考えられる。

狭帯域（ＮＢ）信号に対して、ピッチ推定は、量子化されない最適利得で発生されるＬ２励振を使用して実行される。このアプローチは、利得量子化の影響を除去し、レイヤにわたってピッチ遅れ推定を改善させる。広帯域（ＷＢ）信号に対して、標準的なピッチ推定（量子化された利得を有するＬ１励振）が使用される。

レイヤ２−強化エンコーディング：レイヤＬ２において、エンコーダ／デコーダモジュール４１２は、代数コードブックを再び使用して、コアレイヤＬ１からの量子化誤差をエンコードしてもよい。Ｌ２レイヤにおいて、過去のＬ１の寄与だけでなく、過去のＬ２の寄与もを含むように、エンコーダはさらに適応型コードブックを修正する。レイヤ間の時間同期を維持するために、適応ピッチ遅れは、Ｌ１およびＬ２において同じである。Ｌ１およびＬ２に対応する適応型コードブックおよび代数コードブックの利得は、知覚的に重み付けされたコード化誤りを最小にするために再び最適化される。更新されたＬ１利得およびＬ２利得は、Ｌ１においてすでに量子化されている利得に関して予測的にベクトル量子化される。ＣＥＬＰレイヤ（Ｌ１およびＬ２）は、内部（例えば、１２．８ｋＨｚ）サンプリングレートで動作してもよい。したがって、レイヤＬ２からの出力は、０ないし６．４ｋＨｚ周波数帯域においてエンコードされた合成信号を含む。広帯域出力に対して、ＡＭＲ−ＷＢ帯域幅の拡張を使用して、欠落している６．４ないし７ｋＨｚ帯域幅を発生させてもよい。

レイヤ３−フレーム消失隠蔽：フレーム消失状態（ＦＥＣ）におけるパフォーマンスを向上させるために、フレーム誤り隠蔽モジュール４１４が、エンコーダ／デコーダモジュール４１２からサイド情報を取得してもよく、それを使用してレイヤＬ３パラメータを発生させる。サイド情報は、すべてのコード化モードに対するクラス情報を含んでいてもよい。前のフレームスのペクトル包絡が、コアレイヤの移行コード化のために送信されてもよい。他のコアレイヤコード化モードに対して、合成信号の位相情報およびピッチ同期エネルギーを送ってもよい。

レイヤ３、４、５−変換コード化：レイヤＬ２における第２段階のＣＥＬＰコード化から結果として生じる残差信号Ｘ₂（ｋ）は、ＭＤＣＴまたは重複加算構造を有する類似の変換を使用して、レイヤＬ３、Ｌ４およびＬ５において量子化されてもよい。すなわち、前のレイヤからの残差すなわち“誤差”信号は、後続のレイヤによって使用されて、（デコーダへの送信のために、そのような誤差を効率的に表すことを求める）そのパラメータが発生される。

ＭＤＣＴ係数は、いくつかの技術を使用することによって量子化されてもよい。いくつかの例において、ＭＤＣＴは、スケーラブルな代数ベクトル量子化を使用して量子化される。ＭＤＣＴは、２０ミリ秒（ｍｓ）毎に計算されてもよく、そのスペクトル係数は、８次元ブロックにおいて量子化される。オーディオクリーナ（ＭＤＣＴ領域の雑音整形フィルタ）が適用され、オリジナル信号のスペクトルから導出される。グローバルな利得がレイヤＬ３において送信される。さらに、いくつかのビットが、高周波数補償に対して使用される。残りのレイヤＬ３ビットが、ＭＤＣＴ係数の量子化に対して使用される。レイヤＬ４およびＬ５レベルにおいて性能が独立して最大化されるように、レイヤＬ４およびＬ５ビットが使用される。

いくつかの構成において、ＭＤＣＴ係数が、スピーチおよび音楽優勢オーディオコンテンツに対して、異なるように量子化されてもよい。スピーチコンテンツおよび音楽コンテンツの間の区別は、Ｌ２の重み付けされた合成ＭＤＣＴ成分を、対応する入力信号成分と比較することによる、ＣＥＬＰモデルの効率の評価に基づいている。スピーチ優勢コンテンツに対して、スケーラブルな代数ベクトル量子化（ＡＶＱ）が、Ｌ３およびＬ４において使用され、スペクトル係数が８次元ブロックにおいて量子化される。グローバルな利得がＬ３において送信され、いくつかのビットが高周波数補償に対して使用される。残りのＬ３およびＬ４ビットが、ＭＤＣＴ係数の量子化に対して使用される。量子化方法は、マルチレート格子ＶＱ（ＭＲＬＶＱ）である。新規なマルチレベル順列ベースのアルゴリズムが、指標付け手続きの複雑さとメモリコストとを低減させるために使用されている。ランク計算がいくつかのステップにおいて実施される：第１に、入力ベクトルが、符号ベクトルと絶対値ベクトルとに分解される。第２に、絶対値ベクトルが、いくつかのレベルにさらに分解される。最も高いレベルのベクトルは、元の絶対値ベクトルである。各下位レベルのベクトルは、上位レベルのベクトルから最も多い周波数成分を取り除くことによって取得される。その上位レベルのベクトルに関連する各下位レベルのベクトルの位置パラメータは、順列および組み合せの機能に基づいてインデックス付けされる。最後に、すべての下位レベルのインデックスおよび符号が、出力インデックスに構成される。

音楽優勢コンテンツに対して、帯域選択型形状利得ベクトル量子化（形状利得ＶＱ）が、レイヤＬ３において使用されてもよく、追加のパルス位置ベクトル量子化器が、レイヤＬ４に適用されてもよい。レイヤＬ３において、帯域選択は、ＭＤＣＴ係数のエネルギーを計算することによって最初に実行されてもよい。次に、選択された帯域におけるＭＤＣＴ係数が、マルチパルスコードブックを使用して量子化される。ベクトル量子化器が、ＭＤＣＴ係数に対するサブバンド利得を量子化するために使用される。レイヤＬ４に対して、全帯域幅が、パルスポジショニング技術を使用してコード化されてもよい。オーディオ源モデルの不整合に起因して、スピーチモデルが望まれない雑音を生成させるイベントにおいて、Ｌ２レイヤ出力のいくつかの周波数を減衰させて、ＭＤＣＴ係数がよりアグレッシブにコード化されることを可能にしてもよい。これは、レイヤＬ４を通して、入力信号のＭＤＣＴと、コード化されたオーディオ信号のＭＤＣＴとの間の二乗誤差を最小化することによって、閉ループ法で実施される。適用される減衰量は、６ｄＢまでであってもよく、２またはよりすくないビットを使用することによって伝達されてもよい。レイヤＬ５は、追加のパルス位置コード化技術を使用してもよい。

ＭＤＣＴスペクトルのコード化
レイヤＬ３、Ｌ４およびＬ５は、ＭＤＣＴスペクトル（例えば、前のレイヤに対する残差を表すＭＤＣＴ係数）においてコード化を実行することから、そのようなＭＤＣＴスペクトルコード化は効率的であることが望まれる。それゆえに、ＭＤＣＴスペクトルコード化の効率的な方法を提供する。

このプロセスへの入力は、ＣＥＬＰコア（レイヤＬ１および／またはＬ２）後の誤差信号（残差）の完全なＭＤＣＴスペクトル、または、前の前のレイヤ後の残差ＭＤＣＴスペクトルのいずれかである。すなわち、レイヤＬ３において、完全なＭＤＣＴスペクトルが受け取られ、部分的にエンコードされる。次に、レイヤＬ４において、レイヤＬ３におけるエンコードされた信号の残差ＭＤＣＴスペクトルがエンコードされる。このプロセスは、レイヤＬ５および他の後続のレイヤに対して繰り返されてもよい。

図５は、エンコーダのより高いレイヤにおいて実現してもよい、例示的なＭＤＣＴスペクトルエンコーディングプロセスを図示するブロック図である。エンコーダ５０２は、前のレイヤから残差信号５０４のＭＤＣＴスペクトルを取得する。そのような残差信号５０４は、オリジナル信号と、（例えば、オリジナル信号のエンコードされたバージョンから再構成された）オリジナル信号の再構成されたバージョンとの間の差であってもよい。残差信号のＭＤＣＴ係数を量子化して、所定のオーディオフレームに対するスペクトル線を発生させてもよい。

１つの例において、サブバンド／リージョン選択器５０８が、残差信号５０４を複数（例えば１７個）の一様なサブバンドに分割してもよい。例えば、３２０本のスペクトル線のオーディオフレームの場合は、最初および最後の２４個のポイント（スペクトル線）を落としてもよく、残りの２７２本のスペクトル線を、それぞれ１６本のスペクトル線の１７個のサブバンドに分割してもよい。さまざまな構成において、異なる数のサブバンドを使用してもよく、落としてもよい最初および最後のポイントの数を変更してもよく、ならびに／あるいは、サブバンドまたはフレーム当たりの、分割してもよいスペクトル線の数も変更してもよいことを理解すべきである。

図６は、ＭＤＣＴスペクトルのエンコーディングを容易にするために、オーディオフレーム６０２が選択され、リージョンおよびサブバンドに分割される方法の１つの例を図示する図である。この例にしたがうと、複数のリージョン（例えば、８個）が、複数（例えば、５個）の連続する、または隣接するサブバンド６０４から成るように規定されてもよい（例えば、リージョンは、５個のサブバンド＊１６本のスペクトル線／サブバンド＝８０本のスペクトル線をカバーしてもよい）。複数のリージョン６０６は、それぞれの隣接するリージョンとオーバーラップし、完全な帯域幅（例えば、７ｋＨｚ）をカバーするように整列されてもよい。領域情報をエンコーディングに対して発生させてもよい。

いったんリージョンが選択されると、リージョンにおけるＭＤＣＴスペクトルは、ターゲットベクトルの（位置特定および符号と同義の）形状および利得が順次量子化される形状利得量子化を使用して、形状量子化器５１０および利得量子化器５１２によって量子化される。整形は、メインパルスおよびサブパルスに対する大きさと共に、サブバンド当たりのメインパルスおよび複数のサブパルスに対応する、位置特定とスペクトル線の符号とを形成することを含んでいてもよい。図６中で図示した例において、リージョン６０６内の８０本のスペクトル線は、５つのメインパルス（５つの連続するサブバンド６０４ａ、６０４ｂ、６０４ｃ、６０４ｄおよび６０４ｅのそれぞれに対して１つのメインパルス）と、リージョン当たり４つの追加のサブパルスとから成る形状ベクトルによって表されてもよい。すなわち、各サブバンド６０４に対して、メインパルスが選択される（すなわち、そのサブバンドにおける１６本のスペクトル線内で最も強いパルス）。さらに、各リージョン６０６に対して、追加の４つのサブパルス（すなわち、８０本のスペクトル線内で次に最も強いスペクトル線のパルス）が選択される。図６中で図示したように、１つの例において、メインパルスおよびサブパルスの位置と、符号との組み合せは、５０ビットによりエンコードでき、ここで：５つのメインパルス（サブバンド当たり１つのメインパルス）に対するインデックスとして、２０ビット；５つのメインパルスの符号に対して５ビット；８０本のスペクトル線のリージョン内のどこかの４つのサブパルスのインデックスに対して２１ビット；４つのサブパルスの符号に対して４ビットである。

各メインパルスは、４ビット（例えば、４ビットによって表される数０ないし１６）を使用して、１６本のスペクトル線のサブバンド内のその位置によって表されてもよい。その結果、リージョン中の５つのメインパルスに対して、これは、合計で２０ビットを利用する。各メインパルスおよび／またはサブパルスの符号は、１ビット（例えば、正または負に対して、０または１のいずれか）によって表されてもよい。リージョン内の４つの選択されたサブパルスのそれぞれの位置は、組み合せ位置コード化技術を使用して（それぞれの選択されたサブパルスの位置を表す２項係数を使用して）エンコードして、辞書式インデックスを発生させてもよく、そのため、リージョン内の４つのサブパルスの位置を表すために使用されるビットの総数は、リージョンの長さよりも小さい。

メインパルスおよび／またはサブパルスの振幅および／または大きさをエンコードするために、追加のビットを利用してもよいことに注目すべきである。いくつかの構成において、パルスの振幅／大きさは、２つのビット（すなわち、００−パルスがない、０１−サブパルス、および／または、１０−メインパルス）を使用してエンコードされてもよい。形状量子化に続いて、利得量子化が、計算されたサブバンドの利得に関して実行される。リージョンは、５つのサブバンドを含んでいることから、５つの利得が、１０ビットを使用してベクトル量子化できるリージョンに対して取得される。ベクトル量子化は、切り替えられる予測スキームを活用する。出力残差信号５１６は、（元の入力残差信号５０４から、量子化された残差信号Ｓ_quantを減算５１４することによって）取得されてもよく、エンコーディングの次のレイヤに対する入力として使用できる。

図７は、効率的な方法でオーディオフレームをエンコードするための一般的なアプローチを図示する。Ｎ本のスペクトル線のリージョン７０２が、複数の連続する、または隣接するサブバンドから規定されてもよく、ここで、各サブバンド７０４は、Ｌ本のスペクトル線を有する。リージョン７０２および／またはサブバンド７０４は、オーディオフレームの残差信号に対するものであってもよい。

各サブバンドに対して、メインパルスが選択される（７０６）。例えば、サブバンドのＬ本のスペクトル線内で最も強いパルスが、そのサブバンドに対するメインパルスとして選択される。最も強いパルスは、サブバンドにおいて最も大きい振幅または大きさを有するパルスとして選択されてもよい。例えば、サブバンド７０４のそれぞれに対して、第１のメインパルスＰ_AがサブバンドＡ７０４ａに対して選択され、第２のメインパルスＰ_BがサブバンドＢ７０４ｂに対して選択される、などである。リージョン７０２はＮのスペクトル線を有することから、リージョン７０２内の各スペクトル線の位置は、（１≦ｉ≦Ｎに対して）ｃiによって表すことができる。１つの例において、第１のメインパルスＰ_Aは、位置ｃ₃にあるかもしれず、第２のメインパルスＰ_Bは位置ｃ₂₄にあるかもしれず、第３のメインパルスＰ_Cは位置ｃ₄₁にあるかもしれず、第４のメインパルスＰ_Dは位置ｃ₅₉にあるかもしれず、第５のメインパルスＰ_Eは位置ｃ₇₉にあるかもしれない。これらのメインパルスは、その対応するサブバンド内のそれらの位置を表す整数を使用することによってエンコードされてもよい。その結果、Ｌ＝１６のスペクトル線に対して、各メインパルスの位置は、４ビットを使用することによって表されてもよい。

７０８において、ストリングｗが、リージョン中の残りのスペクトル線またはパルスから発生される。ストリングを発生させるために、選択されたメインパルスは、ストリングｗから取り除かれ、残りのパルスｗ₁．．．ｗ_N-Pがストリング中にとどまる（ここで、ｐは、リージョン中のメインパルスの数である）。ストリングは、“０”および“１”によって表されてもよく、ここで“０”は、特定の位置にパルスが存在しないことを表し、“１”は、特定の位置にパルスが存在することを表す。

複数のサブパルスが、パルス強度に基づいて、ストリングｗから選択される（７１０）。例えば、４のサブパルスＳ₁、Ｓ₂、Ｓ₃およびＳ₄が、それらの強度（振幅／大きさ）に基づいて選択されてもよい（すなわち、ストリングｗ中に残っている最も強い４つのパルスが選択される）。１つの例において、第１のサブパルスＳ₁は、位置ｗ₂₀にあってもよく、第２のサブパルスＳ₂は、位置ｗ₂₉にあってもよく、第３のサブパルスＳ₃は、位置ｗ₅₁にあってもよく、第４のサブパルスＳ₄は、位置ｗ₆₉にあってもよい。選択されたサブパルスのそれぞれの位置は次に、２項係数に基づいて辞書式インデックスを使用してエンコードされ（７１２）、それにより、辞書式インデックスｉ（ｗ）は、選択されたサブパルスの位置の組み合せに基づいており、ｉ（ｗ）＝ｗ₂₀＋ｗ₂₉＋ｗ₅₁＋ｗ₆₉である。

図８は、ＭＤＣＴオーディオフレームにおいてパルスを効率的にエンコードするエンコーダを図示するブロック図である。エンコーダ８０２は、サブバンド発生器８０４を含んでいてもよく、サブバンド発生器８０４は、受け取ったＭＤＣＴスペクトルオーディオフレーム８０１を、複数のスペクトル線を有する複数の帯域に分割する。リージョン発生器８０６が次に、複数のオーバーラップするリージョンを発生させ、各リージョンは、複数の隣接するサブバンドから成る。メインパルス選択器８０８が次に、リージョン中のサブバンドのそれぞれからメインパルスを選択する。メインパルスは、サブバンド内の最も大きい振幅／大きさを有するパルス（１つ以上のスペクトル線またはポイント）であってもよい。リージョン中の各サブバンドに対して選択されたメインパルスは、符号エンコーダ８１０、位置エンコーダ８１２、利得エンコーダ８１４および振幅エンコーダ８１６によってエンコードされて、各メインパルスに対して、対応するエンコードされたビットが発生される。同様に、サブパルス選択器８０９が次に、リージョン中から（すなわち、サブパルスがどのサブバンドに属しているかを考慮せずに）複数（例えば、４つ）のサブパルスを選択する。サブパルスは、リージョン中の残りのパルスから（すなわち、すでに選択されているメインパルスを除外して）選択されてもよく、サブバンド内で最も大きい振幅／大きさを有する。リージョンに対して選択されたサブパルスは次に、符号エンコーダ８１８、位置エンコーダ８２０、利得エンコーダ８２２、および振幅エンコーダ８２４によってエンコードされて、サブパルスに対して、対応するエンコードされたビットが発生される。位置エンコーダ８２０は、組み合せ位置コード化技術を実行して、サブパルスの位置をエンコードするために使用されるビットの全体のサイズを低減させる辞書式インデックスを発生させるように構成されていてもよい。特に、リージョン全体においてわずかなパルスだけがエンコードされることになる場合、リージョンの完全な長さを表すよりも辞書式インデックスとしていくつかのサブパルスを表す方がより効率的である。

図９は、フレームに対して形状ベクトルを取得する方法を説明するフロー図である。先に示したように、形状ベクトルは、５つのメインパルスおよび４つのサブパルス（スペクトル線）から成り、（８０本の線のリージョン内の）位置特定および符号が、最も少ない可能なビット数を使用することによって伝達されることになる。

この例に対して、いくつかの仮定が、メインパルスおよびサブパルスの特性に関して成される。第１に、メインパルスの大きさは、サブパルスの大きさよりも大きいことが仮定され、その比率は、予め設定された定数（例えば、０．８）であってもよい。これは、提案される量子化技術が、３つの可能性のある再構成レベル（大きさ）である、ゼロ（０）、サブパルスレベル（例えば、０．８）およびメインパルスレベル（例えば、１）のうちの１つを、各サブバンドにおけるＭＤＣＴスペクトルに割り当ててもよいことを意味する。第２に、各１６ポイント（１６本のスペクトル線）のサブバンドが、（専用利得を有し、サブバンドにつき１度送信される）ちょうど１つのメインパルスを有することを仮定している。その結果、メインパルスは、リージョン中の各サブバンドに対して存在する。第３に、残りの４つの（または、より少ない）サブパルスを、８０本の線のリージョンにおける任意のいずれかのサブバンドに挿入できるが、それらは、選択されたメインパルスのいずれも移動させない。サブパルスは、サブバンド中のスペクトル線を表すために使用されるビットの最大数を表してもよい。例えば、サブバンドにおける４つのサブパルスが、任意のサブバンド中の１６本のスペクトル線を表すことができ、したがって、サブバンド中の１６本のスペクトル線を表すために使用されるビットの最大数は４である。

先の記述に基づいて、パルスに対するエンコーディング方法を、以下のように導出できる。（複数のスペクトル線を有する）フレームが、複数のサブバンドに分割される（９０２）。複数のオーバーラップするリージョンが規定されてもよく、各リージョンは、複数の連続する／隣接するサブバンドを含む（９０４）。メインパルスが、パルスの振幅／大きさに基づいて、リージョン中の各サブバンドにおいて選択される（９０６）。位置インデックスが、選択された各メインパルスに対してエンコードされる（９０８）。１つの例において、メインパルスは、１６本のスペクトル線を有するサブバンド内のどこかに入ることから、その位置は、４ビット（例えば、０．．．１５の整数値）によって表すことができる。同様に、符号、振幅および／または利得が、メインパルスのそれぞれに対してエンコードされてもよい（９１０）。符号は、１ビット（１または０のいずれか）により表してもよい。各メインパルスに対する利得および振幅のエンコーディングに対して使用されるビットに加えて、メインパルスに対する各インデックスは、４ビットを利用することから、５つのメインパルスのインデックス（例えば、５つのサブバンド）を表わすために２０ビットを使用し、メインパルスの符号に対して５ビットを使用してもよい。

サブパルスのエンコーディングに対して、バイナリストリングが、選択されたメインパルスが取り除かれているリージョン中の残りのパルスから選択された複数のサブパルスから生成される（９１２）。“選択された複数のサブパルス”は、残りのパルスからの最も大きい振幅／大きさを有する、ｋ個のパルスであってもよい。また、８０本のスペクトル線を有するリージョンに対して、５つのすべてのメインパルスが取り除かれる場合、これにより、考慮するサブパルスに対して、８０−５＝７５の位置が残る。その結果、サブパルスがないことを示す０と、選択されたサブパルスが位置に存在することを示す１とから成る、７５ビットのバイナリストリングｗを生成できる。辞書式インデックスが次に、複数ｋ個の非ゼロビットを有する、１組のすべての可能性のあるバイナリストリングに対して、このバイナリストリングｗの辞書式インデックスが次に計算される（９１４）。符号、振幅および／または利得が、選択されたサブパルスのそれぞれに対してエンコードされてもよい（９１６）。

辞書式インデックスを生成させること
選択されたサブパルスを表わす辞書式インデックスを、２項係数に基づく組み合せ位置コード化技術を使用して発生させてもよい。例えば、ｋ個の非ゼロビット（ストリングｗ中の非ゼロの各ビットは、エンコードすべきパルスの位置を示す）を有する長さｎの、１組の可能性のあるすべての

バイナリストリングに対して、バイナリストリングｗを計算してもよい。１つの例において、次の組み合せ公式を使用して、バイナリストリングｗ内のｋ個のすべてのパルスの位置をエンコードするインデックスを発生させてもよい：

ここで、ｎはバイナリストリングの長さであり（例えば、ｎ＝７５）、ｋは、選択されたサブパルスの数であり（例えば、ｋ＝４）、ｗ_jは、バイナリストリングｗの個々のビットを表わす。また、次のことを仮定する。

例えば、ｋ＝４かつｎ＝７５である場合、すべての可能性のあるサブパルスベクトルのインデックスによって占有される値の合計の範囲は、それゆえに、次のようになるだろう。

したがって、これは、ｌｏｇ₂１２８５８２６≒２０．２９４．．．ビットで表わすことができる。最も近い整数を使用すると、２１ビットの使用を結果として生じる。これは、バイナリストリングに対する７５ビットすなわち８０ビットリージョン中に残っているビットよりも小さいことに注目すべきである。

ストリングから辞書式インデックスを発生させる例
１つの例にしたがうと、選択されたサブパルスの位置を表すバイナリストリングに対する辞書式インデックスは、２項係数に基づいて計算してもよく、１つの可能な構成において、２項係数は、事前に計算し、以下のように三角形のアレイ（パスカルの三角形）において記憶させることができる。

その結果、バイナリストリングｗのさまざまな位置における複数のサブパルス（例えば、バイナリ“１”）を表わすバイナリストリングｗに対して、２項係数を計算してもよい。

この２項係数のアレイを使用して、辞書式インデックス（ｉ）の計算を次のように実現できる。

エンコーディング方法の例
図１０は、スケーラブルなスピーチおよびオーディオコーデックにおいて変換スペクトルをエンコードする方法を説明するブロック図である。残差信号が、コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤから取得され、ここで、残差信号は、元のオーディオ信号と、元のオーディオ信号の再構成されたバージョンとの間の差である（１００２）。元のオーディオ信号の再構成されたバージョンは、（ａ）ＣＥＬＰベースのエンコーディングレイヤからの元のオーディオ信号のエンコードされたバージョンを合成して、合成信号を取得することと、（ｂ）合成信号を再強調することと、および／または、（ｃ）元のオーディオ信号の再構成されたバージョンを取得するために、再強調された信号をアップサンプリングすることと、によって取得してもよい。

残差信号は、離散コサイン変換（ＤＣＴ）タイプの変換レイヤで変換されて、複数のスペクトル線を有する対応する変換スペクトルが取得される（１００４）。ＤＣＴタイプの変換レイヤは、修正離散コサイン変換（ＭＤＣＴ）レイヤであってもよく、変換スペクトルは、ＭＤＣＴスペクトルである。

変換スペクトルのスペクトル線が、組み合せ位置コード化技術を使用してエンコードされる（１００６）。変換スペクトルのスペクトル線のエンコーディングは、非ゼロのスペクトル線の位置に対して組み合せ位置コード化技術を使用してスペクトル線の位置を表すことに基づいて、選択されたサブセットのスペクトル線の位置をエンコードすることを含んでもよい。いくつかの構成において、エンコーディングに先立って、スペクトル線の数を低減させるために、１組のスペクトル線を落としてもよい。別の例において、組み合せ位置コード化技術は、選択されたサブセットのスペクトル線に対する辞書式インデックスを発生させることを含んでもよく、各辞書式インデックスは、選択されたサブセットのスペクトル線の位置を表している複数の可能性のあるバイナリストリングのうちの１つを表わす。辞書式インデックスは、バイナリストリングの長さよりも少ないビットで、バイナリストリングにおけるスペクトル線を表わすことが可能である。

別の例において、組み合せ位置コード化技術は、バイナリストリング内のスペクトル線の位置を表すインデックスを発生させることを含んでいてもよく、スペクトル線の位置は、次の組み合せ公式に基づいてエンコードされる：

ここでｎは、バイナリストリングの長さであり、ｋは、エンコードされる、選択されたスペクトル線の数であり、ｗ_iは、バイナリストリングの個々のビットを表わす。

１つの例において、複数のスペクトル線が、複数のサブバンドに分割されてもよく、連続するサブバンドが、リージョンにグループ化されてもよい。リージョン中のサブバンドのそれぞれに対する複数のスペクトル線から選択されたメインパルスがエンコードされてもよく、リージョン中の選択されたサブセットのスペクトル線は、サブバンドのそれぞれに対するメインパルスを除外する。さらに、リージョン内の選択されたサブセットのスペクトル線の位置は、非ゼロのスペクトル線の位置に対して組み合せ位置コード化技術を使用してスペクトル線の位置を表すことに基づいて、エンコードされてもよい。リージョン中の選択されたサブセットのスペクトル線は、サブバンドのそれぞれに対するメインパルスを除外してもよい。変換スペクトルのスペクトル線のエンコーディングは、リージョン中のすべての位置に等しい長さのすべての可能性のあるバイナリストリングの、選択されたサブセットのスペクトル線の位置に基づいて、アレイを発生させることを含んでいてもよい。リージョンは、オーバーラップしていてもよく、各リージョンは、複数の連続するサブバンドを含んでいてもよい。

辞書式インデックスをデコードして、エンコードされたパルスを合成するプロセスは、単に、エンコーディングに対して記述した動作の逆である。

ＭＤＣＴスペクトルのデコーディング
図１１は、デコーダの例を図示するブロック図である。各オーディオフレーム（例えば、２０ミリ秒フレーム）において、デコーダ１１０２は、１つ以上のレイヤの情報を含んでいる入力ビットストリーム１１０４を受信してもよい。受信レイヤは、レイヤ１からレイヤ５までの範囲にわたり、８ｋビット／ｓないし３２ｋビット／ｓのビットレートに対応してもよい。これは、デコーダの動作が、各フレームにおいて受信される、ビットの数（レイヤ）により調整されることを意味する。この例において、出力信号１１３２はＷＢであり、すべてのレイヤがデコーダ１１０２において正確に受信されているものと仮定する。コアレイヤ（レイヤ１）およびＡＣＥＬＰ強化レイヤ（レイヤ２）が、デコーダモジュール１１０６によって最初にデコードされ、信号合成が実行される。合成された信号は次に、逆エンファシスモジュール１１０８によって逆強調され、再サンプリングモジュール１１１０によって１６ｋＨｚに再サンプリングされて、信号ｓ₁₆^（ｎ）が発生される。事後処理モジュールが信号ｓ₁₆^（ｎ）をさらに処理して、レイヤ１またはレイヤ２の合成信号ｓ₂^（ｎ）を発生させる。

より高いレイヤ（レイヤ３、４、５）が次に、組み合せスペクトルデコーダモジュール１１１６によってデコードされて、ＭＤＣＴスペクトル信号Ｘ₂₃₄^（ｋ）が取得される。ＭＤＣＴスペクトル信号Ｘ₂₃₄^（ｋ）は、逆ＭＤＣＴモジュール１１２０によって逆変換され、結果として生じる信号ｘ_w,234^（ｎ）が、レイヤ１および２の知覚的に重み付けられた合成信号ｓ_w,2^（ｎ）に加えられる。時間領域雑音整形が次に、整形モジュール１１２２によって適用される。現在のフレームとオーバーラップしている、前のフレームの重み付けされた合成信号ｓ_w,2^が次に、合成に加えられる。逆知覚的重み付け１１２４が次に、合成ＷＢ信号を復元するために適用される。最後に、ピッチ事後フィルタ１１２６が、復元された信号に適用され、ハイパスフィルタ１１２８が後に続く。事後フィルタ１１２６は、ＭＤＣＴ（レイヤ３、４、５）の重複加算合成によって導入される、余分のデコーダ遅延を活用する。それは、最適の方法で、２つのピッチ事後フィルタ信号を組み合わせる。１つは、余分のデコーダ遅延を活用することによって発生される、レイヤ１またはレイヤ２のデコーダ出力の高品質ピッチ事後フィルタ信号ｓ₂^（ｎ）である。他方は、より高いレイヤ（レイヤ３、４、５）合成信号の低遅延ピッチ後フィルタ信号ｓ＾（ｎ）である。フィルタリングされた合成信号ｓ_HP＾（ｎ）が次に、雑音ゲート１１３０によって出力される。

図１２は、ＭＤＣＴスペクトルオーディオフレームのパルスを効率的にデコードするデコーダを図示するブロック図である。複数のエンコードされた入力ビットが受信され、複数のエンコードされた入力ビットは、オーディオフレームに対するＭＤＣＴスペクトルにおける、メインパルスおよび／またはサブパルスに対する符号、位置、振幅、ならびに／あるいは利得を含む。１つ以上のメインパルスに対するビットが、符号デコーダ１２１０、位置デコーダ１２１２、利得デコーダ１２１４、および／または振幅デコーダ１２１６を含んでいてもよいメインパルスデコーダによってデコードされる。メインパルス合成器１２０８が次に、デコードされた情報を使用して１つ以上のメインパルスを再構成する。同様に、１つ以上のサブパルスに対するビットが、符号デコーダ１２１８、位置デコーダ１２２０、利得デコーダ１２２２、および／または振幅デコーダ１２２４を含むサブパルスデコーダにおいてデコードされてもよい。サブパルスの位置は、組み合せ位置コード化技術に基づく辞書式インデックスを使用してエンコードされてもよい。その結果、位置デコーダ１２２０は、組み合せスペクトルデコーダであってもよい。サブパルス合成器１２０９が次に、デコードされた情報を使用して、１つ以上のサブパルスを再構成する。リージョン再発生器１２０６が次に、サブパルスに基づいて、複数のオーバーラップするリージョンを再発生させ、ここで、各リージョンは、複数の隣接するサブバンドから成る。サブバンド再発生器１２０４が次に、メインパルスおよび／またはサブパルスを使用してサブバンドを再発生させて、オーディオフレームに対する再構成されたＭＤＣＴスペクトル１２０１をもたらす。

辞書式インデックスからストリングを発生させる例
サブパルスの位置を表す、受信された辞書式インデックスをデコードするために、所定の辞書式インデックスに基づいて、逆プロセスを実行して、シーケンスまたはバイナリストリングを取得してもよい。そのような逆プロセスの１つの例は、次のように実現できる：

ほんのわずかのビットの組（例えば、ｋ＝４）を有する長いシーケンス（例えば、ｎ＝７５）のケースにおいて、このルーチンをさらに修正して、それらをより実用的にさせることができる。例えば、ビットのシーケンスをサーチする代わりに、エンコーディングに対して、非ゼロビットのインデックスを渡すことができ、それにより、インデックス（）関数は次のようになる：

２項アレイの最初の４桁だけが使用されることに注目すべきである。したがって、７５＊４＝３００語のメモリだけが、それを記憶するために使用される。

１つの例において、デコーディングプロセスは、次にアルゴリズムによって達成できる：

これは、各ステップにおいて使用されるルックアップおよび比較だけによる、ｎ回の繰返しを有するアンロールループである。

エンコーディング方法の例
図１３は、スケーラブルなスピーチおよびオーディオコーデックにおいて変換スペクトルをデコードする方法を説明するブロック図である。残差信号の複数の変換スペクトルのスペクトル線を表すインデックスが取得され、ここで、残差信号は、元のオーディオ信号と、コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤからの、元のオーディオ信号の再構成されたバージョンとの間の差である（１３０２）。インデックスは、バイナリストリングの長さよりも少ないビットで、バイナリストリング中の非ゼロのスペクトル線を表すことができる。１つの例において、取得されるインデックスは、バイナリストリング内のスペクトル線の位置を表わしてもよく、スペクトル線の位置は、次の組み合せ公式に基づいてエンコードされている：

ここで、ｎはバイナリストリングの長さであり、ｋは、エンコードされる選択されたスペクトル線の数であり、ｗ_jは、バイナリストリングの個々のビットを表す。

インデックスは、複数の変換スペクトルのスペクトル線をエンコードするために使用される組み合せ位置コード化技術を逆に行うことによってデコードされる（１３０４）。残差信号のバージョンは、逆離散コサイン変換（ＩＤＣＴ）タイプの逆変換レイヤにおいて、デコードされた、複数の変換スペクトルのスペクトル線を使用して合成される（１３０６）。残差信号のバージョンを合成することは、逆ＤＣＴタイプの変換を変換スペクトルのスペクトル線に適用して、残差信号の時間領域バージョンを生成させることを含む。変換スペクトルのスペクトル線をデコードすることは、非ゼロのスペクトル線の位置に対して組み合せ位置コード化技術を使用してスペクトル線の位置を表すことに基づいて、選択されたサブセットのスペクトル線の位置をデコードすることを含んでもよい。ＤＣＴタイプの逆変換レイヤは、逆修正離散コサイン変換（ＩＭＤＣＴ）レイヤであってもよく、変換スペクトルはＭＤＣＴスペクトルである。

さらに、元のオーディオ信号をエンコードしているＣＥＬＰエンコード信号が受信されてもよい（１３０８）。ＣＥＬＰエンコード信号がデコードされて、デコードされた信号が発生されてもよい（１３１０）。デコード信号は、残差信号の合成されたバージョンと組み合わされて、元のオーディオ信号の（より高い忠実度の）再構成されたバージョンが取得されてもよい（１３１２）。

電子ハードウェア、ソフトウェアまたは両方の組み合わせとして、ここで記述したさまざまな実例となる論理ブロック、モジュール、回路およびアルゴリズムステップを実現または実行してもよい。ハードウェアおよびソフトウェアのこの互換性を明瞭に説明するために、さまざまな実例となるコンポーネント、ブロック、モジュール、回路、およびステップをそれらの機能の点から一般的に上述した。このような機能がハードウェアまたはソフトウェアとして実現されるかどうかは、特定の用途およびシステム全体に課される設計制約に依存する。フローチャートとして描写されるプロセス、フロー図、構造図、またはブロック図として、構成を記述してもよいことが注目される。フローチャートは、一連のプロセスとして動作を記述してもよいが、動作の多くは、並行または同時に実行できる。加えて、動作の順序は、並べ変えてもよい。プロセスは、その動作が完了するとき終了する。プロセスは、方法、関数、手続き、サブルーチン、サブプログラムなどに対応してもよい。プロセスが関数に対応するとき、その終了は、呼出し関数または主関数への関数の戻りに対応する。

ハードウェアにおいて実現されるとき、さまざまな例は、汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラム可能ゲートアレイ信号（ＦＰＧＡ）または他のプログラム可能論理デバイス、ディスクリートゲートまたはトランジスタ論理、ディスクリートハードウェアコンポーネント、あるいはここで記述した機能を実行するために設計された、これらの任意の組み合わせを用いてもよい。汎用プロセッサはマイクロプロセッサでもよいが、代わりに、プロセッサは任意の従来のプロセッサ、制御装置、マイクロ制御装置、または状態遷移機械であってもよい。計算デバイスの組み合わせとして、例えば、ＤＳＰとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、ＤＳＰコアに関連した１つ以上のマイクロプロセッサ、または他の任意のこのような構成として、プロセッサを実現してもよい。

ソフトウェアにおいて実現されるとき、さまざまな例は、ファームウェア、ミドルウェアまたはマイクロコードを用いてもよい。必要なタスクを実行するためのプログラムコードまたはコードセグメントが、記憶媒体または他の記憶装置のようなコンピュータ読み取り可能媒体中に記憶されていてもよい。プロセッサが必要なタスクを実行してもよい。コードセグメントは、手続き、関数、サブプログラム、プログラム、ルーチン、サブルーチン、モジュール、ソフトウェアパッケージ、クラス、または命令の任意の組み合わせ、データ構造、またはプログラムのステートメントを表してもよい。情報、データ、引き数、パラメータ、またはメモリのコンテンツを渡し、および／または受け取ることにより、コードセグメントを、別のコードセグメントまたはハードウェア回路に結合してもよい。メモリの共有、メッセージ受渡し、トークンパッシング方式、ネットワーク送信などを含む任意の適切な手段を使用して、情報、引き数、パラメータ、データなどを渡し、転送し、または送信してもよい。

本出願中で使用されるような、用語“コンポーネント”、“モジュール”、“システム”、およびこれらに類似するものは、コンピュータ関連エンティティ、ハードウェア、ファームウェア、ハードウェアとソフトウェアとの組み合わせ、ソフトウェアまたは実行中のソフトウェアのいずれかを指すように意図されている。例えば、コンポーネントはプロセッサ上で実行するプロセス、プロセッサ、オブジェクト、実行ファイル、実行のスレッド、プログラム、および／またはコンピュータであってもよいが、それだけに限られない。実例として、計算デバイス上で実行するアプリケーションと計算デバイスとの両方をコンポーネントとすることができる。１つ以上のコンポーネントが１つのプロセスおよび／または実行のスレッド内に存在してもよく、コンポーネントが１つのコンピュータ上にローカライズされてもよく、および／または２つ以上のコンピュータ間に分散されてもよい。また、これらのコンポーネントは、記憶されているさまざまなデータ構造を有するさまざまなコンピュータ読み取り可能媒体から実行できる。コンポーネントは、（例えば、ローカルシステム中の、分散システム中の別のコンポーネントと対話する１つのコンポーネントからのデータ、および／または、インターネットのようなネットワークを通して信号により他のシステムと対話する１つのコンポーネントからのデータのような）１つ以上のデータパケットを有する信号にしたがうような、ローカルおよび／またはリモートプロセスによって通信してもよい。

ここでの１つ以上の例において、記述した機能は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの任意の組み合わせ中で実現してもよい。ソフトウェアにおいて実現する場合、コンピュータ読み取り可能媒体上に、１つ以上の命令またはコードとして、機能を記憶させてもよく、または機能を送信してもよい。コンピュータ読み取り可能媒体は、コンピュータ記憶媒体と、ある場所から別の場所へのコンピュータプログラムの転送を容易にする何らかの媒体を含む通信媒体との両方を含む。記憶媒体は、コンピュータによりアクセスできる任意の利用可能な媒体であってもよい。一例として、限定ではないが、そのようなコンピュータ読み取り可能媒体は，ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤ−ＲＯＭまたは他の光学ディスク記憶装置、磁気ディスク記憶装置または他の磁気記憶デバイス、あるいは、命令またはデータ構造の形態で所望のプログラムコード手段を搬送または記憶するために使用でき、そして、コンピュータによりアクセスできる他の任意の媒体を備えることができる。さらに、いくつかの接続は、適切にコンピュータ読み取り可能媒体と呼ばれる。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア線、デジタル加入者線（ＤＳＬ）、または、赤外線、無線、およびマイクロ波のようなワイヤレス技術を使用して、ウェブサイト、サーバまたは他のリモート情報源から送信される場合、同軸ケーブル、光ファイバケーブル、ツイストペア線、ＤＳＬ、または、赤外線、無線、およびマイクロ波のようなワイヤレス技術は、媒体の定義に含まれる。ここで使用されるディスク（Ｄｉｓｋおよびｄｉｓｃ）は、コンパクトディスク（ＣＤ）、レーザーディスク（登録商標）、光ディスク、デジタルバーサタイルディスク（ＤＶＤ）、フロッピー（登録商標）ディスク、およびブルーレイディスクを含み、ディスク（ｄｉｓｋ）は通常、磁気的にデータを再生し、一方、ディスク（ｄｉｓｃ）は、レーザにより光学的にデータを再生する。上述の組み合わせもまた、コンピュータ読み取り可能媒体の範囲内に含まれるべきである。ソフトウェアは、単一の命令、または、多くの命令を含んでいてもよく、いくつかの異なるコードセグメントに対して、異なるプログラム間に、および複数の記憶媒体にわたって分散されていてもよい。例示的な記憶媒体は、プロセッサに結合されていてもよく、それにより、プロセッサは、記憶媒体から情報を読み出すことができ、記憶媒体に情報を書き込むことができる。代替として、記憶媒体は、プロセッサと一体化していてもよい。

ここで開示した方法は、記述した方法を達成するために、１つ以上のステップまたは動作を含んでいる。方法のステップおよび／または動作は、特許請求の範囲から逸脱することなく、互いに置き換えられてもよい。すなわち、ステップまたは動作の特定の順序が、記述されている実施形態の適切な動作に対して必要とされない限り、特定のステップおよび／または動作の順序および／または使用は、特許請求の範囲から逸脱することなく修正してもよい。

図１、２、３、４、５、６、７、８、９、１０、１１、１２、および／または１３中で図示したコンポーネント、ステップ、および／または機能のうちの１つ以上は、単一のコンポーネント、ステップまたは機能に再編成され、および／または組み合わされてもよく、あるいは、いくつかのコンポーネント、ステップまたは機能において具現されてもよい。追加のエレメント、コンポーネント、ステップおよび／または機能を追加してもよい。図１、２、３、４、５、８、１１および１２中で図示した装置、デバイスおよび／またはコンポーネントは、図６ないし図７、および図１０ないし図１３中で記述した方法、特徴またはステップのうちの１つ以上を実行するように構成または適合されていてもよい。ここで記述したアルゴリズムは、ソフトウェアにおいて効率的に実現されてもよく、および／またはハードウェアに埋め込まれていてもよい。

上述の構成は例に過ぎず、特許請求の範囲を限定するものとして解釈すべきでないことに注目すべきである。構成の記述は、実例であるように向けられており、特許請求の範囲を限定するように向けられていない。そのため、本教示は、他のタイプの装置に容易に適用でき、多くの代替、修正およびバリエーションが当業者に明らかになるであろう。

Claims

スケーラブルなスピーチおよびオーディオコーデック中でエンコードする方法において、
コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤから残差信号を取得し、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
離散コサイン変換（ＤＣＴ）タイプの変換レイヤにおいて前記残差信号を変換して、複数のスペクトル線を有する対応する変換スペクトルを取得することと、
組み合せ位置コード化技術を使用して、前記変換スペクトルのスペクトル線をエンコードすることとを含む方法。
前記ＤＣＴタイプの変換レイヤは、修正離散コサイン変換（ＭＤＣＴ）レイヤであり、前記変換スペクトルは、ＭＤＣＴスペクトルである請求項１記載の方法。
前記変換スペクトルのスペクトル線をエンコードすることは、
非ゼロのスペクトル線の位置に対して前記組み合せ位置コード化技術を使用してスペクトル線の位置を表すことに基づいて、選択されたサブセットのスペクトル線の位置をエンコードすることを含む請求項１記載の方法。
前記複数のスペクトル線を複数のサブバンドに分割することと、
連続するサブバンドをリージョンにグループ化することとをさらに含む請求項１記載の方法。
前記リージョン中のサブバンドのそれぞれに対する複数のスペクトル線から選択されたメインパルスをエンコードすることをさらに含む請求項４記載の方法。
非ゼロのスペクトル線の位置に対して前記組み合せ位置コード化技術を使用してスペクトル線の位置を表すことに基づいて、リージョン内の選択されたサブセットのスペクトル線の位置をエンコードすることをさらに含み、
前記変換スペクトルのスペクトル線をエンコードすることは、前記リージョン中のすべての位置に等しい長さのすべての可能性のあるバイナリストリングの、前記選択されたサブセットのスペクトル線の位置に基づいて、アレイを発生させることを含む請求項４記載の方法。
前記リージョンは、オーバーラップしており、各リージョンは、複数の連続するサブバンドを含む請求項４記載の方法。
前記組み合せ位置コード化技術は、
選択されたサブセットのスペクトル線に対する辞書式インデックスを発生させることを含み、各辞書式インデックスは、前記選択されたサブセットのスペクトル線の位置を表している複数の可能性のあるバイナリストリングのうちの１つを表す請求項１記載の方法。
前記辞書式インデックスは、バイナリストリングの長さよりも少ないビットで、前記バイナリストリングにおける非ゼロのスペクトル線を表す請求項８記載の方法。
前記組み合せ位置コード化技術は、
バイナリストリング内のスペクトル線の位置を表すインデックスを発生させることを含み、前記スペクトル線の位置は、組み合せ公式

に基づいてエンコードされ、
ここで、ｎは前記バイナリストリングの長さであり、ｋはエンコードされる選択されたスペクトル線の数であり、ｗ_jは前記バイナリストリングの個々のビットを表す請求項１記載の方法。
エンコードすることに先立って、１組のスペクトル線を落として、スペクトル線の数を低減させることをさらに含む請求項１記載の方法。
前記元のオーディオ信号の再構成されたバージョンは、
前記ＣＥＬＰベースのエンコーディングレイヤからの、前記元のオーディオ信号のエンコードされたバージョンを合成して、合成された信号を取得することと、
前記合成された信号を再強調することと、
前記元のオーディオ信号の再構成されたバージョンを取得するために、前記再強調された信号をアップサンプリングすることとにより取得される請求項１記載の方法。
スケーラブルなスピーチおよびオーディオエンコーダデバイスにおいて、
コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤモジュールから残差信号を取得するように適合され、前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であり、前記残差信号を変換して、複数のスペクトル線を有する対応する変換スペクトルを取得するように適合されている離散コサイン変換（ＤＣＴ）タイプの変換レイヤモジュールと、
組み合せ位置コード化技術を使用して、前記変換スペクトルのスペクトル線をエンコードするように適合されている組み合せスペクトルエンコーダとを具備するデバイス。
前記ＤＣＴタイプの変換レイヤモジュールは、修正離散コサイン変換（ＭＤＣＴ）レイヤモジュールであり、前記変換スペクトルは、ＭＤＣＴスペクトルである請求項１３記載のデバイス。
前記変換スペクトルのスペクトル線をエンコードすることは、
非ゼロのスペクトル線の位置に対して前記組み合せ位置コード化技術を使用してスペクトル線の位置を表すことに基づいて、選択されたサブセットのスペクトル線の位置をエンコードすることを含む請求項１３記載のデバイス。
前記複数のスペクトル線を複数のサブバンドに分割するように適合されているサブバンド発生器と、
連続するサブバンドをリージョンにグループ化するように適合されているリージョン発生器とをさらに具備する請求項１３記載のデバイス。
前記リージョン中のサブバンドのそれぞれに対する複数のスペクトル線から選択されたメインパルスをエンコードするように適合されているメインパルスエンコーダをさらに具備する請求項１６記載のデバイス。
非ゼロのスペクトル線の位置に対して前記組み合せ位置コード化技術を使用してスペクトル線の位置を表すことに基づいて、リージョン内の選択されたサブセットのスペクトル線の位置をエンコードするように適合されているサブパルスエンコーダをさらに具備し、
前記変換スペクトルのスペクトル線をエンコードすることは、前記リージョン中のすべての位置に等しい長さのすべての可能性のあるバイナリストリングの、前記選択されたサブセットのスペクトル線の位置に基づいて、アレイを発生させることを含む請求項１６記載の方法。
前記リージョンは、オーバーラップしており、各リージョンは、複数の連続するサブバンドを含む請求項１６記載のデバイス。
前記組み合せ位置コード化技術は、
選択されたサブセットのスペクトル線に対する辞書式インデックスを発生させることを含み、各辞書式インデックスは、前記選択されたサブセットのスペクトル線の位置を表している複数の可能性のあるバイナリストリングのうちの１つを表す請求項１３記載のデバイス。
前記辞書式インデックスは、バイナリストリングの長さよりも少ないビットで、前記バイナリストリングにおける非ゼロのスペクトル線を表す請求項２０記載のデバイス。
前記組み合せスペクトルエンコーダは、バイナリストリング内のスペクトル線の位置を表すインデックスを発生させるように適合されており、前記スペクトル線の位置は、組み合せ公式

に基づいてエンコードされ、
ここで、ｎは前記バイナリストリングの長さであり、ｋはエンコードされる選択されたスペクトル線の数であり、ｗ_jは前記バイナリストリングの個々のビットを表す請求項１３記載のデバイス。
前記元のオーディオ信号の再構成されたバージョンは、
前記ＣＥＬＰベースのエンコーディングレイヤからの、前記元のオーディオ信号のエンコードされたバージョンを合成して、合成された信号を取得することと、
前記合成された信号を再強調することと、
前記元のオーディオ信号の再構成されたバージョンを取得するために、前記再強調された信号をアップサンプリングすることとにより取得される請求項１３記載のデバイス。
スケーラブルなスピーチおよびオーディオエンコーダデバイスにおいて、
コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤから残差信号を取得する手段と、
離散コサイン変換（ＤＣＴ）タイプの変換レイヤにおいて前記残差信号を変換して、複数のスペクトル線を有する対応する変換スペクトルを取得する手段と、
組み合せ位置コード化技術を使用して、前記変換スペクトルのスペクトル線をエンコードする手段とを具備し、
前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であるデバイス。
スケーラブルなスピーチおよびオーディオエンコーディング回路を含むプロセッサにおいて、
前記回路は、
コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤから残差信号を取得するように適合され、
離散コサイン変換（ＤＣＴ）タイプの変換レイヤにおいて前記残差信号を変換して、複数のスペクトル線を有する対応する変換スペクトルを取得するように適合され、
組み合せ位置コード化技術を使用して、前記変換スペクトルのスペクトル線をエンコードするように適合されており、
前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差であるプロセッサ。
スケーラブルなスピーチおよびオーディオエンコーディングに対して動作可能な命令を含む機械読み取り可能媒体において、
１つ以上のプロセッサによって実行されるとき、前記命令は、
コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤから残差信号を取得することと、
離散コサイン変換（ＤＣＴ）タイプの変換レイヤにおいて前記残差信号を変換して、複数のスペクトル線を有する対応する変換スペクトルを取得することと、
組み合せ位置コード化技術を使用して、前記変換スペクトルのスペクトル線をエンコードすることとを前記プロセッサに生じさせ、
前記残差信号は、元のオーディオ信号と、前記元のオーディオ信号の再構成されたバージョンとの間の差である機械読み取り可能媒体。
スケーラブルなスピーチおよびオーディオデコーディングの方法において、
残差信号の複数の変換スペクトルのスペクトル線を表すインデックスを取得し、前記残差信号は、元のオーディオ信号と、コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
前記複数の変換スペクトルのスペクトル線をエンコードするために使用される組み合せ位置コード化技術を逆に行うことによって、前記インデックスをデコードすることと、
逆離散コサイン変換（ＩＤＣＴ）タイプの逆変換レイヤにおいて、前記デコードされた、複数の変換スペクトルのスペクトル線を使用して、前記残差信号のバージョンを合成することとを含む方法。
前記元のオーディオ信号をエンコードしているＣＥＬＰエンコード信号を受信することと、
ＣＥＬＰエンコード信号をデコードして、デコードされた信号を発生させることと、
前記デコード信号を、前記残差信号の合成されたバージョンと組み合わせて、前記元のオーディオ信号の再構成されたバージョンを取得することとをさらに含む請求項２７記載の方法。
前記残差信号のバージョンを合成することは、逆ＤＣＴタイプの変換を前記変換スペクトルのスペクトル線に適用して、前記残差信号の時間領域バージョンを生成させることを含む請求項２７記載の方法。
前記変換スペクトルのスペクトル線をデコードすることは、
非ゼロのスペクトル線の位置に対して前記組み合せ位置コード化技術を使用してスペクトル線の位置を表すことに基づいて、選択されたサブセットのスペクトル線の位置をデコードすることを含む請求項２７記載の方法。
前記インデックスは、バイナリストリングの長さよりも少ないビットで、前記バイナリストリングにおける非ゼロのスペクトル線を表す請求項２７記載の方法。
前記ＤＣＴタイプの逆変換レイヤは、逆修正離散コサイン変換（ＩＭＤＣＴ）レイヤであり、前記変換スペクトルは、ＭＤＣＴスペクトルである請求項２７記載の方法。
前記取得されたインデックスは、バイナリストリング内のスペクトル線の位置を表し、前記スペクトル線の位置は、組み合せ公式

に基づいてエンコードされており、
ここで、ｎは前記バイナリストリングの長さであり、ｋはエンコードされる選択されたスペクトル線の数であり、ｗ_jは前記バイナリストリングの個々のビットを表す請求項２７記載の方法。
スケーラブルなスピーチおよびオーディオデコーダデバイスにおいて、
残差信号の複数の変換スペクトルのスペクトル線を表すインデックスを取得するように適合され、前記残差信号は、元のオーディオ信号と、コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差であり、前記複数の変換スペクトルのスペクトル線をエンコードするために使用される組み合せ位置コード化技術を逆に行うことによって、前記インデックスをデコードするように適合されている組み合せスペクトルデコーダと、
前記デコードされた、複数の変換スペクトルのスペクトル線を使用して、前記残差信号のバージョンを合成するように適合されている、逆離散コサイン変換（ＩＤＣＴ）タイプの逆変換レイヤモジュールとを具備するデバイス。
前記元のオーディオ信号をエンコードしているＣＥＬＰエンコード信号を受信し、
ＣＥＬＰエンコード信号をデコードして、デコードされた信号を発生させ、
前記デコード信号を、前記残差信号の合成されたバージョンと組み合わせて、前記元のオーディオ信号の再構成されたバージョンを取得するように適合されているＣＥＬＰデコーダをさらに具備する請求項３４記載のデバイス。
前記残差信号のバージョンを合成する、前記（ＩＤＣＴ）タイプの逆変換レイヤモジュールは、逆ＤＣＴタイプの変換を前記変換スペクトルのスペクトル線に適用して、前記残差信号の時間領域バージョンを生成させるように適合されている請求項３４記載のデバイス。
前記インデックスは、バイナリストリングの長さよりも少ないビットで、前記バイナリストリングにおける非ゼロのスペクトル線を表す請求項３４記載のデバイス。
スケーラブルなスピーチおよびオーディオデコーダデバイスにおいて、
残差信号の複数の変換スペクトルのスペクトル線を表すインデックスを取得する手段であって、前記残差信号は、元のオーディオ信号と、コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差である手段と、
前記複数の変換スペクトルのスペクトル線をエンコードするために使用される組み合せ位置コード化技術を逆に行うことによって、前記インデックスをデコードする手段と、
逆離散コサイン変換（ＩＤＣＴ）タイプの逆変換レイヤにおいて、前記デコードされた、複数の変換スペクトルのスペクトル線を使用して、前記残差信号のバージョンを合成する手段とを具備するデバイス。
スケーラブルなスピーチおよびオーディオデコーディング回路を含むプロセッサにおいて、
前記回路は、
残差信号の複数の変換スペクトルのスペクトル線を表すインデックスを取得するように適合され、前記残差信号は、元のオーディオ信号と、コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差であり、
前記複数の変換スペクトルのスペクトル線をエンコードするために使用される組み合せ位置コード化技術を逆に行うことによって、前記インデックスをデコードするように適合され、
逆離散コサイン変換（ＩＤＣＴ）タイプの逆変換レイヤにおいて、前記デコードされた、複数の変換スペクトルのスペクトル線を使用して、前記残差信号のバージョンを合成するように適合されているプロセッサ。
スケーラブルなスピーチおよびオーディオデコーディングに対して動作可能な命令を含む機械読み取り可能媒体において、
１つ以上のプロセッサによって実行されるとき、前記命令は、
残差信号の複数の変換スペクトルのスペクトル線を表すインデックスを取得し、前記残差信号は、元のオーディオ信号と、コード励振線形予測（ＣＥＬＰ）ベースのエンコーディングレイヤからの、前記元のオーディオ信号の再構成されたバージョンとの間の差であることと、
前記複数の変換スペクトルのスペクトル線をエンコードするために使用される組み合せ位置コード化技術を逆に行うことによって、前記インデックスをデコードすることと、
逆離散コサイン変換（ＩＤＣＴ）タイプの逆変換レイヤにおいて、前記デコードされた、複数の変換スペクトルのスペクトル線を使用して、前記残差信号のバージョンを合成することとを前記プロセッサに生じさせる機械読み取り可能媒体。