JP5805796B2

JP5805796B2 - 柔軟なコンフィギュレーション機能性を有するオーディオエンコーダおよびデコーダ

Info

Publication number: JP5805796B2
Application number: JP2013558468A
Authority: JP
Inventors: ノイエンドルフ、マックス; ムルトルス、マルクス; デーラ、シュティファン; プルンハーゲン、ヘイコ; ボント、フランスデ
Original assignee: Koninklijke Philips NV; Dolby International AB
Current assignee: Koninklijke Philips NV; Dolby International AB
Priority date: 2011-03-18
Filing date: 2012-03-19
Publication date: 2015-11-10
Anticipated expiration: 2032-03-19
Also published as: US20140019146A1; TWI480860B; KR20140018929A; CN107342091B; US20170270938A1; KR20160056328A; HK1245491A1; CA2830439C; JP2014509754A; EP2686848A1; TWI571863B; SG194199A1; WO2012126893A1; CN103703511B; AU2016203416B2; CA2830633C; RU2013146530A; AU2012230440A1; AU2016203416A1; CA2830631A1

Description

本発明は、オーディオ符号化に関連し、かつ特に所謂ＵＳＡＣ符号化（ＵｎｉｆｉｅｄＳｐｅｅｃｈａｎｄＡｕｄｉｏＣｏｄｉｎｇ、音声音響統合符号化）から知られるような高品質で低ビットレートの符号化に関連する。

ＵＳＡＣ符号化器は、ＩＳＯ／ＩＥＣＣＤ２３００３−３において規定される。この「情報技術―ＭＰＥＧオーディオ技術−パート３、音声音響統合符号化」と言う名称の標準は、音声音響統合符号化に関する提案について求められるものの基準モデルの機能ブロックを詳細に記述する。

図１０ａおよび図１０ｂは、エンコーダおよびデコーダのブロック図を示す。ＵＳＡＣエンコーダおよびデコーダのブロック図は、ＭＰＥＧ−ＤＵＳＡＣ符号化の構造を反映する。概略の構造は、次のように記述することができる。まず第１に、ステレオまたは多チャネル処理を扱うＭＰＥＧサラウンド（ＭＰＥＧＳ）機能部および入力信号におけるより高いオーディオ周波数のパラメータ表現を扱うエンハンストＳＢＲ（ｅＳＢＲ）部からなる一般的な前／後処理がある。そして、修正アドバンスドオーディオ符号化（ＡＣＣ）ツール経路からなる一方の分岐と、ＬＰＣ残差の周波数領域表現または時間領域表現のいずれかを特徴とする線形予測符号化（ＬＰまたはＬＰＣ領域）系の経路とからなる他方の分岐の２つの分岐がある。ＡＡＣおよびＬＰＣの両方のために伝送されるスペクトルのすべてが、量子化および算術符号化に続くＭＤＣＴ領域において表現される。時間領域表現はＡＣＥＬＰ励起符号化スキームを使用する。

ＭＰＥＧ−ＤＵＳＡＣの基本構造を図１０ａおよび図１０ｂに示す。この図面におけるデータの流れは、左右および上下である。デコーダの機能は、ビットストリームペイロードにおける量子化オーディオスペクトルまたは時間領域表現の記述を見つけて、量子化された値や他の再構成情報を復号化することである。

送信されたスペクトル情報の場合、デコーダは、量子化スペクトルを再構成し、ビットストリームペイロードにおいて活性であるいずれかのツールで、再構成されたスペクトルを処理して、入力ビットストリームペイロードにより記述される実際の信号スペクトルに到達して、最終的に周波数領域のスペクトルを時間領域に変換する。最初の再構成およびスペクトル再構成のスケーリングに続いて、より効率的符号化を図るために、スペクトルのうち１以上を変更する随意のツールが存在する。

送信された時間領域信号表現の場合、デコーダは、量子化された時間信号を再構成し、この再構成された時間信号をビットストリームペイロードにおいて活性であるいずれかのツールで処理して、入力ビットストリームペイロードにより記述される実際の時間領域信号に到達する。

信号データに対して作用する随意のツールごとに、「パススルー」する選択肢が保持され、かつ処理が省略されるすべての場合において、その入力としてのスペクトルまたは時間サンプルは、修正なしで、ツールを介して直接スルーされる。

ビットストリームが、その信号表現を時間領域から周波数領域の表現へ、または、ＬＰ領域から非ＬＰ領域へまたはその逆に変更する場合、デコーダは、適当な遷移オーバラップ加算ウィンドウ化により１つの領域から他の領域への遷移を容易にする。

ｅＳＢＲおよびＭＰＥＧＳ処理を、遷移取扱い後の両方の符号化経路に同じ態様で適用する。

ビットストリームペイロードデマルチプレクサツールへの入力は、ＭＰＥＧ−ＤＵＳＡＣビットストリームペイロードである。デマルチプレクサは、ビットストリームペイロードをツールごとに部分に分けて、そのツールに関連するビットストリームペイロード情報をツールの各々に付与する。

ビットストリームペイロードデマルチプレクサツールからの出力は以下のとおりである。
・現在のフレームにおけるコア符号化のタイプによって、
‐量子化されかつ雑音なしで符号化されるスペクトルであって、
‐スケールファクタ情報
‐算術的に符号化されたスペクトルラインにより表現され
・または、以下のいずれかにより表現される励起信号を伴う線形予測（ＬＰ）パラメータのいずれかである。すなわち、それらは
‐量子化されかつ算術的に符号化されるスペクトルライン（変換符号化励起、ＴＣＸ）もしくは
‐ＡＣＥＬＰ符号化時間領域励起
・スペクトルノイズフィリング情報（随意）
・Ｍ／Ｓ決定情報（随意）
・時間雑音整形（ＴＮＳ）情報（随意）
・フィルタバンク制御情報
・時間アンワープ（ＴＷ）制御情報（随意）
・エンハンストスペクトル帯域幅複製（ｅＳＢＲ）制御情報（随意）
・ＭＰＥＧサラウンド（ＭＰＥＧＳ）制御情報

スケールファクタノイズレス復号化ツールは、ビットストリームペイロードデマルチプレクサから情報を得て、この情報を構文解析し、かつハフマン（Ｈｕｆｆｍａｎ）およびＤＰＣＭ符号化スケールファクタを復号化する。

スケールファクタノイズレス復号化ツールへの入力は以下のとおりである。
・ノイズレスで符号化されたスペクトルのためのスケールファクタ情報

スケールファクタノイズレス復号化ツールの出力は、以下のとおりである。
・スケールファクタの復号化整数表現。

スペクトルノイズレス復号化ツールは、ビットストリームペイロードデマルチプレクサから情報を得て、この情報を構文解析し、算術的に符号化されたデータを復号化し、かつ量子化スペクトルを再構成する。このノイズレス復号化ツールへの入力は、以下のとおりである。
・ノイズレスに復号化されたスペクトル

このノイズレス復号化ツールの出力は、以下のとおりである。
・スペクトルの量子化された値
逆量子化部ツールは、スペクトルのための量子化された値を得、かつ整数値を非スケーリングの再構成スペクトルへ変換する。この量子化部は、コンパンディング量子化部であり、そのコンパンディングファクタは、選択されるコア符号化モードに依存する。

逆量子化部ツールへの入力は、以下のとおりである。
・スペクトルのための量子化された値

逆量子化部ツールの出力は、以下のとおりである。
・非スケーリングの逆量子化されたスペクトル

ノイズフィリングツールを使用して復号化されたスペクトルにおけるスペクトルギャップを充填するが、これは、たとえば、エンコーダ内のビット要求に対する強い制限等により、スペクトル値がゼロに量子化される場合に発生する。

ノイズフィリングツールに対する入力は、以下のとおりである。
・非スケーリング、逆量子化スペクトル
・ノイズフィリングパラメータ
・スケールファクタの復号化された整数表現

ノイズフィリングツールへの出力は以下のとおりである。
・前回ゼロに量子化されたスペクトルラインの非スケーリング、逆量子化スペクトル値
・スケールファクタの修正された整数表現

再スケーリングツールで、スケールファクタの整数表現を実際の値に変換しかつ非スケーリング、逆量子化スペクトルに関連のスケールファクタを乗算する。

スケールファクタツールへの入力は以下のとおりである。
・スケールファクタの復号化された整数表現
・非スケーリングの、逆量子化されたスペクトル

スケールファクタツールからの出力は以下のとおりである。
・スケーリングされ、逆量子化されたスペクトル

Ｍ／Ｓツールに関する概要については、非特許文献１（ＩＳＯ／ＩＥＣ１４４９６−３：２００９、４.１.１.２）を参照。

時間雑音整形（ＴＮＳ）ツールに関する概要については、非特許文献１を参照。

フィルタバンク／ブロック切替ツールを、エンコーダで行われた周波数マッピングの逆に適用する。逆修正離散コサイン変換（ＩＭＤＣＴ）は、フィルタバンクツールに使用する。ＩＭＤＣＴは、１２０、１２８、２４０、２５６、４８０、５１２、９６０、または１０２４スペクトル係数をサポートするよう構成することができる。

フィルタバンクツールに対する入力は以下のとおりである。
・（逆量子化された）スペクトル
・フィルタバンク制御情報
フィルタバンクツールからの出力（単数または複数）は、以下のとおりである。
・時間領域再構成オーディオ信号（単数または複数）

時間ワープしたフィルタバンク／ブロック切替ツールは、時間ワープモードが可能化された際に、通常のフィルタバンク／ブロック切替ツールを置換する。フィルタバンクは、通常のフィルタバンクについては、同じ（ＩＭＤＣＴ）であり、付加的には、ウィンドウ化された時間領域サンプルを、時間可変再サンプリングにより、ワープした時間領域から線形時間領域へマッピングする。

時間ワープしたフィルタバンクツールへの入力は、以下のとおりである。
・逆量子化したスペクトル
・フィルタバンク制御情報
・時間ワープ制御情報

フィルタバンクツールからの出力（単数または複数）は以下のとおりである。
・線形時間領域再構成オーディオ信号（単数または複数）

エンハンストＳＢＲ（ｅＳＢＲ）ツールは、オーディオ信号の高帯域を再生成する。これは、符号化の際にトランケートされた高調波のシーケンスの複製による。これは、生成された高帯域のスペクトルエンベロープを調節しかつ逆フィルタリングを適用し、雑音および正弦波成分を付加して、元の信号のスペクトル特性を再現するようになっている。

ｅＳＢＲツールへの入力は、以下のとおりである。
・量子化されたエンベロープデータ
・Ｍｉｓｃ．制御データ
・周波数領域コアデコーダまたはＡＣＥＬＰ／ＴＣＸコアデコーダからの時間領域信号

ｅＳＢＲツールの出力は以下のいずれかである。
・時間領域信号、または
・ＭＰＥＧサラウンドツール等における信号のＱＭＦ領域表現が使用される。

ＭＰＥＧサラウンド（ＭＰＥＧＳ）ツールは、適切な空間パラメータにより制御される入力信号（単数または複数）に複雑なアップミックス過程を適用することにより１以上の入力信号から複数の入力信号を生成する。ＵＳＡＣコンテクストでは、ＭＰＥＧＳが、送信されたダウンミックスされた信号と並んでパラメータサイド情報を送信することにより多チャネル信号を符号化するために使用される。

ＭＰＥＧＳツールへの入力は以下のとおりである。
・ダウンミックスされた時間領域信号、または
・ｅＳＢＲツールからのダウンミックスされた信号のＱＭＦ領域表現

ＭＰＥＧＳツールの出力は以下のとおりである。
・多チャネル時間領域信号

信号分類部ツールは、元の入力信号を解析しかつそれから異なる符号化モードの選択をトリガする制御情報を生成する。入力信号の解析は、実装に依存しかつ所与の入力信号フレームについて最適なコア符号化モードを選択しようとする。信号分類部の出力は、ＭＰＥＧサラウンド、エンハンストＳＢＲ、時間ワープしたフィルタバンク等の他のツールの挙動に影響を与えるためにも（随意に）使用できる。

信号分類部ツールへの入力は、以下のとおりである。
・元の、修正されていない入力信号
・追加の実装依存パラメータ

信号分類部ツールの出力は、以下のとおりである。
・コアコーディック（非ＬＰフィルタ化周波数領域符号化、ＬＰフィルタ化周波数領域またはＬＰフィルタ化時間領域符号化）の選択を制御する制御信号

ＡＣＥＬＰツールは、長期予測部（適応コードワード）とパルス様シーケンス（イノベーションコードワード）とを組み合わせることにより時間領域励起信号を効率的に表現する方法を提供する。再構成された励起は、ＬＰ合成フィルタを介して送られ、時間領域信号を構成する。

ＡＣＥＬＰツールへの入力は、以下のとおりである。
・適合およびイノベーションコードブックインデクス
・適合およびイノベーションコード利得値
・他の制御データ
・逆量子化されかつ補間されたＬＰＣフィルタ係数

ＡＣＥＬＰツールの出力は以下のとおりである。
・時間領域再構成オーディオ信号

ＭＤＣＴ系ＴＣＸ復号化ツールは、ＭＤＣＴ領域からの重み付ＬＰ残差表現を時間領域信号に戻しかつ重み付ＬＰ合成フィルタリングを含む時間領域信号を出力する。ＩＭＤＣＴは、２５６、５１２または１０２４のスペクトル係数をサポートするよう構成することができる。

ＴＣＸツールへの入力は、以下のとおりである。
・（逆量子化された）ＭＤＣＴスペクトル
・逆量子化されかつ補間されたＬＰＣフィルタ係数

ＴＣＸツールの出力は以下のとおりである。
・時間領域再構成オーディオ信号

ＩＳＯ／ＩＥＣＣＤ２３００３−３に開示される技術（ここに引用により援用）により、チャネル要素の定義が可能になる。たとえば、単一のチャネルのためのペイロードを含むのみの単一のチャネル要素、２つのチャネルのためのペイロードを含むチャネル対要素またはＬＦＥチャネルのためのペイロードを含むＬＦＥ（低周波数エンハンスメント）チャネル要素である。

５チャネルの多チャネルオーディオ信号は、たとえば、中央チャネルを含む単一チャネル要素、左右チャネルを含む第１のチャネル対要素および左サラウンドチャネル（Ｌｓ）および右サラウンドチャネル（Ｒｓ）を含む第２のチャネル対要素により表すことができる。これらの異なるチャネル要素が合わさって多チャネルオーディオ信号を表現するが、これらは、デコーダにフィードされて、同じデコーダコンフィギュレーションを使用して処理される。先行技術によれば、ＵＳＡＣに特定的なコンフィギュ要素において送られるデコーダコンフィギュレーションが、デコーダによりすべてのチャネル要素に適用されていたので、すべてのチャネル要素に有効なコンフィギュレーションの要素を、個別のチャネル要素について最適な態様で選択することはできず、同時にすべてのチャネル要素について設定を行わなければならないという状況が存在する。しかしながら、他方で、直線的な５チャネルの多チャネル信号を記述するためのチャネル要素は、相互にかなり相違することがわかっている。単一チャネル要素である中央チャネルは、左／右チャネルおよび左サラウンド／右サラウンドチャネルを記述するチャネル対要素とは非常に異なる特徴を有し、さらに２つのチャネル対要素の特徴も、サラウンドチャネルが左右チャネルに含まれる情報とは大きく異なる情報を含むという事実により、かなり相違する。

すべてのチャネル要素についてまとめてコンフィギュレーションデータを選択するには、すべてのチャネル要素について非最適ではあるが、すべてのチャネル要素間の折衷に相当するコンフィギュレーションを選択せざるを得ないという妥協を強いられる。代替的には、１つのチャネル要素について最適にコンフィギュレーションを選択するが、この場合には、他のチャネル要素については、そのコンフィギュレーションは、非最適であるという状況に陥ることは避けられない。しかしながらこの場合、非最適のコンフィギュレーションを有するチャネル要素のためにビットレートが増大するかまたは代替的にもしくは付加的には最適コンフィギュレーション設定でないこれらのチャネル要素についてのオーディオ品質が減じられる結果となる。

ＩＳＯ／ＩＥＣ１４４９６−３：２００９、４.１.１.２

したがって、本発明の目的は、改良されたオーディオ符号化／復号化概念を提供することである。

この目的は、請求項１に記載のオーディオデコーダ、請求項１４に記載のオーディオ復号化方法、請求項１５に記載のオーディオエンコーダ、請求項１６に記載のオーディオ符号化方法、請求項１７に記載のコンピュータプログラムおよび請求項１８に記載の符号化されたオーディオ信号により達成される。

本発明は、各個別のチャネル要素のためのデコーダコンフィギュレーションデータを送信する際に、改良されたオーディオ符号化／復号化の概念が得られるという知見に基づく。したがって、本発明によれば、符号化されたオーディオ信号は、データストリームのペイロードセクションにおいて第１および第２のチャネル要素を含み、データストリームのコンフィギュレーションセクションにおいて第１のチャネル要素のための第１デコーダコンフィギュレーションデータおよび第２のチャネル要素のための第２のデコーダコンフィギュレーションデータを含む。このように、チャネル要素のためのペイロードデータが位置するデータストリームのペイロードセクションが、チャネル要素のためのコンフィギュレーションデータが位置するデータストリームのためのコンフィギュレーションデータから分離される。コンフィギュレーションセクションが、シリアルビットストリームの連続する部分であることが好ましく、このペイロードセクションまたはビットストリームの連続する部分に属するすべてのビットがコンフィギュレーションデータである。コンフィギュレーションデータセクションに、チャネル要素のためのペイロードが位置するデータストリームのペイロードセクションが続くことが好ましい。発明のオーディオデコーダは、コンフィギュレーションセクションにおける各チャネル要素のためのコンフィギュレーションデータを読出しかつペイロードセクションにおける各チャネル要素のためのペイロードデータを読み出すためのデータストリームリーダを含む。さらに、オーディオデコーダが、複数のチャネル要素を復号化するための構成可能デコーダと、構成可能デコーダが、第１のチャネル要素を復号化する際には第１のデコーダコンフィギュレーションデータにしたがいかつ第２のチャネル要素を復号化する際には第２のデコーダコンフィギュレーションデータにしたがい構成されるように、構成可能デコーダを構成するためのコンフィギュレーションコントローラとを含む。

このように、各チャネル要素について、最適なコンフィギュレーションを確実に選ぶことができる。これにより、異なるチャネル要素の異なる特徴について最適に対処することが可能となる。

本発明によるオーディオエンコーダは、たとえば少なくとも２つ、３つまたは好ましくは３を超える数のチャネルを有する多チャネルオーディオ信号を符号化するために構成される。オーディオエンコーダは、第１のチャネル要素のための第１のコンフィギュレーションデータおよび第２のチャネル要素のための第２のコンフィギュレーションデータを生成するためのコンフィギュレーションプロセッサと、第１および第２のコンフィギュレーションデータをそれぞれ使用して、多チャネルオーディオ信号を符号化して、第１および第２のチャネル要素を取得するための構成可能エンコーダとを含む。さらに、オーディオエンコーダは、符号化されたオーディオ信号を表すデータストリームを生成するためのデータストリーム生成部を含み、データストリームは第１および第２のコンフィギュレーションデータを有するコンフィギュレーションセクションと、第１および第２のチャネル要素を含むペイロードセクションとを有する。

ここで、エンコーダおよびデコーダは、各チャネル要素について、個別のかつ好ましくは最適なコンフィギュレーションデータを決定する位置にある。

これにより、確実に、チャネル要素ごとにオーディオ品質およびビットレートに関して最適のものが得られかつ妥協することが不要になるように、各チャネル要素のための構成可能デコーダが構成される。

次に、本発明の好ましい実施例について添付の図面を参照して説明する。

デコーダのブロック図である。エンコーダのブロック図である。様々なスピーカセットアップのためのチャネルコンフィギュレーションを説明する表である。様々なスピーカセットアップのためのチャネルコンフィギュレーションを説明する表である。様々なスピーカセットアップを識別かつ図示する図である。様々なスピーカセットアップを識別かつ図示する図である。コンフィギュレーションセクションおよびペイロードセクションを有する符号化されたオーディオ信号の様々な特徴を示す図である。コンフィギュレーションセクションおよびペイロードセクションを有する符号化されたオーディオ信号の様々な特徴を示す図である。コンフィギュレーションセクションおよびペイロードセクションを有する符号化されたオーディオ信号の様々な特徴を示す図である。コンフィギュレーションセクションおよびペイロードセクションを有する符号化されたオーディオ信号の様々な特徴を示す図である。ＵｓａｃＣｏｎｆｉｇ要素の構文を示す図である。ＵｓａｃＣｈａｎｎｅｌＣｏｎｆｉｇ要素の構文を示す図である。ＵｓａｃＤｅｃоｄｅｒＣｏｎｆｉｇの構文を示す図である。ＵｓａｃＳｉｎｇｌｅＣｈａｎｎｅｌＥｌｅｍｅｎｔＣｏｎｆｉｇの構文を示す図である。ＵｓａｃＣｈａｎｎｅｌＰａｉｒＥｌｅｍｅｎｔＣｏｎｆｉｇの構文を示す図である。ＵｓａｃＬｆｅＥｌｅｍｅｎｔＣｏｎｆｉｇの構文を示す図である。ＵｓａｃＣｏｒｅＣｏｎｆｉｇの構文を示す図である。ＳｂｒＣｏｎｆｉｇの構文を示す図である。ＳｂｒＤｆｌｔＨｅａｄｅｒの構文を示す図である。Ｍｐｓ２１２Ｃｏｎｆｉｇの構文を示す図である。ＵｓａｃＥｘｔＥｌｅｍｅｎｔＣｏｎｆｉｇの構文を示す図である。ＵｓａｃＣｏｎｆｉｇＥｘｔｅｎｓｉｏｎの構文を示す図である。ｅｓｃａｐｅｄＶａｌｕｅの構文を示す図である。チャネル要素について個別に様々なエンコーダ／デコーダツールを識別かつ構成するための様々な代替例を示す図である。５．１多チャネルオーディオ信号を生成するための並列に動作するデコーダインスタンスを有するデコーダ実現の好ましい実施例を示す図である。図１のデコーダの好ましい実現例をフローチャートの形で示す図である。ＵＳＡＣエンコーダのブロック図である。ＵＳＡＣデコーダのブロック図である。

含まれるオーディオコンテントについてのサンプリングレート、正確なチャネルコンフィギュレーションのような高レベルの情報が、オーディオビットストリーム内に存在する。このためビットストリームはより自立的になり、この情報を明示的に伝送する手段を有し得ない伝達スキームに埋め込まれる場合、コンフィギュレーションおよびペイロードの伝達は確実により容易になる。

このコンフィギュレーション構造は、組合せフレーム長およびＳＢＲサンプリングレートレート比インデクス（ｃｏｒｅＳｂｒＦｒａｍｅＬｅｎｇｔｈＩｎｄｅｘ）を含む。これにより、両方の値の効率的伝送が保証され、かつフレーム長およびＳＢＲ比の無意味な組み合わせの信号伝達が確実にできないようになる。後者は、デコーダの実装をより簡素化する。

コンフィギュレーションを、専用のコンフィギュレーション拡張機構により拡張することができる。これにより、ＭＰＥＧ−４ＡｕｄｉｏＳｐｅｃｉｆｉｃＣｏｎｆｉ（）から既知のコンフィギュレーション拡張の嵩高く非効率的な伝送が防止される。

コンフィギュレーションは、伝送されるオーディオチャネル各々と関連するラウドスピーカ位置の自由な信号伝達を可能にする。一般に使用されるチャネルからラウドスピーカへのマッピングを信号伝達することは、ｃｈａｎｎｅｌＣｏｎｆｉｇｕｒａｔｉｏｎＩｎｄｅｘにより効率的に行うことができる。

各チャネル要素のコンフィギュレーションは、各チャネル要素が独立して構成できるように、別の構造に含まれる。

ＳＢＲコンフィギュレーションデータ（「ＳＢＲヘッダ」）は、ＳｂｒＩｎｆｏ（）とＳｂｒＨｅａｄｅｒ（）とに分けられる。ＳｂｒＨｅａｄｅｒ（）については、デフォルトのバ−ジョンが定義され（ＳｂｒＤｆｌｔＨｅａｄｅｒ（））、これをビットストリームにおいて効率的に参照することができる。これにより、ＳＢＲコンフィギュレーションデータの再送信が必要とされる場所におけるビット要求を減じられる。

より一般的にＳＢＲに適用されるコンフィギュレーションの変更は、ＳｂｒＩｎｆｏ（）構文要素の補助により効率的に信号伝達することができる。

パラメータ帯域幅拡張（ＳＢＲ）およびパラメータステレオ符号化ツール（ＭＰＳ２１２、別名ＭＰＥＧサラウンド２−１−２）のためのコンフィギュレーションは、ＵＳＡＣコンフィギュレーション構造にしっかり統合される。これは、両方の技術が実際に標準において採用されるより良い態様を表す。

この構文は、コーデックに対する既存および将来の拡張の伝送を可能にする拡張機構を特徴とする。

これらの拡張は、いずれかの順序でチャネル要素と共に配置（すなわちインターリーブ）され得る。これは、拡張の適用対象である特定のチャネル要素の前または後で読み出すことが必要な拡張を可能にする。

デフォルトの長さを、構文拡張について規定でき、これにより一定長さの拡張の伝送が非常に効率的になる。この場合、拡張ペイロードの長さを毎回伝送する必要がないからである。

必要に応じ値の範囲を拡大するためエスケープ機構の補助により値を信号伝達する一般的な場合は、希望するエスケープ値のコンステレーションおよびビットフィールド拡張すべてをカバーするのに十分な柔軟性を有する専用の純粋な構文要素（ｅｓｃａｐｅｄＶａｌｕｅ（））にモジュール化されていた。

ビットストリームコンフィギュレーション
ＵｓａｃＣｏｎｆｉｇ（）（図６ａ）
ＵｓａｃＣｏｎｆｉｇ（）は、含まれるオーディオコンテントおよび完全なデコーダセットアップのために必要なものすべてについての情報を含むよう拡張されていた。オーディオについてのトップレベルの情報（サンプリングレート、チャネルコンフィギュレーション、出力フレーム長）は、より高い（アプリケーション）レイヤからのアクセスを容易にするために始まりに集められる。

ｃｈａｎｎｅｌＣｏｎｆｉｇｕｒａｔｉｏｎＩｎｄｅｘ、ＵｓａｃＣｈａｎｎｅｌＣｏｎｆｉｇ（）（図６ｂ）
これらの要素は、含まれるビットストリーム要素およびそれらのラウドスピーカへのマッピングについての情報を付与する。ｃｈａｎｎｅｌＣｏｎｆｉｇｕｒａｔｉｏｎＩｎｄｅｘにより、実際に関連あると考えられた予め定義されるモノ、ステレオまたは多チャネルコンフィギュレーションの範囲から１つを信号伝達する容易で便利な方法が可能になる。

ｃｈａｎｎｅｌＣｏｎｆｉｇｕｒａｔｉｏｎＩｎｄｅｘによりカバーされないより複雑なコンフィギュレーションについては、ＵｓａｃＣｈａｎｎｅｌＣｏｎｆｉｇ（）により、家庭やシネマサウンド再生用の既知のスピーカセットアップのすべてにおける現在知られている全スピーカ位置をカバーする３２のスピーカ位置のリストからラウドスピーカ位置への要素の自由な割り当てが図られる。

スピーカ位置のこのリストは、ＭＰＥＧサラウンド標準（ＩＳＯ／ＩＥＣ２３００３−１における表１および図１を参照）における特徴であるリストのスーパーセットである。最近導入された２２．２スピーカセットアップをカバーすることができるように４つの追加のスピーカ位置が追加されている（図３ａ、図３ｂ、図４ａおよび図４ｂを参照）。

ＵｓａｃＤｅｃｏｄｅｒＣｏｎｆｉｇ（）（図６ｃ）
この要素は、デコーダコンフィギュレーションの中心にあり、したがって、デコーダがビットストリームを解釈するために必要なすべての追加情報を含む。

特に、ビットストリームの構造はここでは、要素の数およびビットストリームにおけるそれらの順序を明示的に述べることにより規定される。

全要素にわたるループにより、全タイプ（単一、対、ｌｆｅ、拡張）の全要素のコンフィギュレーションを可能にする。

ＵｓａｃＣｏｎｆｉｇＥｘｔｅｎｓｉｏｎ（）（図６ｌ）
将来の拡張について対処するため、コンフィギュレーションは、ＵＳＡＣのいまだ存在しないコンフィギュレーション拡張のために、コンフィギュレーションを拡張する強力な機構を特徴とする。

ＵｓａｃＳｉｎｇｌｅＣｈａｎｎｅｌＥｌｅｍｅｎｔＣｏｎｆｉｇ（）（図６ｄ）
この要素コンフィギュレーションは、１つの単一チャネルを復号化するデコーダを構成するために必要な情報すべてを含む。これは、本質的にはコアコーダ関連情報であり、ＳＢＲが使用される場合には、ＳＢＲ関連情報である。

ＵｓａｃＣｈａｎｎｅｌＰａｉｒＥｌｅｍｅｎｔＣｏｎｆｉｇ（）（図６ｅ）
上記と同様、この要素コンフィギュレーションは、１つのチャネル対を復号化するデコーダを構成するために必要な情報すべてを含む。上記のコアｃｏｎｆｉｇおよびＳＢＲコンフィギュレーションに加えて、これは適用されるステレオ符号化の正確な種類（ＭＰＳ２１２、残差の有無等）のようなステレオ専用のコンフィギュレーションを含む。なお、この要素は、ＵＳＡＣにおいて入手可能な全種類のステレオ符号化オプションをカバーする。

ＵｓａｃＬｆｅＥｌｅｍｅｎｔＣｏｎｆｉｇ（）（図６ｆ）
ＬＦＥ要素コンフィギュレーションは、ＬＦＥ要素が静的コンフィギュレーションを有するのでコンフィギュレーションデータを含まない。

ＵｓａｃＥｘｔＥｌｅｍｅｎｔＣｏｎｆｉｇ（）（図６ｋ）
この要素コンフィギュレーションは、コーデックに対するいずれかの種類の既存のまたは将来の拡張を構成するために使用され得る。各拡張要素のタイプは、それ自体の専用ＩＤ値を有する。デコーダには未知のコンフィギュレーション拡張を都合よくスキップすることができるように、長さフィールドが含まれる。デフォルトペイロード長さの随意の規定により、実際のビットストリームに存在する拡張ペイロードの符号化効率をさらに向上する。

ＵＳＡＣと組み合わされることがすでに予見される拡張には、ＭＰＥＧ−４ＡＡＣから知られるようなＭＰＥＧサラウンド、ＳＡＯＣおよびなんらかのＦＩＬ要素を含む。

ＵｓａｃＣｏｒｅＣｏｎｆｉｇ（）（図６ｇ）
この要素は、コアコーダセットアップにインパクトを有するコンフィギュレーションデータを含む。現在、これらは、時間ワープツールおよびノイズフィリングツールのためのスィッチである。

ＳｂｒＣｏｎｆｉｇ（）（図６ｈ）
ｓｂｒ＿ｈｅａｄｅｒ（）を頻繁に再送信することにより生成されるビットオーバヘッドを減らすため、典型的には一定に維持されるｓｂｒ＿ｈｅａｄｅｒ（）の要素のためのデフォルト値を、コンフィギュレーション要素ＳｂｒＤｆｌｔＨｅａｄｅｒ（）において保持する。さらに、静的ＳＢＲコンフィギュレーション要素もＳｂｒＣｏｎｆｉｇ（）において保持する。これらの静的ビットには、高調波トランスポジションまたはインタＴＥＳ等のエンハンストＳＢＲの特定の特徴を可能かまたは不能化するフラグを含む。

ＳｂｒＤｆｌｔＨｅａｄｅｒ（）（図６ｉ）
これは、典型的には一定に維持されるｓｂｒ＿ｈｅａｄｅｒ（）の要素を保持する。振幅分解能、クロスオーババンド、スペクトル予備平坦化等に影響を及ぼす要素は、ここで、実行中にこれらを効率的に変更し得るＳｂｒＩｎｆｏ（）において保持される。

Ｍｐｓ２１２Ｃｏｎｆｉｇ（）（図６ｊ）
上記ＳＢＲコンフィギュレーションと同様に、ＭＰＥＧサラウンド２−１−２ツールのための全セットアップパラメータが、このコンフィギュレーションにおいてアセンブルされる。このコンテクストにおいて関連がないかまたは冗長なＳｐａｔｉａｌＳｐｅｃｉｆｉｃＣｏｎｆｉｇ（）からの要素はすべて除去される。

ビットストリームペイロード
ＵｓａｃＦｒａｍｅ（）
これは、ＵＳＡＣビットストリームペイロードの最も外側のラッパでかつＵＳＡＣアクセス単位を表す。それは、ｃｏｎｆｉｇ部で信号伝達される、含まれるチャネル要素および拡張要素すべてにわたるループを含む。これは、含み得るものという意味でビットストリームフォーマットをより柔軟にし、かつ、何らかの将来の拡張に対しても将来的に使用可能である。

ＵｓａｃＳｉｎｇｌｅＣｈａｎｎｅｌＥｌｅｍｅｎｔ（）
この要素は、モノストリームを復号化するための全データを含む。コンテントは、コアコーダに関連する部分とｅＳＢＲに関連する部分に分かれる。後者は、より密接にコアに接続され、デコーダが必要とするデータの順序をよりよく反映する。

ＵｓａｃＣｈａｎｎｅｌＰａｉｒＥｌｅｍｅｎｔ（）
この要素は、ステレオ対を符号化するためのすべての可能な方法についてのデータをカバーする。特に、旧式のＭ／Ｓ系符号化からＭＰＥＧサラウンド２−１−２の補助による完全なパラメータステレオ符号化まで、統合されたステレオ符号化のフレーバのすべてをカバーする。ｓｔｅｒｅｏＣｏｎｆｉｇＩｎｄｅｘは、どのフレーバが実際に使用されるかを示す。適切なｅＳＢＲデータおよびＭＰＥＧサラウンド２−１−２データをこの要素において送る。

ＵｓａｃＬｆｅＥｌｅｍｅｎｔ
以前のｌｆｅ＿ｃｈａｎｎｅｌ＿ｅｌｅｍｅｎｔ（）は、一貫したネーミングスキームに従うためにのみ再ネーミングされる。

ＵｓａｃＥｘｔＥｌｅｍｅｎｔ（）
この拡張要素は、小さいペイロードを有する（またはしばしば全くペイロードがない場合も）拡張についてさえ、最大限の柔軟性が得られしかも同時に最大限効率的になり得るよう慎重に設計された。不可知のデコーダがスキップするよう拡張のペイロード長が信号伝達される。ユーザが定義する拡張については、拡張のタイプの予備範囲により信号伝達することができる。拡張は要素の順序で自由に配置することができる。拡張要素の範囲は、フィルバイトを書き込むための機構を含めてすでに考慮されている。

ＵｓａｃＣｏｒｅＣｏｄｅｒＤａｔａ（）
この新しい要素は、コアコーダに影響を与える情報のすべてを要約し、かつまたそれによりｆｄ＿ｃｈａｎｎｅｌ＿ｓｔｒｅａｍ（）’ｓおよびｌｐｄ＿ｃｈａｎｎｅｌ＿ｓｔｒｅａｍ（）’ｓも含む。

ＳｔｅｒｅｏＣｏｒｅＴｏｏｌＩｎｆｏ（）
構文の読出し性を緩和するために、ステレオ関連情報のすべてがこの要素に捕捉された。これは、ステレオ符号化モードにおける多数のビットの依存性を扱うものである。

ＵｓａｃＳｂｒＤａｔａ（）
ＣＲＣ機能性およびスケーリング可能なオーディオ符号化の古い記述要素は、かつてｓｂｒ＿ｅｘｔｅｎｓｉｏｎ＿ｄａｔａ（）要素だったものから除去された。ＳＢＲｉｎｆｏおよびヘッダデータの頻繁な再送信が原因で生じるオーバヘッドを減らすために、これらの存在は、明示的に信号伝達され得る。

ＳｂｒＩｎｆｏ（）
実行中に頻繁に修正されるＳＢＲコンフィギュレーションデータ。これは、振幅分解能、クロスオーババンド、スペクトルの予備平坦化等の以前は完全なｓｂｒ＿ｈｅａｄｅｒ（）の送信を必要とした事項を制御する要素を含む（［Ｎ１１６６０］の６．３「効率」を参照）。

ＳｂｒＨｅａｄｅｒ（）
実行中にｓｂｒ＿ｈｅａｄｅｒ（）の値を変更するＳＢＲの能力を維持するために、ここでは、ＳｂｒＤｆｌｔＨｅａｄｅｒ（）において送られるもの以外の値を使用する必要がある場合には、ＵｓａｃＳｂｒＤａｔａ（）内部にＳｂｒＨｅａｄｅｒを保持することができる。最も一般的な場合のために、オーバヘッドをできるだけ低く保つため、ｂｓ＿ｈｅａｄｅｒ＿ｅｘｔｒａ機構は維持された。

ｓｂｒ＿ｄａｔａ（）
ここでも、ＵＳＡＣコンテクストでは適用不可能なため、ＳＢＲスケーリング可能符号化の残余が取り除かれている。チャネルの数によって、ｓｂｒ＿ｄａｔａ（）は、１つのｓｂｒ＿ｓｉｎｇｌｅ＿ｃｈａｎｎｅｌ＿ｅｌｅｍｅｎｔ（）または１つのｓｂｒ＿ｃｈａｎｎｅｌ＿ｐａｉｒ＿ｅｌｅｍｅｎｔ（）を含む。

ｕｓａｃＳａｍｐｌｉｎｇＦｒｅｑｕｅｎｃｙＩｎｄｅｘ
この表は、オーディオコーディックのサンプリング周波数を信号伝達するためにＭＰＥＧ−４において使用される表のスーパーセットである。この表は、現在ＵＳＡＣ動作モードにおいて使用されるサンプリングレートをカバーするためにもさらに拡張されている。いくつかのサンプリング周波数の倍数も加えられている。

ｃｈａｎｎｅｌＣｏｎｆｉｇｕｒａｔｉｏｎＩｎｄｅｘ
この表は、ｃｈａｎｎｅｌＣｏｎｆｉｇｕｒａｔｉｏｎを信号伝達するためにＭＰＥＧ−４において使用される表のスーパーセットである。これをさらに拡張して、一般的に使用されかつ将来に見込まれるラウドスピーカのセットアップの信号伝達が可能にされている。この表内へのインデクスを５ビットで信号伝達して、将来の拡張を図る。

ｕｓａｃＥｌｅｍｅｎｔＴｙｐｅ
４つ要素タイプのみが存在する。４つの基本的ビットストリーム要素：ＵｓａｃＳｉｎｇｌｅＣｈａｎｎｅｌＥｌｅｍｅｎｔ（）、ＵｓａｃＣｈａｎｎｅｌＰａｉｒＥｌｅｍｅｎｔ（）、ＵｓａｃＬｆｅＥｌｅｍｅｎｔ（）およびＵｓａｃＥｘｔＥｌｅｍｅｎｔ（）の各々について１つである。これらの要素は、必要とされる柔軟性をすべて維持しながら、必要なトップレベルの構造を提供する。

ｕｓａｃＥｘｔＥｌｅｍｅｎｔＴｙｐｅ
ＵｓａｃＥｘｔＥｌｅｍｅｎｔ（）の内部で、この要素は、過剰な拡張の信号伝達を可能にする。将来も使い続けられるよう、考えられるすべての拡張を可能にするのに十分な広さのビットフィールドが選択されている。現在既知の拡張のうち、いくつかが考慮の対象として提案されている。フィル要素、ＭＰＥＧサラウンドおよびＳＡＯＣである。

ｕｓａｃＣｏｎｆｉｇＥｘｔＴｙｐｅ
ある時点で、コンフィギュレーションを拡張することが必要であれば、新しいコンフィギュレーションごとにタイプを割り当てることが可能なＵｓａｃＣｏｎｆｉｇＥｘｔｅｎｓｉｏｎ（）により対処することができる。現在、信号伝達可能な唯一のタイプは、コンフィギュレーションのためのフィル機構である。

ｃｏｒｅＳｂｒＦｒａｍｅＬｅｎｇｔｈＩｎｄｅｘ
この表は、デコーダの複数のコンフィギュレーション特性を信号伝達する。特に、これらは、出力フレーム長、ＳＢＲ比および結果として得られるコアコーダフレーム長（ｃｃｆｌ）である。同時に、ＳＢＲにおいて使用されるＱＭＦ解析および合成帯域数も示す。

ｓｔｅｒｅｏＣｏｎｆｉｇＩｎｄｅｘ
この表は、ＵｓａｃＣｈａｎｎｅｌＰａｉｒＥｌｅｍｅｎｔ（）の内部構造を決定する。モノまたはステレオコアの使用、ＭＰＳ２１２の使用、ステレオＳＢＲが適用されるかどうかおよび残差符号化がＭＰＳ２１２において適用されるかどうかを示す。

ｅＳＢＲヘッダフィールドの大部分をデフォルトヘッダフラグで参照することができるデフォルトヘッダへ移動させることにより、ｅＳＢＲ制御データ送信のビット要求は、かなり減じられる。実世界のシステムで変化すると考えられていた以前のｓｂｒ＿ｈｅａｄｅｒ（）ビットフィールドは、現在最大８ビットをカバーする４要素のみから構成されるｓｂｒＩｎｆｏ（）要素へアウトソースされている。１８ビット以上から構成されるｓｂｒ＿ｈｅａｄｅｒ（）と比較すると、１０ビットの節約になる。

ビットレート全体に対するこの変化のインパクトを評価することはより困難である。これは、ｓｂｒＩｎｆｏ（）におけるｅＳＢＲ制御データの伝送レートに大きく依存するためである。しかしながら、ビットストリームにおいてｓｂｒクロスオーバが変更される一般的使用の場合についてはすでに、このビットの節約は、完全に伝送されるｓｂｒ＿ｈｅａｄｅｒ（）の代わりにｓｂｒＩｎｆｏ（）を送る場合、一回ごとに２２ビットにもなり得る。

ＵＳＡＣデコーダの出力をＭＰＥＧサラウンド（ＭＰＳ）（ＩＳＯ／ＩＥＣ２３００３−１）またはＳＡＯＣ（ＩＳＯ／ＩＥＣ２３００３−２）によりさらに処理できる。ＵＳＡＣにおけるＳＢＲツールが活性の場合、ＵＳＡＣデコーダは典型的には、ＩＳＯ／ＩＥＣ２３００３−１４．４におけるＨＥ−ＡＡＣについて記述されるのと同じやりかたで、ＱＭＦ領域においてそれらを接続することにより、後続のＭＰＳ／ＳＡＯＣデコーダと効率的に組み合わせることができる。ＱＭＦ領域における接続が不可能な場合は、時間領域において接続する必要がある。

ＭＰＳ／ＳＡＯＣサイド情報がｕｓａｃＥｘｔＥｌｅｍｅｎｔ機構（ｕｓａｃＥｘｔＥｌｅｍｅｎｔＴｙｐｅがＩＤ＿ＥＸＴ＿ＥＬＥ＿ＭＰＥＧＳまたはＩＤ＿ＥＸＴ＿ＥＬＥ＿ＳＡＯＣである）によりＵＳＡＣビットストリームに埋め込まれる場合、ＵＳＡＣデータとＭＰＳ／ＳＡＯＣデータ間のタイムアラインメントは、ＵＳＡＣデコーダとＭＰＳ／ＳＡＯＣデコーダ間の最も効率的接続を想定する。ＵＳＡＣにおけるＳＢＲツールが活性でかつＭＰＳ／ＳＡＯＣが６４帯域ＱＭＦ領域表現（ＩＳＯ／ＩＥＣ２３００３−１６.６.３）を採用する場合には、最も効率的接続はＱＭＦ領域におけるものである。それ以外では、最も効率的接続は時間領域におけるものである。これは、ＩＳＯ／ＩＥＣ２３００３−１４．４、４．５および７．２．１において規定されるＨＥ−ＡＡＣおよびＭＰＳの組み合わせについてのタイムアラインメントに対応する。

ＵＳＡＣ復号化の後にＭＰＳ復号化を追加することにより導入される追加の遅延は、ＩＳＯ／ＩＥＣ２３００３−１４．５により得られ、かつ、ＨＱＭＰＳまたはＬＰＭＰＳが使用されるかどうか、およびＱＭＦ領域かまたは時間領域においてＭＰＳがＵＳＡＣに接続されるかに依存する。

ＩＳＯ／ＩＥＣ２３００３−１４．４は、ＵＳＡＣとＭＰＥＧシステムとの間のインタフェースを明確にする。システムインターフェースからオーディオデコーダに伝達される各アクセス単位は、システムインターフェースすなわちコンポジタにオーディオデコーダから送られる対応の成分の単位となる。これは、スタートアップおよびシャットダウン条件、すなわちアクセス単位がアクセス単位の有限のシーケンスにおける最初または最後のものである場合を含む。

オーディオ構成単位については、ＩＳＯ／ＩＥＣ１４４９６−１７．１．３．５コンポジションタイムスタンプ（ＣＴＳ）が、構成時間が構成単位内のｎ番目のオーディオサンプルに当てはまることを特定する。ＵＳＡＣでは、ｎの値は常に１である。なお、これは、ＵＳＡＣデコーダ自体の出力にも適用される。ＵＳＡＣデコーダがたとえば、ＭＰＳデコーダと組み合わされている場合を、ＭＰＳデコーダの出力で伝達される構成単位について配慮する必要がある。

ＵＳＡＣビットストリームペイロード構文の特徴

補足的ペイロード要素の構文の特徴

エンハンストＳＢＲペイロード構文の特徴

データ要素の簡単な説明
ＵｓａｃＣｏｎｆｉｇ（）
この要素は、含まれるオーディオコンテントおよび完全なデコーダセットアップに必要なすべてについての情報を含む。

ＵｓａｃＣｈａｎｎｅｌＣｏｎｆｉｇ（）
この要素は、含まれるビットストリーム要素およびそれらのラウドスピーカへのマッピングについての情報を付与する。

ＵｓａｃＤｅｃｏｄｅｒＣｏｎｆｉｇ（）
この要素は、デコーダがビットストリームを解釈するために必要な他のすべての情報を含む。特に、ＳＢＲ再サンプリング比がここで信号伝達され、かつビットストリームの構造が、ここでは、ビットストリームにおける要素の数およびそれらの順序を明示的に述べることにより規定される。

ＵｓａｃＣｏｎｆｉｇＥｘｔｅｎｓｉｏｎ（）
ＵＳＡＣの将来のコンフィギュレーション拡張のためコンフィギュレーションを拡張するコンフィギュレーション拡張機構。

ＵｓａｃＳｉｎｇｌｅＣｈａｎｎｅｌＥｌｅｍｅｎｔＣｏｎｆｉｇ（）
１つの単一チャネルを復号化するようデコーダを構成するために必要なすべての情報を含む。これは、本質的にコアコーダに関連する情報であり、かつ、ＳＢＲが使用される場合には、ＳＢＲ関連情報である。

ＵｓａｃＣｈａｎｎｅｌＰａｉｒＥｌｅｍｅｎｔＣｏｎｆｉｇ（）
上記と同様、この要素コンフィギュレーションは、１つのチャネル対を復号化するようデコーダを構成するために必要なすべての情報を含む。上記のコアｃｏｎｆｉｇおよびｓｂｒコンフィギュレーションに加えて、これは、適用されるステレオ符号化の正確な種類（ＭＰＳ２１２、残差等の有無）等のステレオに特定的なコンフィギュレーションを含む。この要素は、ＵＳＡＣにおいて現在使用可能なステレオ符号化オプションのすべての種類をカバーする。

ＵｓａｃＬｆｅＥｌｅｍｅｎｔＣｏｎｆｉｇ（）
ＬＦＥ要素コンフィギュレーションは、ＬＦＥ要素が静的コンフィギュレーションを有するので、コンフィギュレーションデータを含まない。

ＵｓａｃＥｘｔＥｌｅｍｅｎｔＣｏｎｆｉｇ（）
この要素コンフィギュレーションは、いずれかの種類の既存または将来の拡張をコーデックに対して構成するために使用することができる。各拡張要素タイプは、その独自の専用タイプ値を有する。デコーダに未知のコンフィギュレーション拡張をスキップできるように、長さフィールドが含まれる。

ＵｓａｃＣｏｒｅＣｏｎｆｉｇ（）
コアコーダセットアップに対してインパクトのあるコンフィギュレーションデータを含む。

ＳｂｒＣｏｎｆｉｇ（）
典型的には一定に維持されるｅＳＢＲのコンフィギュレーション要素のためのデフォルト値を含む。さらに、静的ＳＢＲコンフィギュレーション要素をＳｂｒＣｏｎｆｉｇ（）内に保持する。これらの静的ビットは、高調波トランスポジションまたはインタＴＥＳ等のエンハンストＳＢＲの特定の特徴を可能化または不能化するためのフラグを含む。

ＳｂｒＤｆｌｔＨｅａｄｅｒ（）
この要素は、ＳｂｒＨｅａｄｅｒ（）の要素について異なる値を希望しない場合に参照することができるこられの要素のデフォルトバージョンを保持する。

Ｍｐｓ２１２Ｃｏｎｆｉｇ（）
ＭＰＥＧサラウンド２−１−２ツールのためのすべてのセットアップパラメータは、このコンフィギュレーションにおいてアセンブルされる。

ｅｓｃａｐｅｄＶａｌｕｅ（）
この要素は、可変数のビットを使用して整数値を送信する一般的な方法を実現する。追加ビットの連続送信により表現可能な値の範囲を拡大することができる２レベルエスケープ機構を特徴とする。

ｕｓａｃＳａｍｐｌｉｎｇＦｒｅｑｕｅｎｃｙＩｎｄｅｘ
このインデクスは、復号化後のオーディオ信号のサンプリング周波数を決定する。ｕｓａｃＳａｍｐｌｉｎｇＦｒｅｑｕｅｎｃｙＩｎｄｅｘの値および関連のサンプリング周波数を表Ｃに示す。

ｕｓａｃＳａｍｐｌｉｎｇＦｒｅｑｕｅｎｃｙ
ｕｓａｃＳａｍｐｌｉｎｇＦｒｅｑｕｅｎｃｙＩｎｄｅｘ＝０である場合、符号のついていない整数値として符号化されるデコーダの出力サンプリング周波数。

ｃｈａｎｎｅｌＣｏｎｆｉｇｕｒａｔｉｏｎＩｎｄｅｘ
このインデクスは、チャネルコンフィギュレーションを決定する。ｃｈａｎｎｅｌＣｏｎｆｉｇｕｒａｔｉｏｎＩｎｄｅｘ＞０の場合、インデクスは、表Ｙに従って、チャネルの数、チャネル要素および関連のラウドスピーカマッピングを明白に規定する。ラウドスピーカの位置の名称、使用される略称および利用可能なラウドスピーカの一般的な位置を図３ａ、図３ｂ、図４ａおよび図４ｂから推定することができる。

ｂｓＯｕｔｐｕｔＣｈａｎｎｅｌＰｏｓ
このインデクスは、図４ａに従う所与のチャネルに関連するラウドスピーカの位置を記述する。図４ｂは、リスナの３Ｄ環境におけるラウドスピーカの位置を示す。ラウドスピーカの位置をより容易に理解するため、図４ａは、関心のある読者への情報としてここに挙げるＩＥＣ１００／１７０６／ＣＤＶによるラウドスピーカ位置も含む。

ｕｓａｃＣｏｎｆｉｇＥｘｔｅｎｓｉｏｎＰｒｅｓｅｎｔ
コンフィギュレーションに対する拡張の存在を示す。

ｎｕｍＯｕｔＣｈａｎｎｅｌｓ
ｃｈａｎｎｅｌＣｏｎｆｉｇｒａｔｉｏｎＩｎｄｅｘの値が、予め規定されたチャネルコンフィギュレーションのどれも使用されないことを示す場合には、この要素が、特定のラウドスピーカ位置が関連付けられるオーディオチャネルの数を決定する。

ｎｕｍＥｌｅｍｅｎｔｓ
このフィールドは、ＵｓａｃＤｅｃｏｄｅｒＣｏｎｆｉｇ（）におけるループオーバ要素のタイプにおいてフォローする要素の数を含む。

ｕｓａｃＥｌｅｍｅｎｔＴｙｐｅ［ｅｌｅｍＩｄｘ］
ビットストリームにおける位置ｅｌｅｍＩｄｘの要素のＵＳＡＣチャネル要素タイプを規定する。４つの要素タイプが存在し、この４つの基本ビットストリーム要素、ＵｓａｃＳｉｎｇｌｅＣｈａｎｎｅｌＥｌｅｍｅｎｔ（）、ＵｓａｃＣｈａｎｎｅｌＰａｉｒＥｌｅｍｅｎｔ（）, ＵｓａｃＬｆｅＥｌｅｍｅｎｔ（）、およびＵｓａｃＥｘｔＥｌｅｍｅｎｔ（）の各々について１つ存在する。これらの要素は、必要なトップレベルの構造を付与する一方で、必要とされる柔軟性のすべてを維持する。ｕｓａｃＥｌｅｍｅｎｔＴｙｐｅの意味を表Ａに定義する。

ｓｔｅｒｅｏＣｏｎｆｉｇＩｎｄｅｘ
この要素は、ＵｓａｃＣｈａｎｎｅｌＰａｉｒＥｌｅｍｅｎｔ（）の内部構造を決定する。表ＺＺによれば、これは、モノまたはステレオコアの使用、ＭＰＳ２１２の使用、ステレオＳＢＲ適用の有無およびＭＰＳ２１２における残差符号化適用の有無を示す。この要素はまたヘルパー要素であるｂｓＳｔｅｒｅｏＳＢＲおよびｂｓＲｅｓｉｄｕａｌＣｏｄｉｎｇの値も規定する。

ｔｗ＿ｍｄｃｔ
このフラグは、このストリーム内で時間ワープしたＭＤＣＴの使用を信号伝達する。

ｎｏｉｓｅＦｉｌｌｉｎｇ
このフラグは、ＦＤコアデコーダにおけるスペクトルホールのノイズフィリングの使用を信号伝達する。

ｈａｒｍｏｎｉｃＳＢＲ
このフラグは、ＳＢＲのための高調波パッチングの使用を信号伝達する。

ｂｓ＿ｉｎｔｅｒＴｅｓ
このフラグは、ＳＢＲにおけるインタＴＥＳツールの使用を信号伝達する。

ｄｆｌｔ＿ｓｔａｒｔ＿ｆｒｅｑ
これは、フラグｓｂｒＵｓｅＤｆｌｔＨｅａｄｅｒが、ＳｂｒＨｅａｄｅｒ（）要素のデフォルト値が想定されることを示す場合に付与されるビットストリーム要素ｂｓ＿ｓｔａｔ＿ｆｒｅｑのデフォルト値である。

ｄｆｌｔ＿ｓｔｏｐ＿ｆｒｅｑ
これは、フラグｓｂｒＵｓｅＤｆｌｔＨｅａｄｅｒが、ＳｂｒＨｅａｄｅｒ（）要素のデフォルト値が想定されることを示す場合に付与されるビットストリーム要素ｂｓ＿ｓｔоｐ＿ｆｒｅｑのデフォルト値である。

ｄｆｌｔ＿ｈｅａｄｅｒ＿ｅｘｔｒａ1
これは、ＳｂｒＨｅａｄｅｒ（）要素のデフォルト値が想定されることをフラグｓｂｒＵｓｅＤｆｌｔＨｅａｄｅｒが示す場合に付与されるビットストリーム要素ｂｓ＿ｈｅａｄｅｒ＿ｅｘｔｒａ１のデフォルト値である。

ｄｆｌｔ＿ｈｅａｄｅｒ＿ｅｘｔｒａ２
これは、ＳｂｒＨｅａｄｅｒ（）要素のデフォルト値が想定されることをフラグｓｂｒＵｓｅＤｆｌｔＨｅａｄｅｒが示す場合に付与されるビットストリーム要素ｂｓ＿ｈｅａｄｅｒ＿ｅｘｔｒａ２のデフォルト値である。

ｄｆｌｔ＿ｆｒｅｑ＿ｓｃａｌｅ
これは、ＳｂｒＨｅａｄｅｒ（）要素のデフォルト値が想定されることをフラグｓｂｒＵｓｅＤｆｌｔＨｅａｄｅｒが示す場合に付与されるビットストリーム要素ｂｓ＿ｆｒｅｑ＿ｓｃａｌｅのデフォルト値である。

ｄｆｌｔ＿ａｌｔｅｒ＿ｓｃａｌｅ
これは、ＳｂｒＨｅａｄｅｒ（）要素のデフォルト値が想定されることをフラグｓｂｒＵｓｅＤｆｌｔＨｅａｄｅｒが示す場合に付与されるビットストリーム要素ｂｓ＿ａｌｔｅｒ＿ｓｃａｌｅのデフォルト値である。

ｄｆｌｔ＿ｎｏｉｓｅ＿ｂａｎｄｓ
これは、ＳｂｒＨｅａｄｅｒ（）要素のデフォルト値が想定されることをフラグｓｂｒＵｓｅＤｆｌｔＨｅａｄｅｒが示す場合に付与されるビットストリーム要素ｂｓ＿ｎｏｉｓｅ＿ｂａｎｄｓのデフォルト値である。

ｄｆｌｔ＿ｌｉｍｉｔｅｒ＿ｂａｎｄｓ
これは、ＳｂｒＨｅａｄｅｒ（）要素のデフォルト値が想定されることをフラグｓｂｒＵｓｅＤｆｌｔＨｅａｄｅｒが示す場合に付与されるビットストリーム要素ｂｓ＿ｌｉｍｉｔｅｒ＿ｂａｎｄｓのデフォルト値である。

ｄｆｌｔ＿ｌｉｍｉｔｅｒ＿ｇａｉｎｓ
これは、ＳｂｒＨｅａｄｅｒ（）要素のデフォルト値が想定されることをフラグｓｂｒＵｓｅＤｆｌｔＨｅａｄｅｒが示す場合に付与されるビットストリーム要素ｂｓ＿ｌｉｍｉｔｅｒ＿ｇａｉｎｓのデフォルト値である。

ｄｆｌｔ＿ｉｎｔｅｒｐｏｌ＿ｆｒｅｑ
これは、ＳｂｒＨｅａｄｅｒ（）要素のデフォルト値が想定されることをフラグｓｂｒＵｓｅＤｆｌｔＨｅａｄｅｒが示す場合に付与されるビットストリーム要素ｂｓ＿ｉｎｔｅｒｐｏｌ＿ｆｒｅｑのデフォルト値である。

ｄｆｌｔ＿ｓｍｏｏｔｈｉｎｇ＿ｍｏｄｅ
これは、ＳｂｒＨｅａｄｅｒ（）要素のデフォルト値が想定されることをフラグｓｂｒＵｓｅＤｆｌｔＨｅａｄｅｒが示す場合に付与されるビットストリーム要素ｂｓ＿ｓｍｏｏｔｈｉｎｇ＿ｍｏｄｅのデフォルト値である。

ｕｓａｃＥｘｔＥｌｅｍｅｎｔＴｙｐｅ
この要素は、ビットストリーム拡張タイプの信号伝達を可能にする。ｕｓａｃＥｘｔＥｌｅｍｅｎｔＴｙｐｅの意味を、表Ｂにおいて定義する。

ｕｓａｃＥｘｔＥｌｅｍｅｎｔＣｏｎｆｉｇＬｅｎｇｔｈ
バイト（オクテット）で拡張コンフィギュレーションの長さを信号伝達する。

ｕｓａｃＥｘｔＥｌｅｍｅｎｔＤｅｆａｕｌｔＬｅｎｇｔｈＰｒｅｓｅｎｔ
このフラグはｕｓａｃＥｘｔＥｌｅｍｅｎｔＤｅｆａｕｌｔＬｅｎｇｔｈがＵｓａｃＥｘｔＥｌｅｍｅｎｔＣｏｎｆｉｇ（）で運ばれるかどうかを信号伝達する。

ｕｓａｃＥｘｔＥｌｅｍｅｎｔＤｅｆａｕｌｔＬｅｎｇｔｈ
拡張要素のデフォルト長をバイトで信号伝達する。所与のアクセス単位における拡張要素がこの値からそれている場合にのみ、ビットストリームにおいて追加の長さを伝送する必要がある。この要素が明示的に伝送されない場合（ｕｓａｃＥｘｔＥｌｅｍｅｎｔＤｅｆａｕｌｔＬｅｎｇｔｈＰｒｅｓｅｎｔ＝＝0）、ｕｓａｃＥｘｔＥｌｅｍｅｎｔＤｅｆａｕｌｔＬｅｎｇｔｈの値がゼロに設定される。

ｕｓａｃＥｘｔＥｌｅｍｅｎｔＰａｙｌｏａｄＦｒａｇ
このフラグは、この拡張要素のペイロードが分割されて連続するＵＳＡＣフレームにおいていくつかのセグメントとして送られ得るかどうかを示す。

ｎｕｍＣｏｎｆｉｇＥｘｔｅｎｓｉｏｎｓ
コンフィギュレーションへの拡張が、ＵｓａｃＣｏｎｆｉｇ（）に存在する場合には、この値は、信号伝達されるコンフィギュレーション拡張の数を示す。

ｃｏｎｆＥｘｔＩｄｘ
コンフィギュレーション拡張へのインデクス。

ｕｓａｃＣｏｎｆｉｇＥｘｔＴｙｐｅ
この要素は、コンフィギュレーション拡張タイプを信号伝達することを可能にする。ｕｓａｃＥｘｔＥｌｅｍｅｎｔＴｙｐｅの意味は、表Ｄにおいて定義される。

ｕｓａｃＣｏｎｆｉｇＥｘｔＬｅｎｇｔｈ
バイト（オクテット）でコンフィギュレーション拡張の長さを信号伝達する。

ｂｓＰｓｅｕｄｏＬｒ
このフラグは、逆ｍｉｄ／ｓｉｄｅ回転をＭｐｓ２１２処理の前にコア信号に適用すべきであることを信号伝達する。

ｂｓＳｔｅｒｅｏＳｂｒ
このフラグは、ＭＰＥＧサラウンド復号化と組み合わせたステレオＳＢＲの使用を信号伝達する。

ｂｓＲｅｓｉｄｕａｌＣｏｄｉｎｇ
残差符号化を下の表に従って適用するかどうかを示す。ｂｓＲｅｓｉｄｕａｌＣｏｄｉｎｇの値は、ｓｔｅｒｅｏＣｏｎｆｉｇＩｎｄｅｘ（Ｘを参照）により定義される。

ｓｂｒＲａｔｉｏＩｎｄｅｘ
コアサンプリングレートとｅＳＢＲ処理後のサンプリングレートとの比率を示す。同時に、下の表によるＳＢＲにおいて使用されるＱＭＦ解析および合成帯域の数を示す。

ｅｌｅｍＩｄｘ
ＵｓａｃＤｅｃｏｄｅｒＣｏｎｆｉｇ（）およびＵｓａｃＦｒａｍｅ（）に存在する要素へのインデクス。

ＵｓａｃＣｏｎｆｉｇ（）
ＵｓａｃＣｏｎｆｉｇ（）は、出力サンプリング周波数およびチャネルコンフィギュレーションについての情報を含む。この情報は、ＭＰＥＧ-４ＡｕｄｉｏＳｐｅｃｉｆｉｃＣｏｎｆｉｇ（）等におけるこの要素の外部に信号伝達される情報と同じになる。

Ｕｓａｃ出力サンプリング周波数
サンプリングレートが表１の右欄に列挙するレートの１つではない場合、サンプリング周波数に依拠する表（コード表、スケールファクタ帯域表等）を推定して、ビットストリームペイロードを構文解析する必要がある。所与のサンプリング周波数は１つのサンプリング周波数表とだけ関連付けられており、かつ、可能なサンプリング周波数の範囲においては最大の柔軟性が望まれるので、以下の表を使用して、暗示されるサンプリング周波数を希望のサンプリング周波数に依拠する表と関連付ける。

ＵｓａｃＣｈａｎｎｅｌＣｏｎｆｉｇ（）
チャネルコンフィギュレーション表は、最も一般的なラウドスピーカ位置をカバーする。他のフレキシビリティチャネルについては、様々なアプリケーションにおける現代のラウドスピーカセットアップに見られる全部で３２のラウドスピーカ一位置の選択肢へマッピングすることができる（図３ａ、図３ｂを参照）。

ビットストリームに含まれる各チャネルについては、ＵｓａｃＣｈａｎｎｅｌＣｏｎｆｉｇ（）が、この特定のチャネルをマッピングする関連のラウドスピーカ位置を特定する。ｂｓＯｕｔｐｕｔＣｈａｎｎｅｌＰｏｓが指し示すラウドスピーカ位置について、図４ａに列挙する。複数のチャネル要素の場合には、ｂｓＯｕｔｐｕｔＣｈａｎｎｅｌＰｏｓ［ｉ］のインデクスｉが、ビットストリームにおいてチャネルが現れる位置を示す。図Ｙは、リスナに関係するラウドスピーカの位置に関する概略を示す。

より正確には、チャネルはそれらがビットストリームに現れる順に０（ゼロ）からナンバリングされる。ＵｓａｃＳｉｎｇｌｅＣｈａｎｎｅｌＥｌｅｍｅｎｔ（）またはＵｓａｃＬｆｅＥｌｅｍｅｎｔ（）の平凡な例では、チャネル番号がそのチャネルに割り当てられ、かつ、チャネルカウントは１つ増加する。ＵｓａｃＣｈａｎｎｅｌＰａｉｒＥｌｅｍｅｎｔ（）の場合には、その要素における最初のチャネルが第１にナンバリングされ（インデクスｃｈ＝＝０）、同じ要素における第２のチャネル（インデクスｃｈ＝＝１）は、次のより高い番号を受け、かつ、チャネルカウントが２つ増加する。

次に、ｎｕｍＯｕｔＣｈａｎｎｅｌｓが、ビットストリームに含まれる全チャネルの累積合計以下になる。全チャネルの累積合計が、全ＵｓａｃＳｉｎｇｌｅＣｈａｎｎｅｌＥｌｅｍｅｎｔ（）ｓの数＋全ＵｓａｃＬｆｅＥｌｅｍｅｎｔ（）ｓの数＋２×全ＵｓａｃＣｈａｎｎｅｌＰａｉｒＥｌｅｍｅｎｔ（）ｓの数に等しい。

ビットストリームにおけるラウドスピーカの位置を二重に割り当てないように、アレイｂｓＯｕｔｐｕｔＣｈａｎｎｅｌＰｏｓにおける全エントリを相互に異ならせる。

ｃｈａｎｎｅｌＣｏｎｆｉｇｕｒａｔｉｏｎＩｎｄｅｘが０であり、かつ、ｎｕｍＯｕｔＣｈａｎｎｅｌｓがビットストリームに含まれる全チャネルの累積合計より小さいという特別な場合には、割り当てられていないチャネルの扱いは、本件明細書の範囲外のものとなる。これに関する情報については、たとえば、より高いアプリケーションレイヤにおける適切な手段により、または詳細に設計された（プライベートな）拡張ペイロードにより伝達できる。

ＵｓａｃＤｅｃｏｄｅｒＣｏｎｆｉｇ（）
ＵｓａｃＤｅｃｏｄｅｒＣｏｎｆｉｇ（）は、ビットストリームを解釈するのにデコーダが必要とする他の情報のすべてを含む。まず、ｓｂｒＲａｔｉｏＩｎｄｅｘの値がコアコーダフレーム長（ｃｃｆｌ）と出力フレーム長との比を決定する。ｓｂｒＲａｔｉｏＩｎｄｅｘの後は、現在のビットストリームにおいて全チャネル要素にわたるループが続く。各繰り返しについて、要素のタイプがｕｓａｃＥｌｅｍｅｎｔＴｙｐｅ［］において信号伝達され、直後に対応のコンフィギュレーション構造が続く。ＵｓａｃＤｅｃｏｄｅｒＣｏｎｆｉｇ（）において様々な要素が存在する順序は、ＵｓａｃＦｒａｍｅ（）における対応のペイロードの順序と同じになる。

要素の各インスタンスを独立して構成することができる。ＵｓａｃＦｒａｍｅ（）における各チャネル要素を読み出す際に、要素ごとに、そのインスタンスすなわち同じｅｌｅｍＩｄｘの対応のコンフィギュレーションを使用する。

ＵｓａｃＳｉｎｇｌｅＣｈａｎｎｅｌＥｌｅｍｅｎｔＣｏｎｆｉｇ（）
ＵｓａｃＳｉｎｇｌｅＣｈａｎｎｅｌＥｌｅｍｅｎｔＣｏｎｆｉｇ（）は、１つの単一チャネルを復号化するためのデコーダを構成するために必要な全情報を含む。ＳＢＲコンフィギュレーションデータは、ＳＢＲが実際に採用された場合にのみ送信される。

ＵｓａｃＣｈａｎｎｅｌＰａｉｒＥｌｅｍｅｎｔＣｏｎｆｉｇ（）
ＵｓａｃＣｈａｎｎｅｌＰａｉｒＥｌｅｍｅｎｔＣｏｎｆｉｇ（）は、コアコーダ関連のコンフィギュレーションデータおよびＳＢＲの使用に依拠するＳＢＲコンフィギュレーションデータを含む。ステレオ符号化アルゴリズムの正確なタイプについては、ｓｔｅｒｅｏＣｏｎｆｉｇＩｎｄｅｘにより示される。ＵＳＡＣにおいては、チャネル対が様々な態様で符号化できる。それらは、

１．ＭＤＣＴ領域において複雑予測の可能性により拡張される伝統的ジョイントステレオ符号化技術を使用するステレオコアコーダ対
２．完全なパラメータステレオ符号化のためのＭＰＥＧサラウンドベースのＭＰＳ２１２と組み合わせたモノコアコーダチャネル。モノＳＢＲ処理をコア信号に適用する。
３．第１のコアコーダチャネルがダウンミックス信号を保持し、かつ、第２のチャネルが残差信号を保持するＭＰＥＧサラウンドベースのＭＰＳ２１２と組み合わせたステレオコアコーダ対。残差部を帯域制限して部分残差符号化を実現してもよい。モノＳＢＲ処理は、ＭＰＳ２１２処理の前のダウンミックス信号にのみ適用される。
４．第１のコアコーダチャネルがダウンミックス信号を保持し、かつ、第２のチャネルが残差信号を保持するＭＰＥＧサラウンドベースのＭＰＳ２１２と組み合わせるステレオコアコーダ対。残差部は、帯域を制限して部分残差符号化を実現してもよい。ステレオＳＢＲをＭＰＳ２１２処理後の再構成されたステレオ信号に適用する。

選択肢の３と４とをコアデコーダ後の疑似ＬＲチャネル回転とさらに組み合わせてもよい。

ＵｓａｃＬｆｅＥｌｅｍｅｎｔＣｏｎｆｉｇ（）
時間ワープしたＭＤＣＴおよびノイズフィリングの使用はＬＦＥチャネルについては許容されていないので、これらのツールについて通常のコアコーダフラグを送信する必要はない。その代り、これらはゼロに設定される。

また、ＬＦＥコンテクストにおけるＳＢＲの使用は、許容されておらず、意味もない。そのため、ＳＢＲコンフィギュレーションデータは送信されない。

ＵｓａｃＣｏｒｅＣｏｎｆｉｇ（）
ＵｓａｃＣｏｒｅＣｏｎｆｉｇ（）は、グローバルビットストリームレベルでの時間ワープしたＭＤＣＴおよびスペクトルノイズフィリングの使用を可能化または不能化するフラグのみを含む。ｔｗ＿ｍｄｃｔがゼロに設定されると、時間ワープは適用されない。ｎоｉｓｅＦｉｌｌｉｎｇがゼロに設定されると、スペクトルノイズフィリングは適用されない。

ＳｂｒＣｏｎｆｉｇ（）
ＳｂｒＣｏｎｆｉｇ（）ビットストリーム要素は、正確なｅＳＢＲセットアップパラメータを信号伝達する目的を果たす。一方、ＳｂｒＣｏｎｆｉｇ（）は、ｅＳＢＲツールの一般的な採用を信号伝達する。他方、ＳｂｒＣｏｎｆｉｇ（）は、ＳｂｒＨｅａｄｅｒ（）のデフォルトバージョンであるＳｂｒＤｆｌｔＨｅａｄｅｒ（）を含む。異なるＳｂｒＨｅａｄｅｒ（）がビットストリームにおいて送信されなければ、このデフォルトヘッダの値が想定されることになる。このメカニズムの背景には、１つのビットストリームにおいては、典型的には１セットのＳｂｒＨｅａｄｅｒ（）値しか付与されないことがある。ＳｂｒＤｆｌｔＨｅａｄｅｒ（）の送信で、ビットストリームにおける１つのビットのみを使用することにより非常に効率的にこのデフォルト値のセットを参照することが可能になる。ビットストリーム自体における新たなＳｂｒＨｅａｄｅｒをインバンドで送信できるようにすることで、依然として、実行中にＳｂｒＨｅａｄｅｒの値を変更する可能性は保持される。

ＳｂｒＤｆｌｔＨｅａｄｅｒ（）
ＳｂｒＤｆｌｔＨｅａｄｅｒ（）は、基本ＳｂｒＨｅａｄｅｒ（）テンプレートと呼んでもよいもので、主に使用されるｅＳＢＲコンフィギュレーションのための値を含む必要がある。ビットストリームにおいて、このコンフィギュレーションは、ｓｂｒＵｓｅＤｆｌｔＨｅａｄｅｒフラグを設定することにより参照することができる。ＳｂｒＤｆｌｔＨｅａｄｅｒ（）の構造は、ＳｂｒＨｅａｄｅｒ（）のものと同様である。ＳｂｒＤｆｌｔＨｅａｄｅｒ（）およびＳｂｒＨｅａｄｅｒ（）の値を区別できるように、ＳｂｒＤｆｌｔＨｅａｄｅｒ（）におけるビットフィールドは、「ｂｓ＿」の代わりに「ｄｆｌｔ」を接頭辞にする。ＳｂｒＤｆｌｔＨｅａｄｅｒ（）の使用が表示されると、ＳｂｒＨｅａｄｅｒ（）ビットフィールドは、対応のＳｂｒＤｆｌｔＨｅａｄｅｒ（）の値を想定する。すなわち、以下のとおりである。

ｂｓ＿ｓｔａｒｔ＿ｆｒｅｑ＝ｄｆｌｔ＿ｓｔａｒｔ＿ｆｒｅｑ；
ｂｓ＿ｓｔｏｐ＿ｆｒｅｑ＝ｄｆｌｔ＿ｓｔｏｐ＿ｆｒｅｑ；ｅｔｃ．
（ｂｓ＿ｘｘｘ＿ｙｙｙ＝ｄｆｌｔ＿ｘｘｘ＿ｙｙｙのように、ＳｂｒＨｅａｄｅｒ（）におけるすべての要素について続く）。

Ｍｐｓ２１２Ｃｏｎｆｉｇ（）
Ｍｐｓ２１２Ｃｏｎｆｉｇ（）は、ＭＰＥＧサラウンドのＳｐａｔｉａｌＳｐｅｃｉｆｉｃＣｏｎｆｉｇ（）に類似し、かつ、多くの部分において、それから推定されていた。しかしながら、ＵＳＡＣコンテクストにおけるモノからステレオへのアップミキシングについて関連のある情報のみを含むと言う範囲まで狭められる。結果として、ＭＰＳ２１２は、１つのＯＴＴボックスのみを構成する。

ＵｓａｃＥｘｔＥｌｅｍｅｎｔＣｏｎｆｉｇ（）
ＵｓａｃＥｘｔＥｌｅｍｅｎｔＣｏｎｆｉｇ（）は、ＵＳＡＣのための拡張要素のコンフィギュレーションデータ用の一般的なコンテナである。各ＵＳＡＣ拡張は、独自のタイプ識別子であるｕｓａｃＥｘｔＥｌｅｍｅｎｔＴｙｐｅを有し、これは図６ｋにおいて定義される。各ＵｓａｃＥｘｔＥｌｅｍｅｎｔＣｏｎｆｉｇ（）ごとに、含まれる拡張コンフィギュレーションの長さを可変ｕｓａｃＥｘｔＥｌｅｍｅｎｔＣｏｎｆｉｇＬｅｎｇｔｈにおいて送信し、含まれる拡張コンフィギュレーションの長さによって、デコーダが、そのｕｓａｃＥｘｔＥｌｅｍｅｎｔＴｙｐｅが未知である拡張要素を安全にスキップできる。

典型的に一定のペイロード長を有するＵＳＡＣ拡張については、ＵｓａｃＥｘｔＥｌｅｍｅｎｔＣｏｎｆｉｇ（）が、ｕｓａｃＥｘｔＥｌｅｍｅｎｔＤｅｆａｕｌｔＬｅｎｇｔｈの送信を可能にする。コンフィギュレーションにおいてデフォルトのペイロード長さを規定することで、ビット消費を低く抑える必要があるＵｓａｃＥｘｔＥｌｅｍｅｎｔ（）内でｕｓａｃＥｘｔＥｌｅｍｅｎｔＰａｙｌｏａｄＬｅｎｇｔｈの高度に効率的な信号伝達が可能になる。

多量のデータを蓄積し、フレームごとではなくフレーム２つごとのみにまたはもっと頻度を低くして送信するＵＳＡＣ拡張の場合、このデータはいくつかのＵＳＡＣフレームにわたって広がるフラグメントまたはセグメントで送信されてもよい。これは、ビットレザバをより均一に保つために有用である。このメカニズムの使用は、ｕｓａｃＥｘｔＥｌｅｍｅｎｔＰａｙｌｏａｄＦｒａｇフラグにより信号伝達される。フラグメンテーションのメカニズムについては、６．２．ＸのｕｓａｃＥｘｔＥｌｅｍｅｎｔの記述においてさらに説明する。

ＵｓａｃＣｏｎｆｉｇＥｘｔｅｎｓｉｏｎ（）
ＵｓａｃＣｏｎｆｉｇＥｘｔｅｎｓｉｏｎ（）は、ＵｓａｃＣｏｎｆｉｇ（）の拡張のための一般的なコンテナである。デコーダ初期化またはセットアップ時に交換される情報を補正または拡張する便利な方法を提供する。ｃｏｎｆｉｇ拡張の存在はｕｓａｃＣｏｎｆｉｇＥｘｔｅｎｓｉｏｎＰｒｅｓｅｎｔにより示される。ｃｏｎｆｉｇ拡張が存在する場合（ｕｓａｃＣｏｎｆｉｇＥｘｔｅｎｓｉｏｎＰｒｅｓｅｎｔ＝＝1）、ビットフィールドｎｕｍＣｏｎｆｉｇＥｘｔｅｎｓｉｏｎｓにおいて、これらの拡張の正確な数が続く。各コンフィギュレーション拡張は独自のタイプ識別子ｕｓａｃＣｏｎｆｉｇＥｘｔＴｙｐｅを有する。各ＵｓａｃＣｏｎｆｉｇＥｘｔｅｎｓｉｏｎについて、含まれるコンフィギュレーション拡張の長さは、可変のｕｓａｃＣｏｎｆｉｇＥｘｔＬｅｎｇｔｈにおいて送信され、かつ、コンフィギュレーションビットストリーム構文解析部が、そのｕｓａｃＣｏｎｆｉｇＥｘｔＴｙｐｅが不明であるコンフィギュレーション拡張を安全にスキップできるようにする。

オーディオオブジェクトタイプＵＳＡＣのトップレベルペイロード
用語および定義

ＵｓａｃＦｒａｍｅ（）
このデータのブロックは、１つのＵＳＡＣフレームの期間についてのオーディオデータ、関連情報および他のデータを含む。ＵｓａｃＤｅｃｏｄｅｒＣｏｎｆｉｇ（）において信号伝達されるように、ＵｓａｃＦｒａｍｅ（）は、ｎｕｍＥｌｅｍｅｎｔ要素を含む。これらの要素は１また２チャネルについてのオーディオデータ、低周波数エンハンスメントのためのオーディオデータまたは拡張ペイロードを含み得る。

ＵｓａｃＳｉｎｇｌｅＣｈａｎｎｅｌＥｌｅｍｅｎｔ（）
略称はＳＣＥ。単一のオーディチャネルのための符号化データを含むビットストリームの構文要素。ｓｉｎｇｌｅ＿ｃｈａｎｎｅｌ＿ｅｌｅｍｅｎｔ（）は、基本的に、ＦＤまたはＬＰＤコアコーダのためのデータを含むＵｓａｃＣｏｒｅＣｏｄｅｒＤａｔａ（）からなる。ＳＢＲが活性の場合には、ＵｓａｃＳｉｎｇｌｅＣｈａｎｎｅｌＥｌｅｍｅｎｔもＳＢＲデータを含む。

ＵｓａｃＣｈａｎｎｅｌＰａｉｒＥｌｅｍｅｎｔ（）
略称はＣＰＥ。チャネル対についてのデータを含むビットストリームペイロードの構文要素。チャネル対は、２つのディスクリートなチャネルを送信するかまたは１つのディスクリートなチャネルおよび関連のＭｐｓ２１２ペイロードのいずれかにより達成され得る。これは、ｓｔｅｒｅｏＣｏｎｆｉｇＩｎｄｅｘにより信号伝達される。ＵｓａｃＣｈａｎｎｅｌＰａｉｒＥｌｅｍｅｎｔはＳＢＲが活性の場合にはＳＢＲデータをさらに含む。

ＵｓａｃＬｆｅＥｌｅｍｅｎｔ（）
略称はＬＦＥ。低サンプリング周波数エンハンスメントチャネルを含む構文要素。ＬＦＥは常にｆｄ＿ｃｈａｎｎｅｌ＿ｓｔｒｅａｍ（）要素を使用して符号化される。

ＵｓａｃＥｘｔＥｌｅｍｅｎｔ（）
拡張ペイロードを含む構文要素。拡張要素の長さがコンフィギュレーション（ＵＳＡＣＥｘｔＥｌｅｍｅｎｔＣｏｎｆｉｇ（））においてデフォルト長さとして信号伝達されるかまたはＵｓａｃＥｘｔＥｅｌｅｍｅｎｔ（）自体において信号伝達される。存在すれば、拡張ペイロードは、コンフィギュレーションにおいて信号伝達されるようなタイプｕｓａｃＥｘｔＥｌｅｍｅｎｔＴｙｐｅである。

ｕｓａｃＩｎｄｅｐｅｎｄｅｎｃｙＦｌａｇ
下の表に従って、現在のＵｓａｃＦｒａｍｅ（）が以前のフレームからの情報の知識なしに完全に復号化できるかどうかを表示する。

注：ｕｓａｃＩｎｄｅｐｅｎｄｅｎｃｙＦｌａｇの使用に関する推奨に関してはＸＹを参照ください。

ｕｓａｃＥｘｔＥｌｅｍｅｎｔＵｓｅＤｅｆａｕｌｔＬｅｎｇｔｈ
拡張要素の長さが、ＵｓａｃＥｘｔＥｌｅｍｅｎｔＣｏｎｆｉｇ（）に規定されたｕｓａｃＥｘｔＥｌｅｍｅｎｔＤｅｆａｕｌｔＬｅｎｇｔｈに対応するかどうかを示す。

ｕｓａｃＥｘｔＥｌｅｍｅｎｔＰａｙｌｏａｄＬｅｎｇｔｈ
バイトで表す拡張要素の長さを含む。この値は、現在のアクセス単位における拡張要素の長さがデフォルト値であるｕｓａｃＥｘｔＥｌｅｍｅｎｔＤｅｆａｕｌｔＬｅｎｇｔｈから偏移する場合、ビットストリームにおいて明示的に送信する必要があるのみである。

ｕｓａｃＥｘｔＥｌｅｍｅｎｔＳｔａｒｔ
現在のｕｓａｃＥｘｔＥｌｅｍｅｎｔＳｅｇｍｅｎｔＤａｔａがデータブロックを開始するかどうかを示す。

ｕｓａｃＥｘｔＥｌｅｍｅｎｔＳｔｏｐ
現在のｕｓａｃＥｘｔＥｌｅｍｅｎｔＳｅｇｍｅｎｔＤａｔａがデータブロックを終了するかどうかを示す。

ｕｓａｃＥｘｔＥｌｅｍｅｎｔＳｅｇｍｅｎｔＤａｔａ
ｕｓａｃＥｘｔＥｌｅｍｅｎｔＳｔａｒｔ＝＝１のＵｓａｃＥｘｔＥｌｅｍｅｎｔ（）から始まり、ｕｓａｃＥｘｔＥｌｅｍｅｎｔＳｔｏｐ＝＝１のＵｓａｃＥｘｔＥｌｅｍｅｎｔ（）まで（これを含んで）連続するＵＳＡＣフレームのＵｓａｃＥｘｔＥｌｅｍｅｎｔ（）からの全ｕｓａｃＥｘｔＥｌｅｍｅｎｔＳｅｇｍｅｎｔＤａｔａの連結が１つのデータブロックを構成する。完全なデータブロックが１つのＵｓａｃＥｘｔＥｌｅｍｅｎｔ（）に含まれる場合には、ｕｓａｃＥｘｔＥｌｅｍｅｎｔＳｔａｒｔおよびｕｓａｃＥｘｔＥｌｅｍｅｎｔＳｔｏｐの両方が１に設定される。データブロックは、下の表によるｕｓａｃＥｘｔＥｌｅｍｅｎｔＴｙｐｅに依存するバイト単位でそろえられた拡張ペイロードとして解釈される。

ｆｉｌｌ＿ｂｙｔｅ
情報を保持しないビットを有するビットストリームをパディングするために使用され得るビットのオクテット。ｆｉｌｌ＿ｂｙｔｅに使用される正確なビットパターンは、「１０１００１０１」である必要がある。

ヘルパー要素
ｎｒＣｏｒｅＣｏｄｅｒＣｈａｎｎｅｌｓ
チャネル対要素のコンテクストにおいては、この変数は、ステレオ符号化のための基礎を構成するコアコーダチャネルの数を示す。ｓｔｅｒｅｏＣｏｎｆｉｇＩｎｄｅｘの値によって、この値は１または２になる。

ｎｒＳｂｒＣｈａｎｎｅｌｓ
チャネル対要素のコンテクストにおいては、この変数はＳＢＲ処理が適用されるチャネルの数を示す。ｓｔｅｒｅｏＣｏｎｆｉｇＩｎｄｅｘの値によって、この値は１または２になる。

ＵＳＡＣについての補足的ペイロード
用語および定義

ＵｓａｃＣｏｒｅＣｏｄｅｒＤａｔａ（）
このデータブロックは、コアコーダオーディオデータを含む。ペイロード要素は、ＦＤまたはＬＰＤモード用のいずれかの１つまたは２つのコアコーダチャネルのためのデータを含む。特定のモードは、要素の開始にチャネルごとに信号伝達される。

ＳｔｅｒｅｏＣｏｒｅＴｏｏｌＩｎｆｏ（）
すべてのステレオ関連の情報は、この要素において捕捉される。ステレオ符号化モードにおけるビットフィールドの多数の依存性を扱う。

ヘルパー要素
ｃоｍｍоｎＣｏｒｅＭｏｄｅ
ＣＰＥにおいて、このフラグは、両方の符号化コアコーダチャネルが同じモードを使用するかどうか示す。

Ｍｐｓ２１２Ｄａｔａ（）
このデータブロックは、Ｍｐｓ２１２ステレオモジュールのためのペイロードを含む。このデータの存在は、ｓｔｅｒｅоＣｏｎｆｉｇＩｎｄｅｘに依存する。

ｃｏｍｍｏｎ＿ｗｉｎｄｏｗ
ＣＰＥのチャネル０およびチャネル１が同じウィンドウパラメータを使用するかどうかを示す。

ｃｏｍｍｏｎ＿ｔｗ
ＣＰＥのチャネル０およびチャネル１が時間ワープしたＭＤＣＴについて同じパラメータを使用するかどうかを示す。

ＵｓａｃＦｒａｍｅ（）の復号化
１つのＵｓａｃＦｒａｍｅ（）は、ＵＳＡＣビットストリームの１つのアクセス単位を構成する。各ＵｓａｃＦｒａｍｅが、表から決定されるｏｕｔｐｕｔＦｒａｍｅＬｅｎｇｔｈに従って、７６８、１０２４、２０４８または４０９６の出力サンプルに復号化する。

ＵｓａｃＦｒａｍｅ（）における第１のビットは、所与のフレームが以前のフレームについて何らの知識がなくても復号化され得るかどうかを決定するｕｓａｃＩｎｄｅｐｅｎｄｅｎｃｙＦｌａｇである。ｕｓａｃＩｎｄｅｐｅｎｄｅｎｃｙＦｌａｇが、０に設定されると、以前のフレームに対する依存性が現在のフレームのペイロード内に存在する可能性がある。

ＵｓａｃＦｒａｍｅ（）はさらに、ＵｓａｃＤｅｃｏｄｅｒＣｏｎｆｉｇ（）における対応のコンフィギュレーション要素と同じ順序でビットストリームに現れる１以上の構文要素からなる。全要素の連続における各要素の位置については、ｅｌｅｍＩｄｘにより指し示される。各要素については、そのインスタンスの、すなわち同じｅｌｅｍＩｄｘを有するＵｓａｃＤｅｃｏｄｅｒＣｏｎｆｉｇ（）において送信されるような対応のコンフィギュレーションを使用する。

これらの構文要素は、表に挙げる４つのタイプのうちの１つである。これらの要素の各々のタイプは、ｕｓａｃＥｌｅｍｅｎｔＴｙｐｅにより判別される。同じタイプの複数の要素が存在する可能性がある。異なるフレームの同じ位置ｅｌｅｍＩｄｘに生じる要素は、同じストリームに属することになる。

これらビットストリームペイロードが一定レートのチャネルにわたって送信される場合、それらはID＿ＥＸＴ＿ＥＬＥ＿ＦＩＬＬのｕｓａｃＥｘｔＥｌｅｍｅｎｔＴｙｐｅを有する拡張ペイロード要素を含んで、瞬間のビットレートを調整する可能性がある。この場合、符号化されたステレオ信号の例は、以下のとおりである。

ＵｓａｃＳｉｎｇｌｅＣｈａｎｎｅｌＥｌｅｍｅｎｔ（）の復号化
ＵｓａｃＳｉｎｇｌｅＣｈａｎｎｅｌＥｌｅｍｅｎｔ（）の単純な構造は、１に設定されたｎｒＣｏｒｅＣｏｄｅｒＣｈａｎｎｅｌｓを有するＵｓａｃＣｏｒｅＣｏｄｅｒＤａｔａ（）の１つのインスタンスから構成される。この要素のｓｂｒＲａｔｉｏＩｎｄｅｘにより、ＵｓａｃＳｂｒＤａｔａ（）要素はこれも１に設定されたｎｒＳｂｒＣｈａｎｎｅｌで続く。

ＵｓａｃＥｘｔＥｅｌｅｍｅｎｔ（）の復号化
ビットストリームにおけるＵｓａｃＥｘｔＥｌｅｍｅｎｔ（）構造を、ＵＳＡＣデコーダにより復号化またはスキップすることができる。各拡張は、ＵｓａｃＥｘｔＥｌｅｍｅｎｔ（）’ｓの関連のＵｓａｃＥｘｔＥｌｅｍｅｎｔＣｏｎｆｉｇ（）において伝達されるｕｓａｃＥｘｔＥｌｅｍｅｎｔＴｙｐｅにより識別される。各ｕｓａｃＥｘｔＥｌｅｍｅｎｔＴｙｐｅについては、特定のデコーダが存在し得る。

拡張のためのデコーダをＵＳＡＣデコーダが利用可能な場合、拡張のペイロードはＵｓａｃＥｘｔＥｌｅｍｅｎｔ（）がＵＳＡＣデコーダにより構文解析された直後に拡張デコーダへ転送される。

ＵＳＡＣデコーダが利用可能な拡張のためのデコーダがない場合、最低限の構造がビットストリーム内に付与され、それによりＵＳＡＣデコーダが拡張を無視することができるようになる。

拡張要素の長さは、対応のＵｓａｃＥｘｔＥｌｅｍｅｎｔＣｏｎｆｉｇ（）内で信号伝達でき、かつ、ＵｓａｃＥｘｔＥｌｅｍｅｎｔ（）内でオーバルールできるオクテットのデフォルト長により特定されるか、または構文要素ｅｓｃａｐｅｄＶａｌｕｅ（）を使用する１または３のオクテット長のＵｓａｃＥｘｔＥｌｅｍｅｎｔ（）における明示的に付与される長さ情報により特定される。

１以上のＵｓａｃＦｒａｍｅ（）にまたがる拡張ペイロードを分割することができ、かつ、それらのペイロードをいくつかのＵｓａｃＦｒａｍｅ（）の間で配分することができる。この場合、ｕｓａｃＥｘｔＥｌｅｍｅｎｔＰａｙｌｏａｄＦｒａｇフラグを１にセットし、かつデコーダは、ｕｓａｃＥｘｔＥｌｅｍｅｎｔＳｔａｒｔが１に設定されたＵｓａｃＦｒａｍｅ（）からｕｓａｃＥｘｔＥｌｅｍｅｎｔＳｔｏｐが１に設定されたＵｓａｃＦｒａｍｅ（）まで（これを含む）の全フラグメントを集める必要がある。ｕｓａｃＥｘｔＥｌｅｍｅｎｔＳｔｏｐが１に設定されると、拡張は完了と考えられ、拡張デコーダへ送られる。

なお、分割された拡張ペイロードの保全性保護についてはこの明細書によっては提供されず、拡張ペイロードの完全性を確保するためには他の手段を用いる必要がある。

なお、全拡張ペイロードデータはバイト単位で揃えられると仮定する。

各ＵｓａｃＥｘｔＥｌｅｍｅｎｔ（）は、ｕｓａｃＩｎｄｅｐｅｎｄｅｎｃｙＦｌａｇの使用から結果として得られる要求にしたがう。より明示的には、ｕｓａｃＩｎｄｅｐｅｎｄｅｎｃｙＦｌａｇを設定（＝＝１）すれば、ＵｓａｃＥｘＥｌｅｍｅｎｔ（）が以前のフレーム（およびそれに含まれ得る拡張ペイロード）の知識なしで復号化可能になる。

復号化プロセス
ＵｓａｃＣｈａｎｎｅｌＰａｉｒＥｌｅｍｅｎｔＣｏｎｆｉｇ（）において送信されるｓｔｅｒｅｏＣｏｎｆｉｇＩｎｄｅｘは、所与のＣＰＥにおいて適用されるステレオ符号化の正確なタイプを決定する。ステレオ符号化のこのタイプに依存して、１または２のコアコーダチャネルが実際にビットストリームにおいて送信され、かつ、可変ｎｒＣｏｒｅＣｏｄｅｒＣｈａｎｎｅｌｓをこれに応じて設定する必要がある。構文要素ＵｓａｃＣｏｒｅＣｏｄｅｒＤａｔａ（）は、１または２のコアコーダチャネルのためのデータを付与する。

同様に、ステレオ符号化のタイプおよびｅＳＢＲの使用（すなわちｓｂｒＲａｔｉｏＩｎｄｅｘ＞０かどうか）に基づき１つまたは２つのチャネル用に使用可能なデータが存在し得る。ｎｒＳｂｒＣｈａｎｎｅｌｓの値はこれに応じて設定される必要があり、かつ構文要素ＵｓａｃＳｂｒＤａｔａ（）は、１つまたは２つのチャネルのためのｅＳＢＲデータを付与する。

最後に、Ｍｐｓ２１２Ｄａｔａ（）は、ｓｔｅｒｅｏＣｏｎｆｉｇＩｎｄｅｘの値に依存して送信される。

低周波数エンハンスメント（ＬＦＥ）チャネル要素ＵｓａｃＬｆｅＥｌｅｍｅｎｔ（）

概要
デコーダにおける規定の構造を維持するため、ＵｓａｃＬｆｅＥｌｅｍｅｎｔ（）を標準ｆｄ＿ｃｈａｎｎｅｌ＿ｓｔｒｅａｍ（０，０，０，０，ｘ）要素として規定し、すなわち、周波数領域コーダを使用してＵｓａｃＣｏｒｅＣｏｄｅｒＤａｔａ（）と等しくする。こうして、ＵｓａｃＣｏｒｅＣｏｄｅｒＤａｔａ（）要素を復号化するための標準的過程を利用して復号化を行うことができる。

しかしながら、ＬＦＥデコーダのより高いビットレートおよびハードウェア効率的実装に適応するため、この要素の符号化に使用される選択肢には、いくつかの制約が適用される。

・ｗｉｎｄｏｗ＿ｓｅｑｕｅｎｃｅフィールドは、常に０に設定される（ＯＮＬＹ＿ＬＯＮＧ＿ＳＥＱＵＥＮＣＥ）。
・ＬＦＥの最も低い２４のスペクトル係数のみが非ゼロになり得る。
・非時間雑音整形が使用される、すなわちｔｎｓ＿ｄａｔａ＿ｐｒｅｓｅｎｔがゼロに設定される。
・時間ワープが不活性である。
・ノイズフィリィングが適用されない。

ＵｓａｃＣｏｒｅＣｏｄｅｒＤａｔａ（）
ＵｓａｃＣｏｒｅＣｏｄｅｒＤａｔａ（）は、１または２のコアコーダチャネルを復号化するためのすべての情報を含む。

復号化の順序は以下のとおりである。
・チャネルごとのｃｏｒｅ＿ｍｏｄｅ［］を取得。
・２つのコア符号化チャネルの場合（ｎｒＣｈａｎｎｅｌｓ＝＝２）、ＳｔｅｒｅｏＣｏｒｅＴｏｏｌＩｎｆｏ（）を構文解析し、全ステレオ関連パラメータを決定。
・信号伝達されたｃｏｒｅ＿ｍｏｄｅに基づき、チャネルごとにｌｐｄ＿ｃｈａｎｎｅｌ＿ｓｔｒｅａｍ（）またはｆｄ＿ｃｈａｎｎｅｌ＿ｓｔｒｅａｍ（）を送信。

上記のリストからわかるとおり、１つのコアコーダチャネル（ｎｒＣｈａｎｎｅｌｓ＝＝１）を復号化すると、ｃｏｒｅ＿ｍｏｄｅビットが得られ、その後に、ｃｏｒｅ＿ｍｏｄｅに依存して、１つのｌｐｄ＿ｃｈａｎｎｅｌ＿ｓｔｒｅａｍまたはｆｄ＿ｃｈａｎｎｅｌ＿ｓｔｒｅａｍが続く。

２つのコアコーダチャネルの場合、両方のチャネルのｃｏｒｅ＿ｍｏｄｅが０であれば、特に、チャネル間のいくつかの信号伝達冗長性が利用され得る。詳細については、６．２Ｘ（ＳｔｅｒｅｏＣｏｒｅＴｏｏｌＩｎｆｏ（）の復号化）を参照。

ＳｔｅｒｅｏＣｏｒｅＴｏｏｌＩｎｆｏ（）
ＳｔｅｒｅｏＣｏｒｅＴｏｏｌＩｎｆｏ（）により、パラメータを効率的に符号化でき、その値は、両方のチャネルがＦＤモード（ｃｏｒｅ＿ｍｏｄｅ［０，１］＝０）で符号化される場合には、ＣＰＥのコアコーダチャネルを横断して共有され得る。ビットストリームにおける適切なフラグが１にセットされると、特に以下のデータ要素が共有される。

適切なフラグがセットされない場合、データ要素は、コアコーダチャネルごとにＳｔｅｒｅｏＣｏｒｅＴｏｏｌＩｎｆｏ（）（ｍａｘ＿ｓｆｂ，ｍａｘ＿ｓｆｂ１）またはＵｓａｃＣｏｒｅＣｏｄｅｒＤａｔａ（）要素においてＳｔｅｒｅｏＣｏｒｅＴｏｏｌＩｎｆｏ（）に追随するｆｄ＿ｃｈａｎｎｅｌ＿ｓｔｒｅａｍ（）のいずれかにおいて、個別に送信される。

ｃｏｍｍｏｎ＿ｗｉｎｄｏｗ＝＝１の場合、ＳｔｅｒｅｏＣｏｒｅＴｏｏｌＩｎｆｏ（）はＭ／Ｓステレオ符号化についての情報およびＭＤＣＴ領域における複雑予測データも含む（７．７.２を参照）。

ＵｓａｃＳｂｒＤａｔａ（）
このデータブロックは、１つまたは２つのチャネルについてのＳＢＲ帯域幅拡張のためのペイロードを含む。このデータの存在は、ｓｂｒＲａｔｉｏＩｎｄｅｘに依存する。

ＳｂｒＩｎｆｏ（）
この要素は、変更されてもデコーダリセットを必要としないＳＢＲ制御パラメータを含む。

ＳｂｒＨｅａｄｅｒ（）
この要素は、ＳＢＲコンフィギュレーションパラメータを有するＳＢＲヘッダデータを含み、これらパラメータは典型的にはビットストリームの持続時間にわたって変化しない。

ＵＳＡＣのためのＳＢＲペイロード
ＵＳＡＣにおいては、ＳＢＲペイロードは、ＵｓａｃＳｂｒＤａｔａ（）において送信され、これは、各単一チャネル要素またはチャネル対要素の不可欠な部分である。ＵｓａｃＳｂｒＤａｔａ（）は、ＵｓａｃＣｏｒｅＣｏｄｅｒＤａｔａ（）の直後に続く。ＬＦＥチャネルについては、ＳＢＲペイロードは存在しない。

ｎｕｍＳｌｏｔｓ
Ｍｐｓ２１２Ｄａｔａフレームにおける時間スロットの数。

図１は、入力１０で付与される符号化オーディオ信号を復号化するためのオーディオデコーダを示す。入力ライン１０上に、たとえばデータストリーム、またはより例示的にはシリアルデータストリームである符号化オーディオ信号がある。符号化オーディオ信号は、データストリームのペイロードセクションにおける第１のチャネル要素および第２のチャネル要素と、データストリームのコンフィギュレーションセクションにおける第１のチャネル要素のための第１のデコーダコンフィギュレーションデータおよび第２のチャネル要素のための第２のデコーダコンフィギュレーションデータとを含む。典型的には、第１のチャネル要素が第２のチャネル要素とは異なるので、第１のデコーダコンフィギュレーションデータは、第２のデコーダコンフィギュレーションデータとは異なる。

データストリームまたは符号化オーディオ信号が、チャネル要素ごとにコンフィギュレーションデータを読出し、接続ライン１３を経由してコンフィギュレーションコントローラ１４へこれを転送するためのデータストリームリーダ１２に入力される。さらに、データストリームリーダは、ペイロードセクションにおけるチャネル要素ごとのペイロードデータを読み出すように構成され、第１のチャネル要素および第２のチャネル要素を含むこのペイロードデータが、接続ライン１５を経由して構成可能デコーダ１６へ付与される。構成可能デコーダ１６は、出力ライン１８ａ、１８ｂに示す個々のチャネル要素のためのデータを出力するため、複数のチャネル要素を復号化するよう構成される。特に、構成可能デコーダ１６は、第１のチャネル要素を復号化する際は第１のデコーダコンフィギュレーションデータに従い、かつ、第２のチャネル要素を復号化する際は第２のコンフィギュレーションデータに従うよう構成される。これについては、接続ライン１７ａおよび１７ｂで示すが、接続ライン１７ａがコンフィギュレーションコントローラ１４から構成可能デコーダへ第１のデコーダコンフィギュレーションデータを伝達し、接続ライン１７ｂがコンフィギュレーションコントローラから構成可能デコーダへ第２のデコーダコンフィギュレーションデータを伝達する。コンフィギュレーションコントローラについては、構成可能デコーダを対応のデコーダコンフィギュレーションデータにおいてまたは対応のライン１７ａおよび１７ｂ上を信号伝達されるデコーダコンフィギュレーションに従って動作させるために、いずれかの態様で実現される。したがって、コンフィギュレーションコントローラ１４は、データストリームからコンフィギュレーションデータを実際に取得するデータストリームリーダ１２と、実際に読み出されたコンフィギュレーションデータにより構成される構成可能デコーダ１６との間のインタフェースとして実現され得る。

図２は、入力２０で付与される多チャンネル入力オーディオ信号を符号化するための対応のオーディオエンコーダを示す。入力２０は、３つの異なるライン２０ａ、２０ｂおよび２０ｃを含むものとして図示され、ライン２０ａは、たとえば中央チャネルオーディオ信号を保持し、ライン２０ｂは、左チャネルオーディオ信号を保持し、かつ、ライン２０ｃは右チャネルオーディオ信号を保持する。３つのチャネル信号すべてがコンフィギュレーションプロセッサ２２および構成可能エンコーダ２４内へ入力される。コンフィギュレーションプロセッサは、たとえば第１のチャネル要素が単一チャネル要素になるように中央チャネルしか含んでいない第１のチャネル要素およびたとえば左および右チャネルを保持するチャネル対要素である第２のチャネル要素のために、ライン２１ａ上に第１のコンフィギュレーションデータを生成し、かつ、ライン２１ｂ上に第２のコンフィギュレーションデータを生成するようになっている。構成可能エンコーダ２４は、第１のコンフィギュレーションデータ２１ａおよび第２のコンフィギュレーションデータ２１ｂを使用して、多チャンネルオーディオ信号２０を符号化し、第１のチャネル要素２３ａおよび第２のチャネル要素２３ｂを得るように構成される。オーディオエンコーダは、さらに、入力ライン２５ａおよび２５ｂで第１のコンフィギュレーションデータおよび第２のコンフィギュレーションデータを受け、かつ、さらに第１のチャネル要素２３ａおよび第２のチャネル要素２３ｂを受けるデータストリーム生成部２６を含む。データストリーム生成部２６は、符号化されたオーディオ信号を表すデータストリーム２７を生成するよう構成され、このデータストリームは第１および第２のコンフィギュレーションデータを有するコンフィギュレーションセクションと第１のチャネル要素および第２のチャネル要素を含むペイロードセクションとを有する。

このコンテクストでは、第１のコンフィギュレーションデータおよび第２のコンフィギュレーションデータが第１のデコーダコンフィギュレーションデータまたは第２のデコーダコンフィギュレーションデータと同じまたは相違し得る。後者の場合、コンフィギュレーションコントローラ１４は、データストリームにおけるコンフィギュレーションデータがエンコーダに向けられたデータである場合には、独自の関数またはルックアップテーブル等を適用することにより、データストリームにおけるコンフィギュレーションデータを対応のデコーダに向けられたデータに変換するよう構成される。しかしながら、構成可能エンコーダ２４またはコンフィギュレーションプロセッサ２２が、計算されたデコーダコンフィギュレーションデータからエンコーダコンフィギュレーションデータを生成するかまたは、同様に独自の関数またはルックアップテーブルまた他の予備知識を適用することにより、計算されたエンコーダコンフィギュレーションデータからデコーダコンフィギュレーションデータを計算または決定するための機能性等を有するように、データストリームに書き込まれたコンフィギュレーションデータがすでにデコーダコンフィギュレーションデータであることが好ましい。

図５ａは、図１のデータストリームリーダ１２内に入力されるかまたは図２のデータストリーム生成部２６により出力される符号化オーディオ信号の概略図を示す。データストリームは、コンフィギュレーションセクション５０およびペイロードセクション５２を含む。図５ｂは、図５ａにおけるコンフィギュレーションセクション５０のより詳細な実現例を示す。典型的には、次々に続くビットを保持するシリアルデータストリームである図５ｂに示すデータストリームは、第１の部分５０ａで、ＭＰＥＧ−４ファイルフォーマット等の伝達構造のより高いレイヤに関連する一般的なコンフィギュレーションデータを含む。代替的にまたは付加的には、存在してもしなくてもよいコンフィギュレーションデータ５０ａは、５０ｂに示すＵｓａｃＣｈａｎｎｅｌＣｏｎｆｉｇに含まれる追加の一般的なコンフィギュレーションデータを含む。

一般に、コンフィギュレーションデータ５０ａは、図６ａに示すＵｓａｃＣｏｎｆｉｇからのデータを含むことも可能で、かつアイテム５０ｂは、図６ｂのＵｓａｃＣｈａｎｎｅｌＣｏｎｆｉｇにおいて実現され、かつ、示される要素を含む。特に、全チャネル要素について同じコンフィギュレーションは、図３ａ、図３ｂ、図４ａおよび図４ｂに関連して図示し、かつ、説明する出力チャネル表示等を含み得る。

その後、ビットストリームのコンフィギュレーションセクション５０の後に、ＵｓａｃＤｅｃｏｄｅｒＣｏｎｆｉｇ要素が続くが、これは、この例では、第１のコンフィギュレーションデータ５０ｃ、第２のコンフィギュレーションデータ５０ｄおよび第３のコンフィギュレーションデータ５０ｅにより構成される。第１のコンフィギュレーションデータ５０ｃは、第１のチャネル要素用であり、第２のコンフィギュレーションデータ５０ｄは第２のチャネル要素用であり、かつ第３のコンフィギュレーションデータ５０ｅは、第３のチャネル要素用である。

特に、図５ｂに概略を示すとおり、チャネル要素用の各コンフィギュレーションデータは、その構文に関連して図６ｃで使用される識別子要素タイプｉｄｘを含む。要素タイプインデクスｉｄｘは、２つのビットを有し、これに、図６ｃに示し、かつ、さらに単一チャネル要素については図６ｄ、チャネル対要素については図６ｅ、ＬＦＥ要素については図６ｆ、かつ拡張要素については図６ｋでさらに説明するチャネル要素コンフィギュレーションデータを記述するビットが続き、これらは、すべてＵＳＡＣビットストリームに典型的に含まれ得るチャネル要素である。

図５ｃは、図５ａに示すビットストリームのペイロードセクション５２に含まれるＵＳＡＣフレームを示す。図５ｂのコンフィギュレーションセクションが図５ａのコンフィギュレーションセクション５０を構成し、すなわちペイロードセクションが３つのチャネル要素を含む場合に、ペイロードセクション５２が図５ｃに概略を示すように実現され、すなわち第１のチャネル要素５２ａのペイロードデータには５２ｂで示す第２のチャネル要素用のペイロードデータが続き、それに第３のチャネル要素用のペイロードデータ５２ｃが続く。こうして、本発明によれば、コンフィギュレーションセクションおよびペイロードセクションは、コンフィギュレーションデータがチャネル要素に関して、ペイロードセクションにおけるチャネル要素に関するペイロードデータと同じ順序になるように編成される。したがって、ＵｓａｃＤｅｃｏｄｅｒＣｏｎｆｉｇ要素における順序が、第１のチャネル要素のコンフィギュレーションデータ、第２のチャネル要素のコンフィギュレーションデータ、第３のチャネル要素のコンフィギュレーションデータの順であれば、ペイロードセクションにおける順序も同じであり、すなわちシリアルデータまたはビットストリームにおいて第１のチャネル要素のペイロードデータがあり、次に第２のチャネル要素のペイロードデータがあり、そして第３のチャネル要素のペイロードデータが続く。

コンフィギュレーションセクションおよびペイロードセクションにおけるこの並列構成は、どのコンフィギュレーションデータがどのチャネル要素に属するかに関し、極めて低いオーバヘッド信号伝達で簡単な編成が可能になるため有利である。先行技術においては、チャネル要素のための個別のコンフィギュレーションデータは存在しないので、順序決めは不要であった。しかしながら、本発明によれば、各チャネル要素について最適のコンフィギュレーションデータが確実に最適に選択され得るように、個々のチャネル要素の個別のコンフィギュレーションデータが導入される。

典型的には、ＵＳＡＣフレームは、時間にして２０から４０ミリ秒のデータを含む。図５ｄに示すような、より長いデータストリームを想定する場合には、コンフィギュレーションセクション６０ａの次に、ペイロードセクションまたはフレーム６２ａ、６２ｂ、６２ｃ、．．．、６２ｅが続き、再びコンフィギュレーションセクション６２ｄをビットストリームに含める。

図５ｂおよび図５ｃに関連して説明したとおり、コンフィギュレーションセクションにおけるコンフィギュレーションデータの順序は、フレーム６２ａ〜６２ｅの各々におけるチャネル要素ペイロードデータの順序と同じである。したがって、個々のチャネル要素についてのペイロードデータの順序も、フレーム６２ａからフレーム６２ｅの各々において全く同じである。

一般に、符号化された信号が、ハードディスク上に記憶される単一ファイルである場合、たとえば、１０分または２０分程度の全オーディオトラックの開始時に単一のコンフィギュレーションセクション５０で充分である。単一のコンフィギュレーションセクションに、個々のフレームの上位の数が続き、各フレームについてコンフィギュレーションが有効であり、かつチャネル要素データ（コンフィギュレーションまたはペイロード）の順序は各フレームおよびコンフィギュレーションセクションにおいても同じである。

しかしながら、符号化オーディオ信号がデータのストリームである場合、初期のコンフィギュレーションセクションがすでに送信され、かつ、デコーダにより受信されていない場合でもデコーダが復号化を開始できるようにアクセスポイントを付与するため、個別のフレーム間にコンフィギュレーションセクションを導入することが必要になる。これは、デコーダがまだ実際のデータストリームを受信するためにオンに切り替えられていないからである。しかしながら、異なるコンフィギュレーションセクションの間のフレーム数ｎは、任意の選択が可能であるが、毎秒アクセスポイントの達成を希望する場合、２つのコンフィギュレーションセクション間のフレーム数は、２５から５０の範囲になる。

次に、図７は、５．１多チャネル信号を符号化および復号化するための直線的な例を示す図である。

好ましくは、４つのチャネル要素が使用され、第１のチャネル要素は、中央チャネルを含む単一チャネル要素であり、第２のチャネル要素は、左右のチャネルを含むチャネル対要素ＣＰＥ１であり、かつ第３のチャネル要素は、左右のサラウンドチャネルを含む第２のチャネル対要素ＣＰＥ２である。最後に、第４のチャネル要素は、ＬＦＥチャネル要素である。実施例においては、たとえば単一チャネル要素のコンフィギュレーションデータは、ノイズフィリングツールがオンになるようにされるのに対して、サラウンドチャネルを含む第２のチャネル対要素に対しては、ノイズフィリングツールはオフであり、かつ低品質のパラメータステレオ符号化過程が適用されるが、ビットレートは低いが品質の損失が生じる低ビットレートステレオ符号化過程は、チャネル対要素がサラウンドチャネルを有すると言う事実を考えれば問題ではないかもしれない。

一方、左右チャネルは、かなりの量の情報を含むので、高品質ステレオ符号化過程が、ＭＰＳ２１２コンフィギュレーションにより信号伝達される。Ｍ／Ｓステレオ符号化は、高品質である点で有利だが、ビットレートがかなり高いという問題点がある。したがって、Ｍ／Ｓステレオ符号化は、ＣＰＥ１には好ましくても、ＣＰＥ２には好ましくない。さらに、実装によっては、ノイズフィリング特性は、オン・オフを切り替えられるので、ノイズフィリングがオンである左右チャネルおよび中央のチャネルの良好で高品質な表現を得るために高度な強調を行うという事実を考えればオンに切り替えることが好ましい。

しかしながら、チャネル要素Ｃのコア帯域幅がたとえばきわめて低く、かつ、中央チャネルでゼロに量子化される連続するラインの数も少ない場合には、中央チャネル単一チャネル要素についてはノイズフィリングはオフに切り替えることも有用かもしれない。というのも、ノイズフィリングが付加的な品質利得を提供するわけではなく、品質向上がないかまたはわずかな向上にとどまることを考えれば、ノイズフィリングツールのサイド情報を送信するために必要なビットを節約できるからである。

一般に、チャネル要素のためのコンフィギュレーションセクションで信号伝達されるツールは、たとえば図６ｄ、図６ｅ、図６ｆ、図６ｇ、図６ｈ、図６ｉおよび図６ｊに示すツールであり、図６ｋ、図６ｌおよび図６ｍにおける拡張要素コンフィギュレーションのための要素を付加的に含む。図６ｅに概略を示すとおり、ＭＰＳ２１２コンフィギュレーションは、チャネル要素ごとに相違し得る。

ＭＰＥＧサラウンドは、空間知覚に関する人の聴覚キューのコンパクトなパラメータ表現を利用して、多チャネル信号のビットレート的に効率的な表現を図る。ＣＬＤおよびＩＣＣパラメータに加えて、ＩＰＤパラメータも送信できる。ＯＰＤパラメータは、位相情報の効率的な表現のために所与のＣＬＤおよびＩＰＤパラメータで予測される。ＩＰＤおよびＯＰＤパラメータを利用して、位相差を合成し、さらにステレオイメージを改良する。

パラメータモードに加えて、限定されたまたは全帯域幅を有する残差で残差符号化も採用することができる。この過程では、ＣＬＤ、ＩＣＣおよびＩＰＤパラメータを利用してモノ入力信号および残差信号を混合することにより２つの出力信号を生成する。さらに、図６ｊに示す全パラメータを各チャネル要素について個別に選択することができる。個別のパラメータとは、２０１０年９月２４日付けＩＳＯ／ＩＥＣＣＤ２３００３―３（ここに引用により援用）に詳細が説明されるもの等である。

さらに、図６ｆおよび図６ｇで概略を示すとおり、時間ワープ特性およびノイズフィリング特性等のコア特性を、チャネル要素ごとに個別にオン・オフに切り替えることができる。上記引用の文献に「時間ワープされたフィルタバンクおよびブロック切替」という用語で説明される時間ワープツールは、標準的なフィルタバンクおよびブロック切替を置換するものである。ＩＭＤＣＴに加えて、このツールには、任意に間隔決めしたグリッドから通常の線形に間隔決めした時間グリッドへの時間領域同士のマッピングおよびウィンドウ形状の対応の適合を含む。

さらに、図７に概略を示すとおり、ノイズフィリングツールをチャネル要素ごとに個別にオン・オフを切り替えることができる。低ビットレート符号化においては、ノイズフィリングは２つの目的に使用できる。低ビットレートオーディオ符号化におけるスペクトル値のコース量子化では、多くのスペクトルラインがゼロに量子化されている可能性があるので、逆量子化後は、非常にまばらなスペクトルになる可能性がある。希薄なスペクトルでは、復号化された信号がシャープにまたは不安定に（バーディズ）（ｂｉｒｄｉｅｓ）響くことになる。ゼロのラインをデコーダにおける「小さな」値で置換することにより、これらの非常に顕著なアーチファクトを顕著な新たな雑音アーチファクトを加えることなくマスキングまたは低減することができる。

元のスペクトルに信号部分のような雑音が存在する場合、これらの雑音信号部分を知覚的に等価に表現するものを、雑音信号部分のエネルギー等の少ないパラメータ情報だけに基づいてデコーダにおいて再生することができる。パラメータ情報は、符号化された波形を送信するために必要なビットの数に比べて少ないビットで送信することができる。詳細には、送信が必要なデータ要素は、ノイズオフセット要素であり、これは、ゼロに量子化された帯域のスケールファクタおよびゼロに量子化されたスペクトルラインごとに付加されるべき量子化雑音を表す整数である雑音レベルを修正する追加のオフセットである。

図７ならびに図６ｆおよび図６ｇで概略を示すとおり、この特徴は、チャネル要素ごとに個別にオンとオフを切り替えることができる。

また、チャネル要素ごとに個別に信号伝達できるＳＢＲ特性も存在する。

図６ｈに概略を示すとおり、ＳＢＲ要素は、ＳＢＲにおける様々なツールのオン／オフの切り替えを含む。チャネル要素ごとに個別にオンまたはオフを切り替えるべき最初のツールは、高調波ＳＢＲである。高調波ＳＢＲがオンに切り替わると、高調波ＳＢＲピッチングが行われ、一方、高調波ＳＢＲがオフに切り替わると、ＭＰＥＧ−４（高効率）から知られる連続ラインのピッチングが使用される。

さらに、ＰＶＣすなわち「予測ベクトル符号化」復号化プロセスを適用することができる。特に低ビットレートの音声コンテントにおいて、ｅＳＢＲツールの主観的品質を向上させるために、予測ベクトル符号化（ＰＶＣ）をｅＳＢＲツールに適用する。一般に、音声信号については、低周波数帯域および高周波数帯域のスペクトルエンベロープ間に比較的高い相関が存在する。ＰＶＣスキームでは、これは、低周波数帯域のスペクトルエンベロープからの高周波数帯域のスペクトルエンベロープの予測に使用され、予測のための係数マトリクスが、ベクトル量子化により符号化される。ＨＦエンベロープアジャスタを修正して、ＰＶＣデコーダで生成されるエンベロープを処理する。

したがって、ＰＶＣツールは、たとえば中央チャネルに音声が存在する単一チャネル要素には特に有用である。一方、ＰＶＣツールは、ＣＰＥ２のサラウンドチャネルまたはＣＰＥ１の左右チャネル等については有用ではない。

さらに、時間内エンベロープ整形特性（ｉｎｔｅｒ―Ｔｅｓ）は、チャネル要素ごとにオンまたはオフを個別に切り替えることができる。インターサブバンドサンプル時間エンベロープ整形（ｉｎｔｅｒ―Ｔｅｓ）は、エンベロープアジャスタの後のＱＭＦサブバンドサンプルを処理する。このモジュールはエンベロープアジャスタのものよりより高い周波数帯域幅の時間エンベロープをより細かい時間粒度に整形する。ＳＢＲエンベロープにおける各ＱＭＦサブバンドサンプルに利得ファクタを適用することにより、インタＴｅｓは、ＱＭＦサブバンドサンプル間で時間エンベロープを整形する。インタＴｅｓは、３つのモジュール、すなわち低周波数インターサブバンドサンプル時間エンベロープ計算部と、インターサブバンドサンプル時間エンベロープアジャスタと、インターサブバンドサンプル時間エンベロープ整形部から構成される。このツールが追加のビットを必要とすることから、この追加のビットを使うことが、品質利得の点から正当化されないチャネル要素と正当化されるチャネル要素が生じる。したがって、本発明によれば、チャネル要素によってこのツールの活性化／不活性化が用いられる。

さらに、図６ｉは、ＳＢＲのデフォルトヘッダの構文を示し、かつ、図６ｉのＳＢＲデフォルトヘッダにおける全ＳＢＲパラメータがチャネル要素ごとに異なって選択できる。たとえば、これは、クロスオーバ周波数すなわち信号の再生がモードからパラメータモードに変化する周波数を実際に設定する開始周波数または終了周波数に関連する。周波数分解能および雑音帯域分解能等の他の特徴も、個別のチャネルごとに選択的に設定を行うために利用可能である。

したがって、図７に概略を示すとおり、ステレオ特性、コアコーダ特性およびＳＢＲ特性について、コンフィギュレーションデータを個別に設定することが好ましい。要素の個別設定は、図６ｉに示すＳＢＲデフォルトヘッダにおけるＳＢＲパラメータを指すだけでなく、図６ｈに概略を示すＳｂｒＣｏｎｆｉｇにおける全パラメータにも当てはまる。

次に、図８を参照して図１のデコーダの実現例を説明する。

特に、データストリームリーダ１２およびコンフィギュレーションコントローラ１４の機能性は、図１に関連して説明したものと同様である。しかしながら、構成可能デコーダ１６は、ここでは、各デコーダインスタンスがコンフィギュレーションコントローラ１４により付与されるコンフィギュレーションデータＣのための入力と、データストリームリーダ１２からの対応のチャネル要素データを受信するためのデータＤのための入力とを有する個別のデコーダインスタンスについて実現される。

特に、図８の機能性は、各個別のチャネル要素について、個別のデコーダインスタンスを付与するようになっている。したって、第１のデコーダインスタンスは、中央チャネルの単一チャネル要素等の第１のコンフィギュレーションデータにより構成される。

さらに、第２のデコーダインスタンスは、チャネル対要素の左右チャネルのための第２のデコーダコンフィギュレーションデータに従って構成される。さらに、第３のデコーダインスタンス１６ｃは、左右サラウンドチャネルを含む他のチャネル対要素のために構成される。最後に、第４のデコーダインスタンスは、ＬＦＥチャネルのために構成される。したがって、第１のデコーダインスタンスは、出力として単一のチャネルＣを提供する。しかし、第２および第３のデコーダインスタンス１６ｂおよび１６ｃはそれぞれ２つの出力チャネル、すなわち、一方で左右チャネル、他方で左右サラウンドを提供する。最後に、第４のデコーダインスタンス１６ｄは、出力としてＬＦＥチャネルを提供する。多チャネル信号のこれら６つのチャネルが、すべて、デコーダインスタンスにより出力インタフェース19に転送され、最終的にたとえば記憶または５．１ラウドスピーカセットアップ等における再生のために送信される。ラウドスピーカセットアップが異なるラウドスピーカセットアップである場合に、異なるデコーダインスタンスおよび異なる数のデコーダインスタンスが必要なことは明らかである。

図９は、本件発明の実施例にしたがう符号化オーディオ信号の復号化を実行するための方法の好ましい実現例を示す。

ステップ９０では、データストリームリーダ１２は、図５ａのコンフィギュレーションセクション５０の読み出しを開始する。その後、対応のコンフィギュレーションデータブロック５０ｃにおけるチャネル要素識別に基づき、チャネル要素がステップ９２に示すとおり識別される。ステップ９４では、この識別されたチャネル要素のためのコンフィギュレーションデータが読み出され、デコーダを実際に構成するため、または後にチャネル要素を処理する際にデコーダを構成するために用いるべく記憶されるよう使用される。これについては、ステップ９４に概略を示す。

ステップ９６では、図５ｂの部分５０ｄにおける第２のコンフィギュレーションデータの要素タイプ識別子を使用して、次のチャネル要素を識別する。これは図９のステップ９６に示される。ステップ９８において、コンフィギュレーションデータが読み出され、かつ、実際のデコーダもしくはデコーダインスタンスを構成するために使用されるか、または代替的にはこのチャネル要素のためのペイロードが復号化される時のコンフィギュレーションデータを記憶するために読み出される。

その後、ステップ１００で、コンフィギュレーションデータ全体にわたってループされ、すなわち、全コンフィギュレーションデータが読み出されるまで、チャネル要素の識別およびチャネル要素のためのコンフィギュレーションデータの読み出しが継続される。

その後、ステップ１０２、１０４および１０６において、各チャネル要素のペイロードデータを読み出し、かつ、最終的にコンフィギュレーションデータＣを用いてステップ１０８で復号化するが、このペイロードデータをＤで示す。ステップ１０８の結果は、ブロック１６ａ〜１６ｄ等により出力されるデータであり、これは、その後、ラウドスピーカに直接送られるかまたは合成され、増幅され、さらに処理されるかまたはデジタル／アナログ変換されて最終的に対応のラウドスピーカへ送られる。

装置に関連して、いくつかの特徴について説明したが、これらの特徴が、ブロックまたは装置が方法ステップまたは方法ステップの特徴に相当する対応の方法の記述にも相当することは明らかである。同様に、方法ステップに関連して説明した特徴は、対応のブロックもしくはアイテムまたは対応の装置の記述にも相当する。

いくつかの実行の要件に基づいて、本発明の実施例は、ハードウェアまたはソフトウェアにおいて実現することができる。実装は、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する（または協働可能な）電子的に可読な制御信号を記憶したフロッピーディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリ等のデジタル記憶媒体を用いて実行され得る。

本発明のいくつかの実施例は、本件に記載の方法の１つが実行されるように、プログラム可能コンピュータシステムと協働可能な電子的に可読な制御信号を有する非過渡性のデータキャリアを含む。

符号化されたオーディオ信号は、有線または無線の伝送媒体を経由して送信されるかまたは機械可読キャリアもしくは非過渡性記憶媒体上に記憶することができる。

一般に、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品として実現され得るが、このプログラムコードは、コンピュータプログラム製品をコンピュータ上で実行すると、方法の１つを実行するよう動作する。プログラムコードは、たとえば、機械可読キャリア上に記憶されてもよい。

他の実施例は、機械可読キャリア上に記憶された、本件に記載の方法の１つを実行するためのコンピュータプログラムを含む。

したがって、言い換えれば、発明の方法の実施例は、コンピュータプログラムをコンピュータ上で実行した際、本件に記載の方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

したがって、発明の方法の他の実施例は、本件に記載の方法の１つを実行するためのコンピュータプログラムを記録するデータキャリア（またはデジタル記憶媒体またはコンピュータ可読媒体）である。

したがって、発明の方法の他の実施例は、本件に記載の方法の１つを実行するためのコンピュータプログラムを表現するデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、インターネットを経由する等、データ通信接続を経由して伝送されるように構成され得る。

他の実施例は、本件に記載の方法の１つを実行するよう構成または適合されたコンピュータ、プログラム可能論理装置等の処理手段を含む。

他の実施例は、本件に記載の方法の１つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。

いくつかの実施例においては、プログラム可能論理装置（フィールドプログラマブルゲートアレイ等）を使用して、本件に記載の方法の機能性のいくつかまたはすべてを実行するようにしてもよい。いくつかの実施例においては、フィールドプログラマブルゲートアレイは、本件に記載の方法の１つを実行するためにマイクロプロセッサと協働し得る。一般に、これらの方法は、なんらかのハードウェア装置で実行することが好ましい。

上記の実施例は、本発明の原則を説明するためのものに過ぎない。本件に記載の構成および詳細の変形例および修正例が当業者に明らかになることは当然である。したがって、その主旨は請求項の範囲によってのみ限定され、本件に記載の実施例の記述および説明により提示される特定の詳細により限定されない。

Claims

符号化されたオーディオ信号（１０）を復号化するためのオーディオデコーダであって、符号化されたオーディオ信号（１０）が、データストリームのペイロードセクション（５２）において第１のチャネル要素（５２ａ）および第２のチャネル要素（５２ｂ）と、データストリームのコンフィギュレーションセクション（５０）において第１のチャネル要素（５２ａ）のための第１のデコーダコンフィギュレーションデータ（５０ｃ）および第２のチャネル要素（５２ｂ）のための第２のデコーダコンフィギュレーションデータ（５０ｄ）とを含み、オーディオデコーダが、
コンフィギュレーションセクションにおける各チャネル要素のためのコンフィギュレーションデータを読み出し、かつ、ペイロードセクションにおける各チャネル要素のためのペイロードデータを読み出すためのデータストリームリーダ（１２）と、
複数のチャネル要素を復号化するための構成可能デコーダ（１６）と、
構成可能デコーダ（１６）が、第１のチャネル要素を復号化する際に第１のデコーダコンフィギュレーションデータに従い、かつ、第２のチャネル要素を復号化する際に第２のデコーダコンフィギュレーションデータに従って構成されるように、構成可能デコーダ（１６）を構成するためのコンフィギュレーションコントローラ（１４）とを含む、オーディオデコーダ。
第１のチャネル要素が、第１の出力チャネルのためのペイロードデータを含む単一のチャネル要素であり、かつ
第２のチャネル要素が、第２の出力チャネルおよび第３の出力チャネルのためのペイロードデータを含むチャネル対要素であり、
構成可能デコーダ（１６）が、第１のチャネル要素を復号化する際に単一の出力チャネルを生成し、かつ第２のチャネル要素を復号化する際に２つの出力チャネルを生成するよう構成され、かつ
オーディオデコーダが、第１の出力チャネル、第２の出力チャネルおよび第３の出力チャネルを出力（１９）して、３つの異なるオーディオ出力チャネルを経由した同時の出力を行うよう構成される、請求項１に記載のオーディオデコーダ。
第１のチャネルが中央チャネルであり、かつ、第２のチャネルおよび第３のチャネルが左右のチャネルまたは左右のサラウンドチャネルである、請求項１または２に記載のオーディオデコーダ。
第１のチャネル要素が第１および第２の出力チャネル用のデータを含む第１のチャネル対要素であり、かつ
第２のチャネル要素が第３および第４の出力チャネルのためのペイロードデータを含む第２のチャネル対要素であり、
構成可能デコーダ（１６）が、第１のチャネル要素を復号化する際に第１および第２の出力チャネルを生成し、かつ第２のチャネル要素を復号化する際に第３および第４の出力チャネルを生成するよう構成され、かつ
オーディオデコーダが、異なるオーディオ出力チャネルのための同時の出力ワイヤ用に、第１、第２、第３および第４の出力チャネルを出力（１９）するよう構成される、請求項１に記載のオーディオデコーダ。
第１のチャネルが左チャネルであり、第２のチャネルが右チャネルであり、第３のチャネルが左サラウンドチャネルであり、かつ第４のチャネルが右サラウンドチャネルである、請求項４に記載のオーディオデコーダ。
符号化されたオーディオ信号が、データストリームのコンフィギュレーションセクションにおいて、第１のチャネル要素および第２のチャネル要素の情報を有する一般コンフィギュレーションセクション（５０ａ、５０ｂ）を含み、コンフィギュレーションコントローラ（１４）が、一般コンフィギュレーションセクション（５０ａ、５０ｂ）からのコンフィギュレーション情報で、第１および第２のチャネル要素のための構成可能デコーダ（１６）を構成するよう構成される、請求項１から５のいずれか１項に記載のオーディオデコーダ。
第１のコンフィギュレーションセクション（５０ｃ）が、第２のコンフィギュレーションセクション（５０ｄ）とは異なり、かつ
コンフィギュレーションコントローラが、第１のチャネル要素を復号化する際に使用するコンフィギュレーションとは異なる第２のチャネル要素を復号化するための構成可能デコーダ（１６）を構成するよう構成される、請求項１から６のいずれか１項に記載のオーディオデコーダ。
第１のデコーダコンフィギュレーションデータ（５０ｃ）および第２のデコーダコンフィギュレーションデータ（５０ｄ）が、ステレオ復号化ツール、コア復号化ツールまたはＳＢＲ復号化ツールに関する情報を含み、かつ
構成可能デコーダ（１６）が、ＳＢＲ復号化ツール、コア復号化ツールおよびステレオ復号化ツールを含む、請求項１から７のいずれか１項に記載のオーディオデコーダ。
ペイロードセクション（５２）が、フレームのシーケンスを含み、各フレームが第１および第２のチャネル要素を含み、
第１のチャネル要素のための第１のデコーダコンフィギュレーションデータおよび第２のチャネル要素のための第２のデコーダコンフィギュレーションデータが、フレームのシーケンス（６２ａ〜６２ｅ）に関連付けられており、
各フレームにおける第１のチャネル要素が、第１のデコーダコンフィギュレーションデータを使用して復号化され、かつ各フレームにおける第２のチャネル要素が、第２のデコーダコンフィギュレーションデータを使用して復号化されるように、コンフィギュレーションコントローラ（１４）が、フレームのシーケンスのフレームの各々について、構成可能デコーダ（１６）を構成するよう構成される、請求項１から８のいずれか１項に記載のオーディオデコーダ。
データストリームがシリアルなデータストリームであり、かつコンフィギュレーション
セクション（５０）が、ある順序で複数のチャネル要素のためのデコーダコンフィギュレーションデータを含み、かつ
ペイロードセクション（５２）が、同じ順序で複数のチャネル要素のためのペイロードデータを含む、請求項１から９のいずれか１項に記載のオーディオデコーダ。
コンフィギュレーションセクション（５０）が、第１のデコーダコンフィギュレーションデータが追随する第１のチャネル要素識別および第２のデコーダコンフィギュレーションデータが追随する第２のチャネル要素識別を含み、データストリームリーダ（１２）が、第１のチャネル要素識別（９２）を順次通過させ、次にチャネル要素のための第１のデコーダコンフィギュレーションデータ（９４）を読出し、次に第２のチャネル要素識別（９６）を通過させ、かつ次に第２のデコーダコンフィギュレーションデータ（９８）を読み出すことにより、全要素（９２、９４、９６、９８）にわたってループするよう構成される、請求項１から１０のいずれか１項に記載のオーディオデコーダ。
構成可能デコーダ（１６）が、複数の並列デコーダインスタンス（１６ａ、１６ｂ、１６ｃ、１６ｄ）を含み、
コンフィギュレーションコントローラ（１４）が、第１のデコーダコンフィギュレーションデータを使用して第１のデコーダインスタンス（１６ａ）を構成し、かつ第２のデコーダコンフィギュレーションデータを使用して第２のデコーダインスタンス（１６ｂ）を構成するよう構成され、かつ
データストリームリーダ（１２）が、第１のチャネル要素のためのペイロードデータを第１のデコーダインスタンス（１６ａ）に転送し、かつ第２のチャネル要素のためのペイロードデータを第２のデコーダインスタンス（１６ｂ）へ転送するよう構成される、請求項１から１１のいずれか１項に記載のオーディオデコーダ。
ペイロードセクションが、ペイロードフレームのシーケンス（６２ａ〜６２ｅ）を含み、
データストリームリーダ（１２）が、各チャネル要素のためのデータを現在処理されているフレームから、このチャネル要素のためのコンフィギュレーションデータにより構成される対応のデコーダインスタンスにのみ転送するよう構成される、請求項１２に記載のオーディオデコーダ。
符号化されたオーディオ信号（１０）を復号化する方法であって、符号化されたオーディオ信号（１０）が、データストリームのペイロードセクション（５２）において、第１のチャネル要素（５２ａ）および第２のチャネル要素（５２ｂ）と、データストリームのコンフィギュレーションセクション（５０）において第１のチャネル要素（５２ａ）のための第１のデコーダコンフィギュレーションデータ（５０ｃ）および第２のチャネル要素（５２ｂ）のための第２のデコーダコンフィギュレーションデータ（５０ｄ）とを含み、方法が、
コンフィギュレーションセクションにおいて、各チャネル要素のためのコンフィギュレーションデータを読出し、かつ、ペイロードセクションにおいて各チャネル要素のためのペイロードデータを読み出すステップと、
構成可能デコーダ（１６）により複数のチャネル要素を復号化するステップと、
構成可能デコーダ（１６）が、第１のチャネル要素を復号化する際、第１のデコーダコンフィギュレーションデータに従って構成され、かつ、第２のチャネル要素を復号化する際、第２のデコーダコンフィギュレーションデータに従うよう構成されるように構成可能デコーダ（１６）を構成するステップとを含む、方法。
多チャネルオーディオ信号（２０）を符号化するためのオーディオエンコーダであって、
第１のチャネル要素（２３ａ）のための第１のコンフィギュレーションデータ（２５ｂ）および第２のチャネル要素（２３ｂ）のための第２のコンフィギュレーションデータ（２５ａ）を生成するためのコンフィギュレーションプロセッサ（２２）と、
第１のコンフィギュレーションデータ（２５ｂ）および第２のコンフィギュレーションデータ（２５ａ）を使用して、多チャネルオーディオ信号（２０）を符号化し、第１のチャネル要素（２３ａ）および第２のチャネル要素（２３ｂ）を得るための構成可能エンコーダ（２４）と、
符号化されたオーディオ信号（２７）を表すデータストリームを生成するためのデータストリーム生成部（２６）とを含み、データストリーム（２７）が、第１のコンフィギュレーションデータ（５０ｃ）および第２のコンフィギュレーションデータ（５０ｄ）を有するコンフィギュレーションセクション（５０）と、第１のチャネル要素（５２ａ）および第２のチャネル要素（５２ｂ）を含むペイロードセクション（５２）とを有する、オーディオエンコーダ。
多チャネルオーディオ信号（２０）を符号化する方法であって、
第１のチャネル要素（２３ａ）のための第１のコンフィギュレーションデータ（２５ｂ）および第２のチャネル要素（２３ｂ）のための第２のコンフィギュレーションデータ（２５ａ）を生成するステップと、
第１のコンフィギュレーションデータ（２５ｂ）および第２のコンフィギュレーションデータ（２５ａ）を使用して、構成可能エンコーダ（２４）により、多チャネルオーディオ信号（２０）を符号化して、第１のチャネル要素（２３ａ）および第２のチャネル要素（２３ｂ）を得るステップと、
符号化されたオーディオ信号（２７）を表すデータストリーム（２７）を生成するステップとを含み、データーストリーム（２７）が、第１のコンフィギュレーションデータ（５０ｃ）および第２のコンフィギュレーションデータ（５０ｄ）を有するコンフィギュレーションセクション（５０）と、第１のチャネル要素（５２ａ）および第２のチャネル要素（５２ｂ）を含むペイロードセクション（５２）とを有する、方法。
コンピュータ上で実行された際に、請求項１４または１６に記載の方法を実行するためのコンピュータプログラム。