JP2016528541A

JP2016528541A - 効率的なオブジェクト・メタデータ符号化の装置と方法

Info

Publication number: JP2016528541A
Application number: JP2016528437A
Authority: JP
Inventors: ボルス，クリスチャン; エルテル，クリスチャン
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2013-07-22
Filing date: 2014-07-16
Publication date: 2016-09-15
Anticipated expiration: 2034-07-16
Also published as: WO2015011000A1; BR112016001140A2; CA2918166A1; AU2014295271B2; US20200275229A1; US20160142850A1; BR112016001140B1; EP3025330A1; CN105474309A; WO2015010996A1; ZA201601044B; CA2918860A1; EP3025332A1; US20170366911A1; US9743210B2; EP3025330B1; CN105474310A; US11463831B2; MX2016000907A; TWI560703B

Abstract

１つ以上のオーディオチャネルを生成する装置（１００）が提供される。この装置は、１つ以上の圧縮済みメタデータ信号を受信するメタデータ復号器（１１０）を備える。１つ以上の圧縮済みメタデータ信号の各々は複数の第１メタデータサンプルを含み、これら第１メタデータサンプルは１つ以上のオーディオオブジェクト信号のうちの１つのオーディオオブジェクト信号に関連する情報を示す。メタデータ復号器（１１０）は１つ以上の再生メタデータ信号を生成し、その再生メタデータ信号の各々が１つ以上の圧縮済みメタデータ信号の１つにおける第１メタデータサンプルを含み、さらに複数の第２メタデータサンプルを含む。メタデータ復号器（１１０）は、再生メタデータ信号の第１メタデータサンプルの少なくとも２つに依存して、１つ以上の再生メタデータ信号の各再生メタデータ信号の第２メタデータサンプルの各々を生成する。さらにこの装置（１００）は、１つ以上のオーディオオブジェクト信号に依存しかつ１つ以上の再生メタデータ信号に依存して、１つ以上のオーディオチャネルを生成するオーディオチャネル生成部（１２０）を備える。【選択図】図１

Description

本発明はオーディオ符号化／復号化に関し、特に空間オーディオ符号化及び空間オーディオオブジェクト符号化に関し、更に詳しくは効率的なオブジェクト・メタデータ符号化の装置と方法に関する。

空間オーディオ符号化ツールは当該技術において公知であり、例えばＭＰＥＧサラウンド標準で標準化されている。空間オーディオ符号化は、５個又は７個のチャネルなどのオリジナル入力チャネルから開始し、それらチャネルは再生設定におけるそれらの配置によって識別される。即ち、左チャネル、中央チャネル、右チャネル、左サラウンドチャネル、右サラウンドチャネル、及び低周波数強化チャネルである。空間オーディオ符号器は、典型的にはオリジナルチャネルから１つ以上のダウンミクスチャネルを導出し、加えて空間的キューに関連するパラメトリックデータを導出しており、その空間的キューにはチャネルコヒーレンス値におけるチャネル間レベル差(interchannel level differences)、チャネル間位相差(interchannel phase differences)、チャネル間時間差(interchannel time differences)などがある。１つ以上のダウンミクスチャネルは、空間的キューを示すパラメトリックサイド情報と一緒に空間オーディオ復号器へと伝送され、その復号器は、ダウンミクスチャネルとその関連するパラメトリックデータとを復号化して、オリジナル入力チャネルの近似されたバージョンである出力チャネルを最終的に取得する。出力設定におけるチャネルの配置は典型的には固定されており、例えば５．１フォーマット、７．１フォーマットなどである。

そのようなチャネルベースのオーディオフォーマットは、多チャネルオーディオコンテンツを記憶又は伝送するために広く使用されており、その場合、各チャネルは所与の位置にある特異なラウドスピーカに関連している。このような種類のフォーマットを忠実に再生するためには、オーディオ信号の生成時に使用されたスピーカ一位置と同じ位置にスピーカが配置されているような、ラウドスピーカ設定が要求される。ラウドスピーカの個数を増加させると、真に音に浸りこむような改善された３Ｄオーディオシーンの再生が可能になる一方で、特にリビングルームのような家庭的な環境では、そのような要求を満たすことはますます困難になる。

特異なラウドスピーカ設定を有することの必要性は、ラウドスピーカ信号が再生設定のために特異的にレンダリングされるオブジェクト・ベースの手法によって克服され得る。

例えば空間オーディオオブジェクト符号化ツールは、当該技術において公知であり、ＭＰＥＧＳＡＯＣ標準（ＳＡＯＣ＝空間オーディオオブジェクト符号化）において標準化されている。オリジナルチャネルから開始する空間オーディオ符号化とは対照的に、空間オーディオオブジェクト符号化はオーディオオブジェクトから開始し、それらオブジェクトはあるレンダリング再生設定に対して自動的に専用となる訳ではない。代わりに、再生シーン内におけるオーディオオブジェクトの配置には柔軟性があり、あるレンダリング情報を空間オーディオオブジェクト符号化・復号器へと入力することによりユーザーが決定することもできる。代替的又は追加的に、レンダリング情報、即ち再生設定におけるどの位置に、あるオーディオオブジェクトが典型的には時間にわたって配置されるべきかという情報は、追加的サイド情報又はメタデータとして伝送され得る。あるデータ圧縮を得るために幾つかのオーディオオブジェクトがＳＡＯＣ符号器によって符号化され、その符号器は、あるダウンミクス情報に従ってオブジェクトをダウンミクスすることで入力オブジェクトから１つ以上の転送チャネルを計算する。更に、ＳＡＯＣ符号器は、オブジェクトレベル差（ＯＬＤ）、オブジェクトコヒーレンス値などのオブジェクト間キューを表現しているパラメトリックサイド情報を計算する。ＳＡＣ（ＳＡＣ＝空間オーディオ符号化）においては、オブジェクト間のパラメトリックデータが個別の時間／周波数タイルについて計算される。即ち、例えば１０２４個又は２０４８個のサンプルを有するオーディオ信号のあるフレームについて、最終的に各フレーム及び各周波数帯域に対してパラメトリックデータが存在するように、２４個，３２個又は６４個などの周波数帯域が考慮される。一例として、あるオーディオピースが２０フレームを有し、各フレームが３２個の周波数帯域へと分割される場合、時間／周波数タイルの数は６４０個となる。

オブジェクト・ベースの手法において、音場は離散的なオーディオオブジェクトによって記述される。そのため、とりわけ３Ｄ空間における各音源の時間変化する位置を記述するオブジェクト・メタデータが必要になる。

先行技術における第１のメタデータ符号化概念は、空間サウンド記述インターチェンジフォーマット（ＳｐａｔＤＩＦ）であり、これは未だ開発中のオーディオシーン記述フォーマットである（非特許文献１）。そのフォーマットは、オブジェクト・ベースのサウンドシーンのためのインターチェンジフォーマットとして設計され、オブジェクト軌跡についての圧縮方法を何も提供してはいない。ＳｐａｔＤＩＦは、オブジェクト・メタデータを構築するために、テキスト・ベースのオープンサウンド制御（ＯＳＣ）フォーマットを使用する（非特許文献２）。しかしながら、単純なテキスト・ベースの表現はオブジェクト軌跡の圧縮された伝送のための選択肢にはならない。

先行技術における他のメタデータ概念はオーディオシーン記述フォーマット（ＡＳＤＦ）（非特許文献３）であり、同様の欠点を持つテキスト・ベースの解決策である。そのデータは、拡張可能なマーク付け言語（Extensible Markup Language：ＸＭＬ）（非特許文献４、非特許文献５）の部分集合である、同期されたマルチメディア統合言語(Synchronized Multimedia Integration Language：SMIL)の拡張によって構築される。

先行技術における更なるメタデータ概念は、シーンのためのオーディオバイナリフォーマット（ＡｕｄｉｏＢＩＦＳ）であり、ＭＰＥＧ−４仕様（非特許文献６、非特許文献７）の一部であるバイナリフォーマットである。そのフォーマットは、視聴覚の３Ｄシーンや双方向仮想現実アプリケーション（非特許文献８）のために開発されたＸＭＬベースの仮想現実モデリング言語(Virtual Reality Modeling Language：ＶＲＭＬ）に深く関連している。複雑なＡｕｄｉｏＢＩＦＳ仕様は、オブジェクトの動きの経路を特定するためにシーングラフを使用する。ＡｕｄｉｏＢＩＦＳの主たる欠点は、制限されたシステム遅延及びデータストリームへのランダムアクセスが要件となるようなリアルタイム操作のために設計されていないという点である。更に、オブジェクト位置の符号化は人間のリスナーの制限された定位性能を活用していない。視聴覚シーン内の固定的なリスナー位置に対しては、オブジェクトデータは遥かに少数のビットで量子化され得る（非特許文献９）。よって、ＡｕｄｉｏＢＩＦＳの中で適用されるオブジェクト・メタデータの符号化は、データ圧縮に関して効率的でない。

そこで、改善された効率的なオブジェクト・メタデータ符号化の概念が提供されれば、高く評価されるであろう。

[1] Peters, N., Lossius, T. and Schacher J. C., "SpatDIF: Principles, Specification, and Examples", 9th Sound and Music Computing Conference, Copenhagen, Denmark, Jul. 2012. [2] Wright, M., Freed, A., "Open Sound Control: A New Protocol for Communicating with Sound Synthesizers", International Computer Music Conference, Thessaloniki, Greece, 1997. [3] Matthias Geier, Jens Ahrens, and Sascha Spors. (2010), "Object-based audio reproduction and the audio scene description format", Org. Sound, Vol. 15, No. 3, pp. 219-227, December 2010. [4] W3C, "Synchronized Multimedia Integration Language (SMIL 3.0)", Dec. 2008. [5] W3C, "Extensible Markup Language (XML) 1.0 (Fifth Edition)", Nov. 2008. [6] MPEG, "ISO/IEC International Standard 14496-3 - Coding of audio-visual objects, Part 3 Audio", 2009. [7] Schmidt, J.; Schroeder, E. F. (2004), "New and Advanced Features for Audio Presentation in the MPEG-4 Standard", 116th AES Convention, Berlin, Germany, May 2004 [8] Web3D, "International Standard ISO/IEC 14772-1:1997 - The Virtual Reality Modeling Language (VRML), Part 1: Functional specification and UTF-8 encoding", 1997. [9] Sporer, T. (2012), "Codierung raeumlicher Audiosignale mit leichtgewichtigen Audio-Objekten", Proc. Annual Meeting of the German Audiological Society (DGA), Erlangen, Germany, Mar. 2012. [10] Ramer, U. (1972), "An iterative procedure for the polygonal approximation of plane curves", Computer Graphics and Image Processing, 1(3), 244?256. [11] Douglas, D.; Peucker, T. (1973), "Algorithms for the reduction of the number of points required to represent a digitized line or its caricature", The Canadian Cartographer 10(2), 112?122. [12] Ville Pulkki, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning"; J. Audio Eng. Soc., Volume 45, Issue 6, pp. 456-466, June 1997.

本発明の目的は、効率的なオブジェクト・メタデータ符号化のための改善された概念を提供することである。本発明の目的は、請求項１に記載の装置と、請求項８に記載の装置と、請求項１４に記載のシステムと、請求項１５に記載の方法と、請求項１６に記載の方法と、請求項１７に記載のコンピュータプログラムとによって達成される。

１つ以上のオーディオチャネルを生成する装置が提供される。この装置は、１つ以上の圧縮済みメタデータ信号を受信するメタデータ復号器を含む。１つ以上の圧縮済みメタデータ信号の各々は複数の第１メタデータサンプルを含む。１つ以上の圧縮済みメタデータ信号の各々の第１メタデータサンプルは、１つ以上のオーディオオブジェクト信号のうちの１つのオーディオオブジェクト信号に関連する情報を示す。メタデータ復号器は１つ以上の再生メタデータ信号を、それら１つ以上の再生メタデータ信号の各々が１つ以上の圧縮済みメタデータ信号の１つの第１メタデータサンプルを含み、さらに複数の第２メタデータサンプルを含むように、生成するよう構成されている。更に、メタデータ復号器は、１つ以上の再生メタデータ信号の各再生メタデータ信号の第２メタデータサンプルの各々を、前記再生メタデータ信号の第１メタデータサンプルの少なくとも２つに依存して、生成するよう構成されている。更に、この装置は、１つ以上のオーディオオブジェクト信号に依存しかつ１つ以上の再生メタデータ信号に依存して、１つ以上のオーディオチャネルを生成するオーディオチャネル生成部を含む。

更に、１つ以上の符号化済みオーディオ信号と１つ以上の圧縮済みメタデータ信号とを含む符号化済みオーディオ情報を生成する装置が提供される。この装置は、１つ以上のオリジナル・メタデータ信号を受信するメタデータ符号器を含む。１つ以上のオリジナル・メタデータ信号の各々は複数のメタデータサンプルを含む。１つ以上のオリジナル・メタデータ信号の各々のメタデータサンプルは、１つ以上のオーディオオブジェクト信号の１つのオーディオオブジェクト信号に関連する情報を示す。メタデータ符号器は、１つ以上の圧縮済みメタデータ信号を以下のように生成するよう構成されている。即ち、１つ以上の圧縮済みメタデータ信号の各圧縮済みメタデータ信号が、オリジナル・メタデータ信号の１つにおける２つ以上のメタデータサンプルの第１グループを含み、且つ、前記圧縮済みメタデータ信号が、オリジナル・メタデータ信号の前記１つにおける他の２つ以上のメタデータサンプルの第２グループのメタデータサンプルを何も含まないように、生成する。更に、この装置は、１つ以上のオーディオオブジェクト信号を符号化して、１つ以上の符号化済みオーディオ信号を取得する、オーディオ符号器を含む。

更に、あるシステムが提供される。そのシステムは、上述のような１つ以上の符号化済みオーディオ信号と１つ以上の圧縮済みメタデータ信号とを含む、符号化済みオーディオ情報を生成する装置を含む。更に、そのシステムは、１つ以上の符号化済みオーディオ信号と１つ以上の圧縮済みメタデータ信号とを受信し、且つ、上述のような１つ以上の符号化済みオーディオ信号と１つ以上の圧縮済みメタデータ信号とに依存して１つ以上のオーディオチャネルを生成する装置を含む。

実施形態によれば、オブジェクト・メタデータのためのデータ圧縮概念が提供され、それら概念は、限定されたデータレートでの伝送チャネルのための効率的な圧縮メカニズムを達成する。更に、純粋な方位角変化、例えばカメラ回転に対する良好な圧縮レートが達成される。更に、提案の概念は、例えば位置的ジャンプのような、不連続的な軌跡をサポートする。更に、複雑性の低い復号化を実現できる。更に、限定的な再初期化時間を有するランダムアクセスを達成できる。

１つ以上のオーディオチャネルを生成する方法が提供される。その方法は、
−１つ以上の圧縮済みメタデータ信号を受信するステップであって、１つ以上の圧縮済みメタデータ信号の各々が複数の第１メタデータサンプルを含み、１つ以上の圧縮済みメタデータ信号の各々の第１メタデータサンプルが、１つ以上のオーディオオブジェクト信号の１つのオーディオオブジェクト信号に関連する情報を示す、ステップと、
−１つ以上の再生メタデータ信号を生成するステップであって、１つ以上の再生メタデータ信号の各々は、１つ以上の圧縮済みメタデータ信号のうちの１つの第１メタデータサンプルを含みかつ複数の第２メタデータサンプルを含み、１つ以上の再生メタデータ信号を生成するステップが、１つ以上の再生メタデータ信号の各再生メタデータ信号の第２メタデータサンプルの各々を、前記再生メタデータ信号の第１メタデータサンプルの少なくとも２つに依存して生成するステップを含む、ステップと、
−１つ以上のオーディオオブジェクト信号に依存し、かつ１つ以上の再生メタデータ信号に依存して、１つ以上のオーディオチャネルを生成するステップと、
を含む。

更に、１つ以上の符号化済みオーディオ信号と１つ以上の圧縮済みメタデータ信号とを含む、符号化済みオーディオ情報を生成する方法が提供される。その方法は、
−１つ以上のオリジナル・メタデータ信号を受信するステップであって、１つ以上のオリジナル・メタデータ信号の各々は、複数のメタデータサンプルを含み、１つ以上のオリジナル・メタデータ信号の各々のメタデータサンプルは、１つ以上のオーディオオブジェクト信号の１つのオーディオオブジェクト信号に関連する情報を示す、ステップと、
−１つ以上の圧縮済みメタデータ信号を生成するステップであって、１つ以上の圧縮済みメタデータ信号の各圧縮済みメタデータ信号が、オリジナル・メタデータ信号のうちの１つの、メタデータサンプルの２つ以上からなる第１グループを含み、且つ、前記圧縮済みメタデータ信号が、オリジナル・メタデータ信号のうちの前記１つの、メタデータサンプルの他の２つ以上からなる第２グループのメタデータサンプルを何も含まないように、生成するステップと、
−１つ以上のオーディオオブジェクト信号を符号化して、１つ以上の符号化済みオーディオ信号を取得するステップと、
を含む。

更に、コンピュータ又は信号プロセッサ上で作動するとき、上述の方法を実行するコンピュータプログラムが提供される。

以下に、本発明の実施形態を、図面を参照しながらより詳細に説明する。

１つ以上のオーディオチャネルを生成する、一実施形態に係る装置を示す。１つ以上の符号化済みオーディオ信号及び１つ以上の圧縮済みメタデータ信号を含む符号化済みオーディオ情報を生成する、一実施形態に係る装置を示す。一実施形態に係るシステムを示す。方位角、仰角及び半径により表現された、原点からの３次元空間におけるオーディオオブジェクトの位置を示す。オーディオチャネル生成部により想定されたオーディオオブジェクト及びラウドスピーカ設定の位置を示す。一実施形態に係るメタデータ符号化を示す。一実施形態に係るメタデータ復号化を示す。他の実施形態に係るメタデータ符号化を示す。他の実施形態に係るメタデータ復号化を示す別の実施形態に係るメタデータ符号化を示す。別の実施形態に係るメタデータ復号化を示す３Ｄオーディオ符号器の第１実施形態を示す。３Ｄオーディオ復号器の第１実施形態を示す。３Ｄオーディオ符号器の第２実施形態を示す。３Ｄオーディオ復号器の第２実施形態を示す。３Ｄオーディオ符号器の第３実施形態を示す。３Ｄオーディオ復号器の第３実施形態を示す。

図２は、１つ以上の符号化済みオーディオ信号と１つ以上の圧縮済みメタデータ信号とを含む、符号化済みオーディオ情報を生成するための一実施形態に係る装置２５０を示す。

装置２５０は、１つ以上のオリジナル・メタデータ信号を受信するメタデータ符号器２１０を含む。１つ以上のオリジナル・メタデータ信号の各々は、複数のメタデータサンプルを含む。１つ以上のオリジナル・メタデータ信号の各々のオリジナル・メタデータサンプルは、１つ以上のオーディオオブジェクト信号の１つのオーディオオブジェクト信号に関連する情報を示す。メタデータ符号器２１０は、１つ以上の圧縮済みメタデータ信号の各圧縮済みメタデータ信号がオリジナル・メタデータ信号の１つの２つ以上のメタデータサンプルの第１グループを含み、かつ前記圧縮済みメタデータ信号がオリジナル・メタデータ信号の前記１つのメタデータサンプルの他の２つ以上の第２グループのメタデータサンプルを何も含まないように、１つ以上の圧縮済みメタデータ信号を生成するよう構成されている。

更に装置２５０は、１つ以上のオーディオオブジェクト信号を符号化して、１つ以上の符号化済みオーディオ信号を取得するオーディオ符号器２２０を含む。例えば、オーディオチャネル生成部は、１つ以上のオーディオオブジェクト信号を符号化し、１つ以上の符号化済みオーディオ信号として１つ以上のＳＡＯＣ転送チャネルを取得する、現状技術に係るＳＡＯＣ符号器を備えていてもよい。１つ以上のオーディオオブジェクトチャネルを符号化するための種々の他の符号化技術が代替的又は追加的に使用されて、１つ以上のオーディオオブジェクトチャネルを符号化してもよい。

図１は、１つ以上のオーディオチャネルを生成する一実施形態に係る装置１００を示す。

装置１００は、１つ以上の圧縮済みメタデータ信号を受信するメタデータ復号器１１０を含む。１つ以上の圧縮済みメタデータ信号の各々は、複数の第１メタデータサンプルを含む。１つ以上の圧縮済みメタデータ信号の各々の第１メタデータサンプルは、１つ以上のオーディオオブジェクト信号のうちの１つのオーディオオブジェクト信号に関連する情報を示す。メタデータ復号器１１０は１つ以上の再生メタデータ信号を生成するよう構成されており、それら１つ以上の再生メタデータ信号の各々は、１つ以上の圧縮済みメタデータ信号の１つの第１メタデータサンプルを含み、更に複数の第２メタデータサンプルを含む。更にメタデータ復号器１１０は、１つ以上の再生メタデータ信号の各再生メタデータ信号の第２メタデータサンプルの各々を、前記再生メタデータ信号の第１メタデータサンプルの少なくとも２つに依存して生成するよう構成されている。

更に装置１００は、１つ以上のオーディオオブジェクト信号に依存しかつ１つ以上の再生メタデータ信号に依存して、１つ以上のオーディオチャネルを生成するオーディオチャネル生成部１２０を含む。

メタデータサンプルについて言及する場合には、1つのメタデータサンプルは、そのメタデータサンプル値によって特徴付けられるだけでなく、そのメタデータサンプルが関連する時点によっても特徴付けられるという点にも留意すべきである。例えば、そのような時点とは、オーディオシーケンスの開始点又はそれと同様な点に対して相対的であってもよい。例えば、インデックスｎ又はｋはメタデータ信号内のメタデータサンプルの位置を識別していてもよく、これにより、（開始時刻に関連する）（相対的）時点が示されてもよい。注意すべきは、２つのメタデータサンプルが異なる時点に関連する場合、（時々起こり得ることであるが）たとえそれらのメタデータサンプル値が同一であったとしても、それら２つのメタデータサンプルは異なるメタデータサンプルであるということである。

上述の実施形態は、オーディオオブジェクト信号と関連する（メタデータ信号に含まれる）メタデータ情報がゆっくりと変化する場合が多い、という知見に基づいている。

例えば、メタデータ信号は、オーディオオブジェクトについての位置情報（例えばオーディオオブジェクトの位置を定義する方位角、仰角又は半径）を示してもよい。殆どの時点でオーディオオブジェクトの位置は変化しないか又はゆっくりとだけ変化する、と想定されてもよい。

あるいは、メタデータ信号は、例えばオーディオオブジェクトの音量（例えばゲイン）を示してもよく、殆どの時点でオーディオオブジェクトの音量はゆっくりと変化すると想定されてもよい。

このような理由により、全ての時点における（完全な）メタデータ情報を伝送する必要はない。その代わり、幾つかの実施形態によれば、（完全な）メタデータ情報が例えばある時点においてだけ伝送されてもよく、例えばＮ番目の時点毎に周期的に、例えば時点０，Ｎ，２Ｎ，３Ｎ等において伝送されてもよい。その場合、復号器側では、（例えば時点１，２，…，Ｎ−１などの）中間時点に関し、２つ以上の時点についてのメタデータサンプルに基づいてメタデータが近似され得る。例えば、時点１，２，…，Ｎ−１についてのメタデータサンプルは、復号器側において、時点０及びＮについてのメタデータサンプルに依存して、例えば線形補間を使用して近似され得る。上述したように、そのような手法は、オーディオオブジェクトについてのメタデータ情報が一般的に低速で変化するという知見に基づいている。

例えば、実施形態においては、３個のメタデータ信号が３Ｄ空間におけるオーディオオブジェクトの位置を特定する。メタデータ信号の１番目は、例えばオーディオオブジェクトの位置の方位角を特定してもよい。メタデータ信号の２番目は、例えばオーディオオブジェクトの位置の仰角を特定してもよい。メタデータ信号の３番目は、例えばオーディオオブジェクトの距離に関係する半径を特定してもよい。

方位角と仰角と半径とは、３Ｄ空間におけるオーディオオブジェクトの原点からの位置を明確に定義する。これについては図４を参照しながら説明する。

図４は、三次元（３Ｄ）空間におけるオーディオオブジェクトの原点４００からの位置４１０を、方位角と仰角と半径とで示す。

仰角は、例えば、原点からオブジェクト位置までの直線と、この直線のｘｙ平面（ｘ軸とｙ軸とによって定義される平面）への垂直投影線との角度を特定する。方位角は、例えばｘ軸と前記垂直投影線との角度を定義する。方位角と仰角とを特定することで、原点４００とオーディオオブジェクトの位置４１０とを通過する直線４１５が定義され得る。更に半径を特定することで、オーディオオブジェクトの正確な位置４１０が定義され得る。

一実施形態において、方位角は−１８０°＜方位角≦１８０°の範囲で定義され、仰角は−９０°≦仰角≦９０°の範囲で定義され、半径は例えばメートル［ｍ］（０ｍ以上である）で定義され得る。

例えばｘｙｚ座標系におけるオーディオオブジェクト位置の全てのｘ値がゼロ以上であると想定され得るような他の実施形態においては、方位角は−９０°≦方位角≦９０°の範囲で定義され、仰角は−９０°≦仰角≦９０°の範囲で定義され、半径は例えばメートル［ｍ］で定義され得る。

更なる実施形態において、方位角が−１２８°＜方位角≦１２８°の範囲で定義され、仰角が−３２°≦仰角≦３２°の範囲で定義され、半径が例えば対数スケールで定義され得るように、メタデータ信号はスケールされてもよい。幾つかの実施形態において、オリジナル・メタデータ信号、処理済みメタデータ信号、及び再生メタデータ信号は、それぞれ、１つ以上のオーディオオブジェクト信号の１つの位置情報のスケールされた表現及び／又は音量のスケールされた表現を含んでもよい。

オーディオチャネル生成部１２０は、例えば、１つ以上のオーディオオブジェクト信号に依存しかつ再生メタデータ信号に依存して、１つ以上のオーディオチャネルを生成するよう構成されてもよく、その再生メタデータ信号は、例えばオーディオオブジェクトの位置を示してもよい。

図５は、オーディオオブジェクトの位置と、オーディオチャネル生成部により想定されるラウドスピーカ設定とを示す。ｘｙｚ座標系の原点５００が示されている。更に、第１オーディオオブジェクトの位置５１０と、第２オーディオオブジェクトの位置５２０とが示されている。更に、図５は、オーディオチャネル生成部１２０が４個のラウドスピーカのための４個のオーディオチャネルを生成するシナリオを示す。オーディオチャネル生成部１２０は、４個のラウドスピーカ５１１，５１２，５１３，５１４が図５に示す位置に配置されていると想定している。

図５において、第１オーディオオブジェクトは、ラウドスピーカ５１１と５１２の想定位置に近い位置５１０に配置されており、ラウドスピーカ５１３と５１４からは遠い位置に配置されている。従って、オーディオチャネル生成部１２０は、第１オーディオオブジェクト５１０がラウドスピーカ５１１及び５１２により再生され、ラウドスピーカ５１３及び５１４では再生されないように、４個のオーディオチャネルを生成してもよい。

他の実施形態において、オーディオチャネル生成部１２０は、第１オーディオオブジェクト５１０がラウドスピーカ５１１及び５１２により高い音量で再生され、ラウドスピーカ５１３及び５１４により低い音量で再生されるように、４個のオーディオチャネルを生成してもよい。

更に、第２オーディオオブジェクトは、ラウドスピーカ５１３と５１４の想定位置に近い位置５２０に配置されており、ラウドスピーカ５１１と５１２からは遠い位置に配置されている。従って、オーディオチャネル生成部１２０は、第２オーディオオブジェクト５２０がラウドスピーカ５１３及び５１４により再生され、ラウドスピーカ５１１及び５１２では再生されないように、４個のオーディオチャネルを生成してもよい。

他の実施形態において、オーディオチャネル生成部１２０は、第２オーディオオブジェクト５２０がラウドスピーカ５１３及び５１４により高い音量で再生され、ラウドスピーカ５１１及び５１２により低い音量で再生されるように、４個のオーディオチャネルを生成してもよい。

代替的な実施形態において、オーディオオブジェクトの位置を特定するために、２個のメタデータ信号だけが使用されてもよい。例えば、全てのオーディオオブジェクトが単一平面に配置されていると想定される場合には、例えば方位角と半径だけが特定されてもよい。

更に他の実施形態においては、各オーディオオブジェクトのために、単一のメタデータ信号だけが位置情報として符号化されかつ伝送される。例えば、あるオーディオオブジェクトについて、方位角だけが位置情報として特定されてもよい（例えば全てのオーディオオブジェクトが同一平面上に配置され、中心点から同一距離を持ち、従って同一半径を有すると想定される場合など）。方位角情報は、例えば、オーディオオブジェクトが左のラウドスピーカに近く、右のラウドスピーカからは遠いと判定することで十分であってもよい。そのような状況において、オーディオチャネル生成部１２０は、例えばオーディオオブジェクトが左のラウドスピーカによって再生されるが、右のラウドスピーカでは再生されないように、１つ以上のオーディオチャネルを生成してもよい。

例えば、ラウドスピーカのオーディオチャネルの各々の中におけるオーディオオブジェクト信号の重みを決定するために、ベクトル方式振幅パニング（Vector Base Amplitude Panning （ＶＢＡＰ））が使用されてもよい（例えば非特許文献１２を参照）。例えば、ＶＢＡＰに関しては、オーディオオブジェクトが仮想音源に関連すると想定されている。

実施形態において、各オーディオオブジェクトについて、更なるメタデータ信号が音量、例えばゲイン（例えばデシベル［ｄＢ］で表現された）を特定してもよい。

例えば図５において、第１ゲイン値は、位置５１０に配置された第１オーディオオブジェクトのための更なるメタデータ信号により特定されてもよく、その値は、位置５２０に配置された第２オーディオオブジェクトのための別の更なるメタデータ信号によって特定される第２ゲイン値よりも高い。そのような状況において、ラウドスピーカ５１１及び５１２は第１オーディオオブジェクトを、ラウドスピーカ５１３及び５１４が第２オーディオオブジェクトを再生する音量よりも高い音量で再生してもよい。

実施形態はまた、オーディオオブジェクトのそのようなゲイン値がゆっくりと変化する場合が多いと想定している。従って、そのようなメタデータ情報を全ての時点において伝送する必要はない。代わりに、メタデータ情報は、ある時点において伝送されるだけである。中間の時点においては、メタデータ情報は、例えば伝送された先行するメタデータサンプルと後続のメタデータサンプルとを使用して近似されてもよい。例えば、中間値の近似のために線形補間が使用されてもよい。例えば、オーディオオブジェクトの各々のゲイン、方位角、仰角及び／又は半径が、そのようなメタデータが伝送されなかった時点のために近似されてもよい。

そのような手法により、メタデータの伝送レートにおける相当な節約を達成し得る。

図３は、一実施形態に従うシステムを示す。

このシステムは、１つ以上の符号化済みオーディオ信号と１つ以上の処理済みメタデータ信号とを含む符号化済みオーディオ情報を生成する、上述のような装置２５０を備える。

更に、そのシステムは、１つ以上の符号化済みオーディオ信号と１つ以上の圧縮済みメタデータ信号とを受信し、且つ、その１つ以上の符号化済みオーディオ信号と１つ以上の圧縮済みメタデータ信号とに依存して、１つ以上のオーディオチャネルを上述のように生成する装置１００を備える。

例えば、１つ以上のオーディオオブジェクトを符号化するための符号化装置２５０がＳＡＯＣ符号器を使用した場合には、１つ以上の符号化済みオーディオ信号が、現状技術に係るＳＡＯＣ復号器を使用して１つ以上のオーディオチャネルを生成する装置１００によって復号化されて、１つ以上のオーディオオブジェクト信号が取得されてもよい。

オブジェクト位置をメタデータに関する一例としてだけ考慮する場合、限定的な再初期化時間でランダムアクセスを可能にするために、実施形態は、全てのオブジェクト位置の完全な再伝送を規則的なベースで提供する。

一実施形態によれば、装置１００はランダムアクセス情報を受信するよう構成されており、１つ以上の圧縮済みメタデータ信号の各圧縮済みメタデータ信号について、ランダムアクセス情報は前記圧縮済みメタデータ信号のアクセスされた信号部分を指示しており、前記メタデータ信号の少なくとも１つの他の信号部分は、前記ランダムアクセス情報によって指示されていない。更に、メタデータ復号器１１０は、前記圧縮済みメタデータ信号の前記アクセスされた信号部分の第１メタデータサンプルに依存する一方で、前記圧縮済みメタデータ信号の他の如何なる信号部分の他の如何なる第１メタデータサンプルにも依存せずに、１つ以上の再生メタデータ信号のうちの１つを生成するよう構成されている。換言すれば、ランダムアクセス情報を特定することで、圧縮済みメタデータ信号の各々の一部が特定されることができ、前記メタデータ信号の他の部分は特定されない。この場合、前記圧縮済みメタデータ信号の特定された部分だけが、再生メタデータ信号の１つとして再生されるが、他の部分は再生されない。圧縮済みメタデータ信号の伝送された第１メタデータサンプルが、ある時点についての圧縮済みメタデータ信号の完全なメタデータ情報を表現しているので（ただし、他の時点についてはメタデータ情報は伝送されない）、再生は可能である。

図６は、一実施形態に係るメタデータ符号化を示す。実施形態に係るメタデータ符号器２１０が、図６で示すメタデータ符号化を実行するよう構成されてもよい。

図６において、s(n)はオリジナル・メタデータ信号の１つを表現し得る。例えば、s(n)は、オーディオオブジェクトの１つの方位角の関数などを表現してもよく、ｎは、（例えばオリジナル・メタデータ信号におけるサンプル位置を指示することで）時間を示してもよい。

オーディオサンプリングレートよりも有意に低い（例えば１：１０２４又はそれよりも低い）サンプリングレートでサンプリングされる、経時変化する軌跡要素s(n)は、量子化され（６１１を参照）、かつファクタＮでダウンサンプリングされる（６１２を参照）。その結果、上述した規則的に伝送されるデジタル信号がもたらされ、ここではz(k)で示す。

z(k)は、１つ以上の圧縮済みメタデータ信号のうちの１つである。例えば、

のＮ番目毎のメタデータサンプルは圧縮済みメタデータ信号z(k)のメタデータサンプルでもあるが、

のＮ番目毎のメタデータサンプル間の他のＮ−１個のメタデータサンプルは、圧縮済みメタデータ信号z(k)のメタデータサンプルとはならない。

例えば、s(n)において、ｎは（例えばオリジナル・メタデータ信号内のサンプル位置を指示することで）時間を示し、ここで、ｎは正の整数又は０である（例えば開始時点：ｎ＝０）と仮定する。Ｎはダウンサンプリングファクタである。例えば、Ｎ＝３２又は他の任意の適切なダウンサンプリングファクタである。

例えば、オリジナル・メタデータ信号ｓから圧縮済みメタデータ信号ｚを得るためのダウンサンプリング６１２は、例えば以下のように実現されてもよい。
［数１］

従って、
［数２］

図７は、一実施形態に係るメタデータ復号化を示す。実施形態に係るメタデータ復号器１１０が図７で示すメタデータ復号化を実行するよう構成されてもよい。

図７に示す実施形態によれば、メタデータ復号器１１０は、１つ以上の再生メタデータ信号の各再生メタデータ信号を、１つ以上の圧縮済みメタデータ信号の１つをアップサンプリングすることにより生成するよう構成される。ここで、メタデータ復号器１１０は、前記再生メタデータ信号の第１メタデータサンプルの少なくとも２つに依存して、線形補間を実行することにより、１つ以上の再生メタデータ信号の各再生メタデータ信号の第２メタデータサンプルの各々を生成するよう構成されている。

従って、各再生メタデータ信号は、その圧縮済みメタデータ信号の全てのメタデータサンプルを含む（これらのサンプルは、１つ以上の圧縮済みメタデータ信号の「第１メタデータサンプル」と称される）。

アップサンプリングを実行することで、追加的な（「第２の」）メタデータサンプルが再生メタデータ信号へと追加される。アップサンプリングのステップは、再生メタデータ信号内のどの位置に（例えばどの「相対的な」時点に）、追加的な（「第２の」）メタデータサンプルがそのメタデータ信号に加えられたかを決定する。

線形補間を実行することで、第２メタデータサンプルのメタデータサンプル値が決定される。その線形補間は、圧縮済みメタデータ信号の２個のメタデータサンプル（再生メタデータ信号の第１メタデータサンプルになったサンプル）に基づいて実行される。

実施形態によれば、アップサンプリングと、線形補間を実行することによる第２メタデータサンプルの生成とは、例えば単一ステップで実行されてもよい。

図７において、線形補間（７２２を参照）と組み合わせた逆アップサンプリング処理（７２１を参照）は、オリジナル信号の粗い近似をもたらす。その逆アップサンプリング処理（７２１を参照）及び線形補間（７２２を参照）は、例えば単一ステップにおいて実行されてもよい。

例えば、復号器側におけるアップサンプリング処理（７２１）及び線形補間（７２２）は、例えば以下のように実行されてもよい。
［数３］

［数４］

ここで、z(k)は圧縮済みメタデータ信号ｚの実際に受信されたメタデータサンプルであり、z(k-1)は実際に受信されたメタデータサンプルz(k)の直前に受信された圧縮済みメタデータ信号ｚのメタデータサンプルである。

図８は、他の実施形態に係るメタデータ符号化を示す。実施形態に係るメタデータ符号器２１０が図８で示すメタデータ符号化を実行するよう構成されてもよい。

実施形態において、例えば図８に示すように、このメタデータ符号化の中では、遅延補償された入力信号と線形補間された粗い近似との間の符号化された差分によって、細密構造が特定されてもよい。

そのような実施形態によれば、逆アップサンプリング処理と線形補間との組合せも、符号器側でのメタデータ符号化の一部として実行される（図６の６２１及び６２２を参照）。ここでも、逆アップサンプリング処理（６２１参照）と線形補間（６２２参照）とは、例えば単一ステップにおいて実行されてもよい。

上述したように、メタデータ符号器２１０は１つ以上の圧縮済みメタデータ信号を生成するよう構成されており、その場合、１つ以上の圧縮済みメタデータ信号の各圧縮済みメタデータ信号が、１つ以上のオリジナル・メタデータ信号のうちの１つのオリジナル・メタデータ信号の２つ以上のメタデータサンプルのからなる第１グループを含むように生成する。前記圧縮済みメタデータ信号は、前記オリジナル・メタデータ信号と関連すると考えることができる。

１つ以上のオリジナル・メタデータ信号の１つのオリジナル・メタデータ信号に含まれ、かつ当該オリジナル・メタデータ信号に関連する圧縮済みメタデータ信号に含まれる、メタデータサンプルの各々は、複数の第１メタデータサンプルの１つとして考えることができる。

更に、１つ以上のオリジナル・メタデータ信号のうちの１つのオリジナル・メタデータ信号に含まれ、かつ当該オリジナル・メタデータ信号に関連する圧縮済みメタデータ信号に含まれない、メタデータサンプルの各々は、複数の第２メタデータサンプルの１つである。

図８の実施形態によれば、メタデータ符号器２１０は、１つ以上のオリジナル・メタデータ信号の前記１つの第１メタデータサンプルの少なくとも２つに依存して、線形補間を実行することで、オリジナル・メタデータ信号の１つにおける複数の第２メタデータサンプルの各々について、近似済みメタデータサンプルを生成するよう構成されている。

更に図８の実施形態において、メタデータ符号器２１０は、１つ以上のオリジナル・メタデータ信号の前記１つの複数の第２メタデータサンプルの各第２メタデータサンプルについて、ある差分値を生成するよう構成されており、その場合、前記差分値が、前記第２メタデータサンプルと、当該第２メタデータサンプルの近似済みメタデータサンプルと、の差を指示するように生成される。

後段において図１０を参照しながら説明する好ましい一実施形態において、メタデータ符号器２１０は、例えば、１つ以上のオリジナル・メタデータ信号の前記１つの前記複数の第２メタデータサンプルの差分値の少なくとも１つについて、前記差分値の少なくとも１つの各々がある閾値よりも大きいか否か、を決定するよう構成されてもよい。

図８に係る実施形態において、近似済みメタデータサンプルは、例えば圧縮済みメタデータ信号z(k)に対してアップサンプリングを実行すること、及び線形補間を実行することにより、（例えば信号s''のサンプルs''(n)として）決定されてもよい。アップサンプリング及び線形補間は、例えば符号器側のメタデータ符号化の一部として（図６の６２１と６２２を参照）実行されてもよく、例えば符号７２１と７２２を参照しながらメタデータ復号化について説明したものと同様である。
［数５］

［数６］

例えば図８で示された実施形態では、メタデータ符号化を実行する場合、差分値は、６３０において以下の差分について決定されてもよい。
［数７］

実施形態においては、１つ以上のこれら差分値がメタデータ復号器へと伝送される。

図９は、他の実施形態に係るメタデータ復号化を示す。実施形態に係るメタデータ復号器１１０が図９で示すメタデータ復号化を実行するよう構成されてもよい。

上述したように、１つ以上の再生メタデータ信号の各再生メタデータ信号は、１つ以上の圧縮済みメタデータ信号の１つの圧縮済みメタデータ信号の第１メタデータサンプルを含む。前記再生メタデータ信号は、前記圧縮済み信号と関連していると考えられる。

図９により示す実施形態において、メタデータ復号器１１０は、１つ以上の再生メタデータ信号の各々の第２メタデータサンプルを、当該再生メタデータ信号について複数の近似済みメタデータサンプルを生成することで、生成するよう構成されており、メタデータ復号器１１０は、複数の近似済みメタデータサンプルの各々を、当該再生メタデータ信号の第１メタデータサンプルの少なくとも２つに依存して生成するよう構成されている。例えば、これら近似済みメタデータサンプルは、図７を参照しながら説明したように、線形補間によって生成されてもよい。

図９に示す実施形態によれば、メタデータ復号器１１０は、１つ以上の圧縮済みメタデータ信号の１つの圧縮済みメタデータ信号について複数の差分値を受信するよう構成されている。メタデータ復号器１１０は更に、当該圧縮済みメタデータに関連する再生メタデータ信号の近似済みメタデータサンプルの１つに対し、複数の差分値の各々を加算して、当該再生メタデータ信号の第２メタデータサンプルを取得するよう構成されている。

近似済みメタデータサンプルであって、それに関する差分値が受信されている近似済みメタデータサンプルの全てに対し、その差分値がその近似済みメタデータサンプルに加算されて、第２メタデータサンプルが取得される。

一実施形態によれば、近似済みメタデータサンプルであって、それに関する差分値が受信されていない近似済みメタデータサンプルは、再生メタデータ信号の第２メタデータサンプルとして使用される。

しかし、他の実施形態によれば、ある近似済みメタデータサンプルについて差分値が受信されていない場合、当該近似済みメタデータサンプルのために、ある近似済み差分値が１つ以上の受信された差分値に依存して生成され、当該近似済みメタデータサンプルが後段で示すように当該近似済みメタデータサンプルに加算される。

図９に示す実施形態によれば、受信された差分値は、アップサンプリングされたメタデータ信号の対応するメタデータサンプルに加算される（７３０を参照）。これにより、差分値が伝送されてきた対応する補間済みメタデータサンプルは、必要に応じて修正され、正確なメタデータサンプルが取得され得る。

図８のメタデータ符号化に戻ると、好ましい実施形態において、メタデータサンプルを符号化するために使用されるビット数よりも少数のビットが、差分値を符号化するために使用される。これらの実施形態は、（例えばＮ個の）連続するメタデータサンプルが大部分の時点において僅かしか変化しない、という知見に基づいている。例えば、ある種のメタデータサンプルが例えば８ビットで符号化されると、これらのメタデータサンプルは２５６個の異なる値の中の１つをとることができる。（例えばＮ個の）連続するメタデータ値の一般的に僅かな変化により、例えば５ビットだけで差分値を符号化することが十分と考えられる。従って、差分値が伝送される場合でも、伝送されるビット数は低減され得る。

好ましい実施形態においては、１つ以上の差分値が伝送され、１つ以上の差分値の各々はメタデータサンプルの各々よりも少ないビットを用いて符号化され、差分値の各々は整数値である。

一実施形態によれば、メタデータ符号器１１０は、１つ以上の圧縮済みメタデータ信号の内の１つの１つ以上のメタデータサンプルを第１のビット数を用いて符号化するよう構成されており、ここで、前記１つ以上の圧縮済みメタデータ信号の内の１つの前記１つ以上のメタデータサンプルの各々は整数を示す。更に、メタデータ符号器（１１０）は、１つ以上の差分値を第２のビット数を用いて符号化するよう構成されており、ここで、前記１つ以上の差分値の各々は整数を示し、前記第２のビット数は前記第１のビット数よりも少ない。

例えば一実施形態において、メタデータサンプルが８ビットで符号化された方位角を表現できると考慮されたい。例えば、その方位角は−９０≦方位角≦９０の整数であってもよい。従って、その方位角は１８１個の異なる値をとり得る。しかし、（例えばＮ個の）後続の方位角サンプルは、例えば±１５以下しか変化しないと想定することができ、その場合、差分値を符号化するために５ビット（２⁵＝３２）で十分となり得る。差分値が整数として表現される場合、その差分値を決定することは、伝送されるべき追加的な値を適切な値領域へと自動的に変換することになる。

例えば、第１オーディオオブジェクトの第１方位角値が６０°であり、その後続の値が４５°から７５°まで変化する場合を考慮されたい。さらに、第２オーディオオブジェクトの第２方位角値が−３０°であり、その後続の値が−４５°から−１５°まで変化する場合を考慮されたい。第１オーディオオブジェクトの両方の後続の値についての差分値、及び第２オーディオオブジェクトの両方の後続の値についての差分値を決定すると、第１方位角値及び第２方位角値の差分値は両方とも−１５°から＋１５°までの値領域内にある。よって、差分値の各々を符号化するために５ビットで十分となり、差分値を符号化するビットシーケンスは、第１方位角の差分値と第２方位角の差分値とに対して同じ意味を持つ。

一実施形態において、各差分値であって、圧縮済みメタデータ信号の中にそれに関するメタデータサンプルが存在しない各差分値が、復号化側へと伝送される。更に、一実施形態によれば、各差分値であって、圧縮済みメタデータ信号の中にそれに関するメタデータサンプルが存在しない各差分値は、メタデータ復号器により受信されかつ処理される。しかし、図１０及び図１１に示す好ましい実施形態の幾つかは、異なる概念を実現する。

図１０は更なる実施形態に係るメタデータ符号化を示す。実施形態に係るメタデータ符号器２１０は、図１０に示すメタデータ符号化を実行するよう構成されてもよい。

上述した実施形態の幾つかと同様に、図１０において、差分値は、例えば圧縮済みメタデータ信号に含まれないオリジナル・メタデータ信号の各メタデータサンプルについて決定される。例えば、時刻ｎ＝０及びｎ＝Ｎにおけるメタデータサンプルが圧縮済みメタデータ信号に含まれ、時刻ｎ＝１からｎ＝Ｎ−１までのメタデータサンプルが、差分値は時刻ｎ＝１からｎ＝Ｎ−１までに関して決定される。

しかしながら、図１０の実施形態によれば、次に６４０においてポリゴン近似(polygon approximation)が実行される。メタデータ符号器２１０は、差分値の内のどれが伝送されるべきかを決定し、そもそも差分値が伝送されるべきか否かをも決定する。

例えば、メタデータ２１０は、ある閾値を超える差分値を有する差分値だけを伝送するよう構成されてもよい。

他の実施形態においては、メタデータ符号器２１０は、差分値であって、対応するメタデータサンプルに対するその比がある閾値を超える差分値だけを伝送するよう構成されてもよい。

一実施形態において、メタデータ符号器２１０は、最大の絶対値差分値について、この絶対値差分値がある閾値を超えるかどうかを検査する。絶対値差分値が閾値を超える場合、その差分値が伝送され、その他の場合には、差分値は全く伝送されず、検査は終了する。その検査は２番目に大きな差分値について続行され、３番目に大きな差分値等々と続行されて、全ての差分値がその閾値を下回るまで続行される。

必ずしも全ての差分値が伝送される必要はないので、実施形態によれば、メタデータ符号器２１０は、（図１０における値y₁[k],…,y_N-1[k]の１つである）差分値自体（のサイズ）を符号化するだけでなく、オリジナル・メタデータ信号のどのメタデータサンプルに対してその差分値が関係しているのかを示す情報（図１０における値x₁[k],…,x_N-1[k]の１つ）をも伝送する。例えば、メタデータ符号器２１０は、差分値が関連する時刻を符号化してもよい。例えば、メタデータ符号器２１０は、圧縮済みメタデータ信号内で既に伝送されているメタデータサンプル０とＮとの間のどのメタデータサンプルに差分値が関係しているのかを示すために、１からＮ−１までの間のある値を符号化してもよい。ポリゴン近似の出力において値 x₁[k],…,x_N-1[k],y₁[k],…,y_N-1[k]を列記していることは、必ずしもこれら全ての値が伝送されるという意味ではなく、差分値に依存して、これらの値ペアの内の何も伝送されないか、１つ、複数、又は全てが伝送されることを意味している。

一実施形態において、メタデータ符号器２１０は、例えばＮ個の連続的な差分値のセグメントを処理してもよく、各セグメントを、可変数の量子化されたポリゴン点[x_i, y_i]によって形成されるポリゴンコース(polygon course)によって近似してもよい。

差分信号を十分な精度で近似するために必要なポリゴン点の個数は、平均的に、Ｎ個よりも有意に小さいことが予想され得る。また、[x_i, y_i]は小さな整数であるため、低いビット数で符号化され得る。

図１１は更なる実施形態に係るメタデータ復号化を示す。実施形態に係るメタデータ復号器１１０は、図１１に示すメタデータ復号化を実行するよう構成されてもよい。

実施形態において、メタデータ復号器１１０は、幾つかの差分値を受信し、これら差分値を７３０において対応する線形補間済みメタデータサンプルに対して加算する。

幾つかの実施形態において、メタデータ復号器１１０は、７３０において、受信された差分値を対応する線形補間済みメタデータサンプルに対してだけ加算し、差分値が受信されていない他の線形補間済みメタデータサンプルは、そのままにする。

他の概念を実現させる実施形態について、以下に説明する。

他の実施形態によれば、メタデータ復号器１１０は、1つ以上の圧縮済みメタデータ信号のある圧縮済みメタデータ信号について、複数の差分値を受信するよう構成されている。差分値の各々は、「受信された差分値」と称することができる。１つの受信された差分値は、再生メタデータ信号の近似済みメタデータサンプルの１つに割り当てられ、その再生メタデータ信号は、受信された差分値が関係する前記圧縮済みメタデータ信号に関連する（前記圧縮済みメタデータ信号から構築された）ものである。

図９に関して前述したように、メタデータ復号器１１０は、複数の受信された差分値の各受信された差分値を、当該受信された差分値に関連する近似済みメタデータサンプルに対して加算するよう構成されている。受信された差分値をその近似済みメタデータサンプルへと加算することで、再生メタデータ信号の第２メタデータサンプルの１つが取得される。

しかしながら、近似済みメタデータサンプルの幾つか（又は、ときには大部分）については、差分値は全く受信されない。

幾つかの実施形態において、複数の受信された差分値のどれもが近似済みメタデータサンプルと関連していない場合には、メタデータ復号器１１０は、例えば近似済み差分値を、前記圧縮済みメタデータ信号と関連する再生メタデータ信号の複数の近似済みメタデータサンプルの各近似済みメタデータサンプルについて複数の受信された差分値の１つ以上に依存して、決定するよう構成されてもよい。

換言すれば、近似済みメタデータサンプルであって、それらに対して差分値が受信されない近似済みメタデータサンプルの全てに対し、ある近似済み差分値が、受信された差分値の１つ以上に依存して生成される。

メタデータ復号器１１０は、複数の近似済み差分値の各近似済み差分値を、当該近似済み差分値の近似済みメタデータサンプルに加算して、再生メタデータ信号の第２メタデータサンプルの他の１つを取得するよう構成されている。

しかし、他の実施形態において、メタデータ復号器１１０は、ステップ７４０において受信された差分値に依存して線形補間を実行することで、差分値が受信されていないメタデータサンプルについての差分値を近似する。

例えば、第１差分値と第２差分値が受信された場合、これらの受信された差分値の間に位置する差分値は、例えば線形補間を用いて近似され得る。

例えば、時点ｎ＝１５における第１差分値が差分値ｄ［１５］＝５を有し、かつ時点ｎ＝１８における第２差分値が差分値ｄ［１８］＝２を有する場合、ｎ＝１６及びｄ＝１７に対する差分値は、線形的にｄ［１６］＝４及びｄ［１７］＝３として近似され得る。

更なる実施形態において、メタデータサンプルが圧縮済みメタデータ信号に含まれている場合、当該メタデータサンプルの差分値は０と想定され、また、受信されていない差分値の線形補間は、差分値がゼロと想定されている当該メタデータサンプルに基づいて、メタデータ復号器によって実行されてもよい。

例えば、ｎ＝１６について単一の差分値ｄ＝８が伝送され、ｎ＝０及びｎ＝３２について１つのメタデータサンプルが圧縮済みメタデータ信号内で伝送された場合、ｎ＝０及びｎ＝３２における伝送されない差分値は０と想定される。

ｎが時刻を示し、d[n]が時点ｎにおける差分値を示すと仮定する。その場合、
d[16] = 8 (受信された差分値)
d[0] = 0 (想定された差分値、メタデータサンプルがz(k)内に存在するため)
d[32] = 0 (想定された差分値、メタデータサンプルがz(k)内に存在するため)

近似済み差分値：
d[1] = 0.5; d[2] = 1; d[3] = 1.5; d[4] = 2; d[5] = 2.5; d[6] = 3; d[7] = 3.5; d[8] = 4; d[9] = 4.5; d[10] = 5; d[11] = 5.5; d[12] = 6; d[13] = 6.5; d[14] = 7; d[15] = 7.5; d[17] = 7.5; d[18] = 7; d[19] = 6.5; d[20] = 6; d[21] = 5.5; d[22] = 5; d[23] = 4.5; d[24] = 4; d[25] = 3.5; d[26] = 3; d[27] = 2.5; d[28] = 2; d[29] = 1.5; d[30] = 1; d[31] = 0.5

実施形態において、受信された差分値及び近似済み差分値が、対応する線形補間済みサンプルに対して（７３０において）加算される。

以下に、好ましい実施形態を説明する。

（オブジェクト）メタデータ符号器は、例えば、所与のサイズＮを有するルックアヘッド・バッファを使用して、規則的に（サブ）サンプリングされた軌跡値のシーケンスを合同的に符号化してもよい。このバッファが満たされるとすぐに、全体のデータブロックが符号化されかつ伝送される。符号化されたオブジェクトデータは、２つの部分、即ち、イントラ符号化されたオブジェクトデータと、任意ではあるが各セグメントの細密構造を含む差分データ部分と、から構成されてもよい。

イントラ符号化されたオブジェクトデータは、規則的な格子上で（例えば長さ１０２４の３２フレーム毎に）サンプリングされた量子化済み値z(k)を含む。各オブジェクトに対して値が個別に特定されているか、又はそれに続く値が全てのオブジェクトに対して共通であるかを示すために、ブーリアン変数(Boolean variables)が使用されてもよい。

復号器は、線形補間により、イントラ符号化されたオブジェクトデータから粗い軌跡を導出するよう構成されてもよい。軌跡の精密な構造は、入力された軌跡と線形補間との間の符号化された差分を含む差分データ部分によって与えられる。方位角、仰角、半径及びゲイン値についての様々な量子化ステップと組み合わされたポリゴン表現により、所望の不適切低減（irrelevance reduction）を達成できる。

ポリゴン表現は、Ramer-Douglas-Peuckerアルゴリズム（非特許文献１０、１１を参照）の変異形から取得し得る。その手法は、帰納法を使用せず、かつ追加的な中断基準(abort criterium)、即ち全てのオブジェクト及び全てのオブジェクト構成要素についての最大数のポリゴン点を有することで、オリジナルの手法とは異なる。

結果として得られるポリゴン点は、ビットストリーム内で特定される可変語長を使用して差分データ部分の中に符号化されてもよい。追加的なブーリアン変数は、同一値の共通の符号化を示す。

以下に、実施形態に係るオブジェクト・メタデータ・フレーム及び実施形態に係るシンボル表現について説明する。

効率性から見た理由により、規則的に（サブ）サンプリングされた軌跡値のシーケンスは、合同的に符号化される。符号器は所与のサイズのルックアヘッド・バッファを使用し、このバッファが満たされるとすぐに全体のデータブロックが符号化され、伝送される。この符号化されたオブジェクトデータ（例えば、オブジェクト・メタデータについてのペイロード）は、例えば２つの部分、即ちイントラ符号化されたオブジェクトデータ（第１部分）と、任意ではあるが差分データ部分（第２部分）と、を含み得る。

例えば、以下のシンタックスの一部又は全部が使用されてもよい。

以下に、一実施形態に係るイントラ符号化されたオブジェクトデータを示す。

符号化済みオブジェクト・メタデータのランダムアクセスをサポートするために、全てのオブジェクト・メタデータの完全かつ自己充足的な仕様（specification)が規則的に伝送される必要がある。これは、規則的な格子上で（例えば長さ１０２４の３２フレーム毎に）サンプリングされた量子化済み値を含む、イントラ符号化されたオブジェクトデータ（「Ｉフレーム」）を介して実現される。これらＩフレームは、例えば以下のようなシンタックスを有し、その中で、position_azimuth，position_elevation，position_radius及びgain_factorは、現在のIフレームの後のiframe_periodフレーム内の量子化された値を特定する。

以下に、一実施形態に係る差分オブジェクトデータについて説明する。

少数のサンプリング点に基づくポリゴンコースを伝送することにより、さらに高精度な近似が達成される。従って、非常に粗い３次元行列が伝送されてもよく、そこでは、第１の次元がオブジェクトインデックスでもよく、第２の次元がメタデータ構成要素（方位角、仰角、半径及びゲイン）により形成されてもよく、第３の次元がポリゴンサンプリング点のフレームインデックスであってもよい。更なる尺度なしに、行列のどの成分が値を含むかの指示は、既にnum_objects*num_components*(iframe_period-1)ビットを要求する。このビットの量を低減させる第１ステップは、４個の構成要素の内の１つに属する少なくとも１つの値があるか否かを示す、４つのフラグを加えることであってもよい。例えば、差分的な半径又はゲイン値が存在するような場合はごく稀であることが予想できる。低減された３次元行列の第３の次元は、iframe_period-1個の要素を有するベクトルを含む。ポリゴン点がごく少数であると予想される場合、このベクトルを１セットのフレームインデックスとこのセットのカーディナリティとによりパラメータ化することが更に効率的となり得る。例えば、Ｎperiod＝３２フレームのiframe_periodで最大１６個のポリゴン点については、この方法はＮpoints＜（３２−log２（１６））／log２（３２）＝５．６のポリゴン点に関して好都合であり得る。実施形態に従えば、そのような符号化スキームのために以下のシンタックスが使用される。

マクロoffset_data()は、単純なビットフィールドとして、又は上述の概念を使用して、ポリゴン点の位置（フレームオフセット）を符号化している。num_bits値は大きな位置的ジャンプの符号化を可能にし、他方、差分データの残りはより小さなワードサイズで符号化される。

特に、一実施形態において、上述のマクロは例えば以下の意味を有してもよい。

一実施形態に係るobject_metadata() payloads の定義：
has_differential_metadata 差分オブジェクト・メタデータが存在するか否かを示す

一実施形態に係るintracoded_object_metadata() payloadsの定義：
ifperiod 独立フレーム同士の間のフレームの個数を定義する
common_azimuth 全てのオブジェクトについて共通の方位角が使用されるか否かを示す
default_azimuth 共通の方位角の値を定義する
position_azimuth 共通の方位角値がない場合、各オブジェクトのための値が伝送される
common_elevation 全てのオブジェクトについて共通の仰角が使用されるか否かを示す
default_elevation 共通の仰角の値を定義する
position_elevation 共通の仰角値がない場合、各オブジェクトのための値が伝送される
common_radius 全てのオブジェクトについて共通の半径値が使用されるか否かを示す
default_radius 共通の半径の値を定義する
position_radius 共通の半径値がない場合、各オブジェクトのための値が伝送される
common_gain 全てのオブジェクトについて共通のゲイン値が使用されるか否かを示す
default_gain 共通のゲインファクタの値を定義する
gain_factor 共通のゲイン値がない場合、各オブジェクトのための値が伝送される
position_azimuth 単一のオブジェクトだけがある場合、その方位角
position_elevation 単一のオブジェクトだけがある場合、その仰角
position_radius 単一のオブジェクトだけがある場合、その半径
gain_factor 単一のオブジェクトだけがある場合、そのゲインファクタ

一実施形態に係るdifferential_object_metadata() payloadsの定義：
bits_per_point ポリゴン点の個数を表現するために必要なビット数
fixed_azimuth 全てのオブジェクトについて方位角値が固定か否かを示すフラグ
flag_azimuth 方位角値が変化するか否かを示すオブジェクト毎のフラグ
nbits_azimuth 差分値を表現するために必要なビット数
differential_azimuth 線形補間された値と実際値との間の差分値
fixed_elevation 全てのオブジェクトについて仰角値が固定か否かを示すフラグ
flag_elevation 仰角値が変化するか否かを示すオブジェクト毎のフラグ
nbits_elevation 差分値を表現するために必要なビット数
differential_elevation 線形補間された値と実際値との間の差分値
fixed_radius 全てのオブジェクトについて半径が固定か否かを示すフラグ
flag_radius 半径が変化するか否かを示すオブジェクト毎のフラグ
nbits_radius 差分値を表現するために必要なビット数
differential_radius 線形補間された値と実際値との間の差分値
fixed_gain 全てのオブジェクトについてゲインが固定か否かを示すフラグ
flag_gain ゲインが変化するか否かを示すオブジェクト毎のフラグ
nbits_gain 差分値を表現するために必要なビット数
differential_gain 線形補間された値と実際値との間の差分値

一実施形態に係る、offset_data() payloadsの定義：
bitfield_syntax ポリゴンインデックスを有するベクトルがビットストリーム内に存在するか否かを示すフラグ
offset_bitfield iframe_period の各点について、その点がポリゴン点であるか否かのフラグを含むブール配列
npoints ポリゴン点の数−１ (num_points = npoints + 1)
foffset iframe_period 内のポリゴン点の時間スライスインデックス
(frame_offset = foffset+1)

一実施形態によれば、メタデータは、例えば、全てのオーディオオブジェクトについての所与の位置（例えば方位角、仰角及び半径によって示された）として所定の時間スタンプで搬送されてもよい。

先行技術においては、低ビットレートで許容可能なオーディオ品質が得られるように、チャネル符号化と一方としオブジェクト符号化を他方として結合するような、柔軟性のある技術は存在しない。

この制約は３Ｄオーディオコーデックシステムにより克服できる。以下に、３Ｄオーディオコーデックシステムについて説明する。

図１２は、本発明の一実施形態に係る３Ｄオーディオ符号器を示す。この３Ｄオーディオ符号器は、オーディオ入力データ１０１を符号化してオーディオ出力データ５０１を取得するよう構成されている。３Ｄオーディオ符号器は、ＣＨで示された複数のオーディオチャネルとＯＢＪで示された複数のオーディオオブジェクトとを受信する入力インターフェイスを備える。更に、図１２に示すように、入力インターフェイス１１００は、複数のオーディオオブジェクトＯＢＪの１つ以上に関連するメタデータを追加的に受信する。更に、３Ｄオーディオ符号器は、複数のオブジェクトと複数のチャネルとをミキシングして複数のプレミクス済みチャネルを取得するミキサー２００を備え、各プレミクス済みチャネルは１つのチャネルのオーディオデータと少なくとも１つのオブジェクトのオーディオデータとを含む。

更に、３Ｄオーディオ符号器は、コア符号器入力データをコア符号化するコア符号器３００と、複数のオーディオオブジェクトの１つ以上に関連するメタデータを圧縮するメタデータ圧縮部４００とを備える。

更に、３Ｄオーディオ符号器は、ミキサーとコア符号器及び／又は出力インターフェイス５００を複数の動作モードの１つで制御する、モード制御部６００を備え、第１モードでは、コア符号器は、入力インターフェイス１１００により受信された複数のオーディオチャネル及び複数のオーディオオブジェクトを、ミキサーによる相互作用なしに、即ちミキサー２００によるミキシングなしに、符号化するよう構成されている。しかし、ミキサー２００が活性化していた第２モードでは、コア符号器は、複数のミクス済みチャネル、即ちブロック２００により生成された出力を符号化する。後者の場合、それ以上のオブジェクトデータを符号化しないことが好ましい。代わりに、オーディオオブジェクトの位置を示すメタデータは、メタデータによって示された通りにオブジェクトをチャネル上へとレンダリングするために、ミキサー２００によって既に使用されている。換言すれば、ミキサー２００は複数のオーディオオブジェクトに関連するメタデータを、オーディオオブジェクトをプレレンダリングするために使用し、次に、プレレンダリングされたオーディオオブジェクトはチャネルとミキシングされて、ミキサーの出力においてミクス済みチャネルが得られる。この実施形態では、如何なるオブジェクトも必ずしも伝送される必要がなく、このことは、ブロック４００により出力される圧縮済みメタデータにも当てはまる。しかし、インターフェイス１１００に入力された全てのオブジェクトがミキシングされる訳でなく、所定量のオブジェクトだけがミキシングされる場合には、ミキシングされていない残りのオブジェクト及び関連するメタデータだけが、コア符号化３００又はメタデータ圧縮部４００へとそれぞれ伝送される。

図１２において、メタデータデータ圧縮部４００は、上述した実施形態の１つに従う、符号化済みオーディオ情報を生成する装置２５０のメタデータ符号器２１０である。更に、図１２において、ミキサー２００及びコア符号器３００は一緒に、上述した実施形態の１つに従う符号化済みオーディオ情報を生成する装置２５０のオーディオ符号器２２０を形成する。

図１４は、ＳＡＯＣ符号器８００を追加的に含む、３Ｄオーディオ符号器の更なる実施形態を示す。ＳＡＯＣ符号器８００は、空間オーディオオブジェクト符号器入力データから、１つ以上の転送チャネル及びパラメトリックデータを生成するよう構成されている。図１４に示すように、空間オーディオオブジェクト符号器入力データは、プレレンダラー／ミキサーによって処理されなかったオブジェクトである。代替的に、個別のチャネル／オブジェクト符号化が活性化しているモード１におけるように、プレレンダラー／ミキサーが迂回されていたと仮定すると、入力インターフェイス１１００に入力された全てのオブジェクトはＳＡＯＣ符号器８００により符号化される。

更に、図１４に示すように、コア符号器３００は好ましくは、ＵＳＡＣ符号器、即ち、ＭＰＥＧ−ＵＳＡＣ標準（ＵＳＡＣ＝統合されたスピーチ及びオーディオ符号化）の中で定義されかつ標準化されているような符号器として構成される。図１４に示す全体的な３Ｄオーディオ符号器の出力は、ＭＰＥＧ４データストリームであり、個別のデータタイプのためのコンテナ状構造を有している。更に、メタデータは「ＯＡＭ」データとして示され、図１２におけるメタデータ圧縮部４００は、圧縮済みＯＡＭデータを取得するＯＡＭ符号器４００に対応し、その圧縮済みＯＡＭデータはＵＳＡＣ符号器３００へ入力され、ＵＳＡＣ符号器３００は、図１４に示すように、ＭＰ４出力データストリームを取得するための出力インターフェイスを追加的に含み、そのＭＰ４出力データストリームは符号化済みチャネル／オブジェクトデータだけでなく圧縮済みＯＡＭデータをも有する。

図１４において、ＯＡＭ符号器４００は、上述した実施形態の１つに従う、符号化済みオーディオ情報を生成する装置２５０のメタデータ符号器２１０である。更に、図１４では、ＳＡＯＣ符号器８００とＵＳＡＣ符号器３００とは一緒に、上述した実施形態の１つに従う、符号化済みオーディオ情報を生成する装置２５０のオーディオ符号器２２０を形成する。

図１６は、３Ｄオーディオ符号器の更なる実施形態を示し、ここでは、図１４とは対照的に、ＳＡＯＣ符号器はＳＡＯＣ符号化アルゴリズムを用いて、このモードにおいて活性化していないプレレンダラー／ミキサー２００により提供されたチャネルを符号化するか、又は代替的に、プレレンダリング済みチャネル＋オブジェクトをＳＡＯＣ符号化するか、の何れかを実行するよう構成されている。従って、図１６においては、ＳＡＯＣ符号器８００は３種類の異なる入力データ、即ち、プレレンダリング済みオブジェクトを持たないチャネル、チャネル及びプレレンダリング済みオブジェクト、又はオブジェクトのみ、に対して作動できる。更に、追加的なＯＡＭ復号器４２０を図１６に設け、ＳＡＯＣ符号器８００がその処理のために復号器側と同じデータを使用できるように、即ち、オリジナルＯＡＭデータよりも寧ろ損失の多い圧縮により得られたデータを使用できるようにすることが好ましい。

図１６の３Ｄオーディオ符号器は、複数の個別のモードにおいて作動できる。

図１２の文脈の中で説明した第１モード及び第２モードに加え、図１６の３Ｄオーディオ符号器は追加的に第３モードでも作動でき、そのモードでは、プレレンダラー／ミキサー２００が活性化していなかった場合、コア符号器が個別のオブジェクトから１つ以上の転送チャネルを生成する。代替的又は追加的に、この第３モードにおいて、図１２のミキサー２００に対応するプレレンダラー／ミキサー２００が活性化していなかった場合、ＳＡＯＣ符号器８００は、オリジナルチャネルから１つ以上の代替的又は追加的な転送チャネルを生成することができる。

最後に、３Ｄオーディオ符号器が第４モードで構成されている場合、ＳＡＯＣ符号器８００は、プレレンダラー／ミキサーによって生成されたチャネル＋プレレンダリング済みオブジェクトを符号化することができる。そのため、第４モードにおいては、最低ビットレートのアプリケーションが次のような事実により良好な品質を提供できる。なぜなら、チャネルとオブジェクトとが、個別のＳＡＯＣ転送チャネル及び図３と図５の中で「ＳＡＯＣ−ＳＩ」として示すような関連するサイド情報へと完全に変換されており、加えて、この第４モードでは如何なる圧縮済みメタデータも伝送される必要がないからである。

図１６において、ＯＡＭ符号器４００は、上述した実施形態の１つに従う符号化済みオーディオ情報を生成する装置２５０のメタデータ符号器２１０である。更に、図１６において、ＳＡＯＣ符号器８００とＵＳＡＣ符号器３００とは一緒に、上述した実施形態の１つに従う符号化済みオーディオ情報を生成する装置２５０のオーディオ符号器２２０を形成する。

一実施形態によれば、オーディオ入力データ１０１を符号化してオーディオ出力データ５０１を取得する装置が提供される。そのオーディオ入力データ１０１を符号化する装置は、
−複数のオーディオチャネルと、複数のオーディオオブジェクトと、複数のオーディオオブジェクトの１つ以上に関連するメタデータと、を受信する入力インターフェイス１１００と、
−複数のオブジェクトと複数のチャネルとをミキシングして、複数のプレミクス済みチャネルを取得するミキサー２００であって、各プレミクス済みチャネルが１つのチャネルのオーディオデータと少なくとも１つのオブジェクトのオーディオデータとを含む、ミキサー２００と、
−上述したようなメタデータ符号器とオーディオ符号器とを含む、符号化済みオーディオ情報を生成する装置２５０と、
を備える。

符号化済みオーディオ情報を生成する装置２５０のオーディオ符号器２２０は、コア符号器入力データを符号化するコア符号器（３００）である。

符号化済みオーディオ情報を生成する装置２５０のメタデータ符号器２１０は、複数のオーディオオブジェクトの１つ以上に関連するメタデータを圧縮するメタデータ圧縮部４００である。

図１３は本発明の一実施形態に係る３Ｄオーディオ復号器を示す。その３Ｄオーディオ復号器は、入力として符号化済みオーディオデータ、即ち図１２のデータ５０１を受信する。

３Ｄオーディオ復号器は、メタデータ解凍部１４００と、コア復号器１３００と、オブジェクト処理部１２００と、モード制御部１６００と、後処理部１７００とを備える。

具体的には、その３Ｄオーディオ復号器は符号化済みオーディオデータを復号化するよう構成されており、入力インターフェイスは符号化済みオーディオデータを受信するよう構成されており、符号化済みオーディオデータは、あるモードにおいて、複数の符号化済みチャネルと、複数の符号化済みオブジェクトと、複数のオブジェクトに関連する圧縮済みメタデータとを含む。

更に、コア復号器１３００は複数の符号化済みチャネルと複数の符号化済みオブジェクトとを復号化するよう構成されており、追加的に、メタデータ解凍部は圧縮済みメタデータを解凍するよう構成されている。

更に、オブジェクト処理部１２００は、コア復号器１３００により生成された複数の復号化済みオブジェクトを解凍済みメタデータを使用して処理し、オブジェクトデータと復号化済みチャネルとを含む所定数の出力チャネルを得るよう構成されている。符号１２０５で示されたこれら出力チャネルは、次に後処理部１７００へと入力される。後処理部１７００は、出力チャネル１２０５の数を、バイノーラル出力フォーマット又は５．１や７．１などの出力フォーマットのようなラウドスピーカ出力フォーマットであり得る、ある出力フォーマットへと変換するよう構成されている。

好ましくは、３Ｄオーディオ復号器は、符号化済みデータを分析してモード指示を検出するよう構成された、モード制御部１６００を備える。従って、そのモード制御部１６００が図１３の入力インターフェイス１１００に接続されている。しかし、代替的に、モード制御部が必ずしも存在する必要はない。代わりに、柔軟性のあるオーディオ復号器は、ユーザー入力や任意の他の制御のような、他の如何なる種類の制御データによってもプリセットされ得る。好ましくはモード制御部１６００により制御される図１３の３Ｄオーディオ復号器は、その一方では、オブジェクト処理部を迂回して複数の復号化済みチャネルを後処理部１７００へと供給するよう構成される。これは、図１２の３Ｄオーディオ符号器においてモード２が適用されていた場合のモード２における作動であり、即ちプレレンダリング済みチャネルだけが受信される場合である。代替的に、３Ｄオーディオ符号器においてモード１が適用されていた場合、即ち、３Ｄオーディオ符号器が個別のチャネル／オブジェクト符号化を実行していた場合、オブジェクト処理部１２００は迂回されず、複数の復号化済みチャネルと複数の復号化済みオブジェクトとが、メタデータ解凍部１４００によって生成された解凍済みメタデータと一緒にオブジェクト処理部１２００へと供給される。

好ましくは、モード１又はモード２が適用されるべきかどうかの指示は符号化済みオーディオデータの中に含まれており、よって、モード制御部１６００がモード指示を検出するために符号化済みデータを分析する。符号化済みオーディオデータは符号化済みチャネルと符号化済みオブジェクトとを含むとモード指示が示す場合には、モード１が使用され、他方、符号化済みオーディオデータはオーディオオブジェクトを何も含まない、即ち、図１２の３Ｄオーディオ符号器のモード２によって得られたプレレンダリング済みチャネルだけを含むとモード指示が示す場合には、モード２が適用される。

図１３において、メタデータ解凍部１４００は、上述の実施形態の１つに従い１つ以上のオーディオチャネルを生成する装置１００のメタデータ復号器１１０である。更に図１３において、コア復号器１３００とオブジェクト処理部１２００と後処理部１７００とは一緒に、上述の実施形態の１つに従い１つ以上のオーディオチャネルを生成する装置１００のオーディオ復号器１２０を形成する。

図１５は、図１３の３Ｄオーディオ復号器と比較した好適な実施形態を示し、図１５の実施形態は図１４のオーディオ符号器に対応する。図１３の３Ｄオーディオ復号器の構成に加えて、図１５の３Ｄオーディオ復号器はＳＡＯＣ復号器１８００を含む。更に、図１３のオブジェクト処理部１２００は、別個のオブジェクトレンダラー１２１０とミキサー１２２０として構成されているが、モードに依存して、オブジェクトレンダラー１２１０の機能はＳＡＯＣ復号器１８００によっても実行され得る。

更に、後処理部１７００は、バイノーラルレンダラー１７１０又はフォーマット変換部１７２０として構成され得る。代替的に、図１３のデータ１２０５の直接的な出力もまた、１７３０で示されるように構成され得る。従って、より小さなフォーマットが要求される場合には、柔軟性を持ち、かつ次に後処理するために、復号器内の処理は２２．２や３２などの最大数のチャネルに対して実行することが好ましい。しかしながら、５．１フォーマットのような小さなフォーマットだけが要求されることが正に最初から明白になる場合には、図１３又は図６におけるショートカット１７２７で示すように、不要なアップミクス操作及び後続のダウンミクス操作を防止するための、ＳＡＯＣ復号器及び／又はＵＳＡＣ復号器に対するある制御を適用し得ることが望ましい。

本発明の好適な実施形態において、オブジェクト処理部１２００はＳＡＯＣ復号器１８００を含み、そのＳＡＯＣ復号器は、コア復号器により出力される１つ以上の転送チャネル及び関連するパラメトリックデータを復号化し、かつ解凍済みメタデータを使用して、複数のレンダリング済みオーディオオブジェクトを取得するよう構成されている。この目的で、ＯＡＭ出力がボックス１８００に接続されている。

更に、オブジェクト処理部１２００は、コア復号器により出力された復号化済みオブジェクトをレンダリングするよう構成されており、そのオブジェクトはＳＡＯＣ転送チャネルの中で符号化されたものではなく、オブジェクトレンダラー１２１０により示されるように、典型的には単一チャネル化された構成要素の中で個別に符号化されたものである。更に、復号器は、ミキサーの出力をラウドスピーカへと出力するための、出力１７３０に対応する出力インターフェイスを備える。

更なる実施形態において、オブジェクト処理部１２００は、符号化済みオーディオ信号又は符号化済みオーディオチャネルを表現している１つ以上の転送チャネル及び関連するパラメトリックサイド情報を復号化するための、空間オーディオオブジェクト・符号化復号器１８００を含む。その空間オーディオオブジェクト・符号化復号器は、関連するパラメトリック情報及び解凍済みメタデータを、出力フォーマットを直接的にレンダリングするために使用可能な、例えばＳＡＯＣの初期バージョンで定義されているような、符号変換済みパラメトリックサイド情報へと符号変換するよう構成されている。後処理部１７００は、復号化済み転送チャネルと符号変換済みパラメトリックサイド情報とを使用して、出力フォーマットのオーディオチャネルを計算するよう構成されている。後処理部により実行される処理は、ＭＰＥＧサラウンド処理と類似していてもよく、又はＢＣＣ処理などのような他の如何なる処理であってもよい。

更なる一実施形態において、オブジェクト処理部１２００は、（コア復号器による）復号化済み転送チャネルとパラメトリックサイド情報とを使用して、出力フォーマットのためのチャネル信号を直接的にアップミクス及びレンダリングするよう構成された、空間オーディオオブジェクト符号化・復号器１８００を含む。

更に、及び重要なことに、図１３のオブジェクト処理部１２００は、チャネルとミキシングされたプレレンダリング済みオブジェクトが存在する場合、即ち図１２のミキサー２００が活性化していた場合、入力としてＵＳＡＣ復号器１３００により出力されたデータを直接的に受信する、ミキサー１２２０をさらに備える。加えて、ミキサー１２２０は、ＳＡＯＣ復号化を用いずにオブジェクトレンダリングを実行しているオブジェクトレンダラーからのデータを受信する。更にミキサーは、ＳＡＯＣ復号器出力データ、即ちＳＡＯＣレンダリング済みオブジェクトを受信する。

ミキサー１２２０は、出力インターフェイス１７３０とバイノーラルレンダラー１７１０とフォーマット変換部１７２０とに接続されている。バイノーラルレンダラー１７１０は、頭部関連伝達関数又はバイノーラル室内インパルス応答（ＢＲＩＲ）を使用して、出力チャネルを２つのバイノーラルチャネルへとレンダリングするよう構成されている。フォーマット変換部１７２０は、出力チャネルを、ミキサーの出力チャネル１２０５よりも少数のチャネルを有する出力フォーマットへと変換するよう構成されており、そのフォーマット変換部１７２０は、５．１スピーカなどのような再生レイアウトについての情報を要求する。

図１５において、ＯＡＭ復号器１４００は、上述した実施形態の１つに従って１つ以上のオーディオチャネルを生成する装置１００のメタデータ復号器１１０である。更に、図１５において、オブジェクトレンダラー１２１０とＵＳＡＣ復号器１３００とミキサー１２２０とは一緒に、上述した実施形態の１つに従って１つ以上のオーディオチャネルを生成する装置１００のオーディオ復号器１２０を形成する。

図１７の３Ｄオーディオ復号器は、図１５の３Ｄオーディオ復号器とは以下の点で異なる。即ち、ＳＡＯＣ復号器は、レンダリング済みオブジェクトだけでなくレンダリング済みチャネルをも生成しており、このことは、図１６の３Ｄオーディオ符号器が使用され、チャネル／プレレンダリング済みオブジェクトとＳＡＯＣ符号器８００の入力インターフェイスとの間の接続９００が活性化している場合であるという点である。

更に、ベクトル方式振幅パニング（ＶＢＡＰ）ステージ１８１０は、ＳＡＯＣ復号器から再生レイアウトについての情報を受信し、かつＳＡＯＣ復号器に対してレンダリング行列を出力するよう構成され、その結果、ＳＡＯＣ復号器が、ミキサーの更なる動作を必要とせずに、レンダリング済みチャネルを高いチャネルフォーマット１２０５で、即ち３２個のラウドスピーカに提供できるようになる。

ＶＢＡＰブロックは、好適には復号化済みＯＡＭデータを受信してレンダリング行列を導出する。より一般的には、ＶＢＡＰブロックは、再生レイアウトの幾何学的情報だけでなく、その再生レイアウト上で入力信号がレンダリングされるべき位置の幾何学的情報をも要求することが好ましい。この幾何学的入力データは、オブジェクトについてのＯＡＭデータであってもよく、又は、ＳＡＯＣを用いて伝送されたチャネルについてのチャネル位置情報であってもよい。

しかしながら、ある特異な出力インターフェイスだけが要求される場合、ＶＢＡＰステージ１８１０は、例えば５．１出力について要求されたレンダリング行列を既に供給することができる。その場合、ＳＡＯＣ復号器１８００は、ＳＡＯＣ転送チャネルと関連するパラメトリックデータと解凍済みメタデータとから、直接的レンダリング、即ちミキサー１２２０の相互作用を何も受けずに、要求された出力フォーマットへの直接的なレンダリングを実行する。しかしながら、モード間のあるミキシングが適用される場合、即ち、複数のチャネルがＳＡＯＣ符号化されているが、全てのチャネルがＳＡＯＣ符号化されてはいない場合、複数のオブジェクトがＳＡＯＣ符号化されているが、全てのオブジェクトがＳＡＯＣ符号化されてはいない場合、又は、プレレンダリング済みオブジェクトとチャネルとのある量だけがＳＡＯＣ復号化され、残りのチャネルがＳＡＯＣ処理されない場合には、ミキサーは、個別の入力部分からのデータ、即ちコア復号器１３００とオブジェクトレンダラー１２１０とＳＡＯＣ復号器１８００とからの直接的なデータを、結合するであろう。

図１７において、ＯＡＭ復号器１４００は、上述した実施形態の１つに従って１つ以上のオーディオチャネルを生成する装置１００のメタデータ復号器１１０である。更に、図１７において、オブジェクトレンダラー１２１０とＵＳＡＣ復号器１３００とミキサー１２２０とは一緒に、上述した実施形態の１つに従って１つ以上のオーディオチャネルを生成する装置１００のオーディオ復号器１２０を形成する。

符号化済みオーディオデータを復号化する装置が提供される。その符号化済みオーディオデータを復号化する装置は、
−符号化済みオーディオデータを受信する入力インターフェイス１１００であって、符号化済みオーディオデータは、複数の符号化済みチャネル、複数の符号化済みオブジェクト、又は複数のオブジェクトに関連する圧縮済みメタデータを含む、インターフェイス１１００と、
−メタデータ復号器１１０と、上述したように１つ以上のオーディオチャネルを生成するオーディオチャネル生成部１２０とを含む、装置１００と、
を備える。

１つ以上のオーディオチャネルを生成する装置１００のメタデータ復号器１１０は、圧縮済みメタデータを解凍するメタデータ解凍部４００である。

１つ以上のオーディオチャネルを生成する装置１００のオーディオチャネル生成部１２０は、複数の符号化済みチャネルと複数の符号化済みオブジェクトとを復号化する、コア復号器１３００を備える。

更に、オーディオチャネル生成部１２０は、複数の復号化済みオブジェクトを解凍済みメタデータを使用して処理し、オブジェクト及び復号化済みチャネルからオーディオデータを含む幾つかの出力チャネル１２０５を取得する、オブジェクト処理部１２００を更に備える。

更に、オーディオチャネル生成部１２０は、幾つかの出力チャネル１２０５を出力フォーマットへと変換する後処理部１７００を更に備える。

これまで装置の文脈で幾つかの態様を示してきたが、これらの態様は対応する方法の説明をも表しており、１つのブロック又は装置が１つの方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップを説明する文脈で示した態様もまた、対応する装置の対応するブロックもしくは項目又は特徴を表している。

本発明の分解された信号は、デジタル記憶媒体に記憶されることができ、又は、インターネットのような無線伝送媒体もしくは有線伝送媒体などの伝送媒体を介して伝送されることもできる。

所定の構成要件にもよるが、本発明の実施形態は、ハードウエア又はソフトウエアにおいて構成可能である。この構成は、その中に格納される電子的に読み取り可能な制御信号を有し、本発明の各方法が実行されるようにプログラム可能なコンピュータシステムと協働する（又は協働可能な）、デジタル記憶媒体、例えばフレキシブルディスク，ＤＶＤ，ＣＤ，ＲＯＭ，ＰＲＯＭ，ＥＰＲＯＭ，ＥＥＰＲＯＭ，フラッシュメモリなどのデジタル記憶媒体を使用して実行することができる。

本発明に従う幾つかの実施形態は、上述した方法の１つを実行するようプログラム可能なコンピュータシステムと協働可能で、電子的に読み取り可能な制御信号を有する非一時的なデータキャリアを含む。

一般的に、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品として構成することができ、そのプログラムコードは当該コンピュータプログラム製品がコンピュータ上で作動するときに、本発明の方法の一つを実行するよう作動可能である。そのプログラムコードは例えば機械読み取り可能なキャリアに記憶されていても良い。

本発明の他の実施形態は、上述した方法の１つを実行するための、機械読み取り可能なキャリアに格納されたコンピュータプログラムを含む。

換言すれば、本発明の方法のある実施形態は、そのコンピュータプログラムがコンピュータ上で作動するときに、上述した方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

本発明の他の実施形態は、上述した方法の１つを実行するために記録されたコンピュータプログラムを含む、データキャリア（又はデジタル記憶媒体、又はコンピュータ読み取り可能な媒体）である。

本発明の他の実施形態は、上述した方法の１つを実行するためのコンピュータプログラムを表現するデータストリーム又は信号列である。そのデータストリーム又は信号列は、例えばインターネットのようなデータ通信接続を介して伝送されるよう構成されても良い。

他の実施形態は、上述した方法の１つを実行するように構成又は適応された、例えばコンピュータ又はプログラム可能な論理デバイスのような処理手段を含む。

他の実施形態は、上述した方法の１つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。

幾つかの実施形態においては、（例えば書換え可能ゲートアレイのような）プログラム可能な論理デバイスが、上述した方法の幾つか又は全ての機能を実行するために使用されても良い。幾つかの実施形態では、書換え可能ゲートアレイは、上述した方法の１つを実行するためにマイクロプロセッサと協働しても良い。一般的に、そのような方法は、好適には任意のハードウエア装置によって実行される。

上述した実施形態は、本発明の原理を単に例示的に示したに過ぎない。本明細書に記載した構成及び詳細について修正及び変更が可能であることは、当業者にとって明らかである。従って、本発明は、本明細書に実施形態の説明及び解説の目的で提示した具体的詳細によって限定されるものではなく、添付した特許請求の範囲によってのみ限定されるべきである。

図７において、線形補間（７２２を参照）と組み合わせたアップサンプリング処理（７２１を参照）は、オリジナル信号の粗い近似をもたらす。そのアップサンプリング処理（７２１を参照）及び線形補間（７２２を参照）は、例えば単一ステップにおいて実行されてもよい。

そのような実施形態によれば、アップサンプリング処理と線形補間との組合せも、符号器側でのメタデータ符号化の一部として実行される（図８の６２１及び６２２を参照）。ここでも、アップサンプリング処理（６２１参照）と線形補間（６２２参照）とは、例えば単一ステップにおいて実行されてもよい。

図８に係る実施形態において、近似済みメタデータサンプルは、例えば圧縮済みメタデータ信号z(k)に対してアップサンプリングを実行すること、及び線形補間を実行することにより、（例えば信号s''のサンプルs''(n)として）決定されてもよい。アップサンプリング及び線形補間は、例えば符号器側のメタデータ符号化の一部として（図８の６２１と６２２を参照）実行されてもよく、例えば符号７２１と７２２を参照しながらメタデータ復号化について説明したものと同様である。
［数５］

［数６］

しかし、他の実施形態によれば、ある近似済みメタデータサンプルについて差分値が受信されていない場合、当該近似済みメタデータサンプルのために、ある近似済み差分値が１つ以上の受信された差分値に依存して生成され、当該近似済み差分値が後段で示すように当該近似済みメタデータサンプルに加算される。

上述した実施形態の幾つかと同様に、図１０において、差分値は、例えば圧縮済みメタデータ信号に含まれないオリジナル・メタデータ信号の各メタデータサンプルについて決定される。例えば、時刻ｎ＝０及びｎ＝Ｎにおけるメタデータサンプルが圧縮済みメタデータ信号に含まれ、時刻ｎ＝１からｎ＝Ｎ−１までのメタデータサンプルが圧縮済みメタデータ信号に含まれていない場合、差分値は時刻ｎ＝１からｎ＝Ｎ−１までに関して決定される。

最後に、３Ｄオーディオ符号器が第４モードで構成されている場合、ＳＡＯＣ符号器８００は、プレレンダラー／ミキサーによって生成されたチャネル＋プレレンダリング済みオブジェクトを符号化することができる。そのため、第４モードにおいては、最低ビットレートのアプリケーションが次のような事実により良好な品質を提供できる。なぜなら、チャネルとオブジェクトとが、個別のＳＡＯＣ転送チャネル及び図１４と図１６の中で「ＳＡＯＣ−ＳＩ」として示すような関連するサイド情報へと完全に変換されており、加えて、この第４モードでは如何なる圧縮済みメタデータも伝送される必要がないからである。

更に、後処理部１７００は、バイノーラルレンダラー１７１０又はフォーマット変換部１７２０として構成され得る。代替的に、図１３のデータ１２０５の直接的な出力もまた、１７３０で示されるように構成され得る。従って、より小さなフォーマットが要求される場合には、柔軟性を持ち、かつ次に後処理するために、復号器内の処理は２２．２や３２などの最大数のチャネルに対して実行することが好ましい。しかしながら、５．１フォーマットのような小さなフォーマットだけが要求されることが正に最初から明白になる場合には、図１７におけるショートカット１７２７で示すように、不要なアップミクス操作及び後続のダウンミクス操作を防止するための、ＳＡＯＣ復号器及び／又はＵＳＡＣ復号器に対するある制御を適用し得ることが望ましい。

Claims

１つ以上のオーディオチャネルを生成する装置（１００）であって、
１つ以上の圧縮済みメタデータ信号を受信するメタデータ復号器（１１０）であって、前記１つ以上の圧縮済みメタデータ信号の各々は複数の第１メタデータサンプルを含み、前記１つ以上の圧縮済みメタデータ信号の各々の前記第１メタデータサンプルは、１つ以上のオーディオオブジェクト信号の１つのオーディオオブジェクト信号に関連する情報を示しており、前記メタデータ復号器（１１０）は１つ以上の再生メタデータ信号を生成するよう構成されており、前記１つ以上の再生メタデータ信号の各々が前記１つ以上の圧縮済みメタデータ信号の１つにおける前記第１メタデータサンプルを含み、さらに複数の第２メタデータサンプルを含み、前記再生メタデータ信号の第１メタデータサンプルの少なくとも２つに依存して、前記１つ以上の再生メタデータ信号の各再生メタデータ信号の第２メタデータサンプルの各々を生成するよう構成されている、メタデータ復号器（１１０）と、
前記１つ以上のオーディオオブジェクト信号に依存しかつ前記１つ以上の再生メタデータ信号に依存して、前記１つ以上のオーディオチャネルを生成するオーディオチャネル生成部（１２０）と、を備える装置。
請求項１に記載の装置（１００）であって、
前記メタデータ復号器（１１０）は、前記１つ以上の再生メタデータ信号の各再生メタデータ信号を、前記１つ以上の圧縮済みメタデータ信号の１つをアップサンプリングすることにより生成するよう構成され、前記メタデータ復号器（１１０）は、前記１つ以上の再生メタデータ信号の各再生メタデータ信号の第２メタデータサンプルの各々を、前記再生メタデータ信号の第１メタデータサンプルの少なくとも２つに依存して、線形補間することにより生成するよう構成されている、装置。
請求項１又は２に記載の装置（１００）であって、
前記１つ以上の再生メタデータ信号の各再生メタデータ信号は前記１つ以上の圧縮済みメタデータ信号の１つの圧縮済みメタデータ信号の第１メタデータサンプルを含み、前記再生メタデータ信号は前記圧縮済みメタデータ信号と関連しており、
前記メタデータ復号器（１１０）は、前記再生メタデータ信号について複数の近似済みメタデータサンプルを生成することにより、前記１つ以上の再生メタデータ信号の各々の第２メタデータサンプルを生成するよう構成され、前記メタデータ復号器（１１０）は、前記複数の近似済みメタデータサンプルの各々を前記再生メタデータ信号の第１メタデータサンプルの少なくとも２つに依存して生成するよう構成され、
前記メタデータ復号器（１１０）は、前記１つ以上の圧縮済みメタデータ信号の１つの圧縮済みメタデータ信号について複数の差分値を受信するよう構成され、かつ前記複数の差分値の各々を前記圧縮済みメタデータ信号と関連する前記再生メタデータ信号の近似済みメタデータサンプルの１つに加算して、前記再生メタデータ信号の第２メタデータサンプルを取得するよう構成されている、装置。
請求項３に記載の装置（１００）であって、
前記メタデータ復号器（１１０）は、前記１つ以上の圧縮済みメタデータ信号の１つの圧縮済みメタデータ信号について複数の差分値を受信するよう構成され、前記差分値の各々は、前記圧縮済みメタデータ信号と関連する前記再生メタデータ信号の前記近似済みメタデータサンプルの１つに割り当てられた受信済み差分値であり、
前記メタデータ復号器（１１０）は、前記複数の受信済み差分値の各受信済み差分値を、前記受信済み差分値と関連する前記近似済みメタデータサンプルに加算して、前記再生メタデータ信号の前記第２メタデータサンプルの１つを取得するよう構成され、
前記複数の受信済み差分値のいずれもが前記近似済みメタデータサンプルと関連していないとき、前記メタデータ復号器（１１０）は、複数の受信済み差分値の１つ以上に依存して、前記圧縮済みメタデータ信号と関連する前記再生メタデータ信号の複数の近似済みメタデータサンプルの各近似済みメタデータサンプルについて近似済み差分値を決定するよう構成され、
前記メタデータ復号器（１１０）は、前記複数の近似済み差分値の各近似済み差分値を、前記近似済み差分値の近似済みメタデータサンプルに加算して、前記再生メタデータ信号の第２メタデータサンプルの他の１つを取得するよう構成されている、装置。
請求項１乃至４のいずれか１項に記載の装置（１００）であって、
前記１つ以上の再生メタデータ信号の少なくとも１つは、前記１つ以上のオーディオオブジェクト信号の１つについての位置情報を含むか、又は前記１つ以上のオーディオオブジェクト信号の前記１つについての位置情報のスケールされた表現を含み、
前記オーディオチャネル生成部（１２０）は、前記１つ以上のオーディオオブジェクト信号の前記１つに依存しかつ前記位置情報に依存して、前記１つ以上のオーディオチャネルの少なくとも１つを生成するよう構成されている、装置。
請求項１乃至５のいずれか１項に記載の装置（１００）であって、
前記１つ以上の再生メタデータ信号の少なくとも１つは、前記１つ以上のオーディオオブジェクト信号の１つについての音量を含むか、又は前記１つ以上のオーディオオブジェクト信号の前記１つについての音量のスケールされた表現を含み、
前記オーディオチャネル生成部（１２０）は、前記１つ以上のオーディオオブジェクト信号の前記１つに依存しかつ前記音量に依存して、前記１つ以上のオーディオチャネルの少なくとも１つを生成するよう構成されている、装置。
請求項１乃至６のいずれか１項に記載の装置（１００）であって、
前記装置（１００）はランダムアクセス情報を受信するよう構成されており、前記１つ以上の圧縮済みメタデータ信号の各圧縮済みメタデータ信号について、前記ランダムアクセス情報は前記圧縮済みメタデータ信号のアクセスされた信号部分を指示し、前記メタデータ信号の少なくとも１つの他の信号部分は前記ランダムアクセス情報によって指示されておらず、更に前記メタデータ復号器（１１０）は、前記圧縮済みメタデータ信号の前記アクセスされた信号部分の第１メタデータサンプルに依存する一方で、前記圧縮済みメタデータ信号の他の信号部分の他の如何なる第１メタデータサンプルにも依存せずに、前記１つ以上の再生メタデータ信号の１つを生成するよう構成されている、装置。
１つ以上の符号化済みオーディオ信号と１つ以上の圧縮済みメタデータ信号とを含む符号化済みオーディオ情報を生成する装置（２５０）であって、
１つ以上のオリジナル・メタデータ信号を受信するメタデータ符号器（２１０）であって、前記１つ以上のオリジナル・メタデータ信号の各々は複数のメタデータサンプルを含み、前記１つ以上のオリジナル・メタデータ信号の各々の前記メタデータサンプルは１つ以上のオーディオオブジェクト信号の１つのオーディオオブジェクト信号に関連する情報を示し、前記メタデータ符号器（２１０）は、前記１つ以上の圧縮済みメタデータ信号の各圧縮済みメタデータ信号が前記オリジナル・メタデータ信号の１つにおける２つ以上のメタデータサンプルの第１グループを含み、かつ前記圧縮済みメタデータ信号が前記オリジナル・メタデータ信号の前記１つにおける他の２つ以上のメタデータサンプルの第２グループの如何なるサンプルも含まないように、前記１つ以上の圧縮済みメタデータ信号を生成するよう構成された、メタデータ符号器（２１０）と、
前記１つ以上のオーディオオブジェクト信号を符号化して前記１つ以上の符号化済みオーディオ信号を取得するオーディオ符号器（２２０）と、
を備える装置。
請求項８に記載の装置（２５０）であって、
前記メタデータ符号器（２１０）は、前記１つ以上の圧縮済みメタデータ信号の各圧縮済みメタデータ信号が前記１つ以上のオリジナル・メタデータ信号の１つのオリジナル・メタデータ信号の２つ以上のメタデータサンプルの第１グループを含むように、前記１つ以上の圧縮済みメタデータ信号を生成するよう構成され、前記圧縮済みメタデータ信号は前記オリジナル・メタデータ信号と関連しており、
前記１つ以上のオリジナル・メタデータ信号の１つのオリジナル・メタデータ信号に含まれ、かつ前記オリジナル・メタデータ信号と関連している前記圧縮済みメタデータ信号にも含まれる、前記メタデータサンプルの各々は、複数の第１メタデータサンプルの１つであり、
前記１つ以上のオリジナル・メタデータ信号の１つのオリジナル・メタデータ信号に含まれ、かつ前記オリジナル・メタデータ信号と関連している前記圧縮済みメタデータ信号には含まれない、前記メタデータサンプルの各々は、複数の第２メタデータサンプルの１つであり、
前記メタデータ符号器（２１０）は、前記１つ以上のオリジナル・メタデータ信号の前記１つにおける少なくとも２つの前記第１メタデータサンプルに依存して、線形補間を実行することにより、前記オリジナル・メタデータ信号の１つにおける複数の第２メタデータサンプルの各々について近似済みメタデータサンプルを生成するよう構成され、
前記メタデータ符号器（２１０）は、前記１つ以上のオリジナル・メタデータ信号の前記１つにおける前記複数の第２メタデータサンプルの各第２メタデータサンプルについて差分値を生成するよう構成され、前記差分値は前記第２メタデータサンプルと前記第２メタデータサンプルの前記近似済みメタデータサンプルとの差を示す、装置。
請求項９に記載の装置（２５０）であって、
前記メタデータ符号器（２１０）は、前記１つ以上のオリジナル・メタデータ信号の前記１つにおける前記複数の第２メタデータサンプルの前記差分値の少なくとも１つについて、前記差分値の少なくとも１つの各々がある閾値より大きいか否かを決定するよう構成されている、装置。
請求項９又は１０に記載の装置（２５０）であって、
前記メタデータ符号器（２１０）は、前記１つ以上の圧縮済みメタデータ信号の１つにおける１つ以上のメタデータサンプルを第１のビット数で符号化するよう構成され、前記１つ以上の圧縮済みメタデータ信号の前記１つにおける１つ以上のメタデータサンプルの各々は整数を示し、
前記メタデータ符号器（２１０）は、前記複数の第２メタデータサンプルの１つ以上の前記差分値を第２のビット数で符号化するよう構成され、前記複数の第２メタデータサンプルの１つ以上の前記差分値の各々は整数を示し、
前記第２のビット数は前記第１のビット数よりも小さい、装置。
請求項８乃至１１のいずれか１項に記載の装置（２５０）であって、
前記１つ以上のオリジナル・メタデータ信号の少なくとも１つは、前記１つ以上のオーディオオブジェクト信号の１つについての位置情報を含むか、又は前記１つ以上のオーディオオブジェクト信号の前記１つについての位置情報のスケールされた表現を含み、
前記メタデータ符号器（２１０）は、前記１つ以上のオリジナル・メタデータ信号の前記少なくとも１つに依存して、前記１つ以上の圧縮済みメタデータ信号の少なくとも１つを生成するよう構成されている、装置。
請求項８乃至１２のいずれか１項に記載の装置（２５０）であって、
前記１つ以上のオリジナル・メタデータ信号の少なくとも１つは、前記１つ以上のオーディオオブジェクト信号の１つについての音量を含むか、又は前記１つ以上のオーディオオブジェクト信号の前記１つについての音量のスケールされた表現を含み、
前記メタデータ符号器（２１０）は、前記１つ以上のオリジナル・メタデータ信号の前記少なくとも１つに依存して、前記１つ以上の圧縮済みメタデータ信号の少なくとも１つを生成するよう構成されている、装置。
１つ以上の符号化済みオーディオ信号と１つ以上の圧縮済みメタデータ信号とを含む符号化済みオーディオ情報を生成する、請求項８乃至１３のいずれか１項に記載の装置（２５０）と、
前記１つ以上の符号化済みオーディオ信号と前記１つ以上の圧縮済みメタデータ信号とを受信し、前記１つ以上の符号化済みオーディオ信号と前記１つ以上の圧縮済みメタデータ信号とに依存して１つ以上のオーディオチャネルを生成する、請求項１乃至７のいずれか１項に記載の装置（１００）と、
を備えるシステム。
１つ以上のオーディオチャネルを生成する方法であって、
１つ以上の圧縮済みメタデータ信号を受信するステップであって、前記１つ以上の圧縮済みメタデータ信号の各々は複数の第１メタデータサンプルを含み、前記１つ以上の圧縮済みメタデータ信号の各々の第１メタデータサンプルは１つ以上のオーディオオブジェクト信号の１つのオーディオオブジェクト信号に関連する情報を示す、ステップと、
１つ以上の再生メタデータ信号を生成するステップであって、そのステップは、前記１つ以上の再生メタデータ信号の各々が前記１つ以上の圧縮済みメタデータ信号の１つの第１メタデータサンプルを含み、さらに複数の第２メタデータサンプルを含むように実行され、１つ以上の再生メタデータ信号を生成するステップは、前記１つ以上の再生メタデータ信号の各再生メタデータ信号の第２メタデータサンプルの各々を、前記再生メタデータ信号の第１メタデータサンプルの少なくとも２つに依存して生成することを含む、ステップと、
前記１つ以上のオーディオオブジェクト信号と前記１つ以上の再生メタデータ信号とに依存して、前記１つ以上のオーディオチャネルを生成するステップと、
を備える方法。
１つ以上の符号化済みオーディオ信号と１つ以上の圧縮済みメタデータ信号とを含む符号化済みオーディオ情報を生成する方法であって、
１つ以上のオリジナル・メタデータ信号を受信するステップであって、前記１つ以上のオリジナル・メタデータ信号の各々は複数のメタデータサンプルを含み、前記１つ以上のオリジナル・メタデータ信号の各々の前記メタデータサンプルは１つ以上のオーディオオブジェクト信号の１つのオーディオオブジェクト信号に関連する情報を示す、ステップと、
前記１つ以上の圧縮済みメタデータ信号を生成するステップであって、前記１つ以上の圧縮済みメタデータ信号の各圧縮済みメタデータ信号が前記オリジナル・メタデータ信号の１つにおける２つ以上のメタデータサンプルの第１グループを含み、かつ前記圧縮済みメタデータ信号が前記オリジナル・メタデータ信号の前記１つにおける他の２つ以上のメタデータサンプルの第２グループの如何なるメタデータサンプルも含まないように実行する、ステップと、
前記１つ以上のオーディオオブジェクト信号を符号化して前記１つ以上の符号化済みオーディオ信号を取得するステップと、
を備える方法。
コンピュータ又は信号プロセッサ上で作動されたとき、請求項１５又は１６に記載の方法を実行するためのコンピュータプログラム。
オーディオ入力データ（１０１）を符号化してオーディオ出力データ（５０１）を取得する装置であって、
複数のオーディオチャネルと複数のオーディオオブジェクトと前記複数のオーディオオブジェクトの１つ又は複数に関連するメタデータとを受信する、入力インターフェイス（１１００）と、
前記複数のオブジェクトと前記複数のチャネルとをミキシングして、複数のプレミクス済みチャネルを取得するミキサー（２００）であって、各プレミクス済みチャネルは１つのチャネルのオーディオデータと少なくとも１つのオブジェクトのオーディオデータとを含む、ミキサー（２００）と、
請求項８乃至１３のいずれか１項に記載の装置（２５０）と、を備え、
請求項８乃至１３のいずれか１項に記載の装置（２５０）の前記オーディオ符号器（２２０）は、コア符号器入力データをコア符号化するコア符号器（３００）であり、
請求項８乃至１３のいずれか１項に記載の装置（２５０）の前記メタデータ符号器（２１０）は、前記複数のオーディオオブジェクトの１つ以上に関連する前記メタデータを圧縮するメタデータ圧縮部（４００）である、装置。
符号化済みオーディオデータを復号化する装置であって、
符号化済みオーディオデータを受信する入力インターフェイス（１１００）であって、前記符号化済みオーディオデータが、複数の符号化済みチャネル、複数の符号化済みオブジェクト、又は前記複数のオブジェクトに関連する圧縮済みメタデータを含む、入力インターフェイス（１１００）と、
請求項１乃至７のいずれか１項に記載の装置（１００）と、を備え、
請求項１乃至７のいずれか１項に記載の前記装置（１００）の前記メタデータ復号器（１１０）は、前記圧縮済みメタデータを解凍するメタデータ解凍部（４００）であり、
請求項１乃至７のいずれか１項に記載の前記装置（１００）の前記オーディオチャネル生成部（１２０）は、前記複数の符号化済みチャネルと前記複数の符号化済みオブジェクトとを復号化するコア復号器（１３００）を備え、
前記オーディオチャネル生成部（１２０）は、複数の復号化済みオブジェクトを解凍済みメタデータを使用して処理し、前記オブジェクト及び復号化済みチャネルからオーディオデータを含む幾つかの出力チャネル（１２０５）を取得する、オブジェクト処理部（１２００）を備え、
前記オーディオチャネル生成部（１２０）は、前記幾つかの出力チャネル（１２０５）を出力フォーマットへ変換する後処理部（１７００）を更に備える、装置。