WO2019069710A1

WO2019069710A1 - 符号化装置および方法、復号装置および方法、並びにプログラム

Info

Publication number: WO2019069710A1
Application number: PCT/JP2018/034981
Authority: WO
Inventors: 光行畠中; 徹知念
Original assignee: ソニー株式会社
Priority date: 2017-10-05
Filing date: 2018-09-21
Publication date: 2019-04-11
Also published as: US11595056B2; JP7358986B2; EP3693961A4; KR20200054978A; JPWO2019069710A1; RU2020111480A; RU2020111480A3; EP3693961B1; KR102683551B1; US20200265853A1; CN111164679B; EP3693961A1; CN111164679A

Abstract

本技術は、利便性を向上させることができるようにする符号化装置および方法、復号装置および方法、並びにプログラムに関する。復号装置は、符号化ビットストリームに含まれている、オブジェクトオーディオを含むオーディオデータを復号するとともに、符号化ビットストリームの任意のデータを格納可能な領域からオブジェクトオーディオのメタデータを読み出す復号部と、メタデータに基づいて、復号されたオーディオデータを出力する出力部とを備える。本技術は復号装置に適用することができる。

Description

符号化装置および方法、復号装置および方法、並びにプログラム

　本技術は、符号化装置および方法、復号装置および方法、並びにプログラムに関し、特に、利便性を向上させることができるようにした符号化装置および方法、復号装置および方法、並びにプログラムに関する。

　従来、AAC（Advanced Audio Coding）やMP3（Moving Picture Experts Group 2 Audio Layer 3）などのオーディオ符号化技術が知られている（例えば、非特許文献１および非特許文献２参照）。

　これらのAACやMP3などのオーディオ符号化技術は、音楽配信をはじめとする様々な用途で使用されており、音質面や実装面での実績がある。

ISO/IEC 14496-3:2009 Information technology -- Coding of audio-visual objects -- Part 3: Audio ISO/IEC 11172-3:1993 Information technology -- Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s -- Part 3: Audio

　しかしながら、これらのオーディオ符号化技術、すなわち従来のオーディオ符号化規格はチャンネルベースのオーディオデータを扱うことを前提とした符号化技術となっている。

　そのため、３次元オーディオ（3D Audio）の再生に用いられるオブジェクトオーディオデータや、各オブジェクトオーディオデータの位置情報等を含む3D Audioメタデータをそのまま符号化することはできなかった。

　このようなことから、上述のオーディオ符号化規格を3D Audioで利用するために従来規格との互換性を維持しながらの規格の拡張が望まれている。

　本技術は、このような状況に鑑みてなされたものであり、利便性を向上させることができるようにするものである。

　本技術の第１の側面の復号装置は、符号化ビットストリームに含まれている、オブジェクトオーディオを含むオーディオデータを復号するとともに、前記符号化ビットストリームの任意のデータを格納可能な領域から前記オブジェクトオーディオのメタデータを読み出す復号部と、前記メタデータに基づいて、復号された前記オーディオデータを出力する出力部とを備える。

　本技術の第１の側面の復号方法またはプログラムは、符号化ビットストリームに含まれている、オブジェクトオーディオを含むオーディオデータを復号するとともに、前記符号化ビットストリームの任意のデータを格納可能な領域から前記オブジェクトオーディオのメタデータを読み出し、前記メタデータに基づいて、復号された前記オーディオデータを出力するステップを含む。

　本技術の第１の側面においては、符号化ビットストリームに含まれている、オブジェクトオーディオを含むオーディオデータが復号されるとともに、前記符号化ビットストリームの任意のデータを格納可能な領域から前記オブジェクトオーディオのメタデータが読み出され、前記メタデータに基づいて、復号された前記オーディオデータが出力される。

　本技術の第２の側面の符号化装置は、オブジェクトオーディオを含むオーディオデータを符号化するとともに、任意のデータを格納可能な領域に前記オブジェクトオーディオのメタデータを格納して、前記メタデータ、および符号化された前記オーディオデータが含まれる符号化ビットストリームを生成する符号化部を備える。

　本技術の第２の側面の符号化方法またはプログラムは、オブジェクトオーディオを含むオーディオデータを符号化するとともに、任意のデータを格納可能な領域に前記オブジェクトオーディオのメタデータを格納して、前記メタデータ、および符号化された前記オーディオデータが含まれる符号化ビットストリームを生成するステップを含む。

　本技術の第２の側面においては、オブジェクトオーディオを含むオーディオデータが符号化されるとともに、任意のデータを格納可能な領域に前記オブジェクトオーディオのメタデータが格納されて、前記メタデータ、および符号化された前記オーディオデータが含まれる符号化ビットストリームが生成される。

　本技術の第１の側面および第２の側面によれば、利便性を向上させることができる。

　なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。

本技術について説明する図である。 AACビットストリームについて説明する図である。符号化装置の構成例を示す図である。復号装置の構成例を示す図である。 3D AACビットストリームの構成例を示す図である。 3D Audioメタデータの適用について説明する図である。外部取得3D Audioメタデータの使用について説明する図である。オーディオオブジェクトの位置情報について説明する図である。オーディオオブジェクトの位置情報について説明する図である。符号化処理を説明するフローチャートである。復号処理を説明するフローチャートである。 3D Audioメタデータの分割伝送について説明する図である。 3D Audioメタデータの分割伝送について説明する図である。 3D Audioメタデータの分割伝送について説明する図である。フレーム内DSE分割情報について説明する図である。フレーム分割情報について説明する図である。分割情報について説明する図である。 3D Audioメタデータの複数フレームでの分割について説明する図である。符号化処理を説明するフローチャートである。復号処理を説明するフローチャートである。コンピュータの構成例を示す図である。

　以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈本技術について〉
　本技術は、もともとは3D Audio、すなわちオブジェクトオーディオデータを取り扱うことが想定されていないAACやMP3などの符号化方式を用いても、オブジェクトオーディオデータや3D Audioメタデータを符号化して伝送し、復号側において3D Audio再生を実現できるようにすることで、利便性を向上させるものである。

　本技術は、特に以下のような特徴を有している。

　特徴（１）
　3D Audioに対応していないAAC等のコーデックにおいてアンシラリーデータ領域に3D Audioのレンダリングに必要な3D Audioメタデータを格納する
　特徴（２）
　3D Audioメタデータが１つのアンシラリーデータ領域に収まらない場合には、複数のアンシラリーデータ領域に3D Audioメタデータを格納する
　特徴（３）
　3D Audioメタデータが間欠的に存在する場合には、再生対象のフレームに対して、既に取得された3D Audioメタデータのうちの最後に得られたものを適用する
　特徴（４）
　3D Audioのオーディオデータの構成に関する情報をコーデック層のコメントフィールドに記述することで、従来のコーデック（符号化）規格を維持したままオーディオデータを伝送する
　特徴（５）
　3D Audioメタデータが１つのフレームのアンシラリーデータ領域に収まらない場合には、複数のフレームに跨って3D Audioメタデータを伝送する。その際、符号化装置側では、本来のフレームごとに格納すべき3D Audioメタデータの間引き処理を行い、複数フレームの3D Audioメタデータの代表値を伝送する
　特徴（６）
　3D Audioのチャンネルマッピングを可能な限り既存のチャンネルマッピングに割り当てて、そのチャンネルマッピングを示す情報をビットストリームに格納し、伝送する

　以上のような特徴を有する本技術では、AACやMP3などの既存の符号化技術を用いて、その符号化技術の互換性を保ったまま3D Audioの再生を実現することができる。

　具体的には、例えば3D Audioでは、３次元空間上の任意の位置にオーディオオブジェクト等の音源の音像を定位させることができる。

　このような3D Audioでは、オーディオオブジェクトのオーディオデータ、すなわちオブジェクトベースのオーディオデータや、チャンネルベースのオーディオデータなどからなるオーディオエレメントに加え、3D Audioメタデータが必要になる。

　ここで、3D Audioメタデータは、例えばオーディオオブジェクトの３次元空間上の位置を示す位置情報や、オーディオオブジェクトのオーディオデータのゲイン調整に用いるゲイン情報などを含むデータである。

　しかし、AACやMP3などの符号化方式では、もともと、このような3D Audioメタデータを取り扱うことは想定されていないため、そのままでは3D Audioメタデータを符号化し、伝送することができない。

　そこで本技術では、図１の矢印Q11に示すように、オーディオデータが格納される符号化ビットストリームに設けられた拡張領域に、符号化された3D Audioメタデータを格納するようにした。

　これにより、3D Audioに対応していない符号化方式の符号化ビットストリームでも、3D Audioメタデータを伝送し、3D Audioの再生を行うことができるようになる。

　ここで、3D Audioメタデータが格納される拡張領域は、既存符号化技術で定義されている、使用者が独自のルールで自由なデータを記録することが許される領域、つまり任意のデータを格納可能な領域であり、アンシラリーデータ領域とも呼ばれている。

　具体的には、例えば本技術をAAC符号化技術に適用する場合、矢印Q12に示すように符号化ビットストリームであるAACビットストリームには、矢印Q11に示した例の拡張領域に対応する領域として、DSE（Data Stream Element）が設けられている。そこで、AAC符号化方式によりオーディオデータが符号化されるときには、符号化された3D AudioメタデータがアンシラリーデータとしてDSEに格納される。

　例えば矢印Q12に示すAACビットストリームを受信した復号装置が、3D Audio、つまり3D Audioメタデータに対応している場合には、その復号装置はAACビットストリームから3D Audioメタデータを読み出して復号し、3D Audioの再生に用いることができる。

　これに対して、3D Audioメタデータに非対応の復号装置は、DSEに記述されたアンシラリーデータとしての3D Audioメタデータを解釈することはできない。

　しかし復号装置では、AAC規格で定義されている、DSEに記録されたアンシラリーデータのデータサイズを示すデータサイズ情報を得ることができる。したがって、復号装置は、そのデータサイズ情報を用いてDSE内の3D Audioメタデータの部分を読み飛ばすことができ、AAC規格との互換性を維持することができる。

　また、本技術をMP3に適用する場合には、矢印Q13に示すように符号化ビットストリームであるMP3ビットストリームには、矢印Q11に示した例の拡張領域に対応する領域として、アンシラリーデータ領域が設けられている。そこで、MP3符号化方式によりオーディオデータが符号化されるときには、符号化された3D Audioメタデータが、アンシラリーデータとしてアンシラリーデータ領域に格納される。

　それでは以下、本技術についてさらに詳細に説明する。以下では、説明を具体的にするため、本技術をAAC規格に適用した例、つまりAAC符号化技術を用いて、AAC規格の互換性を維持したまま3D Audioの再生を行う例について説明する。

　本技術をAAC規格に適用した場合、AACビットストリーム、つまりAACに従ってオーディオデータを符号化することで得られた符号化ビットストリームは、図２に示す構成となる。

　すなわち、AACビットストリームにはPCE（Program Config Element）およびDSEが設けられているとともに、再生に用いられるオーディオデータからなるAACオーディオエレメントデータが格納されている。

　例えばAACオーディオエレメントデータには、3D Audioの再生を実現するためのオーディオデータとして、オーディオオブジェクトのオーディオデータ、チャンネルベースのオーディオデータ、およびHOA（High Order Ambisonic）ベースのオーディオデータの少なくとも何れかが含まれている。

　ここで、オーディオオブジェクトのオーディオデータ、つまりオブジェクトベースのオーディオデータとは、いわゆるオブジェクトオーディオであり、オーディオオブジェクトの音を再生するためのオーディオ信号である。また、チャンネルベースのオーディオデータは、例えば5.1チャンネルや22.2チャンネルなどの所定のチャンネル構成の各チャンネルのオーディオ信号、つまり各チャンネルに対応するスピーカで再生される音のオーディオ信号である。

　さらに、HOAベースのオーディオデータとは、アンビソニック形式のオーディオ信号である。すなわち、HOAベースのオーディオデータは、チャンネルベースのオーディオ信号をアンビソニック形式で表現したものである。なお、以下、HOAベースのオーディオデータを、アンビソニックベースのオーディオデータとも称することとする。

　以下では、オーディオオブジェクトのオーディオデータ、チャンネルベースのオーディオデータ、およびアンビソニックベースのオーディオデータを特に区別する必要のない場合、単にオーディオデータとも称することとする。

　AACビットストリームのPCEにおける任意のデータを格納可能なコメントフィールドには、AACオーディオエレメントデータの構成要素を示す3D Audio構成要素情報が格納される。ここでは、3D Audio構成要素情報は、AACオーディオエレメントデータを構成するチャンネルベースのオーディオデータの数であるチャンネルベース数、オーディオオブジェクトのオーディオデータの数であるオブジェクトオーディオ数、およびアンビソニックベースのオーディオデータの数であるHOAオーディオ数を示す情報となっている。

　さらに、AACビットストリームのDSEには、AACオーディオエレメントデータを構成するオーディオデータのメタデータである3D Audioメタデータがアンシラリーデータとして格納される。

　ここでは、3D Audioメタデータとして、チャンネルベースメタデータや、オブジェクトベースメタデータ、アンビソニックベースメタデータが含まれている。

　例えばチャンネルベースメタデータは、チャンネルベースのオーディオデータのメタデータであり、チャンネルベースの各オーディオデータがどのチャンネルのものであるかを示す対応チャンネル情報などからなる。

　また、オブジェクトベースメタデータは、オーディオオブジェクトのオーディオデータのメタデータであり、オーディオオブジェクトの数を示すオブジェクト数情報や、各オーディオオブジェクトの３次元空間上の位置を示す位置情報、各オーディオオブジェクトのオーディオデータに乗算されるゲインを示すゲイン情報などからなる。

　さらに、アンビソニックベースメタデータは、アンビソニックベースのオーディオデータのメタデータであり、アンビソニックの次数やモードを示す情報などからなる。

　なお、以下では、本技術を適用して得られたAACビットストリーム、つまりAACをベースとした、3D Audioメタデータが格納される符号化ビットストリームを、特に3D AACビットストリームとも称することとする。

〈符号化装置の構成例〉
　続いて、以上において説明した3D AACビットストリームを生成する符号化装置と、その符号化装置から出力された3D AACビットストリームを受信して復号する復号装置について説明する。

　図３は、本技術を適用した符号化装置の構成例を示す図である。

　図３に示す符号化装置１１は、3D Audioメタデータ符号化部２１、およびAAC符号化部２２を有している。

　符号化装置１１では、外部から3D Audioメタデータ符号化部２１には、チャンネルベースメタデータや、オブジェクトベースメタデータ、アンビソニックベースメタデータが3D Audioメタデータとして供給される。

　また、外部からAAC符号化部２２には、オーディオオブジェクトのオーディオデータ（オブジェクトオーディオ）や、チャンネルベースのオーディオデータ、アンビソニックベースのオーディオデータなどの各種のオーディオデータ、および3D Audio構成要素情報が供給される。ここでは、各オーディオデータは、コンテンツを再生するためのPCM（Pulse Code Modulation）信号となっており、外部からAAC符号化部２２には、少なくともオブジェクトオーディオを含む１または複数のオーディオデータが供給されるものとする。

　3D Audioメタデータ符号化部２１は、外部から供給された3D Audioメタデータを符号化し、符号化された3D AudioメタデータをAAC符号化部２２に供給する。以下では、3D Audioメタデータ符号化部２１により符号化された3D Audioメタデータを、符号化3D Audioメタデータとも称することとする。

　AAC符号化部２２は、3D Audioメタデータ符号化部２１から供給された符号化3D Audioメタデータと、外部から供給された3D Audio構成要素情報およびオーディオデータとをAAC符号化方式で符号化して3D AACビットストリームを生成し、出力する。

　ここでは、AAC符号化部２２に供給されるオーディオデータはPCM信号となっているため、それらのオーディオデータをAAC規格のAACオーディオエレメントデータとして符号化することが可能である。

　なお、外部からAAC符号化部２２に3D Audio構成要素情報が供給されるのではなく、AAC符号化部２２が3D Audioメタデータ符号化部２１から必要な情報の供給を受けて、その情報に基づいて3D Audio構成要素情報を生成するようにしてもよい。

〈復号装置の構成例〉
　次に、図３に示した符号化装置１１から出力された3D AACビットストリームを受信して復号する復号装置の構成について説明する。そのような復号装置は、例えば図４に示すように構成される。

　図４に示す復号装置５１は、AAC復号部６１、3D Audioメタデータ復号部６２、3D Audioメタデータ取得部６３、および3D Audioレンダラ６４を有している。

　AAC復号部６１は、符号化装置１１から送信されてきた3D AACビットストリームを受信し、受信した3D AACビットストリームを復号する。

　AAC復号部６１は、3D AACビットストリームの復号により得られた符号化3D Audioメタデータを3D Audioメタデータ復号部６２に供給するとともに、復号により得られたオーディオデータ、すなわちPCM信号を3D Audioレンダラ６４に供給する。

　ここで、AAC復号部６１から3D Audioレンダラ６４に供給されるオーディオデータは、オーディオオブジェクトのオーディオデータ（オブジェクトオーディオデータ）や、チャンネルベースのオーディオデータ、アンビソニックベースのオーディオデータなどである。

　また、AAC復号部６１は、復号により得られた3D Audio構成要素情報を、適宜、復号装置５１を制御する上位の制御部に供給する。

　3D Audioメタデータ復号部６２は、AAC復号部６１から供給された符号化3D Audioメタデータを復号し、その結果得られた3D Audioメタデータとしてのチャンネルベースメタデータや、オブジェクトベースメタデータ、アンビソニックベースメタデータを3D Audioレンダラ６４に供給する。

　3D Audioメタデータ取得部６３は、適宜、外部から必要な情報を取得して3D Audioメタデータを生成したり、外部のサーバ等から3D Audioメタデータを受信したりすることで3D Audioメタデータを取得し、3D Audioレンダラ６４に供給する。

　3D Audioレンダラ６４は、レンダリング処理を行って3D Audio再生のための再生データを生成するとともに、得られた再生データを出力する出力部、すなわち3D Audioメタデータに基づいて、復号されたオーディオデータを出力する出力部として機能する。

　具体的には、3D Audioレンダラ６４は、3D Audioメタデータ復号部６２または3D Audioメタデータ取得部６３から供給された3D Audioメタデータと、AAC復号部６１から供給されたオーディオデータとに基づいてレンダリングを行い、所定チャンネル数のオーディオデータを再生データとして生成する。

　再生データは、例えば2チャンネルや5.1チャンネルなどの所定のチャンネル構成の各チャンネルのオーディオデータからなる、3D Audio再生を実現するためのオーディオ信号である。この再生データに基づいて音を再生すれば、例えばオーディオオブジェクトの音の音像を、そのオーディオオブジェクトの3D Audioメタデータに含まれている位置情報により示される３次元空間上の位置に定位させることができる。

　3D Audioレンダラ６４は、得られた再生データを外部に出力する。例えば3D Audioレンダラ６４は、再生データをスピーカに供給して音を再生させたり、再生データを図示せぬ記録部に供給して記録させたりする。

〈3D AACビットストリームの構成例〉
　ここで、以上のような符号化装置１１と復号装置５１との間で授受される3D AACビットストリームの具体的な構成例について説明する。

　例えばAACオーディオエレメントデータが、7.1チャンネルのチャンネルベースのオーディオデータと、２つのオーディオオブジェクトのオーディオデータと、アンビソニックベースの１次アンビソニックのオーディオデータとから構成されるとする。

　そのような場合、3D AACビットストリームは、例えば図５に示すように構成される。この例では、オーディオデータの１フレーム分の3D AACビットストリームの先頭には、PCEとDSEが配置されている。そして、PCEには3D Audio構成要素情報が格納されており、DSEには符号化された3D Audioメタデータが格納されている。

　また、DSEに続いて１つのSCE（Single Channel Element）、３つのCPE（Channel Pair Element）、および１つのLFE（Low Frequency Effects）が配置されている。そして、これらのSCE、CPE、およびLFEに7.1チャンネルのチャンネルベースのオーディオデータが格納されてチャンネルベースオーディオエレメントとされている。

　さらに、チャンネルベースオーディオエレメントの後ろには、２つのSCEが配置されており、それらのSCEに２つのオーディオオブジェクトのオーディオデータが格納されてオブジェクトベースオーディオエレメントとされている。

　オブジェクトベースオーディオエレメントに続いて、４つのSCEが配置されており、それらのSCEにアンビソニックベースの１次アンビソニックのオーディオデータが格納されてアンビソニックベースオーディオエレメントとされている。

　そして、アンビソニックベースオーディオエレメントの後ろ、つまり１フレーム分の3D AACビットストリームの終端にはFILが配置されている。

　このように図５に示した例では、AACオーディオエレメントデータは、チャンネルベースオーディオエレメント、オブジェクトベースオーディオエレメント、およびアンビソニックベースオーディオエレメントから構成されている。

　なお、AACオーディオエレメントデータは、これらのチャンネルベースオーディオエレメント、オブジェクトベースオーディオエレメント、およびアンビソニックベースオーディオエレメントの少なくとも何れか１つから構成されるようにしてもよい。

〈3D Audioメタデータの伝送について〉
　ところで、3D Audioでは基本的にはフレームごとに3D Audioメタデータが伝送される。しかし、例えばオーディオオブジェクトの動きがないフレーム区間など、必ずしも複数のフレームごとに3D Audioメタデータが必要ないときには、3D Audioメタデータをフレームごとに伝送しなくてもよい。

　そのような場合、例えば図６に示すように3D Audioメタデータが伝送されなかったフレームでは、そのフレームよりも前のフレームの3D Audioメタデータのうち、時間的に最後に取得された3D Audioメタデータが現フレームのものとして利用される。

　図６に示す例では、矢印A11乃至矢印A15により示される四角形のそれぞれがフレームN乃至フレーム（N+4）のそれぞれの3D AACビットストリームを表している。なお、以下では１フレーム分の3D AACビットストリームを、AACフレームデータとも称することとする。

　例えばフレームNでは、AACフレームデータに、そのフレームNの3D Audioメタデータが格納されているので、復号装置５１では、復号により得られたフレームNの3D Audioメタデータ（以下、3D Audioメタデータ（N）とも記すこととする）が用いられてレンダリングが行われる。

　これに対して、次のフレーム（N+1）では、AACフレームデータに3D Audioメタデータが格納されていない。そこで、復号装置５１では、最後に取得された、つまり最後に復号により得られたフレームNの3D Audioメタデータ（N）が用いられて、フレーム（N+1）のレンダリングが行われる。

　このように現フレームの3D Audioメタデータがない場合には、既に3D AACビットストリームのDSEから読み出されている、現フレームよりも時間的に前のフレームの3D Audioメタデータのうち、最も現フレームに時間的に近いフレームの3D Audioメタデータが、現フレームの3D Audioメタデータとして用いられる。

　換言すれば、現フレームよりも前のフレームでDSEから読み出されている3D Audioメタデータのうちの時間的に最後に読み出された3D Audioメタデータが、現フレームの3D Audioメタデータとして用いられ、現フレームのレンダリングが行われる。さらにいえば、結果として、現フレームの3D Audioメタデータがない場合には、その現フレームの直前のフレームで用いられた3D Audioメタデータを、現フレームのものとしても用いることになる。

　フレーム（N+1）における場合と同様に、その後のフレーム（N+2）およびフレーム（N+3）においても、それらのフレームでは3D Audioメタデータが格納されていなかったので、最後に得られたフレームNの3D Audioメタデータ（N）が用いられてレンダリングが行われる。

　これに対して、フレーム（N+3）に続くフレーム（N+4）では、復号によりそのフレーム（N+4）の3D Audioメタデータ（N+4）が得られるので、その3D Audioメタデータ（N+4）が用いられてレンダリングが行われる。

　なお、現フレームにおいてDSEに何も格納されておらず、3D Audioメタデータが格納されていないと判定された場合に、現フレームよりも時間的に前のフレームの3D Audioメタデータを参照するようにすることができる。

　この場合、現フレームのDSEに3D Audioメタデータが格納されていないことが、現フレームよりも時間的に前のフレームの3D Audioメタデータの参照の指示を表しているともいうことができる。

　その他、DSEに3D Audioメタデータだけでなく、現フレームよりも時間的に前のフレームの3D Audioメタデータを使用（参照）するか否かを示す前フレーム参照フラグも格納するようにしてもよい。

　すなわち、前フレーム参照フラグは、現フレームよりも前のフレームでDSEから読み出されている3D Audioメタデータのうちの時間的に最後に読み出された3D Audioメタデータを、現フレームの3D Audioメタデータとして用いるかを指示する情報である。

　換言すれば前フレーム参照フラグは、現フレームの3D Audioメタデータとして、現フレームよりも時間的に前のフレームのDSEに格納された3D Audioメタデータのうちの、最も現フレームに近いフレームの3D Audioメタデータを用いるかを指示する情報である。

　この場合、例えば前のフレームの3D Audioメタデータを参照する場合には前フレーム参照フラグの値が「１」とされ、DSEには値が１である前フレーム参照フラグのみが記述される。

　これに対して、前のフレームの3D Audioメタデータを参照しない場合には前フレーム参照フラグの値が「０」とされ、DSEには値が０である前フレーム参照フラグに続いて3D Audioメタデータが記述される。以下では、DSEに前フレーム参照フラグが格納されるものとして説明を続ける。

　また、3D Audioメタデータは、DSE内に格納されるデータであり、AAC符号化規格とは独立したデータとなる。

　そのため、3D AACビットストリームを途中から再生する場合、つまりコンテンツを途中から再生する場合、AAC規格のフレーム（オーディオデータ）の復号ができたとしても3D Audioメタデータの復号が完了していないことがある。これは、3D Audioメタデータが差分符号化などにより符号化されている場合には、差分符号化を行わないリセットフレームが出現するまでは差分の起点が不明なことに起因するものである。

　また、3D AACビットストリームを途中から再生する場合、いくつかのフレームで3D Audioメタデータが省略されていることもある。

　そこで、本技術では現フレームの3D Audioメタデータが得られない場合に、時間的に前のフレームの3D Audioメタデータをそのまま用いる他、復号装置５１側で予め保持されている3D Audioメタデータのデフォルト値を用いるようにすることができる。

　なお、以下、復号装置５１側で予め保持されているデフォルト値など、3D AACビットストリームから読み出された3D Audioメタデータとは異なる他の3D Audioメタデータを、外部取得3D Audioメタデータとも称することとする。

　例えば図７に示すように、コンテンツの先頭部分のいくつかのフレームにおいて3D Audioメタデータが得られなかったとする。

　図７では、矢印A21乃至矢印A25により示される四角形のそれぞれがフレーム0乃至フレーム4のそれぞれのAACフレームデータを表している。

　この例では、先頭のフレーム0から４番目のフレーム3までの間は、AAC規格でのオーディオデータの復号はできたが、3D Audioメタデータの復号ができなかったり、DSEに3D Audioメタデータが格納されていなかったりなどの理由で3D Audioメタデータがない状態となっている。

　そこで、3D Audioメタデータ取得部６３は、予め定められた初期メタデータ値を外部取得3D Audioメタデータとして取得し、3D Audioレンダラ６４に供給する。

　例えば初期メタデータ値では、オーディオオブジェクトの位置情報により示される位置は、３次元空間上のユーザの真正面の位置など、予め定められた位置などとなっている。

　また、初期メタデータ値の取得時には、例えば3D Audioメタデータ取得部６３は、PCEから読み出された3D Audio構成要素情報に基づいて、外部取得3D Audioメタデータとしての初期メタデータ値を取得する。具体的には、例えば3D Audio構成要素情報により示されるオブジェクトオーディオ数に基づいて、オーディオオブジェクトの数だけ位置情報やゲイン情報が取得される。

　外部取得3D Audioメタデータを取得する場合、AACオーディオエレメントデータがどのような構成となっているか、すなわちチャンネルベース数やオブジェクトオーディオ数など、オーディオデータの構成を示す情報が必要となる。そのため、例えば符号化装置１１において前フレーム参照フラグの値が「１」とされ、3D AudioメタデータがDSEに格納されない場合には、必ずPCEに3D Audio構成要素情報が記述されるようにされる。

　3D Audioレンダラ６４は、外部取得3D Audioメタデータとしての初期メタデータ値の供給を受けると、フレーム0乃至フレーム3については、供給された初期メタデータ値を用いてレンダリングを行う。そして、フレーム4においてDSEから3D Audioメタデータが読み出されると、フレーム4については、その読み出された3D Audioメタデータに基づいてレンダリングが行われる。

　このように、コンテンツの先頭部分や途中の部分など、長時間、DSEから3D Audioメタデータが得られなかった場合には、3D Audio構成要素情報等に基づいて取得した外部取得3D Audioメタデータを用いれば、さしあたり3D Audioの再生を行うことができる。

　例えば符号化装置１１側では、オブジェクトに動きがない場合など、複数のフレームにわたって3D Audioメタデータに変化がないときには、前フレーム参照フラグの値が「１」とされ、ある程度長い期間、3D Audioメタデータが伝送されないこともある。そのような場合に、復号装置５１側において参照先とされる3D Audioメタデータが何らかの理由により得られなかったときには、外部取得3D Audioメタデータを利用することで、3D Audioの再生を行うことができる。

　なお、外部取得3D Audioメタデータを用いる場合、その後、DSEから読み出された3D Audioメタデータを用いるときに、急に3D Audioメタデータが外部等から取得したものから、DSEから読み出されたものへと変化すると、オーディオオブジェクトの位置が不連続となるなど、違和感が生じてしまうこともある。そこで、例えば数フレームの間は、最後に用いた外部取得3D Audioメタデータと、DSEから読み出された3D Audioメタデータとに基づいて補間処理を行い、補間処理により得られた3D Audioメタデータが使用されるようにすることで、スムーズにオーディオオブジェクトの位置等が遷移するようにしてもよい。

　また、外部取得3D Audioメタデータは、外部から取得した情報等に基づいて3D Audioメタデータ取得部６３により生成される他、ネットワークを介してサーバから取得されたり、3D AACビットストリームとは別に符号化装置１１から取得されたりするなど、どのようにして取得されるようにしてもよい。また、コンテンツごとに、各再生時刻の外部取得3D Audioメタデータが予め用意されており、コンテンツの再生時刻に応じて適切な外部取得3D Audioメタデータが取得されるなどしてもよい。

　さらに、ユーザの指示等により3D Audioメタデータが変更されるようにしてもよい。一例として、例えばネットワーク型の対戦ゲームなど、インタラクティブに複数のユーザにより共有されて再生されるコンテンツについては、復号装置５１におけるユーザ操作だけでなく、他のユーザの操作等も考慮されて3D Audioメタデータが変更されるようにすることができる。

　上述したように、外部取得3D Audioメタデータが取得される場合、AAC符号化方式で符号化されたAACオーディオエレメントデータが、チャンネルベースのものであるか、オブジェクトベースのものであるか、アンビソニックベースのものであるかなど、オーディオデータの種別を識別する識別情報が必要となる。換言すれば、AACオーディオエレメントデータの構成を示す構成情報が必要となる。このような情報は、3D Audioメタデータを復号しなくても取得できなければならない。

　そこで、本技術では、図２を参照して説明したように、オーディオデータの種別を識別する情報、つまりAACオーディオエレメントデータの構成を示す情報として、3D Audio構成要素情報がPCEのコメントフィールドに格納されている。なお、3D Audio構成要素情報により示される情報は、3D Audioメタデータにも含まれている。

　PCEのコメントフィールドに3D Audio構成要素情報を格納することで、復号装置５１では、AAC復号部６１におけるAAC規格の復号処理の中で3D Audio構成要素情報を得ることができる。またPCEは、MPEG-4 File Format層でも独立に使用されるものとなるため、3D Audio構成要素情報のPCEへの格納には、システム層からも3D Audio構成要素情報を取得できるという利点がある。

　なお、PCEのコメントフィールドについても、DSEにおける場合と同様に、本技術に対応していない復号装置はAAC規格で記録されたコメントフィールドのバイト数を読み飛ばすことができるので、AAC規格の互換性を維持することができる。

〈２次元平面上の位置情報の伝送について〉
　ところで、AAC規格では、各オーディオエレメント、つまり各オーディオデータのスピーカ配置情報を、PCEにおいて前方位置（FRONT）、横位置（SIDE）、または後方位置（BACK）という２次元平面上の位置情報として記録することができる。すなわち、前方、後方、および側方の各方向のうちの何れの方向にオーディオデータを再生するスピーカがあるかを示すスピーカ配置情報をPCEに格納することが可能である。

　一方で、3D AACビットストリームでは各オーディオオブジェクト、すなわちオブジェクトベースのオーディオデータの位置情報として、オーディオオブジェクトの平面方向の位置を示す角度と、高さ方向の位置を示す角度とが3D Audioメタデータに含まれている。

　本技術では、エレメント個数の上限（制限）はあるが、可能な限り平面方向の角度に合わせてオーディオオブジェクトの位置に対応するスピーカ配置情報をPCEに記述するようにしてもよい。

　具体的には、例えば図８に示すようにオーディオオブジェクトとして４つのオーディオオブジェクトEL11乃至オーディオオブジェクトEL14があるとする。

　図８では、図中、手前側が視聴者であるユーザU11の正面の方向、つまり前方方向であり、図中、奥側がユーザU11の後方となっている。

　この例では、オーディオオブジェクトEL11がユーザU11の前方上側に位置しており、オーディオオブジェクトEL12がユーザU11の前方右上に位置している。また、オーディオオブジェクトEL13がユーザU11の後方上側に位置しており、オーディオオブジェクトEL14がユーザU11の左側方上側に位置している。

　このような場合、符号化装置１１では、オーディオオブジェクトEL11とオーディオオブジェクトEL12が前方に位置する前方位置オーディオエレメントとされる。そして、それらのオーディオオブジェクトのスピーカ配置情報として前方位置を示す情報がPCEに記述される。

　すなわち、オーディオオブジェクトEL11とオーディオオブジェクトEL12の３次元空間上の位置が、２次元平面上の前方位置にマッピングし直される。そして、そのマッピング結果に応じて、PCEには、それらのオーディオオブジェクトの位置情報、つまりスピーカ配置情報として前方位置を示す情報が記述される。

　また、オーディオオブジェクトEL13が、後方に位置する後方位置オーディオエレメントとされ、そのオーディオオブジェクトEL13の２次元平面上の位置である後方位置を示す情報がスピーカ配置情報としてPCEに記述される。

　同様に、オーディオオブジェクトEL14が、側方に位置する横位置オーディオエレメントとされ、そのオーディオオブジェクトEL14の２次元平面上の位置である横位置を示す情報がスピーカ配置情報としてPCEに記述される。

　このようなスピーカ配置情報は、オーディオオブジェクトのオーディオデータを出力すべきスピーカを示す情報、つまりオーディオオブジェクトに対応するスピーカ配置に関する情報である。換言すれば、スピーカ配置情報は、各オーディオオブジェクトのオーディオデータがどのチャンネルのものであるか、つまりオーディオオブジェクトのチャンネルマッピングを示す情報である。

　このようなスピーカ配置情報は、オーディオオブジェクトの２次元平面上の位置を示す位置情報であるともいうことができる。以下では、このようなスピーカ配置情報を、オーディオオブジェクトの２次元平面上の位置を示す位置情報とも称することとする。

　このようにPCEに各オーディオオブジェクトの２次元平面上の位置情報を記述することで、復号装置５１が3D Audioに対応していないなど、何らかの理由で復号装置５１において3D Audioメタデータを利用することができなくても、各オーディオオブジェクトの２次元平面上の位置は特定することができる。

　したがって、例えば図９に示すように、PCEに記述された２次元平面上の位置情報から、各オーディオオブジェクトの音像を２次元平面上における正しい位置に定位させることができる。なお、図９において図８における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　この例では、復号装置５１では、オーディオオブジェクトEL11乃至オーディオオブジェクトEL14の２次元平面上の位置を示す位置情報（スピーカ配置情報）をPCEから読み出すことで、それらの位置情報により示される位置に各オーディオオブジェクトを配置することができる。

　すなわち、高さ方向の情報を得ることはできないが、3D Audioのチャンネルマッピングを可能な限り既存のチャンネルマッピングに割り当てることができる。これにより、オブジェクトベースのオーディオエレメントデータに基づく音を、オーディオオブジェクトの平面上におけるおおよその位置にあるスピーカから出力することができる。

　図９に示す例では、オーディオオブジェクトEL11乃至オーディオオブジェクトEL14の高さはもとの高さとは異なり、ユーザU11の頭部の高さとなっている。しかし、オーディオオブジェクトEL11およびオーディオオブジェクトEL12はユーザU11の前方に配置されており、オーディオオブジェクトEL13はユーザU11の後方に配置されており、オーディオオブジェクトEL14はユーザU11の左側方に配置されている。

　このように、２次元平面上の位置を示す位置情報を用いれば、オーディオオブジェクトEL11乃至オーディオオブジェクトEL14の音の音像を、もともとの方向と略同じ方向の位置に定位させることが可能である。

〈符号化処理の説明〉
　続いて、符号化装置１１および復号装置５１の動作について説明する。

　まず、図１０のフローチャートを参照して、符号化装置１１による符号化処理について説明する。この符号化処理は、符号化すべきオーディオデータが供給されると開始される。

　ステップＳ１１において、3D Audioメタデータ符号化部２１は、処理対象とする現フレームについて、伝送すべき3D Audioメタデータがあるか否かを判定する。

　例えば外部から3D Audioメタデータが供給された場合、伝送すべき3D Audioメタデータがあると判定される。なお、例えば処理対象の現フレームとその直前のフレームとで3D Audioメタデータに変化がない場合など、前のフレームの3D Audioメタデータを参照させるときには、処理対象の現フレームの3D Audioメタデータは供給されない。

　ステップＳ１１において、伝送すべき3D Audioメタデータがあると判定された場合、ステップＳ１２において3D Audioメタデータ符号化部２１は、外部から供給された3D Audioメタデータを符号化する3D Audioメタデータ符号化処理を行う。そして、3D Audioメタデータ符号化部２１は、3D Audioメタデータ符号化処理により得られた符号化3D AudioメタデータをAAC符号化部２２に供給する。

　ステップＳ１３において、AAC符号化部２２は3D Audioメタデータ符号化部２１から供給された符号化3D Audioメタデータ、前フレーム参照フラグ、および外部から供給されたオーディオデータをAAC符号化し、１フレーム分のAACフレームデータを生成する。

　すなわち、AAC符号化部２２は、AACフレームデータのDSEに、値が「０」である前フレーム参照フラグを格納した後、その前フレーム参照フラグに続いて符号化3D AudioメタデータをDSEに格納する。

　また、AAC符号化部２２は、外部から供給された１フレーム分のオーディオデータをAAC符号化方式により符号化し、AACオーディオエレメントデータとしてAACフレームデータのSCEやCPE、LFEなどに格納する。

　さらに、AAC符号化部２２は、外部から供給された3D Audio構成要素情報や、オーディオオブジェクトの２次元平面上の位置を示す位置情報（スピーカ配置情報）もAACフレームデータのPCEに格納する。これにより、例えば図５に示した構成のAACフレームデータが、１フレーム分の3D AACビットストリームとして得られる。

　AAC符号化部２２は、このようにして得られた１フレーム分の3D AACビットストリームを出力（送信）すると、その後、処理はステップＳ１７へと進む。

　一方、ステップＳ１１において、伝送すべき3D Audioメタデータがないと判定された場合、ステップＳ１４においてAAC符号化部２２は、復号側において前のフレームの3D Audioメタデータを参照させるか否かを判定する。

　ステップＳ１４において前のフレームの3D Audioメタデータを参照させると判定された場合、その後、処理はステップＳ１５へと進む。

　ステップＳ１５において、AAC符号化部２２は前フレーム参照フラグの値を「１」として、外部から供給されたオーディオデータをAAC符号化する。

　すなわち、AAC符号化部２２は、AACフレームデータのDSEに、値が「１」である前フレーム参照フラグを格納する。また、AAC符号化部２２は、外部から供給された１フレーム分のオーディオデータをAAC符号化方式により符号化し、AACオーディオエレメントデータとしてAACフレームデータのSCEやCPE、LFEなどに格納する。

　さらに、AAC符号化部２２は、外部から供給された3D Audio構成要素情報や、オーディオオブジェクトの２次元平面上の位置を示す位置情報もAACフレームデータのPCEに格納する。

　AAC符号化部２２は、このようにして得られたAACフレームデータを１フレーム分の3D AACビットストリームとして出力すると、その後、処理はステップＳ１７へと進む。

　これに対して、ステップＳ１４において前のフレームの3D Audioメタデータを参照させないと判定された場合、その後、処理はステップＳ１６へと進む。

　ステップＳ１６において、AAC符号化部２２は前フレーム参照フラグの値を「０」として、外部から供給されたオーディオデータをAAC符号化する。

　すなわち、AAC符号化部２２は、AACフレームデータのDSEに、値が「０」である前フレーム参照フラグを格納するとともに、外部から供給された１フレーム分のオーディオデータをAAC符号化方式により符号化し、AACフレームデータに格納する。なお、以下では、符号化されたオーディオデータを符号化オーディオデータとも称することとする。

　ステップＳ１３の処理、ステップＳ１５の処理、またはステップＳ１６の処理が行われると、その後、ステップＳ１７の処理が行われる。

　ステップＳ１７において、符号化装置１１は、符号化すべきオーディオデータがあるか否かを判定する。

　ステップＳ１７において、まだ符号化すべきオーディオデータがあると判定された場合、処理はステップＳ１１に戻り、上述した処理が繰り返し行われる。

　これに対して、ステップＳ１７において符号化すべきオーディオデータがない、すなわち伝送するコンテンツのオーディオデータが全て符号化されて出力されたと判定された場合、符号化処理は終了する。

　以上のようにして符号化装置１１は、3D AudioメタデータをDSEに格納し、3D AACビットストリームを生成する。このようにすることで既存のAAC規格を拡張し、復号側において3D Audioメタデータを利用して3D Audio再生を行うことができるようになる。これにより、利便性を向上させることができる。

　また、前フレーム参照フラグを格納することにより、復号側において時間的に前のフレームの3D Audioメタデータを参照することができるので、3D Audioメタデータの分だけ3D AACビットストリームの符号量を削減することができる。

　さらに3D AACビットストリームのPCEに、各オーディオオブジェクトの２次元平面上における位置を示す位置情報を記述することで、復号側において3D Audioメタデータを得ることができなくても、各オーディオオブジェクトの音像を２次元平面上の正しい位置に定位させることができる。すなわち、臨場感を損なうことなくオーディオ再生を行うことができる。

〈復号処理の説明〉
　次に、図１１のフローチャートを参照して、復号装置５１により行われる復号処理について説明する。この復号処理は、符号化装置１１により送信された3D AACビットストリームが受信されると開始される。

　ステップＳ４１において、AAC復号部６１は受信した１フレーム分の3D AACビットストリーム、すなわちAACフレームデータに対して、AAC符号化方式に対応する復号方式での復号処理であるAAC復号処理を行う。

　すなわち、AAC復号部６１は、PCEから3D Audio構成要素情報を読み出して上位の制御部に供給したり、PCEから各オーディオオブジェクトの２次元平面上の位置情報、すなわちスピーカ配置情報を読み出して、直接、または上位の制御部を介して3D Audioレンダラ６４に供給したりする。

　また、AAC復号部６１は、AACフレームデータに格納されている符号化オーディオデータを復号し、その結果得られたPCMデータであるオーディオデータを3D Audioレンダラ６４に供給する。

　ステップＳ４２において、AAC復号部６１は、AACフレームデータのDSEに3D Audioメタデータがあるか否かを判定する。

　例えばAAC復号部６１は、DSEの先頭に記述された前フレーム参照フラグの値に続いて符号化3D Audioメタデータが記述されている場合、3D Audioメタデータがあると判定する。この場合、前フレーム参照フラグの値は「０」となっている。

　ステップＳ４２において3D Audioメタデータがあると判定された場合、AAC復号部６１は、DSEから符号化3D Audioメタデータを読み出して3D Audioメタデータ復号部６２に供給し、その後、処理はステップＳ４３へと進む。

　ステップＳ４３において、3D Audioメタデータ復号部６２は、AAC復号部６１から供給された符号化3D Audioメタデータを復号し、その結果得られた3D Audioメタデータを3D Audioレンダラ６４に供給する。このようにして3D Audioメタデータが得られると、その後、処理はステップＳ４７へと進む。

　また、ステップＳ４２において3D Audioメタデータがないと判定された場合、ステップＳ４４においてAAC復号部６１は、DSEの先頭に記述されている前フレーム参照フラグの値が「１」であるか否かを判定する。

　ステップＳ４４において前フレーム参照フラグの値が「１」でない、つまり前フレーム参照フラグの値が「０」であるがDSEから3D Audioメタデータが得られなかった場合、その後、処理はステップＳ４８へと進む。

　これに対して、ステップＳ４４において前フレーム参照フラグの値が「１」であると判定された場合、その後、処理はステップＳ４５へと進む。この場合、DSEには符号化3D Audioメタデータが格納されていない。

　ステップＳ４５において、AAC復号部６１は、過去の3D Audioメタデータがあるか否かを判定する。すなわち、同じコンテンツ、つまり復号対象の3D AACビットストリームにおける処理対象の現フレームよりも時間的に前のフレームについて、DSEから読み出された3D Audioメタデータがある場合、過去の3D Audioメタデータがあると判定される。

　ステップＳ４５において過去の3D Audioメタデータがあると判定された場合、AAC復号部６１は、DSEから読み出された3D Audioメタデータがある過去のフレームのうちの現フレームに最も時間的に近いフレームの3D Audioメタデータ、つまり最後に用いられた3D Audioメタデータの出力を3D Audioメタデータ復号部６２に指示し、その後、処理はステップＳ４７へと進む。

　この場合、3D Audioメタデータ復号部６２は、AAC復号部６１の指示に従って過去のフレームで用いた3D Audioメタデータを3D Audioレンダラ６４に供給する。

　具体的には、例えば図６に示した例においてフレーム（N+1）が現フレームであったとすると、3D Audioメタデータ復号部６２は、フレームNの3D Audioメタデータ（N）を3D Audioレンダラ６４に供給する。

　一方、ステップＳ４５において過去の3D Audioメタデータがないと判定された場合、何らかの理由により、3D AACビットストリームから現フレームで用いる3D Audioメタデータが得られなかったので、その後、処理はステップＳ４６へと進む。

　ステップＳ４６においてAAC復号部６１は、3D AACビットストリーム以外から取得された3D Audioメタデータがあるか否かを判定する。すなわち、3D Audioメタデータ取得部６３により取得された外部取得3D Audioメタデータがあるか否かが判定される。

　ステップＳ４６において、取得された3D Audioメタデータがないと判定された場合、その後、処理はステップＳ４８へと進む。

　また、ステップＳ４６において、取得された3D Audioメタデータがあると判定された場合、AAC復号部６１は、取得した3D Audioメタデータの出力を3D Audioメタデータ取得部６３に指示し、その後、処理はステップＳ４７へと進む。

　この場合、3D Audioメタデータ取得部６３は、外部から取得したり自身が生成したりして得られた外部取得3D Audioメタデータを3D Audioレンダラ６４に供給する。

　ステップＳ４３の処理が行われたか、ステップＳ４５において過去の3D Audioメタデータがあると判定されたか、またはステップＳ４６において取得された3D Audioメタデータがあると判定されると、その後、ステップＳ４７の処理が行われる。

　ステップＳ４７において、3D Audioレンダラ６４は、3D Audioメタデータ復号部６２または3D Audioメタデータ取得部６３から供給された3D Audioメタデータと、AAC復号部６１から供給されたオーディオデータとに基づいてレンダリングを行う。

　そして、3D Audioレンダラ６４は、レンダリングにより得られた3D Audio再生を実現するための現フレームの再生データを出力し、その後、処理はステップＳ４９へと進む。

　また、ステップＳ４４において前フレーム参照フラグの値が「１」でないと判定されたか、またはステップＳ４６において取得された3D Audioメタデータがないと判定された場合、ステップＳ４８の処理が行われる。

　すなわち、ステップＳ４８において3D Audioレンダラ６４は、AAC復号部６１から供給されたオーディオデータに基づいて、通常のAAC規格により定められたレンダリングを行い、その結果得られた再生データを出力する。

　この場合、3D Audioレンダラ６４は、適宜、PCEから読み出された各オーディオオブジェクトの２次元平面上の位置情報（スピーカ配置情報）に基づいて、各オーディオオブジェクトの音像が位置情報により示される２次元平面上の位置に定位するように各チャンネルのオーディオデータを再生データとして生成する。これにより、3D Audioメタデータが得られず、オーディオオブジェクト（音源）の高さ方向の音像定位制御を行うことができなくても、各オーディオオブジェクトの音像を２次元平面上の正しい位置に定位させることができる。

　このようにして現フレームの再生データが出力されると、その後、処理はステップＳ４９へと進む。

　ステップＳ４７の処理またはステップＳ４８の処理が行われて１フレーム分の再生データが出力されると、ステップＳ４９においてAAC復号部６１は、復号すべき3D AACビットストリームがあるか否かを判定する。

　例えばステップＳ４９では、受信された3D AACビットストリームがまだ全て復号されていない場合、復号すべき3D AACビットストリームがあると判定される。

　ステップＳ４９において復号すべき3D AACビットストリームがあると判定された場合、処理はステップＳ４１に戻り、上述した処理が繰り返し行われる。

　これに対して、ステップＳ４９において復号すべき3D AACビットストリームがないと判定された場合、復号処理は終了する。

　以上のようにして復号装置５１は、DSEから3D Audioメタデータを読み出して、読み出した3D Audioメタデータを用いてレンダリングを行う。このようにすることで既存のAAC規格を拡張して3D Audio再生を行うことができ、利便性を向上させることができる。

　また、3D AACビットストリームのPCEに、各オーディオオブジェクトの２次元平面上における位置を示す位置情報が記述されているので、3D Audioメタデータを得ることができなくても、各オーディオオブジェクトの音像を２次元平面上の正しい位置に定位させることができる。すなわち、臨場感を損なうことなくオーディオ再生を行うことができる。

〈第２の実施の形態〉
〈3D Audioメタデータの分割伝送について〉
　ところで、オーディオオブジェクトの数、すなわちオブジェクトオーディオ数が多いほど、3D Audioメタデータのデータ量（符号量）は多くなる。

　そのため、3D Audioメタデータのデータ量が多くなると、3D Audioメタデータのサイズ（データ量）がAAC規格で定義されているDSEの上限サイズを超えてしまうことがある。また、１つのフレームで3D Audioメタデータの格納に必要となるDSEの個数が、AAC規格で定義されているDSEの上限個数を超えてしまうこともある。

　そこで、本技術では、3D Audioメタデータのデータ量が多い場合には、複数の各フレームの3D Audioメタデータを伝送するのではなく、それらの3D Audioメタデータを適宜間引いて、3D Audioメタデータの代表値をそれらの複数のフレームのDSEに格納して伝送するようにした。すなわち、複数のフレームにまたがって代表値を送信するようにした。

　例えば図１２に示すように、１つのフレームのAACフレームデータに３つのDSEを設けることができるとする。なお、図１２において文字「DSE 1」乃至「DSE 3」のそれぞれが記された四角形は、１フレーム分のAACフレームデータ内に設けられたDSEのそれぞれを表している。以下では、それらのDSEをDSE 1乃至DSE 3とも称することとする。

　この例では、１フレーム分の3D Audioメタデータのデータ量が多く、その3D Audioメタデータが１つ目のDSE 1には格納しきれない状態となっている。

　このような場合、符号化装置１１は、3D Audioメタデータを３つのデータに分割する。ここでは、3D Audioメタデータを分割して得られた３つのデータを、分割3D Audioメタデータ（１）乃至分割3D Audioメタデータ（３）と称することとする。さらに、以下、3D Audioメタデータを分割して得られた各データを特に区別する必要のない場合、分割3D Audioメタデータとも称することとする。

　符号化装置１１は、分割により得られた分割3D Audioメタデータ（１）乃至分割3D Audioメタデータ（３）のそれぞれを、DSE 1乃至DSE 3のそれぞれに格納する。

　このとき、符号化装置１１は、3D Audioメタデータが分割されたことや、どの分割3D Audioメタデータが先頭から何番目のデータであるかを特定することができるように、フレーム内DSE分割カウンタと、フレーム内DSE分割終端フラグを生成する。

　フレーム内DSE分割カウンタは、１フレーム分のAACフレームデータにおける、分割3D Audioメタデータが格納された何番目のDSEであるかを示す情報である。

　換言すれば、フレーム内DSE分割カウンタは、DSEに格納された分割3D Audioメタデータが、１フレーム分のAACフレームのDSEに格納された何番目の分割3D Audioメタデータであるかを示す情報であるともいうことができる。

　例えば、フレーム内DSE分割カウンタの値が「ｉ－１」（１≦ｉ）であるDSEに格納されている分割3D Audioメタデータは、１フレーム分のAACフレームのDSEに格納された先頭からｉ番目の分割3D Audioメタデータとなる。

　また、フレーム内DSE分割終端フラグは、１フレーム分のAACフレームデータにおいて順番に並べられたDSEのうち、分割3D Audioメタデータが格納されている最後のDSEであるか否かを示すフラグ情報である。

　具体的には、フレーム内DSE分割終端フラグの値が「０」である場合、そのDSEは分割3D Audioメタデータが格納されている最後のDSEではないことを示している。

　これに対して、フレーム内DSE分割終端フラグの値が「１」である場合、そのDSEは分割3D Audioメタデータが格納されているAACフレームデータ内の最後のDSEであることを示している。

　符号化装置１１は、各DSEに分割3D Audioメタデータとともにフレーム内DSE分割カウンタおよびフレーム内DSE分割終端フラグも格納する。

　すなわち、この例では１番目のDSE 1には１番目の分割3D Audioメタデータであることを示す、値が「０」であるフレーム内DSE分割カウンタと、最後のDSEではないことを示す、値が「０」であるフレーム内DSE分割終端フラグと、分割3D Audioメタデータ（１）とが格納される。

　また、２番目のDSE 2には２番目の分割3D Audioメタデータであることを示す、値が「１」であるフレーム内DSE分割カウンタと、最後のDSEではないことを示す、値が「０」であるフレーム内DSE分割終端フラグと、分割3D Audioメタデータ（２）が格納される。さらに、３番目のDSE 3には３番目の分割3D Audioメタデータであることを示す、値が「２」であるフレーム内DSE分割カウンタと、最後のDSEであることを示す、値が「１」であるフレーム内DSE分割終端フラグと、分割3D Audioメタデータ（３）が格納される。

　このようにフレーム内DSE分割カウンタとフレーム内DSE分割終端フラグを格納することで、復号側では分割3D Audioメタデータを読み出して、それらの分割3D Audioメタデータを正しく結合し、もとの3D Audioメタデータを得ることができる。

　また、3D Audioメタデータが１フレーム分のAACフレームデータに格納しきれない場合、符号化装置１１では例えば図１３に示すように、3D Audioメタデータとしての代表値を複数フレーム分のAACフレームデータに分割して格納する。なお、ここでは、説明を簡単にするため１フレームにつき１つのDSEが設けられるものとする。

　図１３において、矢印A51乃至矢印A55のそれぞれにより示される四角形がフレーム（N-1）乃至フレーム（N+3）のそれぞれのAACフレームデータを表している。また、ここでは、もともとのフレーム（ｉ）（但し、N-1≦ｉ≦N+3）の3D Audioメタデータを3D Audioメタデータ（ｉ）とも記すこととする。

　この例では、もともとはフレーム（N-1）乃至フレーム（N+3）について、3D Audioメタデータ（N-1）乃至3D Audioメタデータ（N+3）が用意されていた。しかし、3D Audioメタデータ（N）乃至3D Audioメタデータ（N+3）については、データ量が多いため、このままではそれらの3D Audioメタデータが、対応する１フレーム分のDSEに格納しきれない状態となっている。

　そこで、符号化装置１１は、フレーム（N）乃至フレーム（N+3）についての3D Audioメタデータを得るための新たな１つの3D Audioメタデータを生成する。換言すれば、いくつかの3D Audioメタデータが間引かれて代表的な3D Audioメタデータが選択される。

　具体的には、例えば符号化装置１１は、3D Audioメタデータ（N）乃至3D Audioメタデータ（N+2）を代表する１つの3D Audioメタデータを代表値として定める。

　ここで、代表値は、例えば3D Audioメタデータ（N）乃至3D Audioメタデータ（N+2）のなかの何れか１つの3D Audioメタデータとされてもよいし、3D Audioメタデータ（N）乃至3D Audioメタデータ（N+2）の平均値が代表値とされてもよい。

　この場合、例えば１つのオーディオオブジェクトに注目すると、3D Audioメタデータとしてのオーディオオブジェクトのフレーム（N）乃至フレーム（N+2）の位置情報の平均値等が、そのオーディオオブジェクトの3D Audioメタデータとしての代表値とされる。

　その他、例えば複数のオーディオオブジェクトがあり、それらの複数のオーディオオブジェクトのなかの１つの特定のオーディオオブジェクトが最も重要であり、その特定のオーディオオブジェクトのフレーム（N+1）における動きが最も重要であったとする。

　そのような場合、例えば特定のオーディオオブジェクトの3D Audioメタデータ（N+1）としての位置情報が、その特定のオーディオオブジェクトの代表値とされる。また、他の全てのオーディオオブジェクトについても、それらのオーディオオブジェクトの3D Audioメタデータ（N+1）としての位置情報のそれぞれが、それらのオーディオオブジェクトの代表値のそれぞれとされる。

　さらに、例えば複数のオーディオオブジェクトがあり、それらの複数のオーディオオブジェクトのなかの１つの特定のオーディオオブジェクトが最も重要であり、その特定のオーディオオブジェクトのフレーム（N+1）における動きが最も重要であったとする。そのような場合に、例えばその特定のオーディオオブジェクトの3D Audioメタデータ（N+1）としての位置情報が、全てのオーディオオブジェクトの代表値とされるようにしてもよい。

　さらに他の例として、複数のオーディオオブジェクトのそれぞれの最も動きが重要なフレームのそれぞれにおける位置情報の平均値が求められ、得られた平均値が全てのオーディオオブジェクトに共通の代表値とされるようにしてもよい。

　符号化装置１１は、3D Audioメタデータ（N）乃至3D Audioメタデータ（N+2）の代表値を定めると、分割して１つの3D Audioメタデータを送信する複数フレームからなる期間（以下、分割伝送期間とも称する）の終端のフレームの3D Audioメタデータを終端値として生成する。

　例えば、この例ではフレーム（N）からフレーム（N+3）までの期間が分割伝送期間となっているので、その分割伝送期間の終端のフレームはフレーム（N+3）となる。そこで、符号化装置１１は、3D Audioメタデータ（N+3）をそのまま終端値とするなど、何らかの方法により終端値を定める。

　さらに、符号化装置１１は、分割伝送期間内のフレームのうちの代表値を適用するフレームを代表値適用フレームとして、その代表値適用フレームを示す適用フレームインデックスを生成する。ここで、代表値適用フレームとは、復号側において代表値がそのまま3D Audioメタデータとして用いられるフレームである。

　例えば図１３の例において、代表値適用フレームがフレーム（N+1）である場合、符号化装置１１は、そのフレーム（N+1）を示す情報を適用フレームインデックスとして生成する。

　具体的には、例えば代表値適用フレームが分割伝送期間における先頭からｉ番目（１≦ｉ）のフレームである場合、適用フレームインデックスの値は「ｉ－１」とされる。したがって、図１３に示す例では、分割伝送期間の先頭から２番目のフレーム（N+1）が代表値適用フレームであるので、適用フレームインデックスの値は「１」となる。

　以上のようにして分割伝送期間の代表値、終端値、および適用フレームインデックスが得られると、符号化装置１１は、代表値と終端値を分割伝送期間の3D Audioメタデータとするとともに、その3D Audioメタデータを分割する。

　すなわち、符号化装置１１は、分割伝送期間の3D Audioメタデータを、その分割伝送期間に含まれるフレームの数の分割3D Audioメタデータへと分割する。

　この例では、分割伝送期間を構成するフレーム数は４であるので、3D Audioメタデータは、文字「分割3D Audioメタデータ（１）」乃至「分割3D Audioメタデータ（４）」により示される４つの分割3D Audioメタデータへと分割される。

　なお、以下、文字「分割3D Audioメタデータ（１）」乃至「分割3D Audioメタデータ（４）」により示される分割3D Audioメタデータを、分割3D Audioメタデータ（１）乃至分割3D Audioメタデータ（４）とも称することとする。

　分割3D Audioメタデータが得られると、符号化装置１１は、それらの分割3D Audioメタデータを各フレームのAACフレームデータのDSEに格納し、出力する。

　ここでは、矢印A61乃至矢印A65のそれぞれにより示される四角形は、実際に符号化装置１１から出力されるフレーム（N-1）乃至フレーム（N+3）のそれぞれのAACフレームデータを表している。

　この例では、フレーム（N-1）のAACフレームデータには、分割されていない3D Audioメタデータ（N-1）がそのままDSEに格納されている。

　一方、フレーム（N）のAACフレームデータでは、分割3D Audioメタデータ（１）と適用フレームインデックスがDSEに格納され、フレーム（N+1）のAACフレームデータでは、分割3D Audioメタデータ（２）がDSEに格納される。また、フレーム（N+2）のAACフレームデータでは、分割3D Audioメタデータ（３）がDSEに格納され、フレーム（N+3）のAACフレームデータでは、分割3D Audioメタデータ（４）がDSEに格納される。

　なお、適用フレームインデックスは、分割伝送期間内のフレームのDSEであれば、どのフレームのDSEに格納されてもよい。

　さらに、このような3D AACビットストリームを受信した復号装置５１では、例えば図１４に示すように復号が行われる。なお、図１４において図１３における場合と対応する部分については、その説明は適宜省略する。

　図１４に示す例では、復号装置５１において矢印A71乃至矢印A75のそれぞれにより示されるAACフレームデータからなる3D AACビットストリームが受信される。

　ここで、矢印A71乃至矢印A75のそれぞれに示した各フレームのAACフレームデータは、図１３の矢印A61乃至矢印A65のそれぞれに示した各フレームのAACフレームデータに対応する。

　復号装置５１は、3D Audioメタデータの分割が行われていないフレーム（N-1）については、矢印A81に示すように、そのフレーム（N-1）のAACフレームデータから3D Audioメタデータ（N-1）を読み出す。そして、復号装置５１は、読み出した3D Audioメタデータ（N-1）に基づいてレンダリングを行う。

　これに対して、3D Audioメタデータの分割が行われたフレーム（N）乃至フレーム（N+3）については、分割3D Audioメタデータ（１）乃至分割3D Audioメタデータ（４）に基づいて、それらのフレームの3D Audioメタデータが生成される。

　すなわち、復号装置５１のAAC復号部６１は、フレーム（N）乃至フレーム（N+3）のDSEのそれぞれから、それらのフレームに対する3D Audioメタデータを分割して得られた分割3D Audioメタデータ（１）乃至分割3D Audioメタデータ（４）のそれぞれを読み出す。そして、AAC復号部６１は、読み出したそれらの分割3D Audioメタデータ（１）乃至分割3D Audioメタデータ（４）を結合し、１つの符号化3D Audioメタデータとする。

　そして、復号装置５１は得られた符号化3D Audioメタデータを復号することで、代表値と終端値を得るとともに、DSEから適用フレームインデックスを読み出す。そして、復号装置５１は得られた代表値、終端値、および適用フレームインデックスに基づいて補間処理を行うことで、分割伝送期間内のフレームの3D Audioメタデータを生成する。

　具体的には、復号装置５１は矢印A83に示すように、代表値を、適用フレームインデックスにより示されるフレーム（N+1）の3D Audioメタデータとする。

　また、復号装置５１は、矢印A82に示すようにフレーム（N-1）の3D Audioメタデータ（N-1）と、フレーム（N+1）の3D Audioメタデータである代表値とに基づいて、補間処理によりフレーム（N）の3D Audioメタデータ（N）を生成する。

　さらに復号装置５１は、矢印A85に示すように終端値をそのままフレーム（N+3）の3D Audioメタデータとする。復号装置５１は、矢印A84に示すようにフレーム（N+1）の3D Audioメタデータである代表値と、フレーム（N+3）の3D Audioメタデータである終端値とに基づいて、補間処理によりフレーム（N+2）の3D Audioメタデータ（N+2）を生成する。

　復号装置５１はフレーム（N）乃至フレーム（N+3）では、このようにして得られた3D Audioメタデータ（N）乃至3D Audioメタデータ（N+3）を用いてレンダリングを行う。

　復号装置５１では、以上のようにして複数フレームにまたがって分割して格納された分割3D Audioメタデータを読み出し、分割伝送期間の各フレームの3D Audioメタデータを得る。このようにすることで、効率的に3D Audioメタデータを伝送して利便性を向上させるとともに、臨場感のある3D Audio再生を実現することができる。

　なお、ここでは分割伝送期間の3D Audioメタデータに終端値が含まれる例について説明したが、終端値が含まれないようにしてもよい。そのような場合には、分割伝送期間の終端直後のフレームの3D Audioメタデータを終端値として用いるようにすればよい。

〈DSEシンタックス例〉
　以上のように、１フレーム分のAACフレームデータにおいて、3D Audioメタデータを複数の分割3D Audioメタデータに分割して複数のDSEに格納する場合、復号側においてそのことを認識することができるようにする必要がある。

　そのため、符号化側では、上述したフレーム内DSE分割カウンタやフレーム内DSE分割終端フラグを含む、フレーム内、つまりAACフレームデータ内での3D Audioメタデータの分割に関する情報であるフレーム内DSE分割情報がDSEに記述される。

　このようなフレーム内DSE分割情報のシンタックスは、例えば図１５に示すようになる。図１５に示す例では、文字「dse_div_info()」は、フレーム内DSE分割情報が格納された関数を表しており、この関数は各フレームの3D Audioメタデータに存在する。ここでは、フレーム内DSE分割情報はDSEごとに存在する。

　また、フレーム内DSE分割情報には、文字「dse_div_cnt」により示されるフレーム内DSE分割カウンタ、および文字「dse_div_terminate」により示されるフレーム内DSE分割終端フラグが含まれている。

　上述したようにフレーム内DSE分割カウンタは、対応するDSEが同じフレームにおける分割3D Audioメタデータが格納されているDSEのうちの何番目のものであるかを示す、０から始まるカウンタ情報である。ここでは、フレーム内DSE分割カウンタは３ビットの情報であるので、１フレーム内では、3D Audioメタデータまたは分割3D Audioメタデータを、最大で８個の分割3D Audioメタデータに分割することが可能となっている。すなわち、最大で８個のDSEを設けることができる。

　また、フレーム内DSE分割終端フラグは、値が「０」とされているときには対応するDSEがフレーム内における、分割3D Audioメタデータが格納された最後のDSEではないことを示している。これに対して、フレーム内DSE分割終端フラグの値が「１」とされているときには、対応するDSEがフレーム内における、分割3D Audioメタデータが格納された最後のDSEであることを示している。

　さらに、１つの3D Audioメタデータを分割して得られた分割3D Audioメタデータを複数のフレームのDSEに格納する場合、復号側においてそのことを認識することができるようにする必要がある。

　そのため、符号化側では、フレーム内DSE分割情報における場合と同様に、フレーム間での3D Audioメタデータの分割、つまり複数フレームに対する3D Audioメタデータの分割に関する情報であるフレーム分割情報がDSEに記述される。

　このようなフレーム分割情報のシンタックスは、例えば図１６に示すようになる。

　図１６に示す例では、文字「frame_div_info()」は、フレーム分割情報が格納された関数を表しており、この関数は各フレームの3D Audioメタデータに存在する。ここでは、フレーム分割情報は１フレームに対して１つ存在する。

　フレーム分割情報には、文字「frm_div_mode」により示されるフレーム分割モード情報が含まれている。

　このフレーム分割モード情報は、複数フレームにまたがって１つの3D Audioメタデータを伝送する、つまり複数フレームのDSEに１つの3D Audioメタデータを分割して格納するフレーム分割モードであるか否かを示す情報である。

　ここでは、フレーム分割モード情報の値が「０」である場合には、フレーム分割モードではない、つまり１フレーム分の3D Audioメタデータが１フレーム分のDSEに格納されることを示している。

　これに対して、フレーム分割モード情報の値が「１」である場合には、フレーム分割モードである、つまり複数フレームのDSEに１つの3D Audioメタデータが分割されて格納されることを示している。

　また、フレーム分割モード情報の値が「１」である場合には、フレーム分割情報には、さらに文字「frm_div_cnt」により示されるフレーム分割カウンタと、文字「frm_div_terminate」により示されるフレーム分割終端フラグが格納されている。

　フレーム分割カウンタは、対応するフレームが分割伝送期間を構成するフレームのうちの先頭から何番目のものであるかを示す、０から始まるカウンタ情報である。ここでは、フレーム分割カウンタは３ビットの情報であるので、分割伝送期間は最大で８フレームの期間とすることが可能となっている。すなわち、１つの3D Audioメタデータを８フレームにまたがって伝送することが可能となっている。

　また、フレーム分割終端フラグは、値が「０」とされているときには対応するフレームが分割伝送期間における最後のフレームではないことを示している。これに対して、フレーム分割終端フラグの値が「１」とされているときには、対応するフレームが分割伝送期間における最後（終端）のフレームであることを示している。

　さらに、フレーム分割カウンタの値が「０」である場合、フレーム分割情報には文字「apply_frm_Index」により示される適用フレームインデックスも格納されている。つまり、適用フレームインデックスは、分割伝送期間における最初（先頭）のフレームのDSEに格納される。

　この適用フレームインデックスは代表値適用フレームを示す情報であり、ここでは代表値適用フレームのフレーム分割カウンタの値が、適用フレームインデックスの値となっている。

　なお、分割フレーム数、つまり分割伝送期間を構成するフレーム数をFとしたときに、適用フレームインデックスの値がFよりも１だけ小さい（F-1）である場合には、3D Audioメタデータとして代表値または終端値のみが含まれている。

　換言すれば、適用フレームインデックスにより示されるフレームが分割伝送期間の終端のフレームである場合には、終端値が代表値となるので、代表値または終端値のみが3D Audioメタデータとして伝送されることになる。

　１フレーム分のAACフレームデータには、以上で説明したフレーム内DSE分割情報とフレーム分割情報が格納されることになる。以下では、フレーム内DSE分割情報やフレーム分割情報からなる情報を分割情報とも称することとする。但し、AACフレームデータの各DSEに分割情報が格納され、分割情報には、フレーム分割情報は必ずしも含まれていなくてもよいが、フレーム内DSE分割情報は必ず含まれているようにされる。

　そのような場合、AACフレームデータに格納される分割情報のシンタックスは、例えば図１７に示すようになる。

　図１７に示す例では、文字「div_info()」は分割情報が格納された関数を表しており、この関数は各フレームの3D Audioメタデータに存在する。

　また、ここでは分割情報として、文字「dse_div_info()」により示されるフレーム内DSE分割情報が含まれている。また、そのフレーム内DSE分割情報に含まれているフレーム内DSE分割カウンタ（dse_div_cnt）の値が「０」である場合、分割情報として、さらに文字「frame_div_info()」により示されるフレーム分割情報が含まれている。

　すなわち、AACフレームデータにおける最初（先頭）のDSEには、分割情報としてフレーム内DSE分割情報とフレーム分割情報が含まれており、AACフレームデータにおける２番目以降のDSEには、分割情報としてフレーム内DSE分割情報のみが含まれている。

　図１７に示すようにAACフレームデータに分割情報が格納される場合、１つの3D Audioメタデータが３つのフレームにまたがって伝送されるときには、例えば図１８に示すようになる。

　図１８に示す例では、矢印A101乃至矢印A103により示されるAACフレームデータであるAACフレームデータ（１）乃至AACフレームデータ（３）に１つの3D Audioメタデータが格納されている。

　すなわち、１つ目のAACフレームデータ（１）には、１番目のDSEであるDSE1と、２番目のDSEであるDSE2とが設けられている。

　このAACフレームデータ（１）のDSE1には、分割情報としてのフレーム内DSE分割情報（dse_div_info()）およびフレーム分割情報（frame_div_info()）と、分割された3D Audioメタデータである分割3D Audioメタデータ（1-1）とが格納されている。

　この場合、AACフレームデータ（１）のDSE1内のフレーム内DSE分割情報においては、フレーム内DSE分割カウンタ（dse_div_cnt）の値は「０」とされ、フレーム内DSE分割終端フラグ（dse_div_terminate）の値は「０」とされる。

　また、AACフレームデータ（１）のDSE1内のフレーム分割情報においては、フレーム分割モード情報（frm_div_mode）の値は「１」とされ、フレーム分割カウンタ（frm_div_cnt）の値は「０」とされ、フレーム分割終端フラグ（frm_div_terminate）の値は「０」とされ、適切な値の適用フレームインデックスが含まれている。

　さらに、AACフレームデータ（１）のDSE2には、分割情報としてのフレーム内DSE分割情報（dse_div_info()）と、分割された3D Audioメタデータである分割3D Audioメタデータ（1-2）とが格納されている。

　この場合、AACフレームデータ（１）のDSE2内のフレーム内DSE分割情報においては、フレーム内DSE分割カウンタ（dse_div_cnt）の値は「１」とされ、フレーム内DSE分割終端フラグ（dse_div_terminate）の値は「１」とされる。

　同様に、２つ目のAACフレームデータ（２）には、１番目のDSE1と、２番目のDSE2とが設けられている。

　AACフレームデータ（２）のDSE1には、分割情報としてのフレーム内DSE分割情報（dse_div_info()）およびフレーム分割情報（frame_div_info()）と、分割された3D Audioメタデータである分割3D Audioメタデータ（2-1）とが格納されている。

　この場合、AACフレームデータ（２）のDSE1内のフレーム内DSE分割情報においては、フレーム内DSE分割カウンタ（dse_div_cnt）の値は「０」とされ、フレーム内DSE分割終端フラグ（dse_div_terminate）の値は「０」とされる。

　また、AACフレームデータ（２）のDSE1内のフレーム分割情報においては、フレーム分割モード情報（frm_div_mode）の値は「１」とされ、フレーム分割カウンタ（frm_div_cnt）の値は「１」とされ、フレーム分割終端フラグ（frm_div_terminate）の値は「０」とされる。なお、このフレーム分割情報には、適用フレームインデックスは含まれていない。

　さらに、AACフレームデータ（２）のDSE2には、分割情報としてのフレーム内DSE分割情報（dse_div_info()）と、分割された3D Audioメタデータである分割3D Audioメタデータ（2-2）とが格納されている。

　この場合、AACフレームデータ（２）のDSE2内のフレーム内DSE分割情報においては、フレーム内DSE分割カウンタ（dse_div_cnt）の値は「１」とされ、フレーム内DSE分割終端フラグ（dse_div_terminate）の値は「１」とされる。

　さらに３つ目のAACフレームデータ（３）には、１番目のDSE1と、２番目のDSE2とが設けられている。

　AACフレームデータ（３）のDSE1には、分割情報としてのフレーム内DSE分割情報（dse_div_info()）およびフレーム分割情報（frame_div_info()）と、分割された3D Audioメタデータである分割3D Audioメタデータ（3-1）とが格納されている。

　この場合、AACフレームデータ（３）のDSE1内のフレーム内DSE分割情報においては、フレーム内DSE分割カウンタ（dse_div_cnt）の値は「０」とされ、フレーム内DSE分割終端フラグ（dse_div_terminate）の値は「０」とされる。

　また、AACフレームデータ（３）のDSE1内のフレーム分割情報においては、フレーム分割モード情報（frm_div_mode）の値は「１」とされ、フレーム分割カウンタ（frm_div_cnt）の値は「２」とされ、フレーム分割終端フラグ（frm_div_terminate）の値は「１」とされる。なお、このフレーム分割情報には、適用フレームインデックスは含まれていない。

　さらに、AACフレームデータ（３）のDSE2には、分割情報としてのフレーム内DSE分割情報（dse_div_info()）と、分割された3D Audioメタデータである分割3D Audioメタデータ（3-2）とが格納されている。

　この場合、AACフレームデータ（３）のDSE2内のフレーム内DSE分割情報においては、フレーム内DSE分割カウンタ（dse_div_cnt）の値は「１」とされ、フレーム内DSE分割終端フラグ（dse_div_terminate）の値は「１」とされる。

　したがって、復号装置５１では、AACフレームデータ（１）乃至AACフレームデータ（３）に含まれている分割3D Audioメタデータ（1-1）、分割3D Audioメタデータ（1-2）、分割3D Audioメタデータ（2-1）、分割3D Audioメタデータ（2-2）、分割3D Audioメタデータ（3-1）、および分割3D Audioメタデータ（3-2）が読み出されてそれらの分割3D Audioメタデータが結合され、１つの3D Audioメタデータとされる。そして、得られた１つの3D Audioメタデータを復号することで、上述した代表値と終端値が得られる。

〈符号化処理の説明〉
　次に、適宜、3D Audioメタデータが分割して格納される場合に行われる符号化処理と復号処理について説明する。まず、図１９のフローチャートを参照して、符号化装置１１による符号化処理について説明する。

　ステップＳ８１において、3D Audioメタデータ符号化部２１は、処理対象とする現フレームについて、フレーム分割モード情報（frm_div_mode）の値を「０」とする。

　そして、ステップＳ８２において、3D Audioメタデータ符号化部２１は、処理対象とする現フレームについて、伝送すべき3D Audioメタデータがあるか否かを判定する。ステップＳ８２では、図１０のステップＳ１１における場合と同様の処理が行われる。

　ステップＳ８２において、伝送すべき3D Audioメタデータがあると判定された場合、ステップＳ８３において3D Audioメタデータ符号化部２１は、3D Audioメタデータ符号化処理を行って、外部から供給された3D Audioメタデータを符号化する。ステップＳ８３では、図１０のステップＳ１２と同様の処理が行われる。

　ステップＳ８４において、3D Audioメタデータ符号化部２１は、ステップＳ８３の処理で得られた処理対象の現フレームの符号化3D Audioメタデータの符号量（データ量）が、予め定められた許容範囲内であるか否かを判定する。

　ここでは、符号化3D Audioメタデータのデータ量が許容範囲となる閾値よりも多く（大きく）、符号化3D Audioメタデータを現フレームのAACフレームデータのDSEに格納しきれない場合に、許容範囲内ではないと判定される。

　ステップＳ８４において許容範囲内であると判定された場合、3D Audioメタデータ符号化部２１は、ステップＳ８３の処理で得られた符号化3D AudioメタデータをそのままAAC符号化部２２に供給し、その後、処理はステップＳ９０へと進む。

　より詳細には、このとき3D Audioメタデータ符号化部２１は、符号化3D Audioメタデータが１つのDSEに格納しきれないときには、符号化3D Audioメタデータをいくつかの分割3D Audioメタデータに分割する。そして、3D Audioメタデータ符号化部２１は、分割により得られた分割3D Audioメタデータのそれぞれが現フレームのAACフレームデータにおける複数のDSEのそれぞれに格納されるようにする。

　また、3D Audioメタデータ符号化部２１は、適切なフレーム内DSE分割情報とフレーム分割情報も生成し、それらのフレーム内DSE分割情報とフレーム分割情報もAAC符号化部２２に供給する。特に、ここでは現フレームの3D Audioメタデータが現フレームのAACフレームデータに格納されるので、フレーム分割モード情報（frm_div_mode）の値は「０」とされる。すなわち、ステップＳ８１で設定されたフレーム分割モード情報がそのままAAC符号化部２２へと供給される。

　なお、符号化3D Audioメタデータの分割や、フレーム内DSE分割情報とフレーム分割情報の生成は、3D Audioメタデータ符号化部２１ではなくAAC符号化部２２において行われるようにしてもよい。

　これに対して、ステップＳ８４において許容範囲内ではないと判定された場合、その後、処理はステップＳ８５へと進む。

　ステップＳ８５において、3D Audioメタデータ符号化部２１は、ステップＳ８１で設定した現フレームのフレーム分割モード情報（frm_div_mode）の値を「１」に変更する。

　また、3D Audioメタデータ符号化部２１は、これまで現フレームとしていたフレームを分割伝送期間の先頭フレームとする。

　3D Audioメタデータ符号化部２１は、その先頭フレームの時間的に次のフレームを新たな処理対象のフレームとし、その新たな処理対象のフレームの3D Audioメタデータも取得する。さらに、3D Audioメタデータ符号化部２１は、分割伝送期間のフレームの3D Audioメタデータについて、適宜、重要度の低いオーディオオブジェクトや動きのないオーディオオブジェクトの位置情報等を削除するなどして、3D Audioメタデータのデータ量の削減を行うようにしてもよい。

　ステップＳ８６において、3D Audioメタデータ符号化部２１は、分割伝送期間の先頭フレームから、現時点で処理対処とされているフレームまでの各フレームの3D Audioメタデータを対象として代表値と終端値を算出する。

　すなわち、3D Audioメタデータ符号化部２１は、現時点で処理対処とされているフレームが分割伝送期間の終端のフレームであるものとする。

　そして、3D Audioメタデータ符号化部２１は、分割伝送期間を構成する各フレームの3D Audioメタデータ、より詳細には終端のフレームを除く各フレームの3D Audioメタデータに基づいて、分割伝送期間についての3D Audioメタデータの代表値を決定する。例えば、3D Audioメタデータの代表値の決定時には、上述したように、平均値を求める演算等が必要に応じて行われ、代表値を適用する代表値適用フレームも3D Audioメタデータ符号化部２１により決定される。

　また、3D Audioメタデータ符号化部２１は、分割伝送期間の終端のフレームの3D Audioメタデータ等に基づいて、その終端のフレームの最終的な3D Audioメタデータである終端値を決定する。

　3D Audioメタデータ符号化部２１は、このようにして決定された代表値と終端値を、分割伝送期間を構成する複数のフレームに対する3D Audioメタデータとする。この場合、3D Audioメタデータ符号化部２１は、分割伝送期間の代表値と終端値を決定するメタデータ決定部として機能する。

　ステップＳ８７において、3D Audioメタデータ符号化部２１は、ステップＳ８６で得られた代表値と終端値を3D Audioメタデータとして3D Audioメタデータ符号化処理を行い、3D Audioメタデータを符号化する。

　ステップＳ８８において、3D Audioメタデータ符号化部２１は、ステップＳ８７の処理で得られた符号化3D Audioメタデータの符号量（データ量）が、分割伝送期間を構成するフレームの数により定まる許容範囲内であるか否かを判定する。

　ここでは、符号化3D Audioメタデータのデータ量が許容範囲となる閾値よりも多く（大きく）、符号化3D Audioメタデータが分割伝送期間を構成する全フレームのAACフレームデータのDSEに格納しきれない場合に、許容範囲内ではないと判定される。

　ステップＳ８８において許容範囲内ではないと判定された場合、まだ分割伝送期間に対して3D Audioメタデータのデータ量が多すぎるので、処理はステップＳ８６に戻り、上述した処理が繰り返し行われる。このとき、これまで分割伝送期間としてきた期間の終端のフレームの時間的に次のフレームが、新たな分割伝送期間の終端のフレームとされる。

　これに対して、ステップＳ８８において許容範囲内であると判定された場合、ステップＳ８９において3D Audioメタデータ符号化部２１は、フレーム分割処理を行う。

　すなわち、3D Audioメタデータ符号化部２１は、ステップＳ８７の処理で得られた符号化3D Audioメタデータを、複数の分割3D Audioメタデータに分割する。例えば図１８に示した例では、符号化3D Audioメタデータが分割3D Audioメタデータ（1-1）乃至分割3D Audioメタデータ（3-2）に分割される。

　また、3D Audioメタデータ符号化部２１は、3D Audioメタデータの分割結果や分割伝送期間等に応じて、ステップＳ８５で定めた値が「１」であるフレーム分割モード情報を含むフレーム分割情報や、フレーム内DSE分割情報も生成する。ここでは、フレーム分割情報は分割伝送期間のフレームごとに生成され、フレーム内DSE分割情報は分割伝送期間の各フレームのDSEごとに生成される。

　そして、3D Audioメタデータ符号化部２１は、生成したフレーム内DSE分割情報およびフレーム分割情報と、分割3D AudioメタデータとをAAC符号化部２２に供給し、その後、処理はステップＳ９０へと進む。なお、ステップＳ８９のフレーム分割処理は、AAC符号化部２２により行われるようにしてもよい。

　ステップＳ８４において許容範囲内であると判定されたか、またはステップＳ８９の処理が行われると、その後、ステップＳ９０の処理が行われる。

　ステップＳ９０において、AAC符号化部２２は3D Audioメタデータ符号化部２１から供給された符号化3D Audioメタデータ、フレーム内DSE分割情報、およびフレーム分割情報と、外部から供給されたオーディオデータとをAAC符号化し、3D AACビットストリームを生成する。

　具体的には、AAC符号化部２２は、フレーム内DSE分割情報およびフレーム分割情報を、図１５乃至図１７に示したシンタックスに従ってAACフレームデータのDSEに格納するとともに、適宜、分割された符号化3D AudioメタデータもDSEに格納する。

　例えば複数のフレームにまたがって3D Audioメタデータが伝送されるときには、AAC符号化部２２は、分割伝送期間の複数のフレームのDSEのそれぞれに、それらの複数のフレームに対する3D Audioメタデータを分割して得られた分割3D Audioメタデータのそれぞれを格納する。その際、AAC符号化部２２は、適切な値とされたフレーム分割モード情報や適用フレームインデックスなどを含むフレーム分割情報と、フレーム内DSE分割情報も適宜、DSEに格納する。

　また、AAC符号化部２２は、外部から供給されたオーディオデータをAAC符号化方式により符号化し、AACオーディオエレメントデータとしてAACフレームデータのSCEやCPE、LFEなどに格納する。さらに、AAC符号化部２２は、外部から供給された3D Audio構成要素情報や、オーディオオブジェクトの２次元平面上の位置を示す位置情報もAACフレームデータのPCEに格納する。

　AAC符号化部２２は、このようにして得られた１フレーム分または複数フレーム分のAACフレームデータからなる3D AACビットストリームを出力（送信）すると、その後、処理はステップＳ９２へと進む。

　また、ステップＳ８２において伝送すべき3D Audioメタデータがないと判定された場合、その後、処理はステップＳ９１へと進む。

　ステップＳ９１において、AAC符号化部２２は、外部から供給されたオーディオデータをAAC符号化する。

　すなわち、AAC符号化部２２は、外部から供給された１フレーム分のオーディオデータをAAC符号化方式により符号化し、AACフレームデータに格納する。また、AAC符号化部２２は、外部から供給された3D Audio構成要素情報や、オーディオオブジェクトの２次元平面上の位置を示す位置情報もAACフレームデータのPCEに格納する。

　AAC符号化部２２は、このようにして得られた１フレーム分のAACフレームデータからなる3D AACビットストリームを出力すると、その後、処理はステップＳ９２へと進む。

　なお、ここでは前フレーム参照フラグは用いられない例について説明したが、前フレーム参照フラグも用いられるようにしても勿論よい。

　そのような場合、ステップＳ９０ではDSEに前フレーム参照フラグが格納される。また、ステップＳ８２において伝送すべき3D Audioメタデータがないと判定された場合には、その後、図１０のステップＳ１４乃至ステップＳ１６と同様の処理が行われる。

　ステップＳ９０の処理、またはステップＳ９１の処理が行われると、その後、ステップＳ９２の処理が行われる。

　ステップＳ９２において、符号化装置１１は、符号化すべきオーディオデータがあるか否かを判定する。

　ステップＳ９２において、まだ符号化すべきオーディオデータがあると判定された場合、処理はステップＳ８１に戻り、上述した処理が繰り返し行われる。

　これに対して、ステップＳ９２において符号化すべきオーディオデータがない、すなわち伝送するコンテンツのオーディオデータが全て符号化されて出力されたと判定された場合、符号化処理は終了する。

　以上のようにして符号化装置１１は、3D AudioメタデータをDSEに格納し、3D AACビットストリームを生成する。このようにすることで既存のAAC規格を拡張し、復号側において3D Audioメタデータを利用して3D Audio再生を行うことができるようになる。これにより、利便性を向上させることができる。特に3D Audioメタデータを１フレーム分のAACフレームデータに格納しきれないときには、代表値および終端値を3D Audioメタデータとし、複数フレームのAACフレームデータにまたがって格納することで、効率的に3D Audioメタデータを伝送することができる。

〈復号処理の説明〉
　次に、図２０のフローチャートを参照して、復号装置５１により行われる復号処理について説明する。

　ステップＳ１３１において、AAC復号部６１は受信した3D AACビットストリームに対して、AAC符号化方式に対応する復号方式での復号処理であるAAC復号処理を行う。

　ステップＳ１３１では、図１１のステップＳ４１と同様の処理が行われて、復号により得られた3D Audio構成要素情報が上位の制御部に供給されたり、各オーディオオブジェクトの２次元平面上の位置情報が読み出されたり、復号により得られたオーディオデータが3D Audioレンダラ６４に供給されたりする。

　ステップＳ１３２において、AAC復号部６１は、3D AACビットストリームのAACフレームデータのDSEに3D Audioメタデータがあるか否かを判定する。

　ステップＳ１３２において3D Audioメタデータがあると判定された場合、その後、処理はステップＳ１３３へと進む。

　ステップＳ１３３において、AAC復号部６１はAACフレームデータのDSEに格納されているフレーム分割モード情報（frm_div_mode）に基づいて、フレーム分割されているか否かを判定する。例えばフレーム分割モード情報の値が「１」である場合、フレーム分割されている、つまり１つの3D Audioメタデータが複数のフレームのAACフレームデータにまたがって記録されていると判定される。

　ステップＳ１３３においてフレーム分割されていないと判定された場合、つまりフレーム分割モード情報の値が「０」である場合、処理はステップＳ１３４へと進む。

　この場合、AAC復号部６１は１フレーム分のAACフレームデータのDSEから符号化3D Audioメタデータを読み出して3D Audioメタデータ復号部６２へと供給する。

　なお、このとき１フレーム分のAACフレームデータの複数のDSEに3D Audioメタデータが分割して格納されている場合には、AAC復号部６１は各DSEのフレーム内DSE分割情報を参照してそれらのDSEから分割3D Audioメタデータを読み出す。すなわち、１フレーム分のAACフレームデータの複数のDSEのそれぞれから、１フレーム分の3D Audioメタデータを分割して得られた分割3D Audioメタデータのそれぞれが読み出される。

　そして、AAC復号部６１は各DSEから読み出した分割3D Audioメタデータを結合して１つの符号化3D Audioメタデータとし、その符号化3D Audioメタデータを3D Audioメタデータ復号部６２に供給する。

　ステップＳ１３４において、3D Audioメタデータ復号部６２は、AAC復号部６１から供給された符号化3D Audioメタデータを復号し、その結果得られた１フレーム分の3D Audioメタデータを3D Audioレンダラ６４に供給する。

　このようにして3D Audioメタデータが得られると、その後、処理はステップＳ１４０へと進む。

　これに対して、ステップＳ１３３においてフレーム分割されていると判定された場合、ステップＳ１３５において、AAC復号部６１は１フレーム分のAACフレームデータのDSEから分割3D Audioメタデータを取得する（読み出す）。

　この場合においても、１フレーム分のAACフレームデータにおいて分割3D Audioメタデータが複数のDSEに格納されている場合には、フレーム内DSE分割情報が参照されて、それらのDSEから分割された3D Audioメタデータが読み出される。

　ステップＳ１３６において、AAC復号部６１は、分割伝送期間の先頭フレームからこれまでの処理により得られた、分割された3D Audioメタデータを結合する。分割された3D Audioメタデータを結合する結合処理にあたっては、AAC復号部６１は、適宜、DSEから読み出されたフレーム分割情報を参照しながら結合を行う。

　ステップＳ１３７において、AAC復号部６１は、直前のステップＳ１３５で処理したフレームが分割伝送期間の終端のフレームであるか否かを判定する。例えばAAC復号部６１は、直前のステップＳ１３５で処理したフレームのフレーム分割終端フラグ（frm_div_terminate）の値が「１」である場合、終端のフレームであると判定する。

　ステップＳ１３７において、終端のフレームではないと判定された場合、まだ分割3D Audioメタデータを読み出していない分割伝送期間のフレームがあるので、処理はステップＳ１３５に戻り、上述した処理が繰り返し行われる。すなわち、次のフレームについて分割3D Audioメタデータが読み出される。

　これに対して、ステップＳ１３７において終端のフレームであると判定された場合、直前に行われたステップＳ１３６の処理により、分割伝送期間についての符号化3D Audioメタデータが得られたので、その後、処理はステップＳ１３８へと進む。

　このとき、AAC復号部６１は、結合により得られた分割伝送期間についての符号化3D Audioメタデータと、その分割伝送期間についてDSEのフレーム内DSE分割情報やフレーム分割情報から読み出された適用フレームインデックス（apply_frm_Index）等の情報とを3D Audioメタデータ復号部６２に供給する。これにより、3D Audioメタデータ復号部６２は、分割伝送期間が何フレームから構成されているかや、代表値がどのフレームに適用されるかを特定することができる。

　ステップＳ１３８において、3D Audioメタデータ復号部６２は、AAC復号部６１から供給された分割伝送期間の符号化3D Audioメタデータを復号する。これにより、分割伝送期間についての代表値と終端値が得られることになる。

　ステップＳ１３９において、3D Audioメタデータ復号部６２は、ステップＳ１３８の処理で得られた代表値および終端値と、既に得られている分割伝送期間の直前のフレームの3D Audioメタデータと、適用フレームインデックスとに基づいて補間処理を行う。

　例えば補間処理では、図１４を参照して説明したように、分割伝送期間の直前のフレームの3D Audioメタデータと代表値とが用いられて、分割伝送期間の先頭のフレームから代表値が適用されるフレームの直前のフレームまでの間の各フレームの3D Audioメタデータが補間により算出される。

　同様に、代表値と終端値とが用いられて、代表値が適用されるフレームの直後のフレームから、分割伝送期間の終端のフレームの直前のフレームまでの間の各フレームの3D Audioメタデータが補間により算出される。

　この場合、3D Audioメタデータ復号部６２は、補間処理を行って分割伝送期間のフレームの3D Audioメタデータを生成するメタデータ生成部として機能する。

　このような処理により、分割伝送期間の各フレームの3D Audioメタデータが得られたことになる。なお、補間処理時には、適宜、適用フレームインデックスなどのAAC復号部６１から供給された情報が参照される。

　分割伝送期間の各フレームの3D Audioメタデータが得られると、3D Audioメタデータ復号部６２は、それらの3D Audioメタデータを3D Audioレンダラ６４に供給し、その後、処理はステップＳ１４０へと進む。

　ステップＳ１３４またはステップＳ１３９の処理が行われて１または複数のフレームの3D Audioメタデータが得られると、その後、ステップＳ１４０の処理が行われる。

　すなわち、ステップＳ１４０において、3D Audioレンダラ６４は、3D Audioメタデータ復号部６２から供給された3D Audioメタデータと、AAC復号部６１から供給されたオーディオデータとに基づいてレンダリングを行う。なお、ステップＳ１４０では図１１のステップＳ４７における場合と同様の処理が行われる。

　レンダリングにより再生データが得られると、3D Audioレンダラ６４は、得られた再生データを出力し、その後、処理はステップＳ１４２へと進む。

　一方、ステップＳ１３２において、3D Audioメタデータがないと判定された場合、その後、ステップＳ１４１の処理が行われる。

　すなわち、ステップＳ１４１において3D Audioレンダラ６４は、AAC復号部６１から供給されたオーディオデータに基づいて、通常のAAC規格により定められたレンダリングを行い、その結果得られた再生データを出力する。ステップＳ１４１では図１１のステップＳ４８における場合と同様の処理が行われる。

　このようにして再生データが出力されると、その後、処理はステップＳ１４２へと進む。

　そのような場合、ステップＳ１３２において、3D Audioメタデータがないと判定された場合には、その後、図１１のステップＳ４４乃至ステップＳ４６、およびステップＳ４８と同様の処理が行われる。

　ステップＳ１４０またはステップＳ１４１の処理が行われると、ステップＳ１４２においてAAC復号部６１は、復号すべき3D AACビットストリームがあるか否かを判定する。

　ステップＳ１４２において復号すべき3D AACビットストリームがあると判定された場合、処理はステップＳ１３１に戻り、上述した処理が繰り返し行われる。

　これに対して、ステップＳ１４２において復号すべき3D AACビットストリームがないと判定された場合、復号処理は終了する。

　特に、分割伝送期間の3D Audioメタデータが複数フレームのAACフレームデータにまたがって格納されているときには、3D Audioメタデータとしての代表値および終端値に基づいて補間処理を行い、各フレームの3D Audioメタデータを得ることで、少ない符号量でも効率的に3D Audioの再生を行うことができる。

　以上のように、本技術によればオーディオコーデック（符号化方式）に依存することなく、アンシラリーデータ領域を持つ既存のオーディオコーデックの規格内で3D Audioデータの伝送を行うことができる。

　また、DSEなどのアンシラリーデータ領域の大きさに制限がある場合には、3D Audioメタデータを分割し、複数のアンシラリーデータ領域に分散して格納することで3D Audioメタデータを伝送することができる。

　さらに、PCE等にオーディオオブジェクトの２次元平面上の位置を示す位置情報、つまりチャンネルマッピングに関する情報（スピーカ配置情報）を格納して伝送することで、3D Audioに対応していない既存の復号装置においても可能な限りの位置情報を用いてオーディオ再生を行うことができる。

〈コンピュータの構成例〉
　ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図２１は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

　バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

　入力部５０６は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

　以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、本技術は、以下の構成とすることも可能である。

（１）
　符号化ビットストリームに含まれている、オブジェクトオーディオを含むオーディオデータを復号するとともに、前記符号化ビットストリームの任意のデータを格納可能な領域から前記オブジェクトオーディオのメタデータを読み出す復号部と、
　前記メタデータに基づいて、復号された前記オーディオデータを出力する出力部と
　を備える復号装置。
（２）
　前記復号部は、１フレーム分の前記符号化ビットストリームにおける複数の前記領域のそれぞれから、前記メタデータを分割して得られた複数のデータのそれぞれを読み出し、前記複数の前記データに基づいて前記メタデータを得る
　（１）に記載の復号装置。
（３）
　前記復号部は、前記符号化ビットストリームにおける複数のフレームの前記領域のそれぞれから、前記メタデータを分割して得られた複数のデータのそれぞれを読み出し、前記複数の前記データに基づいて、前記複数のフレームに対する前記メタデータを得る
　（１）に記載の復号装置。
（４）
　前記複数のフレームに対する前記メタデータは、前記複数のフレームからなる期間についての前記メタデータの代表値、および前記期間の終端フレームにおける前記メタデータである終端値である
　（３）に記載の復号装置。
（５）
　前記復号部は、前記領域から、前記代表値を前記メタデータとして用いるフレームを示す適用フレーム情報をさらに読み出し、
　前記代表値、前記終端値、および前記適用フレーム情報に基づいて補間処理を行うことで、前記期間内のフレームの前記メタデータを生成するメタデータ生成部をさらに備える
　（４）に記載の復号装置。
（６）
　前記出力部は、所定フレームよりも前のフレームで前記領域から読み出された前記メタデータのうちの時間的に最後に読み出された前記メタデータに基づいて、前記所定フレームの復号された前記オーディオデータを出力する
　（１）乃至（５）の何れか一項に記載の復号装置。
（７）
　前記出力部は、前記最後に読み出された前記メタデータを用いるかの指示に応じて、前記最後に読み出された前記メタデータに基づいて、前記所定フレームの復号された前記オーディオデータを出力する
　（６）に記載の復号装置。
（８）
　前記出力部は、所定フレームの前記メタデータが得られなかった場合、前記領域から読み出された前記メタデータとは異なる他のメタデータに基づいて、前記所定フレームの復号された前記オーディオデータを出力する
　（１）乃至（５）の何れか一項に記載の復号装置。
（９）
　前記符号化ビットストリームはAACビットストリームであり、
　前記復号部は、前記領域としてのDSEから前記メタデータを読み出す
　（１）乃至（８）の何れか一項に記載の復号装置。
（１０）
　前記符号化ビットストリームはAACビットストリームであり、
　前記復号部は、前記AACビットストリームのPCEから、前記オーディオデータの構成情報、または前記オーディオデータのスピーカ配置情報を読み出す
　（１）乃至（９）の何れか一項に記載の復号装置。
（１１）
　復号装置が、
　符号化ビットストリームに含まれている、オブジェクトオーディオを含むオーディオデータを復号するとともに、前記符号化ビットストリームの任意のデータを格納可能な領域から前記オブジェクトオーディオのメタデータを読み出し、
　前記メタデータに基づいて、復号された前記オーディオデータを出力する
　ステップを含む復号方法。
（１２）
　符号化ビットストリームに含まれている、オブジェクトオーディオを含むオーディオデータを復号するとともに、前記符号化ビットストリームの任意のデータを格納可能な領域から前記オブジェクトオーディオのメタデータを読み出し、
　前記メタデータに基づいて、復号された前記オーディオデータを出力する
　ステップを含む処理をコンピュータに実行させるプログラム。
（１３）
　オブジェクトオーディオを含むオーディオデータを符号化するとともに、任意のデータを格納可能な領域に前記オブジェクトオーディオのメタデータを格納して、前記メタデータ、および符号化された前記オーディオデータが含まれる符号化ビットストリームを生成する符号化部を備える
　符号化装置。
（１４）
　前記符号化部は、１フレーム分の前記符号化ビットストリームにおける複数の前記領域のそれぞれに、前記メタデータを分割して得られた複数のデータのそれぞれを格納する
　（１３）に記載の符号化装置。
（１５）
　前記符号化部は、前記符号化ビットストリームにおける複数のフレームの前記領域のそれぞれに、前記複数のフレームに対する前記メタデータを分割して得られた複数のデータのそれぞれを格納する
　（１３）に記載の符号化装置。
（１６）
　前記複数のフレームからなる期間についての前記メタデータの代表値を決定し、前記代表値を前記複数のフレームに対する前記メタデータとするメタデータ決定部をさらに備える
　（１５）に記載の符号化装置。
（１７）
　前記メタデータ決定部は、前記期間の終端フレームにおける前記メタデータである終端値を決定し、前記代表値および前記終端値を前記複数のフレームに対する前記メタデータとする
　（１６）に記載の符号化装置。
（１８）
　前記符号化部は、前記代表値を前記メタデータとして用いるフレームを示す適用フレーム情報を前記領域に格納する
　（１６）または（１７）に記載の符号化装置。
（１９）
　前記符号化部は、所定フレームの前記メタデータとして、前記所定フレームよりも時間的に前のフレームの前記領域に格納された前記メタデータのうちの、最も前記所定フレームに近いフレームの前記メタデータを用いるかを指示する情報を前記領域に格納する
　（１３）乃至（１８）の何れか一項に記載の符号化装置。
（２０）
　前記符号化ビットストリームはAACビットストリームであり、
　前記符号化部は、前記領域としてのDSEに前記メタデータを格納する
　（１３）乃至（１９）の何れか一項に記載の符号化装置。
（２１）
　前記符号化ビットストリームはAACビットストリームであり、
　前記符号化部は、前記AACビットストリームのPCEに、前記オーディオデータの構成情報、または前記オーディオデータのスピーカ配置情報を格納する
　（１３）乃至（２０）の何れか一項に記載の符号化装置。
（２２）
　符号化装置が、
　オブジェクトオーディオを含むオーディオデータを符号化するとともに、任意のデータを格納可能な領域に前記オブジェクトオーディオのメタデータを格納して、前記メタデータ、および符号化された前記オーディオデータが含まれる符号化ビットストリームを生成する
　ステップを含む符号化方法。
（２３）
　オブジェクトオーディオを含むオーディオデータを符号化するとともに、任意のデータを格納可能な領域に前記オブジェクトオーディオのメタデータを格納して、前記メタデータ、および符号化された前記オーディオデータが含まれる符号化ビットストリームを生成する
　ステップを含む処理をコンピュータに実行させるプログラム。

　１１　符号化装置，　２１　3D Audioメタデータ符号化部，　２２　AAC符号化部，　５１　復号装置，　６１　AAC復号部，　６２　3D Audioメタデータ復号部，　６３　3D Audioメタデータ取得部，　６４　3D Audioレンダラ

Claims

　符号化ビットストリームに含まれている、オブジェクトオーディオを含むオーディオデータを復号するとともに、前記符号化ビットストリームの任意のデータを格納可能な領域から前記オブジェクトオーディオのメタデータを読み出す復号部と、
　前記メタデータに基づいて、復号された前記オーディオデータを出力する出力部と
　を備える復号装置。
　前記復号部は、１フレーム分の前記符号化ビットストリームにおける複数の前記領域のそれぞれから、前記メタデータを分割して得られた複数のデータのそれぞれを読み出し、前記複数の前記データに基づいて前記メタデータを得る
　請求項１に記載の復号装置。
　前記復号部は、前記符号化ビットストリームにおける複数のフレームの前記領域のそれぞれから、前記メタデータを分割して得られた複数のデータのそれぞれを読み出し、前記複数の前記データに基づいて、前記複数のフレームに対する前記メタデータを得る
　請求項１に記載の復号装置。
　前記複数のフレームに対する前記メタデータは、前記複数のフレームからなる期間についての前記メタデータの代表値、および前記期間の終端フレームにおける前記メタデータである終端値である
　請求項３に記載の復号装置。
　前記復号部は、前記領域から、前記代表値を前記メタデータとして用いるフレームを示す適用フレーム情報をさらに読み出し、
　前記代表値、前記終端値、および前記適用フレーム情報に基づいて補間処理を行うことで、前記期間内のフレームの前記メタデータを生成するメタデータ生成部をさらに備える
　請求項４に記載の復号装置。
　前記出力部は、所定フレームよりも前のフレームで前記領域から読み出された前記メタデータのうちの時間的に最後に読み出された前記メタデータに基づいて、前記所定フレームの復号された前記オーディオデータを出力する
　請求項１に記載の復号装置。
　前記出力部は、前記最後に読み出された前記メタデータを用いるかの指示に応じて、前記最後に読み出された前記メタデータに基づいて、前記所定フレームの復号された前記オーディオデータを出力する
　請求項６に記載の復号装置。
　前記出力部は、所定フレームの前記メタデータが得られなかった場合、前記領域から読み出された前記メタデータとは異なる他のメタデータに基づいて、前記所定フレームの復号された前記オーディオデータを出力する
　請求項１に記載の復号装置。
　前記符号化ビットストリームはAACビットストリームであり、
　前記復号部は、前記領域としてのDSEから前記メタデータを読み出す
　請求項１に記載の復号装置。
　前記符号化ビットストリームはAACビットストリームであり、
　前記復号部は、前記AACビットストリームのPCEから、前記オーディオデータの構成情報、または前記オーディオデータのスピーカ配置情報を読み出す
　請求項１に記載の復号装置。
　復号装置が、
　符号化ビットストリームに含まれている、オブジェクトオーディオを含むオーディオデータを復号するとともに、前記符号化ビットストリームの任意のデータを格納可能な領域から前記オブジェクトオーディオのメタデータを読み出し、
　前記メタデータに基づいて、復号された前記オーディオデータを出力する
　ステップを含む復号方法。
　符号化ビットストリームに含まれている、オブジェクトオーディオを含むオーディオデータを復号するとともに、前記符号化ビットストリームの任意のデータを格納可能な領域から前記オブジェクトオーディオのメタデータを読み出し、
　前記メタデータに基づいて、復号された前記オーディオデータを出力する
　ステップを含む処理をコンピュータに実行させるプログラム。
　オブジェクトオーディオを含むオーディオデータを符号化するとともに、任意のデータを格納可能な領域に前記オブジェクトオーディオのメタデータを格納して、前記メタデータ、および符号化された前記オーディオデータが含まれる符号化ビットストリームを生成する符号化部を備える
　符号化装置。
　前記符号化部は、１フレーム分の前記符号化ビットストリームにおける複数の前記領域のそれぞれに、前記メタデータを分割して得られた複数のデータのそれぞれを格納する
　請求項１３に記載の符号化装置。
　前記符号化部は、前記符号化ビットストリームにおける複数のフレームの前記領域のそれぞれに、前記複数のフレームに対する前記メタデータを分割して得られた複数のデータのそれぞれを格納する
　請求項１３に記載の符号化装置。
　前記複数のフレームからなる期間についての前記メタデータの代表値を決定し、前記代表値を前記複数のフレームに対する前記メタデータとするメタデータ決定部をさらに備える
　請求項１５に記載の符号化装置。
　前記メタデータ決定部は、前記期間の終端フレームにおける前記メタデータである終端値を決定し、前記代表値および前記終端値を前記複数のフレームに対する前記メタデータとする
　請求項１６に記載の符号化装置。
　前記符号化部は、前記代表値を前記メタデータとして用いるフレームを示す適用フレーム情報を前記領域に格納する
　請求項１６に記載の符号化装置。
　前記符号化部は、所定フレームの前記メタデータとして、前記所定フレームよりも時間的に前のフレームの前記領域に格納された前記メタデータのうちの、最も前記所定フレームに近いフレームの前記メタデータを用いるかを指示する情報を前記領域に格納する
　請求項１３に記載の符号化装置。
　前記符号化ビットストリームはAACビットストリームであり、
　前記符号化部は、前記領域としてのDSEに前記メタデータを格納する
　請求項１３に記載の符号化装置。
　前記符号化ビットストリームはAACビットストリームであり、
　前記符号化部は、前記AACビットストリームのPCEに、前記オーディオデータの構成情報、または前記オーディオデータのスピーカ配置情報を格納する
　請求項１３に記載の符号化装置。
　符号化装置が、
　オブジェクトオーディオを含むオーディオデータを符号化するとともに、任意のデータを格納可能な領域に前記オブジェクトオーディオのメタデータを格納して、前記メタデータ、および符号化された前記オーディオデータが含まれる符号化ビットストリームを生成する
　ステップを含む符号化方法。
　オブジェクトオーディオを含むオーディオデータを符号化するとともに、任意のデータを格納可能な領域に前記オブジェクトオーディオのメタデータを格納して、前記メタデータ、および符号化された前記オーディオデータが含まれる符号化ビットストリームを生成する
　ステップを含む処理をコンピュータに実行させるプログラム。