JP6062544B2

JP6062544B2 - 基底関数係数を使用した３次元オーディオコード化のためのシステム、方法、装置、およびコンピュータ可読媒体

Info

Publication number: JP6062544B2
Application number: JP2015521834A
Authority: JP
Inventors: セン、ディパンジャン
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2012-07-15
Filing date: 2013-07-12
Publication date: 2017-01-18
Anticipated expiration: 2033-07-12
Also published as: WO2014014757A1; US9190065B2; US20160035358A1; EP2873072A1; CN104428834A; US20140016786A1; EP2873072B1; JP2015522183A; CN104428834B; US9478225B2

Description

米国特許法第１１９条に基づく優先権の主張

[0001]本特許出願は、２０１２年７月１５日に出願され、本発明の譲受人に譲渡された「UNIFIED CHANNEL-, OBJECT-, AND SCENE-BASED SCALABLE 3D-AUDIO CODING USING HIERARCHICAL CODING」という名称の仮出願第６１／６７１、７９１号に基づく優先権を主張する。

[0002]本開示は、空間オーディオコード化に関する。

[0003]サラウンドサウンドの進化は、近年、エンターテイメントのための多くの出力フォーマットを利用可能にしてきた。市場におけるサラウンド音響フォーマットの範囲は、ステレオ以上にリビングルームにまで手を付けた点で最も成功している、人気の５．１ホームシアターシステムフォーマットを含む。このフォーマットは、以下の６つのチャネル：前方左（Ｌ）、前方右（Ｒ）、中央または前方中央（Ｃ）、後方左またはサラウンド左（Ｌｓ）、後方右またはサラウンド右（Ｒｓ）、および低周波数効果（ＬＦＥ: low frequency effect）、を含む。サラウンドサウンドフォーマットの他の例は、例えば、スーパーハイビジョン（Ultra High Difinition Television）の規格を用いた使用のための、ＮＨＫ（Nippon Hoso Kyokai、すなわち日本放送協会）によって発展させられた、高まりつつある（growing）７．１フォーマットおよび未来型（futuristic）２２．２フォーマットを含む。２次元および／または３次元でオーディオを符号化することは、サラウンドサウンドフォーマットにとって望ましい。

[0004]一般的な構成にしたがったオーディオ信号処理の方法は、第１の音場を記述する基底関数係数の第１のセットに、オーディオ信号およびオーディオ信号に関する空間情報を符号化することを含む。この方法はまた、時間間隔中に結合された音場を記述する基底関数係数の結合されたセットを生成するために、時間間隔中に第２の音場を記述する基底関数係数の第２のセットと基底関数係数の第１のセットを結合することを含む。特徴を読み取る機械にこのような方法を行わせる有体的な特徴を有するコンピュータ可読記憶媒体（例えば、非一時的な媒体）も開示されている。

[0005]一般的な構成にしたがったオーディオ信号処理のための装置は、第１の音場を記述する基底関数係数の第１のセットに、オーディオ信号およびオーディオ信号に関する空間情報を符号化するための手段と、時間間隔中に結合された音場を記述する基底関数係数の結合されたセットを生成するために、時間間隔中に第２の音場を記述する基底関数係数の第２のセットと基底関数係数の第１のセットを結合するための手段とを含む。

[0006]別の一般的な構成にしたがったオーディオ信号処理のための装置は、第１の音場を記述する基底関数係数の第１のセットに、オーディオ信号およびオーディオ信号に関する空間情報を符号化するように構成されたエンコーダを含む。この装置はまた、時間間隔中に結合された音場を記述する基底関数係数の結合されたセットを生成するために、時間間隔中に第２の音場を記述する基底関数係数の第２のセットと基底関数係数の第１のセットを結合するように構成された結合器を含む。

Ｌ個のオーディオオブジェクトの例を例示している。１つのオブジェクトベースの（object-based）コード化手法の概略的な概要を図示している。空間オーディオオブジェクトコード化（ＳＡＯＣ）の概略的な概要を図示している。空間オーディオオブジェクトコード化（ＳＡＯＣ）の概略的な概要を図示している。シーンベースの（scene-based）コード化の例を図示している。ＭＰＥＧコデックを使用した標準化のための一般的な構造を例示している。次数０および１の球面調和基底関数（spherical harmonic basis function）の大きさの表面がメッシュのプロットの例を図示している。次数２の球面調和基底関数の大きさの表面がメッシュのプロットの例を図示している。一般的な構成にしたがったオーディオ信号処理の方法Ｍ１００に関するフローチャートを図示している。タスクＴ１００のインプリメンテーションＴ１０２のフローチャートを図示している。タスクＴ１００のインプリメンテーションＴ１０４のフローチャートを図示している。タスクＴ１００のインプリメンテーションＴ１０６のフローチャートを図示している。方法Ｍ１００のインプリメンテーションＭ１１０のフローチャートを図示している。方法Ｍ１００のインプリメンテーションＭ１２０のフローチャートを図示している。方法Ｍ１００のインプリメンテーションＭ３００のフローチャートを図示している。方法Ｍ１００のインプリメンテーションＭ２００のフローチャートを図示している。一般的な構成にしたがったオーディオ信号処理の方法Ｍ４００に関するフローチャートを図示している。方法Ｍ２００のインプリメンテーションＭ２１０のフローチャートを図示している。方法Ｍ２００のインプリメンテーションＭ２２０のフローチャートを図示している。方法Ｍ４００のインプリメンテーションＭ４１０のフローチャートを図示している。一般的な構成にしたがったオーディオ信号処理のための装置ＭＦ１００のブロック図を図示している。手段Ｆ１００のインプリメンテーションＦ１０２のブロック図を図示している。手段Ｆ１００のインプリメンテーションＦ１０４のブロック図を図示している。タスクＦ１００のインプリメンテーションＦ１０６のブロック図を図示している。装置ＭＦ１００のインプリメンテーションＭＦ１１０のブロック図を図示している。装置ＭＦ１００のインプリメンテーションＭＦ１２０のブロック図を図示している。装置ＭＦ１００のインプリメンテーションＭＦ３００のブロック図を図示している。装置ＭＦ１００のインプリメンテーションＭＦ２００のブロック図を図示している。一般的な構成にしたがったオーディオ信号処理の装置ＭＦ４００に関するブロック図を図示している。一般的な構成にしたがったオーディオ信号処理のための装置Ａ１００のブロック図を図示している。装置Ａ１００のインプリメンテーションＡ３００のブロック図を図示している。一般的な構成にしたがったオーディオ信号処理の装置Ａ４００に関するブロック図を図示している。エンコーダ１００のインプリメンテーション１０２のブロック図を図示している。エンコーダ１００のインプリメンテーション１０４のブロック図を図示している。エンコーダ１００のインプリメンテーション１０６のブロック図を図示している。装置Ａ１００のインプリメンテーションＡ１１０のブロック図を図示している。装置Ａ１００のインプリメンテーションＡ１２０のブロック図を図示している。装置Ａ１００のインプリメンテーションＡ２００のブロック図を図示している。統合された（unified）コード化アーキテクチャに関するブロック図を図示している。関連するアーキテクチャに関するブロック図を図示している。統合されたエンコーダＵＥ１０のインプリメンテーションＵＥ１００のブロック図を図示している。統合されたエンコーダＵＥ１００のインプリメンテーションＵＥ３００のブロック図を図示している。統合されたエンコーダＵＥ１００のインプリメンテーションＵＥ３０５のブロック図を図示している。統合されたエンコーダＵＥ３００のインプリメンテーションＵＥ３１０のブロック図を図示している。統合されたエンコーダＵＥ１００のインプリメンテーションＵＥ２５０のブロック図を図示している。統合されたエンコーダＵＥ２５０のインプリメンテーションＵＥ３５０のブロック図を図示している。分析器１５０ａのインプリメンテーション１６０ａのブロック図を図示している。分析器１５０ｂのインプリメンテーション１６０ｂのブロック図を図示している。統合されたエンコーダＵＥ２５０のインプリメンテーションＵＥ２６０のブロック図を図示している。統合されたエンコーダＵＥ３５０のインプリメンテーションＵＥ３６０のブロック図を図示している。

詳細な説明

［0056]その文脈によって明示的に限定されない限り、「信号」という用語は、ワイヤ、バス、または他の送信媒体上で表現されるメモリロケーション（または、メモリロケーションのセット）の状態を含む、その一般的な意味のいずれも示すようにここで使用される。その文脈によって明示的に限定されない限り、「作り出す」という用語は、計算する、または、そうでなければ生成する等の、その一般的な意味のいずれも示すようにここで使用される。その文脈によって明示的に限定されない限り、「計算する」という用語は、計算する、評価する、推定する、および／または、複数の値から選択する等の、その一般的な意味のいずれも示すようにここで使用される。その文脈によって明示的に限定されない限り、「取得する」という用語は、計算する、導出する、（例えば、外部デバイスから）受信する、および／または、（例えば、記憶要素のアレイから）検索する等の、その一般的な意味のいずれも示すように使用される。その文脈によって明示的に限定されない限り、「選択する」という用語は、識別する、示す、適用する、および／または、２つ以上のセットのうちの少なくとも１つ、ならびに２つ以上のセットのうちの全てより少ない数（fewer than all, of a set of two or more）を使用する等の、その一般的な意味のいずれも示すように使用される。本説明および特許請求の範囲において、「備える」という用語が使用されている場合、それは、他の要素または動作を除外しない。「に基づく」という用語（「ＡはＢに基づく」等）は、（i）「から導出する」（例えば、「Ｂは、Ａの先行するものである」）、（ii）「に少なくとも基づいて」（例えば、「Ａは少なくともＢに基づく」）、および、特定の文脈で適切な場合、（iii）「に等しい」（例えば、「ＡはＢに等しい」または「ＡはＢと同じである」）というケースを含む、その一般的な意味のいずれも示すように使用される。同様に、「に応答して」という用語は、「に少なくとも応答して」を含む、その一般的な意味のいずれも示すように使用される。

[0057]マルチマイクロフォンのオーディオ感知デバイスのマイクロフォンの「ロケーション」に対する参照は、文脈によって他の方法で示されていない限り、マイクロフォンの音響的に感知できる面の中心のロケーションを示している。「チャネル」という用語は特定の文脈にしたがって、あるときには信号パスを示すように、および、またあるときにはこのようなパスによって搬送される信号を示すように使用される。他の方法で示されていない限り、「一連の」という用語は、２つ以上のアイテムのシーケンスを示すように使用される。「対数」という用語は、１０を底とする対数を示すように使用されるが、このような動作の他の底への拡張は、本開示の範囲内にある。「周波数成分」という用語は、（例えば、高速フーリエ変換によって生成されるような）信号の周波数ドメイン表現のサンプル、または、信号のサブバンド（例えば、バーク尺度またはメル尺度のサブバンド）等の、信号の周波数帯域または周波数のセットの中の１つを示すように使用される。

[0058]他の方法で示されていない限り、特定の特徴を有する装置の動作のいずれの開示も、類似する特徴を有する方法を開示する（またその逆もまた同じである）ようにも明示的に意図されており、特定の構成にしたがった装置の動作のいずれの開示も、類似する構成にしたがった方法を開示する（またその逆もまた同じである）ようにも明示的に意図されている。「構成」という用語は、その特定の文脈によって示されているような、方法、装置、および／または、システムに関して使用されうる。「方法」、「プロセス」、「手順」、および、「技法」という用語は、特定の文脈によって他の方法で示されていない限り、包括的に、かつ交換可能に使用される。「装置」および「デバイス」という用語もまた、特定の文脈によって他の方法で示されていない限り、包括的に、かつ交換可能に使用される。通常、「要素」および「モジュール」という用語は、より大きな構成の一部を示すように使用される。その文脈によって明示的に限定されない限り、「システム」という用語は、「共通の目的を供給するために相互動作する要素のグループ」を含む、その一般的な意味のいずれも示すようにここで使用される。

[0059]文書の一部の参照による何らかの組み込みもまた、その一部の内で参照される用語の定義または変数を組み込むことが理解されるだろう。ここにおいて、そのような定義は、文書中、ならびに組み込まれている一部で参照されているいずれかの図面中、のどこかに登場する。決定的な項目によって最初に導入されない限り、請求項の要素を変更するために使用される序数の用語（例えば、「第１の」、「第２の」、「第３の」等）は、それ自体では、別の要素に対する請求項の要素のいずれの優先または順序を示さず、むしろ同じ名前を有する（しかしながら序数の用語を使用する）別の請求項の要素から請求項の要素を単に区別する。その文脈によって明示的に限定されない限り、「複数の」および「セット」という用語の各々は、１よりも大きい整数の量を示すようにここで使用される。

[0060]消費者オーディオの分野の現在の状況は、予め指定された位置でラウドスピーカ（loudspeaker）を通じて再生されることになっている、チャネルベースの（channel-based）サラウンドサウンドを使用する空間コード化である。チャネルベースのオーディオは、（例えば、５．１サラウンドサウンド／ホームシアターおよび２２．２フォーマットのための）所定のロケーションに位置付けられることになっている、ラウドスピーカの各々のためのラウドスピーカフィードを伴う。

[0061]空間オーディオコード化に対する別の主要な手法は、（情報の中でも特に）空間におけるオブジェクトのロケーション座標を含む関連メタデータと共に、単一オーディオオブジェクトのための離散パルス符号変調（ＰＣＭ）データを伴う、オブジェクトベースのオーディオである。オーディオオブジェクトは、個々のパルス符号変調（ＰＣＭ）データストリームを、それらの３次元（３Ｄ）位置座標、およびメタデータとして符号化される他の空間情報と共に、カプセル化する。コンテンツ作成段階では、個々の空間オーディオオブジェクト（例えば、ＰＣＭデータ）およびそれらのロケーション情報は、別個に符号化される。図１Ａは、Ｌつのオーディオオブジェクトの例を例示している。復号およびレンダリング側で、メタデータは、３Ｄ音場を再生成するために、ＰＣＭデータと結合される。

[0062]オブジェクトベースの原理を使用する２つの例が、参照のためにここで提供されている。図１Ｂは、各サウンドソースＰＣＭストリームが、それらのそれぞれのメタデータ（例えば、空間データ）と共に、エンコーダＯＥ１０によって、個々に符号化され、送信される第１の例となるオブジェクトベースのコード化スキームの概略的な概要を図示している。レンダラ側で、ＰＣＭオブジェクトおよび関連するメタデータは、スピーカの位置に基づいて、スピーカフィードを計算するために（例えば、デコーダ／ミキサ／レンダラＯＤＭ１０によって）使用される。例えば、パンニング方法（例えば、ベクトル基底振幅パンニング（vector base amplitude panning）、すなわちＶＢＡＰ）は、個々にＰＣＭストリームをサラウンドサウンドミックスに戻すように空間化するために使用されうる。レンダラ側で、ミキサは大抵、編集可能な制御信号として、配列するＰＣＭトラックおよび空間メタデータを有する、マルチトラックエディタの外観を有する。

[0063]図１Ｂで図示されているような手法は、最大のフレクシビリティを可能にするけれども、それはまた、潜在的な難点を有する。コンテンツ作成側から個々のＰＣＭオーディオオブジェクトを取得することは困難であり、スキームは、デコーダ側が元のオーディオオブジェクトを容易に取得できるために、著作権で保護されたマテリアルに不十分なレベルの保護を提供しうる。現代の映画のサウンドトラックもまた、各ＰＣＭを個々に符号化することが、適度な数のオーディオオブジェクトを用いても、全てのデータを限定された帯域幅送信チャネルに合わせることに失敗しうるような、数百の重複するサウンドイベントを簡単に伴いうる。そのようなスキームはこの帯域幅の課題に対処しないので、この手法は帯域幅使用の観点で禁止でありうる。

[0064]第２の例は、全てのオブジェクトが、送信のために、モノラルまたはステレオＰＣＭストリームにダウンミックスされる、空間オーディオオブジェクトコード化（ＳＡＯＣ）である。バイノーラルキューコード化（ＢＣＣ: binaural cue coding）に基づく、そのようなスキームはまた、両耳間レベル差（ＩＬＤ: interaural level difference）、両耳間時間差（ＩＴＤ: interaural time difference）、およびチャネル間コヒーレンス（ＩＣＣ:inter-channel coherence、ソースの拡散性または知覚されるサイズに関連する）のようなパラメータの値を含み、ならびにオーディオチャネルの１０分の１ほど小さくまで（例えば、エンコーダＯＥ２０によって）符号化されうる、メタデータビットストリームを含む。図２Ａは、デコーダＯＤ２０およびミキサＯＭ２０が別個のモジュールであるＳＡＯＣインプリメンテーションの概略的な図を図示している。図２Ｂは、一体化されたデコーダおよびミキサＯＤＭ２０を含むＳＡＯＣインプリメンテーションの概略図を図示している。

[0065]インプリメンテーションでは、ＳＡＯＣは、５．１フォーマット信号の６つのチャネルが、レンダラでの残りのチャネルの合成を可能にする（ＩＬＤ、ＩＴＤ、ＩＣＣ等の）対応するサイド情報で、モノラルまたはステレオＰＣＭストリームにダウンミックスされる、ＭＰＥＧサラウンド（ＭＰＳ、ＩＳＯ／ＩＥＣ１４４９６−３、高効率アドバンスドオーディオコード化、すなわちＨｅＡＡＣとも呼ばれる）と密に結合される。そのようなスキームが、送信中に極めて低いビットレートを有しうる一方で、空間レンダリングのフレクシビリティは、通常ＳＡＯＣに限定される。オーディオオブジェクトの意図されるレンダリングロケーションが元のロケーションに非常に近くない限り、オーディオ品質が危険に晒されるだろうと予期されうる。また、オーディオオブジェクトの数が増加するとき、メタデータの助力でそれらの各々に対する個々の処理を行うことは困難になりうる。

[0066]オブジェクトベースのオーディオでは、音場を記述するための多くのオーディオオブジェクトが存在するときに伴われうる過剰なビットレートまたは帯域幅に対処することが望ましくありうる。同様に、チャネルベースのオーディオのコード化もまた、帯域幅制限が存在するときに課題となりうる。

[0067]空間オーディオコード化に対する（例えば、サラウンドサウンドコード化に対する）さらなる手法は、球面調和基底関数の係数を使用して音場を表すことを伴う、シーンベースのオーディオである。そのような係数は、「球面調和係数（spherical harmonic coefficients）」、すなわちＳＨＣとも呼ばれる。シーンベースのオーディオは通常、Ｂフォーマットのような、アンビソニックス（Ambisonics）フォーマットを使用して符号化される。Ｂフォーマット信号のチャネルは、ラウドスピーカフィードに対してよりむしろ、音場の球面調和基底関数に対応する。第１の次数のＢフォーマット信号は、４つのチャネル（無指向性チャネルＷおよび３つの指向性チャネルＸ、Ｙ、Ｘ）まで有する；第２の次数のＢフォーマット信号は、９つのチャネル（４つの第１の次数のチャネルおよび５つの追加のチャネルＲ、Ｓ、Ｔ、Ｕ、Ｖ）まで有する；ならびに第３の次数のＢフォーマット信号は、１６つのチャネル（９つの第２の次数のチャネルおよび７つの追加のチャネルＫ、Ｌ、Ｍ、Ｎ、Ｏ、Ｐ、Ｑ）までを有する。

[0068]図３Ａは、シーンベースの手法を用いた、ストレートフォワード符号化および復号プロセスを描いている。この例では、シーンベースのエンコーダＳＥ１０は、（例えば、ＳＨレンダラＳＲ１０によって）レンダリングするためにＳＨＣを受信するように、送信（および／または記憶）され、かつシーンベースのデコーダＳＤ１０で復号されるＳＨＣの記述を生成する。このような符号化は、（例えば、１つまたは複数のコードブックインデックスへの）量子化、誤り訂正コード化、冗長コード化等のような、帯域幅圧縮のための１つまたは複数の損失もしくは無損失コード化技法を含むことができる。さらに、あるいは代わりとして、このような符号化は、オーディオチャネル（例えば、マイクロフォン出力）を、Ｂフォーマット、Ｇフォーマット、または高次アンビソニックス（ＨＯＡ）等の、アンビソニックフォーマットに符号化することを含むことができる。一般的に、エンコーダＳＥ１０は、（損失コード化または無損失コード化のどちらかに関する）係数および／または不適切さ（irrelecancies）の中の冗長性を利用する技法を使用してＳＨＣを符号化することができる。

[0069]空間オーディオ情報の標準化されたビットストリームへの符号化、およびレンダラのロケーションでスピーカジオメトリおよび音響状況を知らず、かつロケーションでスピーカジオメトリおよび音響状況に適合可能な後に続く復号を提供することが望ましくありうる。そのような手法は、再生のために最終的に使用される特定のセットアップに関わらず、統一された傾聴エクスペリエンスの目的を提供することができる。図３Ｂは、ＭＰＥＧコデックを使用した、そのような標準化のための一般的な構造を例示している。この例では、エンコーダＭＰ１０への入力オーディオソースは、例えば、チャネルベースのソース（例えば、１．０（モノフォリック）、２．０（ステレオフォニック）、５．１、７．１、１１．１、２２．２）、オブジェクトベースのソース、およびシーンベースのソース（例えば、高次球面調和、アンビソニックス）、のうちのいずれか１つまたは複数を含むことができる。同様に、デコーダ（およびレンダラ）ＭＰ２０によって生成されるオーディオ出力は、例えば、モノフォニック、ステレオフォニック、５．１、７．１、および／または２２．２のラウドスピーカアレイのためのフィード；不規則に分配されたラウドスピーカアレイのためのフィード；ヘッドフォンのためのフィード；相互動作オーディオ、のうちの１つまたは複数を含むことができる。

[0070]オーディオマテリアルが（例えば、コンテンツ作成側によって）一度作成され、異なる出力およびラウドスピーカセットアップに後に復号およびレンダリングされることができるフォーマットに符号化される、「一度生成、複数使用」の原理に従うことも望ましくありうる。例えばハリウッドのスタジオのようなコンテンツ作成側は通常、一度、映画のためのサウンドトラックを生成することを望み、各可能性のあるラウドスピーカ構成のためにそれをリミックスする労力は消費することは望まない。

[0071]（i）チャネルベース、（ii）シーンベース、および（iii）オブジェクトベース、の３つのタイプの入力のいずれか１つを取ることになる標準化されたエンコーダを取得することが望ましくありうる。この開示は、チャネルベースのオーディオおよび／またはオブジェクトベースのオーディオの、後の符号化のための共通のフォーマットへの変換を取得するように使用されうる方法、システム、および装置を説明している。この手法では、オブジェクトベースのオーディオフォーマットのオーディオオブジェクト、および／またはチャネルベースのオーディオフォーマットのチャネルが、基底関数係数の階層のセットを取得するために基底関数のセットに対してそれらをプロジェクトすることによって変換される。１つのそのような例では、オブジェクトおよび／またはチャネルが、球面調和係数すなわちＳＨＣの階層のセットを取得するために球面調和基底関数のセットに対してそれらをプロジェクトすることによって変換される。そのような手法は、例えば、（シーンベースのオーディオのための自然の入力もＳＨＣであるため）統合されたビットストリームと同様に統合された符号化エンジンを許容するようにインプリメントされうる。図８は、以下で論じられるように、そのような統合されたエンコーダの１つの例ＡＰ１５０に関するブロック図を図示している。階層のセットの他の例は、ウェーブレット変換係数のセット、および多重解像度の基底関数（multiresolution basis functions）の係数の他のセットを含む。

[0072]そのような変換によって作り出された係数は、階層的である（つまり互いに対して定義された順序を有する）、それらをスケーラブルコード化の影響を受けやすくする利点を有する。送信される（および／または記憶される）係数の数は、例えば利用可能な帯域幅（および／または記憶容量）に比例して変化されうる。そのようなケースでは、より高い帯域幅（および／または記憶容量）が利用可能であるとき、より多くの係数が、レンダリング中により高い空間解像度を許容しながら、送信されうる。そのような送信はまた、表現のビットレートが、音場を構築するために使用されたオーディオオブジェクトの数から独立しうるように、係数の数が、音場を作り上げるオブジェクトの数から独立することを可能にする。

[0073]そのような変換の潜在的な利点は、それが、コンテンツプロバイダが、所有権を持つオーディオオブジェクトを、それらがエンドユーザによってアクセスされる可能性なく符号化のために利用可能になるようにすることを可能にすることである。そのような結果は、係数から元のオーディオオブジェクトへ戻る無損失逆変換が存在しないインプリメンテーションで取得されうる。例えば、そのような所有権を持つ情報の保護は、ハリウッドのスタジオの主要な関心事である。

[0074]音場を表すためにＳＨＣのセットを使用することは、音場を表すために要素の階層のセットを使用する一般的な手法の特定の例である。ＳＨＣのセットのような要素の階層のセットは、低次要素（lower-ordered）の基本のセットが、モデルとされた音場の完全な表現を提供するように要素が順序付けされるセットである。そのセットが高次要素（higher-order）を含むように拡張されるため、空間における音場の表現は、より詳細となる。

[0075]（例えば、図３Ａで図示されているような）ソースＳＨＣは、シーンベース対応の（scene-based-capable）録音スタジオにおいてミキシングエンジニアによってミックスされるソース信号でありうる。ソースＳＨＣはまた、マイクロフォンアレイによって捕捉された信号から、またはラウドスピーカのサラウンドアレイによる音波表現（sonic presentation）の録音から作り出されうる。ＰＣＭストリームおよび関連するロケーション情報（例えば、オーディオオブジェクト）のＳＨＣのソースセットへのコンバージョンもまた考慮される。

[0076]以下の式は、どのようにＰＣＭオブジェクト

が、（ロケーション座標等を含む）そのメタデータと共に、ＳＨＣのセットに変換されうるかの例を図示しており、

ここで、

であり、ｃはサウンドのスピード（約３４３ｍ／ｓ）であり、

は、音場内の基準の点（または観測点）であり、

は、次数ｎの球ベッセル関数であり、

は、次数ｎおよび下位次数（suborder）ｍの球面調和基底関数である（ＳＨＣのいくつかの記述は、ｎを（すなわち、対応するルジャンドル多項式の）ディグリー（degree）と、ならびにｍを次数と、呼ぶ（label））。角括弧内の用語が、離散フーリエ変換（ＤＦＴ）、離散コサイン変換（ＤＣＴ）、またはウェーブレット変換のような、様々な時間周波数変換によって概算されうる信号（つまり

）の周波数ドメイン表現であることが認識されうる。

[0077]図４は、ディグリー０および１の球面調和基底関数の大きさの表面がメッシュのプロットの例を図示している。関数

の大きさは、球面および無指向性である。関数

は、＋ｙおよび‐ｙの方向にそれぞれ伸びる正および負の球状ローブ（spherical lobes）を有する。関数

は、＋ｚおよび‐ｚの方向にそれぞれ伸びる正および負の球状ローブを有する。関数

は、＋ｘおよび‐ｘの方向にそれぞれ伸びる正および負の球状ローブを有する。

[0079]図５は、ディグリー２の球面調和基底関数の大きさの表面がメッシュのプロットの例を図示している。関数

および

は、ｘ−ｙ面で伸びるローブを有する。関数

は、ｙ−ｚ面で伸びるローブを有し、関数

は、ｘ−ｙ面で伸びるローブを有する。関数

は、＋ｚおよび‐ｚ方向に伸びる正のローブ、およびｘ−ｙ面で伸びるトロイダル形の（toroidal）負のローブを有する。

[0079]そのセットにおけるＳＨＣの合計数は、様々な要因に依存しうる。シーンベースのオーディオでは、例えば、ＳＨＣの合計数は、録音アレイにおけるマイクロフォントランスデューサの数によって制限されうる。チャネルベースのオーディオおよびオブジェクトベースのオーディオでは、ＳＨＣの合計数は、利用可能な帯域幅によって決定されうる。１つの例では、各周波数に対して２５つの係数を伴う４次（forth-order）式（つまり、

）が使用される。ここで説明されている手法を用いて使用されうる階層のセットの他の例は、ウェーブレット変換係数のセット、および多重解像度の基底関数の係数の他のセットを含む。

[0080]音場は、以下のような式を使用してＳＨＣに関して表現されうる。

この式は、音場の任意の点

における圧力

がＳＨＣ

によって一意的に表現されうることを図示している。ＳＨＣ

は、４面体または球面マイクロフォンアレイのような、様々なマイクロフォンアレイ構成のいずれかを使用して物理的に獲得（例えば、録音）される信号から導出されうる。この形態の入力は、提案されたエンコーダへのシーンベースのオーディオ入力を表す。非限定の例では、ＳＨＣエンコーダへの入力が、アイゲンマイク^Ｒ（mhアコースティックスＬＬＣ、サンフランシスコ、ＣＡ）のような、マイクロフォンアレイの異なる出力チャネルであることが前提とされる。アイゲンマイク^Ｒアレイの１つの例は、ｅｍ３２アレイであり、それは、出力信号

の各々、ここでｉ＝１から３２である、がマイクロフォンｉによって時間サンプルｔにおいて録音された圧力であるように、直径８．４センチの球体の表面上に配列された３２つのマイクロフォンを含む。

[0081]代わりとして、ＳＨＣ

は、音場のチャネルベースの記述またはオブジェクトベースの記述から導出されうる。例えば、個々のオーディオオブジェクトに対応する音場に関する係数

は、

として表示され、ここにおいてｉは

であり、

は、次数nの（第二種（second kind）の）球ハンケル関数であり、

はオブジェクトのロケーションであり、

は、周波数の関数としてのソースエネルギーである。当業者は、ラジアル成分（radial component）を含まない表現のような、係数

の（あるいは、同等に、対応する時間ドメイン係数

の）他の表現が使用されうることを認識するだろう。

[0082]周波数の関数としてソースエネルギー

を知ることは、我々が各ＰＣＭオブジェクトおよびそのロケーション

をＳＨＣ

にコンバートすることを可能にする。このソースエネルギーは、例えば、高速フーリエ変換（例えば、２５６−、−５１２−、または１０２４−ポイントのＦＦＴ）をＰＣＭストリームに対して行うことによって等、時間周波数分析技法を使用して取得されうる。さらに、（上記が線形および直交分解であるため）各オブジェクトに関する係数

が加法式（additive）であることが図示されうる。この方法で、ＰＣＭオブジェクトの大きさは、

係数によって（例えば、個々のオブジェクトに関する係数ベクトルの合計として）表されうる。本来、これらの係数は、音場についての情報（３Ｄ座標の関数としての圧力）を含み、上記は、観測点

の近接において、個々のオブジェクトから全体の音場の表現への変換を表す。

[0083]当業者は、球面調和基底関数のいくつかのわずかに異なる定義（例えば、実数、複素数、基底（例えば、Ｎ３Ｄ）、半基底（例えば、ＳＮ３Ｄ）、ファースモーム（ＦｕＭａまたはＦＭＨ）等）が知られており、結果として式（１）（つまり、音場の球面調和分解）および式（２）（つまり、点ソースによって生成された音場の球面調和分解）がわずかに異なる形態で文字通り出現することを当業者は認識するだろう。本説明は、球面調和基底関数のいずれの特定の形態にも限定されず、実際要素の他の階層のセットにも一般的に適用可能である。

[0084]図６Ａは、タスクＴ１００およびＴ２００を含む一般的な構成にしたがった方法Ｍ１００のフローチャートを図示している。タスクＴ１００は、第１の音場を記述する基底関数係数の第１のセットに、オーディオ信号（例えば、ここで説明されているようなオーディオオブジェクトのオーディオストリーム）および（例えば、ここで説明されているようなオーディオオブジェクトのメタデータからの）オーディオ信号に関する空間情報を符号化する。タスクＴ２００は、時間間隔中の第２の音場を記述する基底関数係数の第２のセット（例えば、ＳＨＣのセット）と基底関数係数の第１のセットを、時間間隔中に結合された音場を記述する基底関数係数の結合されたセットを生成するために、結合する。

[0085]タスクＴ１００は、係数を計算する前に、オーディオ信号に時間−周波数分析を行うようにインプリメントされうる。図６Ｂは、サブタスクＴ１１０およびＴ１２０を含むタスクＴ１００のこのようなインプリメンテーションＴ１０２のフローチャートを図示している。タスクＴ１１０は、オーディオ信号（例えば、ＰＣＭストリーム）の時間−周波数分析を行う。分析の結果およびオーディオ信号に関する空間情報（例えば、方向および／または距離等の、ロケーションデータ）に基づいて、タスクＴ１２０は、基底関数係数の第１のセットを計算する。図６Ｃは、タスクＴ１１０のＴ１１５を含むタスクＴ１０２のインプリメンテーションＴ１０４のフローチャートを図示している。タスクＴ１１５は、（例えば、ソースエネルギー

に関してここで説明されているように）複数の周波数の各々でオーディオ信号のエネルギーを計算する。そのようなケースでは、タスクＴ１２０は、（例えば、上記の式（３）のような式にしたがって）例えば、球面調和係数のセットとして係数の第１のセットを計算するようにインプリメントされうる。複数の周波数の各々でオーディオ信号の位相情報を計算するためにタスクＴ１１５をインプリメントすること、また同様にこの情報にしたがって係数のセットを計算するためにタスクＴ１２０をインプリメントすることが望ましくありうる。

[0086]図７Ａは、サブタスクＴ１３０およびＴ１４０を含むタスクＴ１００の代わりのインプリメンテーションＴ１０６のフローチャートを図示している。タスクＴ１３０は、中間係数のセットに生成するために、入力信号に最初の基底分解を行う。１つの例では、このような分解は、

として、時間ドメインで表示され、ここにおいて

は、時間サンプルｔ、次数ｎ、および下位次数ｍの間の中間係数を指し、

は、入力ストリームｉに関連付けられた高位（elevation）

および方位（azimuth）

（例えば、対応するマイクロフォンｉのサウンド感知表面に対して垂直（normal）の高位および方位）に関する、次数ｎおよび下位次数ｍにおける球面基底関数を指す。特定の、しかしながら限定されない例では、２５つの中間係数Ｄのセットが時間サンプルｔの間に取得されるように、次数ｎの最大Ｎが４に等しい。タスクＴ１３０が周波数ドメインでも行われうることは明示的に留意されたい。

[0087]タスクＴ１４０は、係数のセットを生成するために、中間係数に波面モデル（wavefront model）を適用する。１つの例では、タスクＴ１４０は、球面調和係数のセットを生成するために、球波面モデルにしたがって中間係数をフィルタする。そのような動作は、

として表示され、ここにおいて、

は、時間サンプルｔの間の次数ｎおよび下位次数ｍにおける時間ドメイン球面調和係数を指し、

は、球波面モデルのための次数nに関するフィルタの時間ドメインインパルス応答を指し、

は、時間ドメイン畳み込み演算の作用素（time-domain convolution operator）である。各フィルタ

ここにおいて、

は、有限インパルス応答フィルタ（finite-impulse-response filter）としてインプリメントされうる。１つの例では、各フィルタ

は、周波数ドメインフィルタの逆フーリエ変換としてインプリメントされ、

、ｋは波数

であり、ｒは関心の球面領域の半径（例えば、球面マイクロフォンアレイの半径）であり、

は、次数ｎの第二種の球ハンケル関数の（ｒに関する）微分係数（derivative）を指す。

[0088]別の例では、タスクＴ１４０は、球面調和係数のセットを生成するために、平面波面モデルにしたがって、中間係数をフィルタする。例えば、そのような動作は、

として表示され、ここにおいて、

は、平面波面モデルのための次数ｎに関するフィルタの時間ドメインインパルス応答を指す。各フィルタ

ここにおいて、

は、有限インパルス応答フィルタとしてインプリメントされうる。１つの例では、各フィルタ

は、周波数ドメインフィルタの逆フーリエ変換としてインプリメントされる。

タスクＴ１４０のこれらの例のどれかが周波数ドメインでも（例えば、乗算としても）行われうることは明示的に留意されたい。

[0089]図７Ｂは、タスクＴ２００のインプリメンテーションＴ２１０を含む方法Ｍ１００のインプリメンテーションＭ１１０のフローチャートを図示している。タスクＴ２１０は、結合されたセットを生成するために、要素毎の合計（例えば、ベクトル合計）を計算することによって係数の第１および第２のセットを結合する。別のインプリメンテーションでは代わりに、タスクＴ２００は、第１および第２のセットを連結させるようにインプリメントされる。

[0090]タスクＴ２００は、別のデバイスまたはプロセスによって生成されるような係数の第２のセット（例えば、アンビソニックスまたは他のＳＨＣビットストリーム）と、タスクＴ１００によって生成されるような、係数の第１のセットを結合するように構成されうる。代わりにまたは加えて、タスクＴ２００は、（例えば、２つ以上のオーディオオブジェクトの各々に対応する）タスクＴ１００の複数の例によって生成される係数のセットを結合するように構成されうる。したがって、タスクＴ１００の複数の例を含むように方法Ｍ１００をインプリメントすることが望ましくありうる。図８は、タスクＴ１００（例えば、タスクＴ１０２、Ｔ１０４、またはＴ１０６）のＬ個の例Ｔ１００ａ‐Ｔ１００Ｌを含む方法Ｍ１００のそのようなインプリメンテーションＭ２００のフローチャートを図示している。方法Ｍ１１０はまた、結合されたセットを生成するために、基底関数係数のＬ個のセット（例えば、要素毎の合計として）結合するタスクＴ２００（例えば、タスクＴ２１０）のインプリメンテーションＴ２０２を含む。方法Ｍ１１０は、例えば、基底関数係数の結合されたセット（例えば、ＳＨＣ）に（例えば、図１Ａで例示されているような）Ｌ個のオーディオオブジェクトのセットを符号化するように使用されうる。図９は、別のデバイスまたはプロセスによって生成されるような係数のセット（例えば、ＳＨＣ）と、タスクＴ１００ａ‐Ｔ１００Ｌによって生成される係数のセットを結合する、タスクＴ２０２のインプリメンテーションＴ２０４を含む方法Ｍ２００のインプリメンテーションＭ２１０のフローチャートを図示している。

[0091]タスクＴ２００によって結合された係数のセットが同じ数の係数を有する必要がないことがここで考慮され、開示されている。セットのうちの１つが別のものよりも小さいケースに適応するために、階層的に最も低次の（lowest-order）係数で（例えば、球面調和基底関数

に対応する係数で）係数のセットを配置するようにタスクＴ２１０をインプリメントすることが望ましくありうる。

[0092]オーディオ信号を符号化するために使用される係数の数（例えば、最も高次の（highest-order）係数の数）は、信号毎で（from one signal to another）（例えば、オーディオオブジェクト毎で）異なりうる。例えば、１つのオブジェクトに対応する音場は、別のオブジェクトに対応する音場よりも低い解像度で符号化されうる。このようなバリエーションは、例えば、表現（例えば、フォアグラウンドの音声対バックグラウンドの効果音（effect））に対するオブジェクトの重要性、傾聴者の頭に対するオブジェクトのロケーション（例えば、傾聴者の頭の側面のオブジェクトは、傾聴者の頭の前方のオブジェクトよりも定位可能（localizable）ではないので、より低い空間解像度で符号化されうる）、および水平面に対するオブジェクトのロケーション（例えば、面の外で情報を符号化する係数がその中で情報を符号化するものよりもさほど重要でなくなりうるように、人間の聴覚システムがこの面の外の方がその中よりも低い定位能力を有する）、のうちのいずれか１つまたは複数を含みうる。

[0093]統合された空間オーディオコード化のコンテキストでは、チャネルベースの信号（またはラウドスピーカフィード）は単に、オブジェクトのロケーションがラウドスピーカの所定の位置であるオーディオ信号（例えば、ＰＣＭフィード）である。したがって、チャネルベースのオーディオは、オブジェクトの数がチャネルの数に固定され、空間情報がチャネル識別（例えば、Ｌ、Ｃ、Ｒ、Ｌｓ、Ｒｓ、ＬＦＥ）に潜在する、オブジェクトベースのオーディオのサブジェクトとして単に扱われうる。

[0094]図７Ｃは、タスクＴ５０を含む方法Ｍ１００のインプリメンテーションＭ１２０のフローチャートを図示している。タスクＴ５０は、マルチチャネルオーディオ入力のチャネルに関する空間情報を生成する。このケースでは、タスクＴ１００（例えば、タスクＴ１０２、Ｔ１０４、またはＴ１０６）が空間情報で符号化されるオーディオ信号としてチャネルを受信するように構成される。タスクＴ５０は、チャネルベースの入力のフォーマットに基づいて、空間情報（例えば、基準方向またはポイントに対する、対応するラウドスピーカの方向またはロケーション）を生成するようにインプリメントされうる。ただ１つのチャネルフォーマットが処理されることになるケース（例えば、５．１のみまたは７．１のみ）では、タスクＴ１３０は、チャネルに関する対応する固定された方向またはロケーションを生成するように構成されうる。複数のチャネルフォーマットが適応されることになるケースでは、タスクＴ１３０は、（例えば、５．１、７．１、または２２．２フォーマットを示す）フォーマット識別子にしたがって、チャネルに関する空間情報を生成するようにインプリメントされうる。フォーマット識別子は、例えば、メタデータとして、あるいは、現在アクティブである入力ＰＣＭストリームの数の指示として受信されうる。

[0095]図１０は、符号化タスクＴ１２０ａ‐Ｔ１２０Ｌに対する、チャネルベースの入力のフォーマットに基づいて各チャネルに関する空間情報（例えば、対応するラウドスピーカの方向またはロケーション）を生成する、タスクＴ５０のインプリメンテーションＴ５２を含む方法Ｍ２００のインプリメンテーションＭ２２０のフローチャートを図示している。ただ１つのチャネルフォーマットが処理されることになるケース（例えば、５．１のみまたは７．１のみ）では、タスクＴ５２はロケーションデータの対応する固定されたセットを生成するように構成されうる。複数のチャネルフォーマットが適応されることになるケースでは、タスクＴ５２は、上記で説明されたフォーマット識別子にしたがって、各チャネルに関するロケーションデータを生成するようにインプリメントされうる。方法Ｍ２２０はまた、タスクＴ２０２がタスクＴ２０４の例であるようにインプリメントされうる。

[0096]さらなる例では、方法Ｍ２２０は、オーディオ入力信号が（例えば、入力ビットストリームのフォーマットによって示されているように）チャネルベースであるのか、オブジェクトベースであるのかをタスクＴ５２が検出し、それに応じて（チャネルベースの入力では）タスクＴ５２からの、または（オブジェクトベースの入力では）オーディオ入力からの、空間情報を使用するようにタスクＴ１２０ａ‐Ｌの各々を構成するよう、インプリメントされる。別のさらなる例では、オブジェクトベースの入力を処理するための方法Ｍ２００の第１の例およびチャネルベースの入力を処理するための方法Ｍ２００の（例えば、Ｍ２２０の）第２の例は、オブジェクトベースおよびチャネルベースの入力から計算される係数のセットが係数の結合されたセットを生成するために（例えば、各係数の次数での合計として）結合されるように、結合のタスクＴ２０２（またはＴ２０４）の共通の例を共有する。

[0097]図７Ｄは、タスクＴ３００を含む方法Ｍ１００のインプリメンテーションＭ３００のフローチャートを図示している。タスクＴ３００は、（例えば、送信および／または記憶のために）結合されたセットを符号化する。このような符号化は、帯域圧縮を含みうる。タスクＴ３００は、（例えば、１つまたは複数のコードブックインデックスへの）量子化、誤り訂正コード化、冗長性コード化等のような、１つまたは複数の損失または無損失コード化技法、および／またはパケット化を適用することによってセットを符号化するようにインプリメントされうる。加えて、あるいは代わりとして、このような符号化は、Ｂフォーマット、Ｇフォーマット、または高次アンビソニックス（ＨＯＡ）などの、アンビソニックフォーマットに符号化することを含みうる。１つの例では、タスクＴ３００は、ＨＯＡＢフォーマットに係数を符号化し、アドバンスドオーディオコード化（ＡＡＣ：例えば、ＩＳＯ／ＩＥＣ１４４９６−３：２００９の、スイスのジェノバにおける標準化のためのInt’l Orgによる「Information technology−−Coding of audio−visual objects−−Part 3: Audio」で定義される）を使用してＢフォーマット信号を符号化するようにインプリメントされる。タスクＴ３００によって行われうるＳＨＣのセットを符号化するための他の方法の説明は、例えば、米国公開特許出願第２０１２／０１５５６５３号Ａ１（Jax et al．）および第２０１２／０３１４８７８号Ａ１（Daniel et al．）に発見されうる。タスクＴ３００は、例えば、異なる時間における同じ次数の係数の間の差および／または異なる次数の係数の間の差として係数のセットを符号化するようにインプリメントされうる。

[0098]ここで説明されているような方法Ｍ２００、Ｍ２１０、およびＭ２２０のインプリメンテーションのいずれもまた、（例えば、タスクＴ３００の例を含むように）方法Ｍ３００のインプリメンテーションとしてインプリメントされうる。（例えば、ストリーミング、ブロードキャスト、マルチキャスト、および／またはメディアマスタリング（例えば、ＣＤ、ＤＶＤ、およびまたはブルーレイ^Ｒディスクのマスタリング）のためのビットストリームを生成するために）ここで説明されるような方法Ｍ３００のインプリメンテーションを行うように、図３Ｂで図示されているようなＭＰＥＧエンコーダＭＰ１０をインプリメントすることが望ましくありうる。

[0099]別の例では、タスクＴ３００は、各々が対応する異なる空間の領域（例えば、対応する異なるラウドスピーカロケーション）と関連づけられる複数のチャネル信号を生成するために、係数の結合されたセットの基本セットに対して変換を（例えば、可逆行列を使用して）行うようにインプリメントされる。例えば、タスクＴ３００は、５．１フォーマットで５つの全帯域オーディオ信号に、５つの低次ＳＨＣ（例えば、（ｍ，ｎ）＝［（１，−１），（１，１），（２，−２），（２，２）］のような、５．１レンダリング面に集中される基底関数に対応する係数、および全方向係数（ｍ，ｎ）＝（０，０））をコンバートするために可逆行列を適用するようにインプリメントされうる。可逆性を求める要望は、解像度の損失が無い状態か解像度の損失がほとんどない状態で、５つの全帯域オーディオ信号をＳＨＣの基本セットに戻す変換を可能にすることである。タスクＴ３００は、例えば、（例えば、損失ＭＤＣＴ圧縮を使用する、ＡＴＳＣＡ／５２またはドルビーデジタルとも呼ばれる、ワシントンＤＣにおけるアドバンスドテレビシステム委員会による２０１２年３月１２日付のＡＴＳＣ規格：デジタルオーディオ圧縮、Ｄｏｃ．／５２：２０１２，２３で説明されているような）ＡＣ３、（損失および無損失圧縮オプションを含む）ドルビーＴｒｕｅＨＤ、（これもまた、損失および無損失圧縮オプションを含む）ＤＴＳ−ＨＤマスタオーディオ、および／またはＭＰＥＧサラウンド（ＭＰＳ，ＩＳＯ／ＩＥＣ１４４９６−３、高効率アドバンスドオーディオコード化、すなわちＨｅＡＡＣとも呼ばれる）のような後方互換性コデックを使用して結果となるチャネル信号を符号化するようにインプリメントされうる。係数のセットの残りは、ビットストリームの拡張部分に（例えば、ＡＣパケットまたはドルビーデジタルプラスビットストリームの拡張パケットの「auxdata」部分に）符号化されうる。

[0100]図８Ｂは、方法Ｍ３００に対応し、かつタスクＴ４００およびＴ５００を含む一般的な構成にしたがった、復号の方法Ｍ４００に関するフローチャートを図示している。タスクＴ４００は、係数の結合されたセットを取得するために、（例えば、タスクＴ３００によって符号化されたような）ビットストリームを復号する。ラウドスピーカアレイに関連する情報（例えば、ラウドスピーカの数および、それらの位置ならびに放射パターンの指示）に基づいて、タスクＴ５００は、ラウドスピーカチャネルのセットを生成するために係数をレンダリングする。ラウドスピーカアレイは、係数の結合されたセットによって記述されるような音場を生成するために、ラウドスピーカチャネルのセットにしたがって駆動される。

[0101]望まれるラウドスピーカアレイジオメトリにＳＨＣをレンダリングするための行列を決定するための１つの可能性のある方法が、「モード整合（mode-matching）」として知られる動作である。ここで、ラウドスピーカフィードは、各ラウドスピーカが球面波を生成することを前提とすることによって計算される。このようなシナリオでは、

番目のラウドスピーカに起因して、ある特定の位置

における（周波数の関数としての）圧力は、

によって与えられ、
ここで、

は、

番目のラウドスピーカの位置を表し、

は、（周波数領域における）

番目のスピーカのラウドスピーカフィードである。したがって、全てのＬ個のスピーカに起因した全圧力

は、

によって与えられる。

[0102]我々はまた、ＳＨＣに関する全圧力は、式

によって与えられることを知っている。

[0103]上記２つの式を等しいとみなすことは、以下のように、我々が、ＳＨＣに関するラウドスピーカフィードを表示するために変換行列を使用することを可能にする。

[0104]この式は、ラウドスピーカフィードと選ばれたＳＨＣとの間に直接的な関係があることを表示している。変換行列は、例えば、どの係数が使用されたか、および球面調和基底関数のどの定義が使用されるかに依存して変化しうる。便宜上、この例は、２に等しい次数ｎの最大Ｎを表示しているけれども、いずれの他の最大次数も特定のインプリメンテーションに関して望まれるように使用されうる（例えば、４以上）ことに明示的に留意されたい。類似の方法で、選択された基本セットから異なるチャネルフォーマット（例えば、７．１、２２．２）にコンバートするための変換行列が構築されうる。上記変換行列が「モード整合」基準から導出された一方で、代わりの変換行列が、圧力整合、エネルギー整合等の、他の基準からも導出されうる。式（１２）が（複素共役によって証明されるような）複素基底関数の使用を表示しているけれども、その代わりに球面調和基底関数の実数値のセットの使用もまた、明示的に開示されている。

[0105]図１１は、タスクＴ５００の適合インプリメンテーションＴ５１０およびタスクＴ６００を含む方法Ｍ４００のインプリメンテーションＭ４１０のフローチャートを図示している。この例では、１つまたは複数のマイクロフォンのアレイＭＣＡは、ラウドスピーカアレイＬＳＡによって生成された音場ＳＦ内に配列され、タスクＴ６００は、音場がレンダリングタスクＴ５１０の適合等化（例えば、時空間測定および／または他の推定技法に基づく局地等化）を行うことに応じてこれらのマイクロフォンによって生成された信号を処理する。

[0106]直交基底関数（例えば、ＳＨＣ）の１つのセットの係数のセットを使用するこのような表現の潜在的な利点は、以下のものの１つまたは複数を含む：

[0107]i．係数は階層的である。したがって、帯域幅または記憶要件を満たすように、ある特定の切り捨てられた次数（truncted order）（例えば、ｎ＝Ｎ）まで伝送する、またはある特定の切り捨てられた次数（例えば、ｎ＝Ｎ）まで記憶することが可能である。より多くの帯域幅が利用可能になる場合、より高次の係数が伝送および／または記憶されうる。（より高次の）より多くの係数を伝送することは、切り捨て誤差を低減し、より良い解像度のレンダリングを可能にする。

[0108]ii．係数の数がオブジェクトの数から独立している−どれほど多くのオブジェクトが第２のシーンにあるとしても帯域幅要件をかなえるために係数の切り捨てられたセットをコード化することが可能であることを意味する。

[0109]iii．ＰＣＭオブジェクトのＳＨＣへのコンバージョンは可逆ではない（少なくとも自明に可逆ではない）。この特徴は、著作権で保護されたオーディオの断片（snippet）（空間的効果音）等への乱れていないアクセスを可能にすることに関して懸念するコンテンツプロバイダによる不安を和らげることができる。

[0110]iv．部屋の反射、周囲／拡散サウンド、放射パターン、および他の音響特徴の効果音は、様々な方法で、

係数ベースの表現に全て組み込まれうる。

[0111]v．

係数ベースの音場／サラウンドサウンド表現は、特定のラウドスピーカジオメトリに結び付けられず、レンダリングはあらゆるラウドスピーカジオメトリに適合されうる。様々な追加のレンダリング技法オプションが、例えば、文献に発見されうる。

[0112]vi．ＳＨＣ表現および骨組は、レンダリングシーンでの音響時空間特性を構成する（account for）適合および非適合等化を可能にする（例えば、方法Ｍ４１０を参照）。

[0113]ここで説明されている手法は、チャネルベースのオーディオ、シーンベースのオーディオ、およびオブジェクトベースのオーディオの３つのフォーマットの全てに関する統合された符号化／復号エンジンを許容するチャネルベースのオーディオおよび／またはオブジェクトベースのオーディオのための変換経路を提供するように使用されうる。このような手法は、変換された係数がオブジェクトまたはチャネルの数から独立するようにインプリメントされうる。このような手法は、統合された手法が採用されないときでさえ、チャネルベースのオーディオまたはオブジェクトベースのオーディオのどちらかのために使用されうる。そのフォーマットは、係数の数が利用可能なビットレートに適合されうる点でスケーラブルであるようにインプリメントされ、利用可能な帯域幅および／または記憶容量と品質をトレードオフする非常に容易な方法を可能にする。

[0114]ＳＨＣ表現は、（例えば、人間の聴覚が、高位の／最も高い面よりも水平面でより高い鋭さを有するという事実を考慮に入れるために）水平音響情報を表すより多くの係数を伝送することによって操作されうる。傾聴者の頭の位置は、（例えば、人間が前頭面でより良い空間的鋭さを有するという事実を考慮に入れるために）傾聴者の知覚を最適化するように、レンダラおよびエンコーダの両方へのフィードバックとして（そのようなフィードバック経路が利用可能である場合）使用されうる。ＳＨＣは、人間の知覚（心理音響学）、冗長性等を考慮に入れるようにコード化されうる。方法Ｍ４１０で図示されているように、例えば、ここで説明されているような手法は、例えば球面調和を使用して、（傾聴者の近接における最終的な等化を含む）端から端までの解決策としてインプリメントされうる。

[0115]図１２Ａは一般的な構成にしたがった、装置ＭＦ１００のブロック図を図示している。装置ＭＦ１００は、（例えば、タスクＴ１００のインプリメンテーションに関してここで説明されたように）第１の音場を記述する基底関数係数の第１のセットに、オーディオ信号およびオーディオ信号に関する空間情報を符号化するための手段Ｆ１００を含む。装置ＭＦ１００はまた、（例えば、タスクＴ１００のインプリメンテーションに関してここで説明されたように）時間間隔中に結合された音場を記述する基底関数係数の結合されたセットを生成するために、時間間隔中に第２の音場を記述する基底関数係数の第２のセットと基底関数係数の第１のセットを結合するための手段Ｆ２００を含む。

[0116]図１２Ｂは、手段Ｆ１００のインプリメンテーションＦ１０２のブロック図を図示している。手段Ｆ１０２は、（例えば、タスクＴ１１０のインプリメンテーションに関してここで説明されたように）オーディオ信号の時間周波数分析を行うための手段Ｆ１１０を含む。手段Ｆ１０２はまた、（例えば、タスクＴ１２０のインプリメンテーションに関してここで説明されたように）基底関数係数のセットを計算するための手段Ｆ１２０を含む。図１２Ｃは、（例えば、タスクＴ１１５のインプリメンテーションに関してここで説明されたように）手段Ｆ１１０が複数の周波数の各々で、オーディオ信号のエネルギーを計算するための手段Ｆ１１５としてインプリメントされる手段Ｆ１０２のインプリメンテーションＦ１０４のブロック図を図示している。

[0117]図１３Ａは、手段Ｆ１００のインプリメンテーションＦ１０６のブロック図を図示している。手段Ｆ１０６は、（例えば、タスクＴ１３０のインプリメンテーションに関してここで説明されたように）中間係数を計算するための手段Ｆ３０を含む。手段Ｆ１０６はまた、（例えば、タスクＴ１４０のインプリメンテーションに関してここで説明されたように）中間係数に波面モデルを適用するための手段Ｆ１４０を含む。

[0118]図１３Ｂは、（例えば、タスクＴ２１０のインプリメンテーションに関してここで説明されたように）手段Ｆ２００が基底関数係数の第１のセットおよび第２のセットの要素毎の合計を計算するための手段Ｆ２１０としてインプリメントされる装置ＭＦ１００のインプリメンンテーションＭＦ１１０のブロック図を図示している。

[0119]図１３Ｃは、装置ＭＦ１００のインプリメンテーションＭＦ１２０のブロック図を図示している。装置ＭＦ１２０は、（例えば、タスクＴ５０のインプリメンテーションに関してここで説明されたように）マルチチャネルオーディオ入力のチャネルに関する空間情報を生成するための手段Ｆ５０を含む。

[0120]図１３Ｄは、装置ＭＦ１００のインプリメンテーションＭＦ３００のブロック図を図示している。装置ＭＦ３００は、（例えば、タスクＴ３００のインプリメンテーションに関してここで説明されたように）基底関数係数の結合されたセットを符号化するための手段Ｆ３００を含む。装置ＭＦ３００はまた、手段Ｆ５０の例を含むようにインプリメントされうる。

[0121]図１４Ａは、装置ＭＦ１００のインプリメンテーションＭＦ２００のブロック図を図示している。装置ＭＦ２００は、（例えば、方法Ｍ２００およびタスクＴ２０２のインプリメンテーションに関してここで説明されたように）手段Ｆ１００ａ‐Ｆ１００Ｌによって生成される基底関数係数のセットを結合するための複数の例、手段Ｆ１００のＦ１００ａ−Ｆ１００Ｌおよび手段Ｆ２００のインプリメンテーションＦ２０２、を含む。

[0122]図１４Ｂは、一般的な構成にしたがった、装置ＭＦ４００のブロック図を図示している。装置ＭＦ４００は、（例えば、タスクＴ４００のインプリメンテーションに関してここで説明されたように）基底関数係数の結合されたセットを取得するためにビットストリームを復号するための手段Ｆ４００を含む。装置ＭＦ４００はまた、（例えば、タスクＴ５００のインプリメンテーションに関してここで説明されたように）ラウドスピーカチャネルのセットを生成するために結合されたセットの係数をレンダリングするための手段Ｆ５００を含む。

[0123]図１４Ｃは、一般的な構成にしたがった、装置Ａ１００のブロック図を図示している。装置Ａ１００は、（例えば、タスクＴ１００のインプリメンテーションに関してここで説明されたように）第１の音場を記述する基底関数係数の第１のセットに、オーディオ信号およびオーディオ信号に関する空間情報を符号化するように構成されたエンコーダ１００を含む。装置Ａ１００はまた、（例えば、タスクＴ１００のインプリメンテーションに関してここで説明されたように）時間間隔中に結合された音場を記述する基底関数係数の結合されたセットを生成するために、時間間隔中に第２の音場を記述する基底関数係数の第２のセットと基底関数係数の第１のセットを結合するように構成された結合器２００を含む。

[0124]図１５Ａは、装置Ａ１００のインプリメンテーションＡ３００のブロック図を図示している。装置Ａ３００は、（例えば、タスクＴ３００のインプリメンテーションに関してここで説明されたように）基底関数係数の結合されたセットを符号化するように構成されたチャネルエンコーダ３００を含む。装置Ａ３００はまた、以下で説明されるように、アングルインジケータ５０の例を含むようにインプリメントされうる。

[0125]図１５Ｂは一般的な構成にしたがった、装置ＭＦ１００のブロック図を図示している。装置ＭＦ４００は、（例えば、タスクＴ４００のインプリメンテーションに関してここで説明されたように）基底関数係数の結合されたセットを取得するためにビットストリームを復号するための手段Ｆ４００を含む。装置ＭＦ４００はまた、（例えば、タスクＴ５００のインプリメンテーションに関してここで説明されたように）ラウドスピーカチャネルのセットを生成するために結合されたセットの係数をレンダリングするための手段Ｆ５００を含む。

[0126]図１５Ｃは、エンコーダ１００のインプリメンテーション１０２のブロック図を図示している。エンコーダ１０２は、（例えば、タスクＴ１１０のインプリメンテーションに関してここで説明されたように）オーディオ信号の時間周波数分析を行うように構成された時間周波数分析器１１０を含む。エンコーダ１０２はまた、（例えば、タスクＴ１２０のインプリメンテーションに関してここで説明されたように）基底関数係数のセットを計算するように構成された係数計算器１２０を含む。図１５Ｄは、（例えば、タスクＴ１１５のインプリメンテーションに関してここで説明されたように、信号に対して高速フーリエ変換を行うことによって）分析器１１０が複数の周波数の各々でオーディオ信号のエネルギーを計算するように構成されたエネルギー計算器１１５としてインプリメントされるエンコーダ１０２のインプリメンテーション１０４のブロック図を図示している。

[0127]図１５Ｅは、エンコーダ１００のインプリメンテーション１０６のブロック図を図示している。エンコーダ１０６は、（例えば、タスクＴ１３０のインプリメンテーションに関してここで説明されたように）中間係数を計算するように構成された中間係数計算器１３０を含む。エンコーダ１０６はまた、（例えば、タスクＴ１４０のインプリメンテーションに関してここで説明されたように）基底関数係数の第１のセットを生成するために、中間係数に波面モデルを適用するように構成されたフィルタ１４０を含む。

[0128]図１６Ａは、（例えば、タスクＴ２１０のインプリメンテーションに関してここで説明されたように）結合器２００が基底関数係数の第１のセットおよび第２のセットの要素毎の合計を計算するように構成されたベクトル合計計算器２１０としてインプリメントされる装置Ａ１００のインプリメンテーションＡ１１０のブロック図を図示している。

[0129]図１６Ｂは、装置Ａ１００のインプリメンテーションＡ１２０のブロック図を図示している。装置Ａ１２０は、（例えば、タスクＴ５０のインプリメンテーションに関してここで説明されたように）マルチチャネルオーディオ入力のチャネルに関する空間情報を生成するように構成されたアングルインジケータ５０を含む。

[0130]図１６Ｃは、装置Ａ１００のインプリメンテーションＡ２００のブロック図を図示している。装置Ａ２００は、（例えば、方法Ｍ２００およびタスクＴ２０２のインプリメンテーションに関してここで説明されたように）エンコーダ１００ａ‐１００Ｌによって生成される基底関数係数のセットを結合するように構成された結合器２００のインプリメンテーション２０２およびエンコーダ１００の複数の例１００ａ‐１００Ｌを含む。装置Ａ２００はまた、タスクＴ５２に関して上記で説明されたように、フォーマット識別子によって示されうる、または予め決められうる入力フォーマットにしたがって、入力がチャネルベースである場合、各ストリームに関する対応するロケーションデータを生成するように構成されたチャネルロケーションデータ生成器を含むこともできる。

[0131]エンコーダ１００ａ‐１００Ｌの各々は、タスクＴ１００ａ‐Ｔ１００ＬおよびＴ１２０ａ‐Ｔ１２０Ｌに関して上記で説明されているように、（チャネルベースの入力では）チャネルロケーションデータ生成器によって、または（オブジェクトベースの入力では）メタデータによって提供されるような信号に関する空間情報（例えば、ロケーションデータ）に基づいて、対応する入力オーディオ信号（例えば、ＰＣＭストリーム）のためのＳＨＣのセットを計算するように構成されうる。結合器２０２は、タスクＴ２０２に関して上記で説明されたように、結合されたセットを生成するために、ＳＨＣのセットの合計を計算するように構成される。装置Ａ２００はまた、タスクＴ３００に関して上記で説明されたように、送信および／または記憶のための共通フォーマットに、シーンベースの入力から、および／または（オブジェクトベースおよびチャネルベースの入力では）結合器２０２から受信されたような、ＳＨＣの結合されたセットを符号化するように構成されたエンコーダ３００の例を含むことができる。

[0132]図１７Ａは、統合されたコード化アーキテクチャに関するブロック図を図示している。この例では、統合されたエンコーダＵＥ１０は、統合された符号化された信号を生成し、統合されたデコーダＵＤ１０に送信チャネルを介して統合された符号化された信号を送信するように構成される。統合されたエンコーダＵＥ１０は、ここで説明されているように、チャネルベースの入力、オブジェクトベースの入力、および／またはシーンベースの（例えば、ＳＨＣベースの）入力から統合された符号化された信号を生成するようにインプリメントされうる。図１７Ｂは、統合されたエンコーダＵＥ１０は、メモリＭＥ１０に統合された符号化された信号を記憶するように構成される関連するアーキテクチャに関するブロック図を図示している。

[0133]図１７Ｃは、球面調和（ＳＨ）分析器としてのエンコーダ１００のインプリメンテーション１５０および結合器２００のインプリメンテーション２５０を含む装置Ａ１００および統合されたエンコーダＵＥ１０のインプリメンテーションＵＥ１００のブロック図を図示している。分析器１５０は、（例えば、タスクＴ１００に関してここで説明されているように）入力オーディオコード化された信号で符号化されたオーディオおよびロケーション情報に基づいてＳＨベースのコード化された信号を生成するように構成される。入力オーディオのコード化された信号は、例えば、チャネルベースの入力またはオブジェクトベースの入力でありうる。結合器２５０は、分析器１５０によって生成されるＳＨベースのコード化された信号および別のＳＨベースのコード化された信号（例えば、シーンベースの入力）の合計を生成するように構成される。

[0134]図１７Ｄは、送信および／または記憶のための共通のフォーマットに、オブジェクトベースの入力、チャネルベースの入力、およびシーンベースの入力を処理するために使用されうる装置Ａ３００および統合されたエンコーダＵＥ１００のインプリメンテーションＵＥ３００のブロック図を図示している。エンコーダＵＥ３００は、エンコーダ３００（例えば、統合された係数セットエンコーダ）のインプリメンテーション３５０を含む。統合された係数セットエンコーダ３５０は、統合された符号化された信号を生成するために、（例えば、係数セットエンコーダ３００に関してここで説明されているように）合計された信号を符号化するように構成される。

[0135]シーンベースの入力はすでにＳＨＣ形態で符号化されうるため、転送および／または記憶のための共通のフォーマットに、（例えば、等化、誤り訂正コード化、冗長コード化等、および／またはパケット化によって）入力を処理することは統合されたエンコーダにとって十分でありうる。図１７Ｅは、エンコーダ３００のインプリメンテーション３６０が他のＳＨベースのコード化された信号を（例えば、そのような信号が結合器２５０からは利用可能でないケースで）符号化するように構成される統合されたエンコーダＵＥ１００のそのようなインプリメンテーションＵＥ３０５のブロック図を図示している。

[0136]図１８は、オーディオコード化された信号における情報に基づいてフォーマットインジケータＦＩ１０を生成するように構成されたフォーマット検出器Ｂ３００、およびフォーマットインジケータの状態にしたがって分析器１４０へのオーディオコード化された信号の入力を有効または無効にするように構成されるスイッチＢ４００を含む統合されたエンコーダＵＥ１０のインプリメンテーションＵＥ３１０のブロック図を図示している。フォーマット検出器Ｂ３００は、例えば、フォーマットインジケータＦＩ１０がオーディオコード化された信号がチャネルベースの入力であるときの第１の状態、およびオーディオコード化された信号がオブジェクトベースの入力であるときの第２の状態を有するようにインプリメントされうる。加えて、または代わりとして、フォーマット検出器Ｂ３００は、チャネルベースの入力の特定のフォーマットを示すように（例えば、入力が５．１、７．１、または２２．２フォーマットであることを示すように）インプリメントされうる。

[0137]図１９Ａは、第１のＳＨベースのコード化された信号にチャネルベースのオーディオコード化された信号を符号化するように構成される分析器１５０の第１のインプリメンテーション１５０ａを含む統合されたエンコーダＵＥ１００のインプリメンテーションＵＥ２５０のブロック図を図示している。統合されたエンコーダＵＥ２５０はまた、第２のＳＨベースのコード化された信号にオブジェクトベースのオーディオコード化された信号を符号化するように構成される分析器１５０の第２のインプリメンテーション１５０ｂを含む。この例では、結合器２５０のインプリメンテーション２６０は、第１および第２のＳＨベースのコード化された信号の合計を生成するように構成される。

[0138]図１９Ｂは、エンコーダ３５０が、結合器２６０によって生成された第１および第２のＳＨベースのコード化された信号の合計を符号化することによって、統合された符号化された信号を生成するように構成される統合されたエンコーダＵＥ２５０およびＵＥ３００のインプリメンテーションＵＥ３５０のブロック図を図示している。

[0139]図２０は、オブジェクトベースの信号パーザＣＰ（signal parser OP）１０を含む分析器１５０ａのインプリメンテーション１６０ａのブロック図を図示している。パーザＯＰ１０は、オブジェクトベースの入力をその様々な成分オブジェクトにＰＣＭストリームとして解析し、各オブジェクトに関するロケーションデータに関連するメタデータを復号するように構成されうる。分析器１６０ａの他の要素は、装置Ａ２００に関してここで説明されているようにインプリメントされうる。

[0140]図２１は、チャネルベースの信号パーザＯＰ１０を含む分析器１５０ｂのインプリメンテーション１６０ｂのブロック図を図示している。パーザＣＰ１０は、ここで説明されているように、アングルインジケータ５０の例を含むようにインプリメントされうる。パーザＣＰ１０はまた、チャネルベースの入力をその様々な成分チャネルにＰＣＭストリームとして解析するように構成されうる。分析器１６０ｂの他の要素は、装置Ａ２００に関してここで説明されているようにインプリメントされうる。

[0141]図２２Ａは、第１および第２のＳＨベースのコード化された信号ならびに入力ＳＨベースのコード化された信号の合計（例えば、シーンベースの入力）を生成するように構成される、結合器２６０のインプリメンテーション２７０を含む統合されたエンコーダＵＥ２５０のインプリメンテーションＵＥ２６０のブロック図を図示している。図２２Ｂは、統合されたエンコーダＵＥ３５０の類似のインプリメンテーションＵＥ３６０のブロック図を図示している。

[0142]例えば、ストリーミング、ブロードキャスト、マルチキャスト、および／またはメディアマスタリング（例えば、ＣＤ、ＤＶＤ、およびまたはブルーレイ^Ｒディスクのマスタリング）のためのビットストリームを生成するために、ここで説明されているような統合されたエンコーダＵＥ１０（例えば、ＵＥ１００、ＵＥ２５０、ＵＥ２６０、ＵＥ３００、ＵＥ３１０、ＵＥ３５０、ＵＥ３６０）のインプリメンテーションとして図３Ｂで図示されるようにＭＰＥＧエンコーダＭＰ１０をインプリメントすることが望ましくありうる。別の例では、１つまたは複数のオーディオ信号は、ＳＨＣと同時の送信および／または記憶のためにコード化されうる（例えば、上記で説明されたような方法で取得される）。

[0143]ここで開示されている方法および装置は、概して、アプリケーションの移動型またはさもなければ携帯型の事例を含み、かつ／もしくは遠距離場のソースからの信号成分を感知する、任意のトランシーバで混信するおよび／またはオーディオ感知のアプリケーションに適用されうる。例えば、ここで開示された構成の範囲は、符号分割多元接続（ＣＤＭＡ）無線インタフェースを用いるように構成されたワイヤレス電話通信システムに存在する通信デバイスを含む。それにもかかわらず、ここで説明されているような特徴を有する方法および装置が、ワイヤード（wired）および／またはワイヤレス（例えば、ＣＤＭＡ、ＴＤＭＡ、ＦＤＭＡ、および／または、ＴＤ−ＳＣＤＭＡ）送信チャネルをわたるボイスオーバーＩＰ（ＶｏＩＰ）を用いるシステムのような、当業者に知られている幅広い範囲の技術を用いる様々な通信システムのどれにでも存在しうることは当業者によって理解されるだろう。

[0144]ここで開示されている通信デバイス（例えば、スマートフォン、タブレットコンピュータ）が、パケット交換（例えば、ＶｏＩＰのようなプロトコルに従ってオーディオ送信を搬送するように構成されている、ワイヤードおよび／またはワイヤレスネットワーク）および／または回線交換であるネットワークでの使用のために適合されうることは、明示的に考慮され、ここに開示されている。また、ここで開示されている通信デバイスが、狭帯域コード化システム（例えば、約４または５キロヘルツのオーディオ周波数範囲を符号化するシステム）での使用のために、および／または、全帯域広帯域コード化システムおよび分割帯域広帯域コード化システムを含む、広帯域コード化システム（例えば、５キロヘルツよりも大きいオーディオ周波数を符号化するシステム）での使用のために、適合されうることも、明示的に考慮され、ここに開示されている。

[0145]先の説明された構成の提示は、いかなる当業者であっても、ここに開示されている方法および他の構造の製造または使用することができるようにするために提供される。ここで説明および図示されているフローチャート、ブロック図、および他の構造は、例にすぎず、これらの構造の他の変形もまた、本開示の範囲内にある。これらの構成に対する様々な修正が可能であり、ここで提示された一般的な原理は、他の構成にも適用されうる。したがって、本開示は、上記で表示された構成に限定されるようには意図されず、むしろ当初の開示の一部を形成する、提出される添付の特許請求の範囲を含む、何らかの形式でここに開示されている原理および新規な特徴と一致する最も広い範囲を与えられるべきである。

[0146]当業者は、情報および信号が、様々な異なる技術および技法のうちのいずれかを使用して表されうることを理解するであろう。例えば、上記説明の全体にわたって参照されうるデータ、命令、コマンド、情報、信号、ビット、およびシンボルは、電圧、電流、電磁波、磁場または磁性粒子、光学場または光学粒子、あるいはこれらのあらゆる組み合わせによって表されうる。

[0147]ここで開示されているような構成のインプリメンテーションのための重要な設計要件は、特に、圧縮されたオーディオまたはオーディオビジュアル情報（例えば、ここで識別される例のうちの１つのような、圧縮フォーマットにしたがって符号化されたファイルまたはストリーム）の再生のような、計算集中的なアプリケーションに関する、または、広帯域通信（例えば、１２、１６、４４．１、４８、または１９２ｋＨｚのような、８キロヘルツよりも高いサンプリングレートでの音声通信）のためのアプリケーションに関する、（通常、百万命令毎秒（millions of intructions per second）、すなわちＭＩＰＳにおいて測定される）処理遅延および／または計算の複雑さを最小化することを含みうる。

[0148]マルチマイクロフォン処理システムの目的は、全体的なノイズ低減において１０から１２ｄＢを達成すること、所望のスピーカの動きの間音声レベルおよび色を保つこと、積極的なノイズ除去の代わりにノイズがバックグラウンドに移されたという知覚を取得すること、スピーチの残響除去および／または、より積極的なノイズ低減のために後処理のオプションを可能にすることを含みうる。

[0149]ここで開示されている装置は（例えば、装置Ａ１００、Ａ１１０、Ａ１２０、Ａ２００、Ａ３００、Ａ４００、ＭＦ１００、ＭＦ１１０、ＭＦ１２０、ＭＦ２００、ＭＦ３００、ＭＦ４００、ＵＥ１０、ＵＤ１０、ＵＥ１００、ＵＥ２５０、ＵＥ２６０、ＵＥ３００、ＵＥ３１０、ＵＥ３５０、およびＵＥ３６０のどれでも）、意図されるアプリケーションに適していると考えられるソフトウェアと、および／またはファームウェアとのハードウェアのあらゆる組み合わせにおいてインプリメントされうる。例えば、このような装置の要素は、例えば、同じチップ上またはチップセット中の２つ以上のチップの間に存在する、電子デバイスおよび／または光学デバイスとして組み立てられうる。このようなデバイスの１つの例は、トランジスタまたは論理ゲートのような、論理要素の固定アレイまたはプログラマブルアレイであり、これらの要素のどれも、１つまたは複数のこのようなアレイとしてインプリメントされうる。装置の要素のうちの任意の２つ以上、またはさらには全てが、同じ１つのアレイまたは複数のアレイ内でインプリメントされうる。このような１つのアレイまたは複数のアレイは、１つまたは複数のチップ内で（例えば、２つ以上のチップを含むチップセット内で）インプリメントされうる。

[0150]ここで開示されている装置（例えば、装置Ａ１００、Ａ１１０、Ａ１２０、Ａ２００、Ａ３００、Ａ４００、ＭＦ１００、ＭＦ１１０、ＭＦ１２０、ＭＦ２００、ＭＦ３００、ＭＦ４００、ＵＥ１０、ＵＤ１０、ＵＥ１００、ＵＥ２５０、ＵＥ２６０、ＵＥ３００、ＵＥ３１０、ＵＥ３５０、およびＵＥ３６０のどれでも）の様々なインプリメンテーションのうちの１つまたは複数の要素はまた、その全体または一部において、マイクロプロセッサ、組み込まれたプロセッサ、ＩＰコア、デジタル信号プロセッサ、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）、ＡＳＳＰ（特定用途向け規格製品）、およびＡＳＩＣ（特定用途向け集積回路）等の、論理要素の１つまたは複数の固定型またはプログラム可能アレイ上で実行するように構成された命令の１つまたは複数のセットとしてインプリメントされうる。ここで開示されているような装置のインプリメンテーションの様々な要素のうちのいずれも、１つまたは複数のコンピュータ（例えば、「プロセッサ」とも呼ばれる、命令の１つまたは複数のセットまたは命令の１つまたは複数のシーケンスを実行するようにプログラムされている１つまたは複数のアレイを含む機械）として具現化され、これらの要素のうちの任意の２つ以上、またはさらには全てが、同じこのような１つのコンピュータまたは複数のコンピュータ内でインプリメントされうる。

[0151]ここで開示されているような処理のためのプロセッサまたは他の手段は、例えば、同じチップ上またはチップセット中の２つ以上のチップの間に存在する、１つまたは複数の電子デバイスおよび／または光学デバイスとして組み立てられうる。このようなデバイスの１つの例は、トランジスタまたは論理ゲートのような、論理要素の固定型アレイまたはプログラム可能アレイであり、このような要素のうちのいずれかが、１つまたは複数のこのようなアレイとしてインプリメントされうる。このような１つのアレイまたは複数のアレイは、１つまたは複数のチップ内で（例えば、２つ以上のチップを含むチップセット内で）インプリメントされうる。このようなアレイの例は、マイクロプロセッサ、組み込まれたプロセッサ、ＩＰコア、ＤＳＰ、ＦＰＧＡ、ＡＳＳＰ、およびＡＳＩＣ等の、論理要素の固定型アレイまたはプログラム可能アレイを含む。ここで開示されているような処理するためのプロセッサまたは他の手段はまた、１つまたは複数のコンピュータ（例えば、命令の１つまたは複数のセットまたは命令の１つまたは複数のシーケンスを実行するようにプログラムされている１つまたは複数のアレイを含む機械）あるいは他のプロセッサとして具現化されうる。ここで説明されているようなプロセッサが、プロセッサが組み込まれているデバイスまたはシステム（例えば、オーディオ感知デバイス）の別の動作に関連するタスクのような、ここで説明されているようなオーディオコード化手順に直接関連しない命令の他のセットを実行する、あるいはタスクを行うために使用されることは可能である。ここで開示されているような方法の一部が、オーディオ感知デバイスのプロセッサによって行われ、方法の別の部分が、１つまたは複数の他のプロセッサの制御下で行われることも可能である。

[0152]ここで開示されている構成に関係して説明されている、様々な例示的なモジュール、論理ブロック、回路およびテスト、ならびに、他の動作が、電子ハードウェア、コンピュータソフトウェア、または、双方の組み合わせたものとしてインプリメントされうることを当業者は認識するだろう。このようなモジュール、論理ブロック、回路、および、動作は、汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、ＡＳＩＣまたはＡＳＳＰ、ＦＰＧＡまたは他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタ論理、ディスクリートハードウェアコンポーネント、あるいは、ここで開示されているような構成を生成するように設計されたこれらのあらゆる組み合わせで、インプリメントされうる、あるいは行われうる。例えば、このような構成は、ハードワイヤード回路として、特定用途向け集積回路に組み立てられている回路構成として、あるいは、汎用プロセッサまたは他のデジタル信号処理ユニットのような、論理要素のアレイによって実行可能な命令であるコードのような、機械可読コードとしてデータ記憶媒体にまたはデータ記憶媒体からロードされたソフトウェアプログラム、もしくは不揮発性記憶装置にロードされたファームウェアプログラムとして少なくとも部分的にインプリメントされうる。汎用プロセッサは、マイクロプロセッサでありうるが、代わりとして、プロセッサは、何らかの従来のプロセッサ、コントローラ、マイクロコントローラ、または、ステートマシンでありうる。プロセッサはまた、例えば、ＤＳＰとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサ、ＤＳＰコアと関連した１つまたは複数のマイクロプロセッサ、あるいはあらゆる他のこのような構成の、計算デバイスの組み合わせとしてインプリメントされうる。ソフトウェアモジュールは、ＲＡＭ（ランダムアクセスメモリ）、ＲＯＭ（読み取り専用メモリ）、フラッシュＲＡＭのような不揮発性ＲＡＭ（ＮＶＲＡＭ）、消去可能プログラマブルＲＯＭ（ＥＰＲＯＭ）、電気的消去可能プログラマブルＲＯＭ（ＥＥＰＲＯＭ）、レジスタ、ハードディスク、リムーバブルディスク、または、ＣＤ−ＲＯＭ、あるいは、当技術分野では既知のあらゆる他の形態の記憶媒体のような、非一時的な記憶媒体に存在しうる。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代わりとして、記憶媒体は、プロセッサに一体（integral）でありうる。プロセッサおよび記憶媒体は、ＡＳＩＣに存在しうる。ＡＳＩＣは、ユーザ端末に存在しうる。代わりとして、プロセッサおよび記憶媒体は、ユーザ端末内にディスクリートコンポーネントとして存在しうる。

[0153]ここで開示されている様々な方法が（例えば、方法Ｍ１００、Ｍ１１０、Ｍ１２０、Ｍ２００、Ｍ３００、およびＭ４００のいずれも）、プロセッサのような論理要素のアレイによって行われうること、およびここで説明されているような装置の様々な要素が、このようなアレイ上で実行するように設計されているモジュールとしてインプリメントされうることに留意されたい。ここで使用されているように、「モジュール」または「サブモジュール」という用語は、ソフトウェア、ハードウェア、またはファームウェアの形態で、コンピュータ命令（例えば、論理表現）を含む、何らかの方法、装置、デバイス、ユニット、または、コンピュータ可読データ記憶媒体のことを称することができる。同じ機能を行うために、複数のモジュールまたはシステムが１つのモジュールまたはシステムに結合されうること、および１つのモジュールまたはシステムが、複数のモジュールまたはシステムに分けられうることは理解されるべきである。ソフトウェアまたは他のコンピュータ実行可能命令でインプリメントされるときに、プロセスの要素は本来、例えば、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造等で関連するタスクを行うためのコードセグメントである。「ソフトウェア」という用語は、ソースコード、アセンブリ言語コード、機械コード、バイナリコード、ファームウェア、マクロコード、マイクロコード、論理要素のアレイによって実行可能な命令の任意の１つまたは複数のセットまたはシーケンス、ならびに、このような例のあらゆる組み合わせを含むことは理解されるべきである。プログラムまたはコードセグメントは、プロセッサ可読媒体に記憶されうる、あるいは送信媒体または通信リンクをわたって搬送波（carrier wave）で具現化されるコンピュータデータ信号によって送信されうる。

[0154]ここで開示された、方法、スキーム、および技法のインプリメンテーションはまた、論理要素のアレイ（例えば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または、他の有限ステートマシン）を含む機械によって実行可能な、ならびに／または読み取り可能な命令の１つまたは複数のセットとして、有体的に（例えば、ここで挙げられているような１つまたは複数のコンピュータ可読媒体で）具現化されうる。「コンピュータ可読媒体」という用語は、揮発性媒体、不揮発性媒体、リムーバブル媒体、および非リムーバブル記憶媒体を含む、情報を記憶または転送することができる何らかの媒体を含みうる。コンピュータ可読媒体の例は、電子回路、半導体メモリデバイス、ＲＯＭ、フラッシュメモリ、消去可能なＲＯＭ（ＥＲＯＭ）、フロッピー（登録商標）ディスケットまたは他の磁気記憶装置、ＣＤ−ＲＯＭ／ＤＶＤまたは他の光学記憶装置、ハードディスク、光ファイバ媒体、無線周波数（ＲＦ）リンク、あるいは、所望の情報を記憶するために使用され、かつアクセスされることができるあらゆる他の媒体を含む。コンピュータデータ信号は、例えば、電子ネットワークチャネル、光ファイバ、エア（air）、電磁気、ＲＦリンク等の、送信媒体をわたって伝搬することができる何らかの信号を含むことができる。コードセグメントは、インターネットまたはイントラネットのようなコンピュータネットワークを介してダウンロードされうる。あらゆるケースで、本開示の範囲は、このような実施形態によって限定されるものとして解釈されるべきではない。

[0155]ここで説明されている方法のタスクの各々は、直接ハードウェアにおいて、プロセッサによって実行されるソフトウェアモジュールにおいて、またはこれら２つの組み合わせにおいて、具現化されうる。ここで開示されているような方法のインプリメンテーションの典型的なアプリケーションでは、論理要素（例えば、論理ゲート）のアレイは、方法の様々なタスクのうちの、１つ、１つより多くのもの、またさらには全てさえも行うように構成される。タスクのうちの１つまたは複数（場合によっては全て）は、コード（例えば、命令の１つまたは複数のセット）としてもインプリメントされることができ、論理要素（例えば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限ステートマシン）のアレイを含む機械（例えば、コンピュータ）によって読み取り可能な、および／または実行可能である、コンピュータプログラム製品（例えば、ディスク、フラッシュまたは他の不揮発性メモリカード、半導体メモリチップ等のような１つまたは複数のデータ記憶媒体）で具現化されることができる。ここで開示されているような方法のインプリメンテーションのタスクはまた、１つより多くのこのようなアレイまたは機械によって行われうる。これらのまたは他のインプリメンテーションでは、これらタスクは、このような通信能力を有するセルラ電話または他のデバイス等の、ワイヤレス通信のためのデバイス内で行われうる。このようなデバイスは、（例えば、ＶｏＩＰのような１つまたは複数のプロトコルを使用する）回線交換ネットワークおよび／またはパケット交換ネットワークと通信するように構成されうる。例えば、このようなデバイスは、符号化されたフレームを受信および／または送信するように構成されたＲＦ回路を含むことができる。

[0156]ここで開示されている様々な方法が、ハンドセット、ヘッドセット、または携帯情報端末（ＰＤＡ）等の、携帯用通信デバイスによって行われうること、およびここで説明されている様々な装置がこのようなデバイス内に含まれうることが明示的に開示されている。典型的なリアルタイム（例えば、オンライン）アプリケーションは、このようなモバイルデバイスを使用して実施される電話会話である。

[0157]１つまたは複数の実例となる実施形態では、ここで説明されている動作は、ハードウェア、ソフトウェア、ファームウェア、またはこれらのあらゆる組み合わせにおいてインプリメントされうる。ソフトウェアでインプリメントされる場合、このような動作は、１つまたは複数の命令またはコードとして、コンピュータ可読媒体上に記憶されうる、またはコンピュータ可読媒体をわたって送信されうる。「コンピュータ可読媒体」という用語は、コンピュータ可読記憶媒体および通信（例えば、送信）媒体の両方を含む。限定ではなく例として、コンピュータ可読記憶媒体は、（限定はしないが、動的または静的なＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、および／またはフラッシュＲＡＭを含みうる）半導体メモリ、または、強誘電体、磁気抵抗、オボニック（ovonic）、高分子、または相転移メモリのような、記憶要素のアレイ、ＣＤ−ＲＯＭまたは他の光学ディスク記憶装置、および／または磁気ディスク記憶装置または他の磁気記憶デバイスを備えることができる。このような記憶媒体は、コンピュータによってアクセスされうるデータ構造または命令の形態で情報を記憶しうる。通信媒体は、１つの場所から別の場所へのコンピュータプログラムの転送を容易にするあらゆる媒体を含む、コンピュータによってアクセスされうる命令またはデータ構造の形態で所望のプログラムコードを搬送するために使用されうる任意の媒体を備えることができる。また、いずれの接続手段もコンピュータ可読媒体と適切に名付けられる。例えば、ソフトウェアが、ウェブサイト、サーバ、もしくは他の遠隔ソースから、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者線（ＤＳＬ）、もしくは赤外線、無線、および／またはマイクロ波のようなワイヤレス技術を使用して送信される場合、同軸ケーブル、光ファイバケーブル、ツイストペア、ＤＳＬ、もしくは赤外線、無線、および／またはマイクロ波のようなワイヤレス技術は媒体の定義に含まれる。ここで使用されているように、ディスク（disk）およびディスク（disc）は、コンパクトディスク（ＣＤ）、レーザーディスク（登録商標）、光学ディスク、デジタルバーサタイルディスク（ＤＶＤ）、フロッピーディスクおよびブルーレイディスク（ブルーレイディスクアソシエィション、ユニバーサルシティ、ＣＡ）を含み、ここでディスク（disks）は、大抵磁気的にデータを再生し、一方ディスク（discs）は、レーザーを用いて光学的にデータを再生する。上記の組み合わせもまた、コンピュータ可読媒体の範囲内に含まれるべきである。

[0158]ここで説明されているような音響信号処理装置（例えば、装置Ａ１００またはＭＦ１００）は、ある特定の動作を制御するためにスピーチ入力を受け入れる、あるいはそうでなければ、バックグラウンドノイズからの所望のノイズの分離から利益を得ることができる、通信デバイスのような電子デバイスに組み込まれることができる。多くのアプリケーションは、複数の方向から生じるバックグラウンドサウンドから、クリアな所望のサウンドを強化または分離することから、利益を得ることができる。このようなアプリケーションは、例えば、音声認識と検出、スピーチ強化と分離、音声によりアクティブ化される制御等の、能力を組み込む電子デバイスまたは計算デバイスにおけるヒューマンマシンインタフェースを含むことができる。限定された処理能力のみを提供するデバイスにおいて適しているように、そのような音響信号処理装置をインプリメントすることが望ましくありうる。

[0159]ここで説明されているモジュール、要素、およびデバイスの様々なインプリメンテーションの要素は、例えば、同じチップ上またはチップセット中の２つ以上のチップの間に存在する、電子デバイスおよび／または光学デバイスとして組み立てられうる。このようなデバイスの１つの例は、トランジスタまたはゲートのような、論理要素の固定型アレイまたはプログラマブルアレイである。ここで説明されている装置の様々なインプリメンテーションの１つまたは複数の要素はまた、その全体または一部において、マイクロプロセッサ、組み込まれたプロセッサ、ＩＰコア、デジタル信号プロセッサ、ＦＰＧＡ、ＡＳＳＰ、およびＡＳＩＣ等の、論理要素の１つまたは複数の固定型アレイまたはプログラマブルアレイ上で実行するように構成された命令の１つまたは複数のセットとしてインプリメントされうる。

[0160]ここで説明されているような装置のインプリメンテーションの１つまたは複数の要素が、装置が組み込まれているデバイスまたはシステムの別の動作に関連するタスクのような、装置の動作に直接的に関連しない命令の他のセットを実行する、あるいはタスクを行うために使用されることが可能である。このような装置のインプリメンテーションの１つまたは複数の要素が、共通の構造（例えば、異なる時間において、異なる要素に対応するコードの一部を実行するために使用されるプロセッサ、異なる時間において、異なる要素に対応するタスクを行うように実行される命令のセット、あるいは、異なる時間において、異なる要素に対する動作を行う、電子デバイスおよび／または光学デバイスの構成）を有することも可能である。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］
オーディオ信号処理の方法であって、前記方法は、
第１の音場を記述する基底関数係数の第１のセットに、オーディオ信号および前記オーディオ信号に関する空間情報を符号化することと、
時間間隔中に結合された音場を記述する基底関数係数の結合されたセットを生成するために、前記時間間隔中に第２の音場を記述する基底関数係数の第２のセットと前記基底関数係数の第１のセットを結合することと、
を備える、方法。
［Ｃ２］
前記オーディオ信号は、オーディオサンプルの対応するストリームのフレームである、
Ｃ１に記載の方法。
［Ｃ３］
前記オーディオ信号は、パルス符号変調（ＰＣＭ）ストリームのフレームである、
Ｃ１に記載の方法。
［Ｃ４］
前記オーディオ信号に関する前記空間情報は、空間における方向を示す、
Ｃ１に記載の方法。
［Ｃ５］
前記オーディオ信号に関する前記空間情報は、前記オーディオ信号のソースの空間におけるロケーションを示す、
Ｃ１に記載の方法。
［Ｃ６］
前記オーディオ信号に関する前記空間情報は、前記オーディオ信号の拡散率（diffusivity）を示す、
Ｃ１に記載の方法。
［Ｃ７］
前記オーディオ信号は、ラウドスピーカチャネルである、
Ｃ１に記載の方法。
［Ｃ８］
前記方法は、前記オーディオ信号および前記オーディオ信号に関する前記空間情報を含むオーディオオブジェクトを取得することを含む、
Ｃ１に記載の方法。
［Ｃ９］
前記方法は、前記基底関数係数の第２のセットに、第２のオーディオ信号、および前記第２のオーディオ信号に関する空間情報を符号化することを含む、
Ｃ１に記載の方法。
［Ｃ１０］
前記基底関数係数の第１のセットの各基底関数係数は、直交基底関数のセットのうちの一意的なものに対応する、
Ｃ１に記載の方法。
［Ｃ１１］
前記基底関数係数の第１のセットの各基底関数係数は、球面調和基底関数のセットのうちの一意的なものに対応する、
Ｃ１に記載の方法。
［Ｃ１２］
前記基底関数のセットは、第１の空間軸に沿う方が前記第１の空間軸に直交する第２の空間軸に沿うよりもより高い解像度で空間を記述する、
Ｃ１０に記載の方法。
［Ｃ１３］
前記基底関数係数の第１および第２のセットのうちの少なくとも１つは、第１の空間軸に沿う方が前記第１の空間軸に直交する第２の空間軸に沿うよりもより高い解像度で前記対応する音場を記述する、
Ｃ１に記載の方法。
［Ｃ１４］
前記基底関数係数の第１のセットは、少なくとも２空間次元における前記第１の音場を記述し、前記基底関数係数の第２のセットは、少なくとも２空間次元における前記第２の音場を記述する、
Ｃ１に記載の方法。
［Ｃ１５］
前記基底関数係数の第１および第２のセットのうちの少なくとも１つは、３空間次元における前記対応する音場を記述する、
Ｃ１に記載の方法。
［Ｃ１６］
前記基底関数係数の第１のセットにおける基底関数係数の合計数が、前記基底関数係数の第２のセットにおける基底関数係数の合計数より小さい、
Ｃ１に記載の方法。
［Ｃ１７］
前記基底関数係数の結合されたセットにおける前記基底関数係数の数は、前記基底関数係数の第１のセットにおける基底関数係数の数に少なくとも等しく、前記基底関数係数の第２のセットにおける基底関数係数の数に少なくとも等しい、
Ｃ１６に記載の方法。
［Ｃ１８］
前記結合することは、前記基底関数係数の結合されたセットの少なくとも複数の前記基底関数係数の各々に関して、前記基底関数係数を生成するために、前記基底関数係数の第１のセットの対応する基底関数係数および前記基底関数係数の第２のセットの対応する基底関数係数を合計することを備える、
Ｃ１に記載の方法。
［Ｃ１９］
有体的な特徴を読み取る機械にＣ１に記載の方法を行わせる前記特徴を有する非一時的なコンピュータ可読データ記憶媒体。
［Ｃ２０］
オーディオ信号処理のための装置であって、前記装置は、
第１の音場を記述する基底関数係数の第１のセットに、オーディオ信号および前記オーディオ信号に関する空間情報を符号化するための手段と、
時間間隔中に結合された音場を記述する基底関数係数の結合されたセットを生成するために、前記時間間隔中に第２の音場を記述する基底関数係数の第２のセットと前記基底関数係数の第１のセットを結合するための手段と、
を備える、装置。
［Ｃ２１］
前記オーディオ信号に関する前記空間情報は、空間における方向を示す、
Ｃ２０に記載の装置。
［Ｃ２２］
前記オーディオ信号は、ラウドスピーカチャネルである、
Ｃ２０に記載の装置。
［Ｃ２３］
前記装置は、前記オーディオ信号および前記オーディオ信号に関する前記空間情報を含むオーディオオブジェクトを解析するための手段を含む、
Ｃ２０に記載の装置。
［Ｃ２４］
前記基底関数係数の第１のセットの各基底関数係数は、直交基底関数のセットのうちの一意的なものに対応する、
Ｃ２０に記載の装置。
［Ｃ２５］
前記基底関数係数の第１のセットの各基底関数係数は、球面調和基底関数のセットのうちの一意的なものに対応する、
Ｃ２０に記載の装置。
［Ｃ２６］
前記基底関数係数の第１のセットは、少なくとも２空間次元における前記第１の音場を記述し、前記基底関数係数の第２のセットは、少なくとも２空間次元における前記第２の音場を記述する、
Ｃ２０に記載の装置。
［Ｃ２７］
前記基底関数係数の第１および第２のセットのうちの少なくとも１つは、３空間次元における前記対応する音場を記述する、
Ｃ２０に記載の装置。
［Ｃ２８］
前記基底関数係数の第１のセットにおける基底関数係数の合計数が、前記基底関数係数の第２のセットにおける基底関数係数の合計数より小さい、
Ｃ２０に記載の装置。
［Ｃ２９］
オーディオ信号処理のための装置であって、前記装置は、
第１の音場を記述する基底関数係数の第１のセットに、オーディオ信号および前記オーディオ信号に関する空間情報を符号化するように構成されたエンコーダと、
時間間隔中に結合された音場を記述する基底関数係数の結合されたセットを生成するために、前記時間間隔中に第２の音場を記述する基底関数係数の第２のセットと前記基底関数係数の第１のセットを結合するように構成された結合器と、
を備える、装置。
［Ｃ３０］
前記オーディオ信号に関する前記空間情報は、空間における方向を示す、
Ｃ２９に記載の装置。
［Ｃ３１］
前記オーディオ信号は、ラウドスピーカチャネルである、
Ｃ２９に記載の装置。
［Ｃ３２］
前記装置は、前記オーディオ信号および前記オーディオ信号に関する前記空間情報を含むオーディオオブジェクトを解析するように構成されたパーザを含む、
Ｃ２９に記載の装置。
［Ｃ３３］
基底関数係数の前記第１のセットの各基底関数係数は、直交基底関数のセットのうちの一意的なものに対応する、
Ｃ２９に記載の装置。
［Ｃ３４］
前記基底関数係数の第１のセットの各基底関数係数は、球面調和基底関数のセットのうちの一意的なものに対応する、
Ｃ２９に記載の装置。
［Ｃ３５］
前記基底関数係数の第１のセットは、少なくとも２空間次元における前記第１の音場を記述し、前記基底関数係数の第２のセットは、少なくとも２空間次元における前記第２の音場を記述する、
Ｃ２９に記載の装置。
［Ｃ３６］
前記基底関数係数の第１および第２のセットのうちの少なくとも１つは、３空間次元における前記対応する音場を記述する、Ｃ２９に記載の装置。
［Ｃ３７］
前記基底関数係数の第１のセットにおける基底関数係数の合計数が、前記基底関数係数の第２のセットにおける基底関数係数の合計数より小さい、
Ｃ２９に記載の装置。

Claims

オーディオ信号処理の方法であって、前記方法は、
第１の音場を記述する基底関数係数の第１のセットに、第１のオーディオ信号および前記第１のオーディオ信号に関する空間情報を変換することと、ここにおいて前記第１のオーディオ信号は、オブジェクトベースのフォーマットである、
結合された音場を記述する基底関数係数の結合されたセットを生成するために、基底関数係数の第２のセットと前記基底関数係数の第１のセットを結合することと、ここにおいて前記基底関数係数の第２のセットは、第２のオーディオ信号に関連付けられた第２の音場を記述し、前記第１のオーディオ信号の各々に関する前記空間情報は、前記第１のオーディオ信号のソースの空間におけるロケーションを示し、前記第１のオーディオ信号の前記ロケーションは、
によって定義され、ここでｒ _s は半径であり、θ _s は高位アングルであり、φ _s は方位アングルである、
前記基底関数係数の結合されたセットを符号化することと、
を備える、方法。
前記第１のオーディオ信号または前記第２のオーディオ信号のうちの少なくとも１つは、オーディオサンプルの対応するストリームのフレームである、請求項１に記載の方法。
前記第１のオーディオ信号または前記第２のオーディオ信号のうちの少なくとも１つは、パルス符号変調（ＰＣＭ）ストリームのフレームである、請求項１に記載の方法。
前記基底関数係数の第２のセットは、前記第２のオーディオ信号および前記第２のオーディオ信号に関する空間情報を変換することによって作り出され、前記第２のオーディオ信号に関する前記空間情報は、空間における方向を示す、請求項１に記載の方法。
前記基底関数係数の第２のセットは、前記第２のオーディオ信号および前記第２のオーディオ信号に関する空間情報を変換することによって作り出され、前記第２のオーディオ信号に関するそれぞれの空間情報は、前記第２のオーディオ信号のソースの空間におけるロケーションを示す、請求項１に記載の方法。
前記基底関数係数の第２のセットは、前記第２のオーディオ信号および前記第２のオーディオ信号に関する空間情報を変換することによって作り出され、前記第１のオーディオ信号および前記第２のオーディオ信号の各々に関するそれぞれの空間情報は、前記第１のオーディオ信号または前記第２のオーディオ信号のそれぞれの拡散率（diffusivity）を示す、請求項１に記載の方法。
前記第１のオーディオ信号および前記第１のオーディオ信号に関する前記空間情報を含むオーディオオブジェクトを取得することをさらに備える、請求項１に記載の方法。
前記基底関数係数の第１のセットの各基底関数係数は、前記第１の音場の任意の点における圧力を一意的に表現する、請求項１に記載の方法。
前記基底関数係数の第１のセットは、第１の空間軸に沿う方が前記第１の空間軸に直交する第２の空間軸に沿うよりもより高い解像度で空間を記述する、請求項１に記載の方法。
前記基底関数係数の第１のセットまたは前記基底関数係数の第２のセットのうちの少なくとも１つは、第１の空間軸に沿う方が前記第１の空間軸に直交する第２の空間軸に沿うよりもより高い解像度で対応する音場を記述する、請求項１に記載の方法。
前記基底関数係数の第１のセットは、少なくとも２空間次元における前記第１の音場を記述し、前記基底関数係数の第２のセットは、少なくとも２空間次元における前記第２の音場を記述する、請求項１に記載の方法。
前記基底関数係数の第１のセットまたは前記基底関数係数の第２のセットのうちの少なくとも１つは、３空間次元における対応する音場を記述する、請求項１に記載の方法。
前記基底関数係数の第１のセットに含まれる基底関数係数の合計数が、前記基底関数係数の第２のセットに含まれる基底関数係数の合計数より小さい、請求項１に記載の方法。
前記基底関数係数の結合されたセットに含まれる基底関数係数の合計数は、前記基底関数係数の第１のセットに含まれる前記基底関数係数の合計数と前記基底関数係数の第２のセットに含まれる前記基底関数係数の合計数との合計に等しい、請求項１３に記載の方法。
前記基底関数係数の第２のセットと前記基底関数係数の第１のセットを結合することは、前記基底関数係数の結合されたセットの少なくとも複数の前記基底関数係数の各々に関して、前記基底関数係数を生成するために、前記基底関数係数の第１のセットの対応する基底関数係数および前記基底関数係数の第２のセットの対応する基底関数係数を合計することを備える、請求項１に記載の方法。
命令を記憶した非一時的なコンピュータ可読データ記憶媒体であって、前記命令は、実行されると、オーディオ信号処理のためのデバイスの１つまたは複数のプロセッサに、
第１の音場を記述する基底関数係数の第１のセットに、第１のオーディオ信号および前記第１のオーディオ信号に関する空間情報を変換することと、ここにおいて前記第１のオーディオ信号は、オブジェクトベースのフォーマットである、
結合された音場を記述する基底関数係数の結合されたセットを生成するために、基底関数係数の第２のセットと前記基底関数係数の第１のセットを結合することと、ここにおいて前記基底関数係数の第２のセットは、第２のオーディオ信号に関連付けられた第２の音場を記述し、前記第１のオーディオ信号の各々に関する前記空間情報は、前記第１のオーディオ信号のソースの空間におけるロケーションを示し、前記第１のオーディオ信号の前記ロケーションは、
によって定義され、ここでｒ _s は半径であり、θ _s は高位アングルであり、φ _s は方位アングルである、
前記基底関数係数の結合されたセットを符号化することと、
を行わせる、非一時的なコンピュータ可読データ記憶媒体。
オーディオ信号処理のための装置であって、前記装置は、
第１の音場を記述する基底関数係数の第１のセットに、第１のオーディオ信号および前記第１のオーディオ信号に関する空間情報を変換するための手段と、ここにおいて前記第１のオーディオ信号は、オブジェクトベースのフォーマットである、
結合された音場を記述する基底関数係数の結合されたセットを生成するために、基底関数係数の第２のセットと前記基底関数係数の第１のセットを結合するための手段と、ここにおいて前記基底関数係数の第２のセットは、第２のオーディオ信号に関連付けられた第２の音場を記述し、前記第１のオーディオ信号に関する前記空間情報は、前記第１のオーディオ信号のソースの空間におけるロケーションを示し、前記第１のオーディオ信号の前記ロケーションは、
によって定義され、ここでｒ _s は半径であり、θ _s は高位アングルであり、φ _s は方位アングルである、
前記基底関数係数の結合されたセットを符号化するための手段と、
を備える、装置。
前記基底関数係数の第２のセットは、前記第２のオーディオ信号および前記第２のオーディオ信号に関する空間情報を変換することによって作り出され、前記第２のオーディオ信号に関する前記空間情報は、空間における方向を示す、請求項１７に記載の装置。
前記装置は、前記第１のオーディオ信号および前記第１のオーディオ信号に関する前記第１の空間情報を含むオーディオオブジェクトを解析するための手段をさらに含む、請求項１７に記載の装置。
前記基底関数係数の第１のセットの各基底関数係数は、前記第１の音場の任意の点における圧力を一意的に表現する、請求項１７に記載の装置。
前記基底関数係数の第１のセットは、少なくとも２空間次元における前記第１の音場を記述し、前記基底関数係数の第２のセットは、少なくとも２空間次元における前記第２の音場を記述する、請求項１７に記載の装置。
前記基底関数係数の第１のセットまたは前記基底関数係数の第２のセットのうちの少なくとも１つは、３空間次元における対応する音場を記述する、請求項１７に記載の装置。
前記基底関数係数の第１のセットにおける基底関数係数の合計数が、前記基底関数係数の第２のセットにおける基底関数係数の合計数より小さい、請求項１７に記載の装置。
オーディオ信号処理のためのデバイスであって、前記デバイスは、
第１の音場を記述する基底関数係数の第１のセットに、第１のオーディオ信号および前記第１のオーディオ信号に関する空間情報を変換するように構成された分析器と、ここにおいて前記第１のオーディオ信号は、オブジェクトベースのフォーマットである、
第２の音場を記述する基底関数係数の結合されたセットを生成するために、基底関数係数の第２のセットと前記基底関数係数の第１のセットを結合するように構成された結合器と、ここにおいて前記基底関数係数の第２のセットは、第２のオーディオ信号に関連付けられた第２の音場を記述し、前記第１のオーディオ信号に関する前記空間情報は、前記第１のオーディオ信号のソースの空間におけるロケーションを示し、前記第１のオーディオ信号の前記ロケーションは、
によって定義され、ここでｒ _s は半径であり、θ _s は高位アングルであり、φ _s は方位アングルである、
前記基底関数係数の結合されたセットを符号化するように構成されたエンコーダと、
を備える、デバイス。
前記基底関数係数の第２のセットは、前記第２のオーディオ信号および前記第２のオーディオ信号に関する空間情報を変換することによって作り出され、前記第２のオーディオ信号に関する前記空間情報は、空間における方向を示す、請求項２４に記載のデバイス。
前記第１のオーディオ信号および前記第１のオーディオ信号に関する前記第１の空間情報を含むオーディオオブジェクトを解析するように構成されたパーザをさらに備える、請求項２４に記載のデバイス。
前記基底関数係数の第１のセットの各基底関数係数は、前記第１の音場の任意の点における圧力を一意的に表現する、請求項２４に記載のデバイス。
前記基底関数係数の第１のセットは、少なくとも２空間次元における前記第１の音場を記述し、前記基底関数係数の第２のセットは、少なくとも２空間次元における前記第２の音場を記述する、請求項２４に記載のデバイス。
前記基底関数係数の第１のセットまたは前記基底関数係数の第２のセットのうちの少なくとも１つは、３空間次元における対応する音場を記述する、請求項２４に記載のデバイス。
前記基底関数係数の第１のセットにおける基底関数係数の合計数が、前記基底関数係数の第２のセットにおける基底関数係数の合計数より小さい、請求項２４に記載のデバイス。
前記第１のオーディオ信号および前記第２のオーディオ信号を捕捉するように構成された１つまたは複数のマイクロフォンアレイをさらに備える、請求項２４に記載のデバイス。
第３の音場を記述する基底関数係数の第３のセットに、第３のオーディオ信号および前記第３のオーディオ信号に関する空間情報を変換することをさらに備え、ここにおいて前記第３のオーディオ信号は、チャネルベースのフォーマットであり、
前記基底関数係数の第２のセットと前記基底関数係数の第１のセットを結合することは、前記基底関数係数の結合されたセットを生成するために、前記基底関数係数の第２のセットおよび前記基底関数係数の第３のセットと前記基底関数係数の第１のセットを結合することを備える、
請求項１に記載の方法。
前記チャネルベースのフォーマットに基づいて、前記第３のオーディオ信号に関する前記空間情報を生成することをさらに備える、請求項３２に記載の方法。
前記基底関数係数の結合されたセットを符号化することが、前記基底関数係数の結合されたセットを、Ｇフォーマット、または高次アンビソニックスに符号化することを備える、請求項１に記載の方法。
前記第１のオーディオ信号のフォーマットを検出することをさらに備える、請求項１に記載の方法。
中間係数のセットを生成するために、前記第１のオーディオ信号に最初の基底分解を行うことと、
前記基底関数係数の第１のセットを生成するために、前記中間係数のセットに球波面モデルを適用することと、
をさらに備える、請求項１に記載の方法。
中間係数のセットを生成するために、前記第１のオーディオ信号に最初の基底分解を行うことと、
前記基底関数係数の第１のセットを生成するために、前記中間係数のセットに平面波面モデルを適用することと、
をさらに備える、請求項１に記載の方法。
第３の音場を記述する基底関数係数の第３のセットに、第３のオーディオ信号および前記第３のオーディオ信号に関する空間情報を変換するように構成されたエンコーダをさらに備え、ここにおいて前記第３のオーディオ信号は、チャネルベースのフォーマットであり、前記結合器は、前記基底関数係数の結合されたセットを生成するために、前記基底関数係数の第２のセットおよび前記基底関数係数の第３のセットと前記基底関数係数の第１のセットを結合するように構成された、
請求項２４に記載のデバイス。
前記チャネルベースのフォーマットに基づいて、前記第３のオーディオ信号に関する前記空間情報を生成するように構成されたチャネルロケーションデータ生成器をさらに備える、請求項３８に記載のデバイス。
前記エンコーダが、前記基底関数係数の結合されたセットを、Ｇフォーマット、または高次アンビソニックスに符号化するように構成された、請求項２４に記載のデバイス。
前記第１のオーディオ信号のフォーマットを検出するように構成されたフォーマット検出器をさらに備える、請求項２４に記載のデバイス。
中間係数のセットを生成するために、前記第１のオーディオ信号に最初の基底分解を行うように構成された中間係数計算器と、
前記基底関数係数の第１のセットを生成するために、前記中間係数のセットに球波面モデルを適用するように構成されたフィルタと、
をさらに備える、請求項２４に記載のデバイス。
中間係数のセットを生成するために、前記第１のオーディオ信号に最初の基底分解を行うように構成された中間係数計算器と、
前記基底関数係数の第１のセットを生成するために、前記中間係数のセットに平面波面モデルを適用するように構成されたフィルタと、
をさらに備える、請求項２４に記載のデバイス。