JP2021527354A

JP2021527354A - 仮想音場の効率的レンダリング

Info

Publication number: JP2021527354A
Application number: JP2020568524A
Authority: JP
Inventors: ブライアンロイドシュミット，; サミュエルチャールズディッカー，
Original assignee: Magic Leap Inc
Current assignee: Magic Leap Inc
Priority date: 2018-06-12
Filing date: 2019-06-12
Publication date: 2021-10-11
Anticipated expiration: 2039-06-12
Also published as: US10667072B2; EP3807741A1; CN112470102A; US20190379992A1; US20220046375A1; JP7397810B2; US20230139901A1; WO2019241345A1; US11134357B2; US20200260208A1; EP3807741A4; JP2023164595A; US11546714B2; US11843931B2; US20240048933A1

Abstract

修正された仮想スピーカパンニングを使用するオーディオ信号を空間的にレンダリングするオーディオシステムおよび方法が、開示される。オーディオシステムは、固定数Ｆの仮想スピーカを含み得、修正された仮想スピーカパンニングは、固定仮想スピーカのサブセットＰを動的に選択および使用し得る。仮想スピーカのサブセットＰは、低エネルギースピーカ検出およびカリング方法、源幾何学形状ベースのカリング方法、または両方を使用して選択され得る。デコーダ／バーチャライザ内の１つ以上の処理ブロックが、それぞれ、関連付けられたオーディオ信号のエネルギーレベルまたはユーザ／聴者に対する音源の場所に基づいてバイパスされ得る。いくつかの実施形態において、第１の時間においてアクティブ仮想スピーカとして指定される仮想スピーカは、処理完了を確実にするために、第２の時間においてもアクティブ仮想スピーカとして指定され得る。

Description

（関連出願の相互参照）
本願は、参照することによってその全体として本明細書に組み込まれる２０１８年６月１２日に出願された米国仮特許出願第６２／６８４，０９３号の利益を主張する。
（技術分野）

本開示は、空間オーディオレンダリングおよび関連付けられるシステムに一般に関する。より具体的に、本開示は、仮想スピーカベースの空間オーディオシステムの効率を高めるためのシステムおよび方法に関する。

仮想環境は、コンピューティング環境において普遍的であり、ビデオゲーム（仮想環境が、ゲーム世界を表し得る）、マップ（仮想環境が、ナビゲートされるべき地形を表し得る）、シミュレーション（仮想環境が、実環境をシミュレートし得る）、デジタルストーリーテリング（仮想キャラクタが、仮想環境内で互いに相互作用し得る）、および多くの他の用途において使用を見出している。現代のコンピュータユーザは、概ね快適に仮想環境を知覚し、それと相互作用する。しかしながら、ユーザの仮想環境の体験は、仮想環境を提示するための技術によって限定され得る。例えば、従来のディスプレイ（例えば、２Ｄディスプレイ画面）およびオーディオシステム（例えば、固定スピーカ）は、人を引き付け、現実的で、かつ没入型の体験を作成するように、仮想環境を実現することが可能でないこともある。

仮想現実（「ＶＲ」）、拡張現実（「ＡＲ」）、複合現実（「ＭＲ」）、および関連技術（集合的に、「ＸＲ」）は、ＸＲシステムのユーザにコンピュータシステム内のデータによって表される仮想環境に対応する感覚情報を提示する能力を共有する。そのようなシステムは、仮想視覚およびオーディオキューを現実の視界および音と組み合わせることによって、独自に強調された没入感および臨場感を提供することができる。故に、音が、ユーザの実環境内で自然に、かつユーザの予期する音と一貫して発生しているように思われるようにＸＲシステムのユーザにデジタル音を提示することが、望ましくあり得る。概して言えば、ユーザは、仮想音がそれらが聞こえる実環境の音響特性を帯びるであろうと予期する。例えば、大きいコンサートホール内のＸＲシステムのユーザは、ＸＲシステムの仮想音が大きい洞窟に似た音質を有することを予期し、逆に、小さいアパートメント内のユーザは、音が、より減衰され、近く、直接的であることを予期するであろう。加えて、ユーザは、仮想音が遅延を伴わずに提供されるであろうと予期する。

他の技法の中でもとりわけ、アンビソニックスおよび非アンビソニックスが、空間オーディオを発生させるために使用され得る。多数の音源オブジェクトに関して、アンビソニックスおよび非アンビソニックスは、その設計およびアーキテクチャにより、空間オーディオをレンダリングする効率的な方法であり得る。これは、反射がモデル化される場合、特に当てはまり得る。アンビソニックスおよび非アンビソニックスマルチチャネルベースの空間オーディオシステムは、いくつかのステップを通してオーディオ信号をレンダリングし得る。例示的ステップは、源毎のエンコードステップ、固定オーバーヘッド音場デコードステップ、および／または固定スピーカ仮想化ステップを含むことができる。１つ以上のハードウェアコンポーネントが、ステップを実施し得る。

オーディオ信号をレンダリングするための第１の方法において、各音源は、それ自身の有限インパルス応答（ＦＩＲ）フィルタの対を有することができる。そのようなシステムにおいて、音の知覚される位置は、ＦＩＲフィルタのフィルタ係数を変化させることによって変化させられる。いくつかの実施形態において、各音は、複数（例えば、２対）のＦＩＲフィルタを使用し得る。各対が、２つのフィルタを使用し得る（すなわち、４つのＦＩＲフィルタ）。音が仮想環境の周囲を移動するとき、ＦＩＲフィルタは、クロスフェードされることができる。いくつかの実施形態において、４つのＦＩＲフィルタが、各音のために使用され得る。

オーディオ信号をレンダリングするための第２の方法において、仮想スピーカパンニングが、固定数の仮想スピーカを使用して実装され得る。各音源は、固定仮想スピーカにわたってパンされ得る。いくつかの実施形態において、複数（例えば、２つ）のＦＩＲフィルタが、各仮想スピーカのために使用され得る。仮想スピーカパンニングは、ある用途に関して効率的であり得、ごくわずかな算出リソースを使用し得る。

いくつかの実施形態において、ある方法は、同時に再生される音の数に応じて、他の方法と比較して高い効率を有し得る。例えば、３０個の音が、同時に再生され得る。４つのＦＩＲフィルタが各音源のために使用される場合、１２０個のＦＩＲフィルタ（３０個の音源×音源あたり４つのＦＩＲフィルタ＝１２０個のＦＩＲフィルタ）が、第１の方法のために要求され得る。２つのＦＩＲフィルタが各仮想スピーカのために使用される場合、３２個のみのＦＩＲフィルタが、第２の方法のために要求され得る（１６個の仮想スピーカ×仮想スピーカあたり２つのＦＩＲフィルタ＝３２個のＦＩＲフィルタ）。

別の例として、１つのみの音が、再生され得る。第１の方法は、４つのみのＦＩＲフィルタ（１つの音源×音源あたり４つのＦＩＲフィルタ＝４つのＦＩＲフィルタ）を要求し得る一方、第２の方法は、３２個のＦＩＲフィルタ（１６個の仮想スピーカ×仮想スピーカあたり２つのＦＩＲフィルタ＝３２個のＦＩＲフィルタ）を要求し得る。

上記の例を通して例証されるように、第１の方法は、少数の音に関して有益であり得、第２の方法は、多数の音に関して有益であり得る。故に、所与の時間における音源の数に基づいて、効率を高めるオーディオシステムおよび方法が、所望され得る。

オーディオ信号をレンダリングするオーディオシステムおよび方法が、開示され、システムは、修正された仮想スピーカパンニングを使用する。オーディオシステムは、固定数Ｆの仮想スピーカを含み得、修正された仮想スピーカパンニングは、固定仮想スピーカのサブセットＰを動的に選択および使用し得る。各音源は、仮想スピーカのサブセットＰにわたってパンされ得る。いくつかの実施形態において、複数（例えば、２つ）のＦＩＲフィルタが、サブセットＰの各仮想スピーカのために使用され得る。仮想スピーカのサブセットＰは、音源への近接性等の１つ以上の因子に基づいて選択され得る。仮想スピーカのサブセットＰは、アクティブスピーカと称され得る。

修正された仮想スピーカパンニング方法は、例として上で開示される第１および第２の方法と比較されることができる。３つの音が、同時に再生され、オーディオシステムが、１６個の固定仮想スピーカを有する場合、第１の方法は、１２個のＦＩＲフィルタ（３つの音源×音源あたり４つのＦＩＲフィルタ＝１２個のＦＩＲフィルタ）を要求し得、第２の方法は、３２個のＦＩＲフィルタ（１６個の仮想スピーカ×仮想スピーカあたり２つのＦＩＲフィルタ＝３２個のＦＩＲフィルタ）を要求し得る。一方、修正された仮想スピーカパンニング方法は、サブセットＰの一部としてアクティブ仮想スピーカであるように３つの仮想スピーカを動的に選択し得る。修正された仮想スピーカパンニング方法は、６つのＦＩＲフィルタ、すなわち、アクティブ各仮想スピーカのために２つのＦＩＲフィルタ（３つの仮想スピーカ×２つのＦＩＲフィルタ＝６つのＦＩＲフィルタ）を要求し得る。

図１は、いくつかの実施形態による、例示的ウェアラブルシステムを図示する。

図２は、いくつかの実施形態による、例示的ウェアラブルシステムと併用され得る例示的ハンドヘルドコントローラを図示する。

図３は、いくつかの実施形態による、例示的ウェアラブルシステムと併用され得る例示的補助ユニットを図示する。

図４は、いくつかの実施形態による、例示的ウェアラブルシステムに関する例示的機能ブロック図を図示する。

図５Ａは、いくつかの実施形態による、例示的空間オーディオシステムのブロック図を図示する。

図５Ｂは、いくつかの実施形態による、図５Ａのシステムを動作させるための例示的方法のフローを図示する。

図５Ｃは、いくつかの実施形態による、例示的デコーダ／バーチャライザを動作させるための例示的方法のフローを図示する。

図６は、いくつかの実施形態による、音源およびスピーカの例示的構成を図示する。

図７Ａは、いくつかの実施形態による、複数の検出器を含む例示的デコーダ／バーチャライザのブロック図を図示する。

図７Ｂは、いくつかの実施形態による、図７Ａのデコーダ／バーチャライザを動作させるための例示的方法のフローを図示する。

図８Ａは、いくつかの実施形態による、例示的デコーダ／バーチャライザのブロック図を図示する。

図８Ｂは、いくつかの実施形態による、図８Ａのデコーダ／バーチャライザを動作させるための例示的方法のフローを図示する。

図９は、いくつかの実施形態による、音源およびスピーカの例示的構成を図示する。

図１０Ａは、いくつかの実施形態による、アクティブスピーカを含むシステムにおいて使用される例示的デコーダ／バーチャライザのブロック図を図示する。

図１０Ｂは、いくつかの実施形態による、図１０Ａのデコーダ／バーチャライザを動作させるための例示的方法のフローを図示する。

以下の例の説明において、本明細書の一部を形成し、例証として、実践され得る具体的例が示される付随の図面が、参照される。他の例も、使用され得、構造変更が、開示される例の範囲から逸脱することなく、行われ得ることを理解されたい。

（例示的ウェアラブルシステム）

図１は、ユーザの頭部上に装着されるように構成された例示的ウェアラブル頭部デバイス１００を図示する。ウェアラブル頭部デバイス１００は、頭部デバイス（例えば、ウェアラブル頭部デバイス１００）、ハンドヘルドコントローラ（例えば、下で説明されるハンドヘルドコントローラ２００）、および／または補助ユニット（例えば、下で説明される補助ユニット３００）等の１つ以上のコンポーネントを備えているより広範なウェアラブルシステムの一部であり得る。いくつかの例において、ウェアラブル頭部デバイス１００は、仮想現実、拡張現実、または複合現実システムまたは用途のために使用されることができる。ウェアラブル頭部デバイス１００は、ディスプレイ１１０Ａおよび１１０Ｂ（左および右透過性ディスプレイと、直交瞳拡大（ＯＰＥ）格子セット１１２Ａ／１１２Ｂおよび射出瞳拡大（ＥＰＥ）格子セット１１４Ａ／１１４Ｂ等、ディスプレイからユーザの眼に光を結合するための関連付けられるコンポーネントとを備え得る）等の１つ以上のディスプレイと、スピーカ１２０Ａおよび１２０Ｂ（それぞれ、つるアーム１２２Ａおよび１２２Ｂ上に搭載され、ユーザの左および右耳に隣接して位置付けられ得る）等の左および右音響構造と、赤外線センサ、加速度計、ＧＰＳユニット、慣性測定ユニット（ＩＭＵ）（例えば、ＩＭＵ１２６）、音響センサ（例えば、マイクロホン１５０）等の１つ以上のセンサと、直交コイル電磁受信機（例えば、左つるアーム１２２Ａに搭載されるように示される受信機１２７）と、ユーザから離れるように向けられた左および右カメラ（例えば、深度（飛行時間）カメラ１３０Ａおよび１３０Ｂ）と、ユーザに向かって向けられた左および右眼カメラ（例えば、ユーザの眼移動を検出するため）（例えば、眼カメラ１２８および１２８Ｂ）とを備えていることができる。しかしながら、ウェアラブル頭部デバイス１００は、本発明の範囲から逸脱することなく、任意の好適なディスプレイ技術およびセンサまたは他のコンポーネントの任意の好適な数、タイプ、または組み合わせを組み込むことができる。いくつかの例において、ウェアラブル頭部デバイス１００は、ユーザの音声によって発生させられるオーディオ信号を検出するように構成されている１つ以上のマイクロホン１５０を備え得、そのようなマイクロホンは、ユーザの口に隣接してウェアラブル頭部デバイス内に位置付けられ得る。いくつかの例において、ウェアラブル頭部デバイス１００は、他のウェアラブルシステムを含む他のデバイスおよびシステムと通信するために、ネットワーキング特徴（例えば、Ｗｉ−Ｆｉ能力）を組み込み得る。ウェアラブル頭部デバイス１００は、バッテリ、プロセッサ、メモリ、記憶ユニット、または種々の入力デバイス（例えば、ボタン、タッチパッド）等のコンポーネントをさらに含み得るか、または、１つ以上のそのようなコンポーネントを備えているハンドヘルドコントローラ（例えば、ハンドヘルドコントローラ２００）または補助ユニット（例えば、補助ユニット３００）に結合され得る。いくつかの例において、センサは、ユーザの環境に対する頭部搭載型ユニットの座標の組を出力するように構成され得、入力をプロセッサに提供し、同時位置特定およびマッピング（ＳＬＡＭ）プロシージャおよび／またはビジュアルオドメトリアルゴリズムを実施し得る。いくつかの例において、ウェアラブル頭部デバイス１００は、下でさらに説明されるように、ハンドヘルドコントローラ２００および／または補助ユニット３００に結合され得る。

図２は、例示的ウェアラブルシステムの例示的モバイルハンドヘルドコントローラコンポーネント２００を図示する。いくつかの例において、ハンドヘルドコントローラ２００は、ウェアラブルヘッドデバイス１００および／または下で説明される補助ユニット３００と有線または無線通信し得る。いくつかの例において、ハンドヘルドコントローラ２００は、ユーザによって保持されるべきハンドル部分２２０と、上面２１０に沿って配置される１つ以上のボタン２４０とを含む。いくつかの例において、ハンドヘルドコントローラ２００は、光学追跡標的として使用するために構成され得、例えば、ウェアラブル頭部デバイス１００のセンサ（例えば、カメラまたは他の光学センサ）は、ハンドヘルドコントローラ２００の位置および／または向きを検出するように構成されることができ、それは、転じて、ハンドヘルドコントローラ２００を保持するユーザの手の位置および／または向きを示し得る。いくつかの例において、ハンドヘルドコントローラ２００は、プロセッサ、メモリ、記憶ユニット、ディスプレイ、または上で説明されるもの等の１つ以上の入力デバイスを含み得る。いくつかの例において、ハンドヘルドコントローラ２００は、１つ以上のセンサ（例えば、ウェアラブル頭部デバイス１００に関して上で説明されるセンサまたは追跡コンポーネントのうちのいずれか）を含む。いくつかの例において、センサは、ウェアラブル頭部デバイス１００に対する、またはウェアラブルシステムの別のコンポーネントに対するハンドヘルドコントローラ２００の位置または向きを検出することができる。いくつかの例において、センサは、ハンドヘルドコントローラ２００のハンドル部分２２０内に位置付けられ得、および／またはハンドヘルドコントローラに機械的に結合され得る。ハンドヘルドコントローラ２００は、例えば、ボタン２４０の押された状態、またはハンドヘルドコントローラ２００の位置、向き、および／または運動（例えば、ＩＭＵを介して）に対応する１つ以上の出力信号を提供するように構成されることができる。そのような出力信号は、ウェアラブル頭部デバイス１００のプロセッサへの入力、補助ユニット３００への入力、またはウェアラブルシステムの別のコンポーネントへの入力として使用され得る。いくつかの例において、ハンドヘルドコントローラ２００は、音（例えば、ユーザの発話、環境音）を検出し、ある場合、検出された音に対応する信号をプロセッサ（例えば、ウェアラブル頭部デバイス１００のプロセッサ）に提供するために、１つ以上のマイクロホンを含むことができる。

図３は、例示的ウェアラブルシステムの例示的補助ユニット３００を図示する。いくつかの例において、補助ユニット３００は、ウェアラブル頭部デバイス１００および／またはハンドヘルドコントローラ２００と有線または無線通信し得る。補助ユニット３００は、ウェアラブル頭部デバイス１００および／またはハンドヘルドコントローラ２００（ディスプレイ、センサ、音響構造、プロセッサ、マイクロホン、および／またはウェアラブル頭部デバイス１００またはハンドヘルドコントローラ２００の他のコンポーネントを含む）等のウェアラブルシステムの１つ以上のコンポーネントを動作させるためのエネルギーを提供するために、バッテリを含むことができる。いくつかの例において、補助ユニット３００は、プロセッサ、メモリ、記憶ユニット、ディスプレイ、１つ以上の入力デバイス、および／または上で説明されるもの等の１つ以上のセンサを含み得る。いくつかの例において、補助ユニット３００は、補助ユニットをユーザに取り付けるためのクリップ３１０（例えば、ユーザによって装着されるベルト）を含む。ウェアラブルシステムの１つ以上のコンポーネントを格納するために補助ユニット３００を使用する利点は、そのように行うことが、大きいまたは重いコンポーネントが、（例えば、ウェアラブル頭部デバイス１００内に格納される場合）ユーザの頭部に搭載されるのではなく、または（例えば、ハンドヘルドコントローラ２００内に格納される場合）ユーザの手によって持ち運ばれるのではなく、大きく重い物体を支持するために比較的に良好に適しているユーザの腰部、胸部、または背部上で持ち運ばれることを可能にし得ることである。これは、バッテリ等の比較的に重いまたは嵩張るコンポーネントに関して特に有利であり得る。

図４は、上で説明される、例示的ウェアラブル頭部デバイス１００と、ハンドヘルドコントローラ２００と、補助ユニット３００とを含み得る等、例示的ウェアラブルシステム４００に対応し得る例示的機能ブロック図を示す。いくつかの例において、ウェアラブルシステム４００は、仮想現実、拡張現実、または複合現実用途のために使用され得る。図４に示されるように、ウェアラブルシステム４００は、ここでは「トーテム」と称される（および上で説明されるハンドヘルドコントローラ２００に対応し得る）例示的ハンドヘルドコントローラ４００Ｂを含むことができ、ハンドヘルドコントローラ４００Ｂは、トーテム／ヘッドギヤ６自由度（６ＤＯＦ）トーテムサブシステム４０４Ａを含むことができる。ウェアラブルシステム４００は、（上で説明されるウェアラブルヘッドギヤデバイス１００に対応し得る）例示的ウェアラブル頭部デバイス４００Ａも含むことができ、ウェアラブル頭部デバイス４００Ａは、トーテム／ヘッドギヤ６ＤＯＦヘッドギヤサブシステム４０４Ｂを含む。例において、６ＤＯＦトーテムサブシステム４０４Ａおよび６ＤＯＦヘッドギヤサブシステム４０４Ｂは、ウェアラブル頭部デバイス４００Ａに対するハンドヘルドコントローラ４００Ｂの６つの座標（例えば、３つの平行移動方向におけるオフセットおよび３つの軸に沿った回転）を決定するために協働する。６自由度は、ウェアラブル頭部デバイス４００Ａの座標系に対して表され得る。３つの平行移動オフセットは、そのような座標系内におけるＸ、Ｙ、およびＺオフセット、平行移動行列、またはある他の表現として表され得る。回転自由度は、ヨー、ピッチ、およびロール回転の列、ベクトル、回転行列、四元数、またはある他の表現として表され得る。いくつかの例において、ウェアラブル頭部デバイス４００Ａ内に含まれる１つ以上の深度カメラ４４４（および／または１つ以上の非深度カメラ）および／または１つ以上の光学標的（例えば、上で説明されるようなハンドヘルドコントローラ２００のボタン２４０またはハンドヘルドコントローラ内に含まれる専用光学標的）は、６ＤＯＦ追跡のために使用されることができる。いくつかの例において、ハンドヘルドコントローラ４００Ｂは、上で説明されるようなカメラを含むことができ、ヘッドギヤ４００Ａは、カメラと併せた光学追跡のための光学標的を含むことができる。いくつかの例において、ウェアラブル頭部デバイス４００Ａおよびハンドヘルドコントローラ４００Ｂの各々は、３つの直交して向けられたソレノイドの組を含み、それらは、３つの区別可能な信号を無線で送信および受信するために使用される。受信するために使用されるコイルの各々において受信される３つの区別可能な信号の相対的大きさを測定することによって、ウェアラブル頭部デバイス４００Ａに対するハンドヘルドコントローラ４００Ｂの６ＤＯＦが、決定され得る。いくつかの例において、６ＤＯＦトーテムサブシステム４０４Ａは、向上した正確度および／またはハンドヘルドコントローラ４００Ｂの高速移動に関するよりタイムリーな情報を提供するために有用である慣性測定ユニット（ＩＭＵ）を含むことができる。

拡張現実または複合現実用途を伴ういくつかの例において、座標をローカル座標空間（例えば、ウェアラブル頭部デバイス４００Ａに対して固定される座標空間）から慣性座標空間に変換すること、または環境座標空間に変換することが、望ましくあり得る。例えば、そのような変換は、ウェアラブル頭部デバイス４００Ａのディスプレイが、ディスプレイ上の固定位置および向きにおいて（例えば、ウェアラブル頭部デバイス４００Ａのディスプレイにおける同一の位置において）ではなく、仮想オブジェクトを実環境に対する予期される位置および向きにおいて提示する（例えば、ウェアラブル頭部デバイス４００Ａの位置および向きにかかわらず、前方に面した実椅子に座っている仮想人物）ために必要であり得る。これは、仮想オブジェクトが、実環境内に存在する（かつ、例えば、ウェアラブル頭部デバイス４００Ａが、シフトおよび回転するにつれて、実環境内に不自然に位置付けられて見えない）という錯覚を維持することができる。いくつかの例において、座標空間の間の補償変換が、慣性または環境座標系に対するウェアラブル頭部デバイス４００Ａの変換を決定するために、（例えば、同時位置特定およびマッピング（ＳＬＡＭ）および／またはビジュアルオドメトリプロシージャを使用して）深度カメラ４４４からの画像を処理することによって決定されることができる。図４に示される例において、深度カメラ４４４は、ＳＬＡＭ／ビジュアルオドメトリブロック４０６に結合されることができ、画像をブロック４０６に提供することができる。ＳＬＡＭ／ビジュアルオドメトリブロック４０６実装は、この画像を処理し、次いで、頭部座標空間と実座標空間との間の変換を識別するために使用され得るユーザの頭部の位置および向きを決定するように構成されているプロセッサを含むことができる。同様に、いくつかの例において、ユーザの頭部姿勢および場所に関する情報の追加の源が、ウェアラブル頭部デバイス４００ＡのＩＭＵ４０９から取得される。ＩＭＵ４０９からの情報は、ＳＬＡＭ／ビジュアルオドメトリブロック４０６からの情報と統合され、向上した正確度および／またはユーザの頭部姿勢および位置の高速調節に関するよりタイムリーな情報を提供することができる。

いくつかの例において、深度カメラ４４４は、ウェアラブル頭部デバイス４００Ａのプロセッサ内に実装され得る手のジェスチャトラッカ４１１に３Ｄ画像を供給することができる。手のジェスチャトラッカ４１１は、例えば、深度カメラ４４４から受信された３Ｄ画像を手のジェスチャを表す記憶されたパターンに合致させることによって、ユーザの手のジェスチャを識別することができる。ユーザの手のジェスチャを識別する他の好適な技法も、明らかであろう。

いくつかの例において、１つ以上のプロセッサ４１６は、ヘッドギヤサブシステム４０４Ｂ、ＩＭＵ４０９、ＳＬＡＭ／ビジュアルオドメトリブロック４０６、深度カメラ４４４、マイクロホン（図示せず）、および／または手のジェスチャトラッカ４１１からのデータを受信するように構成され得る。プロセッサ４１６は、制御信号を６ＤＯＦトーテムシステム４０４Ａに送信し、それから受信することもできる。プロセッサ４１６は、ハンドヘルドコントローラ４００Ｂが繋がれていない例等において、６ＤＯＦトーテムシステム４０４Ａに無線で結合され得る。プロセッサ４１６は、視聴覚コンテンツメモリ４１８、グラフィカル処理ユニット（ＧＰＵ）４２０、および／またはデジタル信号プロセッサ（ＤＳＰ）オーディオ空間化装置４２２等の追加のコンポーネントとさらに通信し得る。ＤＳＰオーディオ空間化装置４２２は、頭部関連伝達関数（ＨＲＴＦ）メモリ４２５に結合され得る。ＧＰＵ４２０は、画像毎に変調された光４２４の左源に結合される左チャネル出力と、画像毎に変調された光４２６の右源に結合される右チャネル出力とを含むことができる。ＧＰＵ４２０は、立体視画像データを画像毎に変調された光４２４、４２６の源に出力することができる。ＤＳＰオーディオ空間化装置４２２は、オーディオを左スピーカ４１２および／または右スピーカ４１４に出力することができる。ＤＳＰオーディオ空間化装置４２２は、プロセッサ４１６から、ユーザから仮想音源（例えば、ハンドヘルドコントローラ４００Ｂを介して、ユーザによって移動させられ得る）への方向ベクトルを示す入力を受信することができる。方向ベクトルに基づいて、ＤＳＰオーディオ空間化装置４２２は、対応するＨＲＴＦを決定することができる（例えば、ＨＲＴＦにアクセスすることによって、または複数のＨＲＴＦを補間することによって）。ＤＳＰオーディオ空間化装置４２２は、次いで、決定されたＨＲＴＦを仮想オブジェクトによって発生させられた仮想音に対応するオーディオ信号等のオーディオ信号に適用することができる。これは、複合現実環境内の仮想音に対するユーザの相対的位置および向きを組み込むことによって、すなわち、その仮想音が、実環境内の実音である場合に聞こえるであろうもののユーザの予期に合致する仮想音を提示することによって、仮想音の信憑性および現実性を向上させることができる。

図４に示されるもの等のいくつかの例において、プロセッサ４１６、ＧＰＵ４２０、ＤＳＰオーディオ空間化装置４２２、ＨＲＴＦメモリ４２５、およびオーディオ／視覚的コンテンツメモリ４１８のうちの１つ以上は、補助ユニット４００Ｃ（上で説明される補助ユニット３２０に対応し得る）内に含まれ得る。補助ユニット４００Ｃは、バッテリ４２７を含み、そのコンポーネントを給電し得、および／または、それは、電力をウェアラブル頭部デバイス４００Ａおよび／またはハンドヘルドコントローラ４００Ｂに供給し得る。そのようなコンポーネントをユーザの腰部に搭載され得る補助ユニット内に含むことは、ウェアラブル頭部デバイス４００Ａのサイズおよび重量を限定することができ、それは、次に、ユーザの頭部および頸部の疲労を低減させることができる。

図４は、例示的ウェアラブルシステム４００の種々のコンポーネントに対応する要素を提示するが、これらのコンポーネントの種々の他の好適な配置も、当業者に明白であろう。例えば、補助ユニット４００Ｃに関連付けられているような図４に提示される要素は、代わりに、ウェアラブル頭部デバイス４００Ａまたはハンドヘルドコントローラ４００Ｂに関連付けられ得る。さらに、いくつかのウェアラブルシステムは、ハンドヘルドコントローラ４００Ｂまたは補助ユニット４００Ｃを完全に無くし得る。そのような変更および修正は、開示される例の範囲内に含まれるとして理解されるべきである。

（複合現実環境）

全ての人々のように、複合現実システムのユーザは、実環境の中に存在し、すなわち、ユーザによって知覚可能である「実世界」の３次元部分およびその内容全ての中に存在している。例えば、ユーザは、その通常の人間感覚、すなわち、視覚、聴覚、触覚、味覚、嗅覚を使用して実環境を知覚し、実環境内でその自身の身体を移動させることによって実環境と相互作用する。実環境内の場所は、座標空間内の座標として説明されることができ、例えば、座標は、緯度、経度、および海面に対する高度、基準点からの３つの直交する次元における距離、または他の好適な値を含むことができる。同様に、ベクトルは、座標空間における方向および大きさを有する品質を説明することができる。

コンピューティングデバイスは、例えば、デバイスに関連付けられたメモリ内に仮想環境の表現を維持することができる。本明細書に使用されるように、仮想環境は、３次元空間のコンピュータ表現である。仮想環境は、任意のオブジェクト、アクション、信号、パラメータ、座標、ベクトル、またはその空間に関連付けられた他の特性の表現を含むことができる。いくつかの例において、コンピューティングデバイスの回路（例えば、プロセッサ）は、仮想環境の状態を維持および更新することができ、すなわち、プロセッサは、第１の時間に、仮想環境に関連付けられたデータおよび／またはユーザによって提供される入力に基づいて、第２の時間における仮想環境の状態を決定することができる。例えば、仮想環境内のオブジェクトが、ある時間における第１の座標に位置し、あるプログラムされた物理的パラメータ（例えば、質量、摩擦係数）を有し、ユーザから受信された入力が、力が、ある方向ベクトルにおいてオブジェクトに加えられるべきであると示す場合、プロセッサは、運動学の法則を適用し、基本的力学を使用してその時間におけるオブジェクトの場所を決定することができる。プロセッサは、仮想環境についての既知の任意の好適な情報および／または任意の好適な入力を使用し、ある時間における仮想環境の状態を決定することができる。仮想環境の状態を維持および更新することにおいて、プロセッサは、任意の好適なソフトウェアを実行することができ、任意の好適なソフトウェアは、仮想環境内の仮想オブジェクトの作成および削除に関連するソフトウェア、仮想環境内の仮想オブジェクトまたはキャラクタの挙動を定義するためのソフトウェア（例えば、スクリプト）、仮想環境内の信号（例えば、オーディオ信号）の挙動を定義するためのソフトウェア、仮想環境に関連付けられたパラメータを作成および更新するためのソフトウェア、仮想環境内のオーディオ信号を発生させるためのソフトウェア、入力および出力を取り扱うためのソフトウェア、ネットワーク動作を実装するためのソフトウェア、アセットデータ（例えば、経時的に仮想オブジェクトを移動させるためのアニメーションデータ）を適用するためのソフトウェア、または多くの他の可能性を含む。

ディスプレイまたはスピーカ等の出力デバイスは、仮想環境の任意または全ての側面をユーザに提示することができる。例えば、仮想環境は、ユーザに提示され得る仮想オブジェクト（無生物オブジェクト、人物、動物、光等の表現を含み得る）を含み得る。プロセッサは、仮想環境の表示（例えば、原点座標、視軸、および錐台を伴う「カメラ」に対応する）を決定し、ディスプレイに、その表示に対応する仮想環境の視認可能な場面をレンダリングすることができる。任意の好適なレンダリング技術が、この目的のために使用され得る。いくつかの例において、視認可能な場面は、仮想環境内のいくつかの仮想オブジェクトのみを含み、ある他の仮想オブジェクトを除外し得る。同様に、仮想環境は、１つ以上のオーディオ信号としてユーザに提示され得るオーディオ側面を含み得る。例えば、仮想環境内の仮想オブジェクトが、オブジェクトの場所座標から生じる音を発生させ得る（例えば、仮想キャラクタが、発話し、または効果音を引き起こし得る）；または、仮想環境は、特定の場所に関連付けられることも、そうではないこともある音楽的キューまたは周囲音に関連付けられ得る。プロセッサが、「聴者」座標に対応するオーディオ信号（例えば、仮想環境内の音の複合物に対応し、聴者座標における聴者に聞こえるであろうオーディオ信号をシミュレートするために混合および処理されたオーディオ信号）を決定し、１つ以上のスピーカを介してユーザにオーディオ信号を提示することができる。

仮想環境は、コンピュータ構造としてのみ存在するので、ユーザは、その通常の感覚を使用して仮想環境を直接知覚することができない。代わりに、ユーザは、例えば、ディスプレイ、スピーカ、触覚出力デバイス等によって、ユーザに提示されるような仮想環境を間接的にのみ知覚することができる。同様に、ユーザは、仮想環境に直接触れること、それを操作すること、または別様にそれと相互作用することができないが、入力デバイスまたはセンサを介して、仮想環境を更新するためにデバイスまたはセンサデータを使用し得るプロセッサに入力データを提供することができる。例えば、カメラセンサは、ユーザが仮想環境内のオブジェクトを移動させようとしていることを示す光学データを提供することができ、プロセッサは、そのデータを使用し、オブジェクトに仮想環境内でそれに応じて応答させることができる。

（デジタル反響および環境オーディオ処理）

ＸＲシステムは、原点座標を伴う音源において生じ、システムにおける向きベクトルの方向に進行するように思われるオーディオ信号をユーザに提示することができる。ユーザは、それらが、音源の原点座標から生じ、向きベクトルに沿って進行する実オーディオ信号であるかのように、これらのオーディオ信号を知覚し得る。

ある場合、オーディオ信号は、それらが、仮想環境内のコンピュータ信号に対応し、必ずしも、実環境内の実音に対応するわけではないという点で、仮想と見なされ得る。しかしながら、仮想オーディオ信号は、人間の耳によって検出可能な実オーディオ信号として、例えば、図１におけるウェアラブル頭部デバイス１００のスピーカ１２０Ａおよび１２０Ｂを介して発生させられたものとして、ユーザに提示されることができる。

下で開示される実施形態の利点は、低減させられたネットワーク帯域幅、低減させられた電力消費、低減させられた算出複雑性、および低減させられた算出遅延を含む。これらの利点は、処理リソース、ネットワーキングリソース、バッテリ容量、および物理的サイズおよび重量が、多くの場合、限られているウェアラブルシステムを含むモバイルシステムに特に顕著であり得る。

ＡＲと同程度に動的な環境内で、システムは、オーディオ信号を連続的にレンダリングし得る。仮想スピーカの全てを使用してオーディオ信号をレンダリングすることは、高算出能力、大量の処理、高ネットワーク帯域幅、高電力消費等に特につながり得る。したがって、１つ以上の因子に基づいて固定仮想スピーカの一部を動的に選択し、使用するために、修正された仮想スピーカパンニングを使用することが、所望され得る。

（例示的空間オーディオシステム）

図５Ａは、いくつかの実施形態による、例示的空間オーディオシステムのブロック図を図示する。図５Ｂは、図５Ａのシステムを動作させるための例示的方法のフローを図示する。

空間オーディオシステム５００は、空間モデラ５１０と、内部空間表現５３０と、デコーダ／バーチャライザ５４０Ａとを含み得る。空間モデラ５１０は、直接経路部分５１２と、１つ以上の反射部分５２０（随意）と、空間エンコーダ５２６とを含み得る。空間モデラ５１０は、仮想環境をモデル化するように構成され得る。直接経路部分５１２は、直接源５１４と、随意に、ドップラ５１６とを含み得る。直接源５１４は、オーディオ信号を提供するように構成され得る（プロセス５５０のステップ５５２）。ドップラ５１６は、直接源５１４から信号を受信し得、その入力信号の中にドップラ効果を導入するように構成され得る（ステップ５５４）。例えば、ドップラ５１６は、音源、システムのユーザ、または両方の運動に対して変化するように音源のピッチを変化させ得る（例えば、ピッチシフト）。

反射部分５２０は、音リフレクタ５２２と、随意のドップラ５１６と、遅延５２４とを含み得る。音リフレクタ５２２は、その信号内に反射を導入するように構成され得る（ステップ５５６）。導入される反射は、環境の１つ以上の特性を表し得る。反射部分５２０内のドップラ５１６は、音リフレクタ５２２から信号を受信し得、その入力信号の中にドップラ効果を導入するように構成され得る（ステップ５５８）。遅延５２４は、ドップラ５１６から信号を受信し得、遅延を導入するように構成され得る（ステップ５６０）。

空間エンコーダ５２６は、直接経路部分５１２および反射部分５２０から信号を受信し得る。いくつかの実施形態において、直接経路部分５１２から空間エンコーダ５２６への信号は、直接経路部分５１２のドップラ５１６からの出力信号であり得る。いくつかの実施形態において、反射部分５２０から空間エンコーダ５２６への信号は、反射部分５２０の遅延５２４からの出力信号であり得る。

空間エンコーダ５２６は、１つ以上のＭ方向パン５２８を含み得る。いくつかの実施形態において、空間エンコーダ５２６によって受信される各入力は、独自の５２８に関連付けられ得る。「パンニング」は、複数のスピーカ、複数の場所、または両方にわたって信号を分配することを指し得る。Ｍ方向パン５２８は、複数の数の仮想スピーカにわたってその入力信号を分配するように構成され得る（ステップ５６２）。例えば、Ｍ方向パン５２８は、全てのＭ個の仮想スピーカにわたってその入力信号を分配することができる。例えば、図５Ａに示されるように、Ｍは、４に等しくあり得、各Ｍ方向パン５２８は、４つの仮想スピーカにわたってその入力信号を分配するように構成され得る。図は、４つの仮想スピーカを有するシステムを図示するが、本開示の例は、任意の数の仮想スピーカを含むことができる。

一例として、自動車システムが、左および右スピーカを含み得る。そのようなシステムにおける音は、各スピーカのために１つ、２つに音を分割することによって、自動車における左および右スピーカの間でパンされ得る。各スピーカのスケーリングボリュームが、２つのスピーカの構成に従って設定され得、結果は、左および右スピーカに送信され得る。

別の例として、サラウンド音システムが、６つのスピーカ等の複数のスピーカを含み得る。そのようなシステムにおける音は、６つのスピーカの間でステレオとしてパンされ得る。音は、６つ（自動車システム例におけるような２つの代わりに）に分割され得、各スピーカのスケーリングボリュームが、６つのスピーカの構成に従って設定され得、結果は、６つのスピーカに送信され得る。

例えば、第１のＭ方向パン５２８が、直接経路５１２のドップラ５１６の出力を受信し得、他のＭ方向パン５２８が、反射部分５２０の出力を受信し得る。各Ｍ方向パン５２８は、それが複数の出力にわたって分配され得るように、その入力信号を分割することができる。したがって、各Ｍ方向パン５２８は、入力より大きい数の出力を有し得る。

空間モデラ５１０は、信号を内部空間表現５３０に出力し得る（ステップ５６４）。いくつかの実施形態において、空間モデラ５１０からの出力は、各Ｍ方向パン５２８の出力を含むことができる。内部空間表現５３０は、仮想環境の空間構成を表すように構成され得る（ステップ５６６）。一例示的表現は、ユーザ、音源、および仮想スピーカの相対的場所を表すことを含むことができる。いくつかの実施形態において、内部空間表現５３０は、システム５００のユーザの頭部姿勢回転、頭部姿勢平行移動、音場デコード、１つ以上の頭部関連伝達関数（ＨＲＴＦ）、またはそれらの組み合わせを表す１つ以上の信号を出力し得る。いくつかの実施形態において、内部空間表現５３０は、非アンビソニックスマルチチャネルベースのシステム、アンビソニックス／波動場ベースのシステム等の表現であり得る。一例示的アンビソニックス／波動場ベースのシステムは、高次アンビソニックス（ＨＯＡ）であり得る。

内部空間表現５３０は、その信号５５２をデコーダ／バーチャライザ５４０Ａに出力し得る（ステップ５６８）。デコーダ／バーチャライザ５４０は、その入力信号をデコードし、仮想音を信号の中に導入し得る（ステップ５７０）。ステップ５７０は、複数のサブステップを含むことができ、下でより詳細に議論される。システムは、次いで、デコーダ／バーチャライザ５４０からの信号を左スピーカに出力され得る左信号５０２Ｌとして、かつ右スピーカに出力され得る右信号５０２Ｒとして出力する（ステップ５８０）。

システム５００は、任意の数の異なるタイプのデコーダ／バーチャライザ５４０を含み得る。一例示的デコーダ／バーチャライザ５４０Ａが、図５Ａに示される。他の例示的デコーダ／バーチャライザ５４０が、下で議論される。

デコーダ／バーチャライザ５４０Ａは、回転／平行移動表現５４２と、音場デコーダ５４４と、１つ以上のＨＲＴＦ５４６と、１つ以上のコンバイナ５４８とを含み得る。図５Ｃは、ステップ５７０−１と称され得る例示的デコーダ／バーチャライザを動作させるための例示的方法のフローを図示する。回転／平行移動表現５４２は、内部空間表現５３０から信号を受信し得、オーディオ信号に関連付けられた移動の表現を導入するように構成され得る。例えば、移動は、音源、ユーザ、または両方のものであり得る（ステップ５７２）。回転／平行移動表現５４２は、信号を音場デコーダ５４４に出力することができる。音場デコーダ５４４は、回転／平行移動表現５４２から信号を受信し得、信号をデコードするように構成され得る（ステップ５７４）。各ＨＲＴＦ５４６は、音場デコーダ５４４から信号を受信し得る。各ＨＲＴＦ５４６は、その入力信号に対応するＨＲＴＦを決定し、それを信号に適用するように構成され得る（ステップ５７６）。１つ以上のＨＲＴＦ５４６は、スピーカバーチャライザと集合的に称され得る。いくつかの実施形態において、ＨＲＴＦ５４６は、有限インパルス応答（ＦＩＲ）フィルタ処理のために構成され得る。各コンバイナ５４８は、ＨＲＴＦ５４６から信号を受信し、組み合わせ得る（ステップ５７８）。

いくつかの実施形態において、デコーダ／バーチャライザ５４０Ａは、「ベースライン」処理オーバーヘッドを表し得る。ベースライン処理オーバーヘッドは、複合体であり、各仮想スピーカのためにＨＲＴＦ処理を適用するための行列計算および長いＦＩＲフィルタを伴い得る。

コンバイナ５４８からの出力は、システム５００からの出力信号であり得る。いくつかの実施形態において、システム５００からの出力信号５０２は、左および右スピーカ（例えば、図１のスピーカ１２０Ａおよび１２０Ｂ）のためのオーディオ信号であり得る。

いくつかのインスタンスにおいて、再生のための音源の数が多いとき、図５Ａの空間オーディオシステムは、有益であり得る。しかしながら、いくつかのインスタンスにおいて、再生のための音源の数が少ないとき、図５Ａの空間オーディオシステムは、有益でないこともある。再生のための音源の数が、少ないときの状況のために効率的な方法で、図５Ａのシステム５００等の非アンビソニックスマルチチャネルベースの空間オーディオシステムまたはアンビソニックスベースの空間オーディオシステムの効率を利用することが、望ましくあり得る。

音場合成およびデコーディングを使用して空間化の効率を改良する方法が、存在し得る。第１の方法は、低エネルギースピーカ検出およびカリングを通してであり得る。低エネルギースピーカ検出およびカリングにおいて、非アンビソニックスマルチチャネルベースの空間オーディオシステムの仮想スピーカチャネルまたはアンビソニックスベースの空間オーディオシステムのアンビソニックス／音場チャネルのエネルギー出力が、所定の閾値より小さい場合、仮想スピーカチャネルからの信号の処理は、実施されない。いくつかの実施形態において、システムは、例えば、音場デコーディングがその所与の仮想スピーカからの信号に対して実施される前、所与の仮想スピーカの出力が所定の閾値より大きいかどうかを決定し得る。低エネルギースピーカ検出およびカリングは、下でより詳細に議論される。

音場合成およびデコーディングを使用して空間化の効率を改良するための第２の方法は、源幾何学形状ベースの仮想スピーカカリングであり得る。源幾何学形状ベースの仮想スピーカカリングにおいて、デコーダ／バーチャライザ処理は、選択的に無効にされることができる。選択的無効化（または選択的有効化）は、ユーザ／聴者に対する音源の場所に基づくことができる。源幾何学形状ベースの仮想スピーカカリングは、下でより詳細に議論される。

第３の方法は、低エネルギースピーカ検出およびカリング技法を源−仮想スピーカ結合技法と組み合わせることであり得る。

空間モデラ５１０は、オーディオ信号を処理するために必要とされる動作の回数を表し得る算出複雑性を有し得る。算出複雑性は、ＭにＮを乗算したものに比例し得、Ｍは、音源（直接源および随意の反射を含む）の数に等しくあり得、Ｎは、アンビソニック音場を表すために必要とされるチャネルの数に等しくあり得る。いくつかの実施形態において、Ｎは、（Ｏ＋１）^２に等しくあり得、式中、Ｏは、使用されるアンビソニックスの次数である。

デコーダ／バーチャライザ５４０は、ｎＶＳに比例する算出複雑性を有し得、ｎＶＳは、仮想スピーカの数である。各スピーカの算出能力は、高くあり得、それは、概してＦＩＲフィルタの対から成り得、それらは、高速フーリエ変換（ＦＦＴ）または逆ＦＦＴ（ＩＦＦＴ）を用いて典型的に実装され、それらの両方は、コンピュータ的に高コストなプロセスであり得る。

（例示的低エネルギー出力検出およびカリング方法）

いくつかの実施形態において、いくつかの仮想スピーカが、信号入力エネルギーを殆どまたは全く有していないこともある：例えば、空間オーディオシステムが、少数の音源を有するとき。スピーカ仮想化処理は、コンピュータ的に高コストな（例えば、ＣＰＵ集約的）プロセスであり得る。例えば、音源が、ゼロ度方位に（例えば、ユーザの正面に直接）位置する場合、９０度〜２７０度方位に（例えば、ユーザの後方に）位置する仮想スピーカからの信号に、エネルギーが、殆どまたは全く存在しないこともある。低エネルギー信号は、音源の知覚される場所に対して重要な効果を有しないこともあり、したがって、低エネルギー信号に対してスピーカ仮想化処理を実施すること、および／または対応する仮想スピーカの特性を決定することは、コンピュータ的に非効率的であり得る。

要求される算出リソースを減らすために、低エネルギー出力検出およびカリング方法を採用するシステムは、音場デコーダとＨＲＴＦとの間に位置する検出器を含むことができる。代替として、検出器は、マルチチャネル出力とＨＲＴＦとの間に位置し得る。検出器は、１つ以上の仮想スピーカからの１つ以上のオーディオ信号に関連付けられた１つ以上のエネルギーレベルを検出するように構成され得る。

仮想スピーカＶｎから発する信号のエネルギーレベルが、エネルギー閾値α未満である場合、信号は、低エネルギー信号と見なされ得る。オーディオ信号に関連付けられた検出されたエネルギーレベルが、エネルギー閾値α未満であることに従って、ＨＲＴＦブロックおよび低エネルギー信号のその処理は、バイパスされ得る。

信号のエネルギーレベルの決定は、任意の数の技法を使用し得る。例えば、ＲＭＳアルゴリズムが、そのエネルギーを測定するために、仮想スピーカにルーティングされる信号に適用され得る。従来的オーディオコンプレッサによるそれらに類似する時間によって使用されるそれらに類似する「アタック」および「リリース」時間が、スピーカの信号が突然「ポップイン」および「ポップアウト」することを防ぐために使用され得る。

図６は、いくつかの実施形態による、音源およびスピーカの例示的構成を図示する。システム６００は、音源６２０と、複数のスピーカとを含み得る。複数のスピーカ６２２は、１つ以上のアクティブ仮想スピーカ６２２Ａと、１つ以上の非アクティブ仮想スピーカ６２２Ｂとを含み得る。アクティブ仮想スピーカ６２２Ａは、その信号が、所与の時間にＨＲＴＦ５４６によって処理されるものであり得る。非アクティブ仮想スピーカ６２２Ｂは、例えば、その信号が、以前の時間にすでに処理されたので、または、仮想スピーカ６２２Ｂからの信号が処理を必要としないとシステムが決定しているので、その信号が、ＨＲＴＦ５４６によって処理される必要がないものであり得る。Ｍは、再生される音源の数を指し得、Ｎは、システム内の仮想スピーカの数を指し得る。図は、単一の音源を図示するが、本開示の例は、任意の数の音源を含むことができる。図は、８つの音源を図示するが、本開示の例は、１６個（Ｎ＝１６）等の任意の数の源を含むことができる。

一例として、システム６００は、図に示されるように、単一（Ｍ＝１）の音源６２０と、８つの仮想スピーカ６２２とを含むことができる。所与のインスタンスにおいて、エネルギーの大部分が、３つのみの仮想スピーカにわたって出力され得る。すなわち、システム６００は、第１の時間において３つのアクティブ仮想スピーカを有し得る。例えば、仮想スピーカ６２２Ａ−１、６２２Ａ−２、および６２２−３は、アクティブ仮想スピーカであり得る。いくつかの実施形態において、アクティブ仮想スピーカ６２２Ａは、音源６２０に最も近いそれらであり得る。加えて、システム６００は、５つの非アクティブ仮想スピーカ６２２Ｂを含み得る。システム６００は、５つの非アクティブ仮想スピーカの各々からのエネルギーレベルが、エネルギー閾値より小さいと決定し得、そのような決定に従って、５つの非アクティブ仮想スピーカ６２２Ｂからの信号のＨＲＴＦ処理をバイパスし得る。

システム６００は、アクティブ仮想スピーカの各々からのエネルギーレベルがエネルギー閾値より小さくないことも決定し得、そのような決定に従って、３つのアクティブ仮想スピーカ６２２Ａからの信号のＨＲＴＦ処理を実施し得る。

システム６００は、図５Ａに示されるように、２つの信号、すなわち、（右信号５０２Ｒおよび左信号５０２Ｌ等の）右スピーカのために１つ、左スピーカのために１つを出力し得る。ＨＲＴＦ処理をバイパスすることによるＨＲＴＦ動作の回数の低減は、非アクティブ仮想スピーカの数にシステムから出力される信号の数を乗算したものに等しくあり得る。図６の例において、５つの信号のＨＲＴＦ処理が、バイパスされるので、１０回（５つの非アクティブ仮想スピーカ×２つの出力信号）のＨＲＴＦ動作が、節約され得る。

別の例として、システムが、１３個が非アクティブ仮想スピーカである１６個の仮想スピーカを含む場合、節約されるＨＲＴＦ動作の回数は、２６回（１６個の仮想スピーカ×２つの出力信号）に等しくあり得る。

図７Ａは、いくつかの実施形態による、複数の検出器を含む例示的デコーダ／バーチャライザのブロック図を図示する。図７Ｂは、いくつかの実施形態による、図７Ａのデコーダ／バーチャライザを動作させるための例示的方法のフローを図示する。いくつかの実施形態において、下で議論されるように、デコーダ／バーチャライザ５４０Ａ（図５Ａに示される）の代わりに、デコーダ／バーチャライザ５４０Ｂが、システム５００内に含まれ得る。ステップ５７０−１（図５Ｃに示される）の代わりに、ステップ５７０−２が、プロセス５５０内に含まれ得る。

デコーダ／バーチャライザ５４０Ｂは、回転／平行移動表現５４２と、音場デコーダ５４４と、１つ以上の検出器７１０と、１つ以上のスイッチ７１２と、１つ以上のＨＲＴＦ５４６と、１つ以上のコンバイナ５４８とを含むことができる。デコーダ／バーチャライザ５４０Ｂは、内部空間表現５３０（図５Ａに示されるような）から信号５５２を受信することができる。回転／平行移動表現５４２は、内部空間表現５３０から信号を受信し得、音源、ユーザ、または両方の移動の表現を導入するように構成され得る（ステップ７７２）。回転／平行移動表現５４２は、信号を音場デコーダ５４４に出力することができる。音場デコーダ５４４は、回転／平行移動表現５４２から信号を受信することができ、信号をデコードするように構成され得る（ステップ７７４）。音場デコーダ５４４は、信号を検出器７１０に出力することができる。

検出器７１０は、音場デコーダ５４４から信号を受信し得、その入力信号のエネルギーレベルを決定するように構成され得る（ステップ７７６）。各検出器７１０は、独自のスイッチ７１２に結合され得る。（音場デコーダ５４４からの）入力信号のエネルギーレベルがエネルギー閾値以上である場合（ステップ７７８）、スイッチ７１２は、ループを閉にし、それによって、（検出器７１０からの）その入力信号をスイッチが結合されるＨＲＴＦ５４６にルーティングすることができる（ステップ７８０）。各ＨＲＴＦは、対応するＨＲＴＦを決定し、それを信号に適用する（ステップ７８２）。

入力信号のエネルギーレベルがエネルギー閾値より小さい場合、スイッチ７１２は、（検出器７１０からの）その入力信号が対応するＨＲＴＦ５４６に結合されないように、開にすることができる。したがって、対応するＨＲＴＦ５４６は、バイパスされ得る（ステップ７８４）。

ＨＲＴＦ５４６からの信号は、コンバイナ５４８に出力されることができる（ステップ７８６）。コンバイナ５４８は、ＨＲＴＦ５４６からの信号を組み合わせる（例えば、追加する、集約する等）ように構成されることができる。ＨＲＴＦ５４６をバイパスしたそれらの信号は、コンバイナ５４８によって組み合わせられない。コンバイナ５４８からの出力は、システム５００からの出力信号であり得る。いくつかの実施形態において、システム５００からの出力信号５０２は、左および右スピーカ（例えば、図１のスピーカ１２０Ａおよび１２０Ｂ）のためのオーディオ信号であり得る。

いくつかの実施形態において、各検出器７１０は、仮想スピーカに対応する独自の信号に結合されることができる。このように、各仮想スピーカ６２２の処理は、独立して実施されることができる（すなわち、６２２Ａ−１等の１つのスピーカの処理は、６２２Ｂ等の別のスピーカの処理に影響を及ぼすことなく行われることができる）。

いくつかの実施形態において、デコーダ／バーチャライザ５４０のタイプは、音源の数に依存し得る。例えば、音源の数が、所定の音源閾値より小さいか、またはそれに等しい場合、図７Ａのデコーダ／バーチャライザ５４０Ｂが、システム５００内に含まれ得る。そのようなインスタンスにおいて、音場デコーダ５４４からの信号は、検出器７１０に入力され得る。

音源の数が、所定の音源閾値より大きい場合、図５Ａのデコーダ／バーチャライザ５４０Ａが、システム内に含まれ得る。そのようなインスタンスにおいて、音場デコーダ５４４からの信号は、ＨＲＴＦ５４６に入力され得る。

いくつかの実施形態において、システムは、検出器およびそのエネルギーレベル検出を実行すべきか、バイパスすべきかを選択し得るデコーダ／バーチャライザ５４０を含み得る。図８Ａは、いくつかの実施形態による、例示的デコーダ／バーチャライザのブロック図を図示する。図８Ｂは、いくつかの実施形態による、図８Ａのデコーダ／バーチャライザを動作させるための例示的方法のフローを図示する。いくつかの実施形態において、デコーダ／バーチャライザ５４０Ａ（図５Ａに示される）およびデコーダ／バーチャライザ５４０Ｂ（図７Ａに示される）の代わりに、デコーダ／バーチャライザ５４０Ｃが、システム５００内に含まれ得る。ステップ５７０−１（図５Ｃに示される）の代わりに、ステップ５７０−３が、プロセス５５０内に含まれ得る。

デコーダ／バーチャライザ５４０Ｃは、上で議論されるデコーダ／バーチャライザ５４０Ｂと同様、回転／平行移動表現５４２と、音場デコーダ５４４と、１つ以上の検出器７１０と、１つ以上の第１のスイッチ７１２と、１つ以上のＨＲＴＦ５４６と、１つ以上のコンバイナ５４８とを含むことができる。ステップ８７２、８７４、および８８２は、上で議論されるステップ７７２、７７４、および７８２に対応して類似し得る。

デコーダ／バーチャライザ５４０Ｃは、第２のスイッチ８１４も含み得る。第２のスイッチ８１４は、音場デコーダ５４４から検出器７１０および第１のスイッチ７１２への第１のループを開または閉にするように構成されることができる。加えて、または代替として、第２のスイッチ８１４は、検出器７１０および第１のスイッチ７１２をバイパスするシステム５００からの第２のループを開または閉にするように構成されることができる。いくつかの実施形態において、第２のスイッチ８１４は、信号を検出器７１０に直接通すこと（第１のループ）またはＨＲＴＦ５４６に直接通すこと（第２のループ）の間で選択するように構成されている、双方向スイッチであり得る。

例えば、システムは、音源の数が所定の音源閾値以上かどうかを決定することができる（ステップ８７６）。音源の数が、所定の音源閾値以上である場合、第２のスイッチ８１４は、第２のループを閉にし、音場デコーダ５４４からの信号をＨＲＴＦ５４６に直接通すことができる（ステップ８７８）。各ＨＲＴＦ５４６は、次いで、対応するＨＲＴＦを決定し、それを信号に適用する（ステップ８８０）。音源の数が、数において上回るとき、信号が低エネルギーレベルを有する可能性は、低減させられ得る。

一方、音源の数が、所定の音源閾値より小さい場合、信号は、低エネルギーレベルを有する可能性が高く、したがって、第２のスイッチ８１４は、第１のループを閉にし、音場デコーダ５４４からの信号を検出器７１０に直接通すことができる（ステップ８８２）。検出器７１０は、音場デコーダ５４４から信号を受信し得、その入力信号のエネルギーレベルを決定するように構成され得る（ステップ８８４）。（音場デコーダ５４４からの）入力信号のエネルギーレベルが、エネルギー閾値以上である場合（ステップ８８６）、スイッチ７１２は、ループを閉にし、それによって、（検出器７１０からの）その入力信号を、スイッチが結合されるＨＲＴＦ５４６にルーティングすることができる（ステップ８８８）。入力信号のエネルギーレベルが、エネルギー閾値より小さい場合、スイッチ７１２は、（検出器７１０からの）その入力信号が、対応するＨＲＴＦ５４６に結合されないように、開にし、ＨＲＴＦ５４６がバイパスされるようにすることができる（ステップ８９０）。

ＨＲＴＦ５４６からの信号は、コンバイナ５４８に出力されることができる（ステップ８９２）。

いくつかの実施形態において、１つ以上のエネルギー閾値検出は、エネルギーに応答してアクティブであり得る。いくつかの実施形態において、１つ以上のエネルギー閾値検出は、振幅に応答してアクティブであり得、従来的アタック、リリース時間等を受け得る。

（例示的源幾何学形状ベースのスピーカカリング方法）

源幾何学形状ベースの仮想スピーカカリングは、ＣＰＵ消費を低減させるための別の方法であり得る。いくつかの実施形態において、源幾何学形状ベースの仮想スピーカカリングは、デコーダ／バーチャライザ処理（例えば、図５Ａのデコーダ／バーチャライザ５４０Ａ、図７Ａのデコーダ／バーチャライザ５４０Ｂ、図８Ａのデコーダ／バーチャライザ５４０Ｃ等）を選択的に無効にすることを含むことができる。いくつかの実施形態において、選択的無効化（または選択的有効化）は、ユーザ／聴者に対する音源の場所に基づくことができる。いくつかの実施形態において、デコーダ／バーチャライザ処理の選択的無効化は、デコーダ／バーチャライザの処理ブロックの全てをバイパスするステップを含むことができる。

源幾何学形状ベースの仮想スピーカカリングにおいて、アンビソニック出力が、計算されることができる。アンビソニック出力が、かなりの量のエネルギーがデコードされることを要求する場合、リアルタイムエネルギー検出方法等の（より少ないＣＰＵ消費を要求する）より単純な方法を使用することが、有益であり得る。加えて、いくつかの実施形態において、リアルタイムエネルギー検出方法は、より少ない頻度で計算を実施することができる。

図９は、いくつかの実施形態による、音源およびスピーカの例示的構成を図示する。システム９００は、音源９２０と、複数のスピーカとを含み得る。図６のシステム６００と比較して、音源９２０は、図６の音源６２０の第１の位置と異なり得る第２の位置に位置し得る。複数のスピーカ９２２は、１つ以上のアクティブ仮想スピーカ９２２Ａと、１つ以上の非アクティブ仮想スピーカ９２２Ｂと、１つ以上の非アクティブ仮想スピーカ９２２Ｃとを含み得る。アクティブ仮想スピーカ９２２Ａおよび非アクティブ仮想スピーカ９２２Ｂは、それぞれ、図６のアクティブ仮想スピーカ６２２Ａおよび非アクティブ仮想スピーカ６２２Ｂに対応して類似し得る。

非アクティブ仮想スピーカ９２２Ｃは、仮想スピーカ９２２Ｃが、第１の時間にアクティブであるが、その信号が、第２の時間（例えば、リングアウト周期）に処理されている点において、非アクティブ仮想スピーカ９２２Ｂと異なり得る。図９の例において、音源９２０は、第１の位置（例えば、仮想スピーカ９２２Ｃに近接する）から第２の位置（例えば、仮想スピーカ９２２に近接しない）に移動していることもある。音源の移動に起因して、２つの仮想スピーカは、第２の時間にそれらの中に混合する音源をもはや有しないこともある。２つの仮想スピーカのフィルタ処理に起因して、２つの仮想スピーカは、フィルタ処理を適切に完了させるために、続くフレーム（例えば、第２の時間）のためにアクティブである必要があり得る。

いくつかの実施形態において、システムは、アクティブ仮想スピーカを使用するシステム内にデコーダ／バーチャライザ５４０を含み得る。図１０Ａは、いくつかの実施形態による、アクティブスピーカを含むシステムにおいて使用される例示的デコーダ／バーチャライザのブロック図を図示する。図１０Ｂは、いくつかの実施形態による、図１０Ａのデコーダ／バーチャライザを動作させるための例示的方法のフローを図示する。いくつかの実施形態において、デコーダ／バーチャライザ５４０Ａ（図５Ａに示される）、デコーダ／バーチャライザ５４０Ｂ（図７Ａに示される）、およびデコーダ／バーチャライザ５４０Ｃ（図８Ａに示される）の代わりに、デコーダ／バーチャライザ５４０Ｄが、システム５００内に含まれ得る。ステップ５７０−１（図５Ｃに示される）、ステップ５７０−２（図７Ｂに示される）、およびステップ５７０−３（図８Ｂに示される）の代わりに、ステップ５７０−４が、プロセス５５０内に含まれ得る。

デコーダ／バーチャライザ５４０Ｃは、上で議論されるデコーダ／バーチャライザ５４０Ｂおよびデコーダ／バーチャライザ５４０Ｃと同様、音場デコーダ５４４と、１つ以上のＨＲＴＦ５４６と、１つ以上のコンバイナ５４８とを含むことができる。ステップ１０７２、１０７６、１０７８、および１０８０は、上で議論されるステップ８７２、８７４、および７８２に対応して類似し得る。

デコーダ／バーチャライザ５４０Ｄは、回転／平行移動表現１０４２と、音場デコード決定１０４４とも含み得る。回転／平行移動表現１０４２は、内部空間表現５３０から信号を受信し得、音源、ユーザ、または両方の移動の表現を導入するように構成され得る（ステップ１０７２）。移動の表現は、音源９２０の方位／高度も考慮し得る。回転／平行移動表現５４２は、信号を音場デコーダ決定１０４４に出力することができる。

音場デコーダ決定１０４４は、回転／平行移動表現１０４２から信号を受信し得、「顕著な」出力を有する信号を決定し、それらの信号を音場デコーダ５４４に通すように構成され得る（ステップ１０７４）。顕著な出力は、知覚される音に影響を及ぼすであろう出力であり得る。例えば、顕著な出力は、所定の振幅閾値以上である振幅を有するオーディオ信号であり得る。音場デコーダ５４４は、顕著な出力を有する音場デコーダ決定１０４４からの信号を受信し得、信号をデコードするように構成され得る（ステップ１０７６）。いくつかの実施形態において、音場デコーダ１０４４は、顕著な出力を有する音場デコーダ決定１０４４からの信号を受信し得る。各ＨＲＴＦ５４６は、音場デコーダ５４４から信号を受信し得る。各ＨＲＴＦ５４６は、その入力信号に対応するＨＲＴＦを決定し、それを信号に適用するように構成され得る（ステップ１０７８）。１つ以上のＨＲＴＦ５４６は、スピーカバーチャライザと集合的に称され得る。各コンバイナ５４８は、ＨＲＴＦ５４６から信号を受信し、組み合わせ得る（ステップ１０８０）。

いくつかの実施形態において、顕著な出力を有していない（例えば、所定の振幅閾値未満の振幅を有する）それらのオーディオ信号は、音場デコーダ５４４に通されないこともある。したがって、顕著な出力を有していないオーディオ信号上の音場デコーダ５４４およびＨＲＴＦ５４６は、バイパスされ得る。

例示的源幾何学形状ベースのスピーカカリング方法は、音源の位置（例えば、Ｘ、Ｙ、Ｚ場所）に基づいて、アクティブ仮想スピーカであるように仮想スピーカを指定することができる。音源の場所は、源オブジェクトの場所を表し得る。システムは、各音源の場所を決定し、それぞれの音源に近接して位置する仮想スピーカを決定し得る。いくつかの実施形態において、音源に近接して位置する仮想スピーカの決定は、例えば、全ビデオフレームの開始時に（ビデオフレームレートベースのアプローチで）実施され得る。ビデオフレームレートベースのアプローチは、サンプルレートベースのアプローチ等の他のアプローチより少ない算出を要求し得る。

音源は、例えば、ビデオフレームレートベースのアプローチ計算およびアンビソニックデコード式に基づいて、特定の仮想スピーカに大きく寄与し得る。上で議論されるように、デコードされた場合にエネルギーに殆どまたは全く寄与しない仮想スピーカは、対応するアンビソニックデコードおよびデコードされるアンビソニックスチャネルのＨＲＴＦ処理をバイパスされ得る。いくつかの実施形態において、システムは、バイパスされる任意の処理ブロックを無効にし得る。

指定方法を実行するための例示的擬似コードは、以下であり得る：
Ｆｏｒｅａｃｈｓｏｕｎｄｓｏｕｒｃｅ，Ｓａｎｄｄｅｃｏｄｅｃｈａｎｎｅｌｎ
Ｅｎａｂｌｅ［ｎ］｜＝ｆ（ｓｏｕｒｃｅＰｏｓｉｔｉｏｎＶｅｃｔｏｒ３，ｓｏｕｒｃｅＯｒｉｅｎｔａｔｉｏｎ
Ｖｅｃｔｏｒ３，ＬｉｓｔｅｎｅｒＰｏｓｉｔｉｏｎＶｅｃｔｏｒ３，ＬｉｓｔｅｎｅｒＯｒｉｅｎｔａｔｉｏｎＶｅｃｔｏｒ３，ＶｉｒｔｕａｌＳｐｅａｋｅｒＰｏｓｉｔｉｏｎ［ｎ］Ｖｅｃｔｏｒ３）．
（アンビソニック／音場例）
ＦｏｒｅａｃｈＡｍｂｉｓｏｎｉｃＤｅｃｏｄｅＣｈａｎｎｅｌ
Ｉｆ（Ｅｎａｂｌｅ［ｎ］）｛
ＡｍｂｉｓｏｎｉｃＤｅｃｏｄｅ（ｎ）
Ｖｉｒｔｕａｌｉｚｅ（ｎ）
｝
（マルチチャネル例）
ＦｏｒｅａｃｈＣｈａｎｎｅｌ
Ｉｆ（Ｅｎａｂｌｅ［ｎ］）｛
Ｖｉｒｔｕａｌｉｚｅ（ｎ）
｝

上記の擬似コードに関して、変数ｓｏｕｒｃｅＰｏｓｉｔｉｏｎは、音源の位置を指し得、ｓｏｕｒｃｅＯｒｉｅｎｔａｔｉｏｎは、音源の向きを指し得、ＬｉｓｔｅｎｅｒＰｏｓｉｔｉｏｎは、ユーザ／聴者の位置を指し得、ＬｉｓｔｅｎｅｒＯｒｉｅｎｔａｔｉｏｎは、ユーザ／聴者の向きを指し得、ＶｉｒｔｕａｌＳｐｅａｋｅｒＰｏｓｉｔｉｏｎは、仮想スピーカの位置を指し得、ＡｍｂｉｓｏｎｉｃＤｅｃｏｄｅは、アンビソニックデコーディングを実施する関数を指し得、Ｖｉｒｔｕａｌｉｚｅは、仮想化を行う関数を指し得る。

上記の擬似コードに関して、各音源Ｓおよびデコードチャネルｎのために、デコードチャネルｎは、音源Ｓの位置、音源Ｓの向き、ユーザ／聴者の位置、ユーザ／聴者の向き、および仮想スピーカの位置等の１つ以上の因子に基づいて有効にされ得る。依然として上記の擬似コードを参照すると、各アンビソニックデコードチャネルのために、チャネルが、有効化される場合、システムは、ＡｍｂｉｓｏｎｉｃＤｅｃｏｄｅ関数およびＶｉｒｔｕａｌｉｚｅ関数を実行し得る。

擬似コードは、各仮想スピーカのために「リングアウト」期間を提供することによって強化され得る。例えば、源がビデオフレーム中、位置において移動した場合、仮想スピーカが、それの中に混合するいかなる音源ももはや有しないこともあることが決定され得る。しかしながら、仮想スピーカのフィルタ処理に起因して、その仮想スピーカは、フィルタ処理を適切に完了させるために、続くフレームのためのアクティブスピーカである必要があり得る。

本開示の例は、全てのアクティブな音源を使用し、「顕著な」出力（例えば、知覚される音場に影響を及ぼすであろう出力）を有するデコードされた音場出力を決定することを含むことができる。知覚される音場に影響を及ぼすであろうアンビソニックスまたは非アンビソニックスマルチチャネル出力が、デコードされ得る。さらに、いくつかの実施形態において、それらの検出される出力に対応するＨＲＴＦ５４６のみが、処理される。音源の数が少ないか、または、多数であるが、互いに近い場合、合成的に発生させられたアンビソニック音場または非アンビソニックマルチチャネルレンダリングのための大きなＣＰＵ節約が、あり得る。

（源幾何学形状ベースの仮想スピーカカリング方法と低エネルギー出力検出およびカリング方法との例示的方法組み合わせ）

いくつかの実施形態において、源幾何学形状ベースの仮想スピーカカリングと低エネルギー出力検出およびカリングとの両方が、ＣＰＵ消費をさらに低減させるために、連続的に使用され得る。上で説明されるように、源幾何学形状ベースの仮想スピーカカリングは、例えば、ユーザ／聴者に対する音源の場所に基づいて、例えば、仮想スピーカ処理を選択的に無効にすることを含み得る。低エネルギー出力検出およびカリングは、例えば、音場デコーディングまたはマルチチャネル出力とＨＲＴＦ処理との間に信号エネルギー／レベル検出器を設置することを含み得る。源幾何学形状ベースの仮想スピーカカリングの出力／結果は、低エネルギー出力検出およびカリングに入力され得る。

上で説明されるシステムおよび方法に関して、システムおよび方法の要素は、適宜、１つ以上のコンピュータプロセッサ（例えば、ＣＰＵまたはＤＳＰ）によって実装されることができる。本開示は、これらの要素を実装するために使用されるコンピュータプロセッサを含むコンピュータハードウェアの任意の特定の構成に限定されない。ある場合、複数のコンピュータシステムが、上で説明されるシステムおよび方法を実装するために採用されることができる。例えば、第１のコンピュータプロセッサ（例えば、マイクロホンに結合されるウェアラブルデバイスのプロセッサ）が、入力マイクロホン信号を受信し、それらの信号の初期処理（例えば、上で説明されるもの等の信号調整および／またはセグメント化）を実施するために利用されることができる。第２の（おそらく、よりコンピュータ的に強力な）プロセッサが、次いで、それらの信号の発話セグメントに関連付けられた確率値の決定等のよりコンピュータ的に集約的な処理を実施するために利用されることができる。クラウドサーバ等の別のコンピュータデバイスが、発話認識エンジンをホストすることができ、それに入力信号が、最終的に提供される。他の好適な構成も、明白になり、本開示の範囲内である。

開示される例は、付随の図面を参照して完全に説明されたが、種々の変更および修正が、当業者に明らかであろうことに留意されたい。例えば、１つ以上の実装の要素は、組み合わせられ、削除され、修正され、または補完され、さらなる実装を形成し得る。そのような変更および修正は、添付される請求項によって定義されるような開示される例の範囲内に含まれるとして理解されるべきである。

Claims

オーディオ信号を空間的にレンダリングする方法であって、前記方法は、
空間モデラを使用して、仮想環境をモデル化することと、
空間エンコーダを使用して、複数の仮想スピーカにわたって前記空間モデラからの信号を分配することと、
内部空間表現を使用して、前記仮想環境の空間構成を表すことと、
デコーダ／バーチャライザを使用して、前記内部空間表現からの信号をデコードすることと、
デコーダ／バーチャライザを使用して、前記デコードされた信号の中に仮想音を導入することと、
前記デコーダ／バーチャライザ内の非アクティブ仮想スピーカに関連付けられた１つ以上の処理ブロックを選択的にバイパスすることと、
前記デコーダ／バーチャライザからの信号を組み合わせることと、
前記組み合わせられた信号を前記オーディオ信号として出力することと
を含む、方法。
音場デコーダからの前記信号に関連付けられたエネルギーレベルを決定することと、
前記検出されたエネルギーレベルの各々がエネルギー閾値より小さいかどうかを決定することと
をさらに含み、
前記１つ以上の処理ブロックの前記選択的バイパスは、前記仮想スピーカのうちの少なくとも１つの前記検出されたエネルギーレベルが前記エネルギー閾値より小さいという決定に従って、前記音場デコーダからの前記対応する信号の頭部関連伝達関数（ＨＲＴＦ）処理をバイパスすることを含み、
前記音場デコーダは、前記デコーダ／バーチャライザ内に含まれる、請求項１に記載の方法。
前記仮想スピーカのうちの少なくとも１つの前記検出されたエネルギーレベルが前記エネルギー閾値より小さくないという決定に従って、前記音場デコーダからの前記対応する信号のＨＲＴＦ処理を実施することをさらに含む、請求項２に記載の方法。
音源の数が所定の音源閾値以上であるかどうかを決定することをさらに含み、
前記１つ以上の処理ブロックの前記選択的バイパスは、前記音源の数が前記所定の音源閾値以上であるとき、複数の検出器をバイパスし、音場デコーダからの信号を複数のＨＲＴＦブロックに直接通すことを含み、
前記複数の検出器および前記複数のＨＲＴＦブロックは、前記デコーダ／バーチャライザ内に含まれる、請求項１に記載の方法。
前記音源の数が前記所定の音源閾値以上でないという決定に従って、前記音場デコーダからの信号を前記複数の検出器に直接通すことをさらに含む、請求項４に記載の方法。
各音源の場所を決定することと、
前記複数の仮想スピーカのうちのどれが前記それぞれの音源に近接して位置しているかを決定することと
をさらに含む、請求項１に記載の方法。
前記複数の仮想スピーカのうちのどれが前記それぞれの音源に近接して位置しているかの前記決定は、全ビデオフレームにおいて実施される、請求項６に記載の方法。
前記デコーダ／バーチャライザ内の前記１つ以上の処理ブロックの前記選択的バイパスは、前記デコーダ／バーチャライザ内の前記それぞれの音源に近接して位置していない少なくとも１つのスピーカに関連付けられた前記１つ以上の処理ブロックの全てをバイパスすることを含む、請求項６に記載の方法。
回転／平行移動表現を使用して、前記オーディオ信号に関連付けられた移動の表現を導入することと、
前記回転／平行移動表現からの信号の振幅が所定の振幅閾値以上であるかどうかを決定することと
をさらに含み、
前記デコーダ／バーチャライザ内の前記１つ以上の処理ブロックの前記選択的バイパスは、前記回転／平行移動表現からの前記信号の振幅が前記所定の振幅閾値以上でないとき、音場デコーダおよび複数のＨＲＴＦブロックをバイパスすることを含み、
前記音場デコーダおよび前記複数のＨＲＴＦブロックは、前記デコーダ／バーチャライザ内に含まれる、請求項１に記載の方法。
前記回転／平行移動表現からの前記信号の振幅が前記所定の振幅閾値以上であるという決定に従って、
前記回転／平行移動表現からの信号をデコードすることと、
頭部関連伝達関数（ＨＲＴＦ）を決定し、それを前記デコードされた信号に適用することと
をさらに含む、請求項９に記載の方法。
前記複数の仮想スピーカは、第１の時間において、前記非アクティブ仮想スピーカとアクティブ仮想スピーカとを含み、前記第１の時間における前記アクティブ仮想スピーカのうちの少なくとも１つは、信号が処理されている間の第２の時間において、非アクティブとして指定される、請求項１に記載の方法。
システムであって、前記システムは、
オーディオ信号をユーザに提供するように構成されたウェアラブル頭部デバイスと、
前記オーディオ信号を空間的にレンダリングするように構成された回路と
を備え、
前記回路は、
仮想環境をモデル化するように構成された空間モデラと、
複数の仮想スピーカにわたって前記空間モデラからの信号を分配するように構成された空間エンコーダと、
前記仮想環境の空間構成を表すように構成された内部空間表現と、
前記内部空間表現からの信号をデコードし、前記デコードされた信号の中に仮想音を導入するように構成されたデコーダ／バーチャライザと
を含み、
前記デコーダ／バーチャライザは、
前記オーディオ信号に関連付けられた移動の表現を導入するように構成された回転／平行移動表現と、
前記回転／平行移動表現からの信号をデコードするように構成可能な音場デコーダと、
複数の頭部関連伝達関数（ＨＲＴＦ）ブロックであって、前記複数のＨＲＴＦブロックは、その入力信号に対応するＨＲＴＦを決定し、前記その入力信号に前記対応するＨＲＴＦを適用するように構成されている、複数のＨＲＴＦブロックと、
前記複数のＨＲＴＦブロックからの信号を組み合わせ、前記オーディオ信号を出力するように構成された複数のコンバイナと
を含む、システム。
前記音場デコーダから信号を受信し、前記音場デコーダからの前記信号に関連付けられたエネルギーレベルを決定するように構成された複数の検出器と、
前記決定されたエネルギーレベルがエネルギー閾値より小さくないとき、前記信号を前記音場デコーダから前記複数のＨＲＴＦブロックに通すように構成された複数の第１のスイッチと
をさらに備えている、請求項１２に記載のシステム。
第２のスイッチをさらに備え、前記第２のスイッチは、
前記音場デコーダから前記信号を受信することと、
前記音場デコーダからの前記信号を直接前記複数の検出器または前記複数のＨＲＴＦブロックに選択的に通すことと
を行うように構成されている、請求項１３に記載のシステム。
音場デコード決定をさらに備え、前記音場デコード決定は、
前記回転／平行移動表現からの信号の振幅が所定の振幅閾値より大きいかどうかを決定することと、
前記回転／平行移動表現からの前記信号の振幅が前記所定の振幅閾値より大きいという決定に従って、前記回転／平行移動表現からの前記信号を前記音場デコーダに通すことと
を行うように構成されている、請求項１２に記載のシステム。