JP2022527111A

JP2022527111A - スケーラブル音声シーンメディアサーバ

Info

Publication number: JP2022527111A
Application number: JP2021558842A
Authority: JP
Inventors: エヌ．ディキンズ，グレン; ドゥオン，フオン; エッカート，マイケル; ジョンストン，クレイグ; ホルムバーグ，ポール
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2019-04-03
Filing date: 2020-04-03
Publication date: 2022-05-30
Also published as: US11803351B2; EP3949368B1; EP3949368A1; ES2967185T3; BR112021019785A2; US20220197592A1; CN113812136A; WO2020206344A1; KR20210145265A

Abstract

通信システムであって、複数のオーディオストリームを対応する複数のクライアント装置から受信するよう構成されるメディアサーバを含み、前記メディアサーバは回路を含み、前記回路は、所定のメトリックに基づき前記複数のオーディオストリームをランク付けし、前記複数のオーディオストリームの第１部分を第１セットにグループ化し、前記複数のオーディオストリームの前記第１部分は、N個の最高ランクのオーディオストリームであり、前記複数のオーディオストリームの第２部分を第２セットにグループ化し、前記複数のオーディオストリームの前記第２部分は、M個の最低ランクのオーディオストリームであり、前記第１セットのそれぞれのオーディオストリームを受信装置へ転送し、前記第２セットのそれぞれのオーディオストリームを破棄し、N及びMは独立した整数である、よう構成される。

Description

［関連出願］
本願は、米国仮特許出願番号第６２/９９１,６４５号、２０２０年３月１９日出願、米国仮特許出願番号第６２/８４０,８５７号、２０１９年４月３０日出願、欧州特許出願番号第１９１８６４９１.７号、２０１９年７月１６日出願、及び国際出願番号PCT/CN２０１９/０８１３１７号、２０１９年４月３日出願の利益を主張する国際出願番号PCT/CN２０２０/０７６０４７号、２０２０年２月２０日出願、の優先権の利益を主張する。これらの全体は参照によりここに全部が組み込まれる。

［技術分野］
本願は、概して、マルチパーティ通信に関する。より詳細には、本願は、スケーラブル音声シーンメディアサーバ、及び特にオーディオ及びビデオ通信の方法に関する。

ビデオ及びオーディオ遠隔会議システムは、複数のパーティが会議を行うために遠隔で相互作用することを可能にし得る。通常、音声会議の中のオーディオのためのコンテンツメディアサーバの既存の設計は、２つの形式のうちの一方である何らかの方針又は方針の組合せを使用する。

ある形式では、全部の入来するオーディオストリームを、会議で該オーディオストリームを聴いている全ての参加者へ転送することにより、サーバは、全部の処理負荷を回避し、クライアントにレンダリングに関するより多くの柔軟性を与えることができる。しかしながら、このアプローチは、ダウンストリーム帯域幅をスケーリング及び管理しない。

別の形式では、入来するストリームを、各エンドポイントにより受信されるような特定のミキシング又は空間オーディオシーンにミキシングし、ミックス（mix）だけを送信することにより、サーバは、会議の中のクライアントの数に関係なく、最小化され、固定ダウンストリーム帯域幅を有することができる。しかしながら、このアプローチは、サーバにおいて、膨大な数の処理及びオーディオ復号、ミキシング、及び再符号化を必要とする。これは、コスト及び追加処理遅延を生じる。そのようなシステムが種々の処理及びミキシング動作を削減し及びしようとする場合でも、これは大きな負荷を残す。一端ミキシングされると、クライアントが、知覚されるオーディオシーンを、サーバにより提供されたものと違うものへと有意に変更する（例えば、ヘッドトラッキングを実施する）機会は制限される。

システムは、少数の話者のみがアクティブである状況のための転送の使用と、多数の話者がアクティブであるミキシングの使用と、の間で交互に生じる前の２つの形式の何らかの組合せを含んでよい。しかしながら、そのようなシステムは、効率、拡張性、又は帯域幅管理において十分な向上を提供できないというような欠点を有し得る。

従って、サーバ上でのオーディオの高価なミキシングを必要とすることなく、クライアントへ送信されるピーク及び平均データビットレートを管理するシステム及び方法が必要である。更に、サーバにおいて生じるミキシング又はカリングと関係なく、各ストリームの空間位置を個々にレンダリングして、妥当な知覚的に連続したシーンにする能力を有するシステム及び方法が必要である。

本開示の種々の態様は、音声通信を含むスケーラブルなマルチパーティ通信のための回路、システム、及び方法に関する。

本開示の例示的な態様では、通信システムであって、複数のオーディオストリームを対応する複数のクライアント装置から受信するよう構成されるメディアサーバを含み、前記メディアサーバは回路を含み、前記回路は、所定のメトリックに基づき前記複数のオーディオストリームをランク付けし、前記複数のオーディオストリームの第１部分を第１セットにグループ化し、前記複数のオーディオストリームの前記第１部分は、N個の最高ランクのオーディオストリームであり、前記複数のオーディオストリームの第２部分を第２セットにグループ化し、前記複数のオーディオストリームの前記第２部分は、M個の最低ランクのオーディオストリームであり、前記第１セットのそれぞれのオーディオストリームを受信装置へ転送し、前記第２セットのそれぞれのオーディオストリームを破棄し、N及びMは独立した整数である、よう構成される、通信システムが提供される。

本開示の別の例示的な態様では、通信方法であって、
複数のオーディオストリームを対応する複数のクライアント装置から受信するステップと、
所定のメトリックに基づき前記複数のオーディオストリームをランク付けするステップと、
前記複数のオーディオストリームの第１部分を第１セットにグループ化するステップであって、前記複数のオーディオストリームの前記第１部分は、N個の最高ランクのオーディオストリームである、ステップと、
前記複数のオーディオストリームの第２部分を第２セットにグループ化するステップであって、前記複数のオーディオストリームの前記第２部分は、M個の最低ランクのオーディオストリームである、ステップと、
前記第１セットのそれぞれのオーディオストリームを受信装置へ転送するステップと、
前記第２セットのそれぞれのオーディオストリームを破棄するステップと、
を含み、N及びMは独立した整数である、通信方法が提供される。

本開示の別の例示的な態様では、命令を格納する非一時的コンピュータ可読であって、前記命令はメディアサーバのプロセッサにより実行されると、前記メディアサーバに動作を実行させ、前記動作は、
複数のオーディオストリームを対応する複数のクライアント装置から受信するステップと、
所定のメトリックに基づき前記複数のオーディオストリームをランク付けするステップと、
前記複数のオーディオストリームの第１部分を第１セットにグループ化するステップであって、前記複数のオーディオストリームの前記第１部分は、N個の最高ランクのオーディオストリームである、ステップと、
前記複数のオーディオストリームの第２部分を第２セットにグループ化するステップであって、前記複数のオーディオストリームの前記第２部分は、M個の最低ランクのオーディオストリームである、ステップと、
前記第１セットのそれぞれのオーディオストリームを受信装置へ転送するステップと、
前記第２セットのそれぞれのオーディオストリームを破棄するステップと、
を含み、N及びMは独立した整数である、非一時的コンピュータ可読媒体が提供される。

このように、本開示の種々の態様は、少なくとも電子通信の技術分野における改良を提供する。

本開示は、種々の形式で具現化でき、コンピュータにより実施される方法により制御されるハードウェア又は回路、コンピュータプログラムプロダクト、コンピュータシステム及びネットワーク、ユーザインタフェース、及びアプリケーションプログラミングインタフェース、並びに、ハードウェアにより実施される方法、信号処理回路、メモリアレイ、特定用途向け集積回路、フィールドプログラマブルゲートアレイ、等を含む。以上の概要は、単に本開示の種々の態様の全体的思想を与えることを意図し、本開示の範囲をいかようにも制限しない。

種々の実施形態のこれらの及び他のより詳細な及び特定の特徴は、以下の説明において更に完全に開示され、添付の図面を参照する。
本開示の種々の態様による例示的な通信システムを示す。本開示の種々の態様による例示的な通信システムを示す。本開示の種々の態様による例示的な通信システムを示す。本開示の種々の態様による例示的な会話アクティビティデータのグラフを示す。本開示の種々の態様による例示的な重み付け関数を示す。本開示の種々の態様による例示的な重み付け関数を示す。本開示の種々の態様による例示的な重み付け関数を示す。本開示の種々の態様による別の例示的な通信システムを示す。本開示の種々の態様による例示的な通信方法の処理フローを示す。本開示の種々の態様による別の例示的な通信方法の処理フローを示す。本開示の種々の態様による別の例示的な通信方法の処理フローを示す。本開示の種々の態様による別の例示的な通信方法の処理フローを示す。

以下の説明では、本開示の１つ以上の態様の理解を提供するために、回路構成、タイミング、動作、等のような多数の詳細事項が説明される。これらの特定の詳細事項は単なる例であり、本願の範囲を限定することを意図しないことが当業者に直ちに理解されるだろう。

更に、本開示は主に、種々の回路が音声通信において使用される例に焦点を当てるが、これは実装の単なる一例であることが理解されるだろう。更に、開示のシステム及び方法は、種々の音源及び宛先、例えばグローバル通信、モノのインターネット、仮想及び拡張現実システム、代替及び複合現実システム、より広範なコラボレーション、コミュニティの成長とサポート、等のために広くオーディオ接続を生成する必要のある、任意の装置の中で使用できることが理解されるだろう。更に、開示のシステム及び方法は、オーディオのみのアプリケーションにも、他の感覚モダリティと結合されたオーディオとしても適用可能である。

＜概要＞
本開示の種々の態様は、高品質な、幾つかの場合には、多数の同時話者を有するシーンの見分けが付かない印象を生成することが可能であると同時に、任意の時点で実際のオーディオストリームのサブセットのみを送信する、システムを提供する。従って、本開示の種々の態様は、人間の聴覚における神経学的、神経生理学的、及び知覚的要因の側面を利用して、包括的なデータ送信又はミキシングを伴わずに、完全な複雑な音声シーンの錯覚を生成する。

人間は、可能な場合には、時間及び周波数に渡るオーディオのコンポーネントを、知覚オブジェクトのより小さなセットにグループ化する傾向がある。つまり、人間は、ストリームの観点で聴覚シーンを知覚的に分析する傾向があり、空間、スペクトル、時間的振る舞い、テクスチャ、ピッチ、ピッチの動き、等における類似性が、オブジェクトを一緒に融合させる。更に、人間は、刺激に存在しない場合でも、聴覚ストリームの要素に渡り連続性を感知することができる。

音の復元は、連続性の錯覚の要因であり、それが高レベルの脳の機能及び聴覚シーンの完全な知覚にどのようにリンクするかである。例えば、リスナが単一のスピーカを聴いていて、音節が隠されるか又はオーディオから削除され適切にマスクされるとき、リスナは、削除が行われている音を知覚するだろう。意味のある言語では、知覚される音は、文にとって最も意味のある音になる。「マスクされる」は、ここでは、オーディオコンテンツの省略を表すのではなく、別の音又は雑音により特定の音をカバーすることを表す。この方法では、人間の脳は、音の不在（無音）を、意味のあるオーディオ信号の不在（内容が無いが、雑音がギャップを満たしている）とは異なる方法で取り扱う。マスクされるとき、失われる情報のコンテキストは、プライミング（priming）及び聴覚イベントに至るまでの（幾つかの場合には、イベントの前の数時間の）情報、並びにイベントに続くオーディオにより提供され得る。現象は、文の中の失われた音が存在したポイントで失われた音をリスナが聞いた（又は聞いたことを覚えている）と、彼又は彼女に思わせるほど強力であってよい。例えば、オーディオストリーム「the **eel was on the cart”及び“the **eal was on the table」（ここで、**は、ストリームから削除されマスクされた音節を示す）に晒されたリスナは、それぞれ、「wheel」及び「meal」を聞いたと報告するが、オーディオはストリームの最終的な言葉までは同一であった。

従って、会話から適切にマスクされ又は満たされる、失われた内容がある場合に、リスナは、ロバストであり、損失をカバーするのに適切な音を考え出すよう働くこともできる。上述の説明は、単一の話者を参照して提供されたが、概念は、会話に会話が重なって損失又は衝突が生じ、失われたコンポーネントが他の会話の存在によりマスクされる状況にも拡張できる。

Change blindnessは、連続性の錯覚の別の要因である。Change blindnessは、聴覚シーンで生じる膨大なアクティビティ又は変化が存在する場合、リスナが、歪み、変化、失われたセグメント、及び時間、周波数、又は空間における音の全体的操作を聞く可能性が低いという概念である。これは、視覚的情報に関連する傾向を研究する汎用的な知覚科学の一部分であるが、注意に基づく及びそれから生じる知覚的エラーは多くのシーンにおいて類似している。

Change blindnessは、不注意に基づく概念と類似し、それに関連する。２つの概念は、inattention blindnessが、変化している又は誤っている可能性のあるものから離れた積極的な選択的な注意に由来するのに対し、change blindnessは、多くのイベント又は膨大な量のアクティビティが生じる状況に由来し、従って変化を隠すことが容易である点が僅かに異なる。

以上は、オブジェクト（ストリーミング）及びアクティビティ（変化）を追跡する機能に傾向があるために、利用可能な有限の知覚能力又は努力の効果として要約できる。実際に、人間が聞こえると考えるものの多くは、実際にはリスナの現在の状況及び聴覚入力にもっともらしい方法で一致する、記憶からの音の幻覚または構成の形式である。音ごとに階層化されたコンテンツを処理するとき、これらの知覚的観察は、通信システムにおいて個々のリスナへ送信される必要のある情報の量を最小化するために利用でき、それにより複数の声から成る空間的シーンを再生成する。

通信システム
図１A～１Cは、本開示の種々の態様による通信システム１００a、１００b、又は１００cの種々の例を示す。特定の種類の間で区別することに関連しない場合、システムは、集合的に通信システム１００と呼ばれてよい。

図１Aは、中央メディアサーバ１０１が複数のクライアント装置１０２（図示の明確化のために、それらのうちの１つのみがラベル付けされる）からオーディオストリームを受信する、集中型通信システム１００aを示す。メディアサーバ１０１は、クライアント装置１０２の少なくとも一部のために、出力ストリームのセットを更に生成する。十分に大きな規模のシステムでは、単一のメディアサーバ１０１は、入来するオーディオストリームの全部を管理する能力がないことがある。

図１Bは、中央メディアサーバ１０１が複数の中間サーバ１０３を介して複数のクライアント装置１０２からオーディオストリームを受信する、ネスト型通信システム１００bを示す。中間サーバ１０３は、複数のクライアント装置１０２の種々のサブセットから／へ、処理を伴い又は伴わずに、オーディオストリーム及び／又は出力ストリームを転送してよい。

図１Cは、複数のメディアサーバ１０１が複数のクライアント装置１０２からオーディオストリームを受信し、及び複数のメディアサーバ１０１のうちのそれぞれが互いに通信する、共有通信システム１００cを示す。図１Cに特に図示しないが、共有通信システム１００cは、共有通信システム１００cの規模に依存して、中間サーバを更に含んでよい。

通信システム１００では、特定のクライアント装置１０２がオーディオストリームを提供するが、出力ストリームを受信せず、通信リンクは、片側矢印により示され、単信通信と呼ばれてよい。特定のクライアント１０２がオーディオストリームを提供し、出力ストリームも受信する場合、通信リンクは、両側矢印により示され、双方向通信と呼ばれてよい。明示的に示さないが、本開示は、特定のクライアント装置１０２が出力ストリームを受信するが、オーディオストリームを提供しない構成にも適用可能である。

更に、通信システム１００では、種々の通信リンクは有線（例えば、導電線及び／又は光ファイバを介する）、無線（例えば、Wi-Fi、Bluetooth、Near-Field Communication (NFC)、等を介する）、又は有線及び無線の組合せ（例えば、クライアント装置１０２のマイクとプロセッサとの間の有線、及びクライアント装置１０２とメディアサーバ１０１との間の無線）であってよい。図１A～１Cは特定の数のクライアント装置１０２を示すが（全体的に、及びメディアサーバ１０１０及び／又は中間サーバ１０３の各々についての両方）、本開示は、そのように限定されず、任意の構成の任意の数のクライアント装置１０２に適用可能であってよい。

通信システム１００では、音声を表すオーディオデータは、音声フレームのシリーズを含んでよい。説明の目的で、ここでは、音声フレームが低ノイズを有する又は適切に処理されてノイズを除去されている例が説明される。次に、各フレームの２つの特徴を考慮することが可能である。つまり、フレームの２乗平均（root mean square (RMS)）エネルギ、及びフレームのスペクトルピーク又は最大値である。この場合、帯域幅の周波数に対する一定の比を有する帯域のセットの中のエネルギを考慮することは、対数的に間隔の開けられた周波数帯域をもたらす。スペクトルの大部分に渡り、これは、等価直線帯域幅（equivalent rectilinear bandwidth (ERB)）、Bark Scale、又はメル間隔（mel spacing）のような知覚バンディング（perceptual banding）の特性を反映する。帯域幅は周波数とともに線形に増大するので、単位周波数あたりの一定エネルギ、又はホワイトノイズは、そのようなスケールで単調増加するパワースペクトルを有する。

図２は、本開示の種々の態様による例示的な会話アクティビティデータの散布図２０１及び棒グラフ２０２を示す。具体的に、図２は、標準的な会話アクティビティを提示するために、サンプルフレーズのセットについて、会話アクティビティデータを示す（Harvard文（sentences））。散布図２０１は、フレームのRMSレベル（デシベル（dB））を周波数（ヘルツ（Hz））の関数として示す。より具体的には、散布図２０１は、１／３オクターブブレンディングを有するHarvard文の２０個のミリ秒（ms）フレームを示す。棒グラフ２０２は、散布図２０１からのデータを、周波数帯域のカウントとして示し、ノイズフロア（約-６０dB）より上のエネルギを有するフレームのみを考慮している。図２に示すように、水平軸は対数尺度であり、垂直軸は線形尺度である（しかし、dB自体は対数値を表す）。

図２から分かるように、低周波数（<５００Hz）において高エネルギフレームが大きく集中している。より高い周波数（>２kHz）のコンテンツフレームは、数がより少ないが、明瞭さ及び音源定位のために重要である。結果として、ミキシング又はカリングメカニズムがこの周波数の不均衡を考慮しない場合、空間的提示、明瞭さ、及び全体のスペクトルを管理する重要なフレームは、失われることがある。これは、音声は音素の進行であり、より高い周波数でピークを有する音素は本質的に非音声及び／又は摩擦音である、という考えと一致する。

２つ以上の会話フレームが重なり合う場合、任意の瞬間に高エネルギフレームが存在する可能性が増大する。上述のメディアサーバ１００のようなサーバが任意の瞬間に出力のためにアクティブ音声フレームのサブセットのみを選択する場合、出力ミックスは低周波数フレームが支配的である可能性がある。選択されるサブセットに依存して、種々の状況が生じ得る。例えば、ミックスの全体スペクトルが、低周波数エネルギにより支配されてよく、従って、知覚的に鈍い又は鮮明さの少ない音になる。幾つかの場合には、これは、リスナにとって、システムが帯域幅を失っているかのような音になり得る。更に、（例えば、摩擦音又は非音声音において）明瞭さのために重要である高周波数コンポーネントは、ミックスから失われ削減され得る。更に、失われた過渡的又は広帯域コンテンツは、ストリームの削減されたセットがクライアントにおいて空間的にレンダリングされる場合、空間的提示及び豊かな没入型オーディオの観点で劣化をもたらし得る。

知覚的顕著性（Perceptual Salience）
上述の状況を回避するために、重み付け又は他の優先順位付け方式が導入され、会話フレームに適用される。優先順位付け方式は、加重エネルギ、構造特徴、又はそれらの組合せを含む冗長性、のうちの１つ以上に基づいてよく、それにより、所与のフレームの知覚的顕著性を決定するための基礎を提供してよい。加重エネルギは、より高い周波数を強調するためにフレームのエネルギの計算に導入されるスペクトル傾斜（spectral tilt）又は重み付け関数を表す。構造特徴は、フレームの構造的及び／又は意味論的関連性の考慮を表し、開始（onset）フレームがより高い優先度が与えられるタイミング、及び／又はより高いスペクトル周波数コンテンツ及びより低いエネルギを有するフレームを強調するために優先度がスキューされる音声ラベリング、の考慮を含む。冗長性（Verbosity）は、重み付けがシフトされ、バイアスされ、又は所与のストリームの最近のアクティビティの量又は冗長性から直接引き出される場合を表す。ここで、より最近のアクティビティを含むストリームは、高い意味論的重要性を有し、従って知覚的注意の焦点になる可能性が高いことに留意する。

重み付けの基礎として、図２に示した散布図２０１を考慮する。この形式の標準的なRMS計算は、ブロックドメイン変換から時間サンプル又は周波数ビンサンプルのいずれかにおけるパワーの和を用いて実行され得る。システムが周波数ドメイン変換を使用する場合、変換の周波数ビンが使用されてよい。ここで、RMSと全体的パワー計算との間の差は、ブロックサイズ及び平方根演算による正規化に対応する。値がdBで表される場合、説明の観点から、一般性を失うことなく、平方根演算の代わりに、オーディオの平均（サンプルあたり）又は全体（フレームあたり）のエネルギのいずれかを参照sルウことが最も簡単である。更に、一般性を失うことなく、重み付けは、単一のチャネルのみを参照して説明され得る。n個のサンプルフレームについて、フレームパワーPは、次式（１）に従い表現され得る：

式（１）では、x(t)(t=０,…,n-１)はオーディオであり、w_tは窓関数、例えばsin(π(t+.５)/n)であり、X(k)は次式（２）に従い表されてよい：

パワーPは、フレーム内の復号オーディオサンプルから計算されてよく、又は符号化オーディオストリーム内に直接存在してよい。更に、パワーPは、周波数ドメイン変換の指数のようなオーディオコーディングフレームの側面から、又は自動回帰モードに基づくコーデックにおける線スペクトルペア若しくは周波数エンベロープから、抽出できる。幾つかの場合には、フレームについて計算されたエネルギは、ノイズが支配的であることの多い非常に低い（例えば、<１００Hz）周波数の除去のような何らかの処理を含んでよい。

散布図２０１は、２クラスタの特徴を有する。より強調される右側の点クラスタを提供するために、周波数ドメイン重み付け関数H(k)が導入される。重み付け関数H(k)により、上述の式（１）は、以下の式（３）になる：

式（３）で、重み付け関数H(k)は、次式（４）により表される：

以上で、h(t)は時間ドメインインパルス応答である。周波数重み付け係数をH_kとして表すと、パワーPは、次式（５）になる：

図３A～３Cは、例示的な重み付け関数３０１a、３０１b、及び３０１cを示し、参考のために散布図２０１を再掲する。特定の関数の間で区別することに関連しない場合、関数は、集合的に重み付け関数３０１と呼ばれてよい。便宜上、重み付け関数３０１は、周波数重み付け係数により、Hzで記述される。kとfとの間の関係は、ブロックサイズ及びサンプリング周波数により決定される（例えば、k=(n×f)/(F_s×n)）。図３Aは、特定の形式H(f)=((２０００+f)/６０００)^８を有するパワー重み付け関数３０１aを示す。この関数は、１０００Hzより下のコンテンツを抑制し、４０００Hz以上のエネルギを有するコンテンツを強調する。このアプローチは、高い情報コンテンツのより低いエネルギの会話フレームがRMS計算により失われないことを保証する。

重み付け関数H(k)は、パワー関数に限定されない。例えば、図３B及び３Cは、それぞれ、段階的線形重み付け関数３０１b及び３０１cを示す。図３Bの段階的線形重み付け関数３０１bは、-３０dBの重みを１０００Hzより下のコンテンツに適用し、２０dBの重みを５０００Hzより上野コンテンツに適用し、その間は直線的に増加する重みである。図３Bの段階的線形重み付け関数３０１bは、-３０dBの重みを１０００Hzより下のコンテンツに適用し、１０dBの重みを２５００Hzより上野コンテンツに適用し、その間は直線的に増加する重みである。実施されると、段階的線形重み付け関数３０１bは、会話中の歯擦音に重点を置く。段階的線形重み付け関数３０１cは摩擦音及び主要な遷移に重点を置く。段階的線形重み付け関数３０１b及び段階的線形重み付け関数３０１cの両者は、有声音及び破裂音を強調しない。

任意のイベントで、重み付け関数３０１は、散布図２０１の右側にあるクラスタは、より高いスコアが付けられ、散布図２０１の左側にあるより頻度の高い且つより高い広帯域エネルギフレームよりも優先されることを保証するという影響を有する。従って、重み付け関数３０１に基づく優先順位付け方式は、これらの摩擦音及び遷移に関連付けられた高周波数コンテンツ及び音声の印象、明瞭さ、及び空間的手がかりを残すことに最も関連するフレームを保存する。従って、重み付け関数３０１は、１０００Hzより下の周波数を有するコンテンツを強調せず、４０００Hzより上の周波数を有するコンテンツを強調することにより、知覚的顕著性とは別に、フレームのバイアスを修正する。この方法では、重み付け関数３０１は、図３A～３Cに示された正確な形式に限定されない。

知覚的顕著性の計算（つまり、オーディオデータへの重み付け関数３０１の適用）は、望ましくは、上述の複数のクライアント装置１０２のようなクライアント装置により実行される。従って、対応する複数のクライアント装置によりアップロードされた複数のオーディオストリームは、オーディオストリームのコンテンツを示すオーディオデータと、オーディオストリームのコンテンツの重み付け及び／又は知覚的顕著性を示すメタデータと、の両方を含んでよい。

上述の重み付け関数に加えて、知覚的顕著性の計算は、瞬時帯域信号対雑音比（signal-to-noise ratio (SNR)）、開始（onset）検出、他のイベント検出、音素重み付け、冗長性、又はそれらの組合せを含んでよい。

瞬時帯域SNRは、フレーム毎の知覚的に間隔の開いた（例えば、対数的に間隔の開いた）周波数帯域のセットに対するノイズ推定及びパワー推定の考えに基づく。原則では、フレーム内のエネルギは、n個の変換周波数ビンのセットから、重み付け行列W_b,kにより、B個の知覚帯域のセットに分割される。これは、次式（６）に従い表すことができる：

信号内の最近の定常ノイズの最小の又は何らかの形式の推定を追跡することにより、存在する信号のバックグランドに対する比を推定することが可能である。これは、帯域内の絶対パワー又は該帯域内の背景ノイズのレベルに拘わらず、各知覚帯域b内のアクティビティが等しい重要性を有する指標を提供する。これは、次式（７）及び（８）に従い表すことができる：

以上で、Sは、知覚帯域に基づく信号アクティビティの値を表し、N_bは、信号内の最近の定常ノイズを表す。

定常ノイズにより調整された、現在フレーム内のエネルギが、前のフレームより有意に高いとき、正の差にスコアを付けるという観点で、アクティビティを表現するために、開始検出は、前のフレームの分析に基づく。これは、上述の式（８）のN_bの特性に含まれてよく、式（８）をP_bの数個の最近のフレームの平均により置き換えることを含む。この方法では、信号アクティビティSは、最近のエネルギの開始又は増大を有する帯域のみをカウントするようにバイアスされ得る。

他の形式のイベント検出は、会話アクティビティの分類に基づいてよい。そのような分類では、スペクトル形状及び／又は統計的パラメータ平均及び偏差に関する追加の特徴は、基本特徴から抽出されてよい。一例では、分類は、決定境界を生成するために、特徴のブーストに基づいてよい。分類器は、追加又は代替として、フレームが時間の経過と共に低周波数と高周波数スペクトルピークの間で交互に変化する程度の指標であるスペクトルフラックスに基づいてよい。この方法では、スペクトルフラックスは、リスナが別のエネルギ測定により失われていることに気付く傾向のあるフレームに重点を置く。

追加又は代替として、上述のクライアント装置１０２のようなクライアント装置は、入力においてどの音素が存在するかの瞬間推定を提供し得る瞬間推定を提供し得る会話分析を実行する能力を提供されてよい。１つのそのような例では、クライアント装置は、それらのエントロピーに基づき音素を重み付けしてよく、あまり頻繁に生じない音素ほど又は短い期間の音素ほど高いスコアを与える。これは、高周波数コンテンツ及び空間形成を保存するために、より顕著なフレームへ向けて、会話の選択にシフトを提供し得る。

ストリームの選択は、最近にアクティブである（又は冗長な）ストリームを保存することへ向けてバイアスされてもよい。冗長性バイアスは、他のストリームがアクティブではない間、アクティブである期間の所与のストリームの冗長性の増大に基づき測定されてよい。冗長性Vを決定するアルゴリズムの１つの非限定的な例は、正規化の目的でいずれかの極値で飽和する、０と１の間の値を出力する。高い値ほど、エンドポイントがアクティブであることを示し、従って、出力ミックスで最近アクティブである音場として維持される可能性が高く又はそうすることが適切である。冗長性は、パラメータのセットに従い、各フレーム又は時点で変更されてよい。しかしながら、本開示は、パラメータが選択され又は含まれることに特に限定されない。通常、冗長性Vは、エンドポイントがアクティブであるとき増大し、それが所与の時間において唯一のアクティブなエンドポイントである場合には、より迅速に増大してよい。アクティビティがない場合には、冗長性Vのレベルを維持すること、又は減衰を有し、減衰を関連付けられた音場のフェードアウトにリンクすることが可能であってよい。

一例では、高い値の冗長性Vに起因するバイアス又は強調は、上述の式から、６dB大きいパワー又は加重知覚的顕著性（P）と等価である。これは、次式（９）により表すことができる：

式（９）では、冗長性Vのスケーリングは例であり、限定ではない。上述のような６のスケーリングの代わりに、スケーリングは、３～１０dBのいずれであってよい。

上述の計算の任意の組合せが、クライアント装置で、中間サーバ、又はメディアサーバで実行されてよい。更に、組合せは、装置の組合せを用いて実行されてよい。一例では、冗長性シフトの前の知覚的顕著性の計算は、クライアント装置で実行されてよく、更なるシフトがサーバで実行されてよい。重み付けは、更に、ビットのシリーズ、例えば(０００)～(１１１)の範囲の３ビットバイナリコードxに符号化されてよく、重み付けはP=-３５+５xのように符号化されてよい。このような符号化は、以下の詳述するように、メディアサーバがパケットをランク付けするのを容易にする可能性がある。

フレーム全体を分析することなく、フレームRMSのような上述のデータのうちのいずれかを取得することが可能である。例えば、周波数ドメインで、エンベロープのみを用いてフレームRMSを抽出することが可能である。会話型エンコーダでは、励起ベクトル（excitation vector）と線形予測符号化（linear predictive coding (LPC)）パラメータから情報を導出することが可能である。

上述の重み付け方式は、主として音声パケットを対象としている。音声に基づく重み付けが必要以上の感度を提供する場合には（例えば、非音声オーディオのノイズの特定の場合）、信号が音声アクティビティを含むことを重み付けを実行する装置が確信している場合にだけ、重み付け方式を適用することが可能である。

ミキシング及びストリーム選択
上述のメディアサーバ１０１のようなサーバ装置は、対応する複数のクライアント装置によりアップロードされた複数のオーディオストリームを受信し処理する。そのような処理は、サーバ装置において即座に転送及び／又はミキシングするために、オーディオストリームのサブセットの選択を含む。上述の原理に基づき、潜在的にアクティブなストリームのサブセットのみを使用して、説得力がある時には知覚的に区別できないストリームの表現を生成することが可能である。

図４は、そのような処理を実施し得る本開示の種々の態様による別の例示的な通信システム４００を示す。通信システム４００は、上述の通信システム１００と同じ又は同様であってよい。通信システム４００は、メディアサーバ１０１と同じ又は同様であってよいサーバ装置４１０と、クライアント装置１０２と同じ又は同様であってよい複数のクライアント装置４２０と、を含む。

クライアント装置４２０の各々は、オーディオデータ４２１とメタデータ４２２とを含むオーディオストリームをサーバ装置４１０に提供する。図４はオーディオデータ４２１とメタデータ４２２とを異なる矢印を用いて示すが、実際には、オーディオストリームは、単一のデータストリームに符号化されたオーディオデータ４２１及びメタデータ４２２を含んでよい。メタデータ４２２は、重み付け及び／又は知覚的顕著性を示すデータ、シーン内の空間位置を示すデータ、及び／又は他のデータを含んでよい。更に、一部のデータはオーディオデータ４２１に含まれてよく、他のデータはメタデータ４２２に含まれる。非限定的な例では、オーディオデータ４２１は重み付け及び／又は知覚的顕著性を示すデータを含み、メタデータ４２２は空間位置データを含む。

サーバ装置４１０は、オーディオストリームサーバ／ルータ４３０、ミキサ４７０、及び処理及び／又は多重化ユニット４８０を含む。空間レンダリングが実行される場合には、サーバ装置４１０は、空間計算機４４０、グローバルシーン情報ユニット４５０、及び制御サーバ４６０を含んでよい。オーディオストリームサーバ／ルータ４３０は、オーディオデータ４２１を複数のクライアント装置４２０から受信し、データを複数のセット４３１～４３３に分類する。分類は、オーディオデータ４２１に含まれるデータ、メタデータ４２２、又はその両方に基づいてよい。更に、図４は３個のセット４３１～４３３を示すが、本開示はそのように限定されない。本開示の幾つかの態様では、２つのセットのみ（又は４個以上のセット）が提供されてよい。オーディオストリームサーバ／ルータ４３０は、先ず複数のオーディオストリームを、上述の重み付け又は知覚的顕著性のような所定のメトリックに基づきランク付けし、それらのランクに基づきオーディオストリームをグループ化することにより、分類を実行してよい。

本開示の例示的な態様では、オーディオストリームサーバ／ルータ４３０は、L個のオーディオストリームをL個のクライアント装置４２０から受信し、N個の最高ランクのオーディオストリームを第１セット４３１にグループ化し、M個の最低ランクのオーディオストリームを第３セット４３３にグループ化し、中間のランクのオーディオストリームを第２セット４３２にグループ化する。ここで、L、M、及びNは、独立した整数であり、L≧M+Nである。第１セット４３１のオーディオストリームは、出力ストリーム４９０として１つ以上の受信装置へ処理及び／又は多重化ユニット４８０を介して転送されてよい。第３セット４３３のオーディオストリームは、破棄又は無視されてよい。本開示の幾つかの態様では、第２セット４３２のオーディオストリームのオーディオコンテンツは、第１セット４３１のオーディオストリームのうちの１つにミキシングされ、それにより、出力ストリーム４９０の部分として転送される。第２セット４３２は、例えば、第１セット４３１の最低ランクのストリームにミキシングされてよい。各セットの中のストリームの数は特に限定されない。幾つかの場合には、第１セット４３１は単一のストリームのみを含んでよく、他の場合には、第１セット４３１は複数のストリームを含んでよい。受信装置は、複数のクライアント装置４２０及び／又は複数のクライアント装置４２０と別個の追加装置のうちの任意の１つ以上であってよい。

幾つかの例では、N又はMは０であってよい。つまり、所与の時点で、入力オーディオストリームのいずれも、顕著なコンテンツを含まなくてよい。この場合、第１セット４３１は空（N=０）であってよい。そのような状況は、例えば、全部のクライアント装置４２０に対応するオーディオストリームが、出力ストリーム４９０の部分として転送されるべき関連するオーディオコンテンツ又は音声データを含むとき、生じ得る。更に、所与の時点で、入力オーディオストリームの全部が、顕著なコンテンツを含んでよい。この場合、第３セット４３３は空（M=０）であってよい。そのような状況は、例えば、全部のクライアント装置４２０に対応するオーディオストリームが無音である又は非音声データのみを含むとき、生じ得る。

サーバ装置４１０は、複数のクライアント装置４２０から全部のオーディオストリームを受信し、各オーディオコーデックフレームの中の受信したストリームの即時チェックを実行してよく、それにより、受信装置に関連するストリームを決定する。セットは、オーディオフレームレートで又はオーディオフレームレートより遅いレートで更新されてよい。更に、複数の受信装置が存在する場合には、サーバ装置４１０は（例えば、制御サーバ４６０により）、受信装置毎に独立に、セット４３１～４３３を計算してよい。空間計算ユニット４３０からの情報は、出力ストリーム４９０に含めるために、処理及び／又は多重化ユニット４８０に提供されてよい。

受信装置として動作するクライアント装置４２０のそれぞれは、入来する可能性のあるストリームに適するコーデックの複数のインスタンスを有してよい。この場合、しかしながら、クライアント装置４２０は、あらゆる可能性のあるソースをカバーするためのコーデックを有する必要はなく、サーバ装置４１０において送信するためにストリームの瞬間的選択によりストリームが停止され開始される場合／とき、復号オーディオ及び空間レンダリングの相対的連続性を保証するのに十分な数のコーデックを含んでよい。急に停止されるストリームは、フェードアウト又は自然な状態に戻るためにコーデックを通過させるための１～２個のフレームを必要とし得る。

周波数ドメインコーデックの場合には、これは、オーバラップウインドウのフェードアウト部分を有する復号フレームバッファをフラッシングすることに相当する。モデル又は深層ニューラルネットワーク（deep neural network (DNN)）に基づくコーデックの場合には、これは、適切なフェードアウトと結合された、現在及び最近のストリームモデルの軌道の短い外挿であってよい。

図５は、図４に示したセット４３１～４３３のようなセットを決定する例示的なアルゴリズムを示す。図５は、N個の最も顕著なストリームがクライアント装置へ転送される例示的なアルゴリズムを示す。ステップS５１０で、図４のサーバ装置４１０のようなサーバ装置がL個の数のパケットを受信する。ステップS５２０で、サーバ装置は、選択されたメトリックに従い、受信したパケットをソートする。ステップS５２０は、先ず、上述の重み付け又は知覚的顕著性のような所定のメトリックに基づき複数のパケットをランク付けし、N個の最も顕著なストリームが第１セットにグループ化されるように、それらのランクに基づきオーディオストリームをグループ化することを含んでよい。ステップS５３０で、第１セットのパケットは受信装置へ転送され、残りのパケットは破棄又は無視される。

図６Aは、N個の最も顕著なストリームがクライアント装置へ転送され、中程度に顕著なストリームからのオーディオがミックスとして含まれる、例示的なアルゴリズムを示す。ステップS６１０で、図４のサーバ装置４１０のようなサーバ装置がL個の数のパケットを受信する。ステップS６２０で、サーバ装置は、選択されたメトリックに従い、受信したパケットをソートする。ステップS６２０は、先ず、上述の重み付け又は知覚的顕著性のような所定のメトリックに基づき複数のパケットをランク付けし、N個の最も顕著なストリームが第１セットにグループ化され、中程度に顕著なストリームが第２セットにグループ化され、M個の最も顕著でないストリームが第３セットにグループ化されるように、それらのランクに基づきオーディオストリームをグループ化することを含んでよい。ステップS６３０で、中程度に顕著なストリーム（つまり、N個の最も顕著なもの又はM個の最も顕著でないもののいずれでもないストリーム）からのオーディオは、第１セットの最も顕著でないパケットにミキシングされる。合計パケット数がLの場合、最も顕著なパケットの数はNであり、最も顕著でないパケットの数はMであり、中程度に顕著なストリームは、セット[N+１,L-M-１]として示され、第１セットの最も顕著でないパケットは、パケットNとして示されてよい。ステップS６４０で、ミックスとして第２セットからのオーディオを含む、第１セットのパケットは、受信装置へ転送され、残りのM個のパケットは破棄又は無視される。

一方で、上述のように、N及びMは特に限定されず、本開示の幾つかの態様ではNは２又は３に等しくてよい。

サーバから転送されるストリームが最大合計ビットレートの範囲内に適合する必要がある場合がある。これらの場合には、ストリームの間でビットをどのように割り当てるかを決定しなければならない。好適なアプローチは、高い顕著性のストリームほど多くのビットを割り当てることである。図６Bは、合計でN個の転送されるストリームが固定された所定の最大ビットレートに制限されなければならないとき、個々のストリームの間にビットを割り当てる例示的なアルゴリズムを示す。この場合、各ストリームへのビットの割り当ては、顕著性メトリックに従い、例えば加重エネルギに基づき、順序付けられる。その結果、低い顕著性の各ストリームが、高い顕著性のストリームに割り当てられるのと等しい又はそれより少ない数のビットを受け取るようにする。例えば、３個のストリームの制限を有し、合計で４８kbpsの「ビットバケット（bit bucket）」を指定する場合、第１ストリームに２４kbpsを、第２及び第３ストリームに１２kbpsを割り当て得る。この場合、２４kbpsは最も高い顕著性を有するストリームに割り当てられ、１２kbpsは最も低い顕著性を有するパケットにそれぞれ割り当てられ得る。ステップS６５０で、図４のサーバ装置４１０のようなサーバ装置がL個の数のパケットを受信する。ステップS６６０で、サーバ装置は、選択されたメトリックに従い、受信したパケットをソートする。ステップS６６０は、先ず、上述の重み付け又は他の知覚的顕著性メトリックのような所定のメトリックに基づき複数のパケットをランク付けし、N個の最も顕著なストリームが第１セットにグループ化され、中程度に顕著なストリームが第２セットにグループ化され、M個の最も顕著でないストリームが第３セットにグループ化されるように、それらのランクに基づきオーディオストリームをグループ化することを含んでよい。ステップS６７０で、サーバ装置は、顕著性の順序で、N個のストリームの各々にビットを割り当てる。その結果、合計は最大ビットレートを超えない。ステップS６８０で、ミックスとして第２セットからのオーディオを含む、第１セットのパケットは、受信装置へ転送され、残りのM個のパケットは破棄又は無視される。

図７は、合計でN個の転送されるストリームが固定された所定の最大ビットレートに制限されなければならないとき、個々のストリームの間にビットを割り当てる別の例示的なアルゴリズムを示す。このアルゴリズムでは、閾値より低いストリームは、最も高い顕著性のパケットにミキシングされる。次に、ビットは、顕著性の順序で各ストリームに割り当てられる。ここで、低い顕著性のストリームは、高い顕著性のストリームと等しい又はそれより少ない数のビットを受け取る。ステップS７１０で、図４のサーバ装置４１０のようなサーバ装置がL個の数のパケットを受信する。ステップS７２０で、サーバ装置は、選択されたメトリックに従い、受信したパケットをソートする。ステップS７２０は、先ず、上述の重み付け又は知覚的顕著性のような所定のメトリックに基づき複数のパケットをランク付けし、N個の最も顕著なストリームが第１セットにグループ化され、中程度に顕著なストリームが第２セットにグループ化され、M個の最も顕著でないストリームが第３セットにグループ化されるように、それらのランクに基づきオーディオストリームをグループ化することを含んでよい。ステップS７３０で、中程度に顕著なストリーム（つまり、N個の最も顕著なもの又はM個の最も顕著でないもののいずれでもないストリーム）からのオーディオは、最も顕著なストリームに対応する、パケット１にミキシングされる。ステップS７４０で、サーバ装置は、顕著性の順序で、N個のストリームの各々にビットを割り当てる。その結果、合計は最大ビットレートを超えない。ステップS７５０で、ミックスとして第２セットからのオーディオを含む、第１セットのパケットは、受信装置へ転送され、残りのM個のパケットは破棄又は無視される。

＜適用＞
処理、システム、方法、ヒューリスティック、等に関して本願明細書に説明されたが、理解されるべきことに、このような処理等のステップは、特定の順序付きシーケンスに従い生じるとして説明されたが、このような処理は、本願明細書に記載された順序と異なる順序で実行される記載されたステップと共に実施され得る。特定のステップは同時に実行され得ること、他のステップが追加され得ること、又は本願明細書に記載された特定のステップが省略され得ることが、更に理解されるべきである。言い換えると、本願明細書における処理の説明は、特定の実施形態を説明する目的で提供され、請求項を限定するものとして考えられるべきではない。

上述の例は、主に音声シーンの管理及びレンダリングに関して説明されたが、本開示は、音声コンテンツにのみ適用可能又は専用であると解釈されるべきではない。本開示に記載された概念は、意味論的及び潜在的に対話型である情報コンテンツを含む、高い過渡的特性の任意の信号に一般的に拡張されてよい。音声及び音声のような音の人間の知覚についての上述の説明は、例として提供され、システム使用の制限ではない。

更に、本開示は、エンドクライアントにおけるオーディオの再結合及びレンダリングの観点で空間情報の側面に一般的に言及したが、本開示は、オーディオストリームのストリーム内の意図された位置に関する明示的情報、識別子、及びクライアント側情報若しくはストリームをレンダリングする場所に関する決定、又はこれらの両方の何らかの組合せ、を有するオーディオストリームが存在する状況に拡張されてよい。情報は、他のオーディオ制御システムからの追加シーン制御情報と更に結合されてよい。この方法では、空間的適用は、モノ（mono）も含む上位集合を表す。ここで、レンダリングを制御することを目的とした方向及び／又は距離情報の大部分は、無視され又は存在しなくてよい。シーンが、ユーザに空間像を生成する空間オーディオ技術を用いてレンダリングされる場合、オーディオは、多くの異なる方法で配信されてよい。例えば、オーディオストリームは、ヘッドフォン（バイノーラル）を介して配信され、音がユーザの近くに現実に存在した場合に生じ得る音響伝搬及び空間音響をシミュレートしてよい。代替として、リスナの周囲の幾つかのスピーカ位置の出力が制御されて、近似又は知覚的に効果的な音場のシーンを生成するようにしてよい。

本開示は、それぞれが他のソースと独立したアクティビティを有し得る特定のソースから生じるオーディオストリームのセットを参照した。しかしながら、これらのオーディオストリームの各々は、１つのオーディオチャネルのみを表す必要はない。オーディオストリーム自体は、既に部分的に符号化された空間オーディオの特性を有してよい。例えば、ストリームは、バイノーラルオーディオ又は何らかの形式のマルチチャネル空間オーディオであってよい。更に、信号精度（例えば、ビットレート）及び空間精度（例えば、レイヤ又はチャネル）の両方の観点で忠実度を表現するために、所与のストリーム内に追加レイヤ及び階層的アプローチが存在してよい。

種々の実装では、本願明細書に開示された技術は、限定ではないが、マルチチャネルオーディオのオーディオ符号化に適用可能である。通信システムが」オーディオコーディングシステムである場合、メディアサーバはオーディオエンコーダであってよく、クライアントはオーディオソースであってよい。

本発明の種々の態様は、以下に列挙する例示的な実施形態（enumerated example embodiment：EEE）から明らかであり得る。
（ＥＥＥ１）通信システムであって、複数のオーディオストリームを対応する複数のクライアント装置から受信するよう構成されるメディアサーバを含み、前記メディアサーバは回路を含み、前記回路は、所定のメトリックに基づき前記複数のオーディオストリームをランク付けし、前記複数のオーディオストリームの第１部分を第１セットにグループ化し、前記複数のオーディオストリームの前記第１部分は、N個の最高ランクのオーディオストリームであり、前記複数のオーディオストリームの第２部分を第２セットにグループ化し、前記複数のオーディオストリームの前記第２部分は、M個の最低ランクのオーディオストリームであり、前記第１セットのそれぞれのオーディオストリームを受信装置へ転送し、前記第２セットのそれぞれのオーディオストリームを破棄し、N及びMは独立した整数である、よう構成される、通信システム。
（ＥＥＥ２）前記回路は、
前記複数のオーディオストリームの第３部分を第３セットにグループ化し、前記複数のオーディオストリームの前記第３部分は、前記第１部分と前記第２部分との間にランク付けされたオーディオストリームであり、
前記第３セットのオーディオコンテンツを前記第１セットのオーディオストリームのうちの１つにミキシングする、
よう更に構成される、ＥＥＥ１に記載の通信システム。
（ＥＥＥ３）前記複数のオーディオストリームのそれぞれは、オーディオデータ及びメタデータを含み、前記メタデータは、重みを示すデータを含む、ＥＥＥ１又は２に記載の通信システム。
（ＥＥＥ４）前記重みは知覚的顕著性に基づく、ＥＥＥ３に記載の通信システム。
（ＥＥＥ５）各ストリームは、ビットを割り当てられ、より高い顕著性のストリームは、より低い顕著性のストリームと等しい又はそれより高いビットを受信する、ＥＥＥ４に記載の通信システム。
（ＥＥＥ６）前記メタデータは、シーンの中の空間位置を示すデータを更に含む、ＥＥＥ３３～５のいずれか一項に記載の通信システム。
（ＥＥＥ７）前記重みは、１０００Hzより下の周波数を有するコンテンツを抑制し、４０００Hzより上の周波数を有するコンテンツを強調するＥＥＥ３～６のいずれか一項に記載の通信システム。
（ＥＥＥ８）前記受信装置は、前記複数のクライアント装置のうちの１つである、ＥＥＥ１～７のいずれか一項に記載の通信システム。
（ＥＥＥ９）通信方法であって、
複数のオーディオストリームを対応する複数のクライアント装置から受信するステップと、
所定のメトリックに基づき前記複数のオーディオストリームをランク付けするステップと、
前記複数のオーディオストリームの第１部分を第１セットにグループ化するステップであって、前記複数のオーディオストリームの前記第１部分は、N個の最高ランクのオーディオストリームである、ステップと、
前記複数のオーディオストリームの第２部分を第２セットにグループ化するステップであって、前記複数のオーディオストリームの前記第２部分は、M個の最低ランクのオーディオストリームである、ステップと、
前記第１セットのそれぞれのオーディオストリームを受信装置へ転送するステップと、
前記第２セットのそれぞれのオーディオストリームを破棄するステップと、
を含み、N及びMは独立した整数である、通信方法が提供される。
（ＥＥＥ１０）前記複数のオーディオストリームの第３部分を第３セットにグループ化するステップであって、前記複数のオーディオストリームの前記第３部分は、前記第１部分と前記第２部分との間にランク付けされたオーディオストリームである、ステップと、
前記第３セットのオーディオコンテンツを前記第１セットのオーディオストリームのうちの１つにミキシングするステップと、
を更に含むＥＥＥ９に記載の通信方法。
（ＥＥＥ１１）前記複数のオーディオストリームのそれぞれは、オーディオデータ及びメタデータを含み、前記メタデータは、重みを示すデータを含む、ＥＥ９又は１０に記載の通信方法。
（ＥＥＥ１２）前記重みは知覚的顕著性に基づく、ＥＥＥ１１に記載の通信方法。
（ＥＥＥ１３）各ストリームは、ビットを割り当てられ、より高い顕著性のストリームは、より低い顕著性のストリームと等しい又はそれより高いビットを受信する、ＥＥＥ１２に記載の通信方法。
（ＥＥＥ１４）前記メタデータは、シーンの中の空間位置を示すデータを更に含む、ＥＥＥ１１～１３のいずれか一項に記載の通信方法。
（ＥＥＥ１５）前記重みは、１０００Hzより下の周波数を有するコンテンツを抑制し、４０００Hzより上の周波数を有するコンテンツを強調するＥＥＥ１１～１４のいずれか一項に記載の通信方法。
（ＥＥＥ１６）前記受信装置は、前記複数のクライアント装置のうちの１つである、ＥＥＥ９～１５のいずれか一項に記載の通信方法。
（ＥＥＥ１７）命令を格納する非一時的コンピュータ可読であって、前記命令はメディアサーバのプロセッサにより実行されると、前記メディアサーバに動作を実行させ、前記動作は、
複数のオーディオストリームを対応する複数のクライアント装置から受信するステップと、
所定のメトリックに基づき前記複数のオーディオストリームをランク付けするステップと、
前記複数のオーディオストリームの第１部分を第１セットにグループ化するステップであって、前記複数のオーディオストリームの前記第１部分は、N個の最高ランクのオーディオストリームである、ステップと、
前記複数のオーディオストリームの第２部分を第２セットにグループ化するステップであって、前記複数のオーディオストリームの前記第２部分は、M個の最低ランクのオーディオストリームである、ステップと、
前記第１セットのそれぞれのオーディオストリームを受信装置へ転送するステップと、
前記第２セットのそれぞれのオーディオストリームを破棄するステップと、
を含み、N及びMは独立した整数である、非一時的コンピュータ可読媒体。
（ＥＥＥ１８）前記複数のオーディオストリームの第３部分を第３セットにグループ化するステップであって、前記複数のオーディオストリームの前記第３部分は、前記第１部分と前記第２部分との間にランク付けされたオーディオストリームである、ステップと、
前記第３セットのオーディオコンテンツを前記第１セットのオーディオストリームのうちの１つにミキシングするステップと、
を更に含む、ＥＥＥ１７に記載の非一時的コンピュータ可読媒体。
（ＥＥＥ１９）前記複数のオーディオストリームのそれぞれは、オーディオデータ及びメタデータを含み、前記メタデータは、重みを示すデータを含む、ＥＥ１７又は１８に記載の非一時的コンピュータ可読媒体。
（ＥＥＥ２０）前記重みは知覚的顕著性に基づく、ＥＥＥ１９に記載の非一時的コンピュータ可読媒体。
（ＥＥＥ２１）各ストリームは、ビットを割り当てられ、より高い顕著性のストリームは、より低い顕著性のストリームと等しい又はそれより高いビットを受信する、ＥＥＥ２０のいずれかに記載の非一時的コンピュータ可読媒体。
（ＥＥＥ２２）前記メタデータは、シーンの中の空間位置を示すデータを更に含む、ＥＥＥ１９～２１のいずれかに記載の非一時的コンピュータ可読媒体。
（ＥＥＥ２３）前記重みは、１０００Hzより下の周波数を有するコンテンツを抑制し、４０００Hzより上の周波数を有するコンテンツを強調するＥＥＥ１１９～２２のいずれか一項に記載のコンピュータ可読媒体。

Claims

通信システムであって、
複数のオーディオストリームを対応する複数のクライアント装置から受信するよう構成されるメディアサーバを含み、前記メディアサーバは回路を含み、前記回路は、
所定のメトリックに基づき前記複数のオーディオストリームをランク付けし、オーディオストリームの前記メトリックは、前記オーディオストリームのフレームの加重エネルギを含み、前記オーディオストリームのフレームの前記加重エネルギは、１０００Hzより下の周波数を有するスペクトル周波数コンテンツを抑制し、４０００Hzより上の周波数を有するスペクトル周波数コンテンツを強調する重み付け関数を用いて決定され、
前記複数のオーディオストリームの第１部分を第１セットにグループ化し、前記複数のオーディオストリームの前記第１部分は、N個の最高ランクのオーディオストリームであり、
前記複数のオーディオストリームの第２部分を第２セットにグループ化し、前記複数のオーディオストリームの前記第２部分は、M個の最低ランクのオーディオストリームであり、
前記第１セットのそれぞれのオーディオストリームを受信装置へ転送し、
前記第２セットのそれぞれのオーディオストリームを破棄し、
N及びMは独立した整数である、よう構成される、通信システム。
前記回路は、
前記複数のオーディオストリームの第３部分を第３セットにグループ化し、前記複数のオーディオストリームの前記第３部分は、前記第１部分と前記第２部分との間にランク付けされたオーディオストリームであり、
前記第３セットのオーディオコンテンツを前記第１セットのオーディオストリームのうちの１つにミキシングする、
よう更に構成される、請求項１に記載の通信システム。
前記複数のオーディオストリームのそれぞれは、オーディオデータ及びメタデータを含み、オーディオストリームの前記メタデータは、前記オーディオストリームのフレームの加重エネルギを示すデータを含む、請求項１又は２に記載の通信システム。
前記サーバにより転送されるべき各ストリームは、ビットを割り当てられ、より高いランクのストリームは、より低いランクのストリームと等しい又はそれより高いビットを受信する、請求項１～３のいずれかに記載の通信システム。
オーディオストリームの前記メタデータは、シーンの中の空間位置を示すデータを更に含む、請求項３又は４に記載の通信システム。
前記受信装置は、前記複数のクライアント装置のうちの１つである、請求項１～５のいずれか一項に記載の通信システム。
通信方法であって、
複数のオーディオストリームを対応する複数のクライアント装置から受信するステップと、
所定のメトリックに基づき前記複数のオーディオストリームをランク付けするステップであって、オーディオストリームの前記メトリックは、前記オーディオストリームのフレームの加重エネルギを含み、前記オーディオストリームのフレームの前記加重エネルギは、１０００Hzより下の周波数を有するスペクトル周波数コンテンツを抑制し、４０００Hzより上の周波数を有するスペクトル周波数コンテンツを強調する重み付け関数を用いて決定される、ステップと、
前記複数のオーディオストリームの第１部分を第１セットにグループ化するステップであって、前記複数のオーディオストリームの前記第１部分は、N個の最高ランクのオーディオストリームである、ステップと、
前記複数のオーディオストリームの第２部分を第２セットにグループ化するステップであって、前記複数のオーディオストリームの前記第２部分は、M個の最低ランクのオーディオストリームである、ステップと、
前記第１セットのそれぞれのオーディオストリームを受信装置へ転送するステップと、
前記第２セットのそれぞれのオーディオストリームを破棄するステップと、
を含み、N及びMは独立した整数である、通信方法。
前記複数のオーディオストリームの第３部分を第３セットにグループ化するステップであって、前記複数のオーディオストリームの前記第３部分は、前記第１部分と前記第２部分との間にランク付けされたオーディオストリームである、ステップと、
前記第３セットのオーディオコンテンツを前記第１セットのオーディオストリームのうちの１つにミキシングするステップと、
を更に含む請求項７に記載の通信方法。
前記複数のオーディオストリームのそれぞれは、オーディオデータ及びメタデータを含み、オーディオストリームの前記メタデータは、前記オーディオストリームのフレームの加重エネルギを示すデータを含む、請求項７又は８に記載の通信方法。
各ストリームは、ビットを割り当てられ、より高いランクのストリームは、より低いランクのストリームと等しい又はそれより高いビットを受信する、請求項７～９のいずれかに記載の通信方法。
オーディオストリームの前記メタデータは、シーンの中の空間位置を示すデータを更に含む、請求項９又は１０に記載の通信方法。
前記受信装置は、前記複数のクライアント装置のうちの７つである、請求項７～１１のいずれか一項に記載の通信方法。
命令を格納する非一時的コンピュータ可読媒体であって、前記命令は、メディアサーバのプロセッサにより実行されると、前記メディアサーバに動作を実行させ、前記動作は、
複数のオーディオストリームを対応する複数のクライアント装置から受信するステップと、
所定のメトリックに基づき前記複数のオーディオストリームをランク付けするステップであって、オーディオストリームの前記メトリックは、前記オーディオストリームのフレームの加重エネルギを含み、前記オーディオストリームのフレームの前記加重エネルギは、１０００Hzより下の周波数を有するスペクトル周波数コンテンツを抑制し、４０００Hzより上の周波数を有するスペクトル周波数コンテンツを強調する重み付け関数を用いて決定される、ステップと、
前記複数のオーディオストリームの第１部分を第１セットにグループ化するステップであって、前記複数のオーディオストリームの前記第１部分は、N個の最高ランクのオーディオストリームである、ステップと、
前記複数のオーディオストリームの第２部分を第２セットにグループ化するステップであって、前記複数のオーディオストリームの前記第２部分は、M個の最低ランクのオーディオストリームである、ステップと、
前記第１セットのそれぞれのオーディオストリームを受信装置へ転送するステップと、
前記第２セットのそれぞれのオーディオストリームを破棄するステップと、
を含み、N及びMは独立した整数である、非一時的コンピュータ可読媒体。
前記複数のオーディオストリームの第３部分を第３セットにグループ化するステップであって、前記複数のオーディオストリームの前記第３部分は、前記第１部分と前記第２部分との間にランク付けされたオーディオストリームである、ステップと、
前記第３セットのオーディオコンテンツを前記第１セットのオーディオストリームのうちの１つにミキシングするステップと、
を更に含む、請求項１３に記載の非一時的コンピュータ可読媒体。
前記複数のオーディオストリームのそれぞれは、オーディオデータ及びメタデータを含み、オーディオストリームの前記メタデータは、前記オーディオストリームのフレームの加重エネルギを示すデータを含む、請求項１３又は１４に記載の非一時的コンピュータ可読媒体。
各ストリームは、ビットを割り当てられ、より高いランクのストリームは、より低いランクのストリームと等しい又はそれより高いビットを受信する、請求項１３～１５のいずれかに記載の非一時的コンピュータ可読媒体。
オーディオストリームの前記メタデータは、シーンの中の空間位置を示すデータを更に含む、請求項１３～１６のいずれかに記載の非一時的コンピュータ可読媒体。