JP2022527111A - スケーラブル音声シーンメディアサーバ - Google Patents

スケーラブル音声シーンメディアサーバ Download PDF

Info

Publication number
JP2022527111A
JP2022527111A JP2021558842A JP2021558842A JP2022527111A JP 2022527111 A JP2022527111 A JP 2022527111A JP 2021558842 A JP2021558842 A JP 2021558842A JP 2021558842 A JP2021558842 A JP 2021558842A JP 2022527111 A JP2022527111 A JP 2022527111A
Authority
JP
Japan
Prior art keywords
audio
stream
audio streams
streams
audio stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021558842A
Other languages
English (en)
Inventor
エヌ. ディキンズ,グレン
ドゥオン,フオン
エッカート,マイケル
ジョンストン,クレイグ
ホルムバーグ,ポール
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2022527111A publication Critical patent/JP2022527111A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1881Arrangements for providing special services to substations for broadcast or conference, e.g. multicast with schedule organisation, e.g. priority, sequence management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • H04M3/569Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants using the instant speaker's algorithm
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Telephonic Communication Services (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Acoustics & Sound (AREA)

Abstract

通信システムであって、複数のオーディオストリームを対応する複数のクライアント装置から受信するよう構成されるメディアサーバを含み、前記メディアサーバは回路を含み、前記回路は、所定のメトリックに基づき前記複数のオーディオストリームをランク付けし、前記複数のオーディオストリームの第1部分を第1セットにグループ化し、前記複数のオーディオストリームの前記第1部分は、N個の最高ランクのオーディオストリームであり、前記複数のオーディオストリームの第2部分を第2セットにグループ化し、前記複数のオーディオストリームの前記第2部分は、M個の最低ランクのオーディオストリームであり、前記第1セットのそれぞれのオーディオストリームを受信装置へ転送し、前記第2セットのそれぞれのオーディオストリームを破棄し、N及びMは独立した整数である、よう構成される。

Description

[関連出願]
本願は、米国仮特許出願番号第62/991,645号、2020年3月19日出願、米国仮特許出願番号第62/840,857号、2019年4月30日出願、欧州特許出願番号第19186491.7号、2019年7月16日出願、及び国際出願番号PCT/CN2019/081317号、2019年4月3日出願の利益を主張する国際出願番号PCT/CN2020/076047号、2020年2月20日出願、の優先権の利益を主張する。これらの全体は参照によりここに全部が組み込まれる。
[技術分野]
本願は、概して、マルチパーティ通信に関する。より詳細には、本願は、スケーラブル音声シーンメディアサーバ、及び特にオーディオ及びビデオ通信の方法に関する。
ビデオ及びオーディオ遠隔会議システムは、複数のパーティが会議を行うために遠隔で相互作用することを可能にし得る。通常、音声会議の中のオーディオのためのコンテンツメディアサーバの既存の設計は、2つの形式のうちの一方である何らかの方針又は方針の組合せを使用する。
ある形式では、全部の入来するオーディオストリームを、会議で該オーディオストリームを聴いている全ての参加者へ転送することにより、サーバは、全部の処理負荷を回避し、クライアントにレンダリングに関するより多くの柔軟性を与えることができる。しかしながら、このアプローチは、ダウンストリーム帯域幅をスケーリング及び管理しない。
別の形式では、入来するストリームを、各エンドポイントにより受信されるような特定のミキシング又は空間オーディオシーンにミキシングし、ミックス(mix)だけを送信することにより、サーバは、会議の中のクライアントの数に関係なく、最小化され、固定ダウンストリーム帯域幅を有することができる。しかしながら、このアプローチは、サーバにおいて、膨大な数の処理及びオーディオ復号、ミキシング、及び再符号化を必要とする。これは、コスト及び追加処理遅延を生じる。そのようなシステムが種々の処理及びミキシング動作を削減し及びしようとする場合でも、これは大きな負荷を残す。一端ミキシングされると、クライアントが、知覚されるオーディオシーンを、サーバにより提供されたものと違うものへと有意に変更する(例えば、ヘッドトラッキングを実施する)機会は制限される。
システムは、少数の話者のみがアクティブである状況のための転送の使用と、多数の話者がアクティブであるミキシングの使用と、の間で交互に生じる前の2つの形式の何らかの組合せを含んでよい。しかしながら、そのようなシステムは、効率、拡張性、又は帯域幅管理において十分な向上を提供できないというような欠点を有し得る。
従って、サーバ上でのオーディオの高価なミキシングを必要とすることなく、クライアントへ送信されるピーク及び平均データビットレートを管理するシステム及び方法が必要である。更に、サーバにおいて生じるミキシング又はカリングと関係なく、各ストリームの空間位置を個々にレンダリングして、妥当な知覚的に連続したシーンにする能力を有するシステム及び方法が必要である。
本開示の種々の態様は、音声通信を含むスケーラブルなマルチパーティ通信のための回路、システム、及び方法に関する。
本開示の例示的な態様では、通信システムであって、複数のオーディオストリームを対応する複数のクライアント装置から受信するよう構成されるメディアサーバを含み、前記メディアサーバは回路を含み、前記回路は、所定のメトリックに基づき前記複数のオーディオストリームをランク付けし、前記複数のオーディオストリームの第1部分を第1セットにグループ化し、前記複数のオーディオストリームの前記第1部分は、N個の最高ランクのオーディオストリームであり、前記複数のオーディオストリームの第2部分を第2セットにグループ化し、前記複数のオーディオストリームの前記第2部分は、M個の最低ランクのオーディオストリームであり、前記第1セットのそれぞれのオーディオストリームを受信装置へ転送し、前記第2セットのそれぞれのオーディオストリームを破棄し、N及びMは独立した整数である、よう構成される、通信システムが提供される。
本開示の別の例示的な態様では、通信方法であって、
複数のオーディオストリームを対応する複数のクライアント装置から受信するステップと、
所定のメトリックに基づき前記複数のオーディオストリームをランク付けするステップと、
前記複数のオーディオストリームの第1部分を第1セットにグループ化するステップであって、前記複数のオーディオストリームの前記第1部分は、N個の最高ランクのオーディオストリームである、ステップと、
前記複数のオーディオストリームの第2部分を第2セットにグループ化するステップであって、前記複数のオーディオストリームの前記第2部分は、M個の最低ランクのオーディオストリームである、ステップと、
前記第1セットのそれぞれのオーディオストリームを受信装置へ転送するステップと、
前記第2セットのそれぞれのオーディオストリームを破棄するステップと、
を含み、N及びMは独立した整数である、通信方法が提供される。
本開示の別の例示的な態様では、命令を格納する非一時的コンピュータ可読であって、前記命令はメディアサーバのプロセッサにより実行されると、前記メディアサーバに動作を実行させ、前記動作は、
複数のオーディオストリームを対応する複数のクライアント装置から受信するステップと、
所定のメトリックに基づき前記複数のオーディオストリームをランク付けするステップと、
前記複数のオーディオストリームの第1部分を第1セットにグループ化するステップであって、前記複数のオーディオストリームの前記第1部分は、N個の最高ランクのオーディオストリームである、ステップと、
前記複数のオーディオストリームの第2部分を第2セットにグループ化するステップであって、前記複数のオーディオストリームの前記第2部分は、M個の最低ランクのオーディオストリームである、ステップと、
前記第1セットのそれぞれのオーディオストリームを受信装置へ転送するステップと、
前記第2セットのそれぞれのオーディオストリームを破棄するステップと、
を含み、N及びMは独立した整数である、非一時的コンピュータ可読媒体が提供される。
このように、本開示の種々の態様は、少なくとも電子通信の技術分野における改良を提供する。
本開示は、種々の形式で具現化でき、コンピュータにより実施される方法により制御されるハードウェア又は回路、コンピュータプログラムプロダクト、コンピュータシステム及びネットワーク、ユーザインタフェース、及びアプリケーションプログラミングインタフェース、並びに、ハードウェアにより実施される方法、信号処理回路、メモリアレイ、特定用途向け集積回路、フィールドプログラマブルゲートアレイ、等を含む。以上の概要は、単に本開示の種々の態様の全体的思想を与えることを意図し、本開示の範囲をいかようにも制限しない。
種々の実施形態のこれらの及び他のより詳細な及び特定の特徴は、以下の説明において更に完全に開示され、添付の図面を参照する。
本開示の種々の態様による例示的な通信システムを示す。 本開示の種々の態様による例示的な通信システムを示す。 本開示の種々の態様による例示的な通信システムを示す。 本開示の種々の態様による例示的な会話アクティビティデータのグラフを示す。 本開示の種々の態様による例示的な重み付け関数を示す。 本開示の種々の態様による例示的な重み付け関数を示す。 本開示の種々の態様による例示的な重み付け関数を示す。 本開示の種々の態様による別の例示的な通信システムを示す。 本開示の種々の態様による例示的な通信方法の処理フローを示す。 本開示の種々の態様による別の例示的な通信方法の処理フローを示す。 本開示の種々の態様による別の例示的な通信方法の処理フローを示す。 本開示の種々の態様による別の例示的な通信方法の処理フローを示す。
以下の説明では、本開示の1つ以上の態様の理解を提供するために、回路構成、タイミング、動作、等のような多数の詳細事項が説明される。これらの特定の詳細事項は単なる例であり、本願の範囲を限定することを意図しないことが当業者に直ちに理解されるだろう。
更に、本開示は主に、種々の回路が音声通信において使用される例に焦点を当てるが、これは実装の単なる一例であることが理解されるだろう。更に、開示のシステム及び方法は、種々の音源及び宛先、例えばグローバル通信、モノのインターネット、仮想及び拡張現実システム、代替及び複合現実システム、より広範なコラボレーション、コミュニティの成長とサポート、等のために広くオーディオ接続を生成する必要のある、任意の装置の中で使用できることが理解されるだろう。更に、開示のシステム及び方法は、オーディオのみのアプリケーションにも、他の感覚モダリティと結合されたオーディオとしても適用可能である。
<概要>
本開示の種々の態様は、高品質な、幾つかの場合には、多数の同時話者を有するシーンの見分けが付かない印象を生成することが可能であると同時に、任意の時点で実際のオーディオストリームのサブセットのみを送信する、システムを提供する。従って、本開示の種々の態様は、人間の聴覚における神経学的、神経生理学的、及び知覚的要因の側面を利用して、包括的なデータ送信又はミキシングを伴わずに、完全な複雑な音声シーンの錯覚を生成する。
人間は、可能な場合には、時間及び周波数に渡るオーディオのコンポーネントを、知覚オブジェクトのより小さなセットにグループ化する傾向がある。つまり、人間は、ストリームの観点で聴覚シーンを知覚的に分析する傾向があり、空間、スペクトル、時間的振る舞い、テクスチャ、ピッチ、ピッチの動き、等における類似性が、オブジェクトを一緒に融合させる。更に、人間は、刺激に存在しない場合でも、聴覚ストリームの要素に渡り連続性を感知することができる。
音の復元は、連続性の錯覚の要因であり、それが高レベルの脳の機能及び聴覚シーンの完全な知覚にどのようにリンクするかである。例えば、リスナが単一のスピーカを聴いていて、音節が隠されるか又はオーディオから削除され適切にマスクされるとき、リスナは、削除が行われている音を知覚するだろう。意味のある言語では、知覚される音は、文にとって最も意味のある音になる。「マスクされる」は、ここでは、オーディオコンテンツの省略を表すのではなく、別の音又は雑音により特定の音をカバーすることを表す。この方法では、人間の脳は、音の不在(無音)を、意味のあるオーディオ信号の不在(内容が無いが、雑音がギャップを満たしている)とは異なる方法で取り扱う。マスクされるとき、失われる情報のコンテキストは、プライミング(priming)及び聴覚イベントに至るまでの(幾つかの場合には、イベントの前の数時間の)情報、並びにイベントに続くオーディオにより提供され得る。現象は、文の中の失われた音が存在したポイントで失われた音をリスナが聞いた(又は聞いたことを覚えている)と、彼又は彼女に思わせるほど強力であってよい。例えば、オーディオストリーム「the **eel was on the cart”及び“the **eal was on the table」(ここで、**は、ストリームから削除されマスクされた音節を示す)に晒されたリスナは、それぞれ、「wheel」及び「meal」を聞いたと報告するが、オーディオはストリームの最終的な言葉までは同一であった。
従って、会話から適切にマスクされ又は満たされる、失われた内容がある場合に、リスナは、ロバストであり、損失をカバーするのに適切な音を考え出すよう働くこともできる。上述の説明は、単一の話者を参照して提供されたが、概念は、会話に会話が重なって損失又は衝突が生じ、失われたコンポーネントが他の会話の存在によりマスクされる状況にも拡張できる。
Change blindnessは、連続性の錯覚の別の要因である。Change blindnessは、聴覚シーンで生じる膨大なアクティビティ又は変化が存在する場合、リスナが、歪み、変化、失われたセグメント、及び時間、周波数、又は空間における音の全体的操作を聞く可能性が低いという概念である。これは、視覚的情報に関連する傾向を研究する汎用的な知覚科学の一部分であるが、注意に基づく及びそれから生じる知覚的エラーは多くのシーンにおいて類似している。
Change blindnessは、不注意に基づく概念と類似し、それに関連する。2つの概念は、inattention blindnessが、変化している又は誤っている可能性のあるものから離れた積極的な選択的な注意に由来するのに対し、change blindnessは、多くのイベント又は膨大な量のアクティビティが生じる状況に由来し、従って変化を隠すことが容易である点が僅かに異なる。
以上は、オブジェクト(ストリーミング)及びアクティビティ(変化)を追跡する機能に傾向があるために、利用可能な有限の知覚能力又は努力の効果として要約できる。実際に、人間が聞こえると考えるものの多くは、実際にはリスナの現在の状況及び聴覚入力にもっともらしい方法で一致する、記憶からの音の幻覚または構成の形式である。音ごとに階層化されたコンテンツを処理するとき、これらの知覚的観察は、通信システムにおいて個々のリスナへ送信される必要のある情報の量を最小化するために利用でき、それにより複数の声から成る空間的シーンを再生成する。
通信システム
図1A~1Cは、本開示の種々の態様による通信システム100a、100b、又は100cの種々の例を示す。特定の種類の間で区別することに関連しない場合、システムは、集合的に通信システム100と呼ばれてよい。
図1Aは、中央メディアサーバ101が複数のクライアント装置102(図示の明確化のために、それらのうちの1つのみがラベル付けされる)からオーディオストリームを受信する、集中型通信システム100aを示す。メディアサーバ101は、クライアント装置102の少なくとも一部のために、出力ストリームのセットを更に生成する。十分に大きな規模のシステムでは、単一のメディアサーバ101は、入来するオーディオストリームの全部を管理する能力がないことがある。
図1Bは、中央メディアサーバ101が複数の中間サーバ103を介して複数のクライアント装置102からオーディオストリームを受信する、ネスト型通信システム100bを示す。中間サーバ103は、複数のクライアント装置102の種々のサブセットから/へ、処理を伴い又は伴わずに、オーディオストリーム及び/又は出力ストリームを転送してよい。
図1Cは、複数のメディアサーバ101が複数のクライアント装置102からオーディオストリームを受信し、及び複数のメディアサーバ101のうちのそれぞれが互いに通信する、共有通信システム100cを示す。図1Cに特に図示しないが、共有通信システム100cは、共有通信システム100cの規模に依存して、中間サーバを更に含んでよい。
通信システム100では、特定のクライアント装置102がオーディオストリームを提供するが、出力ストリームを受信せず、通信リンクは、片側矢印により示され、単信通信と呼ばれてよい。特定のクライアント102がオーディオストリームを提供し、出力ストリームも受信する場合、通信リンクは、両側矢印により示され、双方向通信と呼ばれてよい。明示的に示さないが、本開示は、特定のクライアント装置102が出力ストリームを受信するが、オーディオストリームを提供しない構成にも適用可能である。
更に、通信システム100では、種々の通信リンクは有線(例えば、導電線及び/又は光ファイバを介する)、無線(例えば、Wi-Fi、Bluetooth、Near-Field Communication (NFC)、等を介する)、又は有線及び無線の組合せ(例えば、クライアント装置102のマイクとプロセッサとの間の有線、及びクライアント装置102とメディアサーバ101との間の無線)であってよい。図1A~1Cは特定の数のクライアント装置102を示すが(全体的に、及びメディアサーバ1010及び/又は中間サーバ103の各々についての両方)、本開示は、そのように限定されず、任意の構成の任意の数のクライアント装置102に適用可能であってよい。
通信システム100では、音声を表すオーディオデータは、音声フレームのシリーズを含んでよい。説明の目的で、ここでは、音声フレームが低ノイズを有する又は適切に処理されてノイズを除去されている例が説明される。次に、各フレームの2つの特徴を考慮することが可能である。つまり、フレームの2乗平均(root mean square (RMS))エネルギ、及びフレームのスペクトルピーク又は最大値である。この場合、帯域幅の周波数に対する一定の比を有する帯域のセットの中のエネルギを考慮することは、対数的に間隔の開けられた周波数帯域をもたらす。スペクトルの大部分に渡り、これは、等価直線帯域幅(equivalent rectilinear bandwidth (ERB))、Bark Scale、又はメル間隔(mel spacing)のような知覚バンディング(perceptual banding)の特性を反映する。帯域幅は周波数とともに線形に増大するので、単位周波数あたりの一定エネルギ、又はホワイトノイズは、そのようなスケールで単調増加するパワースペクトルを有する。
図2は、本開示の種々の態様による例示的な会話アクティビティデータの散布図201及び棒グラフ202を示す。具体的に、図2は、標準的な会話アクティビティを提示するために、サンプルフレーズのセットについて、会話アクティビティデータを示す(Harvard文(sentences))。散布図201は、フレームのRMSレベル(デシベル(dB))を周波数(ヘルツ(Hz))の関数として示す。より具体的には、散布図201は、1/3オクターブブレンディングを有するHarvard文の20個のミリ秒(ms)フレームを示す。棒グラフ202は、散布図201からのデータを、周波数帯域のカウントとして示し、ノイズフロア(約-60dB)より上のエネルギを有するフレームのみを考慮している。図2に示すように、水平軸は対数尺度であり、垂直軸は線形尺度である(しかし、dB自体は対数値を表す)。
図2から分かるように、低周波数(<500Hz)において高エネルギフレームが大きく集中している。より高い周波数(>2kHz)のコンテンツフレームは、数がより少ないが、明瞭さ及び音源定位のために重要である。結果として、ミキシング又はカリングメカニズムがこの周波数の不均衡を考慮しない場合、空間的提示、明瞭さ、及び全体のスペクトルを管理する重要なフレームは、失われることがある。これは、音声は音素の進行であり、より高い周波数でピークを有する音素は本質的に非音声及び/又は摩擦音である、という考えと一致する。
2つ以上の会話フレームが重なり合う場合、任意の瞬間に高エネルギフレームが存在する可能性が増大する。上述のメディアサーバ100のようなサーバが任意の瞬間に出力のためにアクティブ音声フレームのサブセットのみを選択する場合、出力ミックスは低周波数フレームが支配的である可能性がある。選択されるサブセットに依存して、種々の状況が生じ得る。例えば、ミックスの全体スペクトルが、低周波数エネルギにより支配されてよく、従って、知覚的に鈍い又は鮮明さの少ない音になる。幾つかの場合には、これは、リスナにとって、システムが帯域幅を失っているかのような音になり得る。更に、(例えば、摩擦音又は非音声音において)明瞭さのために重要である高周波数コンポーネントは、ミックスから失われ削減され得る。更に、失われた過渡的又は広帯域コンテンツは、ストリームの削減されたセットがクライアントにおいて空間的にレンダリングされる場合、空間的提示及び豊かな没入型オーディオの観点で劣化をもたらし得る。
知覚的顕著性(Perceptual Salience)
上述の状況を回避するために、重み付け又は他の優先順位付け方式が導入され、会話フレームに適用される。優先順位付け方式は、加重エネルギ、構造特徴、又はそれらの組合せを含む冗長性、のうちの1つ以上に基づいてよく、それにより、所与のフレームの知覚的顕著性を決定するための基礎を提供してよい。加重エネルギは、より高い周波数を強調するためにフレームのエネルギの計算に導入されるスペクトル傾斜(spectral tilt)又は重み付け関数を表す。構造特徴は、フレームの構造的及び/又は意味論的関連性の考慮を表し、開始(onset)フレームがより高い優先度が与えられるタイミング、及び/又はより高いスペクトル周波数コンテンツ及びより低いエネルギを有するフレームを強調するために優先度がスキューされる音声ラベリング、の考慮を含む。冗長性(Verbosity)は、重み付けがシフトされ、バイアスされ、又は所与のストリームの最近のアクティビティの量又は冗長性から直接引き出される場合を表す。ここで、より最近のアクティビティを含むストリームは、高い意味論的重要性を有し、従って知覚的注意の焦点になる可能性が高いことに留意する。
重み付けの基礎として、図2に示した散布図201を考慮する。この形式の標準的なRMS計算は、ブロックドメイン変換から時間サンプル又は周波数ビンサンプルのいずれかにおけるパワーの和を用いて実行され得る。システムが周波数ドメイン変換を使用する場合、変換の周波数ビンが使用されてよい。ここで、RMSと全体的パワー計算との間の差は、ブロックサイズ及び平方根演算による正規化に対応する。値がdBで表される場合、説明の観点から、一般性を失うことなく、平方根演算の代わりに、オーディオの平均(サンプルあたり)又は全体(フレームあたり)のエネルギのいずれかを参照sルウことが最も簡単である。更に、一般性を失うことなく、重み付けは、単一のチャネルのみを参照して説明され得る。n個のサンプルフレームについて、フレームパワーPは、次式(1)に従い表現され得る:
Figure 2022527111000002
式(1)では、x(t)(t=0,…,n-1)はオーディオであり、wtは窓関数、例えばsin(π(t+.5)/n)であり、X(k)は次式(2)に従い表されてよい:
Figure 2022527111000003
パワーPは、フレーム内の復号オーディオサンプルから計算されてよく、又は符号化オーディオストリーム内に直接存在してよい。更に、パワーPは、周波数ドメイン変換の指数のようなオーディオコーディングフレームの側面から、又は自動回帰モードに基づくコーデックにおける線スペクトルペア若しくは周波数エンベロープから、抽出できる。幾つかの場合には、フレームについて計算されたエネルギは、ノイズが支配的であることの多い非常に低い(例えば、<100Hz)周波数の除去のような何らかの処理を含んでよい。
散布図201は、2クラスタの特徴を有する。より強調される右側の点クラスタを提供するために、周波数ドメイン重み付け関数H(k)が導入される。重み付け関数H(k)により、上述の式(1)は、以下の式(3)になる:
Figure 2022527111000004
式(3)で、重み付け関数H(k)は、次式(4)により表される:
Figure 2022527111000005
以上で、h(t)は時間ドメインインパルス応答である。周波数重み付け係数をHkとして表すと、パワーPは、次式(5)になる:
Figure 2022527111000006
図3A~3Cは、例示的な重み付け関数301a、301b、及び301cを示し、参考のために散布図201を再掲する。特定の関数の間で区別することに関連しない場合、関数は、集合的に重み付け関数301と呼ばれてよい。便宜上、重み付け関数301は、周波数重み付け係数により、Hzで記述される。kとfとの間の関係は、ブロックサイズ及びサンプリング周波数により決定される(例えば、k=(n×f)/(Fs×n))。図3Aは、特定の形式H(f)=((2000+f)/6000)を有するパワー重み付け関数301aを示す。この関数は、1000Hzより下のコンテンツを抑制し、4000Hz以上のエネルギを有するコンテンツを強調する。このアプローチは、高い情報コンテンツのより低いエネルギの会話フレームがRMS計算により失われないことを保証する。
重み付け関数H(k)は、パワー関数に限定されない。例えば、図3B及び3Cは、それぞれ、段階的線形重み付け関数301b及び301cを示す。図3Bの段階的線形重み付け関数301bは、-30dBの重みを1000Hzより下のコンテンツに適用し、20dBの重みを5000Hzより上野コンテンツに適用し、その間は直線的に増加する重みである。図3Bの段階的線形重み付け関数301bは、-30dBの重みを1000Hzより下のコンテンツに適用し、10dBの重みを2500Hzより上野コンテンツに適用し、その間は直線的に増加する重みである。実施されると、段階的線形重み付け関数301bは、会話中の歯擦音に重点を置く。段階的線形重み付け関数301cは摩擦音及び主要な遷移に重点を置く。段階的線形重み付け関数301b及び段階的線形重み付け関数301cの両者は、有声音及び破裂音を強調しない。
任意のイベントで、重み付け関数301は、散布図201の右側にあるクラスタは、より高いスコアが付けられ、散布図201の左側にあるより頻度の高い且つより高い広帯域エネルギフレームよりも優先されることを保証するという影響を有する。従って、重み付け関数301に基づく優先順位付け方式は、これらの摩擦音及び遷移に関連付けられた高周波数コンテンツ及び音声の印象、明瞭さ、及び空間的手がかりを残すことに最も関連するフレームを保存する。従って、重み付け関数301は、1000Hzより下の周波数を有するコンテンツを強調せず、4000Hzより上の周波数を有するコンテンツを強調することにより、知覚的顕著性とは別に、フレームのバイアスを修正する。この方法では、重み付け関数301は、図3A~3Cに示された正確な形式に限定されない。
知覚的顕著性の計算(つまり、オーディオデータへの重み付け関数301の適用)は、望ましくは、上述の複数のクライアント装置102のようなクライアント装置により実行される。従って、対応する複数のクライアント装置によりアップロードされた複数のオーディオストリームは、オーディオストリームのコンテンツを示すオーディオデータと、オーディオストリームのコンテンツの重み付け及び/又は知覚的顕著性を示すメタデータと、の両方を含んでよい。
上述の重み付け関数に加えて、知覚的顕著性の計算は、瞬時帯域信号対雑音比(signal-to-noise ratio (SNR))、開始(onset)検出、他のイベント検出、音素重み付け、冗長性、又はそれらの組合せを含んでよい。
瞬時帯域SNRは、フレーム毎の知覚的に間隔の開いた(例えば、対数的に間隔の開いた)周波数帯域のセットに対するノイズ推定及びパワー推定の考えに基づく。原則では、フレーム内のエネルギは、n個の変換周波数ビンのセットから、重み付け行列Wb,kにより、B個の知覚帯域のセットに分割される。これは、次式(6)に従い表すことができる:
Figure 2022527111000007
信号内の最近の定常ノイズの最小の又は何らかの形式の推定を追跡することにより、存在する信号のバックグランドに対する比を推定することが可能である。これは、帯域内の絶対パワー又は該帯域内の背景ノイズのレベルに拘わらず、各知覚帯域b内のアクティビティが等しい重要性を有する指標を提供する。これは、次式(7)及び(8)に従い表すことができる:
Figure 2022527111000008
以上で、Sは、知覚帯域に基づく信号アクティビティの値を表し、Nbは、信号内の最近の定常ノイズを表す。
定常ノイズにより調整された、現在フレーム内のエネルギが、前のフレームより有意に高いとき、正の差にスコアを付けるという観点で、アクティビティを表現するために、開始検出は、前のフレームの分析に基づく。これは、上述の式(8)のNbの特性に含まれてよく、式(8)をPbの数個の最近のフレームの平均により置き換えることを含む。この方法では、信号アクティビティSは、最近のエネルギの開始又は増大を有する帯域のみをカウントするようにバイアスされ得る。
他の形式のイベント検出は、会話アクティビティの分類に基づいてよい。そのような分類では、スペクトル形状及び/又は統計的パラメータ平均及び偏差に関する追加の特徴は、基本特徴から抽出されてよい。一例では、分類は、決定境界を生成するために、特徴のブーストに基づいてよい。分類器は、追加又は代替として、フレームが時間の経過と共に低周波数と高周波数スペクトルピークの間で交互に変化する程度の指標であるスペクトルフラックスに基づいてよい。この方法では、スペクトルフラックスは、リスナが別のエネルギ測定により失われていることに気付く傾向のあるフレームに重点を置く。
追加又は代替として、上述のクライアント装置102のようなクライアント装置は、入力においてどの音素が存在するかの瞬間推定を提供し得る瞬間推定を提供し得る会話分析を実行する能力を提供されてよい。1つのそのような例では、クライアント装置は、それらのエントロピーに基づき音素を重み付けしてよく、あまり頻繁に生じない音素ほど又は短い期間の音素ほど高いスコアを与える。これは、高周波数コンテンツ及び空間形成を保存するために、より顕著なフレームへ向けて、会話の選択にシフトを提供し得る。
ストリームの選択は、最近にアクティブである(又は冗長な)ストリームを保存することへ向けてバイアスされてもよい。冗長性バイアスは、他のストリームがアクティブではない間、アクティブである期間の所与のストリームの冗長性の増大に基づき測定されてよい。冗長性Vを決定するアルゴリズムの1つの非限定的な例は、正規化の目的でいずれかの極値で飽和する、0と1の間の値を出力する。高い値ほど、エンドポイントがアクティブであることを示し、従って、出力ミックスで最近アクティブである音場として維持される可能性が高く又はそうすることが適切である。冗長性は、パラメータのセットに従い、各フレーム又は時点で変更されてよい。しかしながら、本開示は、パラメータが選択され又は含まれることに特に限定されない。通常、冗長性Vは、エンドポイントがアクティブであるとき増大し、それが所与の時間において唯一のアクティブなエンドポイントである場合には、より迅速に増大してよい。アクティビティがない場合には、冗長性Vのレベルを維持すること、又は減衰を有し、減衰を関連付けられた音場のフェードアウトにリンクすることが可能であってよい。
一例では、高い値の冗長性Vに起因するバイアス又は強調は、上述の式から、6dB大きいパワー又は加重知覚的顕著性(P)と等価である。これは、次式(9)により表すことができる:
Figure 2022527111000009
式(9)では、冗長性Vのスケーリングは例であり、限定ではない。上述のような6のスケーリングの代わりに、スケーリングは、3~10dBのいずれであってよい。
上述の計算の任意の組合せが、クライアント装置で、中間サーバ、又はメディアサーバで実行されてよい。更に、組合せは、装置の組合せを用いて実行されてよい。一例では、冗長性シフトの前の知覚的顕著性の計算は、クライアント装置で実行されてよく、更なるシフトがサーバで実行されてよい。重み付けは、更に、ビットのシリーズ、例えば(000)~(111)の範囲の3ビットバイナリコードxに符号化されてよく、重み付けはP=-35+5xのように符号化されてよい。このような符号化は、以下の詳述するように、メディアサーバがパケットをランク付けするのを容易にする可能性がある。
フレーム全体を分析することなく、フレームRMSのような上述のデータのうちのいずれかを取得することが可能である。例えば、周波数ドメインで、エンベロープのみを用いてフレームRMSを抽出することが可能である。会話型エンコーダでは、励起ベクトル(excitation vector)と線形予測符号化(linear predictive coding (LPC))パラメータから情報を導出することが可能である。
上述の重み付け方式は、主として音声パケットを対象としている。音声に基づく重み付けが必要以上の感度を提供する場合には(例えば、非音声オーディオのノイズの特定の場合)、信号が音声アクティビティを含むことを重み付けを実行する装置が確信している場合にだけ、重み付け方式を適用することが可能である。
ミキシング及びストリーム選択
上述のメディアサーバ101のようなサーバ装置は、対応する複数のクライアント装置によりアップロードされた複数のオーディオストリームを受信し処理する。そのような処理は、サーバ装置において即座に転送及び/又はミキシングするために、オーディオストリームのサブセットの選択を含む。上述の原理に基づき、潜在的にアクティブなストリームのサブセットのみを使用して、説得力がある時には知覚的に区別できないストリームの表現を生成することが可能である。
図4は、そのような処理を実施し得る本開示の種々の態様による別の例示的な通信システム400を示す。通信システム400は、上述の通信システム100と同じ又は同様であってよい。通信システム400は、メディアサーバ101と同じ又は同様であってよいサーバ装置410と、クライアント装置102と同じ又は同様であってよい複数のクライアント装置420と、を含む。
クライアント装置420の各々は、オーディオデータ421とメタデータ422とを含むオーディオストリームをサーバ装置410に提供する。図4はオーディオデータ421とメタデータ422とを異なる矢印を用いて示すが、実際には、オーディオストリームは、単一のデータストリームに符号化されたオーディオデータ421及びメタデータ422を含んでよい。メタデータ422は、重み付け及び/又は知覚的顕著性を示すデータ、シーン内の空間位置を示すデータ、及び/又は他のデータを含んでよい。更に、一部のデータはオーディオデータ421に含まれてよく、他のデータはメタデータ422に含まれる。非限定的な例では、オーディオデータ421は重み付け及び/又は知覚的顕著性を示すデータを含み、メタデータ422は空間位置データを含む。
サーバ装置410は、オーディオストリームサーバ/ルータ430、ミキサ470、及び処理及び/又は多重化ユニット480を含む。空間レンダリングが実行される場合には、サーバ装置410は、空間計算機440、グローバルシーン情報ユニット450、及び制御サーバ460を含んでよい。オーディオストリームサーバ/ルータ430は、オーディオデータ421を複数のクライアント装置420から受信し、データを複数のセット431~433に分類する。分類は、オーディオデータ421に含まれるデータ、メタデータ422、又はその両方に基づいてよい。更に、図4は3個のセット431~433を示すが、本開示はそのように限定されない。本開示の幾つかの態様では、2つのセットのみ(又は4個以上のセット)が提供されてよい。オーディオストリームサーバ/ルータ430は、先ず複数のオーディオストリームを、上述の重み付け又は知覚的顕著性のような所定のメトリックに基づきランク付けし、それらのランクに基づきオーディオストリームをグループ化することにより、分類を実行してよい。
本開示の例示的な態様では、オーディオストリームサーバ/ルータ430は、L個のオーディオストリームをL個のクライアント装置420から受信し、N個の最高ランクのオーディオストリームを第1セット431にグループ化し、M個の最低ランクのオーディオストリームを第3セット433にグループ化し、中間のランクのオーディオストリームを第2セット432にグループ化する。ここで、L、M、及びNは、独立した整数であり、L≧M+Nである。第1セット431のオーディオストリームは、出力ストリーム490として1つ以上の受信装置へ処理及び/又は多重化ユニット480を介して転送されてよい。第3セット433のオーディオストリームは、破棄又は無視されてよい。本開示の幾つかの態様では、第2セット432のオーディオストリームのオーディオコンテンツは、第1セット431のオーディオストリームのうちの1つにミキシングされ、それにより、出力ストリーム490の部分として転送される。第2セット432は、例えば、第1セット431の最低ランクのストリームにミキシングされてよい。各セットの中のストリームの数は特に限定されない。幾つかの場合には、第1セット431は単一のストリームのみを含んでよく、他の場合には、第1セット431は複数のストリームを含んでよい。受信装置は、複数のクライアント装置420及び/又は複数のクライアント装置420と別個の追加装置のうちの任意の1つ以上であってよい。
幾つかの例では、N又はMは0であってよい。つまり、所与の時点で、入力オーディオストリームのいずれも、顕著なコンテンツを含まなくてよい。この場合、第1セット431は空(N=0)であってよい。そのような状況は、例えば、全部のクライアント装置420に対応するオーディオストリームが、出力ストリーム490の部分として転送されるべき関連するオーディオコンテンツ又は音声データを含むとき、生じ得る。更に、所与の時点で、入力オーディオストリームの全部が、顕著なコンテンツを含んでよい。この場合、第3セット433は空(M=0)であってよい。そのような状況は、例えば、全部のクライアント装置420に対応するオーディオストリームが無音である又は非音声データのみを含むとき、生じ得る。
サーバ装置410は、複数のクライアント装置420から全部のオーディオストリームを受信し、各オーディオコーデックフレームの中の受信したストリームの即時チェックを実行してよく、それにより、受信装置に関連するストリームを決定する。セットは、オーディオフレームレートで又はオーディオフレームレートより遅いレートで更新されてよい。更に、複数の受信装置が存在する場合には、サーバ装置410は(例えば、制御サーバ460により)、受信装置毎に独立に、セット431~433を計算してよい。空間計算ユニット430からの情報は、出力ストリーム490に含めるために、処理及び/又は多重化ユニット480に提供されてよい。
受信装置として動作するクライアント装置420のそれぞれは、入来する可能性のあるストリームに適するコーデックの複数のインスタンスを有してよい。この場合、しかしながら、クライアント装置420は、あらゆる可能性のあるソースをカバーするためのコーデックを有する必要はなく、サーバ装置410において送信するためにストリームの瞬間的選択によりストリームが停止され開始される場合/とき、復号オーディオ及び空間レンダリングの相対的連続性を保証するのに十分な数のコーデックを含んでよい。急に停止されるストリームは、フェードアウト又は自然な状態に戻るためにコーデックを通過させるための1~2個のフレームを必要とし得る。
周波数ドメインコーデックの場合には、これは、オーバラップウインドウのフェードアウト部分を有する復号フレームバッファをフラッシングすることに相当する。モデル又は深層ニューラルネットワーク(deep neural network (DNN))に基づくコーデックの場合には、これは、適切なフェードアウトと結合された、現在及び最近のストリームモデルの軌道の短い外挿であってよい。
図5は、図4に示したセット431~433のようなセットを決定する例示的なアルゴリズムを示す。図5は、N個の最も顕著なストリームがクライアント装置へ転送される例示的なアルゴリズムを示す。ステップS510で、図4のサーバ装置410のようなサーバ装置がL個の数のパケットを受信する。ステップS520で、サーバ装置は、選択されたメトリックに従い、受信したパケットをソートする。ステップS520は、先ず、上述の重み付け又は知覚的顕著性のような所定のメトリックに基づき複数のパケットをランク付けし、N個の最も顕著なストリームが第1セットにグループ化されるように、それらのランクに基づきオーディオストリームをグループ化することを含んでよい。ステップS530で、第1セットのパケットは受信装置へ転送され、残りのパケットは破棄又は無視される。
図6Aは、N個の最も顕著なストリームがクライアント装置へ転送され、中程度に顕著なストリームからのオーディオがミックスとして含まれる、例示的なアルゴリズムを示す。ステップS610で、図4のサーバ装置410のようなサーバ装置がL個の数のパケットを受信する。ステップS620で、サーバ装置は、選択されたメトリックに従い、受信したパケットをソートする。ステップS620は、先ず、上述の重み付け又は知覚的顕著性のような所定のメトリックに基づき複数のパケットをランク付けし、N個の最も顕著なストリームが第1セットにグループ化され、中程度に顕著なストリームが第2セットにグループ化され、M個の最も顕著でないストリームが第3セットにグループ化されるように、それらのランクに基づきオーディオストリームをグループ化することを含んでよい。ステップS630で、中程度に顕著なストリーム(つまり、N個の最も顕著なもの又はM個の最も顕著でないもののいずれでもないストリーム)からのオーディオは、第1セットの最も顕著でないパケットにミキシングされる。合計パケット数がLの場合、最も顕著なパケットの数はNであり、最も顕著でないパケットの数はMであり、中程度に顕著なストリームは、セット[N+1,L-M-1]として示され、第1セットの最も顕著でないパケットは、パケットNとして示されてよい。ステップS640で、ミックスとして第2セットからのオーディオを含む、第1セットのパケットは、受信装置へ転送され、残りのM個のパケットは破棄又は無視される。
一方で、上述のように、N及びMは特に限定されず、本開示の幾つかの態様ではNは2又は3に等しくてよい。
サーバから転送されるストリームが最大合計ビットレートの範囲内に適合する必要がある場合がある。これらの場合には、ストリームの間でビットをどのように割り当てるかを決定しなければならない。好適なアプローチは、高い顕著性のストリームほど多くのビットを割り当てることである。図6Bは、合計でN個の転送されるストリームが固定された所定の最大ビットレートに制限されなければならないとき、個々のストリームの間にビットを割り当てる例示的なアルゴリズムを示す。この場合、各ストリームへのビットの割り当ては、顕著性メトリックに従い、例えば加重エネルギに基づき、順序付けられる。その結果、低い顕著性の各ストリームが、高い顕著性のストリームに割り当てられるのと等しい又はそれより少ない数のビットを受け取るようにする。例えば、3個のストリームの制限を有し、合計で48kbpsの「ビットバケット(bit bucket)」を指定する場合、第1ストリームに24kbpsを、第2及び第3ストリームに12kbpsを割り当て得る。この場合、24kbpsは最も高い顕著性を有するストリームに割り当てられ、12kbpsは最も低い顕著性を有するパケットにそれぞれ割り当てられ得る。ステップS650で、図4のサーバ装置410のようなサーバ装置がL個の数のパケットを受信する。ステップS660で、サーバ装置は、選択されたメトリックに従い、受信したパケットをソートする。ステップS660は、先ず、上述の重み付け又は他の知覚的顕著性メトリックのような所定のメトリックに基づき複数のパケットをランク付けし、N個の最も顕著なストリームが第1セットにグループ化され、中程度に顕著なストリームが第2セットにグループ化され、M個の最も顕著でないストリームが第3セットにグループ化されるように、それらのランクに基づきオーディオストリームをグループ化することを含んでよい。ステップS670で、サーバ装置は、顕著性の順序で、N個のストリームの各々にビットを割り当てる。その結果、合計は最大ビットレートを超えない。ステップS680で、ミックスとして第2セットからのオーディオを含む、第1セットのパケットは、受信装置へ転送され、残りのM個のパケットは破棄又は無視される。
一方で、上述のように、N及びMは特に限定されず、本開示の幾つかの態様ではNは2又は3に等しくてよい。
図7は、合計でN個の転送されるストリームが固定された所定の最大ビットレートに制限されなければならないとき、個々のストリームの間にビットを割り当てる別の例示的なアルゴリズムを示す。このアルゴリズムでは、閾値より低いストリームは、最も高い顕著性のパケットにミキシングされる。次に、ビットは、顕著性の順序で各ストリームに割り当てられる。ここで、低い顕著性のストリームは、高い顕著性のストリームと等しい又はそれより少ない数のビットを受け取る。ステップS710で、図4のサーバ装置410のようなサーバ装置がL個の数のパケットを受信する。ステップS720で、サーバ装置は、選択されたメトリックに従い、受信したパケットをソートする。ステップS720は、先ず、上述の重み付け又は知覚的顕著性のような所定のメトリックに基づき複数のパケットをランク付けし、N個の最も顕著なストリームが第1セットにグループ化され、中程度に顕著なストリームが第2セットにグループ化され、M個の最も顕著でないストリームが第3セットにグループ化されるように、それらのランクに基づきオーディオストリームをグループ化することを含んでよい。ステップS730で、中程度に顕著なストリーム(つまり、N個の最も顕著なもの又はM個の最も顕著でないもののいずれでもないストリーム)からのオーディオは、最も顕著なストリームに対応する、パケット1にミキシングされる。ステップS740で、サーバ装置は、顕著性の順序で、N個のストリームの各々にビットを割り当てる。その結果、合計は最大ビットレートを超えない。ステップS750で、ミックスとして第2セットからのオーディオを含む、第1セットのパケットは、受信装置へ転送され、残りのM個のパケットは破棄又は無視される。
一方で、上述のように、N及びMは特に限定されず、本開示の幾つかの態様ではNは2又は3に等しくてよい。
<適用>
処理、システム、方法、ヒューリスティック、等に関して本願明細書に説明されたが、理解されるべきことに、このような処理等のステップは、特定の順序付きシーケンスに従い生じるとして説明されたが、このような処理は、本願明細書に記載された順序と異なる順序で実行される記載されたステップと共に実施され得る。特定のステップは同時に実行され得ること、他のステップが追加され得ること、又は本願明細書に記載された特定のステップが省略され得ることが、更に理解されるべきである。言い換えると、本願明細書における処理の説明は、特定の実施形態を説明する目的で提供され、請求項を限定するものとして考えられるべきではない。
上述の例は、主に音声シーンの管理及びレンダリングに関して説明されたが、本開示は、音声コンテンツにのみ適用可能又は専用であると解釈されるべきではない。本開示に記載された概念は、意味論的及び潜在的に対話型である情報コンテンツを含む、高い過渡的特性の任意の信号に一般的に拡張されてよい。音声及び音声のような音の人間の知覚についての上述の説明は、例として提供され、システム使用の制限ではない。
更に、本開示は、エンドクライアントにおけるオーディオの再結合及びレンダリングの観点で空間情報の側面に一般的に言及したが、本開示は、オーディオストリームのストリーム内の意図された位置に関する明示的情報、識別子、及びクライアント側情報若しくはストリームをレンダリングする場所に関する決定、又はこれらの両方の何らかの組合せ、を有するオーディオストリームが存在する状況に拡張されてよい。情報は、他のオーディオ制御システムからの追加シーン制御情報と更に結合されてよい。この方法では、空間的適用は、モノ(mono)も含む上位集合を表す。ここで、レンダリングを制御することを目的とした方向及び/又は距離情報の大部分は、無視され又は存在しなくてよい。シーンが、ユーザに空間像を生成する空間オーディオ技術を用いてレンダリングされる場合、オーディオは、多くの異なる方法で配信されてよい。例えば、オーディオストリームは、ヘッドフォン(バイノーラル)を介して配信され、音がユーザの近くに現実に存在した場合に生じ得る音響伝搬及び空間音響をシミュレートしてよい。代替として、リスナの周囲の幾つかのスピーカ位置の出力が制御されて、近似又は知覚的に効果的な音場のシーンを生成するようにしてよい。
本開示は、それぞれが他のソースと独立したアクティビティを有し得る特定のソースから生じるオーディオストリームのセットを参照した。しかしながら、これらのオーディオストリームの各々は、1つのオーディオチャネルのみを表す必要はない。オーディオストリーム自体は、既に部分的に符号化された空間オーディオの特性を有してよい。例えば、ストリームは、バイノーラルオーディオ又は何らかの形式のマルチチャネル空間オーディオであってよい。更に、信号精度(例えば、ビットレート)及び空間精度(例えば、レイヤ又はチャネル)の両方の観点で忠実度を表現するために、所与のストリーム内に追加レイヤ及び階層的アプローチが存在してよい。
種々の実装では、本願明細書に開示された技術は、限定ではないが、マルチチャネルオーディオのオーディオ符号化に適用可能である。通信システムが」オーディオコーディングシステムである場合、メディアサーバはオーディオエンコーダであってよく、クライアントはオーディオソースであってよい。
本発明の種々の態様は、以下に列挙する例示的な実施形態(enumerated example embodiment:EEE)から明らかであり得る。
(EEE1)通信システムであって、複数のオーディオストリームを対応する複数のクライアント装置から受信するよう構成されるメディアサーバを含み、前記メディアサーバは回路を含み、前記回路は、所定のメトリックに基づき前記複数のオーディオストリームをランク付けし、前記複数のオーディオストリームの第1部分を第1セットにグループ化し、前記複数のオーディオストリームの前記第1部分は、N個の最高ランクのオーディオストリームであり、前記複数のオーディオストリームの第2部分を第2セットにグループ化し、前記複数のオーディオストリームの前記第2部分は、M個の最低ランクのオーディオストリームであり、前記第1セットのそれぞれのオーディオストリームを受信装置へ転送し、前記第2セットのそれぞれのオーディオストリームを破棄し、N及びMは独立した整数である、よう構成される、通信システム。
(EEE2)前記回路は、
前記複数のオーディオストリームの第3部分を第3セットにグループ化し、前記複数のオーディオストリームの前記第3部分は、前記第1部分と前記第2部分との間にランク付けされたオーディオストリームであり、
前記第3セットのオーディオコンテンツを前記第1セットのオーディオストリームのうちの1つにミキシングする、
よう更に構成される、EEE1に記載の通信システム。
(EEE3)前記複数のオーディオストリームのそれぞれは、オーディオデータ及びメタデータを含み、前記メタデータは、重みを示すデータを含む、EEE1又は2に記載の通信システム。
(EEE4)前記重みは知覚的顕著性に基づく、EEE3に記載の通信システム。
(EEE5)各ストリームは、ビットを割り当てられ、より高い顕著性のストリームは、より低い顕著性のストリームと等しい又はそれより高いビットを受信する、EEE4に記載の通信システム。
(EEE6)前記メタデータは、シーンの中の空間位置を示すデータを更に含む、EEE33~5のいずれか一項に記載の通信システム。
(EEE7)前記重みは、1000Hzより下の周波数を有するコンテンツを抑制し、4000Hzより上の周波数を有するコンテンツを強調するEEE3~6のいずれか一項に記載の通信システム。
(EEE8)前記受信装置は、前記複数のクライアント装置のうちの1つである、EEE1~7のいずれか一項に記載の通信システム。
(EEE9)通信方法であって、
複数のオーディオストリームを対応する複数のクライアント装置から受信するステップと、
所定のメトリックに基づき前記複数のオーディオストリームをランク付けするステップと、
前記複数のオーディオストリームの第1部分を第1セットにグループ化するステップであって、前記複数のオーディオストリームの前記第1部分は、N個の最高ランクのオーディオストリームである、ステップと、
前記複数のオーディオストリームの第2部分を第2セットにグループ化するステップであって、前記複数のオーディオストリームの前記第2部分は、M個の最低ランクのオーディオストリームである、ステップと、
前記第1セットのそれぞれのオーディオストリームを受信装置へ転送するステップと、
前記第2セットのそれぞれのオーディオストリームを破棄するステップと、
を含み、N及びMは独立した整数である、通信方法が提供される。
(EEE10)前記複数のオーディオストリームの第3部分を第3セットにグループ化するステップであって、前記複数のオーディオストリームの前記第3部分は、前記第1部分と前記第2部分との間にランク付けされたオーディオストリームである、ステップと、
前記第3セットのオーディオコンテンツを前記第1セットのオーディオストリームのうちの1つにミキシングするステップと、
を更に含むEEE9に記載の通信方法。
(EEE11)前記複数のオーディオストリームのそれぞれは、オーディオデータ及びメタデータを含み、前記メタデータは、重みを示すデータを含む、EE9又は10に記載の通信方法。
(EEE12)前記重みは知覚的顕著性に基づく、EEE11に記載の通信方法。
(EEE13)各ストリームは、ビットを割り当てられ、より高い顕著性のストリームは、より低い顕著性のストリームと等しい又はそれより高いビットを受信する、EEE12に記載の通信方法。
(EEE14)前記メタデータは、シーンの中の空間位置を示すデータを更に含む、EEE11~13のいずれか一項に記載の通信方法。
(EEE15)前記重みは、1000Hzより下の周波数を有するコンテンツを抑制し、4000Hzより上の周波数を有するコンテンツを強調するEEE11~14のいずれか一項に記載の通信方法。
(EEE16)前記受信装置は、前記複数のクライアント装置のうちの1つである、EEE9~15のいずれか一項に記載の通信方法。
(EEE17)命令を格納する非一時的コンピュータ可読であって、前記命令はメディアサーバのプロセッサにより実行されると、前記メディアサーバに動作を実行させ、前記動作は、
複数のオーディオストリームを対応する複数のクライアント装置から受信するステップと、
所定のメトリックに基づき前記複数のオーディオストリームをランク付けするステップと、
前記複数のオーディオストリームの第1部分を第1セットにグループ化するステップであって、前記複数のオーディオストリームの前記第1部分は、N個の最高ランクのオーディオストリームである、ステップと、
前記複数のオーディオストリームの第2部分を第2セットにグループ化するステップであって、前記複数のオーディオストリームの前記第2部分は、M個の最低ランクのオーディオストリームである、ステップと、
前記第1セットのそれぞれのオーディオストリームを受信装置へ転送するステップと、
前記第2セットのそれぞれのオーディオストリームを破棄するステップと、
を含み、N及びMは独立した整数である、非一時的コンピュータ可読媒体。
(EEE18)前記複数のオーディオストリームの第3部分を第3セットにグループ化するステップであって、前記複数のオーディオストリームの前記第3部分は、前記第1部分と前記第2部分との間にランク付けされたオーディオストリームである、ステップと、
前記第3セットのオーディオコンテンツを前記第1セットのオーディオストリームのうちの1つにミキシングするステップと、
を更に含む、EEE17に記載の非一時的コンピュータ可読媒体。
(EEE19)前記複数のオーディオストリームのそれぞれは、オーディオデータ及びメタデータを含み、前記メタデータは、重みを示すデータを含む、EE17又は18に記載の非一時的コンピュータ可読媒体。
(EEE20)前記重みは知覚的顕著性に基づく、EEE19に記載の非一時的コンピュータ可読媒体。
(EEE21)各ストリームは、ビットを割り当てられ、より高い顕著性のストリームは、より低い顕著性のストリームと等しい又はそれより高いビットを受信する、EEE20のいずれかに記載の非一時的コンピュータ可読媒体。
(EEE22)前記メタデータは、シーンの中の空間位置を示すデータを更に含む、EEE19~21のいずれかに記載の非一時的コンピュータ可読媒体。
(EEE23)前記重みは、1000Hzより下の周波数を有するコンテンツを抑制し、4000Hzより上の周波数を有するコンテンツを強調するEEE119~22のいずれか一項に記載のコンピュータ可読媒体。

Claims (17)

  1. 通信システムであって、
    複数のオーディオストリームを対応する複数のクライアント装置から受信するよう構成されるメディアサーバを含み、前記メディアサーバは回路を含み、前記回路は、
    所定のメトリックに基づき前記複数のオーディオストリームをランク付けし、オーディオストリームの前記メトリックは、前記オーディオストリームのフレームの加重エネルギを含み、前記オーディオストリームのフレームの前記加重エネルギは、1000Hzより下の周波数を有するスペクトル周波数コンテンツを抑制し、4000Hzより上の周波数を有するスペクトル周波数コンテンツを強調する重み付け関数を用いて決定され、
    前記複数のオーディオストリームの第1部分を第1セットにグループ化し、前記複数のオーディオストリームの前記第1部分は、N個の最高ランクのオーディオストリームであり、
    前記複数のオーディオストリームの第2部分を第2セットにグループ化し、前記複数のオーディオストリームの前記第2部分は、M個の最低ランクのオーディオストリームであり、
    前記第1セットのそれぞれのオーディオストリームを受信装置へ転送し、
    前記第2セットのそれぞれのオーディオストリームを破棄し、
    N及びMは独立した整数である、よう構成される、通信システム。
  2. 前記回路は、
    前記複数のオーディオストリームの第3部分を第3セットにグループ化し、前記複数のオーディオストリームの前記第3部分は、前記第1部分と前記第2部分との間にランク付けされたオーディオストリームであり、
    前記第3セットのオーディオコンテンツを前記第1セットのオーディオストリームのうちの1つにミキシングする、
    よう更に構成される、請求項1に記載の通信システム。
  3. 前記複数のオーディオストリームのそれぞれは、オーディオデータ及びメタデータを含み、オーディオストリームの前記メタデータは、前記オーディオストリームのフレームの加重エネルギを示すデータを含む、請求項1又は2に記載の通信システム。
  4. 前記サーバにより転送されるべき各ストリームは、ビットを割り当てられ、より高いランクのストリームは、より低いランクのストリームと等しい又はそれより高いビットを受信する、請求項1~3のいずれかに記載の通信システム。
  5. オーディオストリームの前記メタデータは、シーンの中の空間位置を示すデータを更に含む、請求項3又は4に記載の通信システム。
  6. 前記受信装置は、前記複数のクライアント装置のうちの1つである、請求項1~5のいずれか一項に記載の通信システム。
  7. 通信方法であって、
    複数のオーディオストリームを対応する複数のクライアント装置から受信するステップと、
    所定のメトリックに基づき前記複数のオーディオストリームをランク付けするステップであって、オーディオストリームの前記メトリックは、前記オーディオストリームのフレームの加重エネルギを含み、前記オーディオストリームのフレームの前記加重エネルギは、1000Hzより下の周波数を有するスペクトル周波数コンテンツを抑制し、4000Hzより上の周波数を有するスペクトル周波数コンテンツを強調する重み付け関数を用いて決定される、ステップと、
    前記複数のオーディオストリームの第1部分を第1セットにグループ化するステップであって、前記複数のオーディオストリームの前記第1部分は、N個の最高ランクのオーディオストリームである、ステップと、
    前記複数のオーディオストリームの第2部分を第2セットにグループ化するステップであって、前記複数のオーディオストリームの前記第2部分は、M個の最低ランクのオーディオストリームである、ステップと、
    前記第1セットのそれぞれのオーディオストリームを受信装置へ転送するステップと、
    前記第2セットのそれぞれのオーディオストリームを破棄するステップと、
    を含み、N及びMは独立した整数である、通信方法。
  8. 前記複数のオーディオストリームの第3部分を第3セットにグループ化するステップであって、前記複数のオーディオストリームの前記第3部分は、前記第1部分と前記第2部分との間にランク付けされたオーディオストリームである、ステップと、
    前記第3セットのオーディオコンテンツを前記第1セットのオーディオストリームのうちの1つにミキシングするステップと、
    を更に含む請求項7に記載の通信方法。
  9. 前記複数のオーディオストリームのそれぞれは、オーディオデータ及びメタデータを含み、オーディオストリームの前記メタデータは、前記オーディオストリームのフレームの加重エネルギを示すデータを含む、請求項7又は8に記載の通信方法。
  10. 各ストリームは、ビットを割り当てられ、より高いランクのストリームは、より低いランクのストリームと等しい又はそれより高いビットを受信する、請求項7~9のいずれかに記載の通信方法。
  11. オーディオストリームの前記メタデータは、シーンの中の空間位置を示すデータを更に含む、請求項9又は10に記載の通信方法。
  12. 前記受信装置は、前記複数のクライアント装置のうちの7つである、請求項7~11のいずれか一項に記載の通信方法。
  13. 命令を格納する非一時的コンピュータ可読媒体であって、前記命令は、メディアサーバのプロセッサにより実行されると、前記メディアサーバに動作を実行させ、前記動作は、
    複数のオーディオストリームを対応する複数のクライアント装置から受信するステップと、
    所定のメトリックに基づき前記複数のオーディオストリームをランク付けするステップであって、オーディオストリームの前記メトリックは、前記オーディオストリームのフレームの加重エネルギを含み、前記オーディオストリームのフレームの前記加重エネルギは、1000Hzより下の周波数を有するスペクトル周波数コンテンツを抑制し、4000Hzより上の周波数を有するスペクトル周波数コンテンツを強調する重み付け関数を用いて決定される、ステップと、
    前記複数のオーディオストリームの第1部分を第1セットにグループ化するステップであって、前記複数のオーディオストリームの前記第1部分は、N個の最高ランクのオーディオストリームである、ステップと、
    前記複数のオーディオストリームの第2部分を第2セットにグループ化するステップであって、前記複数のオーディオストリームの前記第2部分は、M個の最低ランクのオーディオストリームである、ステップと、
    前記第1セットのそれぞれのオーディオストリームを受信装置へ転送するステップと、
    前記第2セットのそれぞれのオーディオストリームを破棄するステップと、
    を含み、N及びMは独立した整数である、非一時的コンピュータ可読媒体。
  14. 前記複数のオーディオストリームの第3部分を第3セットにグループ化するステップであって、前記複数のオーディオストリームの前記第3部分は、前記第1部分と前記第2部分との間にランク付けされたオーディオストリームである、ステップと、
    前記第3セットのオーディオコンテンツを前記第1セットのオーディオストリームのうちの1つにミキシングするステップと、
    を更に含む、請求項13に記載の非一時的コンピュータ可読媒体。
  15. 前記複数のオーディオストリームのそれぞれは、オーディオデータ及びメタデータを含み、オーディオストリームの前記メタデータは、前記オーディオストリームのフレームの加重エネルギを示すデータを含む、請求項13又は14に記載の非一時的コンピュータ可読媒体。
  16. 各ストリームは、ビットを割り当てられ、より高いランクのストリームは、より低いランクのストリームと等しい又はそれより高いビットを受信する、請求項13~15のいずれかに記載の非一時的コンピュータ可読媒体。
  17. オーディオストリームの前記メタデータは、シーンの中の空間位置を示すデータを更に含む、請求項13~16のいずれかに記載の非一時的コンピュータ可読媒体。
JP2021558842A 2019-04-03 2020-04-03 スケーラブル音声シーンメディアサーバ Pending JP2022527111A (ja)

Applications Claiming Priority (11)

Application Number Priority Date Filing Date Title
CN2019081317 2019-04-03
CNPCT/CN2019/081317 2019-04-03
US201962840857P 2019-04-30 2019-04-30
US62/840,857 2019-04-30
EP19186491.7 2019-07-16
EP19186491 2019-07-16
CNPCT/CN2020/076047 2020-02-20
CN2020076047 2020-02-20
US202062991645P 2020-03-19 2020-03-19
US62/991,645 2020-03-19
PCT/US2020/026710 WO2020206344A1 (en) 2019-04-03 2020-04-03 Scalable voice scene media server

Publications (1)

Publication Number Publication Date
JP2022527111A true JP2022527111A (ja) 2022-05-30

Family

ID=70417472

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021558842A Pending JP2022527111A (ja) 2019-04-03 2020-04-03 スケーラブル音声シーンメディアサーバ

Country Status (8)

Country Link
US (1) US11803351B2 (ja)
EP (1) EP3949368B1 (ja)
JP (1) JP2022527111A (ja)
KR (1) KR20210145265A (ja)
CN (1) CN113812136A (ja)
BR (1) BR112021019785A2 (ja)
ES (1) ES2967185T3 (ja)
WO (1) WO2020206344A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4111125A1 (en) 2020-02-24 2023-01-04 Zephyros, Inc. Ballistic composition, ballistic assembly, and method therefor

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6230130B1 (en) 1998-05-18 2001-05-08 U.S. Philips Corporation Scalable mixing for speech streaming
US6683858B1 (en) 2000-06-28 2004-01-27 Paltalk Holdings, Inc. Hybrid server architecture for mixing and non-mixing client conferencing
JP4152192B2 (ja) 2001-04-13 2008-09-17 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション オーディオ信号の高品質タイムスケーリング及びピッチスケーリング
JP4486646B2 (ja) 2003-05-28 2010-06-23 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション オーディオ信号の感知音量を計算し調整する方法、装置及びコンピュータプログラム
JP4705094B2 (ja) 2004-04-16 2011-06-22 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション ネットワークにおいてデータ・ユニットをルーティングするデバイスおよび方法
AU2005234518A1 (en) 2004-04-16 2005-10-27 Dolby Laboratories Licensing Corporation Apparatuses and methods for use in creating an audio scene
US7508947B2 (en) 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
CN101300580B (zh) 2005-06-24 2010-09-29 杜比实验室特许公司 沉浸式音频通信
US20070253558A1 (en) 2006-05-01 2007-11-01 Xudong Song Methods and apparatuses for processing audio streams for use with multiple devices
EP1855455B1 (en) 2006-05-11 2011-10-05 Global IP Solutions (GIPS) AB Audio mixing
JP4582238B2 (ja) 2006-08-30 2010-11-17 日本電気株式会社 音声ミキシング方法およびその方法を用いる多地点会議サーバならびにプログラム
US9172796B2 (en) 2007-03-14 2015-10-27 Cisco Technology, Inc. Location based mixer priorities in conferences
CN101641936B (zh) 2007-03-29 2013-06-12 艾利森电话股份有限公司 群组通信***中的媒体流建立
US9602295B1 (en) 2007-11-09 2017-03-21 Avaya Inc. Audio conferencing server for the internet
EP2436176A4 (en) 2009-05-27 2012-11-28 Nokia Corp SPACE AUDIO MIXING ARRANGEMENT
JP5511106B2 (ja) 2009-11-06 2014-06-04 フリースケール セミコンダクター インコーポレイテッド 電話会議システム、方法、およびコンピュータ・プログラム製品
EP2502155A4 (en) * 2010-11-12 2013-12-04 Polycom Inc HIERARCHICAL AUDIO CODING IN A MULTIPOINT ENVIRONMENT
US8984156B2 (en) 2011-07-21 2015-03-17 Salesforce.Com, Inc. Multi-party mesh conferencing with stream processing
WO2013142641A1 (en) 2012-03-23 2013-09-26 Dolby Laboratories Licensing Corporation Placement of sound signals in a 2d or 3d audio conference
EP2829051B1 (en) 2012-03-23 2019-07-17 Dolby Laboratories Licensing Corporation Placement of talkers in 2d or 3d conference scene
WO2013142731A1 (en) 2012-03-23 2013-09-26 Dolby Laboratories Licensing Corporation Schemes for emphasizing talkers in a 2d or 3d conference scene
US9460729B2 (en) 2012-09-21 2016-10-04 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
US9628630B2 (en) 2012-09-27 2017-04-18 Dolby Laboratories Licensing Corporation Method for improving perceptual continuity in a spatial teleconferencing system
ES2728138T3 (es) 2012-12-27 2019-10-22 Bosch Gmbh Robert Disposición de transmisión de audio
US9445053B2 (en) 2013-02-28 2016-09-13 Dolby Laboratories Licensing Corporation Layered mixing for sound field conferencing system
FR3003682A1 (fr) 2013-03-25 2014-09-26 France Telecom Mixage partiel optimise de flux audio codes selon un codage par sous-bandes
FR3008533A1 (fr) * 2013-07-12 2015-01-16 Orange Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
JP6408020B2 (ja) 2014-02-28 2018-10-17 ドルビー ラボラトリーズ ライセンシング コーポレイション 遠隔会議における知覚的に連続的な混合
CN106031141B (zh) 2014-02-28 2017-12-29 杜比实验室特许公司 会议中使用改变视盲的感知连续性
US10237412B2 (en) * 2014-04-18 2019-03-19 Nuance Communications, Inc. System and method for audio conferencing
CN107534825B (zh) * 2015-04-22 2019-12-24 华为技术有限公司 音频信号处理装置和方法
US10509622B2 (en) 2015-10-27 2019-12-17 Super Hi-Fi, Llc Audio content production, audio sequencing, and audio blending system and method
CN108766451B (zh) * 2018-05-31 2020-10-13 腾讯音乐娱乐科技(深圳)有限公司 一种音频文件处理方法、装置和存储介质

Also Published As

Publication number Publication date
US11803351B2 (en) 2023-10-31
EP3949368B1 (en) 2023-11-01
EP3949368A1 (en) 2022-02-09
ES2967185T3 (es) 2024-04-29
BR112021019785A2 (pt) 2021-12-07
US20220197592A1 (en) 2022-06-23
CN113812136A (zh) 2021-12-17
WO2020206344A1 (en) 2020-10-08
KR20210145265A (ko) 2021-12-01

Similar Documents

Publication Publication Date Title
US11115541B2 (en) Post-teleconference playback using non-destructive audio transport
US9495970B2 (en) Audio coding with gain profile extraction and transmission for speech enhancement at the decoder
EP2959669B1 (en) Teleconferencing using steganographically-embedded audio data
TW200947423A (en) Systems, methods, and apparatus for context replacement by audio level
US20220383885A1 (en) Apparatus and method for audio encoding
CN114072874A (zh) 用于编解码音频流中的元数据和用于对音频流编解码的有效比特率分配的方法和***
JP4558734B2 (ja) 信号復号化装置
WO2008138263A1 (fr) Procédé et dispositif de génération de paramètres de bruit de confort
JP2022527111A (ja) スケーラブル音声シーンメディアサーバ
US20230124470A1 (en) Enhancing musical sound during a networked conference
RU2807215C2 (ru) Медиасервер с масштабируемой сценой для голосовых сигналов
CN111951821A (zh) 通话方法和装置
KR20150123092A (ko) 입체 음향을 이용한 다자간 인터랙티브 통화 시스템 및 방법
CN115376527A (zh) 三维音频信号编码方法、装置和编码器
Coleman et al. Perceptual evaluation of blind source separation in object-based audio production
WO2023243375A1 (ja) 情報端末、情報処理方法、プログラム、および情報処理装置
Linder Nilsson Speech Intelligibility in Radio Broadcasts: A Case Study Using Dynamic Range Control and Blind Source Separation
US20230360661A1 (en) Hierarchical spatial resolution codec
EP3762923B1 (en) Audio coding
TW202411984A (zh) 用於具有元資料之參數化經寫碼獨立串流之不連續傳輸的編碼器及編碼方法
KR20240004869A (ko) 3차원 오디오 신호 인코딩 방법 및 장치, 및 인코더
CN115914761A (zh) 多人连麦方法及装置
Nagle et al. On-the-fly auditory masking for scalable VoIP bridges

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230117

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240510