JP2024020307A - 空間的に拡張された音源を再生するための装置および方法、または、空間的に拡張された音源からビットストリームを生成するための装置および方法 - Google Patents

空間的に拡張された音源を再生するための装置および方法、または、空間的に拡張された音源からビットストリームを生成するための装置および方法 Download PDF

Info

Publication number
JP2024020307A
JP2024020307A JP2023189461A JP2023189461A JP2024020307A JP 2024020307 A JP2024020307 A JP 2024020307A JP 2023189461 A JP2023189461 A JP 2023189461A JP 2023189461 A JP2023189461 A JP 2023189461A JP 2024020307 A JP2024020307 A JP 2024020307A
Authority
JP
Japan
Prior art keywords
sound
sound source
spatially extended
information
bitstream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023189461A
Other languages
English (en)
Inventor
ユールゲン ヘレ
Herre Jurgen
エマヌエル ハベツ
habets Emanuel
セバスチャン シュレッヒト
Schlecht Sebastian
アレクサンダー アダミ
adami Alexander
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of JP2024020307A publication Critical patent/JP2024020307A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

【課題】おそらく複雑な幾何学的形状を有する空間的に拡張された音源を符号化または再生する装置、方法及びビットストリームを提供する。【解決手段】空間内に定義された位置およびジオメトリを有する空間的に拡張された音源を再生するための装置は、リスナー位置を受信するためのインターフェース(100)と、空間的に拡張された音源に関連付けられた二次元または三次元のハルの投影面への投影を計算するためのプロジェクタ(120)と、空間的に拡張された音源について少なくとも2つの音源の位置を計算するための音位置計算機(140)と、前記位置で少なくとも2つの音源をレンダリングして、2つ以上の出力信号を有する空間的に拡張された音源の再生を得るためのレンダラ(160)と、を含む。レンダラは、異なる位置に対して空間的に拡張された音源に関連付けられる異なる音信号を使用するように構成される。【選択図】図9

Description

本発明は、オーディオ信号処理に関し、特に、空間的に拡張された音源の符号化または復号化または再生に関する。
いくつかのスピーカまたはヘッドホンに関する音源の再生は、長く研究されてきた。このような設定に関して音源を再生する最も簡単な方法は、それらを点音源、すなわち、非常に(理想的には、無限に)小さい音源としてレンダリングすることである。しかしながら、この理論的概念では、既存の物理的な音源を現実的な方法でモデル化することは困難である。例えば、グランドピアノは、多数の空間的に分散された弦を内部に有する大きな振動木製閉鎖部を有しており、そのため、点音源(特に聴取者(およびマイクロフォン)がグランドピアノに近接している場合)よりも聴覚的にはるかに大きく聞こえる。多くの現実世界の音源は、楽器、機械、オーケストラまたは聖歌隊もしくは周囲音(水滴の音)のようなかなりの大きさ(“空間的な広がり”)を有する。
このような音源の正しい/現実的な再生は、ヘッドホンを使用したバイノーラル再生(すなわち、いわゆる頭部伝達関数HRTFまたはバイノーラル室内インパルス応答BRIRを使用する)であれ、2個のスピーカ(“ステレオ”)から水平面に配置された多くのスピーカ(“サラウンドサウンド”)および聴取者をすべての三次元内に囲む多くのスピーカ(“3Dオーディオ”)に配置された従来のスピーカ設定を使用したものであれ、多くの音の再生方法の目標となっている。
本発明の目的は、おそらく複雑な幾何学的形状を有する空間的に拡張された音源を符号化または再生するための概念を提供することである。
2D音源幅

このセクションは、聴取者の視点、例えば、0度の仰角で特定の方位角の範囲(従来のステレオ/サラウンドサウンドの場合のような)または特定の範囲の方位角および仰角(3Dオーディオまたは仮想現実の場合のように、ユーザの動き、すなわちピッチ/ヨー/ロール軸における頭部の回転が3自由度[“3DoF”]の場合)から見た2D面上の拡張音源をレンダリングすることに関係する方法を説明する。
2つ以上のスピーカの間でパンされる(panned)オーディオオブジェクトの見かけの幅を増加させること(いわゆるファントムイメージまたはファントムソースを生成すること)は、参加チャネル信号の相関を減少させることによって実現することができる(Blauert,(2001),S.241-257)。相関が減少すると、ファントムソースの広がりは、ゼロに近い相関値(かつ、広すぎない開放角度)の場合、スピーカ間の全範囲をカバーするまで増加する。
音源信号(source signal)の非相関のバージョン (decorrelated version) は、適切な非相関フィルタを導き出し、適用することによって得られる。Lauridsen (Lauridsen, 1954) は、信号の2つの非相関のバージョンを得るために、音源信号の時間遅延およびスケーリングされたバージョンをそれ自身に加算/減算することを提案した。より複雑なアプローチは、例えば、Kendall (Kendall, 1995) によって提案された。彼は、乱数列の組み合わせに基づいて、一対の非相関全パスフィルタを反復的に導き出した。Fallerらは、(Baumgarte & Faller, 2003) (Faller & Baumgarte, 2003) において、適切な非相関フィルタ(“ディフューザ”)を提案する。また、Zotterらは、周波数依存位相または振幅差がファントムソースの拡張を実現するために使用される一対のフィルタを導き出した(Zotter & Frank, 2013)。さらに、(Alary, Politis, & Vaelimaeki, 2017) は、(Schlecht, Alary, Vaelimaeki, & Habets, 2018) によってさらに最適化されたベルベットノイズ(velvet noise)に基づく非相関フィルタを提案した。
ファントムソースの対応するチャネル信号の相関を低減することに加えて、オーディオオブジェクトに起因するファントムソースの数を増加させることによって、音源幅(source width)を増加させることもできる。(Pulkki, 1999)では、音源幅は、同じ音源信号を(わずかに)異なる方向にパンすることによって制御される。この方法は、もとは、サウンドシーン内で移動するときに、VBAP-パニング(Pulkki, 1997)音源信号の知覚されたファントムソースの拡散を安定化するために提案された。これは、音源の方向に依存するので、レンダリングされた音源が2つ以上のスピーカによって再生され、知覚される音源幅の望ましくない変化をもたらす可能性があるという利点である。
仮想世界のDirAC (Pulkki, Laitinen, & Erkut, 2009) は、仮想世界において音声合成のための伝統的な指向性オーディオ符号化(DirAC)(Pulkki, 2007) のアプローチの拡張である。空間的範囲をレンダリングするために、音源の指向性サウンドコンポーネントは、音源のオリジナルの方向の周りの特定の範囲内でランダムにパンされ、パン方向は時間および周波数とともに変化する。
同様のアプローチは、(Pihlajamaeki, Santala, & Pulkki, 2014) において追求され、空間的範囲は音源信号の周波数帯域を異なる空間方向にランダムに分散することによって達成される。これは、正確な程度の範囲を制御するのではなく、全ての方向から均等に到来する空間的に分散され、包囲された音を制作することを目的とする方法である。
Verronらは、パンされた相関信号を使用せずに、複数のインコヒーレントなバージョンの音源信号を合成し、聴取者の周りの円上に均一にそれらを分散させ、それらの間を混合することによって、音源の空間的な範囲を実現した。同時にアクティブな音源の数およびゲインは、拡張効果の強度を決定する。この方法は、環境音のためのシンセサイザーへの空間的な拡張として実装された。
3D音源幅

このセクションは、3D空間内、すなわち6自由度(“6DoF”)を有する仮想現実に必要とされるような立体的な方法で、拡張された音源をレンダリングすることに適する方法を説明する。これは、ユーザの動きの6自由度、すなわちピッチ/ヨー/ロール軸での頭部の回転に加えて、3つの並進運動方向x/y/zを意味する。
Potardらは、音源の形状の知覚を研究することによって、音源の1次元パラメータ(すなわち、2つのスピーカ間の幅)としての音源範囲の概念を拡張した(Potard, 2003)。それらは、オリジナルの音源信号に(経時変化する)非相関技術を適用することによって、次いでインコヒーレントな音源を異なる空間位置に配置することによって、および、それらを3次元範囲に与えることによって複数のインコヒーレントな点音源を生成した(Potard & Burnett, 2004)。
MPEG-4 Advanced AudioBIFS (Schmidt & Schroeder, 2004) において、体積のある物体/形状(シャック(shuck)、箱、楕円体および円筒)を、いくつかの均等に分散され、非相関の音源で満たすことで、3次元の音源の広がりを想起させることができる。
アンビソニックスを使用して音源の広がりを増加および制御するために、Schmeleら (Schmele & Sayin, 2018) は、入力信号のアンビソニックスの次数を減少させる混合物を提案しており、これは見かけの音源幅を本質的に増加させ、音源信号の非相関のコピーをリスニング空間の周りに分散させる。
別のアプローチはZotterらによって持ち込まれ、彼らはアンビソニックスのために (Zotter & Frank, 2013) において提案された原理(すなわち、周波数依存位相および大きさの差を導き出すフィルタ対を導出し、ステレオ再生設定において、音源の広がりを実現する)を採用した(Zotter F. , Frank, Kronlachner, & Choi, 2014)。
パンニングベースのアプローチ(例えば、(Pulkki, 1997) (Pulkki, 1999) (Pulkki, 2007) (Pulkki, Laitinen, & Erkut, 2009))に共通する欠点は、リスナー位置に依存することである。スイートスポットから少しでもずれてしまうと、空間イメージは聴取者に最も近いスピーカに崩れてしまう。これは、聴取者が自由に動きまわることを前提とした6自由度(6DoF)を有する仮想現実および拡張現実の状況では、それらの適用を大幅に制限する。さらに、DirACベースのアプローチ(例えば、(Pulkki, 2007) (Pulkki, Laitinen, & Erkut, 2009))において時間-周波数ビンを分布させることは、常にファントムソースの空間的な広がりの適切なレンダリングを保証しない。さらに、典型的には、それは音源信号の特質を著しく低下させる。
音源信号の非相関は、通常、以下の方法の1つによって実現される:i)相補的な大きさを有するフィルタペアを導出するステップ(例えば、(Lauridsen, 1954))、ii)一定の大きさであるが(ランダムに)スクランブルされた位相を有するすべてのフィルタを使用するステップ(例えば、(Kendall, 1995) (Potard & Burnett, 2004))、または、iii)音源信号の時間-周波数ビンを空間的にランダムに分散させるステップ(例えば、(Pihlajamaeki, Santala, & Pulkki, 2014))。
全てのアプローチには、それ自身の意味を持っている:i)に従った音源信号を相補的にフィルタリングすることは、典型的には、非相関信号の変更された知覚される音質につながる。ii)のようなすべてのパスのフィルタリングは音源信号の音質を維持しているが、スクランブルされた位相はオリジナルの位相関係を混乱させ、特に過渡的な信号について、厳しい時間分散およびスミアリングアーティファクトを引き起こす。空間的に分散する時間-周波数ビンは、いくつかの信号に対して有効であることが証明されているだけでなく、信号の知覚される音質を変更する。さらに、それは、高度な信号依存性を有し、瞬間的な信号に対して厳しいアーチファクトを導入することを示した。
Advanced AudioBEFS((Schmidt & Schroeder, 2004) (Potard, 2003) (Potard & Burnett, 2004))で提案されているように、音源信号の複数の非相関のバージョンを有する体積のある形状を追加することは、互いに非相関の出力信号を生成する多数のフィルタが利用可能であることが前提となっている(典型的には、体積のある形状当たり10以上の点音源が使用される)。しかしながら、このようなフィルタを見つけることは、些細なタスクではなく、このようなフィルタがより多く必要とされるほどより難しくなる。さらに、音源信号が完全に非相関ではなく、聴取者がこのような形状の周りを移動する場合、例えば(仮想現実の)シナリオにおいて、聴取者への個々の音源の距離は、音源信号の異なる遅延に対応し、聴取者の耳でのそれらの重ね合わせは、音源信号の不快な非定常的な彩色を潜在的に導入する位置に依存するくし形フィルタリングをもたらす。
(Schmele & Sayin, 2018)において、アンビソニックベースの技術を用いて、アンビソニック順序を低下させることによって音源幅を制御することは、2番目から1番目または0番目の順序への遷移に対してのみ可聴効果を有することを示した。さらに、これらの遷移は、音源の広がりとして知覚されるだけでなく、ファントムソースの動きとしても頻繁に知覚される。音源信号の追加の非相関バージョンは、見かけの音源幅の知覚を安定化するのを助けることができるが、ファントムソースの音質を変更するくし形フィルタ効果も導入する。
本発明の目的は、空間的に拡張された音源を再生する、または空間的に拡張された音源からビットストリームを生成する改善された概念を提供することである。
本発明の目的は、請求項1に記載の空間的に拡張された音源を再生するための装置、請求項27に記載のビットストリームを生成するための装置、請求項35に記載の空間的に拡張された音源を再生するための方法、請求項36に記載のビットストリームを生成するための方法、請求項41に記載のビットストリーム、または請求項47に記載のコンピュータプログラムによって達成される。
本発明は、空間的に拡張された音源の再生を実現することができ、特に、リスナー位置を使用して空間的に拡張された音源に関連付けられた二次元または三次元のハルの投影面への投影を計算することによって可能にすることができるという知見に基づいている。この投影は、空間的に拡張された音源のための少なくとも2つの音源の位置を計算するために使用され、少なくとも2つの音源は前記位置でレンダリングされ、空間的に拡張された音源の再生を得て、ここでレンダリングは2つ以上の出力信号をもたらし、異なる位置に対して異なる音信号(sound signal)を使用するが、異なる音信号はそれと同じ空間的に拡張された音源とのすべてに関連付けられる。
一方では、空間的に拡張された音源と(仮想の)リスナー位置との間の経時変化する相対位置が考慮されるので、高品質の二次元または三次元のオーディオ再生が得られる。他方では、空間的に拡張された音源が知覚された音源の広がりに関するジオメトリと、当該技術における周知のレンダラによって容易に実行できる周囲の点音源のような少なくとも2つの音源の数とによって効率的に表現される。特に、当該技術における簡単なレンダラは常にその位置に存在し、特定の出力フォーマットまたはスピーカ設定ついては特定の位置に音源をレンダリングする。例えば、特定の位置で音位置計算機によって計算された2つの音源は、例えば、振幅パンニングによってこれらの位置にレンダリングされてもよい。
例えば、音の位置が5.1出力フォーマットで左と左サラウンドとの間にあり、他の音源が出力フォーマットの右と右サラウンドとの間にある場合、レンダラによって実行される振幅パンニング方法は、一方の音源についての左と左サラウンドチャネルがかなりよく似た信号になり、対応するもう一方の音源についての右と右サラウンドがかなりよく似た信号になり、ユーザは音位置計算機によって計算された位置から来ている音源を知覚する。しかしながら、4つすべての信号が、最終的には、空間的に拡張された音源に関連付けられ、かつ関連するという事実のために、ユーザは音位置計算機によって計算された位置に関連付けられた2つのファントムソースを単に知覚しないが、聴取者は単一の空間的に拡張された音源を知覚する。
空間におけるジオメトリに定義された位置を有する空間的に拡張された音源を再生するための装置は、インターフェースと、プロジェクタと、音位置計算機と、レンダラとを含む。本発明は、例えば、ピアノ内で発生する強化されたサウンド状況を考慮することを可能にする。ピアノは大型の装置であり、今まで、ピアノの音は、単一の点音源から来るものとしてレンダリングされているかもしれない。しかしながら、これは、ピアノの真の音響特性を十分に表現していない。本発明によれば、空間的に拡張された音源の例としてのピアノは少なくとも2つの音信号によって示され、ここで、1つの音信号はピアノの左側部分に近接して、すなわち、低音弦に近接して配置されたマイクロフォンによって記録することができ、一方、他の音源は、ピアノの右側部分に近接して、すなわち、高音を生成する高音域の弦の近くに配置された異なる第2のマイクロフォンによって記録することができる。当然のことながら、両方のマイクロフォンは、ピアノ内の反射状況や、低音弦が右マイクロフォンよりも左マイクロフォンに近く、逆も同様であるという事実のために互いに異なる音を記録することになる。しかしながら、一方で、両方のマイクロフォンの信号が、最終的にピアノの独特の音を構成するかなりの量の類似の音成分を有することになるだろう。
本発明によれば、ピアノ等の空間的に拡張された音源を表すビットストリームは、空間的に拡張された音源のジオメトリ情報も記録することによって信号を記録することによって生成され、任意的に、異なるマイクロフォンの位置(または、一般的には、2つの異なる音源に関連付けられた2つの異なる位置)に関連する位置情報も記録することによって、または、(ピアノの)音の知覚される幾何学的形状の記述を提供することによって生成される。音源に対してリスナー位置を反映するために、すなわち、聴取者は、仮想現実または拡張現実、もしくは任意の他のサウンドシーン内を“歩き回る”ことができるため、ピアノ等の空間的に拡張された音源に関連付けられたハルの投影は、リスナー位置を使用して計算され、少なくとも2つの音源の位置が投影面を使用して計算され、ここで、特に、好ましい実施形態は投影面の周囲の点における音源の配置に関連する。
例示的なピアノの音を二次元または三次元の状態で実際に表現することが、間接的な計算と間接的なレンダリングとを低減することによって可能になり、例えば、聴取者がピアノ等の音源の左側部分に近い場合には、聴取者が知覚する音は、ユーザがピアノ等の音源の右側部分に近い場合またはピアノ等の音源の後ろにいる場合に発生する音とは異なる。
上記の観点から、本発明の概念は、エンコーダ側において、空間的に拡張された音源を特徴付ける方法を提供し、音再生状況内で真の二次元または三次元の設定のために空間的に拡張された音源を使用することを可能にするという点で独特である。さらに、空間的に拡張された音源の高度に柔軟な記述内のリスナー位置の使用は、リスナー位置を使用して二次元または三次元のハルの投影面への投影を計算することによって、効率的な方法で可能にされる。空間的に拡張された音源のための少なくとも2つの音源の音の位置は投影面を使用して計算され、かつ、少なくとも2つの音源は音位置計算機によって計算された位置でレンダリングされ、ステレオ再生設定または5,7またはそれ以上のチャネル等の2つより多いチャネルを有する再生設定において、ヘッドホンまたは2つ以上のチャネルのマルチチャネル出力信号の2つ以上の出力信号を有する空間的に拡張された音源の再生を得る。
充填された容積のすべての部分に多数の異なる点音源を配置することによって、3Dボリュームに音を充填する従来技術の方法と比較して、投影により、多くの音源をモデル化する必要がなく、ハルの投影、すなわち二次元空間のみを埋めればよいため、採用する点音源の数を大幅に減らすことができる。さらに、-極端な場合には-空間的に拡張された音源の左端にある1つの音源と、空間的に拡張された音源の右端にある1つの音源とを単に存在可能である投影のハル上の音源のみをモデル化することで、必要な点音源の数をさらに減らすことができる。両方の削減ステップは、2つの音響心理学的所見に基づいている。
1.音源の方位角(および仰角)とは対照的に、その距離はあまり確実に知覚することができない。そのため、元の音量を聴取者に対して垂直な平面に投影しても、知覚に大きな変化はない(しかし、レンダリングに必要な点音源の数を減らすことはできる)。
2.点音源として左右に配置された2つの非相関の音は、それらの間の空間を音で知覚的に満たす傾向がある。
さらに、エンコーダ側は、単一の空間的に拡張された音源の特徴付けを可能にするだけでなく、表現として生成されるビットストリームが、好ましくは、それらのジオメトリ情報および位置については、単一の座標系に関連する2つ以上の空間的に拡張された音源についてのすべてのデータを含むことができるという点で柔軟である。デコーダ側では、再生は、単一の空間的に拡張された音源に対して行われるだけでなく、いくつかの空間的に拡張された音源に対して行うことができるが、プロジェクタは、(仮想)リスナー位置を使用して各音源についての投影を計算する。さらに、音位置計算機は、それぞれの空間的に拡張された音源について少なくとも2つの音源の位置を計算し、レンダラは、それぞれの空間的に拡張された音源について計算された全ての音源を、例えば、それぞれの空間的に拡張された音源からの2つ以上の出力信号を、信号ごとまたはチャネルごとに加算し、加算されたチャネルを、バイノーラル再生のために対応するヘッドホンに、またはスピーカ関連の再生設定における対応するスピーカに、もしくは、代替的に、後の使用または送信のために(結合された)2つ以上の出力信号を記憶するストレージに提供することにより、レンダリングすることができる。
生成器側またはエンコーダ側では、空間的に拡張された音源についての圧縮された記述を表すビットストリームを生成するための装置を使用してビットストリームが生成され、ここで、装置は空間的に拡張された音源のための1つ以上の異なる音信号を提供するためのサウンドプロバイダを含み、出力データ形成器は、圧縮されたサウンドシーンを表すビットストリームを生成し、ビットストリームは、好ましくは、ビットレート圧縮エンコーダ、例えばMP3、AAC、USACまたはMPEG-Hエンコーダによって圧縮される等の圧縮方法で、1つ以上の異なる音信号を含む。さらに、出力データ形成器は、異なる音信号が2つ以上である場合に、好ましくは、空間的に拡張された音源のジオメトリに関する情報に関する、対応する音信号の位置を示す、2つ以上の異なる音信号の各音信号についての任意の個々の位置情報をビットストリームに組み込むように構成される。すなわち、最初の信号は、上記の例ではピアノの左側の部分で記録された信号であり、ピアノの右側で記録された信号である。
しかしながら、代替的に、空間的に拡張された音源のジオメトリとの関係性を有することが好ましいが、位置情報が空間的に拡張された音源のジオメトリに関係する必要はなく、一般的な座標原点に関係することもできる。
さらに、圧縮されたビットストリームを生成するための装置は、空間的に拡張された音源のジオメトリに関する情報を計算するためのジオメトリプロバイダも含み、出力データ形成器は、マイクロフォンによって記録された音信号のような、少なくとも2つの音信号に加えて、ジオメトリに関する情報、各音信号についての個々の位置情報に関する情報をビットストリームに導入するように構成される。しかし、サウンドプロバイダは、必ずしもマイクロフォン信号をピックアップする必要はないが、場合によっては非相関処理を使用してエンコーダ側で音信号を生成することもできる。同時に、空間的に拡張された音信号に対して、少数の音信号のみ、または単一の音信号のみを送信することができ、非相関処理を使用して、再生側で残りの音信号を生成することができる。これは、好ましくは、空間的に拡張された音源ごとにいくつの音信号が含まれているかを音再生装置が常に知っているように、特に音位置計算機内で、いくつの音信号が利用可能であるか、および、いくつの音信号を信号合成または相関処理などによってデコーダ側で導出すべきかを再生装置が決定できるようにビットストリーム中のビットストリーム要素によってシグナリングされることが好ましい。
この実施形態では、再生器は、空間的に拡張された音源に含まれる音信号の数を示すビットストリーム要素をビットストリームに書き込み、デコーダ側では、音再生器はビットストリーム要素をビットストリームから導き、ビットストリーム要素を読み出し、ビットストリーム要素に基づいて、好ましくは周囲の点音源または周囲の音源の間に配置された補助音源のための多くの信号を、ビットストリーム中の少なくとも1つの受信された音信号に基づいて、いくつ算出すべきかを決定する。
次に、本発明の好ましい実施形態を、添付図面を参照して説明する。
図1は、再生側の好ましい実施形態のブロック図の概略である。 図2は、異なる数の周囲の点音源を有する球形の空間的に拡張された音源を示す。 図3は、いくつかの周囲の点音源を有する楕円体の空間的に拡張された音源を示す。 図4は、周囲の点音源の位置に配置された異なる方法を有する線状の空間的に拡張された音源を示す。 図5は、周囲の点音源を配置するための異なる方法を有する直方体の空間的に拡張された音源を示す。 図6は、異なる距離における球形の空間的に拡張された音源を示す。 図7は、近似的なパラメトリック楕円体形状におけるピアノ形状の空間的に拡張された音源を示す。 図8は、投影された凸包の極値点上に配置された3つの周囲の点音源を有するピアノ形状の空間的に拡張された音源を示す。 図9は、空間的に拡張された音源を再生するための装置または方法の好ましい実装を示す。 図10は、空間的に拡張された音源のための圧縮された記述を表すビットストリームを生成するための装置または方法の好ましい実装を示す。 図11は、図10に示す装置または方法によって生成されるビットストリームの好ましい実装を示す。
図9は、空間内に定義された位置およびジオメトリを有する空間的に拡張された音源を再生するための装置の好ましい実装を示す。装置は、インターフェース100と、プロジェクタ120と、音位置計算機140と、レンダラ160とを含む。インターフェースは、リスナー位置を受信するように構成される。また、プロジェクタ120は、空間内のインターフェース100によって受信されるリスナー位置、さらに空間的に拡張された音源のジオメトリに関する情報、および、さらに空間的に拡張された音源の位置に関する情報を使用して、空間的に拡張された音源に関連付けられた二次元または三次元のハルの投影面への投影を計算するように構成される。好ましくは、空間内の空間的に拡張された音源の定義された位置と、さらに空間内の空間的に拡張された音源のジオメトリとは、ビットストリームデマルチプレクサまたはシーンパーサ180に到来するビットストリームを介して、空間的に拡張された音源を再生するために受信される。ビットストリームデマルチプレクサ180は、ビットストリームから、空間的に拡張された音源のジオメトリの情報を抽出し、この情報をプロジェクタに提供する。さらに、ビットストリームデマルチプレクサは、ビットストリームから空間的に拡張された音源の位置も抽出し、この情報をプロジェクタに転送する。好ましくは、ビットストリームは、少なくとも2つの異なる音源に対する位置情報も含み、好ましくは、ビットストリームデマルチプレクサは、ビットストリームから、少なくとも2つの音源の圧縮された表現を抽出し、少なくとも2つの音源はオーディオデコーダ190としてデコーダによって復元/復号される。復号された少なくとも2つの音源は、最終的にレンダラ160に転送され、レンダラは音位置計算機140によって提供される位置で少なくとも2つの音源をレンダラ160へレンダリングする。
図9は、ビットストリームデマルチプレクサ180およびオーディオデコーダ190を有するビットストリーム関連再生装置を示しているが、再生はエンコーダ/デコーダシナリオとは異なる状況でも行うことができる。例えば、空間における定義された位置およびジオメトリは、仮想現実または拡張現実シーンのように再生装置に既に存在してもよく、ここで、データはその場で生成され、その場で消費される。ビットストリームデマルチプレクサ180およびオーディオデコーダ190は実際には必要ではなく、空間的に拡張された音源のジオメトリおよび空間的に拡張された音源の位置の情報は、ビットストリームからの抽出なしに利用可能である。さらに、空間的に拡張された音源のジオメトリの情報に対する少なくとも2つの音源の位置に関連する位置情報は、事前に固定的に取決めされていてもよく、それゆえに、エンコーダからデコーダに送信される必要はなく、または代替的に、このデータがその場で再び生成される。
したがって、実施形態において位置情報のみが提供され、2つ以上の音源信号の場合であっても、この情報を送信する必要はないことに留意されたい。例えば、デコーダまたは再生装置は、左に配置されている投影上の音源としてビットストリームにおける第1の音源信号を常に取得することができる。同様に、ビットストリームにおける第2の音源信号は、右に配置されている投影上の音源として取得することができる。
さらに、音位置計算機は投影面を使用して空間的に拡張された音源に対する少なくとも2つの音源の位置を計算するが、少なくとも2つの音源は必ずしもビットストリームから受信される必要はない。その代わりに、少なくとも2つの音源のうちの単一の音源のみをビットストリームおよび他の音源を介して受信することができ、それ故に、他の位置または位置情報も、ビットストリーム生成器から再生装置にこのような情報を送信する必要がない場合にのみ、再生側で実際に生成することができる。しかしながら、他の実施形態では、すべてのこの情報を送信することができ、さらに、ビットレート要求が厳密でない場合には、1つまたは2つよりも多い数の音信号をビットストリーム内で送信することができ、オーディオデコーダ190は、その位置が音位置計算機140によって計算される少なくとも2つの音源を表す2つ、3つまたはそれ以上の音信号を復号する。
図10は、再生がエンコーダ/デコーダのアプリケーション内で適用される場合のこのシナリオのエンコーダ側を示す。図10は、空間的に拡張された音源について圧縮された記述を表すビットストリームを生成するための装置を示す。特に、サウンドプロバイダ200および出力データ形成器240が提供される。この実装では、空間的に拡張された音源は1つ以上の異なる音信号を有する圧縮された記述によって表され、出力データ形成器は圧縮されたサウンドシーンを表すビットストリームを生成し、ここで、ビットストリームは空間的に拡張された音源に関連する少なくとも1つ以上の異なる音信号およびジオメトリ情報を含む。これは、図9に関して説明された状況を表し、空間的に拡張された音源の位置のような他の全ての情報(図9のブロック120の点線の矢印を参照)は、再生側のユーザによって自由に選択可能である。したがって、この空間的に拡張された音源のための少なくとも1つ以上の異なる音信号を有する空間的に拡張された音源の一意の記述を備え、これらの音信号は単に点音源の信号である。
さらに、生成するための装置は、空間的に拡張された音源のジオメトリに関する情報を計算するなどして提供するためのジオメトリプロバイダ220を含む。計算とは異なるジオメトリ情報を提供する他の方法は、ユーザによって手動でドラフトされる図またはユーザによって提供される任意の他の情報、例えば、スピーチ、トーン、ジェスチャもしくは任意の他のユーザアクションなどのユーザ入力を受信することを含む。1つ以上の異なる音信号に加えて、ジオメトリに関する情報がビットストリームに組み込まれる。
追加的に、1つ以上の異なる音信号の各音信号についての個々の位置情報に関する情報もビットストリームに組み込まれ、および/または、空間的に拡張された音源についての位置情報もビットストリームに組み込まれる。音源の位置情報は、ジオメトリ情報から分離することができ、またはジオメトリ情報に含めることができる。第1のケースでは、位置情報に関してジオメトリ情報を付与することができる。第2のケースでは、ジオメトリ情報は、例えば、球、座標における中心点および半径または直径を含むことができる。箱状の空間的に拡張された音源については、8つまたは少なくとも1つの角点を絶対座標で与えることができる。
1つ以上の異なる音信号のそれぞれについての位置情報は、好ましくは、空間的に拡張された音源のジオメトリ情報に関連する。しかしながら、代替的に、空間的に拡張された音源の位置またはジオメトリ情報が与えられる同じ座標系に関係する絶対位置情報も有用であり、代替的に、ジオメトリ情報は、相対的な方法ではなく、絶対座標を有する絶対座標系内で与えられてもよい。しかしながら、一般的な座標系に関係しない相対的な方法でこのデータを提供することは、図9のプロジェクタ120に向けた点線によって示されるように、彼女自身または彼自身の再生設定において空間的に拡張された音源を位置決めすることをユーザに許容する。
別の実施形態では、図10のサウンドプロバイダ200は、空間的に拡張された音源のために少なくとも2つの異なる音信号を提供するように構成され、出力データ形成器は、ビットストリームが好ましくは符号化されたフォーマットで少なくとも2つの異なる音信号と、任意的に、絶対座標または空間的に拡張された音源のジオメトリについて、少なくとも2つの異なる音信号の各音信号の個々の位置情報とを含むように、ビットストリームを生成するように構成される。
一実施形態では、サウンドプロバイダは、個々の複数のマイクロフォン位置または向きで自然音源の記録を実行する、または、例えば図1のアイテム164および166に関して説明されているように、単一の基礎信号(basis signal)または複数の基礎信号から1つ以上の非相関フィルタによって音信号を導出するために実行するように構成される。生成器で使用される基礎信号は、再生サイトで提供されたまたは生成器から再生装置に送信される基礎信号と同一もしくは異なっていてもよい。
別の実施形態では、ジオメトリプロバイダ220は、空間的に拡張された音源のジオメトリから、パラメトリック記述または多角形記述を導出するように構成され、出力データ形成器は、このパラメトリック記述または多角形記述をビットストリームに組み込むように構成される。
さらに、出力データ形成器は、好ましい実施形態において、ビットストリーム要素をビットストリームに組み込むように構成され、ここで、このビットストリーム要素は、ビットストリームに含まれるまたはビットストリームに関連付けられた符号化されたオーディオ信号に含まれる空間的に拡張された音源のための少なくとも1つの異なる音信号の数を示し、ここで、数は1以上である。出力データ形成器によって生成されたビットストリームは、一方ではオーディオ波形データ、他方ではメタデータを有する完全なビットストリームである必要はない。代わりに、ビットストリームは、例えば、それぞれの空間的に拡張された音源の音信号の数についてのビットストリームフィールドと、空間的に拡張された音源についてのジオメトリ情報と、一実施形態では、空間的に拡張された音源についての位置情報も、そして、任意的に、それぞれの音信号およびそれぞれの空間的に拡張された音源についての位置情報と、空間的に拡張された音源についてのジオメトリ情報と、一実施形態では、空間的に拡張された音源についての位置情報も含む別個のメタデータビットストリームのみ存在することもできる。圧縮形式で典型的に利用可能な波形オーディオ信号は、別個のデータストリームまたは別個の送信チャネルによって再生装置に送信され、再生装置は、1つの音源から、符号化されたメタデータを受信し、異なる音源から(符号化された)波形信号を受信する。
さらに、ビットストリーム生成器の実施形態は、コントローラ250を含む。コントローラ250は、サウンドプロバイダによって提供される音信号の数に関してサウンドプロバイダ200を制御するように構成される。この方法にしたがって、コントローラ250は、追加の特徴を示すハッチングされた線で示された出力データ形成器240にビットストリーム要素情報も提供される。出力データ形成器は、コントローラ250で制御され、サウンドプロバイダ200によって提供されるように音信号の数に関する特定の情報をビットストリーム要素に導入する。好ましくは、符号化されたオーディオ音信号を含む出力ビットストリームが外部ビットレートの要求を満たすように、音信号の数が制御される。許容ビットレートが高い場合、サウンドプロバイダは、許可されたビットレートが小さい場合に比べて、より多くの音信号を提供することができる。極端な場合には、サウンドプロバイダは、ビットレート要求が厳密であるとき、空間的に拡張された音源について単一の音信号のみを提供することができる。
再生装置は、対応して設定されたビットストリーム要素を読み取り、レンダラ160内で、デコーダ側でおよび送信された音信号を使用して、別の音信号の対応する数を合成しはじめ、最終的には、周囲の点音源の必要な数および任意的に補助音源が生成される。
しかし、ビットレート要求がそれほど厳密ではない場合、コントローラ250は、例えば、対応する数の複数のマイクロフォンまたは1つのマイクロフォンの向きによって記録された、多数の異なる音信号を提供するようにサウンドプロバイダを制御することができる。そして、再生側で、非相関処理が全く必要ない、または、わずかしか必要なく、最終的には、再生側での非相関処理が削減される、または、必要がないために、再生装置によってより良い再生品質を得ることができる。一方でビットレートと他方で品質との間のトレードオフは、好ましくは、空間的に拡張された音源ごとの音信号の数を示すビットストリーム要素の機能を介して得られる。
図11は、図10に示すビットストリーム生成装置によって生成されたビットストリームの好ましい実施形態を示す。ビットストリームは、例えば、対応するデータを有するSESS2として示される第2の空間的に拡張された音源401を含む。
さらに、図11は、空間的に拡張された音源の番号1に関してそれぞれの空間的に拡張された音源についての詳細なデータを示す。図11の例では、2つの音信号は、例えば、空間的に拡張された音源の2つの異なる場所に配置されたマイクロフォンから取り出されたマイクロフォン出力データからビットストリーム生成器で生成されている空間的に拡張された音源のためのものである。第1の音信号は301で示される音信号1であり、第2の音信号は302で示される音信号2であり、両方の音信号は好ましくはビットレート圧縮のためにオーディオエンコーダを介して符号化される。さらに、アイテム311は、例えば、図10のコントローラ250によって制御される、空間的に拡張された音源1についての音信号の数を示すビットストリーム要素を表す。
空間的に拡張された音源のジオメトリ情報は、ブロック331に示めされるように組み込まれる。アイテム301は、好ましくは、ピアノの例に関して、音信号1については“低音弦に近接すること”を示し、302で示される音信号2については“高音弦に近接すること”を示すように、ジオメトリ情報に関連して、音信号についての任意の位置情報を示す。ジオメトリ情報は、例えば、ピアノモデルのパラメトリック表現または多角形表現であってもよく、このピアノモデルは、例えば、グランドピアノまたは(小型の)ピアノとは異なる。アイテム341は、空間内に空間的に拡張された音源のための位置に関する任意のデータをさらに示す。述べられているように、図9中のプロジェクタに向けられた点線で示されるような位置情報をユーザが提供する場合には、この位置情報341は必要ではない。しかしながら、位置情報341がビットストリームに含まれる場合であっても、ユーザはユーザインタラクションによって位置情報を置換または変更することができる。
次に、本発明の好ましい実施形態について説明する。実施形態は、6DoF VR/AR(仮想現実/拡張現実)における空間的に拡張された音源のレンダリングに関する。
本発明の好ましい実施形態は、空間的に拡張された音源(SESS)の再生を強化するように設計された方法、装置またはコンピュータプログラムに関する。特に、本発明の方法または装置の実施形態は、空間的に拡張された音源と仮想リスナー位置との間の経時変化する相対位置を考慮する。言い換えれば、本発明の方法または装置の実施形態は、任意の相対位置で聴取者に対して聴覚的な音源幅が表現されたサウンドオブジェクトの空間的な広がりと一致させることを可能にする。このように、本発明の方法または装置の実施形態は、特に空間的に拡張された音源が伝統的に採用された点音源を補完する6自由度(6DoF)の仮想、混合および拡張現実アプリケーションに適用される。
本発明の方法または装置の実施形態は、(好ましくは有意に)非相関信号を提供されるいくつかの周囲の点音源を使用することによって、空間的に拡張された音源をレンダリングする。他の方法とは対照的に、これらの周囲の点音源の位置は、空間的に拡張された音源に対する聴取者の位置に依存する。図1は、本発明の方法または装置の実施形態に係る空間的に拡張された音源レンダラの概観ブロック図を示す。
ブロック図の鍵となる構成要素は以下である:

1.リスナー位置:このブロックは、例えば、仮想現実追跡システムによって測定されるような聴取者の瞬間的な位置を提供する。ブロックは、検出するための検出器100またはリスナー位置を受信するためのインターフェース100として実装することができる。

2.空間的に拡張された音源の位置およびジオメトリ:このブロックは、例えば、仮想現実シーン表現の一部としてレンダリングするために空間的に拡張された音源の位置およびジオメトリデータを提供する。

3.投影および凸包の計算:このブロック120は、空間的に拡張された音源のジオメトリの凸包を計算し、そのあとリスナー位置に向かう方向に投影する(例えば、“イメージ平面”、以下を参照)。代替的に、同じ機能は、最初にジオメトリをリスナー位置に向かう方向に投影し、そのあと凸包を計算することによって実現することができる。

4.周囲の点音源の位置:このブロック140は、前のブロックによって計算された凸包投影データから使用された周囲の点音源の位置を計算する。この計算では、リスナー位置および聴取者の近く/距離を考慮してもよい(以下を参照)。出力は、n個の周囲の点音源の位置である。

5.レンダラコア:レンダラコア162は、特定された目標位置にそれらを位置決めすることによって、n個の周囲の点音源の音を頭に描く。これは、例えば、頭部伝達関数を使用するバイノーラルレンダラまたはスピーカ再生(例えば、ベクトルベースの振幅パンニング)のためのレンダラであってもよい。レンダラコアは、k個の入力オーディオ基礎信号(例えば、楽器の録音の非相関信号)およびm≧(n-k)の追加的な非相関オーディオ信号からl個のスピーカまたはヘッドホン出力信号を生成する。

6.音源基礎信号:このブロック164は、互いに(十分に)非相関的であり、レンダリングされる音源を表すk個の基礎オーディオ信号についての入力である(例えば、楽器のモノ-k=1-またはステレオ-k=2-録音)。k個の基礎オーディオ信号は、例えば、デコーダ側の生成器から受信されるビットストリーム(例えば、図11の要素301,302を参照)から得られるか、または外部音源からの再生サイトに提供されることができる。

7.デコリレータ:この任意ブロック166は、n個の周囲の点音源をレンダリングするために必要とされる、追加的な非相関オーディオ信号を生成する。

8.信号出力:レンダラは、スピーカ(例えば、n=5.1)またはバイノーラル(典型的にはn=2)のレンダリングについてl個の出力信号を提供する。
図1は、本発明の方法または装置の実施形態のブロック図の概要を示す。破線は、ジオメトリおよび位置等のメタデータの送信を示す。実線は、オーディオの送信を示し、ここで、k、lおよびmは、多数のオーディオチャネルを示す。レンダラコア162は、k+mのオーディオ信号およびn(<=k+m)の位置データを受信する。ブロック162、164、166は、一般的なレンダラ160の一実施形態を共に形成する。
周辺の点音源の位置は、特に空間的な広がりにおいて、空間的に拡張された音源のジオメトリと、空間的に拡張された音源に対する聴取者の相対位置とに依存する。特に、周辺の点音源は、空間的に拡張された音源の凸包の投影の投影面へ配置されてもよい。投影面は、画像平面、すなわち、聴取者から空間的に拡張された音源への直線に垂直な平面または聴取者の頭部の周囲の球面を有してもよい。投影面は、聴取者の頭部の中心から任意の小さな距離に配置される。代替的に、空間的に拡張された音源の投影凸包を、聴取者の頭部の空間的配置からの相対的な球面座標のサブセットである方位角および仰角から計算することができる。以下の例示的な実施例では、より直感的な特性のために、投影面が好ましい。投影された凸包の計算の実施において、より単純な形式化およびより低い計算上の複雑さのために、角度表示が好ましい。空間的に拡張された音源の凸包の投影の両方は、投影された空間的に拡張された音源のジオメトリの凸包と同一であることに留意されたい。すなわち、画像平面への凸包の計算および投影は、いずれの順序においても使用することができる。
周辺の点音源の位置は、以下を含め、様々な方法で、空間的に拡張された音源の凸包の投影上に配置されてもよい。
● それらをハル投影の周りに均一に配置することができる。
● それらをハル投影の極値点に配置することできる。
● それらをハル投影の水平方向および/または垂直方向の極値点に配置することができる(実施例のセクションにおいて図を参照)。
周囲の点音源に加えて、他の補助の点音源も使用することで、追加の計算の複雑さを代償として、強化された音響的充填感を生成することができる。さらに、投影された凸包は、周囲の点音源を配置する前に変更されてもよい。例えば、投影された凸包は、投影された凸包の重心に向かって収縮することができる。このような縮小投影された凸包は、レンダリング方法によって導入される個々の周囲の点音源の追加の空間的広がりを考慮してもよい。凸包の変形は、水平方向と垂直方向とのスケーリングをさらに区別することができる。
空間的に拡張された音源に対するリスナー位置が変化すると、空間的に拡張された音源の投影面への投影はそれに応じて変化する。同様に、周囲の点音源の位置はそれに応じて変化する。周囲の点音源の位置は、好ましくは、空間的に拡張された音源および聴取者の連続的な動きに対して滑らかに変化するように選択される。さらに、空間的に拡張された音源のジオメトリが変更されると、投影された凸包が変化する。これは、投影された凸包を変化させる3D空間における空間的に拡張された音源のジオメトリの回転を含む。ジオメトリの回転は、空間的に拡張された音源に対するリスナー位置の角度変位に等しく、聴取者と空間的に拡張された音源との相対位置として包括的な方法で参照されるようなものである。例えば、球形の空間的に拡張された音源の周囲の聴取者の円運動は、重心の周囲の点音源の位置を回転させることによって表される。同様に、静止した聴取者を有する空間的に拡張された音源の回転は、結果として周囲の点音源の位置と同じ変化を生じる。
本発明の方法または装置の実施形態によって生成される空間的な広がりは、空間的に拡張された音源と聴取者との間の任意の距離に対して本質的に正しく再現される。当然ながら、ユーザが空間的に拡張された音源に近づいたとき、物理的な現実をモデル化するのに適するように、周囲の点音源の間の開き角度は増加する。
周囲の点音源の角度配置は、投影面上の投影された凸包上の位置によって一意的に決定されるが、周囲の点音源の距離は、さらに、以下の様々な方法で選択されてもよい。

●全ての周囲の点音源は、空間的に拡張された音源全体の距離と等しい距離を有し、例えば、聴取者の頭部に対する空間的に拡張された音源の重心を介して定義される。
●各周囲の点音源の距離は、投影面への周囲の点音源の投影が同じ場所となるよう、空間的に拡張された音源のジオメトリへの投影された凸包の位置の逆投影によって決定される。凸包から空間的に拡張された音源への周囲の点音源の逆投影は必ずしも一意に決定されるとは限らず、追加の投影規則を適用しなければならない(実施例のセクションを参照)。
●周囲の点音源のレンダリングは距離特性を必要としないが、方位角および仰角における相対的な角度配置のみを必要とする場合は、周囲の点音源の距離は全く決定されなくてもよい。
空間的に拡張された音源の幾何学的形状/凸包を特定するために、単純化された1D、例えば、線、曲線;2D、例えば、楕円、長方形、多角形;または3D形状、例えば、楕円体、直方体および多面体を含む近似が使用される(および、おそらく、レンダラまたはレンダラコアに送信される)。空間的に拡張された音源のジオメトリまたは対応する近似の形状は、それぞれ、以下の様々な方法で説明することができる。

●パラメータの説明、すなわち、追加のパラメータを受け入れる数学的な表現を介したジオメトリの定形化。例えば、3Dにおける楕円体形状はデカルト座標系上の陰関数によって説明することができ、追加のパラメータは3つすべての方向における主軸の延長である。さらに、パラメータは楕円体面の3D回転、変形関数を含むことができる。
●多角形の説明、すなわち、線、三角形、正方形、四面体および直方体などの基本的な幾何学的形状の集合。基本的な多角形および多面体をより複雑なジオメトリに連結することもできる。
周囲の点音源の信号は、空間的に拡張された音源の基礎信号から導出される。基礎信号は、以下のような様々な方法で取得することができる:1)単一または複数のマイクロフォンの位置および方向での自然音源の記録(例:実施例で示されるようなピアノ音の記録);2)人工音源の合成(例:変化するパラメータを伴う音の合成);3)任意のオーディオ信号の組み合わせ(例:エンジン、タイヤ、ドアなどの自動車の種々の機械的な音)。さらに、追加の周囲の点音源の信号が、複数の非相関フィルタ(以前のセクションを参照)によって基礎信号から人工的に生成されてもよい。
特定のアプリケーションのシナリオでは、6DoF VR/ARコンテンツのコンパクトで相互利用可能な蓄積/送信を重視する。この場合、チェーン全体が3つのステップから構成される:

1.ビットストリームへの所望の空間的に拡張された音源のオーサリング/符号化するステップ
2.生成されたビットストリームの送信/蓄積するステップ。本発明によれば、ビットストリームは、他の要素を除いて、モノラルまたはステレオのピアノ録音のような、空間的に拡張された音源ジオメトリ(パラメトリックまたは多角形)および関連付けられた音源基礎信号の記述を含む。波形は、mp3またはMPEG-2/4 Advanced Audio Coding (AAC)などの知覚オーディオ符号化アルゴリズムを使用して圧縮されてもよい(図10のアイテム260を参照)。
3.前述のような送信されたビットストリームに基づいて、空間的に拡張された音源の復号化/レンダリングするステップ。
前述のコアの方法に加えて、さらなる処理のためのいくつかのオプションが存在する:
オプション1-周囲の点音源の数および位置の動的選択

空間的に拡張された音源に対する聴取者の距離に応じて、周囲の点音源の数を変化させることができる。一例として、空間的に拡張された音源と聴取者とがお互いから遠く離れている場合には、投影された凸包の開き角度(開口)は小さくなり、したがって、より少数の周囲の点音源を有利に選択することができ、計算およびメモリの複雑さを省くことができる。極端な場合には、全ての周囲の点音源は単一の残りの点音源に縮小される。基礎信号と導出された信号との間の干渉が結果として生じる周囲の点音源の信号のオーディオ品質を劣化させないことを保証するために、適切なダウンミキシング技術を適用することができる。同様の技術は、空間的に拡張された音源のジオメトリが聴取者の相対的な視点に依存して非常に不規則である場合、リスナー位置に対して空間的に拡張された音源が近い場合にも適用することができる。例えば、有限長の線である空間的に拡張された音源のジオメトリは、投影面上で単一の点に向かって縮退し得る。一般に、投影された凸包上の周囲の点音源の角度範囲が狭い場合、空間的に拡張された音源をより少ない周囲の点音源によって表すことができる。極端な場合には、全ての周囲の点音源は、単一の残りの点音源に縮小される。
オプション2-広がり補償

各周囲の点音源は、凸包投影の外側に向かって空間的な広がりを示すので、レンダリングされた空間的に拡張された音源の知覚される聴覚イメージの幅は、レンダリングに使用される凸包よりも幾分大きい。これを所望のターゲットジオメトリと調整するために、2つの可能性がある:

1.オーサリング中の補償:コンテンツオーサリング中に、レンダリング方法の追加の広がりが考慮される。具体的には、実際にレンダリングされたサイズが所望のようになるように、コンテンツオーサリング中に、幾分小さい空間的に拡張された音源のジオメトリが選択される。これは、オーサリング環境(例えば、再生スタジオ)におけるレンダラまたはレンダラコアの効果をモニタリングすることによってチェックすることができる。この場合、送信されるビットストリームおよびレンダラまたはレンダラコアは、ターゲットサイズと比較して低減されたターゲットジオメトリを使用する。
2.レンダリング中の補償:空間的に拡張された音源のレンダラまたはレンダラコアは、レンダリング方法によって追加の知覚的な広がりを認識することができ、したがって、この効果を補償することを可能にすることができる。単純な例として、レンダリングのために使用されるジオメトリを、周囲の点音源の配置に適用される前に、
○一定の係数a<1.0(例えば、a=0.9)だけ低減することができる。または、
○一定の開き角度 アルファ=5度だけ低減することができる。
この場合、送信されたビットストリームは、空間的に拡張された音源のジオメトリの最終的なターゲットサイズを含む。
また、これらのアプローチの組み合わせも実現可能である。
オプション3-周囲の点音源の波形の生成

さらに、ピアノのように左側に低音を有したり、逆に右側に低音の音を有したりするような、音の寄与に依存するジオメトリを有する空間的に拡張された音源をモデル化するために、空間的に拡張された音源に対するユーザ位置を考慮することによって、周囲の点音源を提供するための実際の信号を、記録されたオーディオ信号から生成することができる。

例:アップライトピアノの音は、その音響挙動によって特徴付けられる。これは、(少なくとも)2つのオーディオ基礎信号、1つはピアノキーボードの下端近く(“低音”)、および1つはキーボードの上端近く(“高音”)によってもモデル化される。これらの基礎信号は、ピアノ音を記録するときに適切なマイクロフォンの使用によって得ることができ、6DoFレンダラまたはレンダラコアに送信され、それらの間に十分な相関性があることを保証する。
次に、周囲の点音源の信号は、空間的に拡張された音源に対するユーザ位置を考慮することによって、これらの基礎信号から導出される。

●ユーザがピアノに正面(キーボード)側から対面する場合、2つの周囲の点音源は、ピアノキーボードの左および右の端部の近くで互いに大きく離れている。この場合、低いキーについての基礎信号を左の周囲の点音源に直接供給することができ、高いキーについての基礎信号を右の周囲の点音源を駆動するために直接的に使用することができる。
●聴取者はピアノの周りを右へ約90度だけ歩くときに、ピアノ音量モデル(例えば、楕円)の投影が側方から見たときに小さくなるので、2つの周囲の点音源は互いに非常に近接してパンニングされる。基礎信号が周囲の点音源の信号を直接的に駆動するために使用され続ける場合、1つの周囲の点音源は主に高い音を含み、他方では、他の1つが大部分の低い音を伝えるだろう。これは物理的な観点から望ましくないので、ピアノの重心に対するユーザの動きと同じ角度だけ、ギブンス回転によって周囲の点音源の信号を形成する2つの基礎信号を回転させることによって、レンダリングを改善することができる。このようにして、両方の信号は同様のスペクトルコンテンツの信号を含み、依然として非相関である(基礎信号が非相関であると仮定する)。
オプション4-レンダリングされた空間的に拡張された音源の後処理

位置依存および方向依存の効果、例えば、空間的に拡張された音源の指向性パターンを考慮するために、実際の信号を前処理または後処理することができる。言い換えると、前述のように、空間的に拡張された音源から発されるすべての音は、例えば、方向依存の音放射パターンを示すように修正することができる。ピアノ信号の場合には、これは、ピアノの背面に向かう放射が、ピアノの前面に向かう放射よりも高周波数コンテンツが少ないことを意味し得る。さらに、周囲の点音源の信号の前処理および後処理は、周囲の点音源の各々に対して個別に調整されてもよい。例えば、指向性パターンを周囲の点音源の各々に対して異なるように選択することができる。ピアノを表す空間的に拡張された音源の所与の例では、低いおよび高いキー範囲の指向性パターンは、上述のように類似していてもよいが、ペダリングノイズのような追加の信号は、より無指向性の指向性パターンを有する。
次に、好ましい実施形態のいくつかの利点が要約される。
空間的に拡張された音源の内部を点音源で完全に埋め尽くす場合(例えば、Advanced AudioBIFSで使用されるような)と比較して、計算の複雑さがより低い。

●点音源の信号間の破壊的干渉のより低い可能性
●ビットストリーム情報のコンパクトなサイズ(幾何学的形状の近似、1つ以上の波形)
●VR/ARレンダリングの目的のために音楽消費のために制作されたレガシー録音(例えば、ピアノのステレオ録音)の使用を可能にする。
次に、様々な実際の実装例が提示される:
●球形の空間的に拡張された音源
●楕円体の空間的に拡張された音源
●線状の空間的に拡張された音源
●直方体の空間的に拡張された音源
●距離依存の周囲の点音源
●ピアノ形状の空間的に拡張された音源
本発明の方法または装置の実施形態で説明したように、周囲の点音源の位置を決定するための上記の様々な方法を適用することができる。以下の実施例は、特定の場合でいくつかの分離された方法を示す。本発明の方法または装置の実施形態の完全な実装では、様々な方法を、計算の複雑さ、適用目的、オーディオ品質および実装の容易さを考慮して、適切に組み合わせることができる。
空間的に拡張された音源のジオメトリは、緑色の表面メッシュとして示されている。なお、メッシュ視覚化は、空間的に拡張された音源のジオメトリが多角形の方法によって記述されることを意味するものではなく、実際には、パラメトリックな仕様から生成されることがあることに留意されたい。リスナー位置は、青色の三角形によって示されている。以下の例では、画面は投影面として選択され、投影面の有限のサブセットを示す透明なグレー面として描かれている。投影面への空間的に拡張された音源の投影されたジオメトリは、緑色の同じ表面メッシュで示されている。投影された凸包上の周囲の点音源は、投影面上で赤色の十字記号として示されている。空間的に拡張された音源のジオメトリへの逆投影された周囲の点音源は、赤色のドットとして示されている。投影された凸包上の対応する周囲の点音源と、空間的に拡張された音源のジオメトリ上の逆投影された周囲の点音源とは、視覚的な対応を識別するのを助けるために、赤色の線によって接続される。関連する全てのオブジェクトの位置は、メータにおけるユニットを有するデカルト座標系で示されている。図示された座標系の選択は、関連する計算がデカルト座標で実行されることを意味しない。
図2における最初の例は、球形の空間的に拡張された音源を考慮する。球形の空間的に拡張された音源は、聴取者に対して固定された大きさおよび固定された位置を有する。3つ、5つ、8つの周囲の点音源の3つの異なるセットが、投影された凸包上で選択される。周囲の点音源の3つのセットのすべては、凸包の曲線上に均一な距離をもって選択される。凸包の曲線上の周囲の点音源のオフセット位置は、空間的に拡張された音源のジオメトリの水平方向の広がりが良好に表されるように意図的に選択される。
図2は、凸包上で均一に配置された異なる数の点音源(すなわち、3(上)、5(中)、および8(下))を有する、球形の空間的に拡張された音源を示す。
図3における次の例は、楕円体の空間的に拡張された音源を考慮する。楕円体の空間的に拡張された音源は、3D空間における固定された形状、位置および回転を有する。この例では、4つの周囲の点音源が選択される。周囲の点音源の位置を決定する3種類の方法が例示される:

a)2つの周囲の点音源が2つの水平方向の極値点に配置され、2つの周囲の点音源が2つの垂直方向の極値点に配置される。一方、極値点の位置決めは単純であり、通常は適切である。この例は、この方法がお互いに相対的に近い周囲の点音源の位置を生成してもよいことを示す。

b)4つの周囲の点音源のすべてが、投影された凸包上に均一に配置される。周囲の点音源の位置のオフセットは、一番上の周囲の点音源がa)における一番上の周囲の点音源の位置と一致するように選択される。周囲の点音源の位置のオフセットの選択は、周囲の点音源を介して幾何学的形状の表現にかなり影響を与えることが分かる。

c)4つの周囲の点音源のすべては、縮小投影された凸包上に均一に配置される。周囲の点音源のオフセット位置は、b)で選択されたオフセット位置に等しい。投影された凸包の収縮動作は、投影された凸包の重心に向かって、方向に依存しない延伸倍率で予め形成される。
図3は、周囲の点音源の位置を決定する3種類の方法に基づく、4つの周囲の点音源を有する楕円体の空間的に拡張された音源を示す:a/上)水平方向および垂直方向の極値点、b/中)凸包上の均一に配置された点、c/下)縮小した凸包上の均一に配置された点。
図4における次の例は、線状の空間的に拡張された音源を考慮する。前の例は、体積のある空間的に拡張された音源のジオメトリを考慮するが、この例は、空間的に拡張された音源のジオメトリを3D空間における一次元オブジェクトとして選択することができることを示す。サブ図a)は、有限直線の空間的に拡張された音源のジオメトリの極値点上に配置された2つ周囲の点音源を示す。b)2つの周囲の点音源が、有限直線の空間的に拡張された音源のジオメトリの極値点上に配置され、1つの追加の点音源が、線の中心に配置される。本発明の方法または装置の実施形態に記載されるように、空間的に拡張された音源のジオメトリ内に追加の点音源を配置することは、大きな空間的に拡張された音源のジオメトリについて大きなギャップを埋めることを助けることができる。c)a)およびb)のような同じ線の空間的に拡張された音源のジオメトリが考慮されるが、線状のジオメトリの投影された長さがかなり小さくなるように、聴取者に向かう相対角度が変更される。上述の本発明の方法または装置の実施形態に記載されるように、投影された凸包の縮小されたサイズを、この特定の例では、線状のジオメトリの中心に配置される単一の周囲の点音源によって、周囲の点音源の低減された数によって表すことができる。
図4は、周囲の点音源の位置を配置するための3種類の異なる方法を有する線状の空間的に拡張された音源を示す:a/上)投影された凸包上の2つの極値点;b/中)線の中心に追加の点音源を有する投影された凸包上の2つの極値点;c/下)回転した線の投影された凸包が小さすぎて1より大きい周囲の点音源を許容することができない凸包の中心における1つの周囲の点音源。
図5における次の例は、直方体の空間的に拡張された音源を考慮する。直方体の空間的に拡張された音源は、固定された大きさと固定された位置とを有するが、聴取者の相対位置が変化する。サブ図a)およびb)は、投影された凸包上に4つの周囲の点音源を配置する異なる方法を示す。逆投影された周囲の点音源の位置は、投影された凸包上の選択によって一意に決定される。c)は、十分に分離された逆投影の位置を有さない4つの周囲の点音源を示す。代わりに、周囲の点音源の位置の距離は、空間的に拡張された音源のジオメトリの重心の距離に等しいように選択される。
図5は、周囲の点音源を配置するための3種類の方法を有する直方体の空間的に拡張された音源を示す:a/上)水平軸上の2つの周囲の点音源および垂直軸上の2つの周囲の点音源;b/中)投影された凸包の水平方向の極値点上の2つの周囲の点音源および投影された凸包の垂直方向の極値点上の2つの周囲の点音源;c/下)距離が空間的に拡張された音源のジオメトリの重心の距離に等しく選択される逆投影された周囲の点音源。
図6における次の例は、固定されたサイズおよび形状の球形の空間的に拡張された音源を考慮しているが、リスナー位置に対して3つの異なる距離にある。周囲の点音源は、凸包曲線上に均一に配置されている。周囲の点音源の数は、凸包曲線の長さと、可能な周囲の点音源の位置の間の最小距離とから動的に決定される:a)4つの周囲の点音源が投影された凸包上で選択されるように、球形の空間的に拡張された音源が近接した距離にある。b)3つの周囲の点音源が投影された凸包上で選択されるように、球形の空間的に拡張された音源が中程度の距離にある。a)2つの周囲の点音源のみが投影された凸包上で選択されるように、球形の空間的に拡張された音源が遠距離にある。上述した本発明の方法または装置の実施形態に記載されているように、周囲の点音源の数は、球面角度座標で表される広がりから決定されてもよい。
図6は、等しい大きさであるが、異なる距離にある球形の空間的に拡張された音源を示す:a/上)近距離で投影された凸包上に均一に配置される4つの周囲の点音源;b/中)中距離で投影された凸包上に均一に配置される3つの周囲の点音源;c/下)遠距離で投影された凸包上に均一に配置される2つの周囲の点音源。
図7および8における最後の例は、仮想世界内に配置されたピアノ形状の空間的に拡張された音源を考慮する。ユーザは、ヘッドマウントディスプレイ(HMD)およびヘッドホンを装着する。仮想現実シーンは、オープンワールドキャンバスと、自由移動領域におけるフロアに立設された3Dアップライトピアノモデルとから成ることを、ユーザに提示される(図7を参照)。オープンワールドキャンバスは、ユーザの周囲の球体上に投影された球形の静止画像である。この特定の場合には、オープンワールドキャンバスは、白の雲を有する青空を示す。ユーザは、様々な角度からピアノの周りを歩くことができ、見ることができ、聴取することができる。このシーンでは、ピアノは、重心に配置された単一の点音源として、または投影された凸包上に3つの周囲の点音源を有する空間的に拡張された音源としてレンダリングされる(図8を参照)。レンダリング試験は、単一の点音源としてレンダリングすることによりも、周囲の点音源のレンダリング方法の非常に優れたリアリズムを示す。
周囲の点音源の位置の計算を単純化するために、ピアノのジオメトリは、同様の寸法を有する楕円体の形状に抽象化される、図7を参照。さらに、2つの代替の点音源が、同一線上の左右の極値点に配置される、一方、第3の代替の点が極北に残る、図8を参照。この配置は、高度に低減された計算コストで、すべての角度から適切な水平の音源幅を保証する。
図7は、近似的なパラメトリック楕円体形状(赤色メッシュで示す)を有するピアノ形状の空間的に拡張された音源(緑色で示される)を示す。
図8は、投影された凸包の垂直方向の極値点および投影された凸包の垂直方向の頂点上に配置された3つの周囲の点音源を有するピアノ形状の空間的に拡張された音源を示す。なお、より見やすくするために、周囲の点音源は引き伸ばされた投影された凸包上に配置されている。
次に、本発明の実施形態の特有の特徴が提供される。提示された実施形態の特性は以下の通りである:

●空間的に拡張された音源の知覚された音響空間を満たすために、好ましくはその内部全体が非相関の点音源(周囲の点音源)で満たされないが、聴取者に面している場合に(例えば、“聴取者に向かう空間的に拡張された音源の凸包の投影”)、その周囲だけを満たす。具体的には、これは、周囲の点音源の位置が空間的に拡張された音源のジオメトリに付与されていないが、リスナー位置に対する空間的に拡張された音源の相対位置を考慮に入れて動的に計算されることを意味する。
○周囲の点音源の動的計算(数および位置)
●空間的に拡張された音源の形状の近似が使用される(圧縮された表現を使用するシナリオのため:ビットストリームの一部として送信される)。
説明された技術の適用は、オーディオ6DoF VR/ARの規格の一部とすることができる。この文脈では、古典的な符号化/ビットストリーム/デコーダ(+レンダラ)のシナリオを有する:

●エンコーダでは、空間的に拡張された音源の形状は、空間的に拡張された音源を特徴付ける
○モノ信号、または、
○ステレオ信号(好ましくは、十分に非相関である)、または、
○より多くの記録された信号(好ましくは、十分に非相関である)
のいずれかであってもよい空間的に拡張された音源の“基本”波形とともにサイド情報として符号化されるだろう。これらの波形を低ビットレートで符号化することができる。
●デコーダ/レンダラにおいて、空間的に拡張された音源の形状および対応する波形は、ビットストリームから取り出され、前述のように、空間的に拡張された音源をレンダリングするために使用される。
使用される実施形態に依存して、および説明された実施形態に対する代替として、インターフェースを、リスナー位置を検出するための実際のトラッカーまたは検出器として実装することができることに留意されたい。しかしながら、聴取位置は、典型的には、外部トラッカー装置から受信され、インターフェースを介して再生装置に提供される。しかし、インターフェースは、外部トラッカーからの出力データに対するデータ入力だけを表すことができ、またはトラッカー自体を表すこともできる。
さらに、概説したように、周囲の音源間に追加の補助音源が必要とされてもよい。
さらに、左右の周囲の音源および任意の(聴取者に対して)水平方向に間隔を置いて配置された補助音源が、垂直方向に間隔を置いて配置された周囲の音源、すなわち、上部および下部の空間的に拡張された音源上の周囲の音源よりも知覚的な印象にとってより重要であることが見出された。例えば、リソースが不足している場合には、処理リソースを節約するために、垂直方向に間隔を置いて配置された周囲の音源を省略することができるので、少なくとも水平方向に間隔を置いて配置された周囲の音源(および任意の補助音源)を使用することが好ましい。
さらに、概説したように、ビットストリーム生成器は、空間的に拡張された音源のための1つの音信号のみを有するビットストリームを生成するように実装することができ、残りの音信号は非相関関係によってデコーダ側または再生側で生成される。単一の信号のみが存在し、空間全体がこの単一の信号と等しく満たされる場合には、任意の位置情報は不要である。しかしながら、このような状況において、図10の220に示されるようなジオメトリ情報計算機によって計算された空間的に拡張された音源のジオメトリに関する少なくとも追加の情報を有することが有益である。
ここで言及しておきたいことは、前で説明したようなすべての代替または態様、および以下の特許請求の範囲における独立請求項によって定義されるすべての態様は、個々に、すなわち、意図された代替、目的または独立請求項以外の他の代替または目的なしで使用できるということである。しかしながら、他の実施形態では、2つ以上の代替または態様または独立請求項を互いに組み合わせることができ、他の実施形態では、すべての態様、または代替およびすべての独立請求項を互いに組み合わせることができる。
発明の符号化された音場の記述は、デジタル記憶媒体または非一時的な記憶媒体に記憶することができ、もしくは、無線伝送媒体またはインターネットなどの有線伝送媒体などの伝送媒体上で送信することができる。
いくつかの態様が装置の文脈において記載されてきたが、これらの態様は対応する方法の記述も表すことは明らかであり、ブロックまたはデバイスは方法ステップまたは方法ステップの機能に対応する。同様に、方法ステップの文脈において記載された態様は、対応する装置の対応するブロック、アイテムまたは機能の記述も表す。
特定の実現要求に依存して、本発明の実施形態は、ハードウェアにおいてまたはソフトウェアにおいて実施することができる。実施は、その上に記憶された電子的に読取可能な制御信号を有し、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(または協働することができる)、デジタル記憶媒体、例えばフロッピー(登録商標)ディスク、DVD、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリを用いて実行することができる。
本発明に係るいくつかの実施形態は、本願明細書に記載された方法の1つが実行されるように、プログラム可能なコンピュータシステムと協働することができる電子的に読取可能な制御信号を有するデータキャリアを備える。
一般に、本発明の実施形態は、コンピュータプログラム製品がコンピュータ上で動作するとき、方法の1つを実行するように動作可能であるプログラムコードによるコンピュータプログラム製品として実施することができる。プログラムコードは、例えば機械読取可能なキャリアに記憶することができる。
他の実施形態は、機械読取可能なキャリアまたは非一時的な記憶媒体に記憶された、本願明細書に記載された方法の1つを実行するためのコンピュータプログラムを備える。
言い換えれば、本発明の方法の一実施形態は、それ故に、コンピュータプログラムがコンピュータ上で動作するとき、本願明細書に記載された方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
本発明の方法の更なる実施形態は、それ故に、その上に記録され、本願明細書に記載された方法の1つを実行するためのコンピュータプログラムを備えるデータキャリア(またはデジタル記憶媒体またはコンピュータ読取可能媒体)である。
本発明の方法の更なる実施形態は、それ故に、本願明細書に記載された方法の1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えば、データ通信接続、例えばインターネットによって転送されるように構成することができる。
更なる実施形態は、本願明細書に記載された方法の1つを実行するように構成されたまたは適合された処理手段、例えばコンピュータまたはプログラマブルロジックデバイスを備える。
更なる実施形態は、本願明細書に記載された方法の1つを実行するためのコンピュータプログラムがその上にインストールされたコンピュータを備える。
いくつかの実施形態において、本願明細書に記載された方法のいくつかまたは全ての機能を実行するために、プログラマブルロジックデバイス(例えばフィールドプログラマブルゲートアレイ)を用いることができる。いくつかの実施形態において、フィールドプログラマブルゲートアレイは、本願明細書に記載された方法の1つを実行するために、マイクロプロセッサと協働することができる。一般に、方法は、好ましくはいかなるハードウェア装置によっても実行される。
上記の実施形態は、単に本発明の原理に対して説明したものである。本願明細書に記載された構成および詳細の修正および変更は、当業者にとって明らかであると理解される。それ故に、本発明は、間近に迫った特許請求の範囲のスコープのみによって制限され、本願明細書の実施形態の記載および説明の方法によって表された特定の詳細によって制限されないことが意図される。
参考文献

Alary, B., Politis, A., & Vaelimaeki, V. (2017). Velvet Noise Decorrelator. Baumgarte, F., & Faller, C. (2003). Binaural Cue Coding-Part I: Psychoacoustic Fundamentals and Design Principles. Speech and Audio Processing, IEEE Transactions on, 11(6), S. 509-519.
Blauert, J. (2001). Spatial hearing (3 Ausg.). Cambridge; Mass: MIT Press. Faller, C., & Baumgarte, F. (2003). Binaural Cue Coding-Part II: Schemes and Applications. Speech and Audio Processing, IEEE Transactions on, 11(6), S. 520-531.
Kendall, G. S. (1995). The Decorrelation of Audio Signals and Its Impact on Spatial Imagery. Computer Music Journal, 19(4), S. p 71-87.
Lauridsen, H. (1954). Experiments Concerning Different Kinds of Room-Acoustics Recording. Ingenioren, 47.
Pihlajamaeki, T., Santala, O., & Pulkki, V. (2014). Synthesis of Spatially Extended Virtual Source with Time-Frequency Decomposition of Mono Signals. Journal of the Audio Engineering Society, 62(7/8), S. 467-484.
Potard, G. (2003). A study on sound source apparent shape and wideness.
Potard, G., & Burnett, I. (2004). Decorrelation Techniques for the Rendering of Apparent Sound Source Width in 3D Audio Displays.
Pulkki, V. (1997). Virtual Sound Source Positioning Using Vector Base Amplitude Panning. Journal of the Audio Engineering Society, 45(6), S. 456-466.
Pulkki, V. (1999). Uniform spreading of amplitude panned virtual sources.
Pulkki, V. (2007). Spatial Sound Reproduction with Directional Audio Coding. J. Audio Eng. Soc, 55(6), S. 503-516.
Pulkki, V., Laitinen, M.-V., & Erkut, C. (2009). Efficient Spatial Sound Synthesis for Virtual Worlds.
Schlecht, S. J., Alary, B., Vaelimaeki, V., & Habets, E. A. (2018). Optimized Velvet-Noise Decorrelator.
Schmele, T., & Sayin, U. (2018). Controlling the Apparent Source Size in Ambisonics Unisng Decorrelation Filters.
Schmidt, J., & Schroeder, E. F. (2004). New and Advanced Features for Audio Presentation in the MPEG-4 Standard.
Verron, C., Aramaki, M., Kronland-Martinet, R., & Pallone, G. (2010). A 3-D Immersive Synthesizer for Environmental Sounds. Audio, Speech, and Language Processing, IEEE Transactions on, title=A Backward-Compatible Multichannel Audio Codec, 18(6), S. 1550-1561.
Zotter, F., & Frank, M. (2013). Efficient Phantom Source Widening. Archives of Acoustics, 38(1), S. 27-37.
Zotter, F., Frank, M., Kronlachner, M., & Choi, J.-W. (2014). Efficient Phantom Source Widening and Diffuseness in Ambisonics.

Claims (47)

  1. 空間内に定義された位置およびジオメトリを有する空間的に拡張された音源を再生するための装置であって、前記装置は、
    リスナー位置を受信するためのインターフェース(100)と、
    前記リスナー位置、前記空間的に拡張された音源のジオメトリに関する情報および前記空間的に拡張された音源の位置に関する情報を使用して、前記空間的に拡張された音源に関連付けられた二次元または三次元のハルの投影面への投影を計算するためのプロジェクタと、
    前記投影面を使用して、前記空間的に拡張された音源について少なくとも2つの音源の位置を計算するための音位置計算機と、
    前記位置で前記少なくとも2つの音源をレンダリングして、2つ以上の出力信号を有する前記空間的に拡張された音源の再生を得るためのレンダラであって、前記レンダラは異なる前記位置に対して異なる音信号を使用するように構成され、前記異なる音信号は前記空間的に拡張された音源に関連付けられている、レンダラ(160)と、
    を含む、装置。
  2. 検出器は追跡システムを使用して前記空間内における瞬間的なリスナー位置を検出するように構成される、または、前記インターフェース(100)は前記インターフェースを介して入力された位置データを使用するように構成される、請求項1に記載の装置。
  3. シーン記述を受信するように構成される装置であって、前記シーン記述は前記定義された位置に関する前記情報および前記空間的に拡張された音源の前記定義されたジオメトリに関する前記情報、ならびに前記空間的に拡張された音源に関連付けられた少なくとも1つの音信号を含み、
    前記装置はさらに、前記シーン記述を解析して、前記定義された位置に関する前記情報(341)、前記定義されたジオメトリに関する前記情報(331)および前記少なくとも1つの音源信号(301,302)を取り出すためのシーン記述パーサ(180)を備える、または、
    前記シーン記述は、前記空間的に拡張された音源について、少なくとも2つの基礎音信号(301,302)と、前記空間的に拡張された音源のジオメトリに関する前記情報(331)についてはそれぞれの基礎音信号の位置情報(321)とを含み、また前記音位置計算機(140)は、前記投影面を使用して前記少なくとも2つの音源の前記位置を計算するときに、前記少なくとも2つの基礎信号の位置情報を使用するように構成される、請求項1または2に記載の装置。
  4. 前記プロジェクタ(120)は、前記空間的に拡張された音源の前記ジオメトリに関する情報(331)を使用して前記空間的に拡張された音源の前記ハルを計算し、前記リスナー位置を使用して前記ハルを前記聴取者に向かう方向に投影して、前記投影面上に前記二次元または三次元のハルの前記投影を得るように構成される、または、
    前記プロジェクタ(120)は、前記空間的に拡張された音源の前記ジオメトリに関する前記情報(331)によって定義される前記空間的に拡張された音源のジオメトリを前記リスナー位置に向かう方向に投影し、投影されたジオメトリの前記ハルを計算して、前記投影面上に前記二次元または三次元のハルの前記投影を得るように構成される、請求項1ないし3のうちのいずれか1項に記載の装置。
  5. 前記音位置計算機(140)は、前記空間内における前記音源位置をハル投影データおよび前記リスナー位置から計算するように構成される、請求項1ないし4のうちのいずれか1項に記載の装置。
  6. 前記音位置計算機(140)は、前記少なくとも2つの音源が周囲の音源であり、且つ前記投影面上に位置するように、前記位置を計算するように構成される、または、
    前記音位置計算機(140)は、複数ある前記周囲の音源のうちの1つの周囲の音源の位置が、前記聴取者に対して前記投影面の右側および/または前記聴取者に対して前記投影面の左側、および/または、前記聴取者に対して前記投影面の頂部、および/または前記聴取者に対して前記投影面の前記底部に配置されるように計算するように構成される、請求項1ないし5のうちのいずれか1項に記載の装置。
  7. 前記レンダラ(160)は、
    既定のスピーカ設定のためのスピーカ信号を得るための前記音源の前記位置に依存したパンニング動作を使用して、または、
    ヘッドホン信号を得るための前記音源の前記位置に依存した、頭部伝達関数を使用するバイノーラルレンダリング動作を使用して、
    前記少なくとも2つの音源をレンダリングするように構成される、請求項1ないし6のうちのいずれか1項に記載の装置。
  8. 第1の数の関連する音源信号が前記空間的に拡張された音源に関連付けられ、前記第1の数は1以上であり、前記関連する音源信号は同一の空間的に拡張された音源に関連し、
    前記音位置計算機(140)は、前記空間的に拡張された音源の前記レンダリングに使用される音源の第2の数を決定し、前記第2の数は1よりも大きく、
    前記レンダラ(160)は、前記第1の数の音源信号(164)のうちの1つ以上から非相関信号を生成するための1つ以上のデコリレータ(166)を含み、前記第2の数が前記第1の数よりも大きい、請求項1ないし7のうちのいずれか1項に記載の装置。
  9. 前記インターフェース(100)は、前記空間における前記聴取者の経時変化する位置を受信するように構成され、
    前記プロジェクタ(120)は、前記空間における経時変化する投影を計算するように構成され、
    前記音位置計算機(140)は、前記空間における前記音源の経時変化する数または音源または経時変化する位置を計算するように構成され、
    前記レンダラ(160)は、前記経時変化する数の音源または前記空間における前記経時変化する位置での前記少なくとも2つの音源をレンダリングするように構成される、請求項1ないし8のうちのいずれか1項に記載の装置。
  10. 前記インターフェース(100)は、前記リスナー位置を6自由度で受信するように構成され、
    前記プロジェクタ(120)は、前記6自由度に依存して前記投影を計算するように構成される、請求項1ないし9のうちのいずれか1項に記載の装置。
  11. 前記プロジェクタ(120)は、
    前記聴取者の視線に垂直な平面等の画像平面として前記投影を計算する、または、
    前記聴取者の頭部の周囲の球面として前記投影を計算する、または、
    前記聴取者の頭部の中心から既定の距離に位置する投影面として前記投影を計算する、または、
    聴取者の頭部の空間的配置に対する球面座標から導出される方位角および仰角から空間的に拡張された音源のハルの前記投影を計算する、
    ように構成される、請求項1ないし10のうちのいずれか1項に記載の装置。
  12. 前記音位置計算機(140)は、前記位置が前記ハルの前記投影の周囲に均一に分布するように、または、前記位置が前記ハルの投影の極値点または周辺点に配置されるように、または、前記位置が前記ハルの前記投影の水平または垂直の極値点または周辺点に位置するように、前記位置を計算するように構成される、請求項1ないし11のうちのいずれか1項に記載の装置。
  13. 前記音位置計算機(140)は、周囲の音源のための位置に加えて、前記聴取者に対して前記凸包の前記投影上、またはその前、またはその後、またはその範囲内に位置する補助音源の位置を決定するように構成される、請求項1ないし12のうちのいずれか1項に記載の装置。
  14. 前記プロジェクタ(120)は、水平方向および垂直方向などの異なる方向に、変数または既定の量、もしくは種々の変数または既定の量の分、前記ハルの前記投影を前記ハルまたは前記投影の重心等に向かって追加的に収縮させるように構成される、請求項1ないし13のうちのいずれか1項に記載の装置。
  15. 前記音位置計算機(140)は、前記リスナー位置に対して左側の周囲の音源と右側の周囲の音源との間の前記投影面上に少なくとも1つの追加の補助音源が位置するように計算するように構成される、または、
    記音位置計算機(140)は、前記リスナー位置に対して左側の周囲の音源と右側の周囲の音源との間の前記投影面上に少なくとも1つの追加の補助音源が位置するように計算するように構成され、前記左側の周囲の音源と前記右側の周囲の音源との間の中間に追加の補助音源が1つだけ配置される、もしくは2つ以上の追加の補助音源が前記左側の周囲の音源と前記右側の周囲の音源との間に等間隔に配置される、請求項1ないし14のうちのいずれか1項に記載の装置。
  16. 前記音位置計算機(140)は、前記空間的に拡張された音源の周囲の前記聴取者の円運動を、前記インターフェースを介して受信した場合、または、固定された聴取者に関して前記空間的に拡張された音源の回転を、前記インターフェースを介して受信した場合に、好ましくは前記投影の重心の周囲で、前記空間的に拡張された音源の前記音の位置の回転を実行するように構成される、請求項1ないし15のうちのいずれか1項に記載の装置。
  17. 前記レンダラ(160)は各音源について、前記聴取者と前記音源との間の前記距離に依存する開き角度を受信し、前記開き角度に依存する前記音源をレンダリングするように構成される、請求項1ないし16のうちのいずれか1項に記載の装置。
  18. 前記レンダラ(160)は各音源についての距離情報を受信するように構成され、
    前記レンダラ(160)は、前記聴取者のより近くに配置されている音源が、前記聴取者からより遠く配置されかつ同じ音量を有する音源と比較して、より大きい音量でレンダリングされるように、前記距離に依存して前記音源をレンダリングするように構成される、請求項1ないし17のうちのいずれか1項に記載の装置。
  19. 前記音位置計算機(140)は、
    各音源について、前記聴取者に対する前記空間的に拡張された音源の前記距離と等しい距離を決定する、または、
    前記空間的に拡張された音源の前記ジオメトリへの前記投影上の前記音源の位置の逆投影によって、各音源の距離を決定する
    ように構成され、
    前記レンダラ(160)は、前記距離に関する前記情報を使用して前記音源を生成するように構成される、請求項1ないし18のうちのいずれか1項に記載の装置。
  20. 前記ジオメトリに関する前記情報(331)は、一次元の線または曲線、楕円、長方形、または多角形、もしくは多角形のグループ等の二次元領域、あるいは楕円体、直方体または多面体等の三次元物体として定義される、および/または、
    前記情報は、パラメトリック記述または多角形記述または前記多角形記述のパラメトリック表現として定義される、請求項1ないし19のうちのいずれか1項に記載の装置。
  21. 前記音位置計算機(140)は、前記空間的に拡張された音源までの前記聴取者の距離に依存して音源の数を決定するように構成され、前記音源の数は前記聴取者と前記空間的に拡張された音源との間の距離が大きい場合より小さい数と比べ、距離が小さい場合により大きくなる、請求項1ないし20のうちのいずれか1項に記載の装置。
  22. 前記空間的に拡張された音源によって導入される広がりに関する情報を受信するように構成され、
    前記プロジェクタ(120)は、前記広がりを少なくとも部分的に補償するために、前記広がりに関する前記情報を使用して、前記ハルまたは前記投影に収縮動作を適用するように構成される、請求項1ないし21のうちのいずれか1項に記載の装置。
  23. 前記レンダラ(160)は、前記音源の前記位置が、定義された許容範囲内で互いに同一である場合に、前記空間的に拡張された音源に関連付けられた基礎信号を例えばギブンス回転を使用して合成することによって、前記音源をレンダリングして回転基礎信号を取得し、前記回転基礎信号を前記位置においてレンダリングするように構成される、請求項1ないし22のうちのいずれか1項に記載の装置。
  24. 前記レンダラ(160)は、位置依存特性または方向依存特性に従って前記少なくとも2つの音源を生成するときに、前処理または後処理を実行するように構成される、請求項1ないし23のうちのいずれか1項に記載の装置。
  25. 前記空間的に拡張された音源は、前記ジオメトリに関する前記情報(331)として、前記空間的に拡張された音源が球面、および楕円体、線、直方体またはピアノ形状の空間的に拡張された音源であるとの情報を有する、請求項1ないし24のうちのいずれか1項に記載の装置。
  26. 前記空間的に拡張された音源についての圧縮された記述を表すビットストリームを受信するように構成され、ここで前記ビットストリームは、前記ビットストリームまたは前記装置によって受信された符号化されたオーディオ信号に含まれる前記空間的に拡張された音源のための異なる音信号の第1の数を示すビットストリーム要素(311)を含み、前記数は1以上であり、
    前記ビットストリーム要素(311)を読み込んで、前記ビットストリームまたは前記符号化されたオーディオ信号に含まれる前記空間的に拡張された音源のための異なる音信号の前記第1の数を取り出す
    ように構成され、
    前記音位置計算機(140)は、前記空間的に拡張された音源のレンダリングに使用される音源の第2の数を決定し、前記第2の数は1よりも大きく、
    前記レンダラ(160)は、前記ビットストリームから抽出された前記第1の数に依存して、1つ以上の非相関信号の第3の数を生成する(164,166)ように構成され、前記第3の数は前記第2の数と前記第3の数との間の差から導出される、請求項1ないし25のうちのいずれか1項に記載の装置。
  27. 空間的に拡張された音源についての圧縮された記述を表すビットストリームを生成するための装置であって、前記装置は、
    前記空間的に拡張された音源のための1つ以上の異なる音信号を提供するためのサウンドプロバイダ(200)と、
    前記空間的に拡張された音源のジオメトリに関する情報(331,341)を計算するためのジオメトリプロバイダ(220)と、
    前記圧縮されたサウンドシーンを表す前記ビットストリームを生成するための出力データ形成器(240)であって、前記ビットストリームは前記1つ以上の異なる音信号および前記ジオメトリに関する前記情報(331,341)を含む、出力データ形成器(240)と、
    を含む、装置。
  28. 前記ジオメトリに関する前記情報(331,341)は、空間内における前記空間的に拡張された音源の位置を示す位置情報(341)を含む、請求項27に記載の装置。
  29. 前記出力データ形成器(240)は、前記1つ以上の異なる音信号の各音信号についての前記個々の位置に関する前記情報(321)を、前記個々の位置に関する情報(321)が対応する前記音信号の前記位置を示すように、前記ビットストリームに組み込むように構成される、請求項27または28に記載の装置。
  30. 前記サウンドプロバイダ(200)は、前記空間的に拡張された音源のために少なくとも2つの異なる音信号を提供するように構成され、前記出力データ形成器(240)は、前記ビットストリームが前記少なくとも2つの異なる音信号(301,302)と、前記空間的に拡張された音源の前記ジオメトリに関する前記情報(331)については前記少なくとも2つの異なる音信号の各音信号の前記個々の位置に関する情報(321)とを含むように、前記ビットストリームを生成するように構成される、請求項27、28または29に記載の装置。
  31. 前記サウンドプロバイダ(200)は、
    単一または複数のマイクロフォンの位置または向きで自然音源の記録を実行する、または、
    単一または複数の基礎信号から1つ以上の非相関フィルタによって音信号を導出する、
    ように構成される、請求項27ないし30のうちのいずれか1項に記載の装置。
  32. 前記サウンドプロバイダ(200)は、オーディオ信号エンコーダ(260)を使用して前記1つ以上の音信号をビットレート圧縮するように構成され、
    前記出力データ形成器(240)は、前記ビットレート圧縮された前記空間的に拡張された音源のための1つ以上の音信号(301,302)を使用するように構成される、請求項27ないし31のうちのいずれか1項に記載の装置。
  33. 前記ジオメトリプロバイダ(220)は、前記空間的に拡張された音源のジオメトリから、パラメトリック記述または多角形記述または前記多角形記述のパラメトリック表現を導出するように構成され、前記出力データ形成器(240)は、前記ジオメトリに関する前記情報(331,341)として、前記パラメトリック記述または前記多角形記述または前記多角形記述の前記パラメトリック表現を前記ビットストリームに組み込むように構成される、請求項27ないし32のうちのいずれか1項に記載の装置。
  34. 前記出力データ形成器(240)は、前記ビットストリームに含まれるまたは前記ビットストリームに関連付けられた符号化されたオーディオ信号に含まれる、前記空間的に拡張された音源のための前記1つ以上の異なる音信号の数を示すビットストリーム要素(311)を前記ビットストリームに組み込むように構成され、前記数は1以上である、請求項27ないし33のうちのいずれか1項に記載の装置。
  35. 空間内に定義された位置およびジオメトリを有する空間的に拡張された音源を再生するための方法であって、前記方法は、
    リスナー位置を受信するステップと、
    前記リスナー位置、前記空間的に拡張された音源のジオメトリに関する情報(331)、および前記空間的に拡張された音源の前記位置に関する情報(341)を使用して、前記空間的に拡張された音源に関連付けられた二次元または三次元のハルの投影面上への投影を計算するステップと、
    前記投影面を使用して、前記空間的に拡張された音源について少なくとも2つの音源の位置を計算するステップと、
    前記位置で前記少なくとも2つの音源をレンダリングして、2つ以上の出力信号を有する前記空間的に拡張された音源の再生を得るためのレンダリングするステップであって、前記レンダリングするステップは異なる前記位置に対して異なる音信号を使用するステップを含み、前記異なる音信号は前記空間的に拡張された音源に関連付けられる、ステップと、
    を含む方法。
  36. 空間的に拡張された音源について圧縮された記述を表すビットストリームを生成する方法であって、前記方法は、
    前記空間的に拡張された音源のための1つ以上の異なる音信号を提供するステップと、
    前記空間的に拡張された音源のジオメトリに関する情報(331,341)を提供するステップと、
    前記圧縮されたサウンドシーンを表す前記ビットストリームを生成するステップであって、前記ビットストリームは前記1つ以上の異なる音信号(301,302)と、前記空間的に拡張された音源の前記ジオメトリに関する前記情報(331,341)とを含む、ステップと、
    を含む方法。
  37. 前記空間的に拡張された音源の前記ジオメトリに関する前記情報(331,341)は、空間における前記空間的に拡張された音源の位置情報(341)を含む、請求項36に記載の方法。
  38. 前記ビットストリームを生成するステップは、前記1つ以上の異なる音信号(301,302)の各音信号の個々の前記位置に関する情報(321)を前記ビットストリームに組み込むステップを含む、請求項36または37に記載の方法。
  39. 前記提供するステップは、前記空間的に拡張された音源のための少なくとも2つの異なる音信号を提供するステップを含み、前記ビットストリームを生成するステップは、前記ビットストリームが前記少なくとも2つの異なる音信号(301,302)と、前記少なくとも2つの異なる音信号の各音信号の前記個々の位置情報(321)とを含み、前記情報が前記空間的に拡張された音源の前記ジオメトリに関する情報(331,341)については対応する前記音信号の前記位置を示す、請求項36、37または38に記載の方法。
  40. 前記ビットストリームを生成するステップは、前記ビットストリームに含まれるまたは前記ビットストリームに関連付けられた符号化されたオーディオ信号に含まれる前記空間的に拡張された音源のための前記1つ以上の異なる音信号(301,302)の数を示すビットストリーム要素(311)を前記ビットストリームに組み込むステップを含み、前記数は1以上である、請求項36ないし39のうちのいずれか1項に記載の方法。
  41. 空間的に拡張された音源についての圧縮された記述を表すビットストリームであって、
    前記空間的に拡張された音源のための1つ以上の異なる音信号(301,302)と、
    前記空間的に拡張された音源のジオメトリに関する情報(331,341)と、
    を含むビットストリーム。
  42. 前記異なる音信号が2つ以上である場合に、対応する前記音信号の位置を示す、前記2つ以上の異なる音信号の各音信号の個々の位置情報(301,302)をさらに含む、請求項41に記載のビットストリーム。
  43. 前記1つ以上の異なる音信号の各音信号の個々の前記位置に関する情報(321)であって、前記個々の位置に関する前記情報(321)は前記空間的に拡張された音源の前記ジオメトリに関する前記情報(331,341)については前記対応する音信号の位置を示す、前記個々の位置に関する情報(321)をさらに含む、請求項41または42に記載のビットストリーム。
  44. 前記空間的に拡張された音源の前記ジオメトリに関する前記情報(331,341)は前記空間的に拡張された音源の位置情報(341)を含む、請求項41,42または43に記載のビットストリーム。
  45. 前記空間的に拡張された音源の前記ジオメトリに関する前記情報(331,341)については前記対応する音信号の第1の位置を示す、第1の音信号(301)のための第1の位置情報(321)と、
    前記空間的に拡張された音源の前記ジオメトリに関する前記情報(331 341)については対応する前記音信号の第2の位置を示す、第2の音信号(302)のための第2の位置情報(321)であって、前記第2の位置情報は前記第1の位置情報とは異なる、第2の位置情報とを含む、請求項41ないし44のいずれか1項に記載のビットストリーム。
  46. 前記ビットストリームに含まれる、または前記ビットストリームに関連付けられた符号化されたオーディオ信号に含まれる、前記空間的に拡張された音源のための前記少なくとも1つの異なる音信号の数を示すビットストリーム要素(311)をさらに含み、前記数は1または1よりも大きい、請求項40ないし45いずれか1項に記載のビットストリーム。
  47. コンピュータまたはプロセッサ上で動作しているときに、請求項35ないし40のうちのいずれか1つの方法を実行するためのコンピュータプログラム。
JP2023189461A 2018-12-19 2023-11-06 空間的に拡張された音源を再生するための装置および方法、または、空間的に拡張された音源からビットストリームを生成するための装置および方法 Pending JP2024020307A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP18214182.0 2018-12-19
EP18214182 2018-12-19
JP2021535562A JP2022515998A (ja) 2018-12-19 2019-12-17 空間的に拡張された音源を再生するための装置および方法、または、空間的に拡張された音源からビットストリームを生成するための装置および方法
PCT/EP2019/085733 WO2020127329A1 (en) 2018-12-19 2019-12-17 Apparatus and method for reproducing a spatially extended sound source or apparatus and method for generating a bitstream from a spatially extended sound source

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2021535562A Division JP2022515998A (ja) 2018-12-19 2019-12-17 空間的に拡張された音源を再生するための装置および方法、または、空間的に拡張された音源からビットストリームを生成するための装置および方法

Publications (1)

Publication Number Publication Date
JP2024020307A true JP2024020307A (ja) 2024-02-14

Family

ID=65010413

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2021535562A Pending JP2022515998A (ja) 2018-12-19 2019-12-17 空間的に拡張された音源を再生するための装置および方法、または、空間的に拡張された音源からビットストリームを生成するための装置および方法
JP2023189461A Pending JP2024020307A (ja) 2018-12-19 2023-11-06 空間的に拡張された音源を再生するための装置および方法、または、空間的に拡張された音源からビットストリームを生成するための装置および方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2021535562A Pending JP2022515998A (ja) 2018-12-19 2019-12-17 空間的に拡張された音源を再生するための装置および方法、または、空間的に拡張された音源からビットストリームを生成するための装置および方法

Country Status (13)

Country Link
US (2) US11937068B2 (ja)
EP (1) EP3900401A1 (ja)
JP (2) JP2022515998A (ja)
KR (2) KR20240005112A (ja)
CN (1) CN113316943B (ja)
AU (1) AU2019409705B2 (ja)
BR (1) BR112021011170A2 (ja)
CA (2) CA3199318A1 (ja)
MX (1) MX2021007337A (ja)
SG (1) SG11202106482QA (ja)
TW (1) TWI786356B (ja)
WO (1) WO2020127329A1 (ja)
ZA (1) ZA202105016B (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4091344A1 (en) * 2020-01-14 2022-11-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for reproducing a spatially extended sound source or apparatus and method for generating a description for a spatially extended sound source using anchoring information
CN117714967A (zh) 2020-03-02 2024-03-15 奇跃公司 沉浸式音频平台
CN114067810A (zh) * 2020-07-31 2022-02-18 华为技术有限公司 音频信号渲染方法和装置
KR102658471B1 (ko) * 2020-12-29 2024-04-18 한국전자통신연구원 익스텐트 음원에 기초한 오디오 신호의 처리 방법 및 장치
AU2022258764A1 (en) * 2021-04-14 2023-10-12 Telefonaktiebolaget Lm Ericsson (Publ) Spatially-bounded audio elements with derived interior representation
WO2022229319A1 (en) * 2021-04-29 2022-11-03 Dolby International Ab Methods, apparatus and systems for modelling audio objects with extent
WO2023061965A2 (en) * 2021-10-11 2023-04-20 Telefonaktiebolaget Lm Ericsson (Publ) Configuring virtual loudspeakers
WO2023083753A1 (en) * 2021-11-09 2023-05-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for synthesizing a spatially extended sound source using modification data on a potentially modifying object
WO2023083876A2 (en) * 2021-11-09 2023-05-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Renderers, decoders, encoders, methods and bitstreams using spatially extended sound sources
WO2023242145A1 (en) * 2022-06-15 2023-12-21 Dolby International Ab Methods, systems and apparatus for acoustic 3d extent modeling for voxel-based geometry representations
CN115408442B (zh) * 2022-08-15 2023-03-10 云南大学 基于扩展空间同位模式的土地覆盖分布关系挖掘方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3528284B2 (ja) * 1994-11-18 2004-05-17 ヤマハ株式会社 3次元サウンドシステム
AU2001250802A1 (en) * 2000-03-07 2001-09-17 Sarnoff Corporation Camera pose estimation
JP4751722B2 (ja) * 2002-10-14 2011-08-17 トムソン ライセンシング オーディオシーンにおける音源のワイドネスを符号化および復号化する方法
WO2004036955A1 (en) 2002-10-15 2004-04-29 Electronics And Telecommunications Research Institute Method for generating and consuming 3d audio scene with extended spatiality of sound source
JP2007003989A (ja) * 2005-06-27 2007-01-11 Asahi Kasei Homes Kk 音環境解析シミュレーションシステム
CA2820208C (en) 2008-07-31 2015-10-27 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Signal generation for binaural signals
EP2564601A2 (en) 2010-04-26 2013-03-06 Cambridge Mechatronics Limited Loudspeakers with position tracking of a listener
JP2015509212A (ja) * 2012-01-19 2015-03-26 コーニンクレッカ フィリップス エヌ ヴェ 空間オーディオ・レンダリング及び符号化
ES2606678T3 (es) 2012-08-31 2017-03-27 Dolby Laboratories Licensing Corporation Presentación de sonido reflejado para audio con base de objeto
EP2733964A1 (en) * 2012-11-15 2014-05-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Segment-wise adjustment of spatial audio signal to different playback loudspeaker setup
US9495968B2 (en) * 2013-05-29 2016-11-15 Qualcomm Incorporated Identifying sources from which higher order ambisonic audio data is generated
US10262462B2 (en) * 2014-04-18 2019-04-16 Magic Leap, Inc. Systems and methods for augmented and virtual reality
EP3275213B1 (en) * 2015-05-13 2019-12-04 Huawei Technologies Co., Ltd. Method and apparatus for driving an array of loudspeakers with drive signals
JP6786834B2 (ja) * 2016-03-23 2020-11-18 ヤマハ株式会社 音響処理装置、プログラムおよび音響処理方法
KR20170125660A (ko) * 2016-05-04 2017-11-15 가우디오디오랩 주식회사 오디오 신호 처리 방법 및 장치
JP7039494B2 (ja) 2016-06-17 2022-03-22 ディーティーエス・インコーポレイテッド 近/遠距離レンダリングを用いた距離パニング
US11096004B2 (en) * 2017-01-23 2021-08-17 Nokia Technologies Oy Spatial audio rendering point extension

Also Published As

Publication number Publication date
SG11202106482QA (en) 2021-07-29
MX2021007337A (es) 2021-07-15
BR112021011170A2 (pt) 2021-08-24
US11937068B2 (en) 2024-03-19
TWI786356B (zh) 2022-12-11
WO2020127329A1 (en) 2020-06-25
AU2019409705B2 (en) 2023-04-06
CA3123982A1 (en) 2020-06-25
JP2022515998A (ja) 2022-02-24
CA3199318A1 (en) 2020-06-25
CN113316943A (zh) 2021-08-27
KR102659722B1 (ko) 2024-04-23
KR20240005112A (ko) 2024-01-11
AU2019409705A1 (en) 2021-08-12
CN113316943B (zh) 2023-06-06
EP3900401A1 (en) 2021-10-27
TW202027065A (zh) 2020-07-16
US20210289309A1 (en) 2021-09-16
US20240179486A1 (en) 2024-05-30
CA3123982C (en) 2024-03-12
KR20210101316A (ko) 2021-08-18
ZA202105016B (en) 2022-04-28

Similar Documents

Publication Publication Date Title
CN113316943B (zh) 再现空间扩展声源的设备与方法、或从空间扩展声源生成比特流的设备与方法
KR102540642B1 (ko) 다중-층 묘사를 이용하여 증강된 음장 묘사 또는 수정된 음장 묘사를 생성하기 위한 개념
AU2021236362B2 (en) Apparatus and method for synthesizing a spatially extended sound source using cue information items
US20220377489A1 (en) Apparatus and Method for Reproducing a Spatially Extended Sound Source or Apparatus and Method for Generating a Description for a Spatially Extended Sound Source Using Anchoring Information
CA3237593A1 (en) Renderers, decoders, encoders, methods and bitstreams using spatially extended sound sources
RU2780536C1 (ru) Оборудование и способ для воспроизведения пространственно протяженного источника звука или оборудование и способ для формирования потока битов из пространственно протяженного источника звука
RU2808102C1 (ru) Оборудование и способ для синтезирования пространственно протяженного источника звука с использованием информационных элементов сигнальных меток
TW202337236A (zh) 用以使用基本空間扇區合成空間擴展音源之裝置、方法及電腦程式

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231205

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231205