JP6329629B2

JP6329629B2 - 領域の音場データを圧縮および解凍するための方法および装置

Info

Publication number: JP6329629B2
Application number: JP2016530874A
Authority: JP
Inventors: ヨハネスノヴァク; クリストフスラドチェック
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ; イルメナウテヒニッシェ大学
Priority date: 2013-11-14
Filing date: 2014-11-05
Publication date: 2018-05-23
Anticipated expiration: 2034-11-05
Also published as: WO2015071148A1; CN105766002A; CN105766002B; US20160255452A1; DE102013223201B3; EP3069530B1; EP3069530A1; JP2017500782A

Description

本発明は、音声技術に関し、特に、空間的な音場データを圧縮することに関する。

室内の音響描写は、たとえば、ヘッドホン、２つから平均的なスピーカの数、すなわち、１０個のスピーカを有するスピーカの配列の形式における制御再生配列に対して、または、それらが、波面合成法（ＷＦＳ：ＷａｖｅＦｉｅｌｄＳｙｎｔｈｅｓｉｓ）において使用されるように、より多くのスピーカを有するスピーカに対して、非常に関心がある。

一般の空間音声符号化に対して、異なる方法が存在する。１つの方法は、たとえば、ＭＰＥＧサラウンドの場合のように、たとえば、事前に定義されるスピーカの位置における異なるスピーカに対する異なるチャンネルを生成することである。このことによって、特定のそして最適な中心位置における再生される室内において位置されるリスナーは、再生された音場に対して空間感覚を得る。

空間または室内の代替の描写は、そのインパルス応答によって室内を描写することである。たとえば、音源が、室内または領域の範囲内のどこかに配置される場合、この室内または領域は、２次元の領域の場合におけるマイクロホンの円形配列によって、または、３次元の領域の場合における全方位性によって計測される。たとえば、多くのマイクロホン、たとえば、３５０個のマイクロホンを有する全方位性マイクロホン配列が考慮される場合、室内の計測は、以下の通りに実行される。インパルスは、マイクロホン配列の内部または外部で特定の位置において生成される。それから、各マイクロホンは、このインパルス、すなわち、入力レスポンスへの応答を計測する。反響の特徴がどのように強いのかに応じて、より長いあるいはより短いインパルス応答が計測される。このようにして、大きさの次数に関して、たとえば、大きな境界の測定値は、たとえば、インパルス応答が１０秒以上少なくとも、パルス応答が１０秒以上で充分であることを示した。

３５０個のインパルス応答のこの種のセットは、インパルスが生成された音源の特定の位置に対してこの室内の音の特徴を描写する。換言すれば、正確に、音源が、インパルス応答が生成された位置に配置される場合、インパルス応答のこのセットは、領域の音場データを表す。ソースが他の位置に配置される場合、さらに、室内を測定するために、すなわち、室内の音の特徴を検出するために、提示される手続は、たとえば、外側の配列（しかし、配列の範囲内）である、あらゆる他の位置に対して繰り返されなければならない。たとえば、音楽家のカルテットが演奏している場合、ミュージックホールは、音場に関して検出される。ここで、個々の音楽家は、異なる４つの位置において配置しており、３５０個のインパルス応答は、上記の例において、４つの位置のそれぞれに対して計測され、そして、これら４×３５０＝１４００のインパルス応答が、そのとき、領域の音場データを表現する。

インパルス応答の持続時間は、非常に価値をもち、そのとき、４つのみでなく、より多くの位置に関する室内の音の特徴のより詳細な表現が望ましいので、特に、インパルス応答が１０秒以上の長さを確かに獲得することを考慮する場合、大量のインパルス応答データが結果として得られる。

空間音声符号化のための方法は、たとえば、マルチチャネル音声信号またはオブジェクトベースの空間音声シーンのビットレートの効果的な符号化を許容している、空間音声符号化（ＳＡＣ：ＳｐａｔｉａｌＡｕｄｉｏＣｏｄｉｎｇ）［１］または空間音声オブジェクト符号化（ＳＡＯＣ：ＳｐａｔｉａｌＡｕｄｉｏＯｂｊｅｃｔＣｏｄｉｎｇ）である。空間インパルス応答レンダリング（ＳＩＲＲ：ＳｐａｔｉａｌＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅＲｅｎｄｅｒｉｎｇ）［３］およびさらなる発展方向音声符号化（ＤｉｒＡｃ：ＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｏＣｏｄｉｎｇ）［４］は、パラメータ符号化方法であり、そして、周波数帯の範囲内における拡散の推定と同様に、音の到来方向（ＤＯＡ：ＤｉｒｅｃｔｉｏｎｏｆＡｒｒｉｖａｌ）の時間依存的な推定に基づく。ここで、分類は、非拡散および拡散音場の間においてなされる。［５］は、全方位性マイクロホンの配列データの無損失性圧縮およびより高次アンビソニック信号の符号化に取り組んでいる。圧縮は、チャネル間（チャネル間の冗長性）における冗長なデータを使用することによって、得られる。

［６］における試験は、バイノーラル再生における前半から後半の音場の別々の考慮を示す。頭の運動が考慮される動的なシステムに対して、フィルタ長さが、リアルタイムの前半の音場のみをコンボリューションすることによって最適化される。後半の音場に対して、単に１つのフィルタだけが、知覚された品質を低減することなく全ての方向に対して満足する。［７］において、頭部伝達関数（ＨＲＴＦ：Ｈｅａｄ−ＲｅｌａｔｅｄＴｒａｎｓｆｅｒＦｕｎｃｔｉｏｎｓ）は、球面調和レンジにおける球面において表される。両耳間相互相関および時空間相関における球面調和の異なる次数による異なる精度の影響は、分析的に調べられる。これが、拡散音場におけるオクターブ・バンドにおいて起こる。

[1] Herre, J et al (2004) Spatial Audio Coding: Next-generation efficient and compatible coding of multi-channel audio AES Convention Paper 6186 presented at the 117th Convention, San Francisco, USA

[2] Engdegard, J et al (2008) Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding, AES Convention Paper 7377 presented at the 125th Convention, Amsterdam, Netherlands

[3] Merimaa J and Pulkki V (2003) Perceptually-based processing of directional room responses for multichannel loudspeaker reproduction, IEEE Workshop on Applications of Signal Processing to Audio and Acoustics

[4] Pulkki, V (2007) Spatial Sound Reproduction with Directional Audio Coding, J. Audio Eng. Soc., Vol. 55. No.6

[5] Hellerud E et al (2008) Encoding Higher Order Ambisonics with AAC AES Convention Paper 7366 presented at the 125th Convention, Amsterdam, Netherlands

[6] Liindau A, Kosanke L, Weinzierl S (2010) Perceptual evaluation of physical predictors of the mixing time in binaural room impulse responses AES Convention Paper presented at the 128th Convention, London, UK

[7] Avni, A and Rafaely B (2009) Interaural cross correlation and spatial correlation in a sound field represented by spherical harmonics in Ambisonics Symposium 2009, Graz, Austria

低ビット・レートのエンコーダ−デコーダスキームは、［８］において記載される。エンコーダは、再生される音場を描写するコンポジット音声情報信号、および方向ベクトルまたはステアリング制御信号を生成する。スペクトルは、サブバンドに分解される。制御するために、優位な方向は、各サブバンドにおいて評価される。認識される空間音声シーンに基づいて、［９］は、周波数領域において空間音声エンコーダ・フレームワークを記述する。時間的周波数依存の方向ベクトルは、入力音声シーンを記述する。

［１０］は、時間および周波数領域におけるパラメータチャネル・ベースの音声符号化方法を記載する。［１１］は、１つまたは数個のオブジェクトベース・キュー符号化を使用したバイノーラルキュー符号化（ＢＢＣ：Ｂｉｎａｕｒａｌ−Ｃｕｅ−Ｃｏｄｉｎｇ）を記載する。それは、聴覚シーンの方向、幅、およびエンベロープを含む。［１２］は、アンビソニックによる再生のための球面配列データを処理することに関する。このことにより、たとえば、ノイズのような測定エラーによるシステムのディストーションが等しくなる。［１３］において、チャネル・ベースの符号化方法が記載され、そして、それは、個々の音声オブジェクトと同様に、スピーカの位置にも関する。［１４］において、マトリックス・ベースの符号化方法が提示され、そして、それは、３よりも高次のアンビソニック音場のリアルタイム伝送を許容する。

［１５］において、空間音声データを符号化する方法が記載され、そして、それは再生システムから独立している。このことにより、入力データは２つのグループに分けられ、第１のグループは、高い局所化を必要としている音声を含み、一方、第２のグループは、局所化のために充分に低い次数のアンビソニックに関して記載される。第１のグループにおいて、信号は、メタデータを有する一組の、モノラル・チャネルに符号化される。それぞれのチャネルが再生され、いかなる瞬間に対する方向情報である場合、メタデータは、時間情報を含む。再生において、音声チャネルは、従来のパニング・アルゴリズムのために復号化され、ここで、再生システムは、公知でなければならない。第２のグループにおける音声は、異なるアンビソニックの次数のチャネルにおいて符号化される。復号化の間、再生システムに対応するアンビソニックの次数が使用される。

[8] Dolby R M (1999) Low-bit-rate spatial coding method and system, EP 1677576 A3

[9] Goodwin M and Jot J-M (2007) Spatial audio coding based on universal spatial cues, US 8,379,868 B2

[10] Seefeldt A and Vinton M (2006) Controlling spatial audio coding parameters as a function of auditory events, EP 2296142 A2

[11] Faller C (2005) Parametric coding of spatial audio with object-based side information, US 8340306 B2

[12] Kordon S, Batke J-M, Krueger A (2011) Method and apparatus for processing signals of a spherical microphone array on a rigid sphere used for generating an ambisonics representation of the sound field, EP 2592845 A1

[13] Corteel E and Rosenthal M (2011) Method and device for enhanced sound field reproduction of spatially encoded audio input signals, EP 2609759 A1

[14] Abeling S et al (2010) Method and apparatus for generating and for decoding sound field data including ambisonics sound field data of an order higher than three, EP 2451196 A1

[15] Arumi P and Sole A (2008) Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction, EP 2205007 A1

本発明の目的は、たとえば、圧縮するかまたは解凍されて、領域の音場データを扱うためのより効果的な概念を提供することである。

この目的は、請求項１に記載の音場データを圧縮するための装置、請求項１４に記載の音場データを解凍するための装置、請求項２１に記載の音場データを圧縮するための方法、請求項２２に記載の音場データを解凍するための方法、または、請求項２３に記載のコンピュータ・プログラムによって解決される。

領域の音場データを圧縮するための装置は、第１の部分および第２の部分に音場データを分割するためのデバイダと、第１の部分および第２の部分を調和成分に変換するための下流のコンバータとを含む。ここで、圧縮された音場データを得るために、変換は、第２の数が、１つまたは数個の２次の調和成分に変換され、第１の部分が、１次の調和成分に変換するように行い、１次は２次よりも高い。

このように、本発明によれば、調和成分への多くのインパルス応答のような音場データの変換が実行され、この変換は、既に、充分なデータの削減を結果として得る。たとえば、空間スペクトル交換によって得られうるように、調和成分は、インパルス応答より非常に簡潔な方法で音場を描写する。これ以外に、調和成分の次数は、容易に制御されうる。０次の調和成分は、（無指向性の）モノラル信号だけである。それは、いかなる音場の方向の描写も許容しない。対照的に、１次の追加の調和成分は、既に、ビーム成形に類似する比較的粗い方向の表現を許容する。２次の調和成分は、さらに方向情報を含むさらに正確な音場の描写の追加を許容する。アンビソニックにおいて、たとえば、成分の数は、２ｎ＋１に等しく、ｎは次数である。このように、０次に対して、単一の調和成分のみが存在する。１次までの変換のために、既に、３個の調和成分が存在する。５次の変換のために、たとえば、既に、１１個の調和成分が存在し、たとえば、３５０個のインパルス応答に対しては、１４次で充分であると見出された。換言すれば、これは、２９個の調和成分が３５０個のインパルス応答と同様の室内を描写することを意味する。３５０個の入力チャネルの値から２９個の出力チャネルへのこの変換は、既に、圧縮ゲインを結果として得る。加えて、すべての部分がその精度／次数に関して記載されている必要がないことが分かっているので、本発明によれば、異なる次数のインパルス応答のような音場の異なる位置の変換が実行される。

このための１つの実施例は、人の聴覚の方向認識が主に前半の反射から導出され、その一方で、典型的なインパルス応答における後半の／拡散反射はないか、またはごくわずかのみ方向認識に寄与される。このように、この例では、第１の部分は、調和成分領域における高次によって変換されるインパルス応答の前半の部分であり、その一方で、後半の拡散部分は、より低次によって、そして、部分的に０次に変換される。

他の実施例は、人の聴覚の方向認識が周波数に依存するということである。低周波数において、人の聴覚の方向認識は、比較的弱い。このように、音場データを圧縮するために、比較的低い次数を有する調和成分のより低いスペクトル領域を調和成分領域に変換するのに充分である。その一方で、人の聴覚の方向認識が非常に高い音場データの周波数領域は、高く、そして、好ましくは、多くの次数をともなって変換される。このために、音場データは、フィルタ・バンクによって個々のサブバンド音場データに分解され、そして、このれらのサブバンド音場データは、そのとき、異なる次数に分解される。ここで、再び、第１の部分は、より高い周波数においてサブバンド音場データを含み、その一方で、第２の部分は、より低い周波数において、サブバンド音場データを含む。また、非常に低い周波数は、０次、すなわち、単一の調和成分をともなって、再び、表現される。

更なる実施例において、時間的および周波数的処理の有利な特性が結合される。このように、とにかく、より高次をともなって変換される前半の部分は、再び、個々のバンドに適している次数が得られうるスペクトル構成要素に分解されうる。特に、フィルタ・バンクを取り除くことは、サブバンド信号、たとえば、ＱＭＦフィルタ・バンク（ＱＭＦ＝ｑｕａｎｄｒａｔｕｒｅｍｉｒｒｏｒｆｉｌｔｅｒｂａｎｋ（直交ミラーフィルタ））に対して使用される場合、サブバンド音場データを調和成分領域に変換するための試みは、さらに低減される。上記のほか、特に、調和成分、たとえば、円筒調和成分または球面調和成分の計算は、どの調和の次数まで計算されるかに依存しているので、計算された次数に関して音場データの異なる部分の区別は、計算効果の重要な低減を提供する。たとえば、２次まで調和成分を計算することは、著しくよりコンピュータでない効果、およびそれ故、計算時間、およびたとえば、１４次まで、それぞれ調和成分の計算より、モバイル機器のバッテリーパワーを、特に必要とする。

記載されている実施の形態において、それ故、コンバータは、部分、すなわち、音場データの第１の部分を変換するように構成され、そして、それは、第１の部分より音源の方向認識にとって重要でない第２の部分より高次を有する人の聴覚の方向認識にとってより重要である。

たとえば、音の人の聴覚の方向認識は、異なる方位角または仰角において異なることが考慮される場合、本発明は、部分に音場データの時間的な分解または、部分に音場データのスペクトル分解に対してだけでなく、別の可能性、すなわち、部分の空間的分解に対しても使用しうる。音場データが、たとえば、インパルス応答または他の音場の描写として存在する場合、ここで、特定の方位角／仰角が、個々の描写に割り当てられ、人の聴覚の方向認識がより大きい方位角／仰角の音場データは、他の方向から、音場データの空間的部分より高次をともなって圧縮されうる。

これに代えあるいはこれに加えて、個々の調和は、すなわち、本実施例において、１４次に間引かれ、２９個のモードが存在する。人の方向認識に応じて、個々のモードが保存され、そして、それは、音の到来に無関係の方向に対する音場にマップする。マイクロホン配列の計測の場合において、ヘッドの方向が配列球面に方向に向かわせることについて既知でないので、不確定度がある。しかしながら、ＨＲＴＦが球面調和によって表される場合、この不確定度は、取り除かれる。

時間的、スペクトルまたは空間的な方向における分解に加えて、音場データのさらなる分解が、ボリューム・クラス等における第１および第２の部分における音場データの分解のように、使用されうる。

実施の形態において、音響問題は、円筒または球面座標系、すなわち、円筒あるいは球面調和成分と呼ばれる、正規直交固有関数の完全な一組によって、描写される。音場の描写の高い空間精度については、データ・ボリュームおよびデータを処理するか操作する時間の計算が増加する。高品質の音声アプリケーションのために、高い精度が必要とされる。そして、それは、特に、リアルタイム・システムのために不都合である長い計算時間の、空間的な音場データの送信を困難にするデータの大きな量と、集中的な計算の試み、特に、モバイル機器に、高いエネルギー消費での問題が生じる。

最も高次の全ての部分が調和成分において変換されるところで、調和成分を計算することを次数の区別のため、計算時間がケースと比較して減らされるという点で、すべてのこれらの不利な点は本発明の実施の形態によって緩和されるかまたは除去される。本発明によれば、調和成分による表現が、特に、よりコンパクトであるという点で、データの大きな量が低減され、そして、また、異なる次数の追加の異なる部分が表現され、ここで、低次、たとえば、１次が、３つの調和成分のみを有するという点で、データの量の低減が得られ、一方で、たとえば、より高次では、たとえば、１４次として、ここでは、２９個の調和成分を有する。

低減された計算能力および低減されたメモリの消費は、自動的に、特に、モバイル機器における音場データの利用のために生じるエネルギー消費を低減する。

実施の形態において、空間音場の描写が、人の空間的知覚に基づく、円筒または球面調和領域において最適化される。特に、人の聴覚の空間的な知覚に依存する球面調和の次数の時間および周波数の依存計算の結合が、音場の知覚のオブジェクト品質を低減することなく、試みの重要な低減を結果として得る。本発明は損失性圧縮を表すので、明らかに、オブジェクト品質は低減される。しかしながら、特に、最後の受信は、人の聴覚であるので、この損失性圧縮は、無批判であり、そして、人の聴覚によって知覚されない音場成分かどうかが、再生される音場において存在するかあるいはしないか、を透明な再生に対して、重要ではない。

換言すれば、すなわち、ヘッドホンまたは、いくつか（たとえば、ステレオ）あるいは多くのスピーカ（たとえば、ＷＦＳ）を有するスピーカシステムをともなうバイノーラルで、再生／可聴化の間、人の聴覚は、最も重要な良質な基準である。本発明によれば、円筒または球面調和のような調和成分の正確さが、時間領域および／または周波数領域、あるいは他の領域において知覚的に低減される。このことにより、データおよび計算時間の低減が得られる。

本発明の好ましい実施の形態は、添付の図面に関して更に詳細に後述する。それらは、以下を示す。

図１ａは、実施の形態にかかる音場データを圧縮するための装置のブロック図である。図１ｂは、領域の圧縮された音場データを解凍するための装置のブロック図である。図１ｃは、時間的分解をともなう圧縮するための装置のブロック図である。図１ｄは、時間的分解の場合に対する解凍するための装置の実施の形態のブロック図である。図１ｅは、図１ｄの代替として解凍するための装置である。図１ｆは、音場データとして典型的な３５０個の測定されたインパルス応答をともなう時間的およびスペクトル分解をともなう発明を適用するための実施例である。図２ａは、スペクトル分解をともなう圧縮するための装置のブロック図である。図２ｂは、サブサンプリングされたフィルタ・バンクの実施の形態、およびサブサンプリングされたサブバンド音場データのシーケンス変換を示す。図２ｃは、図２ａに示されるスペクトル分解の実施例に対する解凍のための装置である。図２ｄは、スペクトル分解のためのデコンプレッサの代替の実施態様である。図３ａは、本発明の他の実施の形態にかかる特定の分析／合成エンコーダをともなう概略ブロック図である。図３ｂは、時間的およびスペクトル分解をともなう実施の形態の詳細な表現を示す。図４は、インパルス応答の概略図である。図５は、可変的な次数をともなう調和成分領域における時間またはスペクトル領域の変換のブロック図である。図６は、サブシーケンス可聴化をともなう時間領域またはスペクトル領域への調和成分領域の典型的な変換の表現である。

それらが、入力１０でデバイダ１００に入力するように、図１ａは、領域の音場データを圧縮するための装置または方法のブロック図を示す。デバイダ１００は、音場データを、第１の部分１０１および第２の部分１０２に分割するように構成される。上記のほか、コンバータは、１４０または１８０によって示される２つの機能性を有するように設けられる。特に、コンバータは、１４０で示されるように第１の部分１０１を変換し、１８０で示されるように第２の部分１０２を変換するように構成される。特に、コンバータは、１つまたは数個の１次の調和成分１４１に第１の部分１０１を変換し、１つまたは数個の２次の調和成分１８２に第２の部分１０２を変換する。特に、１次、すなわち、調和成分１４１の基礎をなす次数は、２次よりも高い。換言すれば、より高次のコンバータ１４０が、低次のコンバータ１８０より多くの調和成分１４１を出力することを意味する。このように、コンバータ１４０が制御される次数ｎ₁は、コンバータ１８０が制御される次数ｎ₂よりも高く制御される。コンバータ１４０，１８０は、制御可能なコンバータでありうる。あるいは、ｎ₁およびｎ₂によって指し示される入力が、この実施の形態において存在しないように、次数が設定され、それ故、調整ができない。

図１ｂは、１次の第１の調和成分および１つまたは数個の２次の調和成分を含む圧縮された音場データ２０を解凍するための装置を示し、それらは、たとえば、１４１，１８２で図１ａによって出力される。しかしながら、解凍された音場データが、必ずしも、「生のフォーマット」において、調和成分１４１，１４２である必要があるというわけではない。その代り、図１ａにおいて、加えて、無損失性エントロピーコーダ、たとえば、ハフマン（Ｈｕｆｆｍａｎｎ）エンコーダまたは算術エンコーダは、さらに、調和成分を表すために最終的に必要とされるビットの数を低減するために設けられうる。入力インタフェース２００に入力されるデータストリーム２０は、図３ａに基づいて例示されるように、エントロピー符号化された調和成分および場合によりサイド情報で構成される。この場合、図１ａに関して、エンコーダ側におけるエントロピーエンコーダに適しているそれぞれのエントロピーデコーダは、入力インタフェース２００の出力で設けられている。このように、図１ｂにおいて例示されるように、１次の第１の調和成分２０１および２次の第２の調和成分２０２は、場合により、符号化されたエントロピーまたは既に復号化されたエントロピーまたは図１ａの１４１，１８２で存在するような「生のデータ」における実際の調和成分も表す。

調和成分の両方のグループは、デコーダまたはコンバータ／コンバイナ２４０に入力される。ブロック２４０は、２４０において例示されるような音場の解凍された表現を最終的に得るために、第１の部分および第２の部分の結合を使用することによって、ならびに、調和成分表現を時間領域表現への変換に使用することによって、圧縮された音場データ２０１，２０２を解凍するために構成される。信号処理器として構成されるデコーダ２４０は、それゆえ、一方では、球面調和成分領域から時間領域への変換を実行し、他方では、結合を実行するように構成される。変換および結合の間の次数は、異なる例に対して、図１ｄ,図１ｅまたは図２ｃ，図２ｄに関して例示されるように、変化しうる。

図１ｃは、実施の形態に係る領域の音場データを圧縮するための装置を示し、デバイダ１００は、時間的デバイダ１００ａとして構成される。特に、図１ａのデバイダ１００の実施態様である時間的デバイダ１１０ａは、音場データを、領域における第１の反射を含む第１の部分、および領域における第２の反射を含む第２の部分に分割するように構成され、第２の反射は、第１の反射よりも後の時間に発生する。このように、図４に基づいて、ブロック１００ａによって出力される第１の部分１０１は、図４のインパルス応答区域３１０を表し、その一方で、第２の後半部分は、図４のインパルス応答の区域３２０を表す。たとえば、分割の時間は、１００ｍｓでありうる。しかしながら、時間分割の異なるオプションが、前半および後半のように存在する。好ましくは、分割は、離散反射が、拡散反射に変化するところで配置される。室内に応じて、これは、時間内で変化ポイントでありえ、そして、最善の分割を供給するための概念が存在する。しかしながら、分割時間がより小さくされるという点で、前半および後半の部分への分割は、利用できるデータレートに基づいて実行され、より少ないビットレートが存在する。これは、ビットレートに関して有利である。なぜなら、できるだけ大きい低次のインパルス応答の部分が、調和成分領域に変換されるからである。

このように、図１ｃにおけるブロック１４０および１８０によって例示されるコンバータは、第１の部分１０１および第２の部分１０２を調和成分に変換するように構成され、ここで、最後に伝送および／またはストレージの目的のために出力インタフェース１９０によって出力されうる圧縮された音場を最終的に得るために、特に、コンバータは、第２の部分を１つまたは数個の２次の調和成分１８４に変換し、第１の部分１０１を１次の調和成分１４１に変換する。ここで、１次は２次よりも高い。

図１ｄは、時間的分割の実施例のためのデコンプレッサの実施態様を示す。特に、デコンプレッサは、第１の反射を有する第１の部分２０１および後半の反射を有する第２の部分２０２の結合、ならびに調和成分領域から時間領域への変換を使用することによって、圧縮された音場データを変換するように構成される。図１ｄは、結合が変換の後に起こる実施態様を示す。図１ｅは、結合が変換の前に起こる代替の実施態様を示す。特に、コンバータ２４１は、高次の調和成分を時間領域へ変換するように構成され、コンバータ２４２は、低次の調和成分を時間領域へ変換するように構成される。図４に関して、コンバータ２４１の出力は、レンジ２１０に対応するように何かを提供し、その一方で、コンバータ２４２は、レンジ３２０に対応する何かを提供する。ここで、しかしながら、損失性圧縮のため、ブリッジ２４１，２４２の出力での区域は、区域３１０，３２０と同一ではない。特に、しかしながら、少なくとも図４の区域３１０へブロック２４０の出力における区域の知覚的な類似性または同一性が存在し、その一方で、インパルス応答の後半部分３２０に対応するブロック２４２の出力における区域は、有意差を示し、それゆえ、単に、ほぼ、インパルス応答の曲線を表すだけである。しかしながら、これらの偏差は、人の方向認識に対して無批判である。なぜなら、人の方向認識は、いずれにしろ、インパルス応答の後半部分または拡散反射に基づいて、ほとんどまたは少しも基づかないからである。

図１ｅは、デコーダが、最初にコンバイナ２４５、そして、その後コンバータ２４４を含むような代替の実施態様を示す。図１ｅにおける実施の形態において、個々の調和成分は加算され、加算の結果は、最終的に時間領域表現を得るために変換される。それに反して、図１ｄの実施の形態において、可聴化のようなさらなる目的、すなわち、所望の空間印象をともなうレンダリング音信号に対して使用されうる図４に対応するインパルス応答を再び得るために、結合は、加算を含まないが、ブロック２４１の出力が、ブロック２４２の出力よりも、解凍されたインパルス応答において、より前半に配置される点で、シリアライゼーションではない。

図２ａは、周波数領域における分割が実行される本発明の代替の実施態様を示す。特に、図１ａのデバイダ１００は、異なるフィルタ・バンク・チャネル１０１，１０２における音場データを得るために、少なくとも音場データの部分をフィルタするために、図２ａの実施の形態におけるフィルタ・バンクとして実装される。図１ａの時間的分割が実装されない実施の形態において、フィルタ・バンクは、前半および後半部分の両方で得られる。その一方で、代替の実施の形態は、単に、音場データの前半部分は、フィルタ・バンクに入力され、その一方で、後半部分は、それ以上、スペクトル的に分解されない。

サブコンバータ１４０ａ，１４０ｂ，１４０ｃで構成されるコンバータは、分析フィルタ・バンク１００ｂの下流にある。コンバータ１４０ａ，１４０ｂ，１４０ｃは、各フィルタ・バンク・チャネルに対する１つまたは数個の調和成分を得るために、異なるフィルタ・バンク・チャネルに対する異なる次数を使用することによって、異なるフィルタ・バンク・チャネルにおいて、音場データを変換するように構成される。特に、コンバータは、第１の中心周波数をともなう第１のフィルタ・バンク・チャネルに対する１次の変換を実行し、そして、第２の中心周波数をともなう第２のフィルタ・バンク・チャネルに対する２次の変換を実行するように構成され、１次は２次よりも高く、最終的に、圧縮された音場表現を得るために、第１の中心周波数、すなわち、ｆ_nは、第２の中心周波数ｆ₁よりも高い。一般に、実施の形態に応じて、最も低い周波数帯に対して、低次は、中心の周波数帯よりも使用されうる。しかしながら、実施態様に応じて、図２ａにおいて示される実施の形態における中心周波数ｆ_nをともなうフィルタ・バンク・チャネルのような最も高い周波数帯が、たとえば、センター・チャネルよりも高い次数をともなって変換される必要があるというわけではない。その代わり、方向認識が最も高い領域において、最も高い次数が使われうる。その一方で、他の領域（それの一部は特定の高い周波数領域でもありうる）で、次数はより低い。なぜなら、これらの領域で、人の聴覚の方向認識もより低いからである。

図２ｂは、分析フィルタ・バンク１００ｂの詳細な実施態様を示す。図２ｂにおいて示される実施の形態において、それは、バンド・フィルタを含み、さらに、各フィルタ・バンク・チャネルに、下流のデシメータ１００ｃを含む。たとえば、バンド・フィルタおよびデシメータから構成されるフィルタ・バンクが使用された場合、デシメータの出力におけるデジタル・サンプルの数は、フィルタ・バンクによって分解される、時間領域における音場データのブロックのサンプルの数に対応するすべてのチャネルにわたって合計されるように、それは、６４チャネルを有し、各デシメータは、ファクタ１／６４をともなって取り除きうる。典型的なフィルタ・バンクは、実部または虚部のＱＭＦのフィルタ・バンクでありうる。好ましくは、インパルス応答の前半部分の各サブバンド信号は、最終的に、音場の描写の異なるサブバンド信号のために、異なるサブバンド信号に対して、異なる次数、すなわち、調和成分の異なる数を含む、円筒または好ましくは球面調和成分をともなう描写を得るために、図２ａに類似する、コンバータ１４０ａから１４０ｃによって調和成分に変換される。

図２ｃおよび図２ｄは、すなわち、図２ｃにおいて、結合およびサブシーケンス変換の異なる次数、または図２ｄに例示されるように、まずは、変換が実行され、そして、サブシーケンス結合、再び、図１ｂにおいて例示されるように、デコンプレッサの異なる実施態様を示す。特に、図２ｃにおいて示される実施の形態において、図１ｂのデコンプレッサ２４０は、再び、コンバータ２４４によって時間領域に変換される調和成分の全体の表現を得るために、異なるサブバンドから異なる調和成分の合計を実行するためのコンバイナ２４５を含む。このように、コンバイナ２４５における入力信号は、調和成分のスペクトル領域であり、その一方で、コンバイナ３４５の出力信号は、コンバータ２４４によって得られる時間領域への変換から、調和成分領域における表現を表す。

図２ｂに示される別の実施の形態において、ブロック２４１ａ，２４１ｂ，２４１ｃの出力信号は、図２ａまたは図２ｂのブロック１４０ａ，１４０ｂ，１４０ｃの出力信号に対応するように、各サブバンドに対する個々の調和成分は、最初、異なるコンバータ２４１ａ，２４１ｂ，２４１ｃによってスペクトル領域に変換される。それから、これらのサブバンド信号は、エンコーダ側（図２ｂのブロック１００ｃ）においてダウン・サンプリングする場合において、アップ・サンプリング機能も含みうる下流の合成フィルタ・バンクにおいて処理される。そして、合成フィルタ・バンクは、図１ｂのデコーダ２４０のコンバイナ機能を表す。このように、以下において示されるように、可聴化のために使用されうる解凍された音場の表現は、合成フィルタ・バンクの出力において示される。

図１ｆは、異なる次数の調和成分にインパルス応答の分解のための実施例を示す。後半の区域は、スペクトル的に分解せず、ゼロ次をともなって全体として変換されない。インパルス応答の前半の区域は、スペクトル的に分解される。次のバンドが５次をともなって既に処理されるとともに、たとえば、最も低いバンドは、１次によって処理される。そして、同じことが、方向／空間認識に対して、最も重要であるので、最後のバンドは、最も高い次数、すなわち、この例においては次数１４によって処理される。

図３ａは、本発明の全体のエンコーダ／デコーダスキーム、または全体のコンプレッサ／デコンプレッサを示す。

特に、図３ａにおいて示される実施の形態において、コンプレッサは、１またはＰＥＮＣによって示される図１ａの機能だけでなく、図１ｂにおいて構成されるデコーダＰＤＥＣ２を示す。上記のほか、コンプレッサは、心理音響学的モデル、たとえば、ＩＴＵによって標準化されるモデルＰＥＡＱを考慮することによって元の音場データとともにデコーダ２によって得られる解凍された音場データを比較するために構成されるコントロールＣＴＲＬ４も含む。

その結果、これらのコンバータが制御可能な方法で構成される場合、コントロール４は、音場データの異なる部分に対する個々のコンバータにおける次数のためのフィルタ・バンクまたは最適化されたパラメータにおいて、時間的分割または周波数的分割のような分割のための最適化されたパラメータを生成する。

分割情報、フィルタ・バンク・パラメータまたは次数のような制御パラメータは、図３ａにおける２によって例示されるデコーダまたはデコンプレッサに調和成分を含むビットストリームとともに伝送されうる。このように、コンプレッサ１１は、パラメータ・エンコーダＰＥＮＣ１およびパラメータ・デコーダＰＤＥＣ２と同様にコーデック制御のためのコントロール・ブロックＣＴＲＬ４から構成される。入力１０は、マイクロホン配列測定値からのデータである。コントロール・ブロック４は、エンコーダ１を初期化して、配列データを符号化するための全てのパラメータを供給する。ＰＥＮＣブロック１において、データは、時間領域および周波数領域において、聴覚に依存する分割の記載される方法に従って処理され、そして、データ伝送のために供給される。

図３ｂは、データ符号化および復号化のスキームを示す。入力データ１０は、まず、デバイダ１００ａによって前半の１０１および後半の音場１０２に分解される。少ないｎ個のバンドのフィルタ・バンク１００ｂによって、前半の音場１０１は、そのスペクトル成分ｆ₁…ｆ_nに分解され、そして、各々は、人の聴覚に適合される球面の調和（ｘ次のＳＨＤ＝ＳｐｈｅｒｉｃａｌＨａｒｍｏｎｉｃｓＤｅｃｏｍｐｏｓｉｔｉｏｎ）の次数をともなって分解される。球面調和へのこの分解は、好ましい実施の形態を表す。ここで、しかしながら、調和成分を生成するいくつかの音場分解も使用されうる。球面調和成分への分解が、次数に従って各バンドにおいて期間を変化させる計算時間を必要とするので、遅延ブロック３０６，３０４を有する遅延ラインにおける時間オフセットを修正することが好ましい。このように、それが、知覚的に低次をともなって計算された後、周波数領域は、コンバイナと呼ばれる、再構成ブロック２４５において再構成され、そして、さらなるコンバイナ２４３における後半の音場とともに再び結合される。

図３ａのコントロール・ブロックＣＴＲＬ４は、室内音響分析モジュールおよび音響心理学的モジュールを含む。ここで、コントロール・ブロックは、最適に、図３ａにおけるサイド情報３００と参照される符号化パラメータを適応するために、入力データ１０および図３ａのデコーダ２の出力データの両方を分析し、または、コンプレッサ１１において、エンコーダＰＥＮＣ１に直接的に供給される。入力信号１０から、室内音響パラメータは、抽出され、そして、それは、使用される配列構造のパラメータとともに符号化する初期のパラメータを供給する。それは、混合時間と呼ばれるような前半の音場および後半の音場の間の区別の時間と、球面調和のそれぞれの次数のようなフィルタ・バンクに対するパラメータの両方を含む。コンバイナ２４３によって出力されるように、たとえば、バイノーラル・インパルス応答の形式における出力は、品質を評価する聴覚器官モデルをともなう心理聴覚モデルを有する音響心理学的モジュールに導かれて、したがって、符号化しているパラメータを適応させる。その代わりに、コンセプトは、静的なパラメータをともなって動作しうる。エンコーダにおけるＰＥＤＣモジュール２と同様にコントロール・モジュールＣＴＲＬ４、またはコンプレッサ側１１は、そのとき、省略されうる。

人の聴覚に依存する円筒および球面配列データを処理し、伝送することが低減される場合、本発明は、そのデータおよび計算の効果において有利である。さらに、その方法において処理されたデータは、既存の圧縮方法において統合され、そして、それ故、追加のデータの低減を許容することは、さらに有利である。これは、たとえば、移動端末装置のようなバンドの限られた伝送システムにおいて有利である。さらなる効果は、高次でさえ球面調和成分におけるデータのリアルタイム処理を可能にする。本発明は、多くのフィールド、特に、円筒あるいは球面調和成分によって表される音響音場のフィールドにおいて適用されうる。これは、たとえば、円形かあるいは球面の配列による音場の分析において、実行される。分析された音場が聴覚化される場合、本発明のコンセプトが使用されうる。室内をシミュレーションする装置において、既設室を格納するためのデータベースが使用される。ここで、発明の概念は、省スペース、および高品質のストレージを許容する。球面領域の機能に基づく再生方法は、高次のアンビソニックまたはバイノーラルの合成として存在する。ここで、本発明は、計算時間およびデータ効果の低減を供給する。たとえば、これは、特に電子会議システムでデータ伝送に関して有利でありうる。

図５は、調整可能な次数、または少なくとも調整不可能でもありうる可変の次数をともなうコンバータ１４０または１８０の実施態様を示す。

コンバータは、時間−周波数変換ブロック５０２および下流のルーム変換（ｒｏｏｍｔｒａｎｓｆｏｒｍａｔｉｏｎ）ブロック５０４を含む。ルーム変換ブロック５０４は、計算規則５０８に従って作動するように構成される。計算規則において、ｎは次数である。次数に応じて、計算規則５０８は、次数がゼロの場合、たった一度だけ解決されるか、または、次数が５次までである場合、しばしば、解決され、上記の実施の形態においては、１４次までである。特に、時間−周波数変換要素５０２は、入力ライン１０１，１０２におけるインパルス応答を周波数領域に変換するように構成される。ここで、好ましくは、高速フーリエ変換が使用される。さらに、片側のスペクトルだけが、計算効果を低減するために転送される。それから、空間フーリエ変換は、参考図書（ＦｏｕｒｉｅｒＡｃｏｕｓｔｉｃｓ，ＳｏｕｎｄＲａｄｉａｔｉｏａｎｄＮｅａｒｆｉｅｌｄＡｃｏｕｓｔｉｃａｌＨｏｌｏｇｒａｐｈｙ，ＡｃａｄｅｍｉｃＰｒｅｓｓ，１９９９ｂｙＥａｒｌＧ．Ｗｉｌｌｉａｍｓ）において記載されるように、ルーム変換ブロック５０４において実行される。好ましくは、ルーム変換５０４は、音場分析のために最適化され、そして、同時に、高い数値解析精度および早い計算速度を供給する。

図６は、調和成分領域から時間領域への変換の好ましい実施の形態を示す。ここで、代わりとして、逆ルーム変換（ｉｎｖｅｒｓｅｒｏｏｍｔｒａｎｓｆｏｒｍａｔｉｏｎ）実装６０４に代わるものとして、平面波に分解し、そしてビーム形成するためのプロセッサ６０２が表される。両方のブロック６０２，６０４の出力信号は、代わりに、インパルス応答を生成するために、ブロック６０６へ入力されうる。逆ルーム変換６０４は、ブロック５０４において先の変換を逆転させるように構成される。あるいは、ブロック６０６における平面波への分解およびビーム形成は、分解方向の大きな量が一様に処理されうるという効果を有する。そして、それは、特に、視覚化または可聴化のために、高速処理に対して有利である。好ましくは、ブロック６０２は、実施態様に応じて、追加のビーム形成の係数と同様に、放射状のフィルタ係数を得る。それは、一定の指向性を有し、または、周波数に依存することもありうる。あるいは、ブロック６０２への入力信号は、モーダルな放射状のフィルタでありえ、そして、特に、球状の配列または異なる構成、すなわち、全方向性マイクロホンを有する開いた球体、カージオイドのマイクロホンをともなう開いた球体および全方向性のマイクロホンを有する剛球でありうる。インパルス応答を生成するためのブロック６０６は、ブロック６０２またはブロック６０４のデータからインパルス応答または時間領域信号を生成する。入力信号が、ある場所でのダウン・サンプリングされた場合、このブロックは、特に、スペクトルの上記除去された負の部分を再結合し、高速逆フーリエ変換を実行し、そして、リサンプリングを許容するか、もとのサンプリングレートへのサンプルレート変換を許容する。さらに、ウィンドウオプションが使用されうる。

ブロック５０２，５０４，６０２，６０４，６０６の機能に関する詳細は、Ｂｅｒｎｓｃｈｕｅｔｚｅｔａｌ．，ＩＣＳＡ−ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＳｐａｔｉａｌＡｕｄｉｏ，Ｄｅｔｍｏｌｄ，１０ｔｈ〜１３ｔｈ，１１年１１月による専門書「ＳｏｆｉＡＳｏｕｎｄＦｉｅｌｄＡｎａｌｙｓｉｓＴｏｏｌｂｏｘ」において、記載される。ここで、この専門書は、完全に本願明細書に引用される。

ブロック６０６は、解凍されたインパルス応答、たとえば、損失性インパルス応答の完全なセットを出力するように、さらに、構成されうる。ここで、ブロック６０８は、たとえば、３５０個のインパルス応答を、再び、出力する。しかしながら、可聴化に応じて、特定の再生シナリオのための選択または補間を提供するブロック６０８によって実行されうる再生のために最終的に必要とされるインパルス応答だけを出力するのが好まれる。たとえば、ブロック６１６において例示されるように、ステレオ再生が、２つのステレオスピーカの位置に応じることを意図する場合、それぞれのステレオスピーカの空間的な方向に対応するそれぞれのインパルス応答は、例えば、３５０個の再生されたインパルス応答から選択される。

それから、このインパルス応答について、プレフィルタが、そのインパルス応答に対応してフィルタの特徴を有するように、それぞれのスピーカのプレフィルタは、調整される。それから、再生される音声信号は、それぞれのプレフィルタを介して２つのスピーカへ導かれ、そして、最終的に、ステレオの可聴化のために所望の空間印象を生成するために再生される。

利用可能なインパルス応答の間で、インパルス応答は、スピーカが、実際の再生シナリオに配置されている特定の方向の中に存在する場合、好ましくは、２つまたは３つの最も近いインパルス応答が使用され、そして、補間が実行される。

別の実施の形態において、ここで、再生または可聴化が波面合成６１２によって生じ、「博士論文『ＳｐａｔｉａｌＳｏｕｎｄＤｅｓｉｇｎｂａｓｅｄｏｎＭｅａｓｕｒｅｄＲｏｏｍＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ』ｂｙＦｒａｎｋＭｅｌｃｈｉｏｒ，ＴＵＤｅｌｆｔｏｆｔｈｅｙｅａｒ２０１１」において詳細に例示されるように仮想ソースを介して前半および後半の反射の再生を実行することが好まれる。ここで、この専門書は、完全に本願明細書に引用したものとする。

特に、波面合成再生６１２において、ソースの反射は、前半の反射に対する特定の位置における４つのインパルス応答によって、そして、後半の反射に対する特定の位置における８つのインパルス応答によって再生される。選択ブロック６０８は、それから１２個の仮想位置に対して、１２個のインパルス応答を選択する。その結果、これらのインパルス応答は、割り当てられた位置とともに、ブロック６１２に配置されうる波面合成レンダラに供給され、そして、波面合成レンダラは、これらのインパルス応答を使用することによって、実際の既存のスピーカに対するスピーカ信号を計算する。その結果、それは、それぞれの仮想ソースをマップする。それは、高品質の室内の効果をともなうそれぞれの再生を得るために、スピーカによって出力される前に、このように、波面合成再生システムにおける各スピーカに対して、個々のプレフィルタは、最終的に再生された音声信号であるフィルタについて計算される。

本発明の他の実施態様は、ヘッドホン信号の生成、すなわち、領域の空間印象がヘッドホン再生を介して生成されるバイノーラルのアプリケーションの生成である。

主に、インパルス応答が上記の音場データとして例示されるけれども、他の音場データ、たとえば、量とベクトル、すなわち、たとえば、音圧および音速に従って音場データが、室内において特有の位置でも使用されうる。これらの音場データは、人の方向認識に関してより重要かあまり重要でないかに分割されえ、そして、調和成分に変換されうる。音場データは、別々の位置から領域における所定の位置まで、各々いかなるタイプのインパルス応答、たとえば、頭部伝達関数（ＨＲＴＦ）の機能またはバイノーラル室内インパルス応答（ＢＲＩＲ）の機能またはインパルス応答も含む。

好ましくは、室内は、球面配列によってサンプリングされる。それから、音場は、一組のインパルス応答として存在する。時間領域において、音場は、その前半および後半の部分において分解される。その後、両方のパーツは、それらの球面または円筒調和成分において分解される。相対的な方向情報が、前半の音場において存在するので、球面調和の高次は、低次に対して充分である後半の音場と比較して計算される。前半の部分は、比較的短く、たとえば、１００ｍｓであり、正確に、すなわち、多くの調和成分をともなって表され、その一方、後半の部分は、たとえば、１００ｍｓから２ｓまたは１０ｓの長さである。しかしながら、後半の部分は、より少ないか単一であるだけの調和成分によって表される。

さらなるデータの低減は、球面調和として表現の前に個々のバンドに前半の音場の分割のための結果として得る。このために、時間領域において、前半および後半の音場に分離した後、前半の音場は、フィルタ・バンクによってそのスペクトル部分に分解される。個々の周波数バンドをサブサンプリングすることによって、データの低減が得られる。そして、それは、著しく、調和成分の計算を速める。加えて、各周波数帯に対して、人の方向認識に応じて知覚的に充分な前半の次数が使用される。そして、低い周波数帯に対して、人の方向認識は低く、低次または最も低い周波数帯に対して、さらに、０次は十分である。その一方で、高いバンドにおいて、測定された音場の精度に関する最大の役立つ次数までより高い次数が必要とされる。デコーダまたはデコンプレッサ側において、完全なスペクトルが再構成される。その後、前半または後半の音場が再び結合される。データは、そして、可聴化に対して利用可能である。

いくつかの態様が、装置との関連で記載されるが、これらの態様も、対応する方法の説明を表わすことは明らかであり、装置のブロックあるいはデバイスは、それぞれの方法のステップ、または方法のステップの特徴に対応する。類似して、方法のステップとの関連で記載される態様は、装置に対応する、ブロック、アイテムまたは特徴の説明を表す。方法のステップのいくつかまたは全ては、たとえば、マイクロプロセッサ、プログラム可能なコンピュータ、または電子回路のようなハードウェア装置によって（または使用して）実行されうる。いくつかの実施の形態において、最も重要な方法のステップの１つ以上は、この種の装置によって実行されうる。

特定の実現要求に応じて、本発明の実施の形態は、ハードウェアにおいて、または、ソフトウェアにおいて、実行されうる。その実現態様は、それぞれの方法が実行されるように、プログラミング可能なコンピュータ・システムと協働するか、または、協働することができる、そこに格納された電子的に読み込み可能な制御信号を有するデジタル記憶媒体、例えば、フロッピー（登録商標）ディスク、ＤＶＤ、ブルーレイディスク、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、またはＦＬＡＳＨメモリ、ハードドライブ、または、他の磁気または光メモリを使用して実行されうる。従って、デジタル記憶媒体は、コンピュータ読み込み可能でもよい。

本発明による若干の実施の形態は、本願明細書において記載される方法のうちの１つが実行されるように、プログラミング可能なコンピュータ・システムと協働することができる電子的に読み込み可能な信号を有するデータキャリアを含む。

通常、本発明の実施の形態は、プログラムコードを有するコンピュータ・プログラム製品として実施され、コンピュータ・プログラム製品がコンピュータ上で実行する場合、プログラムコードは、方法のうちの１つを実行するために作動される。

プログラムコードは、機械可読キャリアに、例えば、格納されうる。

他の実施の形態は、機械可読キャリアに格納され、本願明細書において記載される方法のうちの１つを実行するためのコンピュータ・プログラムを含む。

換言すれば、従って、コンピュータ・プログラムがコンピュータ上で実行する場合、本発明の方法の実施の形態は、本願明細書において記載される方法のうちの１つを実行するためのプログラムコードを含むコンピュータ・プログラムである。

従って、本発明の方法の更なる実施の形態は、その上に記録され、本願明細書において記載される方法のうちの１つを実行するためのコンピュータ・プログラムを含むデータキャリア（または、デジタル記憶媒体、またはコンピュータ可読媒体）である。

従って、本発明の方法の更なる実施の形態は、本願明細書において記載される方法のうちの１つを実行するためのコンピュータ・プログラムを表しているデータストリームまたは一連の信号である。例えば、データストリームまたは一連の信号は、データ通信接続、例えば、インターネットを介して転送されるように構成されうる。

更なる実施の形態は、本願明細書において記載される方法のうちの１つを実行するために構成され、または適応される処理手段、例えば、コンピュータ、またはプログラミング可能な論理回路を含む。

更なる実施の形態は、その上にインストールされ、本願明細書において記載される方法のうちの１つを実行するためのコンピュータ・プログラムを有するコンピュータを含む。

本発明による更なる実施の形態は、レシーバに本願明細書に記載される方法のうちの１つを実行するためのコンピュータ・プログラムを転送するために構成される装置またはシステムを含む。伝送は、例えば、電子的にまたは光学的に実行されうる。レシーバは、例えば、コンピュータ、モバイル機器、メモリ素子等でもよい。装置またはシステムは、例えば、レシーバにコンピュータ・プログラムを転送するためのファイルサーバを含む。

いくつかの実施の形態において、プログラミング可能な論理回路（例えば、現場でプログラム可能なゲートアレイ（ＦＰＧＡ：ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ））が、本願明細書において記載されるいくつかまたは全ての機能を実行するために使用されうる。いくつかの実施の形態において、現場でプログラム可能なゲートアレイは、本願明細書において記載される方法の１つを実行するために、マイクロプロセッサと協働しうる。一般に、方法は、いくつかのハードウェア装置によって、好ましくは実行される。これは、普遍的に適用されうるハードウェア、たとえば、コンピュータプロセッサ（ＣＰＵ）またはＡＳＩＣのような方法のためのハードウェアである。

上述した実施の形態は、本発明の原則の例を表すだけである。本願明細書において記載される装置の修正および変更は、他の当業者にとって明らかであるものと理解される。従って、間近に迫った特許請求の範囲だけによってのみ制限され、ならびに、本願発明の記述および説明によって表された明細書の詳細な記載によっては、制限されない。

Claims

領域の音場データ（１０）を圧縮するための装置であって、前記装置は、
前記音場データ（１０）を、第１の部分（１０１）および第２の部分（１０２）に分割するためのデバイダ（１００）と、
前記第１の部分（１０１）および前記第２の部分（１０２）を調和成分（１４１，１８２）に変換するためのコンバータ（１４０，１８０）であって、圧縮された音場データを得るために、前記コンバータ（１４０，１８０）は、前記第２の部分（１０２）を１つまたは数個の第２の次数の調和成分（１４１）に変換し、そして、前記第１の部分（１０１）を第１の次数の調和成分に変換するように構成され、ここで、前記第１の部分（１０１）を表す前記調和成分の前記第１の次数は、前記第２の部分（１０２）を表す前記調和成分の前記第２の次数よりも高い、コンバータ（１４０，１８０）と、を含み、
ここで、前記デバイダ（１００）は、スペクトル分割を実行するように構成され、そして、異なるフィルタ・バンク・チャネル（１４０ａ，１４０ｂ，１４０ｃ）における音場データを得るために、前記音場データ（１０）の少なくとも一部をフィルタするためのフィルタバンク（１００ｂ）を含み、
前記コンバータは、前記異なるフィルタ・バンク・チャネル（１４０ａ，１４０ｂ，１４０ｃ）の、前記第１の部分（１０１）を表す第１のフィルタ・バンク・チャネル（１４０ａ）からのサブバンド信号のために、前記第１の次数の前記調和成分を算出し、そして、前記異なるフィルタ・バンク・チャネル（１４０ａ，１４０ｂ，１４０ｃ）の、前記第２の部分（１０２）を表す第２のフィルタ・バンク・チャネル（１４０ｃ）からのサブバンド信号のために、前記第２の次数の前記調和成分を算出するように構成され、前記第１のフィルタ・バンク・チャネル（１４０ａ）の中心周波数（ｆ_n）は、前記第２のフィルタ・バンク・チャネル（１４０ｃ）の中心周波数（ｆ₁）よりも高い、
装置。
前記コンバータ（１４０，１８０）は、前記第１の部分（１０１）についての前記第１の次数の前記調和成分を算出するために構成され、前記第１の部分（１０１）は、前記第２の部分（１０２）よりも人の聴覚の方向認識にとって重要である、請求項１に記載の装置。
前記デバイダ（１００）は、前記音場データ（１０）を前記領域における第１の反射を含む前記第１の部分、および前記領域における第２の反射を含む前記第２の部分に分割するために構成され、前記第２の反射は、前記第１の反射より時間的に後で生ずる、請求項１または請求項２に記載の装置。
前記デバイダ（１００）は、前記音場データ（１０）を、前記領域における第１の反射を含む前記第１の部分、および前記領域における第２の反射を含む前記第２の部分に分割するように構成され、前記第２の反射は、前記第１の反射より時間的に後で生じ、そして、前記デバイダ（１００）は、さらに、前記第１の部分をスペクトル部分（１０１，１０２）に分解し、そして、各々の前記スペクトル部分を１つまたは数個の異なる次数の調和成分に変換するように構成され、より高い周波数帯のスペクトル部分の次数は、より低い周波数帯のスペクトル部分の次数よりも高い、請求項１ないし請求項３のいずれかに記載の装置。
さらに、伝送またはストレージのための前記第１の次数または前記第２の次数についての表示を含むサイド情報（３００）とともに、前記１つまたは数個の前記第２の次数の調和成分（１８２）および前記第１の次数の前記調和成分（１４１）を供給するための出力インタフェース（１９０）を含む、請求項１ないし請求項４のいずれかに記載の装置。
前記音場データ（１０）は、３次元領域を描写し、そして、前記コンバータは、前記調和成分として円筒調和成分を算出するように構成され、または
前記音場データ（１０）は、３次元領域を描写し、そして、前記コンバータ（１４０，１８０）は、前記調和成分として球面調和成分を算出するように構成される、請求項１ないし請求項５のいずれかに記載の装置。
前記音場データ（１０）は、離散的信号の第１の数として存在し、
前記第１の部分（１０１）および前記第２の部分（１０２）のための前記コンバータ（１４０，１８０）は、調和成分の第２の全数を供給し、前記調和成分の第２の全数は、前記第１の部分（１０１）のための調和成分の第１の数と、前記第２の部分（１０２）のための調和成分の第２の数の合計であり、
前記調和成分の第２の全数は、前記離散的信号の第１の数よりも小さい、請求項１ないし請求項６のいずれかに記載の装置。
前記デバイダ（１００）は、音場データ（１０）として、前記領域における異なる位置に割り当てられる複数の異なるインパルス応答を使用するように構成される、請求項１ないし請求項７のいずれかに記載の装置。
前記インパルス応答は、頭部伝達関数（ＨＲＴＦ）、またはバイノーラル室内インパルス応答（ＢＲＩＲ）関数、または前記領域の所定の位置に対する前記領域におけるそれぞれ別個の点のインパルス応答である、請求項８に記載の装置。
前記音場の解凍された表現を得るために、前記第１および第２の部分（１０１，１０２）の結合を使用して、そして調和成分表現から時間領域表現への変換を使用して、前記圧縮された音場データを解凍するためのデコーダ（２）と、
前記第１の次数または第２の次数に関して前記デバイダ（１００）または前記コンバータ（１４０，１８０）を制御するためのコントローラ（４）であって、前記コントローラ（４）は、心理音響学的モジュールを使用して、前記解凍された音場データと前記音場データ（１０）とを比較し、そして、前記比較を使用して、前記デバイダ（１００）または前記コンバータ（１４０，１８０）を制御するように構成される、請求項１ないし請求項９のいずれかに記載の装置。
前記デコーダは、前記第２の次数の前記調和成分および前記第１の次数の前記調和成分（２４１，２４２）を変換し、そして、前記変換された調和成分の結合を実行するように構成されるか、または、
前記デコーダ（２）は、コンバイナ（２４５）において、前記第２の次数の前記調和成分および前記第１の次数の前記調和成分を結合し、そして、前記コンバイナ（２４５）における前記結合の結果を、調和成分領域から時間領域（２４４）に変換するように構成される、請求項１０に記載の装置。
前記デコーダは、異なる次数（１４０ａ，１４０ｂ）の異なるスペクトル部分の調和成分を変換し、
異なるスペクトル部分（３０４，３０６）について異なる処理時間を補い、
それを順に配列することによって、時間領域（２４４）に変換された前記第１の部分のスペクトル部分と前記時間領域（２４４）に変換された前記第２の部分の前記スペクトル部分を結合するように構成される、請求項１０に記載の装置。
第１の次数までの第１の調和成分（ＨＣ _n ，１４１）および第２の次数までの１つまたは数個の第２の調和成分（ＨＣ ₁ ，１８２）を含む圧縮された音場データを解凍するための装置であって、前記第１の調和成分（ＨＣ _n ，１４１）の前記第１の次数は、前記１つまたは数個の第２の調和成分（ＨＣ ₁ ，１８２）の前記第２の次数よりも高く、
前記圧縮された音場データを得るための入力インタフェース（２００）と、
解凍された音場の表現を得るために、第１の部分および第２の部分の結合を使用することによって、および調和成分表現を時間領域表現への変換を使用することによって、前記第１の調和成分（ＨＣ _n ，１４１）および前記第２の調和成分（ＨＣ ₁ ，１８２）を処理するためのプロセッサ（２４０）であって、前記第１の部分は、前記第１の調和成分（ＨＣ _n ，１４１）によって表現され、前記第２の部分は、前記第２の調和成分（ＨＣ ₁ ，１８２）によって表現される、プロセッサ（２４０）と、を含み、
ここで、前記第１の次数の前記第１の調和成分（ＨＣ_n ，１４１）は、第１のスペクトル領域（２４１ａ）を表し、そして、前記１つまたは数個の前記第２の次数の調和成分（ＨＣ₁ ，１８２）は、異なるスペクトル領域（２４１ｃ）を表し、
前記プロセッサ（２４０）は、時間領域における音場データの表現を得るために、前記第１の次数の前記調和成分（ＨＣ_n，１４１）を前記第１のスペクトル領域（２４１ａ）に変換し、前記１つまたは数個の前記第２の次数の第２の調和成分（ＨＣ₁，１８２）を前記異なるスペクトル領域（２４１ｃ）に変換し、そして、合成フィルタバンク（２４５）によって前記変換された調和成分を結合するように構成される、装置。
前記プロセッサ（２４０）は、
結合された調和成分を得るために、前記第１の調和成分（ＨＣ _n ，１４１）および前記第２の調和成分（ＨＣ ₁ ，１８２）を結合するためのコンバイナ（２４５）と、
前記結合された調和成分を時間領域に変換するためのコンバータ（２４４）と、
を含む、請求項１３に記載の装置。
前記プロセッサは、
前記第１の調和成分（ＨＣ _n ，１４１）および前記第２の調和成分（ＨＣ ₁ ，１８２）を時間領域に変換するためのコンバータ（２４１，２４２）と、
前記解凍された音場データを得るために、前記時間領域に変換された前記調和成分を結合するためのコンバイナ（２４３，２４５）と、
を含む、請求項１３に記載の装置。
前記プロセッサ（２４０）は、再生の配置（６１０，６１２，６１４）についての情報を得るように構成され、
前記プロセッサ（２４０）は、前記解凍された音場データ（６０２，６０４，６０６）を算出し、前記再生の配置についての前記情報に基づいて、再生の目的（６０８）のための前記解凍された音場データの前記音場データの部分を選択するように構成され、
前記プロセッサは、前記再生の配置のために必要とされる前記解凍された音場データの部分のみを算出するように構成される、請求項１３ないし請求項１５のいずれかに記載の装置。
前記第１の次数の前記第１の調和成分（ＨＣ _n ，１４１）は、領域の前半の反射を表し、前記第２の次数の前記第２の調和成分（ＨＣ ₁ ，１８２）は、前記領域の後半の反射を表し、そして、
前記プロセッサ（２４０）は、前記解凍された音場データを得るために、前記第１の調和成分（ＨＣ _n ，１４１）および前記第２の調和成分（ＨＣ ₁ ，１８２）を加え、前記加えた結果を時間領域に変換するように構成される、請求項１３ないし請求項１６のいずれかに記載の装置。
前記プロセッサは、変換のために、逆ルーム変換（６０４）および逆フーリエ変換（６０６）を実行するように構成される、請求項１３ないし請求項１７に記載の装置。
領域の音場データ（１０）を圧縮するための方法であって、前記方法は、
前記音場データ（１０）を、第１の部分（１０１）および第２の部分（１０２）に分割する（１００）ステップと、
前記第１の部分（１０１）および前記第２の部分（１０２）を調和成分（１４１，１８２）に変換する（１４０，１８０）ステップであって、圧縮された音場データを得るために、前記第２の部分（１０２）は、１つまたは数個の第２の次数の調和成分（１４１）に変換され、そして、前記第１の部分（１０１）は、第１の次数の調和成分に変換され、前記第１の部分（１０１）を表す調和成分の前記第１の次数は、前記第２の部分（１０２）を表す調和成分の前記第２の次数よりも高い、変換する（１４０，１８０）ステップと、を含み、
ここで、分割する（１００）ステップは、異なるフィルタ・バンク・チャネル（１４０ａ，１４０ｂ，１４０ｃ）における音場データを得るために、前記音場データ（１０）の少なくとも一部をフィルタするためのフィルタバンク（１００ｂ）でフィルタすることによるスペクトル分割を含み、そして、
変換するステップは、前記異なるフィルタ・バンク・チャネル（１４０ａ，１４０ｂ，１４０ｃ）の、前記第１の部分（１０１）を表す第１のフィルタ・バンク・チャネル（１４０ａ）からのサブバンド信号のための前記第１の次数の前記調和成分の算出を、そして、前記異なるフィルタ・バンク・チャネル（１４０ａ，１４０ｂ，１４０ｃ）の、前記第２の部分（１０２）を表す第２のフィルタ・バンク・チャネル（１４０ｃ）からのサブバンド信号のための前記第２の次数の前記調和成分の算出を表現し、前記第１のフィルタ・バンク・チャネル（１４０ａ）の中心周波数（ｆ_n）は、前記第２のフィルタ・バンク・チャネル（１４０ｃ）の中心周波数（ｆ₁）よりも高い、
方法。
第１の次数までの第１の調和成分（ＨＣ _n ，１４１）および１つまたは数個の第２の次数までの調和成分（ＨＣ ₁ ，１８２）を含む圧縮された音場データを解凍するための方法であって、前記第１の調和成分（ＨＣ _n ，１４１）の前記第１の次数は、前記１つまたは数個の第２の調和成分（ＨＣ ₁ ，１８２）の前記第２の次数よりも高く、前記方法は、
前記圧縮された音場データを得る（２００）ステップと、
前記音場の解凍された表現を得るために、第１の部分および第２の部分の結合を使用することによって、および調和成分表現から時間領域表現への変換を使用することによって、前記第１の調和成分（ＨＣ _n ，１４１）および前記第２の調和成分（ＨＣ ₁ ，１８２）を処理する（２４０）ステップであって、前記第１の部分は、前記第１の調和成分（ＨＣ _n ，１４１）によって表され、前記第２の部分は、前記第２の調和成分（ＨＣ ₁ ，１８２）によって表される、処理する（２４０）ステップと、を含み、
ここで、前記第１の次数の前記第１の調和成分（ＨＣ_n ，１４１）は、第１のスペクトル領域（２４１ａ）を表し、そして、前記１つまたは数個の前記第２の次数の調和成分（ＨＣ₁ ，１８２）は、異なるスペクトル領域（２４１ｃ）を表し、
処理する（２４０）ステップは、時間領域における音場データの表現を得るために、前記第１の次数の前記第１の調和成分（ＨＣ_n ，１４１）を前記第１のスペクトル領域（２４１ａ）に変換し、前記１または数個の前記第２の次数の第２の調和成分（ＨＣ₁ ，１８２）を前記異なるスペクトル領域（２４１ｃ）に変換し、そして、合成フィルタバンク（２４５）によって前記変換された調和成分を結合するように構成される、
方法。
プログラムコードがコンピュータ上で実行されると、前記コンピュータが請求項１９または請求項２０の方法を実行する、前記プログラムコードを有するコンピュータ・プログラム。