JP6329629B2 - 領域の音場データを圧縮および解凍するための方法および装置 - Google Patents

領域の音場データを圧縮および解凍するための方法および装置 Download PDF

Info

Publication number
JP6329629B2
JP6329629B2 JP2016530874A JP2016530874A JP6329629B2 JP 6329629 B2 JP6329629 B2 JP 6329629B2 JP 2016530874 A JP2016530874 A JP 2016530874A JP 2016530874 A JP2016530874 A JP 2016530874A JP 6329629 B2 JP6329629 B2 JP 6329629B2
Authority
JP
Japan
Prior art keywords
sound field
order
harmonic component
field data
harmonic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016530874A
Other languages
English (en)
Other versions
JP2017500782A (ja
Inventor
ヨハネス ノヴァク
ヨハネス ノヴァク
クリストフ スラドチェック
クリストフ スラドチェック
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
イルメナウテヒニッシェ大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ, フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ, イルメナウテヒニッシェ大学 filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2017500782A publication Critical patent/JP2017500782A/ja
Application granted granted Critical
Publication of JP6329629B2 publication Critical patent/JP6329629B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Description

本発明は、音声技術に関し、特に、空間的な音場データを圧縮することに関する。
室内の音響描写は、たとえば、ヘッドホン、2つから平均的なスピーカの数、すなわち、10個のスピーカを有するスピーカの配列の形式における制御再生配列に対して、または、それらが、波面合成法(WFS:Wave Field Synthesis)において使用されるように、より多くのスピーカを有するスピーカに対して、非常に関心がある。
一般の空間音声符号化に対して、異なる方法が存在する。1つの方法は、たとえば、MPEGサラウンドの場合のように、たとえば、事前に定義されるスピーカの位置における異なるスピーカに対する異なるチャンネルを生成することである。このことによって、特定のそして最適な中心位置における再生される室内において位置されるリスナーは、再生された音場に対して空間感覚を得る。
空間または室内の代替の描写は、そのインパルス応答によって室内を描写することである。たとえば、音源が、室内または領域の範囲内のどこかに配置される場合、この室内または領域は、2次元の領域の場合におけるマイクロホンの円形配列によって、または、3次元の領域の場合における全方位性によって計測される。たとえば、多くのマイクロホン、たとえば、350個のマイクロホンを有する全方位性マイクロホン配列が考慮される場合、室内の計測は、以下の通りに実行される。インパルスは、マイクロホン配列の内部または外部で特定の位置において生成される。それから、各マイクロホンは、このインパルス、すなわち、入力レスポンスへの応答を計測する。反響の特徴がどのように強いのかに応じて、より長いあるいはより短いインパルス応答が計測される。このようにして、大きさの次数に関して、たとえば、大きな境界の測定値は、たとえば、インパルス応答が10秒以上少なくとも、パルス応答が10秒以上で充分であることを示した。
350個のインパルス応答のこの種のセットは、インパルスが生成された音源の特定の位置に対してこの室内の音の特徴を描写する。換言すれば、正確に、音源が、インパルス応答が生成された位置に配置される場合、インパルス応答のこのセットは、領域の音場データを表す。ソースが他の位置に配置される場合、さらに、室内を測定するために、すなわち、室内の音の特徴を検出するために、提示される手続は、たとえば、外側の配列(しかし、配列の範囲内)である、あらゆる他の位置に対して繰り返されなければならない。たとえば、音楽家のカルテットが演奏している場合、ミュージックホールは、音場に関して検出される。ここで、個々の音楽家は、異なる4つの位置において配置しており、350個のインパルス応答は、上記の例において、4つの位置のそれぞれに対して計測され、そして、これら4×350=1400のインパルス応答が、そのとき、領域の音場データを表現する。
インパルス応答の持続時間は、非常に価値をもち、そのとき、4つのみでなく、より多くの位置に関する室内の音の特徴のより詳細な表現が望ましいので、特に、インパルス応答が10秒以上の長さを確かに獲得することを考慮する場合、大量のインパルス応答データが結果として得られる。
空間音声符号化のための方法は、たとえば、マルチチャネル音声信号またはオブジェクトベースの空間音声シーンのビットレートの効果的な符号化を許容している、空間音声符号化(SAC:Spatial Audio Coding)[1]または空間音声オブジェクト符号化(SAOC:Spatial Audio Object Coding)である。空間インパルス応答レンダリング(SIRR:Spatial Impulse Response Rendering)[3]およびさらなる発展方向音声符号化(DirAc:Directional Audio Coding)[4]は、パラメータ符号化方法であり、そして、周波数帯の範囲内における拡散の推定と同様に、音の到来方向(DOA:Direction of Arrival)の時間依存的な推定に基づく。ここで、分類は、非拡散および拡散音場の間においてなされる。[5]は、全方位性マイクロホンの配列データの無損失性圧縮およびより高次アンビソニック信号の符号化に取り組んでいる。圧縮は、チャネル間(チャネル間の冗長性)における冗長なデータを使用することによって、得られる。
[6]における試験は、バイノーラル再生における前半から後半の音場の別々の考慮を示す。頭の運動が考慮される動的なシステムに対して、フィルタ長さが、リアルタイムの前半の音場のみをコンボリューションすることによって最適化される。後半の音場に対して、単に1つのフィルタだけが、知覚された品質を低減することなく全ての方向に対して満足する。[7]において、頭部伝達関数(HRTF:Head−Related Transfer Functions)は、球面調和レンジにおける球面において表される。両耳間相互相関および時空間相関における球面調和の異なる次数による異なる精度の影響は、分析的に調べられる。これが、拡散音場におけるオクターブ・バンドにおいて起こる。
[1] Herre, J et al (2004) Spatial Audio Coding: Next-generation efficient and compatible coding of multi-channel audio AES Convention Paper 6186 presented at the 117th Convention, San Francisco, USA

[2] Engdegard, J et al (2008) Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding, AES Convention Paper 7377 presented at the 125th Convention, Amsterdam, Netherlands

[3] Merimaa J and Pulkki V (2003) Perceptually-based processing of directional room responses for multichannel loudspeaker reproduction, IEEE Workshop on Applications of Signal Processing to Audio and Acoustics

[4] Pulkki, V (2007) Spatial Sound Reproduction with Directional Audio Coding, J. Audio Eng. Soc., Vol. 55. No.6

[5] Hellerud E et al (2008) Encoding Higher Order Ambisonics with AAC AES Convention Paper 7366 presented at the 125th Convention, Amsterdam, Netherlands

[6] Liindau A, Kosanke L, Weinzierl S (2010) Perceptual evaluation of physical predictors of the mixing time in binaural room impulse responses AES Convention Paper presented at the 128th Convention, London, UK

[7] Avni, A and Rafaely B (2009) Interaural cross correlation and spatial correlation in a sound field represented by spherical harmonics in Ambisonics Symposium 2009, Graz, Austria
低ビット・レートのエンコーダ−デコーダスキームは、[8]において記載される。エンコーダは、再生される音場を描写するコンポジット音声情報信号、および方向ベクトルまたはステアリング制御信号を生成する。スペクトルは、サブバンドに分解される。制御するために、優位な方向は、各サブバンドにおいて評価される。認識される空間音声シーンに基づいて、[9]は、周波数領域において空間音声エンコーダ・フレームワークを記述する。時間的周波数依存の方向ベクトルは、入力音声シーンを記述する。
[10]は、時間および周波数領域におけるパラメータチャネル・ベースの音声符号化方法を記載する。[11]は、1つまたは数個のオブジェクトベース・キュー符号化を使用したバイノーラルキュー符号化(BBC:Binaural−Cue−Coding)を記載する。それは、聴覚シーンの方向、幅、およびエンベロープを含む。[12]は、アンビソニックによる再生のための球面配列データを処理することに関する。このことにより、たとえば、ノイズのような測定エラーによるシステムのディストーションが等しくなる。[13]において、チャネル・ベースの符号化方法が記載され、そして、それは、個々の音声オブジェクトと同様に、スピーカの位置にも関する。[14]において、マトリックス・ベースの符号化方法が提示され、そして、それは、3よりも高次のアンビソニック音場のリアルタイム伝送を許容する。
[15]において、空間音声データを符号化する方法が記載され、そして、それは再生システムから独立している。このことにより、入力データは2つのグループに分けられ、第1のグループは、高い局所化を必要としている音声を含み、一方、第2のグループは、局所化のために充分に低い次数のアンビソニックに関して記載される。第1のグループにおいて、信号は、メタデータを有する一組の、モノラル・チャネルに符号化される。それぞれのチャネルが再生され、いかなる瞬間に対する方向情報である場合、メタデータは、時間情報を含む。再生において、音声チャネルは、従来のパニング・アルゴリズムのために復号化され、ここで、再生システムは、公知でなければならない。第2のグループにおける音声は、異なるアンビソニックの次数のチャネルにおいて符号化される。復号化の間、再生システムに対応するアンビソニックの次数が使用される。
[8] Dolby R M (1999) Low-bit-rate spatial coding method and system, EP 1677576 A3

[9] Goodwin M and Jot J-M (2007) Spatial audio coding based on universal spatial cues, US 8,379,868 B2

[10] Seefeldt A and Vinton M (2006) Controlling spatial audio coding parameters as a function of auditory events, EP 2296142 A2

[11] Faller C (2005) Parametric coding of spatial audio with object-based side information, US 8340306 B2

[12] Kordon S, Batke J-M, Krueger A (2011) Method and apparatus for processing signals of a spherical microphone array on a rigid sphere used for generating an ambisonics representation of the sound field, EP 2592845 A1

[13] Corteel E and Rosenthal M (2011) Method and device for enhanced sound field reproduction of spatially encoded audio input signals, EP 2609759 A1

[14] Abeling S et al (2010) Method and apparatus for generating and for decoding sound field data including ambisonics sound field data of an order higher than three, EP 2451196 A1

[15] Arumi P and Sole A (2008) Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction, EP 2205007 A1
本発明の目的は、たとえば、圧縮するかまたは解凍されて、領域の音場データを扱うためのより効果的な概念を提供することである。
この目的は、請求項1に記載の音場データを圧縮するための装置、請求項14に記載の音場データを解凍するための装置、請求項21に記載の音場データを圧縮するための方法、請求項22に記載の音場データを解凍するための方法、または、請求項23に記載のコンピュータ・プログラムによって解決される。
領域の音場データを圧縮するための装置は、第1の部分および第2の部分に音場データを分割するためのデバイダと、第1の部分および第2の部分を調和成分に変換するための下流のコンバータとを含む。ここで、圧縮された音場データを得るために、変換は、第2の数が、1つまたは数個の2次の調和成分に変換され、第1の部分が、1次の調和成分に変換するように行い、1次は2次よりも高い。
このように、本発明によれば、調和成分への多くのインパルス応答のような音場データの変換が実行され、この変換は、既に、充分なデータの削減を結果として得る。たとえば、空間スペクトル交換によって得られうるように、調和成分は、インパルス応答より非常に簡潔な方法で音場を描写する。これ以外に、調和成分の次数は、容易に制御されうる。0次の調和成分は、(無指向性の)モノラル信号だけである。それは、いかなる音場の方向の描写も許容しない。対照的に、1次の追加の調和成分は、既に、ビーム成形に類似する比較的粗い方向の表現を許容する。2次の調和成分は、さらに方向情報を含むさらに正確な音場の描写の追加を許容する。アンビソニックにおいて、たとえば、成分の数は、2n+1に等しく、nは次数である。このように、0次に対して、単一の調和成分のみが存在する。1次までの変換のために、既に、3個の調和成分が存在する。5次の変換のために、たとえば、既に、11個の調和成分が存在し、たとえば、350個のインパルス応答に対しては、14次で充分であると見出された。換言すれば、これは、29個の調和成分が350個のインパルス応答と同様の室内を描写することを意味する。350個の入力チャネルの値から29個の出力チャネルへのこの変換は、既に、圧縮ゲインを結果として得る。加えて、すべての部分がその精度/次数に関して記載されている必要がないことが分かっているので、本発明によれば、異なる次数のインパルス応答のような音場の異なる位置の変換が実行される。
このための1つの実施例は、人の聴覚の方向認識が主に前半の反射から導出され、その一方で、典型的なインパルス応答における後半の/拡散反射はないか、またはごくわずかのみ方向認識に寄与される。このように、この例では、第1の部分は、調和成分領域における高次によって変換されるインパルス応答の前半の部分であり、その一方で、後半の拡散部分は、より低次によって、そして、部分的に0次に変換される。
他の実施例は、人の聴覚の方向認識が周波数に依存するということである。低周波数において、人の聴覚の方向認識は、比較的弱い。このように、音場データを圧縮するために、比較的低い次数を有する調和成分のより低いスペクトル領域を調和成分領域に変換するのに充分である。その一方で、人の聴覚の方向認識が非常に高い音場データの周波数領域は、高く、そして、好ましくは、多くの次数をともなって変換される。このために、音場データは、フィルタ・バンクによって個々のサブバンド音場データに分解され、そして、このれらのサブバンド音場データは、そのとき、異なる次数に分解される。ここで、再び、第1の部分は、より高い周波数においてサブバンド音場データを含み、その一方で、第2の部分は、より低い周波数において、サブバンド音場データを含む。また、非常に低い周波数は、0次、すなわち、単一の調和成分をともなって、再び、表現される。
更なる実施例において、時間的および周波数的処理の有利な特性が結合される。このように、とにかく、より高次をともなって変換される前半の部分は、再び、個々のバンドに適している次数が得られうるスペクトル構成要素に分解されうる。特に、フィルタ・バンクを取り除くことは、サブバンド信号、たとえば、QMFフィルタ・バンク(QMF=quandrature mirror filterbank(直交ミラーフィルタ))に対して使用される場合、サブバンド音場データを調和成分領域に変換するための試みは、さらに低減される。上記のほか、特に、調和成分、たとえば、円筒調和成分または球面調和成分の計算は、どの調和の次数まで計算されるかに依存しているので、計算された次数に関して音場データの異なる部分の区別は、計算効果の重要な低減を提供する。たとえば、2次まで調和成分を計算することは、著しくよりコンピュータでない効果、およびそれ故、計算時間、およびたとえば、14次まで、それぞれ調和成分の計算より、モバイル機器のバッテリーパワーを、特に必要とする。
記載されている実施の形態において、それ故、コンバータは、部分、すなわち、音場データの第1の部分を変換するように構成され、そして、それは、第1の部分より音源の方向認識にとって重要でない第2の部分より高次を有する人の聴覚の方向認識にとってより重要である。
たとえば、音の人の聴覚の方向認識は、異なる方位角または仰角において異なることが考慮される場合、本発明は、部分に音場データの時間的な分解または、部分に音場データのスペクトル分解に対してだけでなく、別の可能性、すなわち、部分の空間的分解に対しても使用しうる。音場データが、たとえば、インパルス応答または他の音場の描写として存在する場合、ここで、特定の方位角/仰角が、個々の描写に割り当てられ、人の聴覚の方向認識がより大きい方位角/仰角の音場データは、他の方向から、音場データの空間的部分より高次をともなって圧縮されうる。
これに代えあるいはこれに加えて、個々の調和は、すなわち、本実施例において、14次に間引かれ、29個のモードが存在する。人の方向認識に応じて、個々のモードが保存され、そして、それは、音の到来に無関係の方向に対する音場にマップする。マイクロホン配列の計測の場合において、ヘッドの方向が配列球面に方向に向かわせることについて既知でないので、不確定度がある。しかしながら、HRTFが球面調和によって表される場合、この不確定度は、取り除かれる。
時間的、スペクトルまたは空間的な方向における分解に加えて、音場データのさらなる分解が、ボリューム・クラス等における第1および第2の部分における音場データの分解のように、使用されうる。
実施の形態において、音響問題は、円筒または球面座標系、すなわち、円筒あるいは球面調和成分と呼ばれる、正規直交固有関数の完全な一組によって、描写される。音場の描写の高い空間精度については、データ・ボリュームおよびデータを処理するか操作する時間の計算が増加する。高品質の音声アプリケーションのために、高い精度が必要とされる。そして、それは、特に、リアルタイム・システムのために不都合である長い計算時間の、空間的な音場データの送信を困難にするデータの大きな量と、集中的な計算の試み、特に、モバイル機器に、高いエネルギー消費での問題が生じる。
最も高次の全ての部分が調和成分において変換されるところで、調和成分を計算することを次数の区別のため、計算時間がケースと比較して減らされるという点で、すべてのこれらの不利な点は本発明の実施の形態によって緩和されるかまたは除去される。本発明によれば、調和成分による表現が、特に、よりコンパクトであるという点で、データの大きな量が低減され、そして、また、異なる次数の追加の異なる部分が表現され、ここで、低次、たとえば、1次が、3つの調和成分のみを有するという点で、データの量の低減が得られ、一方で、たとえば、より高次では、たとえば、14次として、ここでは、29個の調和成分を有する。
低減された計算能力および低減されたメモリの消費は、自動的に、特に、モバイル機器における音場データの利用のために生じるエネルギー消費を低減する。
実施の形態において、空間音場の描写が、人の空間的知覚に基づく、円筒または球面調和領域において最適化される。特に、人の聴覚の空間的な知覚に依存する球面調和の次数の時間および周波数の依存計算の結合が、音場の知覚のオブジェクト品質を低減することなく、試みの重要な低減を結果として得る。本発明は損失性圧縮を表すので、明らかに、オブジェクト品質は低減される。しかしながら、特に、最後の受信は、人の聴覚であるので、この損失性圧縮は、無批判であり、そして、人の聴覚によって知覚されない音場成分かどうかが、再生される音場において存在するかあるいはしないか、を透明な再生に対して、重要ではない。
換言すれば、すなわち、ヘッドホンまたは、いくつか(たとえば、ステレオ)あるいは多くのスピーカ(たとえば、WFS)を有するスピーカシステムをともなうバイノーラルで、再生/可聴化の間、人の聴覚は、最も重要な良質な基準である。本発明によれば、円筒または球面調和のような調和成分の正確さが、時間領域および/または周波数領域、あるいは他の領域において知覚的に低減される。このことにより、データおよび計算時間の低減が得られる。
本発明の好ましい実施の形態は、添付の図面に関して更に詳細に後述する。それらは、以下を示す。
図1aは、実施の形態にかかる音場データを圧縮するための装置のブロック図である。 図1bは、領域の圧縮された音場データを解凍するための装置のブロック図である。 図1cは、時間的分解をともなう圧縮するための装置のブロック図である。 図1dは、時間的分解の場合に対する解凍するための装置の実施の形態のブロック図である。 図1eは、図1dの代替として解凍するための装置である。 図1fは、音場データとして典型的な350個の測定されたインパルス応答をともなう時間的およびスペクトル分解をともなう発明を適用するための実施例である。 図2aは、スペクトル分解をともなう圧縮するための装置のブロック図である。 図2bは、サブサンプリングされたフィルタ・バンクの実施の形態、およびサブサンプリングされたサブバンド音場データのシーケンス変換を示す。 図2cは、図2aに示されるスペクトル分解の実施例に対する解凍のための装置である。 図2dは、スペクトル分解のためのデコンプレッサの代替の実施態様である。 図3aは、本発明の他の実施の形態にかかる特定の分析/合成エンコーダをともなう概略ブロック図である。 図3bは、時間的およびスペクトル分解をともなう実施の形態の詳細な表現を示す。 図4は、インパルス応答の概略図である。 図5は、可変的な次数をともなう調和成分領域における時間またはスペクトル領域の変換のブロック図である。 図6は、サブシーケンス可聴化をともなう時間領域またはスペクトル領域への調和成分領域の典型的な変換の表現である。
それらが、入力10でデバイダ100に入力するように、図1aは、領域の音場データを圧縮するための装置または方法のブロック図を示す。デバイダ100は、音場データを、第1の部分101および第2の部分102に分割するように構成される。上記のほか、コンバータは、140または180によって示される2つの機能性を有するように設けられる。特に、コンバータは、140で示されるように第1の部分101を変換し、180で示されるように第2の部分102を変換するように構成される。特に、コンバータは、1つまたは数個の1次の調和成分141に第1の部分101を変換し、1つまたは数個の2次の調和成分182に第2の部分102を変換する。特に、1次、すなわち、調和成分141の基礎をなす次数は、2次よりも高い。換言すれば、より高次のコンバータ140が、低次のコンバータ180より多くの調和成分141を出力することを意味する。このように、コンバータ140が制御される次数n1は、コンバータ180が制御される次数n2よりも高く制御される。コンバータ140,180は、制御可能なコンバータでありうる。あるいは、n1およびn2によって指し示される入力が、この実施の形態において存在しないように、次数が設定され、それ故、調整ができない。
図1bは、1次の第1の調和成分および1つまたは数個の2次の調和成分を含む圧縮された音場データ20を解凍するための装置を示し、それらは、たとえば、141,182で図1aによって出力される。しかしながら、解凍された音場データが、必ずしも、「生のフォーマット」において、調和成分141,142である必要があるというわけではない。その代り、図1aにおいて、加えて、無損失性エントロピーコーダ、たとえば、ハフマン(Huffmann)エンコーダまたは算術エンコーダは、さらに、調和成分を表すために最終的に必要とされるビットの数を低減するために設けられうる。入力インタフェース200に入力されるデータストリーム20は、図3aに基づいて例示されるように、エントロピー符号化された調和成分および場合によりサイド情報で構成される。この場合、図1aに関して、エンコーダ側におけるエントロピーエンコーダに適しているそれぞれのエントロピーデコーダは、入力インタフェース200の出力で設けられている。このように、図1bにおいて例示されるように、1次の第1の調和成分201および2次の第2の調和成分202は、場合により、符号化されたエントロピーまたは既に復号化されたエントロピーまたは図1aの141,182で存在するような「生のデータ」における実際の調和成分も表す。
調和成分の両方のグループは、デコーダまたはコンバータ/コンバイナ240に入力される。ブロック240は、240において例示されるような音場の解凍された表現を最終的に得るために、第1の部分および第2の部分の結合を使用することによって、ならびに、調和成分表現を時間領域表現への変換に使用することによって、圧縮された音場データ201,202を解凍するために構成される。信号処理器として構成されるデコーダ240は、それゆえ、一方では、球面調和成分領域から時間領域への変換を実行し、他方では、結合を実行するように構成される。変換および結合の間の次数は、異なる例に対して、図1d,図1eまたは図2c,図2dに関して例示されるように、変化しうる。
図1cは、実施の形態に係る領域の音場データを圧縮するための装置を示し、デバイダ100は、時間的デバイダ100aとして構成される。特に、図1aのデバイダ100の実施態様である時間的デバイダ110aは、音場データを、領域における第1の反射を含む第1の部分、および領域における第2の反射を含む第2の部分に分割するように構成され、第2の反射は、第1の反射よりも後の時間に発生する。このように、図4に基づいて、ブロック100aによって出力される第1の部分101は、図4のインパルス応答区域310を表し、その一方で、第2の後半部分は、図4のインパルス応答の区域320を表す。たとえば、分割の時間は、100msでありうる。しかしながら、時間分割の異なるオプションが、前半および後半のように存在する。好ましくは、分割は、離散反射が、拡散反射に変化するところで配置される。室内に応じて、これは、時間内で変化ポイントでありえ、そして、最善の分割を供給するための概念が存在する。しかしながら、分割時間がより小さくされるという点で、前半および後半の部分への分割は、利用できるデータレートに基づいて実行され、より少ないビットレートが存在する。これは、ビットレートに関して有利である。なぜなら、できるだけ大きい低次のインパルス応答の部分が、調和成分領域に変換されるからである。
このように、図1cにおけるブロック140および180によって例示されるコンバータは、第1の部分101および第2の部分102を調和成分に変換するように構成され、ここで、最後に伝送および/またはストレージの目的のために出力インタフェース190によって出力されうる圧縮された音場を最終的に得るために、特に、コンバータは、第2の部分を1つまたは数個の2次の調和成分184に変換し、第1の部分101を1次の調和成分141に変換する。ここで、1次は2次よりも高い。
図1dは、時間的分割の実施例のためのデコンプレッサの実施態様を示す。特に、デコンプレッサは、第1の反射を有する第1の部分201および後半の反射を有する第2の部分202の結合、ならびに調和成分領域から時間領域への変換を使用することによって、圧縮された音場データを変換するように構成される。図1dは、結合が変換の後に起こる実施態様を示す。図1eは、結合が変換の前に起こる代替の実施態様を示す。特に、コンバータ241は、高次の調和成分を時間領域へ変換するように構成され、コンバータ242は、低次の調和成分を時間領域へ変換するように構成される。図4に関して、コンバータ241の出力は、レンジ210に対応するように何かを提供し、その一方で、コンバータ242は、レンジ320に対応する何かを提供する。ここで、しかしながら、損失性圧縮のため、ブリッジ241,242の出力での区域は、区域310,320と同一ではない。特に、しかしながら、少なくとも図4の区域310へブロック240の出力における区域の知覚的な類似性または同一性が存在し、その一方で、インパルス応答の後半部分320に対応するブロック242の出力における区域は、有意差を示し、それゆえ、単に、ほぼ、インパルス応答の曲線を表すだけである。しかしながら、これらの偏差は、人の方向認識に対して無批判である。なぜなら、人の方向認識は、いずれにしろ、インパルス応答の後半部分または拡散反射に基づいて、ほとんどまたは少しも基づかないからである。
図1eは、デコーダが、最初にコンバイナ245、そして、その後コンバータ244を含むような代替の実施態様を示す。図1eにおける実施の形態において、個々の調和成分は加算され、加算の結果は、最終的に時間領域表現を得るために変換される。それに反して、図1dの実施の形態において、可聴化のようなさらなる目的、すなわち、所望の空間印象をともなうレンダリング音信号に対して使用されうる図4に対応するインパルス応答を再び得るために、結合は、加算を含まないが、ブロック241の出力が、ブロック242の出力よりも、解凍されたインパルス応答において、より前半に配置される点で、シリアライゼーションではない。
図2aは、周波数領域における分割が実行される本発明の代替の実施態様を示す。特に、図1aのデバイダ100は、異なるフィルタ・バンク・チャネル101,102における音場データを得るために、少なくとも音場データの部分をフィルタするために、図2aの実施の形態におけるフィルタ・バンクとして実装される。図1aの時間的分割が実装されない実施の形態において、フィルタ・バンクは、前半および後半部分の両方で得られる。その一方で、代替の実施の形態は、単に、音場データの前半部分は、フィルタ・バンクに入力され、その一方で、後半部分は、それ以上、スペクトル的に分解されない。
サブコンバータ140a,140b,140cで構成されるコンバータは、分析フィルタ・バンク100bの下流にある。コンバータ140a,140b,140cは、各フィルタ・バンク・チャネルに対する1つまたは数個の調和成分を得るために、異なるフィルタ・バンク・チャネルに対する異なる次数を使用することによって、異なるフィルタ・バンク・チャネルにおいて、音場データを変換するように構成される。特に、コンバータは、第1の中心周波数をともなう第1のフィルタ・バンク・チャネルに対する1次の変換を実行し、そして、第2の中心周波数をともなう第2のフィルタ・バンク・チャネルに対する2次の変換を実行するように構成され、1次は2次よりも高く、最終的に、圧縮された音場表現を得るために、第1の中心周波数、すなわち、fnは、第2の中心周波数f1よりも高い。一般に、実施の形態に応じて、最も低い周波数帯に対して、低次は、中心の周波数帯よりも使用されうる。しかしながら、実施態様に応じて、図2aにおいて示される実施の形態における中心周波数fnをともなうフィルタ・バンク・チャネルのような最も高い周波数帯が、たとえば、センター・チャネルよりも高い次数をともなって変換される必要があるというわけではない。その代わり、方向認識が最も高い領域において、最も高い次数が使われうる。その一方で、他の領域(それの一部は特定の高い周波数領域でもありうる)で、次数はより低い。なぜなら、これらの領域で、人の聴覚の方向認識もより低いからである。
図2bは、分析フィルタ・バンク100bの詳細な実施態様を示す。図2bにおいて示される実施の形態において、それは、バンド・フィルタを含み、さらに、各フィルタ・バンク・チャネルに、下流のデシメータ100cを含む。たとえば、バンド・フィルタおよびデシメータから構成されるフィルタ・バンクが使用された場合、デシメータの出力におけるデジタル・サンプルの数は、フィルタ・バンクによって分解される、時間領域における音場データのブロックのサンプルの数に対応するすべてのチャネルにわたって合計されるように、それは、64チャネルを有し、各デシメータは、ファクタ1/64をともなって取り除きうる。典型的なフィルタ・バンクは、実部または虚部のQMFのフィルタ・バンクでありうる。好ましくは、インパルス応答の前半部分の各サブバンド信号は、最終的に、音場の描写の異なるサブバンド信号のために、異なるサブバンド信号に対して、異なる次数、すなわち、調和成分の異なる数を含む、円筒または好ましくは球面調和成分をともなう描写を得るために、図2aに類似する、コンバータ140aから140cによって調和成分に変換される。
図2cおよび図2dは、すなわち、図2cにおいて、結合およびサブシーケンス変換の異なる次数、または図2dに例示されるように、まずは、変換が実行され、そして、サブシーケンス結合、再び、図1bにおいて例示されるように、デコンプレッサの異なる実施態様を示す。特に、図2cにおいて示される実施の形態において、図1bのデコンプレッサ240は、再び、コンバータ244によって時間領域に変換される調和成分の全体の表現を得るために、異なるサブバンドから異なる調和成分の合計を実行するためのコンバイナ245を含む。このように、コンバイナ245における入力信号は、調和成分のスペクトル領域であり、その一方で、コンバイナ345の出力信号は、コンバータ244によって得られる時間領域への変換から、調和成分領域における表現を表す。
図2bに示される別の実施の形態において、ブロック241a,241b,241cの出力信号は、図2aまたは図2bのブロック140a,140b,140cの出力信号に対応するように、各サブバンドに対する個々の調和成分は、最初、異なるコンバータ241a,241b,241cによってスペクトル領域に変換される。それから、これらのサブバンド信号は、エンコーダ側(図2bのブロック100c)においてダウン・サンプリングする場合において、アップ・サンプリング機能も含みうる下流の合成フィルタ・バンクにおいて処理される。そして、合成フィルタ・バンクは、図1bのデコーダ240のコンバイナ機能を表す。このように、以下において示されるように、可聴化のために使用されうる解凍された音場の表現は、合成フィルタ・バンクの出力において示される。
図1fは、異なる次数の調和成分にインパルス応答の分解のための実施例を示す。後半の区域は、スペクトル的に分解せず、ゼロ次をともなって全体として変換されない。インパルス応答の前半の区域は、スペクトル的に分解される。次のバンドが5次をともなって既に処理されるとともに、たとえば、最も低いバンドは、1次によって処理される。そして、同じことが、方向/空間認識に対して、最も重要であるので、最後のバンドは、最も高い次数、すなわち、この例においては次数14によって処理される。
図3aは、本発明の全体のエンコーダ/デコーダスキーム、または全体のコンプレッサ/デコンプレッサを示す。
特に、図3aにおいて示される実施の形態において、コンプレッサは、1またはPENCによって示される図1aの機能だけでなく、図1bにおいて構成されるデコーダPDEC2を示す。上記のほか、コンプレッサは、心理音響学的モデル、たとえば、ITUによって標準化されるモデルPEAQを考慮することによって元の音場データとともにデコーダ2によって得られる解凍された音場データを比較するために構成されるコントロールCTRL4も含む。
その結果、これらのコンバータが制御可能な方法で構成される場合、コントロール4は、音場データの異なる部分に対する個々のコンバータにおける次数のためのフィルタ・バンクまたは最適化されたパラメータにおいて、時間的分割または周波数的分割のような分割のための最適化されたパラメータを生成する。
分割情報、フィルタ・バンク・パラメータまたは次数のような制御パラメータは、図3aにおける2によって例示されるデコーダまたはデコンプレッサに調和成分を含むビットストリームとともに伝送されうる。このように、コンプレッサ11は、パラメータ・エンコーダPENC1およびパラメータ・デコーダPDEC2と同様にコーデック制御のためのコントロール・ブロックCTRL4から構成される。入力10は、マイクロホン配列測定値からのデータである。コントロール・ブロック4は、エンコーダ1を初期化して、配列データを符号化するための全てのパラメータを供給する。PENCブロック1において、データは、時間領域および周波数領域において、聴覚に依存する分割の記載される方法に従って処理され、そして、データ伝送のために供給される。
図3bは、データ符号化および復号化のスキームを示す。入力データ10は、まず、デバイダ100aによって前半の101および後半の音場102に分解される。少ないn個のバンドのフィルタ・バンク100bによって、前半の音場101は、そのスペクトル成分f1…fnに分解され、そして、各々は、人の聴覚に適合される球面の調和(x次のSHD=Spherical Harmonics Decomposition)の次数をともなって分解される。球面調和へのこの分解は、好ましい実施の形態を表す。ここで、しかしながら、調和成分を生成するいくつかの音場分解も使用されうる。球面調和成分への分解が、次数に従って各バンドにおいて期間を変化させる計算時間を必要とするので、遅延ブロック306,304を有する遅延ラインにおける時間オフセットを修正することが好ましい。このように、それが、知覚的に低次をともなって計算された後、周波数領域は、コンバイナと呼ばれる、再構成ブロック245において再構成され、そして、さらなるコンバイナ243における後半の音場とともに再び結合される。
図3aのコントロール・ブロックCTRL4は、室内音響分析モジュールおよび音響心理学的モジュールを含む。ここで、コントロール・ブロックは、最適に、図3aにおけるサイド情報300と参照される符号化パラメータを適応するために、入力データ10および図3aのデコーダ2の出力データの両方を分析し、または、コンプレッサ11において、エンコーダPENC1に直接的に供給される。入力信号10から、室内音響パラメータは、抽出され、そして、それは、使用される配列構造のパラメータとともに符号化する初期のパラメータを供給する。それは、混合時間と呼ばれるような前半の音場および後半の音場の間の区別の時間と、球面調和のそれぞれの次数のようなフィルタ・バンクに対するパラメータの両方を含む。コンバイナ243によって出力されるように、たとえば、バイノーラル・インパルス応答の形式における出力は、品質を評価する聴覚器官モデルをともなう心理聴覚モデルを有する音響心理学的モジュールに導かれて、したがって、符号化しているパラメータを適応させる。その代わりに、コンセプトは、静的なパラメータをともなって動作しうる。エンコーダにおけるPEDCモジュール2と同様にコントロール・モジュールCTRL4、またはコンプレッサ側11は、そのとき、省略されうる。
人の聴覚に依存する円筒および球面配列データを処理し、伝送することが低減される場合、本発明は、そのデータおよび計算の効果において有利である。さらに、その方法において処理されたデータは、既存の圧縮方法において統合され、そして、それ故、追加のデータの低減を許容することは、さらに有利である。これは、たとえば、移動端末装置のようなバンドの限られた伝送システムにおいて有利である。さらなる効果は、高次でさえ球面調和成分におけるデータのリアルタイム処理を可能にする。本発明は、多くのフィールド、特に、円筒あるいは球面調和成分によって表される音響音場のフィールドにおいて適用されうる。これは、たとえば、円形かあるいは球面の配列による音場の分析において、実行される。分析された音場が聴覚化される場合、本発明のコンセプトが使用されうる。室内をシミュレーションする装置において、既設室を格納するためのデータベースが使用される。ここで、発明の概念は、省スペース、および高品質のストレージを許容する。球面領域の機能に基づく再生方法は、高次のアンビソニックまたはバイノーラルの合成として存在する。ここで、本発明は、計算時間およびデータ効果の低減を供給する。たとえば、これは、特に電子会議システムでデータ伝送に関して有利でありうる。
図5は、調整可能な次数、または少なくとも調整不可能でもありうる可変の次数をともなうコンバータ140または180の実施態様を示す。
コンバータは、時間−周波数変換ブロック502および下流のルーム変換(room transformation)ブロック504を含む。ルーム変換ブロック504は、計算規則508に従って作動するように構成される。計算規則において、nは次数である。次数に応じて、計算規則508は、次数がゼロの場合、たった一度だけ解決されるか、または、次数が5次までである場合、しばしば、解決され、上記の実施の形態においては、14次までである。特に、時間−周波数変換要素502は、入力ライン101,102におけるインパルス応答を周波数領域に変換するように構成される。ここで、好ましくは、高速フーリエ変換が使用される。さらに、片側のスペクトルだけが、計算効果を低減するために転送される。それから、空間フーリエ変換は、参考図書(Fourier Acoustics,Sound Radiatio and Nearfield Acoustical Holography,Academic Press,1999 by Earl G. Williams)において記載されるように、ルーム変換ブロック504において実行される。好ましくは、ルーム変換504は、音場分析のために最適化され、そして、同時に、高い数値解析精度および早い計算速度を供給する。
図6は、調和成分領域から時間領域への変換の好ましい実施の形態を示す。ここで、代わりとして、逆ルーム変換(inverse room transformation)実装604に代わるものとして、平面波に分解し、そしてビーム形成するためのプロセッサ602が表される。両方のブロック602,604の出力信号は、代わりに、インパルス応答を生成するために、ブロック606へ入力されうる。逆ルーム変換604は、ブロック504において先の変換を逆転させるように構成される。あるいは、ブロック606における平面波への分解およびビーム形成は、分解方向の大きな量が一様に処理されうるという効果を有する。そして、それは、特に、視覚化または可聴化のために、高速処理に対して有利である。好ましくは、ブロック602は、実施態様に応じて、追加のビーム形成の係数と同様に、放射状のフィルタ係数を得る。それは、一定の指向性を有し、または、周波数に依存することもありうる。あるいは、ブロック602への入力信号は、モーダルな放射状のフィルタでありえ、そして、特に、球状の配列または異なる構成、すなわち、全方向性マイクロホンを有する開いた球体、カージオイドのマイクロホンをともなう開いた球体および全方向性のマイクロホンを有する剛球でありうる。インパルス応答を生成するためのブロック606は、ブロック602またはブロック604のデータからインパルス応答または時間領域信号を生成する。入力信号が、ある場所でのダウン・サンプリングされた場合、このブロックは、特に、スペクトルの上記除去された負の部分を再結合し、高速逆フーリエ変換を実行し、そして、リサンプリングを許容するか、もとのサンプリングレートへのサンプルレート変換を許容する。さらに、ウィンドウオプションが使用されうる。
ブロック502,504,602,604,606の機能に関する詳細は、Bernschuetz et al.,ICSA−International Conference on Spatial Audio,Detmold,10th〜13th,11年11月による専門書「SofiA Sound Field Analysis Toolbox」において、記載される。ここで、この専門書は、完全に本願明細書に引用される。
ブロック606は、解凍されたインパルス応答、たとえば、損失性インパルス応答の完全なセットを出力するように、さらに、構成されうる。ここで、ブロック608は、たとえば、350個のインパルス応答を、再び、出力する。しかしながら、可聴化に応じて、特定の再生シナリオのための選択または補間を提供するブロック608によって実行されうる再生のために最終的に必要とされるインパルス応答だけを出力するのが好まれる。たとえば、ブロック616において例示されるように、ステレオ再生が、2つのステレオスピーカの位置に応じることを意図する場合、それぞれのステレオスピーカの空間的な方向に対応するそれぞれのインパルス応答は、例えば、350個の再生されたインパルス応答から選択される。
それから、このインパルス応答について、プレフィルタが、そのインパルス応答に対応してフィルタの特徴を有するように、それぞれのスピーカのプレフィルタは、調整される。それから、再生される音声信号は、それぞれのプレフィルタを介して2つのスピーカへ導かれ、そして、最終的に、ステレオの可聴化のために所望の空間印象を生成するために再生される。
利用可能なインパルス応答の間で、インパルス応答は、スピーカが、実際の再生シナリオに配置されている特定の方向の中に存在する場合、好ましくは、2つまたは3つの最も近いインパルス応答が使用され、そして、補間が実行される。
別の実施の形態において、ここで、再生または可聴化が波面合成612によって生じ、「博士論文『Spatial Sound Design based on Measured Room Impulse Response』by Frank Melchior,TU Delft of the year 2011」において詳細に例示されるように仮想ソースを介して前半および後半の反射の再生を実行することが好まれる。ここで、この専門書は、完全に本願明細書に引用したものとする。
特に、波面合成再生612において、ソースの反射は、前半の反射に対する特定の位置における4つのインパルス応答によって、そして、後半の反射に対する特定の位置における8つのインパルス応答によって再生される。選択ブロック608は、それから12個の仮想位置に対して、12個のインパルス応答を選択する。その結果、これらのインパルス応答は、割り当てられた位置とともに、ブロック612に配置されうる波面合成レンダラに供給され、そして、波面合成レンダラは、これらのインパルス応答を使用することによって、実際の既存のスピーカに対するスピーカ信号を計算する。その結果、それは、それぞれの仮想ソースをマップする。それは、高品質の室内の効果をともなうそれぞれの再生を得るために、スピーカによって出力される前に、このように、波面合成再生システムにおける各スピーカに対して、個々のプレフィルタは、最終的に再生された音声信号であるフィルタについて計算される。
本発明の他の実施態様は、ヘッドホン信号の生成、すなわち、領域の空間印象がヘッドホン再生を介して生成されるバイノーラルのアプリケーションの生成である。
主に、インパルス応答が上記の音場データとして例示されるけれども、他の音場データ、たとえば、量とベクトル、すなわち、たとえば、音圧および音速に従って音場データが、室内において特有の位置でも使用されうる。これらの音場データは、人の方向認識に関してより重要かあまり重要でないかに分割されえ、そして、調和成分に変換されうる。音場データは、別々の位置から領域における所定の位置まで、各々いかなるタイプのインパルス応答、たとえば、頭部伝達関数(HRTF)の機能またはバイノーラル室内インパルス応答(BRIR)の機能またはインパルス応答も含む。
好ましくは、室内は、球面配列によってサンプリングされる。それから、音場は、一組のインパルス応答として存在する。時間領域において、音場は、その前半および後半の部分において分解される。その後、両方のパーツは、それらの球面または円筒調和成分において分解される。相対的な方向情報が、前半の音場において存在するので、球面調和の高次は、低次に対して充分である後半の音場と比較して計算される。前半の部分は、比較的短く、たとえば、100msであり、正確に、すなわち、多くの調和成分をともなって表され、その一方、後半の部分は、たとえば、100msから2sまたは10sの長さである。しかしながら、後半の部分は、より少ないか単一であるだけの調和成分によって表される。
さらなるデータの低減は、球面調和として表現の前に個々のバンドに前半の音場の分割のための結果として得る。このために、時間領域において、前半および後半の音場に分離した後、前半の音場は、フィルタ・バンクによってそのスペクトル部分に分解される。個々の周波数バンドをサブサンプリングすることによって、データの低減が得られる。そして、それは、著しく、調和成分の計算を速める。加えて、各周波数帯に対して、人の方向認識に応じて知覚的に充分な前半の次数が使用される。そして、低い周波数帯に対して、人の方向認識は低く、低次または最も低い周波数帯に対して、さらに、0次は十分である。その一方で、高いバンドにおいて、測定された音場の精度に関する最大の役立つ次数までより高い次数が必要とされる。デコーダまたはデコンプレッサ側において、完全なスペクトルが再構成される。その後、前半または後半の音場が再び結合される。データは、そして、可聴化に対して利用可能である。
いくつかの態様が、装置との関連で記載されるが、これらの態様も、対応する方法の説明を表わすことは明らかであり、装置のブロックあるいはデバイスは、それぞれの方法のステップ、または方法のステップの特徴に対応する。類似して、方法のステップとの関連で記載される態様は、装置に対応する、ブロック、アイテムまたは特徴の説明を表す。方法のステップのいくつかまたは全ては、たとえば、マイクロプロセッサ、プログラム可能なコンピュータ、または電子回路のようなハードウェア装置によって(または使用して)実行されうる。いくつかの実施の形態において、最も重要な方法のステップの1つ以上は、この種の装置によって実行されうる。
特定の実現要求に応じて、本発明の実施の形態は、ハードウェアにおいて、または、ソフトウェアにおいて、実行されうる。その実現態様は、それぞれの方法が実行されるように、プログラミング可能なコンピュータ・システムと協働するか、または、協働することができる、そこに格納された電子的に読み込み可能な制御信号を有するデジタル記憶媒体、例えば、フロッピー(登録商標)ディスク、DVD、ブルーレイディスク、CD、ROM、PROM、EPROM、EEPROM、またはFLASHメモリ、ハードドライブ、または、他の磁気または光メモリを使用して実行されうる。従って、デジタル記憶媒体は、コンピュータ読み込み可能でもよい。
本発明による若干の実施の形態は、本願明細書において記載される方法のうちの1つが実行されるように、プログラミング可能なコンピュータ・システムと協働することができる電子的に読み込み可能な信号を有するデータキャリアを含む。
通常、本発明の実施の形態は、プログラムコードを有するコンピュータ・プログラム製品として実施され、コンピュータ・プログラム製品がコンピュータ上で実行する場合、プログラムコードは、方法のうちの1つを実行するために作動される。
プログラムコードは、機械可読キャリアに、例えば、格納されうる。
他の実施の形態は、機械可読キャリアに格納され、本願明細書において記載される方法のうちの1つを実行するためのコンピュータ・プログラムを含む。
換言すれば、従って、コンピュータ・プログラムがコンピュータ上で実行する場合、本発明の方法の実施の形態は、本願明細書において記載される方法のうちの1つを実行するためのプログラムコードを含むコンピュータ・プログラムである。
従って、本発明の方法の更なる実施の形態は、その上に記録され、本願明細書において記載される方法のうちの1つを実行するためのコンピュータ・プログラムを含むデータキャリア(または、デジタル記憶媒体、またはコンピュータ可読媒体)である。
従って、本発明の方法の更なる実施の形態は、本願明細書において記載される方法のうちの1つを実行するためのコンピュータ・プログラムを表しているデータストリームまたは一連の信号である。例えば、データストリームまたは一連の信号は、データ通信接続、例えば、インターネットを介して転送されるように構成されうる。
更なる実施の形態は、本願明細書において記載される方法のうちの1つを実行するために構成され、または適応される処理手段、例えば、コンピュータ、またはプログラミング可能な論理回路を含む。
更なる実施の形態は、その上にインストールされ、本願明細書において記載される方法のうちの1つを実行するためのコンピュータ・プログラムを有するコンピュータを含む。
本発明による更なる実施の形態は、レシーバに本願明細書に記載される方法のうちの1つを実行するためのコンピュータ・プログラムを転送するために構成される装置またはシステムを含む。伝送は、例えば、電子的にまたは光学的に実行されうる。レシーバは、例えば、コンピュータ、モバイル機器、メモリ素子等でもよい。装置またはシステムは、例えば、レシーバにコンピュータ・プログラムを転送するためのファイルサーバを含む。
いくつかの実施の形態において、プログラミング可能な論理回路(例えば、現場でプログラム可能なゲートアレイ(FPGA:Field Programmable Gate Array))が、本願明細書において記載されるいくつかまたは全ての機能を実行するために使用されうる。いくつかの実施の形態において、現場でプログラム可能なゲートアレイは、本願明細書において記載される方法の1つを実行するために、マイクロプロセッサと協働しうる。一般に、方法は、いくつかのハードウェア装置によって、好ましくは実行される。これは、普遍的に適用されうるハードウェア、たとえば、コンピュータプロセッサ(CPU)またはASICのような方法のためのハードウェアである。
上述した実施の形態は、本発明の原則の例を表すだけである。本願明細書において記載される装置の修正および変更は、他の当業者にとって明らかであるものと理解される。従って、間近に迫った特許請求の範囲だけによってのみ制限され、ならびに、本願発明の記述および説明によって表された明細書の詳細な記載によっては、制限されない。

Claims (21)

  1. 領域の音場データ(10)を圧縮するための装置であって、前記装置は、
    前記音場データ(10)を、第1の部分(101)および第2の部分(102)に分割するためのデバイダ(100)と、
    前記第1の部分(101)および前記第2の部分(102)を調和成分(141,182)に変換するためのコンバータ(140,180)であって、圧縮された音場データを得るために、前記コンバータ(140,180)は、前記第2の部分(102)を1つまたは数個のの調和成分(141)に変換し、そして、前記第1の部分(101)をの調和成分に変換するように構成され、ここで、前記第1の部分(101)を表す前記調和成分の前記、前記第2の部分(102)を表す前記調和成分の前記よりも高い、コンバータ(140,180)と、を含み、
    ここで、前記デバイダ(100)は、スペクトル分割を実行するように構成され、そして、異なるフィルタ・バンク・チャネル(140a,140b,140c)における音場データを得るために、前記音場データ(10)の少なくとも一部をフィルタするためのフィルタバンク(100b)を含み
    前記コンバータは、前記異なるフィルタ・バンク・チャネル(140a,140b,140c)の、前記第1の部分(101)を表す第1のフィルタ・バンク・チャネル(140)からサブバンド信号のために、前記の前記調和成分を算出し、そして前記異なるフィルタ・バンク・チャネル(140a,140b,140c)の、前記第2の部分(102)を表す第2のフィルタ・バンク・チャネル(140c)からサブバンド信号のために、前記の前記調和成分を算出するように構成され、前記第1のフィルタ・バンク・チャネル(140a)の中心周波数(fn)は、前記第2のフィルタ・バンク・チャネル(140c)の中心周波数(f1)よりも高い、
    装置。
  2. 前記コンバータ(140,180)は、前記第1の部分(101)ついての前記の前記調和成分を算出するために構成され、前記第1の部分(101)は、前記第2の部分(102)よりも人の聴覚の方向認識にとって重要である、請求項1に記載の装置。
  3. 前記デバイダ(100)は、前記音場データ(10)を前記領域における第1の反射を含む前記第1の部分、および前記領域における第2の反射を含む前記第2の部分に分割するために構成され、前記第2の反射は、前記第1の反射より時間的に後で生ずる、請求項1または請求項2に記載の装置。
  4. 前記デバイダ(100)は、前記音場データ(10)を、前記領域における第1の反射を含む前記第1の部分、および前記領域における第2の反射を含む前記第2の部分に分割するように構成され、前記第2の反射は、前記第1の反射より時間的に後で生じ、そして、前記デバイダ(100)は、さらに、前記第1の部分をスペクトル部分(101,102)に分解し、そして、各々の前記スペクトル部分を1つまたは数個の異なる次数の調和成分に変換するように構成され、より高い周波数帯のスペクトル部分の次数は、より低い周波数帯のスペクトル部分の次数よりも高い、請求項1ないし請求項3のいずれかに記載の装置。
  5. さらに、伝送またはストレージのための前記または前記ついての表示を含むサイド情報(300)とともに、前記1つまたは数個の前記の調和成分(182)および前記の前記調和成分(141)を供給するための出力インタフェース(190)を含む、請求項1ないし請求項4のいずれかに記載の装置。
  6. 前記音場データ(10)は、3次元領域を描写し、そして、前記コンバータは、前記調和成分として円筒調和成分を算出するように構成され、または
    前記音場データ(10)は、3次元領域を描写し、そして、前記コンバータ(140,180)は、前記調和成分として球面調和成分を算出するように構成される、請求項1ないし請求項5のいずれかに記載の装置。
  7. 前記音場データ(10)は、離散的信号の第1の数として存在し、
    前記第1の部分(101)および前記第2の部分(102)のための前記コンバータ(140,180)は、調和成分の第2の全数を供給し、前記調和成分の第2の全数は、前記第1の部分(101)のための調和成分の第1の数と、前記第2の部分(102)のための調和成分の第2の数の合計であり、
    前記調和成分の第2の全数は、前記離散的信号の第1の数よりも小さい、請求項1ないし請求項6のいずれかに記載の装置。
  8. 前記デバイダ(100)は、音場データ(10)として、前記領域における異なる位置に割り当てられる複数の異なるインパルス応答を使用するように構成される、請求項1ないし請求項7のいずれかに記載の装置。
  9. 前記インパルス応答は、頭部伝達関数(HRTF)、またはバイノーラル室内インパルス応答(BRIR)関数、または前記領域の所定の位置に対する前記領域におけるそれぞれ別のインパルス応答である、請求項8に記載の装置。
  10. 前記音場の解凍された表現を得るために、前記第1および第2の部分(101,102)の結合を使用して、そして調和成分表現から時間領域表現への変換を使用して、前記圧縮された音場データを解凍するためのデコーダ(2)と、
    前記またはに関して前記デバイダ(100)または前記コンバータ(140,180)を制御するためのコントローラ(4)であって、前記コントローラ(4)は、心理音響学的モジュールを使用して、前記解凍された音場データと前記音場データ(10)とを比較し、そして、前記比較を使用して、前記デバイダ(100)または前記コンバータ(140,180)を制御するように構成される、請求項1ないし請求項9のいずれかに記載の装置。
  11. 前記デコーダは、前記の前記調和成分および前記の前記調和成分(241,242)を変換し、そして、前記変換された調和成分の結合を実行するように構成されるか、または、
    前記デコーダ(2)は、コンバイナ(245)において、前記の前記調和成分および前記の前記調和成分を結合し、そして、前記コンバイナ(245)における前記結合の結果を、調和成分領域から時間領域(244)に変換するように構成される、請求項10に記載の装置。
  12. 前記デコーダは、異なる次数(140a,140b)異なるスペクトル部分の調和成分を変換し、
    異なるスペクトル部分(304,306)について異なる処理時間を補い、
    それを順に配列することによって、時間領域(244)に変換された前記第1の部分のスペクトル部分と前記時間領域(244)に変換された前記第2の部分の前記スペクトル部分を結合するように構成される、請求項10に記載の装置。
  13. までの第1の調和成分(HC n 141)およびまでの1つまたは数個の第2の調和成分(HC 1 182)を含む圧縮された音場データを解凍するための装置であって、前記第1の調和成分(HC n ,141)の前記は、前記1つまたは数個の第2の調和成分(HC 1 ,182)の前記よりも高く、
    前記圧縮された音場データを得るための入力インタフェース(200)と、
    解凍された音場の表現を得るために、第の部分および第2の部分の結合を使用することによって、および調和成分表現を時間領域表現への変換を使用することによって、前記第1の調和成分(HC n ,141)および前記第2の調和成分(HC 1 ,182)を処理するためのプロセッサ(240)であって、前記第1の部分は、前記第1の調和成分(HC n ,141)によって表現され、前記第2の部分は、前記第2の調和成分(HC 1 ,182)によって表現される、プロセッサ(240)と、を含み、
    ここで、前記の前記第1の調和成分(HCn ,141)は、第1のスペクトル領域(241a)を表し、そして、前記1つまたは数個の前記の調和成分(HC1 ,182)は、異なるスペクトル領域(241c)を表し、
    前記プロセッサ(240)は、時間領域における音場データの表現を得るために、前記の前記調和成分(HCn141)を前記第1のスペクトル領域(241a)に変換し、前記1つまたは数個の前記の第2の調和成分(HC1182)を前記異なるスペクトル領域(241c)に変換し、そして、合成フィルタバンク(245)によって前記変換された調和成分を結合するように構成される、装置。
  14. 前記プロセッサ(240)は、
    結合された調和成分を得るために、前記第1の調和成分(HC n ,141)および前記第2の調和成分(HC 1 ,182)を結合するためのコンバイナ(245)と、
    前記結合された調和成分を時間領域に変換するためのコンバータ(244)と、
    を含む、請求項13に記載の装置。
  15. 前記プロセッサは、
    前記第1の調和成分(HC n ,141)および前記第2の調和成分(HC 1 ,182)を時間領域に変換するためのコンバータ(241,242)と、
    前記解凍された音場データを得るために、前記時間領域に変換された前記調和成分を結合するためのコンバイナ(243,245)と、
    を含む、請求項13に記載の装置。
  16. 前記プロセッサ(240)は、再生の配置(610,612,614)についての情報を得るように構成され、
    前記プロセッサ(240)は、前記解凍された音場データ(602,604,606)を算出し、前記再生の配置についての前記情報に基づいて、再生の目的(608)のための前記解凍された音場データの前記音場データの部分を選択するように構成され、
    前記プロセッサは、前記再生の配置のために必要とされる前記解凍された音場データの部分のみを算出するように構成される、請求項13ないし請求項15のいずれかに記載の装置。
  17. 前記の前記第1の調和成分(HC n ,141)、領域の前半の反射を表し、前記の前記第2の調和成分(HC 1 ,182)は、前記領域の後半の反射を表し、そして、
    前記プロセッサ(240)は、前記解凍された音場データを得るために、前記第1の調和成分(HC n ,141)および前記第2の調和成分(HC 1 ,182)を加え、前記加えた結果を時間領域に変換するように構成される、請求項13ないし請求項16のいずれかに記載の装置。
  18. 前記プロセッサは、変換のために、逆ルーム変換(604)および逆フーリエ変換(606)を実行するように構成される、請求項13ないし請求項17に記載の装置。
  19. 領域の音場データ(10)を圧縮するための方法であって、前記方法は、
    前記音場データ(10)を、第1の部分(101)および第2の部分(102)に分割する(100)ステップと、
    前記第1の部分(101)および前記第2の部分(102)を調和成分(141,182)に変換する(140,180)ステップであって、圧縮された音場データを得るために、前記第2の部分(102)は、1つまたは数個のの調和成分(141)に変換され、そして、前記第1の部分(101)は、の調和成分に変換され、前記第1の部分(101)を表す調和成分の前記は、前記第2の部分(102)を表す調和成分の前記よりも高い、変換する(140,180)ステップと、を含み、
    ここで、分割する(100)ステップは、異なるフィルタ・バンク・チャネル(140a,140b,140c)における音場データを得るために、前記音場データ(10)の少なくとも一部をフィルタするためのフィルタバンク(100b)でフィルタすることによるスペクトル分割を含み、そして、
    変換するステップは、前記異なるフィルタ・バンク・チャネル(140a,140b,140c)の、前記第1の部分(101)を表す第1のフィルタ・バンク・チャネル(140)からサブバンド信号のための前記の前記調和成分の算出を、そして、前記異なるフィルタ・バンク・チャネル(140a,140b,140c)の、前記第2の部分(102)を表す第2のフィルタ・バンク・チャネル(140)からサブバンド信号のための前記の前記調和成分の算出を表現し、前記第1のフィルタ・バンク・チャネル(140a)の中心周波数(fn)は、前記第2のフィルタ・バンク・チャネル(140c)の中心周波数(f1)よりも高い、
    方法。
  20. までの第1の調和成分(HC n 141)および1つまたは数個のまでの調和成分(HC 1 182)を含む圧縮された音場データを解凍するための方法であって、前記第1の調和成分(HC n ,141)の前記は、前記1つまたは数個の第2の調和成分(HC 1 ,182)の前記よりも高く、前記方法は、
    前記圧縮された音場データを得る(200)ステップと、
    前記音場の解凍された表現を得るために、第の部分および第2の部分の結合を使用することによって、および調和成分表現から時間領域表現への変換を使用することによって、前記第1の調和成分(HC n ,141)および前記第2の調和成分(HC 1 ,182)を処理する(240)ステップであって、前記第1の部分は、前記第1の調和成分(HC n ,141)によって表され、前記第2の部分は、前記第2の調和成分(HC 1 ,182)によって表される、処理する(240)ステップと、を含み、
    ここで、前記の前記第1の調和成分(HCn ,141)は、第1のスペクトル領域(241a)を表し、そして、前記1つまたは数個の前記の調和成分(HC1 ,182)は、異なるスペクトル領域(241c)を表し、
    処理する(240)ステップは、時間領域における音場データの表現を得るために、前記の前記第1の調和成分(HCn ,141)を前記第1のスペクトル領域(241a)に変換し、前記1または数個の前記の第2の調和成分(HC1 ,182)を前記異なるスペクトル領域(241c)に変換し、そして、合成フィルタバンク(245)によって前記変換された調和成分を結合するように構成される、
    方法。
  21. プログラムコードがコンピュータ上で実行されると、前記コンピュータが請求項19または請求項20の方法を実行する、前記プログラムコードを有するコンピュータ・プログラム。
JP2016530874A 2013-11-14 2014-11-05 領域の音場データを圧縮および解凍するための方法および装置 Expired - Fee Related JP6329629B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102013223201.2 2013-11-14
DE201310223201 DE102013223201B3 (de) 2013-11-14 2013-11-14 Verfahren und Vorrichtung zum Komprimieren und Dekomprimieren von Schallfelddaten eines Gebietes
PCT/EP2014/073808 WO2015071148A1 (de) 2013-11-14 2014-11-05 Verfahren und vorrichtung zum komprimieren und dekomprimieren von schallfelddaten eines gebiets

Publications (2)

Publication Number Publication Date
JP2017500782A JP2017500782A (ja) 2017-01-05
JP6329629B2 true JP6329629B2 (ja) 2018-05-23

Family

ID=51846694

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016530874A Expired - Fee Related JP6329629B2 (ja) 2013-11-14 2014-11-05 領域の音場データを圧縮および解凍するための方法および装置

Country Status (6)

Country Link
US (1) US20160255452A1 (ja)
EP (1) EP3069530B1 (ja)
JP (1) JP6329629B2 (ja)
CN (1) CN105766002B (ja)
DE (1) DE102013223201B3 (ja)
WO (1) WO2015071148A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2960903A1 (en) 2014-06-27 2015-12-30 Thomson Licensing Method and apparatus for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values
US10412531B2 (en) * 2016-01-08 2019-09-10 Sony Corporation Audio processing apparatus, method, and program
DE102016125886B4 (de) * 2016-12-29 2019-08-29 Symonics GmbH Vorrichtung und Verfahren zur effizienten Berechnung einer Auralisation
US10614788B2 (en) * 2017-03-15 2020-04-07 Synaptics Incorporated Two channel headset-based own voice enhancement
US10764684B1 (en) * 2017-09-29 2020-09-01 Katherine A. Franco Binaural audio using an arbitrarily shaped microphone array
US10721559B2 (en) 2018-02-09 2020-07-21 Dolby Laboratories Licensing Corporation Methods, apparatus and systems for audio sound field capture
EP3547305B1 (en) * 2018-03-28 2023-06-14 Fundació Eurecat Reverberation technique for audio 3d
CN111801732A (zh) * 2018-04-16 2020-10-20 杜比实验室特许公司 用于定向声源的编码及解码的方法、设备及***
GB2574873A (en) * 2018-06-21 2019-12-25 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
GB201818959D0 (en) * 2018-11-21 2019-01-09 Nokia Technologies Oy Ambience audio representation and associated rendering
EP3683794B1 (en) * 2019-01-15 2021-07-28 Nokia Technologies Oy Audio processing
CN110265042B (zh) * 2019-05-31 2021-07-23 歌尔科技有限公司 声音信号处理方法、装置及设备
WO2021154211A1 (en) * 2020-01-28 2021-08-05 Hewlett-Packard Development Company, L.P. Multi-channel decomposition and harmonic synthesis

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS54149684A (en) * 1978-05-15 1979-11-24 Sanyo Electric Co Ltd Reverberation meter
JP3295139B2 (ja) * 1992-09-28 2002-06-24 日本放送協会 残響付加装置
US5440639A (en) * 1992-10-14 1995-08-08 Yamaha Corporation Sound localization control apparatus
JP2002510921A (ja) * 1998-03-31 2002-04-09 レイク テクノロジー リミティド 3次元オーディオ情報からの複雑な室内インパルス応答の公式化
US6016473A (en) * 1998-04-07 2000-01-18 Dolby; Ray M. Low bit-rate spatial coding method and system
FR2851879A1 (fr) * 2003-02-27 2004-09-03 France Telecom Procede de traitement de donnees sonores compressees, pour spatialisation.
JP5106115B2 (ja) * 2004-11-30 2012-12-26 アギア システムズ インコーポレーテッド オブジェクト・ベースのサイド情報を用いる空間オーディオのパラメトリック・コーディング
TWI396188B (zh) * 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
US8379868B2 (en) * 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
DE102006050068B4 (de) * 2006-10-24 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals aus einem Audiosignal, Vorrichtung und Verfahren zum Ableiten eines Mehrkanal-Audiosignals aus einem Audiosignal und Computerprogramm
JP4277234B2 (ja) * 2007-03-13 2009-06-10 ソニー株式会社 データ復元装置、データ復元方法及びデータ復元プログラム
KR101354430B1 (ko) * 2008-07-31 2014-01-22 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 바이노럴 신호를 위한 신호생성
US9703756B2 (en) * 2008-09-05 2017-07-11 Adobe Systems Incorporated Method and apparatus for converting spherical harmonics representations of functions into multi-resolution representations
EP2205007B1 (en) * 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
JP5168208B2 (ja) * 2009-03-30 2013-03-21 ヤマハ株式会社 オーディオ信号処理装置およびスピーカ装置
KR101613684B1 (ko) * 2009-12-09 2016-04-19 삼성전자주식회사 음향 신호 보강 처리 장치 및 방법
JPWO2011121955A1 (ja) * 2010-03-30 2013-07-04 パナソニック株式会社 オーディオ装置
EP2375779A3 (en) * 2010-03-31 2012-01-18 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for measuring a plurality of loudspeakers and microphone array
JP4886881B2 (ja) * 2010-06-30 2012-02-29 株式会社東芝 音響補正装置、音響出力装置、及び音響補正方法
WO2012025580A1 (en) * 2010-08-27 2012-03-01 Sonicemotion Ag Method and device for enhanced sound field reproduction of spatially encoded audio input signals
EP2451196A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Method and apparatus for generating and for decoding sound field data including ambisonics sound field data of an order higher than three
EP2592845A1 (en) * 2011-11-11 2013-05-15 Thomson Licensing Method and Apparatus for processing signals of a spherical microphone array on a rigid sphere used for generating an Ambisonics representation of the sound field
EP2782094A1 (en) * 2013-03-22 2014-09-24 Thomson Licensing Method and apparatus for enhancing directivity of a 1st order Ambisonics signal
US9369818B2 (en) * 2013-05-29 2016-06-14 Qualcomm Incorporated Filtering with binaural room impulse responses with content analysis and weighting
CA3122726C (en) * 2013-09-17 2023-05-09 Wilus Institute Of Standards And Technology Inc. Method and apparatus for processing multimedia signals

Also Published As

Publication number Publication date
WO2015071148A1 (de) 2015-05-21
CN105766002A (zh) 2016-07-13
CN105766002B (zh) 2018-04-20
US20160255452A1 (en) 2016-09-01
DE102013223201B3 (de) 2015-05-13
EP3069530B1 (de) 2019-02-20
EP3069530A1 (de) 2016-09-21
JP2017500782A (ja) 2017-01-05

Similar Documents

Publication Publication Date Title
JP6329629B2 (ja) 領域の音場データを圧縮および解凍するための方法および装置
US20200335115A1 (en) Audio encoding and decoding
JP6626581B2 (ja) 1つの広帯域アライメント・パラメータと複数の狭帯域アライメント・パラメータとを使用して、多チャネル信号を符号化又は復号化する装置及び方法
KR102231498B1 (ko) 고차 앰비소닉스 신호 표현의 압축 및 압축 해제 방법 및 장치
KR100928311B1 (ko) 오디오 피스 또는 오디오 데이터스트림의 인코딩된스테레오 신호를 생성하는 장치 및 방법
US8817991B2 (en) Advanced encoding of multi-channel digital audio signals
JP2023126225A (ja) DirACベース空間オーディオコーディングに関する符号化、復号、シーン処理、および他の手順のための装置、方法、およびコンピュータプログラム
CN112074902B (zh) 使用混合编码器/解码器空间分析的音频场景编码器、音频场景解码器及相关方法
TWI695370B (zh) 用以解碼經編碼多聲道信號之裝置、方法及電腦程式
JP2024512953A (ja) 空間音声ストリームの結合
CN115580822A (zh) 空间音频捕获、传输和再现
RU2427978C2 (ru) Кодирование и декодирование аудио
EP2489036B1 (en) Method, apparatus and computer program for processing multi-channel audio signals
JP2023549038A (ja) パラメータ変換を用いて符号化されたオーディオシーンを処理するための装置、方法、またはコンピュータプログラム
Cheng Spatial squeezing techniques for low bit-rate multichannel audio coding
JP2023548650A (ja) 帯域幅拡張を用いて符号化されたオーディオシーンを処理するための装置、方法、またはコンピュータプログラム
CN113678199A (zh) 空间音频参数的重要性的确定及相关联的编码
MX2008010631A (es) Codificacion y decodificacion de audio

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170411

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170425

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20170725

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171025

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180327

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180420

R150 Certificate of patent or registration of utility model

Ref document number: 6329629

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees