JP4993227B2 - 多チャンネル音声フォーマット間の変換のための方法および装置 - Google Patents

多チャンネル音声フォーマット間の変換のための方法および装置 Download PDF

Info

Publication number
JP4993227B2
JP4993227B2 JP2009553931A JP2009553931A JP4993227B2 JP 4993227 B2 JP4993227 B2 JP 4993227B2 JP 2009553931 A JP2009553931 A JP 2009553931A JP 2009553931 A JP2009553931 A JP 2009553931A JP 4993227 B2 JP4993227 B2 JP 4993227B2
Authority
JP
Japan
Prior art keywords
channel
representation
signal
audio signal
spatial audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009553931A
Other languages
English (en)
Other versions
JP2010521910A (ja
Inventor
プルッキ,ビーレ
ヘレ,ユルゲン
Original Assignee
フラウンホファー・ゲゼルシャフト・ツール・フォルデルング・デル・アンゲバンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホファー・ゲゼルシャフト・ツール・フォルデルング・デル・アンゲバンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホファー・ゲゼルシャフト・ツール・フォルデルング・デル・アンゲバンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2010521910A publication Critical patent/JP2010521910A/ja
Application granted granted Critical
Publication of JP4993227B2 publication Critical patent/JP4993227B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H20/00Arrangements for broadcast or for distribution combined with broadcast
    • H04H20/86Arrangements characterised by the broadcast information itself
    • H04H20/88Stereophonic broadcast systems
    • H04H20/89Stereophonic broadcast systems using three or more audio channels, e.g. triphonic or quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)

Description

発明の分野
この発明は、異なる多チャンネル音声フォーマット間で、特定の多チャンネル表現に限定されることなく、可能な最高の品質でどのように変換するかについての技術に関する。つまり、この発明は、任意の多チャンネルフォーマット間の変換を可能にする技術に関する。
発明の背景および先行技術
一般に、多チャンネル再生および聴取では、聴取者は多数のラウドスピーカによって包囲される。特定の設定用に音声信号を取り込むために、さまざまな方法が存在する。再生における1つの一般的な目標は、もともと録音された音響事象、すなわちオーケストラの中でのトランペットの位置といった音声源の起源の空間的構成を再現することである。いくつかのラウドスピーカ設定はかなり一般的であり、異なる空間的印象を作り出すことができる。特殊な生成後技術(post-production techniques)を用いなければ、一般に知られた2チャンネルステレオ設定は、2つのラウドスピーカ間の配線上に聴覚事象を再度作り出すことしかできない。これは主として、1つの音声源に関連した信号の振幅が2つのラウドスピーカ間で、ラウドスピーカに対する音声源の位置に依存して分配される、いわゆる「振幅パンニング」によって達成される。これは通常、録音中またはその後のミキシング中に行なわれる。つまり、聴取位置に対して左端から到来する音声源は主として左のラウドスピーカによって再生され、一方、聴取位置の前にある音声源は両方のラウドスピーカによって同じ振幅(レベル)で再生されることになる。しかしながら、他の方向から生じる音は再生できない。
したがって、聴取者の周りに分布されたより多くのラウドスピーカを用いることによって、より多くの方向が網羅可能であり、より自然な空間的印象を再度作り出すことができる。おそらく最も良く知られた多チャンネルラウドスピーカ配置は5.1規格(ITU−R775−1)で、それは5つのラウドスピーカからなり、聴取位置に対するそれらの方位角は0°、±30°、および±110°となるよう予め定められている。要するに、録音中またはミキシング中、信号はその特定のラウドスピーカ構成に適合され、規格からの再生設定のずれは再生品質の低下をもたらす、ということになる。
さまざまな数のラウドスピーカが異なる方向に位置している多数の他のシステムも、これまで提案されてきた。特に劇場および音響施設におけるプロ用システムおよび特殊システムも、異なる高さにあるラウドスピーカを含んでいる。
最近、DirACという名前の汎用音声再生システムが提案され、それは任意のラウドスピーカ設定用に音を録音し再生することができる。DirACの目的は、任意の幾何学的設定を有する多チャンネルラウドスピーカシステムを用いて、既存の音響環境の空間的印象をできるだけ正確に再生することである。録音環境内では、(連続的な録音された音響またはインパルス応答であり得る)環境の応答が、1つの全指向性マイク(W)を用いて、および音の到来方向と音の拡散性とを測定可能な1組のマイクを用いて測定される。以下の段落および本願においては、「拡散性」という用語は、音の非指向性の尺度として理解されるべきである。つまり、あらゆる方向から等しい強度で聴取位置または録音位置に到来する音は、最大限に拡散している。拡散を定量化する一般的な方法は、間隔[0,…,1]からの拡散値を用いることであり、ここで1という値は、最大限に拡散している音を表わし、0という値は、完全に指向性の音、すなわち1つの明らかに識別可能な方向
のみから生じる音を表わす。音の到来方向を測定する一般に知られた一方法は、デカルト座標軸と整列された3つの8の字マイク(XYZ)を適用することである。特殊なマイク、いわゆる「音場マイク」がこれまで設計されており、それはあらゆる所望の応答を直接生み出す。しかしながら、上述のように、W、X、YおよびZ信号はまた、1組の別々の全指向性マイクから計算されてもよい。
任意の数のチャンネル用の音声フォーマットを、添付の指向性データとともに、音声の1つまたは2つのダウンミックスチャンネルに格納するための別の方法が、グッドウィン(Goodwin)およびジョット(Jot)により最近提案された。このフォーマットは任意の再生システムに適用可能である。指向性データ、すなわち音声源の方向についての情報を有するデータは、速度ベクトルとエネルギベクトルとからなる「ガーゾン(Gerzon)ベクトル」を用いて計算される。速度ベクトルとは、聴取位置からラウドスピーカを指すベクトルの加重和であり、各加重値は、1つのラウドスピーカについての所与の時間/周波数タイルでの周波数スペクトルの大きさである。エネルギベクトルとは、同様に加重されたベクトルの和である。しかしながら、加重値はラウドスピーカ信号の短時間エネルギ推定値である。つまり、それらは、有限長の時間間隔内の幾分平滑化した信号、またはその信号に含まれる信号エネルギの積分を表わしている。これらのベクトルは、明確な根拠で物理的または知覚的な量に関連付けられていないという欠点を共有している。たとえば、互いに対するラウドスピーカ同士の相対位相は適正に考慮されていない。要するに、たとえば、ある広帯域信号が、逆の位相を有する聴取位置の前のステレオ設定のラウドスピーカに供給された場合、聴取者は周囲方向からの音を知覚し、聴取位置における音場は左右方向の(たとえば左側から右側への)音エネルギ振動を有する、ということになる。そのような状況では、ガーゾンベクトルは前方方向に向いており、それは明らかに物理的または知覚的な状態を表わしていない。
当然ながら、市場には多数の多チャンネルフォーマットまたは表現があるため、個々の表現が、代替的な多チャンネル表現の再構築のためにもともと開発された設定で再生されるように、異なる表現間で変換可能となるための要件が存在する。つまり、たとえば、5.1チャンネルと7.1または7.2チャンネルとの間の変換は、DVD上でよく用いられる5.1多チャンネル表現を再生するために既存の7.1または7.2チャンネル再生設定を用いるよう要求される場合がある。多種多様の音声フォーマットは、音声内容の生成を困難にしている。なぜなら、全フォーマットが特定のミックスおよびストレージ/伝送フォーマットを必要とするためである。したがって、異なる再生設定での再生のための異なる録音フォーマット間の変換が必要である。
ある特定の音声フォーマットにおける音声を別の音声フォーマットに変換するために、多数の方法が提案されている。しかしながら、これらの方法は常に、特定の多チャンネルフォーマットまたは表現に適合されている。つまり、これらは、ある特定の予め定められた多チャンネル表現から別の特定の多チャンネル表現への変換にしか適用できない。
一般に、再生チャンネルの数の減少(いわゆる「ダウンミックス」)は、再生チャンネルの数の増加(「アップミックス」)よりも実現がより簡単である。いくつかの標準的なラウドスピーカ再生設定に対し、再生チャンネルの数がより少ない再生設定へとどのようにダウンミックスするかについて、たとえばITUが勧告している。これらのいわゆる「ITU」ダウンミックス方程式では、出力信号は、入力信号の単純な静的線形結合として導き出される。通常、再生チャンネルの数の減少は、知覚された空間画像の劣化、すなわち空間音声信号の再生品質の劣化につながる。
多数の再生チャンネルまたは再生ラウドスピーカからの起こり得る利点のために、特定のタイプの変換のためのアップミックス技術が開発されてきた。しばしば調査される1つ
の問題は、5チャンネルのサラウンド・ラウドスピーカ・システムでの再生のために、2チャンネルステレオ音声をどのように変換するか、ということである。そのような2対5のアップミックスに対する1つのアプローチまたは実現化例は、いわゆる「行列」復号器を用いることである。そのような復号器は、特に映画およびホームシアター用の初期のサラウンドサウンドにおいて、ステレオ伝送インフラストラクチャ全体に5.1多チャンネルサウンドを提供するかまたはアップミックスすることが、一般的になっている。基本的な考え方は、音像の前にあるステレオ信号において同相である音成分を再生すること、および位相成分を後方ラウドスピーカに導入することである。代替的な2対5のアップミックス方法は、ステレオ信号の周囲成分を抽出すること、およびそれらの成分を5.1設定の後方ラウドスピーカを介して再生することを提案している。知覚的により理に適った根拠に基づいて同じ基本的考え方に従い、かつ数学的により洗練された実現化例を用いる一アプローチが最近、C・フォーラー(Faller)により、「パラメトリック多チャンネル音声符号化:コヒーレンスキューの合成」(Parametric Multi-channel Audio Coding: Synthesis of Coherence Cues)、音声処理に関するIEEE会報(IEEE Trans. On Speech and Audio Proc.)、第14巻、第1号、2006年1月、において提案されている。
最近公開された標準MPEGサラウンドは、ダウンミックスされ伝送された1つまたは2つのチャンネルから、再生に使用される通常5.1である最終的なチャンネルへのアップミックスを行なう。これは、空間サイド情報(BCC技術と同様のサイド情報)を用いて、またはサイド情報なしで、ステレオダウンミックスの2つのチャンネル間の位相関係を用いることにより(「非誘導モード」または「改良行列モード」)、実現される。
前述の段落で説明したフォーマット変換についてのあらゆる方法は、源および送信先音声再生フォーマット双方の特定の構成に適用されるよう特化されており、このため汎用ではない。つまり、任意の入力多チャンネル表現と任意の出力多チャンネル表現との間の変換は実行できない。すなわち、先行技術の変換技術は、ラウドスピーカの数と、入力多チャンネル音声表現用および出力多チャンネル表現用のそれらの正確な位置とに、特に適合されている。
国際特許出願2004/077884は、DirAC符号化を利用して、聴取環境内の音声信号のインパルス応答を録音することを提案している。そのような録音されたインパルス応答を用いて、音声信号は聴取環境の空間的印象とともに再生されてもよい。
AES会議論文6658はDirAC音声符号化に向けられており、bフォーマットマイクによって録音された信号の効率的な符号化表現をどのように作成するかという方法を提案している。
国際特許出願01/82651は、多チャンネルサラウンドマスタリングおよび再生技術に関する。伝送されるべきコンパクトな符号化表現を提供するために、ある特定の空間符号化技術が提案されている。符号化表現は次に受信側で、特別に設計された復号器によって復号されてもよい
入力および出力多チャンネル表現の任意の組合せに適用可能な多チャンネル変換のための概念を有することが、当然ながら望ましい。
発明の概要
この発明の一実施例によれば、空間音声信号の入力多チャンネル表現を異なる出力多チャンネル表現に変換するための装置は、空間音声信号の中間表現を導き出すための分析器を含み、中間表現は、空間音声信号の一部分の起源の方向を示す方向パラメータを有し、前記装置はさらに、空間音声信号の中間表現を用いて、空間音声信号の出力多チャンネル表現を生成するための信号構成器を含む。
空間音声信号の一部分の起源の方向を示す方向パラメータを有する中間表現が用いられるので、出力多チャンネル表現のラウドスピーカ構成が公知である限り、任意の多チャンネル表現間で変換が達成され得る。出力多チャンネル表現のラウドスピーカ構成が事前に、つまり変換装置の設計中に公知である必要はないことに留意することが重要である。変換装置および方法は汎用なので、入力多チャンネル表現として提供され、特定のラウドスピーカ設定用に設計された多チャンネル表現は、空間音声信号の再生の再生品質が改良されるように、利用可能な再生設定に適合するよう受信側で変更されてもよい。
この発明のさらに別の実施例によれば、空間音声信号の一部分の起源の方向は、異なる周波数帯域内で分析される。そのため、空間音声信号の有限幅の周波数部分のために、異なる方向パラメータが導き出される。有限幅の周波数部分を導き出すには、たとえばフィルタバンクまたはフーリエ変換を用いてもよい。別の実施例によれば、分析が個々に行なわれる周波数部分または周波数帯域は、人間の聴覚処理の周波数分解能に整合するよう選択される。これらの実施例は、人間の聴覚系自体が音声信号の起源の方向を判断できるのと同じぐらい良好に、空間音声信号の部分の起源の方向が行なわれるという利点を有していてもよい。したがって、そのような分析された信号が任意のラウドスピーカ設定を介して再構築され、再生される場合、分析は、音声対象または信号部分の起源の判断における精度の潜在的な損失なく行なわれる。
この発明のさらに別の実施例によれば、中間表現に属する1つ以上のダウンミックスチャンネルが付加的に導き出される。つまり、ダウンミックスされたチャンネルが、入力多チャンネル表現に関連したラウドスピーカに対応する音声チャンネルから導き出され、それらは次に、出力多チャンネル表現を生成するために、または出力多チャンネル表現に関連したラウドスピーカに対応する音声チャンネルを生成するために用いられてもよい。
たとえば、通常の5.1チャンネル音声信号の5.1入力チャンネルから、モノラルのダウンミックスチャンネルが生成されてもよい。これは、たとえば、すべての個々の音声チャンネルの和を計算することにより実行され得る。そのような導き出されたモノラルのダウンミックスチャンネルに基づいて、信号構成器は、入力多チャンネル表現の分析された部分に対応するモノラルのダウンミックスチャンネルのそのような部分を、方向パラメータによって示されるように、出力多チャンネル表現のチャンネルに分配してもよい。つまり、空間音声信号からの、左端から到来すると分析された周波数/時間または信号部分は、聴取位置に対して左側に位置する出力多チャンネル表現のラウドスピーカに再分配されることになる。
一般に、この発明のいくつかの実施例は、より大きい強度を有する空間音声信号の部分を、方向パラメータによって示された方向からより遠く離れたチャンネルよりも、その方向により近いラウドスピーカに対応するチャンネルに分配することができる。つまり、再生に使用されるラウドスピーカの位置が出力多チャンネル表現においてどのように規定されていても、利用可能な再生設定にできるだけ良好に適合する空間再分配が達成されることになる。
この発明のいくつかの実施例によれば、空間音声信号の一部分の起源の方向を判断できるようにする空間分解能は、入力多チャンネル表現の単一のラウドスピーカに関連した3次元空間の角度分解能よりもはるかに高い。つまり、たとえば5.1設定のチャンネルを7.1または7.2設定に再分配するなど、1つの別個の設定からの音声チャンネルを別の特定の設定に単純に再分配することにより獲得可能な空間分解能よりも、より良好な精度で、空間音声信号の一部の起源の方向を導き出すことができる。
要約すると、この発明のいくつかの実施例は、広く適用可能であり、かつ特定の所望の目標ラウドスピーカ配置/構成に依存していない、フォーマット変換のための改良された方法の適用を可能にする。いくつかの実施例は、N1チャンネルを有する入力多チャンネル音声フォーマット(表現)を、N2チャンネルを有する出力多チャンネルフォーマット(表現)に、(DirACと同様の)方向パラメータを抽出することによって変換し、それらは次に、N2チャンネルを有する出力信号を合成するために使用される。さらに、いくつかの実施例によれば、多数のN0ダウンミックスチャンネルが、N1入力信号(入力多チャンネル表現に従ったラウドスピーカに対応する音声チャンネル)から計算され、それらは次に、抽出された方向パラメータを用いた復号処理の基盤として使用される。
この発明のいくつかの実施例を、図面を参照して以下に説明する。
音声信号の一部分の起源の方向を示す方向パラメータの導出の図である。 5.1チャンネル表現に基づいた方向パラメータの導出のさらに別の一実施例を示す図である。 出力多チャンネル表現の生成の一例を示す図である。 5.1チャンネル設定から8.1チャンネル設定への音声変換についての一例を示す図である。 多チャンネル音声フォーマット間の変換のためのこの発明の装置についての一例を示す図である。
この発明のいくつかの実施例は、空間音声信号の一部分の起源の方向を示す方向パラメータを有する、空間音声信号の中間表現を導き出す。1つの可能性は、空間音声信号の一部分の起源の方向を示す速度ベクトルを導き出すことである。そうするための一例を、図1を参照して以下の段落で説明する。
概念を詳述する前に、以下の分析が、基礎となる空間音声信号の多数の個々の周波数または時間部分に同時に適用され得ることに留意されたい。しかしながら、簡潔にするために、分析は、1つの特定の周波数または時間もしくは時間/周波数部分についてのみ説明される。分析は、図1に示すような座標系の中心に位置する録音位置2で録音された音場のエネルギ分析に基づいている。
座標系は、互いに直交するx軸4とy軸6とを有するデカルト座標系である。右手系を用いているので、図1に示されていないz軸は図面から抜け出る方向を指している。
方向分析のために、(Bフォーマット信号として公知の)4つの信号が録音されると仮定する。1つの全指向性信号w、すなわちあらゆる方向からの信号を(理想的には)等しい感度で受取る信号が録音される。さらに、デカルト座標系の軸の方向を指す感度分布を有する3つの指向性信号X、Y、およびZが録音される。使用されたマイクの起こり得る感度パターンについての例を、軸の方向を指す2つの「8の字」パターン8aおよび8bを示す図1に挙げる。2つのあり得る音声源10および12が、図1に示す座標系の2次元投影にさらに示されている。
方向分析のために、(時間指数nでの)瞬間速度ベクトルは、(指数iにより表わされる)異なる周波数部分について、以下の式により構成される。
Figure 0004993227
つまり、座標系の軸に関連したマイクの個々に録音されたマイク信号を成分として有するベクトルが作成される。前のおよび以下の方程式において、量は、2つの指数(n,i)により、時間(n)において、および周波数(i)において指し示される。つまり、ex、ey、およびezはデカルト単位ベクトルを表わす。
同時に録音された全指向性信号wを用いると、瞬間強度Iは、
Figure 0004993227
として計算され、瞬間エネルギは、以下の式:
Figure 0004993227
に従って導き出され、ここで‖ ‖はベクトルノルムを示す。
つまり、(正および負の振幅が起こり得るため)2つの信号間の起こり得る干渉を可能にする強度量が導き出される。加えて、エネルギ量が導き出されるが、それは当然、2つの信号間の干渉を可能にはしない。なぜなら、エネルギ量は、信号の打ち消しを可能とする負の値を含んでいないためである。
強度信号およびエネルギ信号のこれらの特性は、信号部分の起源の方向を高い精度で導き出すために有利に使用可能であり、以下に詳述するように、音声チャンネルの仮想相互関係(チャンネル間の相対位相)を保つ。
一方、瞬間強度ベクトルは、空間音声信号の一部分の起源の方向を示すベクトルとして使用されてもよい。しかしながら、このベクトルは急激な変化を経る場合があり、このため信号の再生において人工物を生じさせる。したがって、代替的には、ハニング窓(Hanning window)W2を利用した短時間平均化を用いて、以下の式に従って瞬間方向を計算してもよい。
Figure 0004993227
ここで、W2は、短時間平均化Dのためのハニング窓である。
つまり、オプションで、空間音声信号の起源の方向を示すパラメータを有する短時間平均された方向ベクトルが導き出されてもよい。
オプションで、拡散性尺度ψは以下のように計算されてもよい。
Figure 0004993227
ここで、W(m)は、短時間平均化のために−M/2とM/2との間で規定された窓関数である。
ここでも、導出が音声チャンネルの仮想相互関係を保つように行なわれることに留意すべきである。つまり、(たとえばガーゾンベクトルのように)エネルギ推定値のみに基づいた方向推定値に関する場合とは異なり、位相情報は適正に考慮されている。
以下の単純な例は、これをより詳細に説明する役割を果たす。ステレオシステムの2つのラウドスピーカによって再生される、完全に拡散している信号を考慮されたい。この信号は拡散している(あらゆる方向から生じている)ので、それは双方のスピーカによって等しい強度で再生されるべきである。しかしながら、拡散していると知覚するには、180度の位相変動が必要とされる。そのような状況では、純粋にエネルギに基づいた方向推定により、2つのラウドスピーカのちょうど中央を指す方向ベクトルが生み出されるであろう。それは確実に、現実を反映していない望ましくない結果である。
上に詳述したこの発明の概念によれば、方向パラメータ(方向ベクトル)を推定しつつ、音声チャンネルの仮想相互関係が保たれる。この特定の例では、方向ベクトルはゼロで、音が1つの別個の方向から生じていないことを示しており、それは明らかに現実の場合とは異なる。これに対応して、方程式(5)の拡散性パラメータは1であり、現実の状態に完全に整合している。
上述の方程式におけるハニング窓はさらに、異なる周波数帯域について異なる長さを有していてもよい。
この分析の結果、周波数部分の各タイムスライスについて、空間音声信号の一部分の起源の方向を示す方向ベクトルまたは方向パラメータが導き出され、それについて分析が行なわれてきた。オプションで、空間音声信号の一部分の方向の拡散性を示す拡散性パラメータを導き出すことができる。前述のように、方程式(4)に従って導き出された1という拡散値は、拡散性が最大限の信号、すなわちあらゆる方向から等しい強度で生じる信号を表わす。
それとは逆に、小さい拡散値は、主として1つの方向から生じる信号部分に起因する。
図2は、ITU−775−1に従った5チャンネルを有する入力多チャンネル表現からの方向パラメータを導出についての一例を示す。多チャンネル入力音声信号、すなわち入力多チャンネル表現はまず、対応する多チャンネル音声設定の無響録音をシミュレートすることにより、Bフォーマットに変換される。軸x22およびy24を有するデカルト座標系の中心20に対し、後方右側のラウドスピーカ26は110°の角度に位置している。右側前方のラウドスピーカ28は+30°に、中央のラウドスピーカは0°に、左側前方のラウドスピーカ32は−31°に、そして左側後方のラウドスピーカ34は−110°に位置している。実際には、無響録音は、単純な行列化演算を適用することによりシミュレート可能であり、入力多チャンネル表現の幾何学的設定は公知である。
あらゆるラウドスピーカ信号の、つまり入力多チャンネル表現に関連したラウドスピーカに対応するあらゆる音声チャンネルの直和を求めることにより、全指向性信号wを得ることができる。双極子または「8の字」信号X、YおよびZは、ラウドスピーカと対応するデカルト軸との間の角度の余弦、すなわちシミュレートされるべき双極子マイクの最大感度の方向によって加重されたラウドスピーカ信号を加えることによって形成可能である。Lnを、n番目のラウドスピーカに向かって指すDまたは3Dデカルトベクトルとし、Vを、双極子マイクに対応するデカルト軸方向を指す単位ベクトルとする。その場合、加重係数はcos(angle(Ln、V))である。たとえば、指向性信号Xは以下のように書かれる。
Figure 0004993227
ここで、Cnは、n番目のチャンネルのラウドスピーカ信号を示し、Nはチャンネルの数である。angleという用語は、2つの所与のベクトル間の空間角度を計算する演算子として解釈されるべきである。つまり、図2に示す2次元の事例では、たとえば、Y軸24と左側前方のラウドスピーカ32との間の角度40(Q)である。
方向パラメータのさらに別の導出は、たとえば、図1に示し、対応する説明で詳述したように実行され得る。すなわち、音声信号X、Y、およびZは、人間の聴覚系の周波数分解能に従って複数の周波数帯域に分割され得る。音の方向、すなわち空間音声信号の部分の起源の方向、およびオプションで拡散性は、各周波数チャンネルにおける時間に依存して分析される。オプションで、たとえば空間音声信号に関連した(ステレオ)チャンネル間のコヒーレンスといった、拡散性以外の信号非類似性の別の尺度を用いる、音の拡散性の代わりのものも使用可能である。
簡略化された一例として、図2に示すように1つの音声源44が存在し、その源のみが特定の周波数帯域内の信号に寄与している場合、音声源44を指す方向ベクトル46が導き出されるであろう。この方向ベクトルは、音声源44から生じる空間音声信号の一部分の方向を示す方向パラメータ(ベクトル成分)によって表わされる。図2の再生設定では、そのような信号は主として左側前方のラウドスピーカ32により、このラウドスピーカに関連した象徴的な波形によって示されるように再生されるであろう。しかしながら、微細な信号部分が、左側後方のラウドスピーカ32からも再生されるであろう。このように、X座標22に関連したマイクの指向性信号は、左側前方のチャンネル32(左側前方のラウドスピーカ32に関連した音声チャンネル)および左側後方のチャンネル34から信号成分を受取るであろう。
上述の実現化例に従って、y軸に関連した指向性信号Yも同様に左側前方のラウドスピーカ32によって再生された信号部分を受取るため、指向性信号XおよびYに基づいた指向性分析は、方向ベクトル46から到来する音を高い精度で再構築することができるであろう。
所望の多チャンネル表現(多チャンネルフォーマット)への最終的な変換のために、音声信号の部分の起源の方向を示す方向パラメータが使用される。オプションで、1つ以上の(N0)追加の音声ダウンミックスチャンネルが使用されてもよい。そのようなダウンミックスチャンネルは、たとえば、全指向性チャンネルWであっても、または任意の他のモノラルチャンネルであってもよい。しかしながら、空間分布にとって、中間表現に関連したたった1つの単一のチャンネルの使用は、悪影響があまりない。つまり、方向パラメータまたは指向性データが導き出され、出力多チャンネル表現の再構築または生成のために使用可能である限り、ステレオミックスなどのいくつかのダウンミックスチャンネル、チャンネルW、YおよびX、またはBフォーマットの全チャンネルが使用されてもよい。可能なダウンミックスチャンネルの代わりとして、図2の5つのチャンネルを直接使用すること、または入力多チャンネル表現に関連したチャンネルの任意の組合せを使用することも代替的に可能である。チャンネルが1つしか格納されていない場合、拡散する音の再生において品質の劣化が起こり得る。
図3は、パラメータが導き出された入力多チャンネル表現であった図2のラウドスピーカ設定とはかなり異なるラウドスピーカ設定での、音声源44の信号の再生についての一例を示す。図3は、一例として、図2で導入されたようなx軸22およびy軸24を有する座標系の中心を規定する聴取位置60の前にある線に沿って均等に分布された6つのラウドスピーカ50a〜50fを示している。前述の分析が、音声信号の源44を指す方向ベクトル46の方向を表わす方向パラメータを提供したため、図3のラウドスピーカ設定
に適合される出力多チャンネル表現は、再生されるべき空間音声信号の部分を音声源44の方向に近いラウドスピーカに再分配することにより、すなわち、方向パラメータによって示された方向に近いラウドスピーカにより、容易に導き出すことができる。つまり、方向パラメータによって示された方向のラウドスピーカに対応する音声チャンネルは、この方向から遠く離れたラウドスピーカに対応する音声チャンネルに対して強調される。つまり、ラウドスピーカ50aおよび50bはその信号部分を再生するよう(たとえば振幅パンニングを用いて)操作可能であるが、一方、ラウドスピーカ50c〜50fはその特定の信号成分を再生せず、それらは異なる音、または異なる周波数帯域の他の信号部分の再生用に使用されてもよい。
方向パラメータを用いて空間音声信号の出力多チャンネル表現を生成するために信号構成器を使用することは、中間信号を、N2出力チャンネルを有する所望の多チャンネル出力フォーマットに復号することとも解釈され得る。生成された音声ダウンミックスチャンネルまたは信号は通常、それらが分析されたのと同じ周波数帯域で処理される。復号はDirACと同様の態様で行なわれてもよい。拡散する音のオプション再生では、非拡散性ストリームを表わすための音声の使用は通常、オプションのN0ダウンミックスチャンネル信号のうちの1つかまたはそれらの線形結合である。
拡散性ストリームのオプション作成のために、出力多チャンネル表現に従ったラウドスピーカに対応する出力信号または出力チャンネルの拡散部分を作成するためのいくつかの合成オプションが存在する。伝送されたダウンミックスチャンネルが1つしかない場合、そのチャンネルを、各ラウドスピーカ用の非拡散信号を作成するために使用しなければならない。伝送されたチャンネルがより多い場合、拡散する音をどのように作成するかについてより多くのオプションがある。たとえば変換処理でステレオダウンミックスが使用された場合、明らかに好適な一方法は、左のダウンミックスチャンネルを左のラウドスピーカに適用し、右のダウンミックスチャンネルを右側のラウドスピーカに適用することである。変換用にいくつかのダウンミックスチャンネルが使用される場合(すなわちN0>1)、各ラウドスピーカについての拡散性ストリームは、これらのダウンミックスチャンネルのさまざまに加重された合計として計算可能である。1つの可能性は、たとえば、Bフォーマット信号(前述のようなチャンネルX、Y、Zおよびw)を伝送し、各ラウドスピーカについて仮想カージオイドマイク信号の信号を計算することであり得る。
以下の文は、入力多チャンネル表現の出力多チャンネル表現への変換についての可能な手順をリストとして説明している。この例では、シミュレートされたBフォーマットマイクを用いて音が録音され、次に、多チャンネルまたはモノラルラウドスピーカ設定で聞くもしくは再生するために、信号構成器によってさらに処理される。5.1チャンネル入力多チャンネル表現の、8チャンネル出力多チャンネル表現への変換を示す図4を参照して、それぞれのステップを説明する。基本はN1チャンネル音声フォーマット(この特定の例では、N1は5)である。入力多チャンネル表現を異なる出力多チャンネル表現に変換するために、以下のステップが行なわれてもよい。
1.(シミュレートされたBフォーマットマイクが配置の中心72にある)録音区画70に示されるようにN1音声チャンネル(5チャンネル)を有する任意の多チャンネル音声表現の無響録音をシミュレートする。
2.分析ステップ74において、シミュレートされたマイク信号を複数の周波数帯域に分割し、指向性分析ステップ76において、シミュレートされたマイク信号の部分の起源の方向を導き出す。さらに、オプションで、拡散性終了ステップ78において拡散性(またはコヒーレンス)を判断してもよい。
前述のように、方向分析はBフォーマット中間ステップを用いずに行なわれてもよい。つまり、一般に、空間音声信号の中間表現は入力多チャンネル表現に基づいて導き出す必要があり、中間表現は、空間音声信号の一部分の起源の方向を示す方向パラメータを有している。
3.ダウンミックスステップ80において、N0ダウンミックス音声信号が、出力多チャンネル表現の変換/作成の基盤として使用されるよう導き出される。構成ステップ82において、N0ダウンミックス音声信号は、適切な合成方法により(たとえば振幅パンニングまたは同等に好適な技術を用いて)N2音声チャンネルを必要とする任意のラウドスピーカ設定へと復号され、またはアップミックスされる。
結果は、図4の再生状況84に示されるようなたとえば8つのラウドスピーカを有する多チャンネルラウドスピーカシステムによって再生可能である。しかしながら、概念の汎用性のため、モノラルラウドスピーカ設定に対しても変換を行なってもよく、空間音声信号が1つの単一の指向性マイクで録音されたかのような効果を提供する。
図5は、多チャンネル音声フォーマット100間の変換のための装置についての一例の原理図を示す。
装置100は入力多チャンネル表現102を受取る。
装置100は、空間音声信号の中間表現106を導き出すための分析器104を含み、中間表現106は、空間音声信号の一部分の起源の方向を示す方向パラメータを有する。
装置100はさらに、空間音声信号の中間表現(106)を用いて、空間音声信号の出力多チャンネル表現110を生成するための信号構成器108を含む。
要約すると、前述の変換装置および変換方法の実施例は、いくつかの大きな利点を提供する。まず第1に、実質上いかなる入力音声フォーマットもこのように処理可能である。さらに、変換処理は、入力ラウドスピーカ配置/構成と出力ラウドスピーカ配置/構成との新しい組合せについての新しい関係を特に適合する必要なく、非標準的なラウドスピーカ配置/構成を含むいかなるラウドスピーカ配置についても出力を生成可能である。さらに、先行技術の実現化例とは異なり、ラウドスピーカの数が増加すると、音声再生の空間分解能が増加する。
この発明の方法の或る実現化要件に依存して、この発明の方法はハードウェアでまたはソフトウェアで実施され得る。この実施は、デジタル記憶媒体、特に、この発明の方法が実行されるようにプログラム可能コンピュータシステムと協働する電子的に読取可能な制御信号を記憶したディスク、DVD、またはCDを用いて行なわれ得る。概して、この発明はしたがって、マシン読取可能な担体上に記憶されたプログラムコードを有するコンピュータプログラム製品であり、プログラムコードは、コンピュータプログラム製品がコンピュータ上で起動されている際にこの発明の方法を実行するために動作する。言い換えれば、この発明の方法はしたがって、コンピュータプログラムがコンピュータ上で起動されている際にこの発明の方法の少なくとも1つを実行するためのプログラムコードを有するコンピュータプログラムである。
前述の事項はその特定の実施例を参照して特に示され説明されてきたが、形状および詳細のさまざまな他の変更が、その精神および範囲から逸脱することなくなされ得ることが、当業者により理解されるであろう。さまざまな変更が、ここに開示され特許請求の範囲に包含されるより広範な概念から逸脱することなく、異なる実施例への適合の際になされ
得ることが理解されるべきである。

Claims (22)

  1. 空間音声信号の入力多チャンネル表現を異なる出力多チャンネル表現に変換するための装置であって、
    シミュレートされたマイク信号を得るために、入力多チャンネル表現に関連したラウドスピーカに対応する数の音声チャンネルの録音をシミュレートするための手段と、
    シミュレートされたマイク信号から空間音声信号の中間表現を導き出すための分析器とを含み、中間表現は、空間音声信号の一部分の起源の方向を示す方向パラメータを有し、前記装置はさらに、
    空間音声信号の中間表現を用いて、空間音声信号の出力多チャンネル表現を生成するための信号構成器を含む、装置。
  2. 分析器は、入力多チャンネル表現に関連した音声チャンネルの相互関係に依存する方向パラメータを導き出すよう動作する、請求項1に記載の装置。
  3. 分析器は、入力多チャンネル表現に関連した音声チャンネルの相対位相情報を保存する方向パラメータを導き出すよう動作する、請求項1に記載の装置。
  4. 分析器は、空間音声信号の有限幅の周波数部分のために異なる方向パラメータを導き出すよう動作する、請求項1に記載の装置。
  5. 分析器は、空間音声信号の有限長の時間部分のために異なる方向パラメータを導き出すよう動作する、請求項1に記載の装置。
  6. 分析器は、空間音声信号の一部分の起源の方向を指すベクトルを表わす方向パラメータを導き出すよう動作する、請求項1に記載の装置。
  7. 分析器は加えて、中間表現に関連した1つ以上の音声チャンネルを導き出すよう動作する、請求項1に記載の装置。
  8. 分析器は、入力多チャンネル表現に関連したラウドスピーカに対応する音声チャンネルを導き出すよう動作する、請求項に記載の装置。
  9. 分析器は、入力多チャンネル表現に関連したラウドスピーカに対応する音声チャンネルの和として1つのダウンミックスチャンネルを導き出すよう動作する、請求項に記載の装置。
  10. 分析器は、デカルト座標系の軸の方向に関連した少なくとも1つの音声チャンネルを導き出すよう動作する、請求項に記載の装置。
  11. 分析器は、入力多チャンネル表現に関連したラウドスピーカに対応する音声チャンネルの加重和を構築する少なくとも1つの音声チャンネルを導き出すよう動作する、請求項10に記載の装置。
  12. 分析器は、デカルト座標系の軸の方向Vに関連した少なくとも1つの音声チャンネルXの導出が、入力多チャンネル表現に関連し、かつ方向Lnに向けられたn個のラウドスピーカに対応するn個の音声チャンネルCnの組合せにより、
    Figure 0004993227
    に従って表わされ得るように動作する、請求項10に記載の装置。
  13. 分析器はさらに、空間音声信号の一部分の起源の方向の拡散性を示す拡散性パラメータを導き出すよう動作する、請求項1に記載の装置。
  14. 信号構成器は、空間音声信号の一部分を、出力多チャンネル表現に関連したラウドスピーカの数に対応する数のチャンネルに分配するよう動作する、請求項1に記載の装置。
  15. 信号構成器は、空間音声信号の一部分が、方向パラメータによって示された方向からより遠く離れたラウドスピーカに対応するチャンネルよりも、その方向により近いラウドスピーカに対応するチャンネルに、より大きい強度で分配されるよう動作する、請求項14に記載の装置。
  16. 信号構成器は、拡散性パラメータがより低い拡散性を示す場合よりも、拡散性パラメータがより高い拡散性を示す場合に、空間音声信号の一部分が、出力多チャンネル表現に関連したラウドスピーカに対応するチャンネルにより均一な強度で分配されるよう動作する、請求項13に記載の装置。
  17. 入力多チャンネル表現を受取るための入力インターフェイスをさらに含む、請求項1に記載の装置。
  18. 入力多チャンネル表現に関連したすべてのラウドスピーカに対応する数の音声チャンネルを導き出すための入力表現復号器をさらに含む、請求項1に記載の装置。
  19. 信号構成器は、出力チャンネル表現に関連したラウドスピーカに対応する音声チャンネルに基づいて出力多チャンネル表現を導き出すための出力チャンネル符号器をさらに含む、請求項14に記載の装置。
  20. 出力多チャンネル表現を提供するための出力インターフェイスをさらに含む、請求項1に記載の装置。
  21. 空間音声信号の入力多チャンネル表現を異なる出力多チャンネル表現に変換するための方法であって、
    シミュレートされたマイク信号を得るために、入力多チャンネル表現に関連したラウドスピーカに対応する数の音声チャンネルの録音をシミュレートするステップと、
    シミュレートされたマイク信号から空間音声信号の中間表現を導き出すステップとを含み、中間表現は、空間音声信号の一部分の起源の方向を示す方向パラメータを有し、前記方法はさらに、
    空間音声信号の中間表現を用いて、空間音声信号の出力多チャンネル表現を生成するステップを含む、方法。
  22. コンピュータ上で起動される際に、空間音声信号の多チャンネル表現を異なる出力多チャンネル表現に変換するための方法を実施するためのコンピュータプログラムであって、前記方法は、
    シミュレートされたマイク信号を得るために、入力多チャンネル表現に関連したラウドスピーカに対応する数の音声チャンネルの録音をシミュレートするステップと、
    シミュレートされたマイク信号から空間音声信号の中間表現を導き出すステップとを含み、中間表現は、空間音声信号の一部分の起源の方向を示す方向パラメータを有し、前記方法はさらに、
    空間音声信号の中間表現を用いて、空間音声信号の出力多チャンネル表現を生成するステップを含む、コンピュータプログラム。
JP2009553931A 2007-03-21 2008-02-01 多チャンネル音声フォーマット間の変換のための方法および装置 Active JP4993227B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US89618407P 2007-03-21 2007-03-21
US60/896,184 2007-03-21
US11/742,502 US8290167B2 (en) 2007-03-21 2007-04-30 Method and apparatus for conversion between multi-channel audio formats
US11/742,502 2007-04-30
PCT/EP2008/000830 WO2008113428A1 (en) 2007-03-21 2008-02-01 Method and apparatus for conversion between multi-channel audio formats

Publications (2)

Publication Number Publication Date
JP2010521910A JP2010521910A (ja) 2010-06-24
JP4993227B2 true JP4993227B2 (ja) 2012-08-08

Family

ID=39313182

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009553931A Active JP4993227B2 (ja) 2007-03-21 2008-02-01 多チャンネル音声フォーマット間の変換のための方法および装置

Country Status (9)

Country Link
US (1) US8290167B2 (ja)
EP (1) EP2130204A1 (ja)
JP (1) JP4993227B2 (ja)
KR (1) KR101195980B1 (ja)
CN (1) CN101669167A (ja)
BR (1) BRPI0808217B1 (ja)
RU (1) RU2449385C2 (ja)
TW (1) TWI369909B (ja)
WO (1) WO2008113428A1 (ja)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007083739A1 (ja) * 2006-01-19 2007-07-26 Nippon Hoso Kyokai 3次元音響パンニング装置
US9014377B2 (en) * 2006-05-17 2015-04-21 Creative Technology Ltd Multichannel surround format conversion and generalized upmix
US9015051B2 (en) * 2007-03-21 2015-04-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Reconstruction of audio channels with direction parameters indicating direction of origin
US8908873B2 (en) * 2007-03-21 2014-12-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for conversion between multi-channel audio formats
US8180062B2 (en) * 2007-05-30 2012-05-15 Nokia Corporation Spatial sound zooming
JP2011519528A (ja) * 2008-04-21 2011-07-07 スナップ ネットワークス インコーポレーテッド スピーカー用電気システムとその制御装置
CN102084418B (zh) * 2008-07-01 2013-03-06 诺基亚公司 用于调整多通道音频信号的空间线索信息的设备和方法
EP2205007B1 (en) * 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
KR101387195B1 (ko) * 2009-10-05 2014-04-21 하만인터내셔날인더스트리스인코포레이티드 오디오 신호의 공간 추출 시스템
EP2346028A1 (en) 2009-12-17 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
JP5508550B2 (ja) * 2010-02-24 2014-06-04 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 拡張ダウンミックス信号を発生するための装置、拡張ダウンミックス信号を発生するための方法及びコンピュータプログラム
US9100768B2 (en) 2010-03-26 2015-08-04 Thomson Licensing Method and device for decoding an audio soundfield representation for audio playback
EP2375779A3 (en) * 2010-03-31 2012-01-18 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for measuring a plurality of loudspeakers and microphone array
KR20120004909A (ko) * 2010-07-07 2012-01-13 삼성전자주식회사 입체 음향 재생 방법 및 장치
US9271081B2 (en) * 2010-08-27 2016-02-23 Sonicemotion Ag Method and device for enhanced sound field reproduction of spatially encoded audio input signals
JP5567997B2 (ja) * 2010-12-07 2014-08-06 日本放送協会 音響信号比較装置およびそのプログラム
KR101871234B1 (ko) 2012-01-02 2018-08-02 삼성전자주식회사 사운드 파노라마 생성 장치 및 방법
JP2015509212A (ja) * 2012-01-19 2015-03-26 コーニンクレッカ フィリップス エヌ ヴェ 空間オーディオ・レンダリング及び符号化
CN103379424B (zh) * 2012-04-24 2016-08-10 华为技术有限公司 一种混音方法及多点控制服务器
EP2733964A1 (en) * 2012-11-15 2014-05-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Segment-wise adjustment of spatial audio signal to different playback loudspeaker setup
MX347100B (es) * 2012-12-04 2017-04-12 Samsung Electronics Co Ltd Aparato de suministro de audio y método de suministro de audio.
WO2014161996A2 (en) 2013-04-05 2014-10-09 Dolby International Ab Audio processing system
BR122021009022B1 (pt) 2013-04-05 2022-08-16 Dolby International Ab Método de decodificação para decodificar dois sinais de áudio, mídia legível por computador, e decodificador para decodificar dois sinais de áudio
ES2643789T3 (es) 2013-05-24 2017-11-24 Dolby International Ab Codificación eficiente de escenas de audio que comprenden objetos de audio
JP6190947B2 (ja) * 2013-05-24 2017-08-30 ドルビー・インターナショナル・アーベー オーディオ・オブジェクトを含むオーディオ・シーンの効率的な符号化
US9495968B2 (en) 2013-05-29 2016-11-15 Qualcomm Incorporated Identifying sources from which higher order ambisonic audio data is generated
EP2814027B1 (en) * 2013-06-11 2016-08-10 Harman Becker Automotive Systems GmbH Directional audio coding conversion
EP2830332A3 (en) 2013-07-22 2015-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method, signal processing unit, and computer program for mapping a plurality of input channels of an input channel configuration to output channels of an output channel configuration
JP6392353B2 (ja) 2013-09-12 2018-09-19 ドルビー・インターナショナル・アーベー マルチチャネル・オーディオ・コンテンツの符号化
CN105637901B (zh) * 2013-10-07 2018-01-23 杜比实验室特许公司 空间音频处理***和方法
EP3127109B1 (en) 2014-04-01 2018-03-14 Dolby International AB Efficient coding of audio scenes comprising audio objects
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9852737B2 (en) * 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
CN105657633A (zh) 2014-09-04 2016-06-08 杜比实验室特许公司 生成针对音频对象的元数据
US9774974B2 (en) 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
US9913061B1 (en) 2016-08-29 2018-03-06 The Directv Group, Inc. Methods and systems for rendering binaural audio content
EP3297298B1 (en) * 2016-09-19 2020-05-06 A-Volute Method for reproducing spatially distributed sounds
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
AU2018344830B2 (en) 2017-10-04 2021-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to DirAC based spatial audio coding
PL3711047T3 (pl) * 2017-11-17 2023-01-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie i sposób do kodowania lub dekodowania parametrów kierunkowego kodowania audio przy wykorzystaniu różnych rozdzielczości czasowych/częstotliwościowych
WO2020016685A1 (en) * 2018-07-18 2020-01-23 Sphereo Sound Ltd. Detection of audio panning and synthesis of 3d audio from limited-channel surround sound
WO2022164229A1 (ko) * 2021-01-27 2022-08-04 삼성전자 주식회사 오디오 처리 장치 및 방법

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BG60225B2 (en) 1988-09-02 1993-12-30 Q Sound Ltd Method and device for sound image formation
US5208860A (en) 1988-09-02 1993-05-04 Qsound Ltd. Sound imaging method and apparatus
DE69210689T2 (de) 1991-01-08 1996-11-21 Dolby Lab Licensing Corp Kodierer/dekodierer für mehrdimensionale schallfelder
GB9103207D0 (en) 1991-02-15 1991-04-03 Gerzon Michael A Stereophonic sound reproduction system
DE4236989C2 (de) 1992-11-02 1994-11-17 Fraunhofer Ges Forschung Verfahren zur Übertragung und/oder Speicherung digitaler Signale mehrerer Kanäle
JPH07222299A (ja) 1994-01-31 1995-08-18 Matsushita Electric Ind Co Ltd 音像移動処理編集装置
US5850453A (en) 1995-07-28 1998-12-15 Srs Labs, Inc. Acoustic correction apparatus
FR2738099B1 (fr) 1995-08-25 1997-10-24 France Telecom Procede de simulation de la qualite acoustique d'une salle et processeur audio-numerique associe
US5870484A (en) 1995-09-05 1999-02-09 Greenberger; Hal Loudspeaker array with signal dependent radiation pattern
JP4132109B2 (ja) 1995-10-26 2008-08-13 ソニー株式会社 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置
US6697491B1 (en) 1996-07-19 2004-02-24 Harman International Industries, Incorporated 5-2-5 matrix encoder and decoder system
JP3594281B2 (ja) 1997-04-30 2004-11-24 株式会社河合楽器製作所 ステレオ拡大装置及び音場拡大装置
JP4347422B2 (ja) 1997-06-17 2009-10-21 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 空間形成されたオーディオの再生
US5890125A (en) 1997-07-16 1999-03-30 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method
FI116990B (fi) 1997-10-20 2006-04-28 Nokia Oyj Menetelmä ja järjestelmä akustisen virtuaaliympäristön käsittelemiseksi
AUPP272598A0 (en) 1998-03-31 1998-04-23 Lake Dsp Pty Limited Wavelet conversion of 3-d audio signals
EP1275272B1 (en) 2000-04-19 2012-11-21 SNK Tech Investment L.L.C. Multi-channel surround sound mastering and reproduction techniques that preserve spatial harmonics in three dimensions
US7110953B1 (en) 2000-06-02 2006-09-19 Agere Systems Inc. Perceptual coding of audio signals using separated irrelevancy reduction and redundancy reduction
CN100429960C (zh) 2000-07-19 2008-10-29 皇家菲利浦电子有限公司 用于获得立体声环绕和/或音频中心信号的多声道立体声转换器
EP1184676B1 (en) 2000-09-02 2004-05-06 Nokia Corporation System and method for processing a signal being emitted from a target signal source into a noisy environment
KR100922910B1 (ko) 2001-03-27 2009-10-22 캠브리지 메카트로닉스 리미티드 사운드 필드를 생성하는 방법 및 장치
SE0202159D0 (sv) 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
JP3810004B2 (ja) 2002-03-15 2006-08-16 日本電信電話株式会社 ステレオ音響信号処理方法、ステレオ音響信号処理装置、ステレオ音響信号処理プログラム
TWI236307B (en) 2002-08-23 2005-07-11 Via Tech Inc Method for realizing virtual multi-channel output by spectrum analysis
FI118247B (fi) 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
SE0400997D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Efficient coding of multi-channel audio
US7818077B2 (en) 2004-05-06 2010-10-19 Valve Corporation Encoding spatial data in a multi-channel sound file for an object in a virtual environment
US20080144864A1 (en) 2004-05-25 2008-06-19 Huonlabs Pty Ltd Audio Apparatus And Method
US8843378B2 (en) 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
WO2006003813A1 (ja) 2004-07-02 2006-01-12 Matsushita Electric Industrial Co., Ltd. オーディオ符号化及び復号化装置
KR101283525B1 (ko) 2004-07-14 2013-07-15 돌비 인터네셔널 에이비 오디오 채널 변환
US7720232B2 (en) 2004-10-15 2010-05-18 Lifesize Communications, Inc. Speakerphone
US7853022B2 (en) 2004-10-28 2010-12-14 Thompson Jeffrey K Audio spatial environment engine
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
US8873768B2 (en) 2004-12-23 2014-10-28 Motorola Mobility Llc Method and apparatus for audio signal enhancement
JP4804014B2 (ja) 2005-02-23 2011-10-26 沖電気工業株式会社 音声会議装置
US8023659B2 (en) * 2005-06-21 2011-09-20 Japan Science And Technology Agency Mixing system, method and program
EP1761110A1 (en) 2005-09-02 2007-03-07 Ecole Polytechnique Fédérale de Lausanne Method to generate multi-channel audio signals from stereo signals
US8379868B2 (en) * 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues

Also Published As

Publication number Publication date
KR101195980B1 (ko) 2012-10-30
US8290167B2 (en) 2012-10-16
CN101669167A (zh) 2010-03-10
KR20090117897A (ko) 2009-11-13
BRPI0808217B1 (pt) 2021-04-06
RU2449385C2 (ru) 2012-04-27
TW200845801A (en) 2008-11-16
RU2009134474A (ru) 2011-04-27
TWI369909B (en) 2012-08-01
WO2008113428A1 (en) 2008-09-25
US20080232616A1 (en) 2008-09-25
JP2010521910A (ja) 2010-06-24
BRPI0808217A2 (pt) 2014-07-01
EP2130204A1 (en) 2009-12-09

Similar Documents

Publication Publication Date Title
JP4993227B2 (ja) 多チャンネル音声フォーマット間の変換のための方法および装置
US10820134B2 (en) Near-field binaural rendering
US8908873B2 (en) Method and apparatus for conversion between multi-channel audio formats
US10609503B2 (en) Ambisonic depth extraction
CN111316354B (zh) 目标空间音频参数和相关联的空间音频播放的确定
RU2533437C2 (ru) Способ и устройство для кодирования и оптимальной реконструкции трехмерного акустического поля
JP5081838B2 (ja) オーディオ符号化及び復号
KR101341523B1 (ko) 스테레오 신호들로부터 멀티 채널 오디오 신호들을생성하는 방법
EP2805326B1 (en) Spatial audio rendering and encoding
US8180062B2 (en) Spatial sound zooming
TW201820898A (zh) 用以再生空間分散聲音之方法
GB2549532A (en) Merging audio signals with spatial metadata
Kan et al. Psychoacoustic evaluation of different methods for creating individualized, headphone-presented virtual auditory space from B-format room impulse responses
Epain et al. D3. 3: Object-based capture

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110804

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110823

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111121

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120410

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120425

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150518

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4993227

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250