JP4993227B2

JP4993227B2 - 多チャンネル音声フォーマット間の変換のための方法および装置

Info

Publication number: JP4993227B2
Application number: JP2009553931A
Authority: JP
Inventors: プルッキ，ビーレ; ヘレ，ユルゲン
Original assignee: フラウンホファー・ゲゼルシャフト・ツール・フォルデルング・デル・アンゲバンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2007-03-21
Filing date: 2008-02-01
Publication date: 2012-08-08
Anticipated expiration: 2028-02-01
Also published as: KR101195980B1; US8290167B2; CN101669167A; KR20090117897A; BRPI0808217B1; RU2449385C2; TW200845801A; RU2009134474A; TWI369909B; WO2008113428A1; US20080232616A1; JP2010521910A; BRPI0808217A2; EP2130204A1

Description

発明の分野
この発明は、異なる多チャンネル音声フォーマット間で、特定の多チャンネル表現に限定されることなく、可能な最高の品質でどのように変換するかについての技術に関する。つまり、この発明は、任意の多チャンネルフォーマット間の変換を可能にする技術に関する。

発明の背景および先行技術
一般に、多チャンネル再生および聴取では、聴取者は多数のラウドスピーカによって包囲される。特定の設定用に音声信号を取り込むために、さまざまな方法が存在する。再生における１つの一般的な目標は、もともと録音された音響事象、すなわちオーケストラの中でのトランペットの位置といった音声源の起源の空間的構成を再現することである。いくつかのラウドスピーカ設定はかなり一般的であり、異なる空間的印象を作り出すことができる。特殊な生成後技術（post-production techniques）を用いなければ、一般に知られた２チャンネルステレオ設定は、２つのラウドスピーカ間の配線上に聴覚事象を再度作り出すことしかできない。これは主として、１つの音声源に関連した信号の振幅が２つのラウドスピーカ間で、ラウドスピーカに対する音声源の位置に依存して分配される、いわゆる「振幅パンニング」によって達成される。これは通常、録音中またはその後のミキシング中に行なわれる。つまり、聴取位置に対して左端から到来する音声源は主として左のラウドスピーカによって再生され、一方、聴取位置の前にある音声源は両方のラウドスピーカによって同じ振幅（レベル）で再生されることになる。しかしながら、他の方向から生じる音は再生できない。

したがって、聴取者の周りに分布されたより多くのラウドスピーカを用いることによって、より多くの方向が網羅可能であり、より自然な空間的印象を再度作り出すことができる。おそらく最も良く知られた多チャンネルラウドスピーカ配置は５．１規格（ＩＴＵ−Ｒ７７５−１）で、それは５つのラウドスピーカからなり、聴取位置に対するそれらの方位角は０°、±３０°、および±１１０°となるよう予め定められている。要するに、録音中またはミキシング中、信号はその特定のラウドスピーカ構成に適合され、規格からの再生設定のずれは再生品質の低下をもたらす、ということになる。

さまざまな数のラウドスピーカが異なる方向に位置している多数の他のシステムも、これまで提案されてきた。特に劇場および音響施設におけるプロ用システムおよび特殊システムも、異なる高さにあるラウドスピーカを含んでいる。

最近、ＤｉｒＡＣという名前の汎用音声再生システムが提案され、それは任意のラウドスピーカ設定用に音を録音し再生することができる。ＤｉｒＡＣの目的は、任意の幾何学的設定を有する多チャンネルラウドスピーカシステムを用いて、既存の音響環境の空間的印象をできるだけ正確に再生することである。録音環境内では、（連続的な録音された音響またはインパルス応答であり得る）環境の応答が、１つの全指向性マイク（Ｗ）を用いて、および音の到来方向と音の拡散性とを測定可能な１組のマイクを用いて測定される。以下の段落および本願においては、「拡散性」という用語は、音の非指向性の尺度として理解されるべきである。つまり、あらゆる方向から等しい強度で聴取位置または録音位置に到来する音は、最大限に拡散している。拡散を定量化する一般的な方法は、間隔［０，…，１］からの拡散値を用いることであり、ここで１という値は、最大限に拡散している音を表わし、０という値は、完全に指向性の音、すなわち１つの明らかに識別可能な方向
のみから生じる音を表わす。音の到来方向を測定する一般に知られた一方法は、デカルト座標軸と整列された３つの８の字マイク（ＸＹＺ）を適用することである。特殊なマイク、いわゆる「音場マイク」がこれまで設計されており、それはあらゆる所望の応答を直接生み出す。しかしながら、上述のように、Ｗ、Ｘ、ＹおよびＺ信号はまた、１組の別々の全指向性マイクから計算されてもよい。

任意の数のチャンネル用の音声フォーマットを、添付の指向性データとともに、音声の１つまたは２つのダウンミックスチャンネルに格納するための別の方法が、グッドウィン（Goodwin）およびジョット（Jot）により最近提案された。このフォーマットは任意の再生システムに適用可能である。指向性データ、すなわち音声源の方向についての情報を有するデータは、速度ベクトルとエネルギベクトルとからなる「ガーゾン（Gerzon）ベクトル」を用いて計算される。速度ベクトルとは、聴取位置からラウドスピーカを指すベクトルの加重和であり、各加重値は、１つのラウドスピーカについての所与の時間／周波数タイルでの周波数スペクトルの大きさである。エネルギベクトルとは、同様に加重されたベクトルの和である。しかしながら、加重値はラウドスピーカ信号の短時間エネルギ推定値である。つまり、それらは、有限長の時間間隔内の幾分平滑化した信号、またはその信号に含まれる信号エネルギの積分を表わしている。これらのベクトルは、明確な根拠で物理的または知覚的な量に関連付けられていないという欠点を共有している。たとえば、互いに対するラウドスピーカ同士の相対位相は適正に考慮されていない。要するに、たとえば、ある広帯域信号が、逆の位相を有する聴取位置の前のステレオ設定のラウドスピーカに供給された場合、聴取者は周囲方向からの音を知覚し、聴取位置における音場は左右方向の（たとえば左側から右側への）音エネルギ振動を有する、ということになる。そのような状況では、ガーゾンベクトルは前方方向に向いており、それは明らかに物理的または知覚的な状態を表わしていない。

当然ながら、市場には多数の多チャンネルフォーマットまたは表現があるため、個々の表現が、代替的な多チャンネル表現の再構築のためにもともと開発された設定で再生されるように、異なる表現間で変換可能となるための要件が存在する。つまり、たとえば、５．１チャンネルと７．１または７．２チャンネルとの間の変換は、ＤＶＤ上でよく用いられる５．１多チャンネル表現を再生するために既存の７．１または７．２チャンネル再生設定を用いるよう要求される場合がある。多種多様の音声フォーマットは、音声内容の生成を困難にしている。なぜなら、全フォーマットが特定のミックスおよびストレージ／伝送フォーマットを必要とするためである。したがって、異なる再生設定での再生のための異なる録音フォーマット間の変換が必要である。

ある特定の音声フォーマットにおける音声を別の音声フォーマットに変換するために、多数の方法が提案されている。しかしながら、これらの方法は常に、特定の多チャンネルフォーマットまたは表現に適合されている。つまり、これらは、ある特定の予め定められた多チャンネル表現から別の特定の多チャンネル表現への変換にしか適用できない。

一般に、再生チャンネルの数の減少（いわゆる「ダウンミックス」）は、再生チャンネルの数の増加（「アップミックス」）よりも実現がより簡単である。いくつかの標準的なラウドスピーカ再生設定に対し、再生チャンネルの数がより少ない再生設定へとどのようにダウンミックスするかについて、たとえばＩＴＵが勧告している。これらのいわゆる「ＩＴＵ」ダウンミックス方程式では、出力信号は、入力信号の単純な静的線形結合として導き出される。通常、再生チャンネルの数の減少は、知覚された空間画像の劣化、すなわち空間音声信号の再生品質の劣化につながる。

多数の再生チャンネルまたは再生ラウドスピーカからの起こり得る利点のために、特定のタイプの変換のためのアップミックス技術が開発されてきた。しばしば調査される１つ
の問題は、５チャンネルのサラウンド・ラウドスピーカ・システムでの再生のために、２チャンネルステレオ音声をどのように変換するか、ということである。そのような２対５のアップミックスに対する１つのアプローチまたは実現化例は、いわゆる「行列」復号器を用いることである。そのような復号器は、特に映画およびホームシアター用の初期のサラウンドサウンドにおいて、ステレオ伝送インフラストラクチャ全体に５．１多チャンネルサウンドを提供するかまたはアップミックスすることが、一般的になっている。基本的な考え方は、音像の前にあるステレオ信号において同相である音成分を再生すること、および位相成分を後方ラウドスピーカに導入することである。代替的な２対５のアップミックス方法は、ステレオ信号の周囲成分を抽出すること、およびそれらの成分を５．１設定の後方ラウドスピーカを介して再生することを提案している。知覚的により理に適った根拠に基づいて同じ基本的考え方に従い、かつ数学的により洗練された実現化例を用いる一アプローチが最近、Ｃ・フォーラー（Faller）により、「パラメトリック多チャンネル音声符号化：コヒーレンスキューの合成」（Parametric Multi-channel Audio Coding: Synthesis of Coherence Cues）、音声処理に関するＩＥＥＥ会報（IEEE Trans. On Speech and Audio Proc.）、第１４巻、第１号、２００６年１月、において提案されている。

最近公開された標準ＭＰＥＧサラウンドは、ダウンミックスされ伝送された１つまたは２つのチャンネルから、再生に使用される通常５．１である最終的なチャンネルへのアップミックスを行なう。これは、空間サイド情報（ＢＣＣ技術と同様のサイド情報）を用いて、またはサイド情報なしで、ステレオダウンミックスの２つのチャンネル間の位相関係を用いることにより（「非誘導モード」または「改良行列モード」）、実現される。

前述の段落で説明したフォーマット変換についてのあらゆる方法は、源および送信先音声再生フォーマット双方の特定の構成に適用されるよう特化されており、このため汎用ではない。つまり、任意の入力多チャンネル表現と任意の出力多チャンネル表現との間の変換は実行できない。すなわち、先行技術の変換技術は、ラウドスピーカの数と、入力多チャンネル音声表現用および出力多チャンネル表現用のそれらの正確な位置とに、特に適合されている。
国際特許出願２００４／０７７８８４は、ＤｉｒＡＣ符号化を利用して、聴取環境内の音声信号のインパルス応答を録音することを提案している。そのような録音されたインパルス応答を用いて、音声信号は聴取環境の空間的印象とともに再生されてもよい。
ＡＥＳ会議論文６６５８はＤｉｒＡＣ音声符号化に向けられており、ｂフォーマットマイクによって録音された信号の効率的な符号化表現をどのように作成するかという方法を提案している。
国際特許出願０１／８２６５１は、多チャンネルサラウンドマスタリングおよび再生技術に関する。伝送されるべきコンパクトな符号化表現を提供するために、ある特定の空間符号化技術が提案されている。符号化表現は次に受信側で、特別に設計された復号器によって復号されてもよい。

入力および出力多チャンネル表現の任意の組合せに適用可能な多チャンネル変換のための概念を有することが、当然ながら望ましい。

発明の概要
この発明の一実施例によれば、空間音声信号の入力多チャンネル表現を異なる出力多チャンネル表現に変換するための装置は、空間音声信号の中間表現を導き出すための分析器を含み、中間表現は、空間音声信号の一部分の起源の方向を示す方向パラメータを有し、前記装置はさらに、空間音声信号の中間表現を用いて、空間音声信号の出力多チャンネル表現を生成するための信号構成器を含む。

空間音声信号の一部分の起源の方向を示す方向パラメータを有する中間表現が用いられるので、出力多チャンネル表現のラウドスピーカ構成が公知である限り、任意の多チャンネル表現間で変換が達成され得る。出力多チャンネル表現のラウドスピーカ構成が事前に、つまり変換装置の設計中に公知である必要はないことに留意することが重要である。変換装置および方法は汎用なので、入力多チャンネル表現として提供され、特定のラウドスピーカ設定用に設計された多チャンネル表現は、空間音声信号の再生の再生品質が改良されるように、利用可能な再生設定に適合するよう受信側で変更されてもよい。

この発明のさらに別の実施例によれば、空間音声信号の一部分の起源の方向は、異なる周波数帯域内で分析される。そのため、空間音声信号の有限幅の周波数部分のために、異なる方向パラメータが導き出される。有限幅の周波数部分を導き出すには、たとえばフィルタバンクまたはフーリエ変換を用いてもよい。別の実施例によれば、分析が個々に行なわれる周波数部分または周波数帯域は、人間の聴覚処理の周波数分解能に整合するよう選択される。これらの実施例は、人間の聴覚系自体が音声信号の起源の方向を判断できるのと同じぐらい良好に、空間音声信号の部分の起源の方向が行なわれるという利点を有していてもよい。したがって、そのような分析された信号が任意のラウドスピーカ設定を介して再構築され、再生される場合、分析は、音声対象または信号部分の起源の判断における精度の潜在的な損失なく行なわれる。

この発明のさらに別の実施例によれば、中間表現に属する１つ以上のダウンミックスチャンネルが付加的に導き出される。つまり、ダウンミックスされたチャンネルが、入力多チャンネル表現に関連したラウドスピーカに対応する音声チャンネルから導き出され、それらは次に、出力多チャンネル表現を生成するために、または出力多チャンネル表現に関連したラウドスピーカに対応する音声チャンネルを生成するために用いられてもよい。

たとえば、通常の５．１チャンネル音声信号の５．１入力チャンネルから、モノラルのダウンミックスチャンネルが生成されてもよい。これは、たとえば、すべての個々の音声チャンネルの和を計算することにより実行され得る。そのような導き出されたモノラルのダウンミックスチャンネルに基づいて、信号構成器は、入力多チャンネル表現の分析された部分に対応するモノラルのダウンミックスチャンネルのそのような部分を、方向パラメータによって示されるように、出力多チャンネル表現のチャンネルに分配してもよい。つまり、空間音声信号からの、左端から到来すると分析された周波数／時間または信号部分は、聴取位置に対して左側に位置する出力多チャンネル表現のラウドスピーカに再分配されることになる。

一般に、この発明のいくつかの実施例は、より大きい強度を有する空間音声信号の部分を、方向パラメータによって示された方向からより遠く離れたチャンネルよりも、その方向により近いラウドスピーカに対応するチャンネルに分配することができる。つまり、再生に使用されるラウドスピーカの位置が出力多チャンネル表現においてどのように規定されていても、利用可能な再生設定にできるだけ良好に適合する空間再分配が達成されることになる。

この発明のいくつかの実施例によれば、空間音声信号の一部分の起源の方向を判断できるようにする空間分解能は、入力多チャンネル表現の単一のラウドスピーカに関連した３次元空間の角度分解能よりもはるかに高い。つまり、たとえば５．１設定のチャンネルを７．１または７．２設定に再分配するなど、１つの別個の設定からの音声チャンネルを別の特定の設定に単純に再分配することにより獲得可能な空間分解能よりも、より良好な精度で、空間音声信号の一部の起源の方向を導き出すことができる。

要約すると、この発明のいくつかの実施例は、広く適用可能であり、かつ特定の所望の目標ラウドスピーカ配置／構成に依存していない、フォーマット変換のための改良された方法の適用を可能にする。いくつかの実施例は、Ｎ１チャンネルを有する入力多チャンネル音声フォーマット（表現）を、Ｎ２チャンネルを有する出力多チャンネルフォーマット（表現）に、（ＤｉｒＡＣと同様の）方向パラメータを抽出することによって変換し、それらは次に、Ｎ２チャンネルを有する出力信号を合成するために使用される。さらに、いくつかの実施例によれば、多数のＮ０ダウンミックスチャンネルが、Ｎ１入力信号（入力多チャンネル表現に従ったラウドスピーカに対応する音声チャンネル）から計算され、それらは次に、抽出された方向パラメータを用いた復号処理の基盤として使用される。

この発明のいくつかの実施例を、図面を参照して以下に説明する。

音声信号の一部分の起源の方向を示す方向パラメータの導出の図である。５．１チャンネル表現に基づいた方向パラメータの導出のさらに別の一実施例を示す図である。出力多チャンネル表現の生成の一例を示す図である。５．１チャンネル設定から８．１チャンネル設定への音声変換についての一例を示す図である。多チャンネル音声フォーマット間の変換のためのこの発明の装置についての一例を示す図である。

この発明のいくつかの実施例は、空間音声信号の一部分の起源の方向を示す方向パラメータを有する、空間音声信号の中間表現を導き出す。１つの可能性は、空間音声信号の一部分の起源の方向を示す速度ベクトルを導き出すことである。そうするための一例を、図１を参照して以下の段落で説明する。

概念を詳述する前に、以下の分析が、基礎となる空間音声信号の多数の個々の周波数または時間部分に同時に適用され得ることに留意されたい。しかしながら、簡潔にするために、分析は、１つの特定の周波数または時間もしくは時間／周波数部分についてのみ説明される。分析は、図１に示すような座標系の中心に位置する録音位置２で録音された音場のエネルギ分析に基づいている。

座標系は、互いに直交するｘ軸４とｙ軸６とを有するデカルト座標系である。右手系を用いているので、図１に示されていないｚ軸は図面から抜け出る方向を指している。

方向分析のために、（Ｂフォーマット信号として公知の）４つの信号が録音されると仮定する。１つの全指向性信号ｗ、すなわちあらゆる方向からの信号を（理想的には）等しい感度で受取る信号が録音される。さらに、デカルト座標系の軸の方向を指す感度分布を有する３つの指向性信号Ｘ、Ｙ、およびＺが録音される。使用されたマイクの起こり得る感度パターンについての例を、軸の方向を指す２つの「８の字」パターン８ａおよび８ｂを示す図１に挙げる。２つのあり得る音声源１０および１２が、図１に示す座標系の２次元投影にさらに示されている。

方向分析のために、（時間指数ｎでの）瞬間速度ベクトルは、（指数ｉにより表わされる）異なる周波数部分について、以下の式により構成される。

つまり、座標系の軸に関連したマイクの個々に録音されたマイク信号を成分として有するベクトルが作成される。前のおよび以下の方程式において、量は、２つの指数（ｎ，ｉ）により、時間（ｎ）において、および周波数（ｉ）において指し示される。つまり、ｅ_x、ｅ_y、およびｅ_zはデカルト単位ベクトルを表わす。

同時に録音された全指向性信号ｗを用いると、瞬間強度Ｉは、

として計算され、瞬間エネルギは、以下の式：

に従って導き出され、ここで‖ ‖はベクトルノルムを示す。
つまり、（正および負の振幅が起こり得るため）２つの信号間の起こり得る干渉を可能にする強度量が導き出される。加えて、エネルギ量が導き出されるが、それは当然、２つの信号間の干渉を可能にはしない。なぜなら、エネルギ量は、信号の打ち消しを可能とする負の値を含んでいないためである。

強度信号およびエネルギ信号のこれらの特性は、信号部分の起源の方向を高い精度で導き出すために有利に使用可能であり、以下に詳述するように、音声チャンネルの仮想相互関係（チャンネル間の相対位相）を保つ。

一方、瞬間強度ベクトルは、空間音声信号の一部分の起源の方向を示すベクトルとして使用されてもよい。しかしながら、このベクトルは急激な変化を経る場合があり、このため信号の再生において人工物を生じさせる。したがって、代替的には、ハニング窓（Hanning window）Ｗ₂を利用した短時間平均化を用いて、以下の式に従って瞬間方向を計算してもよい。

ここで、Ｗ₂は、短時間平均化Ｄのためのハニング窓である。
つまり、オプションで、空間音声信号の起源の方向を示すパラメータを有する短時間平均された方向ベクトルが導き出されてもよい。

オプションで、拡散性尺度ψは以下のように計算されてもよい。

ここで、Ｗ_１（ｍ）は、短時間平均化のために−Ｍ／２とＭ／２との間で規定された窓関数である。

ここでも、導出が音声チャンネルの仮想相互関係を保つように行なわれることに留意すべきである。つまり、（たとえばガーゾンベクトルのように）エネルギ推定値のみに基づいた方向推定値に関する場合とは異なり、位相情報は適正に考慮されている。

以下の単純な例は、これをより詳細に説明する役割を果たす。ステレオシステムの２つのラウドスピーカによって再生される、完全に拡散している信号を考慮されたい。この信号は拡散している（あらゆる方向から生じている）ので、それは双方のスピーカによって等しい強度で再生されるべきである。しかしながら、拡散していると知覚するには、１８０度の位相変動が必要とされる。そのような状況では、純粋にエネルギに基づいた方向推定により、２つのラウドスピーカのちょうど中央を指す方向ベクトルが生み出されるであろう。それは確実に、現実を反映していない望ましくない結果である。

上に詳述したこの発明の概念によれば、方向パラメータ（方向ベクトル）を推定しつつ、音声チャンネルの仮想相互関係が保たれる。この特定の例では、方向ベクトルはゼロで、音が１つの別個の方向から生じていないことを示しており、それは明らかに現実の場合とは異なる。これに対応して、方程式（５）の拡散性パラメータは１であり、現実の状態に完全に整合している。

上述の方程式におけるハニング窓はさらに、異なる周波数帯域について異なる長さを有していてもよい。

この分析の結果、周波数部分の各タイムスライスについて、空間音声信号の一部分の起源の方向を示す方向ベクトルまたは方向パラメータが導き出され、それについて分析が行なわれてきた。オプションで、空間音声信号の一部分の方向の拡散性を示す拡散性パラメータを導き出すことができる。前述のように、方程式（４）に従って導き出された１という拡散値は、拡散性が最大限の信号、すなわちあらゆる方向から等しい強度で生じる信号を表わす。

それとは逆に、小さい拡散値は、主として１つの方向から生じる信号部分に起因する。
図２は、ＩＴＵ−７７５−１に従った５チャンネルを有する入力多チャンネル表現からの方向パラメータを導出についての一例を示す。多チャンネル入力音声信号、すなわち入力多チャンネル表現はまず、対応する多チャンネル音声設定の無響録音をシミュレートすることにより、Ｂフォーマットに変換される。軸ｘ２２およびｙ２４を有するデカルト座標系の中心２０に対し、後方右側のラウドスピーカ２６は１１０°の角度に位置している。右側前方のラウドスピーカ２８は＋３０°に、中央のラウドスピーカは０°に、左側前方のラウドスピーカ３２は−３１°に、そして左側後方のラウドスピーカ３４は−１１０°に位置している。実際には、無響録音は、単純な行列化演算を適用することによりシミュレート可能であり、入力多チャンネル表現の幾何学的設定は公知である。

あらゆるラウドスピーカ信号の、つまり入力多チャンネル表現に関連したラウドスピーカに対応するあらゆる音声チャンネルの直和を求めることにより、全指向性信号ｗを得ることができる。双極子または「８の字」信号Ｘ、ＹおよびＺは、ラウドスピーカと対応するデカルト軸との間の角度の余弦、すなわちシミュレートされるべき双極子マイクの最大感度の方向によって加重されたラウドスピーカ信号を加えることによって形成可能である。Ｌｎを、ｎ番目のラウドスピーカに向かって指すＤまたは３Ｄデカルトベクトルとし、Ｖを、双極子マイクに対応するデカルト軸方向を指す単位ベクトルとする。その場合、加重係数はｃｏｓ（ａｎｇｌｅ（Ｌｎ、Ｖ））である。たとえば、指向性信号Ｘは以下のように書かれる。

ここで、Ｃ_nは、ｎ番目のチャンネルのラウドスピーカ信号を示し、Ｎはチャンネルの数である。ａｎｇｌｅという用語は、２つの所与のベクトル間の空間角度を計算する演算子として解釈されるべきである。つまり、図２に示す２次元の事例では、たとえば、Ｙ軸２４と左側前方のラウドスピーカ３２との間の角度４０（Q）である。

方向パラメータのさらに別の導出は、たとえば、図１に示し、対応する説明で詳述したように実行され得る。すなわち、音声信号Ｘ、Ｙ、およびＺは、人間の聴覚系の周波数分解能に従って複数の周波数帯域に分割され得る。音の方向、すなわち空間音声信号の部分の起源の方向、およびオプションで拡散性は、各周波数チャンネルにおける時間に依存して分析される。オプションで、たとえば空間音声信号に関連した（ステレオ）チャンネル間のコヒーレンスといった、拡散性以外の信号非類似性の別の尺度を用いる、音の拡散性の代わりのものも使用可能である。

簡略化された一例として、図２に示すように１つの音声源４４が存在し、その源のみが特定の周波数帯域内の信号に寄与している場合、音声源４４を指す方向ベクトル４６が導き出されるであろう。この方向ベクトルは、音声源４４から生じる空間音声信号の一部分の方向を示す方向パラメータ（ベクトル成分）によって表わされる。図２の再生設定では、そのような信号は主として左側前方のラウドスピーカ３２により、このラウドスピーカに関連した象徴的な波形によって示されるように再生されるであろう。しかしながら、微細な信号部分が、左側後方のラウドスピーカ３２からも再生されるであろう。このように、Ｘ座標２２に関連したマイクの指向性信号は、左側前方のチャンネル３２（左側前方のラウドスピーカ３２に関連した音声チャンネル）および左側後方のチャンネル３４から信号成分を受取るであろう。

上述の実現化例に従って、ｙ軸に関連した指向性信号Ｙも同様に左側前方のラウドスピーカ３２によって再生された信号部分を受取るため、指向性信号ＸおよびＹに基づいた指向性分析は、方向ベクトル４６から到来する音を高い精度で再構築することができるであろう。

所望の多チャンネル表現（多チャンネルフォーマット）への最終的な変換のために、音声信号の部分の起源の方向を示す方向パラメータが使用される。オプションで、１つ以上の（Ｎ０）追加の音声ダウンミックスチャンネルが使用されてもよい。そのようなダウンミックスチャンネルは、たとえば、全指向性チャンネルＷであっても、または任意の他のモノラルチャンネルであってもよい。しかしながら、空間分布にとって、中間表現に関連したたった１つの単一のチャンネルの使用は、悪影響があまりない。つまり、方向パラメータまたは指向性データが導き出され、出力多チャンネル表現の再構築または生成のために使用可能である限り、ステレオミックスなどのいくつかのダウンミックスチャンネル、チャンネルＷ、ＹおよびＸ、またはＢフォーマットの全チャンネルが使用されてもよい。可能なダウンミックスチャンネルの代わりとして、図２の５つのチャンネルを直接使用すること、または入力多チャンネル表現に関連したチャンネルの任意の組合せを使用することも代替的に可能である。チャンネルが１つしか格納されていない場合、拡散する音の再生において品質の劣化が起こり得る。

図３は、パラメータが導き出された入力多チャンネル表現であった図２のラウドスピーカ設定とはかなり異なるラウドスピーカ設定での、音声源４４の信号の再生についての一例を示す。図３は、一例として、図２で導入されたようなｘ軸２２およびｙ軸２４を有する座標系の中心を規定する聴取位置６０の前にある線に沿って均等に分布された６つのラウドスピーカ５０ａ〜５０ｆを示している。前述の分析が、音声信号の源４４を指す方向ベクトル４６の方向を表わす方向パラメータを提供したため、図３のラウドスピーカ設定
に適合される出力多チャンネル表現は、再生されるべき空間音声信号の部分を音声源４４の方向に近いラウドスピーカに再分配することにより、すなわち、方向パラメータによって示された方向に近いラウドスピーカにより、容易に導き出すことができる。つまり、方向パラメータによって示された方向のラウドスピーカに対応する音声チャンネルは、この方向から遠く離れたラウドスピーカに対応する音声チャンネルに対して強調される。つまり、ラウドスピーカ５０ａおよび５０ｂはその信号部分を再生するよう（たとえば振幅パンニングを用いて）操作可能であるが、一方、ラウドスピーカ５０ｃ〜５０ｆはその特定の信号成分を再生せず、それらは異なる音、または異なる周波数帯域の他の信号部分の再生用に使用されてもよい。

方向パラメータを用いて空間音声信号の出力多チャンネル表現を生成するために信号構成器を使用することは、中間信号を、Ｎ２出力チャンネルを有する所望の多チャンネル出力フォーマットに復号することとも解釈され得る。生成された音声ダウンミックスチャンネルまたは信号は通常、それらが分析されたのと同じ周波数帯域で処理される。復号はＤｉｒＡＣと同様の態様で行なわれてもよい。拡散する音のオプション再生では、非拡散性ストリームを表わすための音声の使用は通常、オプションのＮ０ダウンミックスチャンネル信号のうちの１つかまたはそれらの線形結合である。

拡散性ストリームのオプション作成のために、出力多チャンネル表現に従ったラウドスピーカに対応する出力信号または出力チャンネルの拡散部分を作成するためのいくつかの合成オプションが存在する。伝送されたダウンミックスチャンネルが１つしかない場合、そのチャンネルを、各ラウドスピーカ用の非拡散信号を作成するために使用しなければならない。伝送されたチャンネルがより多い場合、拡散する音をどのように作成するかについてより多くのオプションがある。たとえば変換処理でステレオダウンミックスが使用された場合、明らかに好適な一方法は、左のダウンミックスチャンネルを左のラウドスピーカに適用し、右のダウンミックスチャンネルを右側のラウドスピーカに適用することである。変換用にいくつかのダウンミックスチャンネルが使用される場合（すなわちＮ０＞１）、各ラウドスピーカについての拡散性ストリームは、これらのダウンミックスチャンネルのさまざまに加重された合計として計算可能である。１つの可能性は、たとえば、Ｂフォーマット信号（前述のようなチャンネルＸ、Ｙ、Ｚおよびｗ）を伝送し、各ラウドスピーカについて仮想カージオイドマイク信号の信号を計算することであり得る。

以下の文は、入力多チャンネル表現の出力多チャンネル表現への変換についての可能な手順をリストとして説明している。この例では、シミュレートされたＢフォーマットマイクを用いて音が録音され、次に、多チャンネルまたはモノラルラウドスピーカ設定で聞くもしくは再生するために、信号構成器によってさらに処理される。５．１チャンネル入力多チャンネル表現の、８チャンネル出力多チャンネル表現への変換を示す図４を参照して、それぞれのステップを説明する。基本はＮ１チャンネル音声フォーマット（この特定の例では、Ｎ１は５）である。入力多チャンネル表現を異なる出力多チャンネル表現に変換するために、以下のステップが行なわれてもよい。

１．（シミュレートされたＢフォーマットマイクが配置の中心７２にある）録音区画７０に示されるようにＮ１音声チャンネル（５チャンネル）を有する任意の多チャンネル音声表現の無響録音をシミュレートする。

２．分析ステップ７４において、シミュレートされたマイク信号を複数の周波数帯域に分割し、指向性分析ステップ７６において、シミュレートされたマイク信号の部分の起源の方向を導き出す。さらに、オプションで、拡散性終了ステップ７８において拡散性（またはコヒーレンス）を判断してもよい。

前述のように、方向分析はＢフォーマット中間ステップを用いずに行なわれてもよい。つまり、一般に、空間音声信号の中間表現は入力多チャンネル表現に基づいて導き出す必要があり、中間表現は、空間音声信号の一部分の起源の方向を示す方向パラメータを有している。

３．ダウンミックスステップ８０において、Ｎ０ダウンミックス音声信号が、出力多チャンネル表現の変換／作成の基盤として使用されるよう導き出される。構成ステップ８２において、Ｎ０ダウンミックス音声信号は、適切な合成方法により（たとえば振幅パンニングまたは同等に好適な技術を用いて）Ｎ２音声チャンネルを必要とする任意のラウドスピーカ設定へと復号され、またはアップミックスされる。

結果は、図４の再生状況８４に示されるようなたとえば８つのラウドスピーカを有する多チャンネルラウドスピーカシステムによって再生可能である。しかしながら、概念の汎用性のため、モノラルラウドスピーカ設定に対しても変換を行なってもよく、空間音声信号が１つの単一の指向性マイクで録音されたかのような効果を提供する。

図５は、多チャンネル音声フォーマット１００間の変換のための装置についての一例の原理図を示す。

装置１００は入力多チャンネル表現１０２を受取る。
装置１００は、空間音声信号の中間表現１０６を導き出すための分析器１０４を含み、中間表現１０６は、空間音声信号の一部分の起源の方向を示す方向パラメータを有する。

装置１００はさらに、空間音声信号の中間表現（１０６）を用いて、空間音声信号の出力多チャンネル表現１１０を生成するための信号構成器１０８を含む。

要約すると、前述の変換装置および変換方法の実施例は、いくつかの大きな利点を提供する。まず第１に、実質上いかなる入力音声フォーマットもこのように処理可能である。さらに、変換処理は、入力ラウドスピーカ配置／構成と出力ラウドスピーカ配置／構成との新しい組合せについての新しい関係を特に適合する必要なく、非標準的なラウドスピーカ配置／構成を含むいかなるラウドスピーカ配置についても出力を生成可能である。さらに、先行技術の実現化例とは異なり、ラウドスピーカの数が増加すると、音声再生の空間分解能が増加する。

この発明の方法の或る実現化要件に依存して、この発明の方法はハードウェアでまたはソフトウェアで実施され得る。この実施は、デジタル記憶媒体、特に、この発明の方法が実行されるようにプログラム可能コンピュータシステムと協働する電子的に読取可能な制御信号を記憶したディスク、ＤＶＤ、またはＣＤを用いて行なわれ得る。概して、この発明はしたがって、マシン読取可能な担体上に記憶されたプログラムコードを有するコンピュータプログラム製品であり、プログラムコードは、コンピュータプログラム製品がコンピュータ上で起動されている際にこの発明の方法を実行するために動作する。言い換えれば、この発明の方法はしたがって、コンピュータプログラムがコンピュータ上で起動されている際にこの発明の方法の少なくとも１つを実行するためのプログラムコードを有するコンピュータプログラムである。

前述の事項はその特定の実施例を参照して特に示され説明されてきたが、形状および詳細のさまざまな他の変更が、その精神および範囲から逸脱することなくなされ得ることが、当業者により理解されるであろう。さまざまな変更が、ここに開示され特許請求の範囲に包含されるより広範な概念から逸脱することなく、異なる実施例への適合の際になされ
得ることが理解されるべきである。

Claims

空間音声信号の入力多チャンネル表現を異なる出力多チャンネル表現に変換するための装置であって、
シミュレートされたマイク信号を得るために、入力多チャンネル表現に関連したラウドスピーカに対応する数の音声チャンネルの録音をシミュレートするための手段と、
シミュレートされたマイク信号から空間音声信号の中間表現を導き出すための分析器とを含み、中間表現は、空間音声信号の一部分の起源の方向を示す方向パラメータを有し、前記装置はさらに、
空間音声信号の中間表現を用いて、空間音声信号の出力多チャンネル表現を生成するための信号構成器を含む、装置。
分析器は、入力多チャンネル表現に関連した音声チャンネルの相互関係に依存する方向パラメータを導き出すよう動作する、請求項１に記載の装置。
分析器は、入力多チャンネル表現に関連した音声チャンネルの相対位相情報を保存する方向パラメータを導き出すよう動作する、請求項１に記載の装置。
分析器は、空間音声信号の有限幅の周波数部分のために異なる方向パラメータを導き出すよう動作する、請求項１に記載の装置。
分析器は、空間音声信号の有限長の時間部分のために異なる方向パラメータを導き出すよう動作する、請求項１に記載の装置。
分析器は、空間音声信号の一部分の起源の方向を指すベクトルを表わす方向パラメータを導き出すよう動作する、請求項１に記載の装置。
分析器は加えて、中間表現に関連した１つ以上の音声チャンネルを導き出すよう動作する、請求項１に記載の装置。
分析器は、入力多チャンネル表現に関連したラウドスピーカに対応する音声チャンネルを導き出すよう動作する、請求項７に記載の装置。
分析器は、入力多チャンネル表現に関連したラウドスピーカに対応する音声チャンネルの和として１つのダウンミックスチャンネルを導き出すよう動作する、請求項７に記載の装置。
分析器は、デカルト座標系の軸の方向に関連した少なくとも１つの音声チャンネルを導き出すよう動作する、請求項７に記載の装置。
分析器は、入力多チャンネル表現に関連したラウドスピーカに対応する音声チャンネルの加重和を構築する少なくとも１つの音声チャンネルを導き出すよう動作する、請求項１０に記載の装置。
分析器は、デカルト座標系の軸の方向Ｖに関連した少なくとも１つの音声チャンネルＸの導出が、入力多チャンネル表現に関連し、かつ方向Ｌ_nに向けられたｎ個のラウドスピーカに対応するｎ個の音声チャンネルＣ_nの組合せにより、

に従って表わされ得るように動作する、請求項１０に記載の装置。
分析器はさらに、空間音声信号の一部分の起源の方向の拡散性を示す拡散性パラメータを導き出すよう動作する、請求項１に記載の装置。
信号構成器は、空間音声信号の一部分を、出力多チャンネル表現に関連したラウドスピーカの数に対応する数のチャンネルに分配するよう動作する、請求項１に記載の装置。
信号構成器は、空間音声信号の一部分が、方向パラメータによって示された方向からより遠く離れたラウドスピーカに対応するチャンネルよりも、その方向により近いラウドスピーカに対応するチャンネルに、より大きい強度で分配されるよう動作する、請求項１４に記載の装置。
信号構成器は、拡散性パラメータがより低い拡散性を示す場合よりも、拡散性パラメータがより高い拡散性を示す場合に、空間音声信号の一部分が、出力多チャンネル表現に関連したラウドスピーカに対応するチャンネルにより均一な強度で分配されるよう動作する、請求項１３に記載の装置。
入力多チャンネル表現を受取るための入力インターフェイスをさらに含む、請求項１に記載の装置。
入力多チャンネル表現に関連したすべてのラウドスピーカに対応する数の音声チャンネルを導き出すための入力表現復号器をさらに含む、請求項１に記載の装置。
信号構成器は、出力チャンネル表現に関連したラウドスピーカに対応する音声チャンネルに基づいて出力多チャンネル表現を導き出すための出力チャンネル符号器をさらに含む、請求項１４に記載の装置。
出力多チャンネル表現を提供するための出力インターフェイスをさらに含む、請求項１に記載の装置。
空間音声信号の入力多チャンネル表現を異なる出力多チャンネル表現に変換するための方法であって、
シミュレートされたマイク信号を得るために、入力多チャンネル表現に関連したラウドスピーカに対応する数の音声チャンネルの録音をシミュレートするステップと、
シミュレートされたマイク信号から空間音声信号の中間表現を導き出すステップとを含み、中間表現は、空間音声信号の一部分の起源の方向を示す方向パラメータを有し、前記方法はさらに、
空間音声信号の中間表現を用いて、空間音声信号の出力多チャンネル表現を生成するステップを含む、方法。
コンピュータ上で起動される際に、空間音声信号の多チャンネル表現を異なる出力多チャンネル表現に変換するための方法を実施するためのコンピュータプログラムであって、前記方法は、
シミュレートされたマイク信号を得るために、入力多チャンネル表現に関連したラウドスピーカに対応する数の音声チャンネルの録音をシミュレートするステップと、
シミュレートされたマイク信号から空間音声信号の中間表現を導き出すステップとを含み、中間表現は、空間音声信号の一部分の起源の方向を示す方向パラメータを有し、前記方法はさらに、
空間音声信号の中間表現を用いて、空間音声信号の出力多チャンネル表現を生成するステップを含む、コンピュータプログラム。