JP5728094B2

JP5728094B2 - 到来方向推定から幾何学的な情報の抽出による音取得

Info

Publication number: JP5728094B2
Application number: JP2013541374A
Authority: JP
Inventors: ユールゲンヘレ; ファビアンキュッヒ; マルクスカリンガー; ガルドジョヴァンニデル; オリヴァーティールガルト; ディルクメーネ; アヒムクンツ; ミヒャエルクラッシュマー; アレクサンドラクラチウン
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2010-12-03
Filing date: 2011-12-02
Publication date: 2015-06-03
Anticipated expiration: 2031-12-02
Also published as: PL2647222T3; TW201234873A; AR084091A1; HK1190490A1; JP2014501945A; JP2014502109A; US20130268280A1; ES2643163T3; KR101619578B1; WO2012072804A1; AU2011334857A1; WO2012072798A1; ES2525839T3; MX338525B; CN103460285A; CA2819394A1; EP2647222A1; CN103460285B; AU2011334851B2; BR112013013681A2

Description

本発明は、オーディオ処理に関し、特に、到来方向推定から幾何学的な情報の抽出による音取得のための装置および方法に関する。

従来の空間録音は、再生側で、記録場所にあったような音像をリスナーが知覚するように、複数のマイクロホンで音場を捉えることを目的とする。空間録音のための標準的なアプローチは、通常、例えばＡＢステレオ音響において無指向性マイクロホン、または、例えばインテンシティステレオ音響においてコインシデント指向性マイクロホン、または、例えば、
[1] R. K. Furness, "Ambisonics - An overview," in AES 8th International Conference, April 1990, pp. 181-189
を参照し、例えばアンビソニック（Ａｍｂｉｓｏｎｉｃｓ）において、例えばＢ−フォーマットマイクロホンなどのより高性能のマイクロホンを、間隔をおいて用いる。

音の再生のために、これらのノンパラメトリックアプローチは、記録されたマイクロホン信号から直接的に望ましいオーディオ再生信号（例えば、ラウドスピーカに送られる信号）を導出する。

また、音場のパラメトリック表現に基づく方法を適用することができ、それは、パラメトリック空間オーディオコーダと呼ばれる。これらの方法は、空間音を記載する空間サイド情報とともに１つ以上のオーディオダウンミックス信号を決定するためにマイクロホンアレイをしばしば用いる。例としては、方向オーディオ符号化（ＤｉｒＡＣ）またはいわゆる空間オーディオマイクロホン（ＳＡＭ）アプローチである。ＤｉｒＡＣに関する詳細は、
[2] Pulkki, V., "Directional audio coding in spatial sound reproduction and stereo upmixing," in Proceedings of the AES 28th International Conference, pp. 251-258, Piteaa, Sweden, June 30 - July 2, 2006,
[3] V. Pulkki, "Spatial sound reproduction with directional audio coding," J. Audio Eng. Soc., vol. 55, no. 6, pp. 503-516, June 2007
に見られる。

空間オーディオマイクロホンアプローチに関する詳細については、
[4] C. Faller: "Microphone Front-Ends for Spatial Audio Coders", in Proceedings of the AES 125th International Convention, San Francisco, Oct. 2008
を参照する。

ＤｉｒＡＣにおいて、例えば、空間キュー情報は、時間周波数領域において計算される音の到来方向（ＤＯＡ）および音場の拡散を含む。音の再生のために、オーディオ再生信号は、パラメトリック記述に基づいて導出することができる。いくつかのアプリケーションにおいて、空間音取得は、すべての音シーンを捉えることを目的とする。他のアプリケーションにおいて、空間音取得は、特定の望ましい成分を捉えることを目的とするだけである。接話マイクロホンは、高い信号対雑音比（ＳＮＲ）および低い反響で個々の音源を記録するためにしばしば用いられる一方で、例えばＸＹステレオ音響などのより遠い構造は、すべての音シーンの空間イメージを捉えるための方法を表す。指向性に関するより高い柔軟性は、ビーム形成によって達成することができ、マイクロホンアレイは、操作可能なピックアップパターンを実現するために用いることができる。さらに高い柔軟性は、例えば、
[5] M. Kallinger, H. Ochsenfeld, G. Del Galdo, F. Kuech, D. Mahne, R. Schultz-Amling. and O. Thiergart, "A spatial filtering approach for directional audio coding," in Audio Engineering Society Convention 126, Munich, Germany, May 2009
に記載されるように、任意のピックアップパターンを有する空間フィルタを実現することが可能である方向オーディオ符号化（ＤｉｒＡＣ）（[２]、[３]を参照）などの上述の方法、および、例えば、
[6] R. Schultz-Amling, F. Kuech, O. Thiergart, and M. Kallinger, "Acoustical zooming based on a parametric sound field representation," in Audio Engineering Society Convention 128, London UK, May 2010,
[7] J. Herre, C. Falch, D. Mahne, G. Del Galdo, M. Kallinger, and O. Thiergart, "Interactive teleconferencing combining spatial audio object coding and DirAC technology," in Audio Engineering Society Convention 128, London UK, May 2010
を参照する、音シーンの他の信号処理操作によって提供される。

すべての上述の概念は、マイクロホンが一定の周知の配列に配置されることを共通に有する。マイクロホン間の間隔は、コインシデントマイクロホンためにはできるだけ小さいが、それは、通常、他の方法のためには数センチメートルである。以下において、空間マイクロホンとして音の到来方向を検索することができる空間音の記録のためのいかなる装置（例えば指向性マイクロホンの結合またはマイクロホンアレイ）にも言及する。

さらに、すべての上述の方法は、それらが１つの位置、すなわち測定場所だけに関して音場の表現に制限されることを共通に有する。このように、必要なマイクロホンは、非常に特定の慎重に選択された位置に、例えば音源の近くにまたは空間イメージを最適に捉えることができるように、配置されなければならない。

しかしながら、多くのアプリケーションにおいて、これは、実現可能でなく、したがって、音源からさらに離れていくつかのマイクロホンを配置し、それでも望み通りに音を捉えることができることは有益である。

それが測定されたところ以外の空間の位置において音場を推定するためのいくつかの音場再生方法が存在する。１つの方法としては、
[8] E. G. Williams, Fourier Acoustics: Sound Radiation and Nearfield Acoustical Holography, Academic Press, 1999
に記載されるように、音響ホログラフィである。

音響ホログラフィは、音圧および粒子速度がその全表面において知られるならば、任意の体積を有するいかなる位置でも音場を計算することを可能にする。そのため、その体積が大きいときに、非実用的に多いセンサが必要である。さらに、その方法は、音源がその体積内に存在しないと考え、アルゴリズムを我々のニーズのために実現不可能にする。関連した波動場外挿（[８]を参照）は、体積の表面における周知の音場を外側領域に外挿することを目的とする。しかしながら、外挿精度は、
[9] A. Kuntz and R. Rabenstein, "Limitations in the extrapolation of wave fields from circular measurements," in 15th European Signal Processing Conference (EUSIPCO 2007), 2007
を参照し、より大きい外挿距離のためにおよび音の伝搬方向に対して直角の方向に向かって外挿のために、急速に低下する。

[10] A. Walther and C. Faller, "Linear simulation of spaced microphone arrays using b-format recordings," in Audio Engineering Society Convention 128, London UK, May 2010
は、平面波モデルを記載し、音場外挿は、実際の音源から離れた位置に、例えば測定位置の近くにだけ可能である。

従来のアプローチの大きな欠点は、記録される空間イメージが、用いられる空間マイクロホンと常に関連するということである。多くのアプリケーションにおいて、望ましい位置に例えば音源の近くに、空間マイクロホンを配置することは、可能でないか実現可能でない。この場合、音シーンからさらに離れて複数の空間マイクロホンを配置し、それでも望み通りに音を捉えることができることは、より有益である。

[11] US61/287,596: An Apparatus and a Method for Converting a First Parametric Spatial Audio Signal into a Second Parametric Spatial Audio Signal
は、ラウドスピーカまたはヘッドホンを通して再生されるときに、真の記録位置を他の位置に仮想的に動かすための方法を提案する。しかしながら、この方法は、すべての音オブジェクトが、記録のために用いられる真の空間マイクロホンまでの等しい距離を有すると考えられる単純な音シーンに制限される。さらに、その方法は、１つの空間マイクロホンの利点をとることができるだけである。

米国特許出願第６１／２８７，５９６号：[11] US61/287,596: An Apparatus and a Method for Converting a First Parametric Spatial Audio Signal into a Second Parametric Spatial Audio Signal

[1] R. K. Furness, "Ambisonics - An overview," in AES 8th International Conference, April 1990, pp. 181-189 [2] V. Pulkki, "Directional audio coding in spatial sound reproduction and stereo upmixing," in Proceedings of the AES 28th International Conference, pp. 251-258, Piteaa, Sweden, June 30 - July 2, 2006 [3] V. Pulkki, "Spatial sound reproduction with directional audio coding," J. Audio Eng. Soc., vol. 55, no. 6, pp. 503-516, June 2007 [4] C. Faller: "Microphone Front-Ends for Spatial Audio Coders", in Proceedings of the AES 125th International Convention, San Francisco, Oct. 2008 [5] M. Kallinger, H. Ochsenfeld, G. Del Galdo, F. Kuech, D. Mahne, R. Schultz-Amling. and O. Thiergart, "A spatial filtering approach for directional audio coding," in Audio Engineering Society Convention 126, Munich, Germany, May 2009 [6] R. Schultz-Amling, F. Kuech, O. Thiergart, and M. Kallinger, "Acoustical zooming based on a parametric sound field representation," in Audio Engineering Society Convention 128, London UK, May 2010 [7] J. Herre, C. Falch, D. Mahne, G. Del Galdo, M. Kallinger, and O. Thiergart, "Interactive teleconferencing combining spatial audio object coding and DirAC technology," in Audio Engineering Society Convention 128, London UK, May 2010 [8] E. G. Williams, Fourier Acoustics: Sound Radiation and Nearfield Acoustical Holography, Academic Press, 1999 [9] A. Kuntz and R. Rabenstein, "Limitations in the extrapolation of wave fields from circular measurements," in 15th European Signal Processing Conference (EUSIPCO 2007), 2007 [10] A. Walther and C. Faller, "Linear simulation of spaced microphone arrays using b-format recordings," in Audio Engineering Society Convention 128, London UK, May 2010 [12] S. Rickard and Z. Yilmaz, "On the approximate W-disjoint orthogonality of speech," in Acoustics, Speech and Signal Processing, 2002. ICASSP 2002. IEEE International Conference on, April 2002, vol. 1 [13] R. Roy, A. Paulraj, and T. Kailath, "Direction-of-arrival estimation by subspace rotation methods - ESPRIT," in IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Stanford, CA, USA, April 1986 [14] R. Schmidt, "Multiple emitter location and signal parameter estimation," IEEE Transactions on Antennas and Propagation, vol. 34, no. 3, pp. 276-280, 1986 [15] J. Michael Steele, "Optimal Triangulation of Random Samples in the Plane", The Annals of Probability, Vol. 10, No.3 (Aug., 1982), pp. 548-553 [16] F. J. Fahy, Sound Intensity, Essex: Elsevier Science Publishers Ltd., 1989 [17] R. Schultz-Amling, F. Kuech, M. Kallinger, G. Del Galdo, T. Ahonen and V. Pulkki, "Planar microphone array processing for the analysis and reproduction of spatial audio using directional audio coding," in Audio Engineering Society Convention 124, Amsterdam, The Netherlands, May 2008 [18] M. Kallinger, F. Kuech, R. Schultz-Amling, G. Del Galdo, T. Ahonen and V. Pulkki, "Enhanced direction estimation using microphone arrays for directional audio coding;" in Hands-Free Speech Communication and Microphone Arrays, 2008. HSCMA 2008, May 2008, pp. 45-48

本発明の目的は、幾何学的な情報の抽出による音取得のための改良された概念を提供することである。本発明の目的は、請求項１に記載の装置によって、請求項２４に記載の方法によって、さらに、請求項２５に記載のコンピュータプログラムによって解決される。

実施形態によれば、環境において設定可能な仮想位置で仮想マイクロホンの記録をシミュレートするためにオーディオ出力信号を生成するための装置が提供される。その装置は、音事象位置推定器および情報計算モジュールを含む。音事象位置推定器は、その環境において音源の位置を示す音源位置を推定するように構成され、音事象位置推定器は、その環境において第１の真のマイクロホン位置に設置される第１の真の空間マイクロホンによって提供される第１の方向情報に基づいて、さらに、その環境において第２の真のマイクロホン位置に設置される第２の真の空間マイクロホンによって提供される第２の方向情報に基づいて、音源位置を推定するように構成される。

情報計算モジュールは、第１の真の空間マイクロホンによって記録される第１の記録されたオーディオ入力信号に基づいて、第１の真のマイクロホン位置に基づいて、仮想マイクロホンの仮想位置に基づいて、さらに、音源位置に基づいて、オーディオ出力信号を生成するように構成される。

実施形態において、情報計算モジュールは、伝搬補償器を含み、伝搬補償器は、オーディオ出力信号を得るために、第１の記録されたオーディオ入力信号の振幅値、強度値または位相値を調整することによって、音源および第１の真の空間マイクロホン間の第１の振幅減衰に基づいてさらに音源および仮想マイクロホン間の第２の振幅減衰に基づいて、第１の記録されたオーディオ入力信号を修正することによって第１の修正されたオーディオ信号を生成するように構成される。実施形態において、第１の振幅減衰は、音源から放出される音波の振幅減衰であってもよく、さらに、第２の振幅減衰は、音源から放出される音波の振幅減衰であってもよい。

他の実施形態によれば、情報計算モジュールは、オーディオ出力信号を得るために、第１の記録されたオーディオ入力信号の振幅値、強度値または位相値を調整することによって第１の真の空間マイクロホンでの音源から放出される音波の到来および仮想マイクロホンでの音波の到来間の第１の遅延を補償することによって第１の記録されたオーディオ入力信号を修正することによって第１の修正されたオーディオ信号を生成するように構成される伝搬補償器を含む。

実施形態によれば、以下において真の空間マイクロホンと呼ばれる２つ以上の空間マイクロホンを用いることが考えられる。真の空間マイクロホンごとに、音のＤＯＡは、時間周波数領域において推定することができる。それらの相対的な位置の知識とともに、真の空間マイクロホンによって集められる情報から、環境において自由に仮想的に配置される任意の空間マイクロホンの出力信号を構成することが可能である。この空間マイクロホンは、以下において仮想空間マイクロホンと呼ばれる。

到来方向（ＤＯＡ）は、２Ｄ空間の場合、方位角として表され、または、３Ｄにおいて方位角および仰角の対によって表されてもよいことに留意されたい。同等に、ＤＯＡに向けられる単位ノルムベクトルが用いられてもよい。

実施形態において、手段は、空間的に選択的な方法において音を捉えるために提供され、例えば、特定の目標場所から生じる音は、ちょうどクローズアップ「スポットマイクロホン」がこの場所に取り付けられているように、捉えることができる。しかしながら、このスポットマイクロホンを実際に取り付ける代わりに、その出力信号は、他の遠い位置に配置される２つ以上の空間マイクロホンを用いることによってシミュレートすることができる。

用語「空間マイクロホン」は、音の到来方向を検索することができる空間音の取得のためのいかなる装置（例えば指向性マイクロホンの結合、マイクロホンアレイ）にも言及する。

用語「非空間マイクロホン」は、例えば単一の無指向性または指向性のマイクロホンなどの音の到来方向を検索するために適していないいかなる装置にも言及する。

用語「真の空間マイクロホン」が上述のように物理的に存在する空間マイクロホンに言及することに留意すべきである。

仮想空間マイクロホンに関して、仮想空間マイクロホンがいかなる望ましいマイクロホンタイプまたはマイクロホン結合を表すことに留意すべきであり、それは、例えば、単一の無指向性マイクロホン、指向性マイクロホン、共通のステレオマイクロホンに用いられるように一対の指向性マイクロホンや、マイクロホンアレイも表すことができる。

本発明は、２つ以上の真の空間マイクロホンが用いられるときに、音事象の２Ｄまたは３Ｄ空間において位置を推定することが可能であるという知見に基づき、そのため、位置定位を達成することができる。音事象の決定された位置を用いることによって、空間において任意に配置されさらに方向づけられる仮想空間マイクロホンによって記録されている音信号は、例えば仮想空間マイクロホンの観点から到来方向などの対応する空間サイド情報とともに計算することができる。

この目的のために、それぞれの音事象は、点状の音源、例えば等方性の点状の音源を表すと考えられてもよい。以下において、「真の音源」は、例えば話し手または楽器など、記録環境において物理的に存在する実際の音源に言及する。これに対して、「音源」または「音事象」について、以下において有効な音源に言及し、それは、特定の時間瞬間でまたは特定の時間周波数ビンにおいてアクティブであり、音源は、例えば、真の音源または鏡像源を表すことができる。実施形態によれば、音シーンが多数のそのような音事象または点状の音源としてモデル化されると黙示的に考えられる。さらに、それぞれの音源は、所定の時間周波数表現において特定の時間および周波数スロット内でだけアクティブであると考えられてもよい。真の空間マイクロホン間の距離は、伝搬時間において生じる時間差が時間周波数表現の時間分解能よりも短くなるようであってもよい。後者の考えは、特定の音事象が同じ時間スロット内ですべての空間マイクロホンによって捉えられることを保証する。これは、同じ時間周波数スロットのための異なる空間マイクロホンで推定されるＤＯＡｓが同じ音事象に実際に対応することを意味する。この考えは、数ミリ秒でもの時間分解能を有する大きな部屋（例えばリビングルームまたは会議室など）においてさえ互いに数メートルをおいて配置される真の空間マイクロホンで会談することが困難でない。

マイクロホンアレイは、音源を定位するために用いられてもよい。定位された音源は、それらの性質に応じて異なる物理的な解釈を有することができる。マイクロホンアレイが直接音を受信するときに、それらは、真の音源（例えば話し手）の位置を定位することができてもよい。マイクロホンアレイが反射を受信するときに、それらは、鏡像源の位置を定位することができる。鏡像源は、音源でもある。

任意の場所に配置される仮想マイクロホンの音信号を推定することができるパラメトリック方法が提供される。前に記載される方法とは対照的に、提案された方法は、音場を再生することを直接的に目的とせず、むしろ、この場所に物理的に配置されるマイクロホンによって捉えられるものと知覚的に類似する音を提供することを目的とする。これは、点状の音源、例えば等方性の点状の音源（ＩＰＬＳ）に基づいて音場のパラメトリックモデルを用いることによって達成されてもよい。必要な幾何学的な情報、すなわちすべてのＩＰＬＳの瞬時位置は、２つ以上の分散されたマイクロホンアレイで推定される到来方向の三角測量を行うことによって得られてもよい。これは、アレイの相対的な位置および方向の知識を得ることによって、達成される。それにもかかわらず、実際の音源（例えば話し手）の数および位置に関する演繹的な知識は必要でない。提案された概念、例えば提案された装置または方法のパラメトリック性質を考慮すれば、仮想マイクロホンは、例えば、距離による音圧減衰に関して、任意の指向性パターンも任意の物理的なまたは非物理的な挙動も有することができる。提案されたアプローチは、反響する環境において測定に基づいてパラメータ推定精度を検討することによって検証されている。

得られる空間イメージが、マイクロホンが物理的に配置された位置と常に関連する限り、空間オーディオのための従来の記録技術が制限される一方、本発明の実施形態は、多くのアプリケーションにおいて、音シーンの外側にマイクロホンを配置しさらに任意の観点から音をまだ捉えることができることが、望ましいことを考慮する。実施形態によれば、マイクロホンが音シーンに物理的に配置されている場合、捉えられているものと知覚的に類似する信号を計算することによって、空間において任意の位置に仮想マイクロホンを仮想的に配置する概念が提供される。実施形態は、概念を適用することができ、それは、点状の音源、例えば点状の等方性の音源に基づいて音場のパラメトリックモデルを用いることができる。必要な幾何学的な情報は、２つ以上の分散されたマイクロホンアレイによって集められてもよい。

実施形態によれば、音事象位置推定器は、第１の方向情報として第１の真のマイクロホン位置での音源から放出される音波の第１の到来方向に基づいて、さらに、第２の方向情報として第２の真のマイクロホン位置での音波の第２の到来方向に基づいて、音源位置を推定するように構成されてもよい。

他の実施形態において、情報計算モジュールは、空間サイド情報を計算するための空間サイド情報計算モジュールを含むことができる。情報計算モジュールは、仮想マイクロホンの位置ベクトルに基づいてさらに音事象の位置ベクトルに基づいて、空間サイド情報として仮想マイクロホンでの到来方向またはアクティブな音のインテンシティを推定するように構成されてもよい。

さらなる実施形態によれば、伝搬補償器は、時間周波数領域において表される第１の記録されたオーディオ入力信号の前記強度値を調整することによって第１の真の空間マイクロホンでの音源から放出される音波の到来および仮想マイクロホンでの音波の到来間の第１の遅延または振幅減衰を補償することによって、時間周波数領域において第１の修正されたオーディオ信号を生成するように構成されてもよい。

さらなる実施形態において、情報計算モジュールは、結合器をさらに含むことができ、伝搬補償器は、第２の修正されたオーディオ信号を得るために第２の記録されたオーディオ入力信号の振幅値、強度値または位相値を調整することによって、第２の真の空間マイクロホンでの音源から放出される音波の到来および仮想マイクロホンでの音波の到来間の第２の遅延または振幅減衰を補償することによって、第２の真の空間マイクロホンによって記録される、第２の記録されたオーディオ入力信号を修正するようにさらに構成されてもよく、さらに、結合器は、オーディオ出力信号を得るために、第１の修正されたオーディオ信号および第２の修正されたオーディオ信号を結合することによって結合信号を生成するように構成されてもよい。

他の実施形態によれば、伝搬補償器は、仮想マイクロホンでの音波の到来およびさらなる真の空間マイクロホンのそれぞれでの音源から放出される音波の到来間の遅延を補償することによって、１つ以上のさらなる真の空間マイクロホンによって記録される、１つ以上のさらなる記録されたオーディオ入力信号を修正するようにさらに構成されてもよい。遅延または振幅減衰のそれぞれは、複数の第３の修正されたオーディオ信号を得るためにさらなる記録されたオーディオ入力信号のそれぞれの振幅値、強度値または位相値を調整することによって補償されてもよい。結合器は、オーディオ出力信号を得るために、第１の修正されたオーディオ信号、第２の修正されたオーディオ信号および複数の第３の修正されたオーディオ信号を結合することによって結合信号を生成するように構成されてもよい。

さらなる実施形態において、情報計算モジュールは、オーディオ出力信号を得るために仮想マイクロホンの仮想位置での音波の到来方向に応じてさらに仮想マイクロホンの仮想方向に応じて第１の修正されたオーディオ信号を修正することによって重み付けられたオーディオ信号を生成するためのスペクトル重み付けユニットを含むことができ、第１の修正されたオーディオ信号は、時間周波数領域において修正されてもよい。

さらに、情報計算モジュールは、オーディオ出力信号を得るために仮想マイクロホンの仮想位置での到来方向または音波および仮想マイクロホンの仮想方向に応じて結合信号を修正することによって重み付けられたオーディオ信号を生成するためのスペクトル重み付けユニットを含むことができ、結合信号は、時間周波数領域において修正されてもよい。

実施形態において、伝搬補償器は、オーディオ出力信号を得るために、第３の記録されたオーディオ入力信号の振幅値、強度値または位相値を調整することによって無指向性マイクロホンでの音源から放出される音波の到来および仮想マイクロホンでの音波の到来間の第３の遅延または振幅減衰を補償することによって無指向性マイクロホンによって記録される第３の記録されたオーディオ入力信号を修正することによって第３の修正されたオーディオ信号を生成するようにさらに構成される。

さらなる実施形態において、音事象位置推定器は、３次元環境において音源位置を推定するように構成されてもよい。

さらに、他の実施形態によれば、情報計算モジュールは、仮想マイクロホンでの拡散音エネルギーまたは仮想マイクロホンでの直接音エネルギーを推定するように構成される拡散計算ユニットをさらに含むことができる。

本発明の好適な実施形態は、以下において記載される。

図１は、実施形態によるオーディオ出力信号を生成するための装置を示す。図２は、実施形態によるオーディオ出力信号を生成するための装置および方法の入力および出力を示す。図３は、音事象位置推定器および情報計算モジュールを含む実施形態による装置の基本構造を示す。図４は、真の空間マイクロホンがそれぞれ３つのマイクロホンのユニフォームリニアアレイ（ＵｎｉｆｏｒｍＬＩｎｅａｒＡｒｒａｙｓ）として表される例示的なシナリオを示す。図５は、３Ｄ空間において到来方向を推定するための３Ｄにおいて２つの空間マイクロホンを表す。図６は、現在の時間周波数ビン（ｋ，ｎ）の等方性の点状の音源が位置ｐ_IPLS（ｋ，ｎ）に設置される配列を示す。図７は、実施形態による情報計算モジュールを表す。図８は、他の実施形態による情報計算モジュールを表す。図９は、２つの真の空間マイクロホン、定位された音事象および仮想空間マイクロホンの位置と、対応する遅延および振幅減衰とを示す。図１０は、実施形態による仮想マイクロホンと関連する到来方向を得る方法を示す。図１１は、実施形態による仮想マイクロホンの観点から音のＤＯＡを導出する可能な方法を表す。図１２は、実施形態による拡散計算ユニットをさらに含む情報計算ブロックを示す。図１３は、実施形態による拡散計算ユニットを表す。図１４は、音事象位置推定が可能でないシナリオを示す。図１５ａは、２つのマイクロホンアレイが直接音を受信するシナリオを示す。図１５ｂは、２つのマイクロホンアレイが壁で反射される音を受信するシナリオを示す。図１５ｃは、２つのマイクロホンアレイが拡散音を受信するシナリオを示す。

図１は、環境において設定可能な仮想位置ｐｏｓＶｍｉｃでの仮想マイクロホンの記録をシミュレートするためにオーディオ出力信号を生成するための装置を示す。その装置は、音事象位置推定器１１０および情報計算モジュール１２０を含む。音事象位置推定器１１０は、第１の真の空間マイクロホンから第１の方向情報ｄｉ１および第２の真の空間マイクロホンから第２の方向情報ｄｉ２を受信する。音事象位置推定器１１０は、その環境において音源の位置を示す音源位置ｓｓｐを推定するように構成され、音源は音波を放出し、音事象位置推定器１１０は、その環境において第１の真のマイクロホン位置ｐｏｓ１ｍｉｃに設置される第１の真の空間マイクロホンによって提供される第１の方向情報ｄｉ１に基づいて、さらに、環境において第２の真のマイクロホン位置に設置される第２の真の空間マイクロホンによって提供される第２の方向情報ｄｉ２に基づいて、音源位置ｓｓｐを推定するように構成される。情報計算モジュール１２０は、第１の真の空間マイクロホンによって記録される第１の記録されたオーディオ入力信号ｉｓ１に基づいて、第１の真のマイクロホン位置ｐｏｓ１ｍｉｃに基づいて、さらに、仮想マイクロホンの仮想位置ｐｏｓＶｍｉｃに基づいて、オーディオ出力信号を生成するように構成される。情報計算モジュール１２０は、オーディオ出力信号を得るために、第１の記録されたオーディオ入力信号ｉｓ１の振幅値、強度値または位相値を調整することによって第１の真の空間マイクロホンでの音源から放出される音波の到来および仮想マイクロホンでの音波の到来間の第１の遅延または振幅減衰を補償することによって第１の記録されたオーディオ入力信号ｉｓ１を修正することによって第１の修正されたオーディオ信号を生成するように構成される伝搬補償器を含む。

図２は、実施形態による装置および方法の入力および出力を示す。２つ以上の真の空間マイクロホン１１１、１１２、・・・、１１Ｎから情報は、その装置に送られ、その方法によって処理される。この情報は、真の空間マイクロホンによって捉えられるオーディオ信号と、真の空間マイクロホンからの方向情報、例えば到来方向（ＤＯＡ）推定とを含む。オーディオ信号および例えば到来方向推定などの方向情報は、時間周波数領域において表されてもよい。例えば、２Ｄ配列再生が望ましく、さらに、従来のＳＴＦＴ（短時間フーリエ変換）領域が信号の表現のために選択される場合、ＤＯＡは、ｋおよびｎ、すなわち周波数および時間インデックスに依存する方位角として表されてもよい。

実施形態において、空間において音事象定位と仮想マイクロホンの位置を記載することとは、共通の座標系において真のおよび仮想の空間マイクロホンの位置および方向に基づいて行われてもよい。この情報は、図２において入力１２１・・・１２Ｎおよび入力１０４によって表されてもよい。入力１０４は、以下に述べられるように、仮想空間マイクロホンの特性、例えばその位置および受信ピックアップパターンをさらに特定することができる。仮想空間マイクロホンが複数の仮想センサを含む場合、それらの位置および対応する異なるピックアップパターンが考慮されてもよい。

その装置または対応する方法の出力は、望ましいときに、１つ以上の音信号１０５であってもよく、それは、１０４によって特定されるように定義されさらに配置される空間マイクロホンによって捉えられていてもよい。さらに、その装置（またはむしろその方法）は、出力として、仮想空間マイクロホンを用いることによって推定されてもよい対応する空間サイド情報１０６を提供することができる。

図３は、２つのメイン処理ユニット、音事象位置推定器２０１および情報計算モジュール２０２を含む、実施形態による装置を示す。音事象位置推定器２０１は、入力１１１・・・１１Ｎに含まれるＤＯＡｓに基づいて、さらに、真の空間マイクロホンの位置および方向の知識に基づいて、幾何学的な再生を行うことができ、そのＤＯＡｓは、計算されている。音事象位置推定器２０５の出力は、音源の（２Ｄまたは３Ｄにおいて）位置推定を含み、その音事象は、時間および周波数ビンごとに生じる。第２の処理ブロック２０２は、情報計算モジュールである。図３の実施形態によれば、第２の処理ブロック２０２は、仮想マイクロホン信号および空間サイド情報を計算する。したがって、それは、仮想マイクロホン信号およびサイド情報計算ブロック２０２とも呼ばれる。仮想マイクロホン信号およびサイド情報計算ブロック２０２は、仮想マイクロホンオーディオ信号１０５を出力するために、１１１・・・１１Ｎに含まれるオーディオ信号を処理するために音事象の位置２０５を用いる。２０２ブロックは、必要であれば、仮想空間マイクロホンに対応する空間サイド情報１０６を計算することもできる。以下の実施形態は、どのようにブロック２０１および２０２が作動することができるかの可能性を示す。

以下において、実施形態による音事象位置推定器の位置推定が詳細に記載される。

課題（２Ｄまたは３Ｄ）の次元および空間マイクロホンの数に応じて、位置推定のためのいくつかの解決策が可能である。

２Ｄにおいて２つの空間マイクロホンが存在する場合、（可能な限り単純な場合）単純な三角測量が可能である。図４は、真の空間マイクロホンがそれぞれ３つのマイクロホンのユニフォームリニアアレイ（ＵＬＡｓ）として表される例示的なシナリオを示す。方位角ａｌ（ｋ，ｎ）およびａ２（ｋ，ｎ）として表されるＤＯＡは、時間周波数ビン（ｋ，ｎ）のために計算される。これは、例えばＥＳＰＲＩＴ、
[13] R. Roy, A. Paulraj, and T. Kailath, "Direction-of-arrival estimation by subspace rotation methods - ESPRIT," in IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Stanford, CA, USA, April 1986
、または、
[14] R. Schmidt, "Multiple emitter location and signal parameter estimation," IEEE Transactions on Antennas and Propagation, vol. 34, no. 3, pp. 276-280, 1986
を参照する、（ルート）ＭＵＳＩＣなどの適切なＤＯＡ推定器を、時間周波数領域に変換される音圧信号に用いることによって達成される。

図４において、２つの真の空間マイクロホン、ここでは、２つの真の空間マイクロホンアレイ４１０、４２０が示される。２つの推定されたＤＯＡｓａｌ（ｋ，ｎ）およびａ２（ｋ，ｎ）は、２本ラインによって表され、第１のライン４３０はＤＯＡａｌ（ｋ，ｎ）を表し、さらに、第２のライン４４０はＤＯＡａ２（ｋ，ｎ）を表す。三角測量は、それぞれのアレイの位置および方向を知る単純な幾何学的な考慮を介して可能である。

三角測量は、２本のライン４３０、４４０が正確に平行であるときに失敗する。しかしながら、真のアプリケーションにおいて、これは、非常にまれなことである。しかしながら、すべての三角測量結果が、熟慮された空間において音事象のための物理的なまたは実現可能な位置に対応するというわけではない。例えば、音事象の推定された位置は、遠く離れすぎているかまたは想定された空間の外側でされあるかもしれなく、場合により、ＤＯＡｓが、用いられたモデルで物理的に解釈することができるいかなる音事象にも対応しないことを示す。そのような結果は、センサノイズまたは強すぎる室内反響に起因することがある。したがって、実施形態によれば、そのような望ましくない結果は、情報計算モジュール２０２がそれらを適切に処理することができるように、フラグがつけられる。

図５は、音事象の位置が３Ｄ空間において推定されるシナリオを表す。適切な空間マイクロホン、例えば平面または３Ｄのマイクロホンアレイが用いられる。図５において、第１の空間マイクロホン５１０、例えば第１の３Ｄマイクロホンアレイ、および、第２の空間マイクロホン５２０、例えば第１の３Ｄマイクロホンアレイが示される。３Ｄ空間においてＤＯＡは、例えば、方位角および仰角として表されてもよい。単位ベクトル５３０、５４０は、ＤＯＡｓを表すために用いられてもよい。２本のライン５５０、５６０は、ＤＯＡｓに従ってプロジェクトされる。非常に信頼性が高い推定によってさえ、３Ｄにおいて、ＤＯＡｓに従ってプロジェクトされる２本のライン５５０、５６０は、交差しないかもしれない。しかしながら、三角測量は、例えば、２本のラインを接続する最も小さい部分の中点を選択することによって、まだ行うことができる。

２Ｄの場合と同様に、三角測量は、失敗しまたは方向の特定の結合のための実現不可能な結果を生じ、そして、例えば図３の情報計算モジュール２０２にフラッグがつけられてもよい。

２つよりも多い空間マイクロホンが存在する場合、いくつかの解決策が可能である。例えば、上述の三角測量は、真の空間マイクロホンのすべての対（Ｎ＝３の場合、１と２、１と３、２と３）のために行うことができる。そして、生じる位置は、（ｘおよびｙに沿って、３Ｄが考慮される場合、さらにｚに沿って）平均化されてもよい。

あるいは、より複雑な概念が用いられてもよい。例えば、確率論的なアプローチが、
[15] J. Michael Steele, "Optimal Triangulation of Random Samples in the Plane", The Annals of Probability, Vol. 10, No.3 (Aug., 1982), pp. 548-553
に記載されているように適用されてもよい。

それぞれのＩＰＬＳは、直接音または独特の部屋反射をモデル化する。その位置ｐ_IPLS（ｋ，ｎ）は、それぞれ、部屋の内側に設置される実際の音源、または、外側に設置される鏡像音源に、理想的に対応することができる。したがって、位置ｐ_IPLS（ｋ，ｎ）は、音事象の位置を示すこともできる。

用語「真の音源」が記録環境において物理的に存在する実際の音源、例えば話し手または楽器などを意味することに留意されたい。これに対して、「音源」または「音事象」または「ＩＰＬＳ」について、有効な音源に言及し、それは、特定の時間瞬間でまたは特定の時間周波数ビンでアクティブであり、音源は、例えば、真の音源または鏡像源を表すことができる。

図１５ａ〜図１５ｂは、音源を定位するマイクロホンアレイを示す。定位された音源は、それらの性質に応じて異なる物理的な解釈を有することができる。マイクロホンアレイが直接音を受信するときに、それらは、真の音源（例えば話し手）の位置を定位することができてもよい。マイクロホンアレイが反射を受信するときに、それらは、鏡像源の位置を定位することができる。鏡像源は、音源でもある。

図１５ａは、２つのマイクロホンアレイ１５１および１５２が実際の音源（物理的に存在する音源）１５３から直接音を受信するシナリオを示す。

図１５ｂは、２つのマイクロホンアレイ１６１、１６２が反響された音を受信するシナリオを示し、その音は、壁によって反響されている。反射のため、マイクロホンアレイ１６１、１６２は、位置を定位し、その音は、スピーカ１６３の位置と異なる、鏡像源１６５から来るように見える。

図１５ａの実際の音源１５３および鏡像源１６５の両方は、音源である。

図１５ｃは、２つのマイクロホンアレイ１７１、１７２が、拡散音を受信し、さらに、音源を定位することができないシナリオを示す。

さらに、この単一波モデルは、音源信号がＷ−ディスジョイント直交性（ＷＤＯ）条件を満たす、すなわち時間周波数重なりが十分に小さいと想定すれば、少し反響する環境のためだけに正確である。これは、例えば、
[12] S. Rickard and Z. Yilmaz, "On the approximate W-disjoint orthogonality of speech," in Acoustics, Speech and Signal Processing, 2002. ICASSP 2002. IEEE International Conference on, April 2002, vol. 1
を参照する、スピーチ信号のために通常、真実である。

しかしながら、そのモデルも、他の環境のために良好な推定を提供し、したがって、それらの環境のためにも適用できる。

以下において、実施形態による位置ｐ_IPLS（ｋ，ｎ）の推定が説明される。特定の時間周波数ビンにおいてアクティブなＩＰＬＳの位置ｐ_IPLS（ｋ，ｎ）、ひいては、時間周波数ビンにおいて音事象の推定は、少なくとも２つの異なる観察位置において測定される音の到来方向（ＤＯＡ）に基づいて三角測量を介して推定される。

他の実施形態において、式（６）は、ｄ₂（ｋ，ｎ）のために解かれてもよく、さらに、ｐＩ_PLS（ｋ，ｎ）は、ｄ₂（ｋ，ｎ）を用いて同様に計算される。

以下において、実施形態による、情報計算モジュール２０２、例えば仮想マイクロホン信号およびサイド情報計算モジュールが詳細に記載される。

図７は、実施形態による情報計算モジュール２０２の図解的な概要を示す。情報計算ユニットは、伝搬補償器５００、結合器５１０およびスペクトル重み付けユニット５２０を含む。情報計算モジュール２０２は、音事象位置推定器よって推定される音源位置推定ｓｓｐ、１つ以上の真の空間マイクロホンによって記録される１つ以上のオーディオ入力信号ｉｓ、１つ以上の真の空間マイクロホンの位置ｐｏｓＲｅａｌＭｉｃ、および仮想マイクロホンの仮想位置ｐｏｓＶｍｉｃを受信する。それは、仮想マイクロホンのオーディオ信号を表すオーディオ出力信号ｏｓを出力する。

図８は、他の実施形態による情報計算モジュールを示す。図８の情報計算モジュールは、伝搬補償器５００、結合器５１０およびスペクトル重み付けユニット５２０を含む。伝搬補償器５００は、伝搬パラメータ計算モジュール５０１および伝搬補償モジュール５０４を含む。結合器５１０は、結合ファクタ計算モジュール５０２および結合モジュール５０５を含む。スペクトル重み付けユニット５２０は、スペクトル重量計算ユニット５０３、スペクトル重み付けアプリケーションモジュール５０６および空間サイド情報計算モジュール５０７を含む。

仮想マイクロホンのオーディオ信号を計算するために、幾何学的な情報、例えば真の空間マイクロホン１２１・・・１２Ｎの位置および方向と、仮想空間マイクロホン１０４の位置、方向および特性と、音事象２０５の位置推定とは、情報計算モジュール２０２に、特に、伝搬補償器５００の伝搬パラメータ計算モジュール５０１に、結合器５１０の結合ファクタ計算モジュール５０２に、さらに、スペクトル重み付けユニット５２０のスペクトル重量計算ユニット５０３に送られる。伝搬パラメータ計算モジュール５０１、結合ファクタ計算モジュール５０２およびスペクトル重量計算ユニット５０３は、伝搬補償モジュール５０４、結合モジュール５０５およびスペクトル重み付けアプリケーションモジュール５０６においてオーディオ信号１１１・・・１１Ｎの修正に用いられるパラメータを計算する。

情報計算モジュール２０２において、オーディオ信号１１１・・・１１Ｎは、まず、音事象位置および真の空間マイクロホン間の異なる伝搬長によって与えられる影響を補償するために修正されてもよい。そして、その信号は、例えば信号対雑音比（ＳＮＲ）を改善するために結合されてもよい。最後に、生じる信号は、仮想マイクロホンの指向性ピックアップパターンをいかなる距離に依存するゲイン関数とともに考慮に入れるために、スペクトル的に重み付けられてもよい。これらの３つのステップが、以下に詳細に述べられる。

伝搬補償がこれから詳細に説明される。図９の上部において、２つの真の空間マイクロホン（第１のマイクロホンアレイ９１０および第２のマイクロホンアレイ９２０）、時間周波数ビン（ｋ，ｎ）のための定位された音事象９３０の位置、および仮想空間マイクロホン９４０の位置が示される。

図９の下部は、時間軸を表す。音事象が時間ｔ０で放出され、そして、真のおよび仮想の空間マイクロホンに伝搬すると考えられる。到来の時間遅延および振幅は、伝搬長がより遠くになり、振幅がより弱くなり、到来の時間遅延がより長くなるように、距離によって変わる。

２つの真のアレイで信号は、それらの間の相対的な遅延Ｄｔ１２が小さい場合だけ、互換性がある。そうでなければ、２つの信号のうちの１つは、相対的な遅延Ｄｔ１２を補償するために時間的に再編成され、さらに場合により、異なる減衰を補償するために拡大・縮小される必要がある。

仮想マイクロホンでの到来および真のマイクロホンアレイでの（真の空間マイクロホンの１つでの）到来間の遅延を補償することは、音事象の定位から独立して遅延を変え、それを大部分のアプリケーションのために不必要にする。

図８に戻って、伝搬パラメータ計算モジュール５０１は、真の空間マイクロホンごとにさらに音事象ごとに、修正される遅延を計算するように構成される。望ましい場合、それは、異なる振幅減衰を補償するために考慮されるゲインファクタも計算する。

したがって、伝搬補償モジュール５０４は、オーディオ信号を修正するためにこの情報を用いるように構成される。信号が（フィルタ・バンクの時間ウインドウと比較して）少量の時間だけシフトされることがある場合、単純な位相回転で十分である。遅延がより大きい場合、より複雑な実施が必要である。

伝搬補償モジュール５０４の出力は、元の時間周波数領域において表される修正されたオーディオ信号である。

以下において、実施形態による仮想マイクロホンのための伝搬補償の特定の推定は、とりわけ第１の真の空間マイクロホンの位置６１０および第２の真の空間マイクロホンの位置６２０を示す図６を参照して記載される。

現在説明される実施形態において、少なくとも第１の記録されたオーディオ入力信号、例えば真の空間マイクロホン（例えばマイクロホンアレイ）の少なくとも１つの音圧信号、例えば第１の真の空間マイクロホンの音圧信号が、利用できると考えられる。基準マイクロホンとして考慮されたマイクロホンに、基準位置ｐ_refとしてその位置に、さらに、基準音圧信号Ｐ_ref（ｋ，ｎ）としてその音圧信号に言及する。しかしながら、伝搬補償は、１つの音圧信号だけに関して行われるだけでなく、複数のまたはすべての真の空間マイクロホンの音圧信号に関しても行われてもよい。

一般に、複素ファクタγ（ｋ，ｐ_a，ｐ_b）は、ｐ_aからｐ_bにおいてその原点から球面波の伝搬によって導入される位相回転および振幅減衰を表す。しかしながら、実際の試験は、γにおいて振幅減衰だけを考慮することが位相回転も考慮することと比較して著しくより少しのアーチファクトで仮想マイクロホン信号の妥当な印象をもたらすことを示した。

空間の特定の位置において測定することができる音エネルギーは、音源から、図６において音源の位置ｐ_IPLSから、距離ｒに強く依存する。多くの状況において、この依存は、周知の物理的な原理、例えば点音源の遠距離場において音圧の１／ｒ減衰、を用いて十分な精度でモデル化することができる。音源から基準マイクロホン例えば第１の真のマイクロホンの距離が公知であるとき、さらに、音源から仮想マイクロホンの距離も公知であるとき、仮想マイクロホンの位置での音エネルギーは、基準マイクロホン、例えば第１の真の空間マイクロホンの信号およびエネルギーから推定することができる。これは、適切なゲインを基準音圧信号に適用することによって、仮想マイクロホンの出力信号を得ることができることを意味する。

第１の真の空間マイクロホンの記録されたオーディオ入力信号（例えば音圧信号）に伝搬補償を行うことによって、第１の修正されたオーディオ信号が得られる。

実施形態において、第２の修正されたオーディオ信号は、第２の真の空間マイクロホンの記録された第２のオーディオ入力信号（第２の音圧信号）に伝搬補償を行うことによって得られてもよい。

他の実施形態において、さらなるオーディオ信号は、さらなる真の空間マイクロホンの記録されたさらなるオーディオ入力信号（さらなる音圧信号）に伝搬補償を行うことによって得られてもよい。

これから、実施形態による図８のブロック５０２および５０５において結合することが詳細に説明される。複数の異なる真の空間マイクロホンから２つ以上のオーディオ信号が、２以上の修正されたオーディオ信号を得るために、異なる伝搬経路を補償するために修正されたと考えられる。すると、異なる真の空間マイクロホンからオーディオ信号が、異なる伝搬経路を補償するために修正され、それらは、オーディオ品質を改善するために結合することができる。そうすることによって、例えば、ＳＮＲを増加することができ、または、残響を低減することができる。

結合のための可能な解決策は、
−重み付けられた平均、例えば、ＳＮＲまたは仮想マイクロホンまでの距離または真の空間マイクロホンによって推定された拡散を考慮すること。従来の解決策、例えば、ＭａｘｉｍｕｍＲａｔｉｏＣｏｍｂｉｎｉｎｇ（ＭＲＣ）またはＥｑｕａｌＧａｉｎＣｏｍｂｉｎｉｎｇ（ＥＱＣ）が用いられてもよく、または、
−結合信号を得るために修正されたオーディオ信号のいくらかまたはすべての１次結合。修正されたオーディオ信号は、結合信号を得るために、１次結合において重み付けられてもよく、または、
−選択、例えば、唯一の信号だけが、ＳＮＲまたは距離または拡散に依存して用いられる。
を含む。

モジュール５０２のタスクは、適用できる場合、モジュール５０５において行われる、結合することのためのパラメータを計算することである。

これから、実施形態によるスペクトル重み付けが詳細に記載される。このため、図８のブロック５０３および５０６を参照する。この最終ステップで、結合からまたは入力オーディオ信号の伝搬補償から生じるオーディオ信号は、入力１０４によって特定されるように仮想空間マイクロホンの空間特性によるおよび／または再生された配列（２０５において与えられる）による、時間周波数領域において重み付けられる。

時間周波数ビンごとに、幾何学的な再生は、図１０に示されるように、仮想マイクロホンと関連するＤＯＡを容易に得ることを可能にする。さらに、仮想マイクロホンおよび音事象の位置間の距離を、容易に計算することもできる。

そして、時間周波数ビンのため重みは、望ましい仮想マイクロホンのタイプを考慮して計算される。

他の可能性は、芸術的な（非物理的な）減衰関数である。特定のアプリケーションにおいて、自由音場伝搬を特徴づけるものよりも大きいファクタを有する仮想マイクロホンからさらに離れて音事象を抑制することが望ましいかもしれない。このために、いくつか実施形態は、仮想マイクロホンおよび音事象間の距離に依存するさらなる重み付け関数を導入する。実施形態において、仮想マイクロホンから特定の距離内において（例えば複数メートルにおいて）音事象だけが捉えられるべきである。

仮想マイクロホン指向性に関して、任意の指向性パターンを、仮想マイクロホンのために適用することができる。そうすることで、例えば、音源を複素音シーンから切り離すことができる。

実施形態において、１つ以上の真の非空間マイクロホン、例えば、無指向性マイクロホンまたは例えばカージオイドなどの指向性マイククロホンは、図８において仮想マイクロホン信号１０５の音質をさらに改善するために、真の空間マイクロホンに加えて音シーンに配置される。これらのマイクロホンは、いかなる幾何学的な情報を集めるために用いられなく、むしろよりきれいなオーディオ信号を提供するためにだけ用いられる。これらのマイクロホンは、空間マイクロホンよりも音源の近くに配置されてもよい。この場合、実施形態によれば、真の非空間マイクロホンのオーディオ信号およびそれらの位置は、真の空間マイクロホンのオーディオ信号の代わりに、処理するための図８の伝搬補償モジュール５０４に簡単に送られる。そして、伝搬補償は、１つ以上の非空間マイクロホンの位置に関して、非空間マイクロホンの１つ以上の記録されたオーディオ信号のために行われる。これによって、実施形態は、さらなる非空間マイクロホンを用いて実現される。

さらなる態様において、仮想マイクロホンの空間サイド情報の計算が実現される。マイクロホンの空間サイド情報１０６を計算するために、図８の情報計算モジュール２０２は、空間サイド情報計算モジュール５０７を含み、それは、入力として音源の位置２０５と仮想マイクロホンの位置、方向および特性１０４とを受信するように構成される。特定の実施形態において、計算される必要があるサイド情報１０６によれば、仮想マイクロホン１０５のオーディオ信号は、空間サイド情報計算モジュール５０７に入力として考慮することもできる。

空間サイド情報計算モジュール５０７の出力は、仮想マイクロホン１０６のサイド情報である。このサイド情報は、例えば、仮想マイクロホンの観点から時間周波数ビン（ｋ，ｎ）ごとにＤＯＡまたは音の拡散であってもよい。他の可能なサイド情報は、例えば、仮想マイクロホンの位置において測定されたアクティブな音のインテンシティベクトルＩａ（ｋ，ｎ）であることができる。これらのパラメータを導出することができる方法がこれから記載される。

実施形態によれば、仮想空間マイクロホンのためのＤＯＡ推定が実現される。情報計算モジュール１２０は、図１１で示されるように仮想マイクロホンの位置ベクトルに基づいてさらに音事象の位置ベクトルに基づいて、空間サイド情報として仮想マイクロホンでの到来方向を推定するように構成される。

他の実施形態において、情報計算モジュール１２０は、図１１で示されるように仮想マイクロホンの位置ベクトルに基づいてさらに音事象の位置ベクトルに基づいて、空間サイド情報として仮想マイクロホンでのアクティブな音のインテンシティを推定するように構成されてもよい。

実施形態によれば、拡散は、音シーンにおいて任意の位置で自由に配置することができるＶｉｒｔｕａｌＭｉｃｒｏｐｈｏｎｅ（ＶＭ）のために生成されるサイド情報にさらなるパラメータとして計算されてもよい。これによって、仮想マイクロホンの仮想位置でのオーディオ信号の他に拡散も計算する装置は、音シーンにおいて任意の位置のために、ＤｉｒＡＣストリーム、すなわちオーディオ信号、到来方向、および拡散を生成することが可能であるように、仮想ＤｉｒＡＣフロントエンドとしてみることができる。ＤｉｒＡＣストリームは、さらに処理され、格納され、送信され、さらに、任意のマルチラウドスピーカ装置において再生されてもよい。この場合、リスナーは、まるで仮想マイクロホンによって特定される位置におり、さらに、その方向によって決定される方向において観察するように、音シーンを経験する。

実施形態の拡散計算ユニット８０１は、詳細に表す図１３において示される。実施形態によれば、Ｎ個の空間マイクロホンのそれぞれでの直接および拡散音のエネルギーが推定される。そして、ＩＰＬＳの位置に関する情報および空間および仮想マイクロホンの位置に関する情報を用いて、仮想マイクロホンの位置でのこれらのエネルギーのＮ個の推定が得られる。最後に、推定は、推定精度を改善するために結合されることができ、さらに、仮想マイクロホンでの拡散パラメータは容易に計算することができる。

上述のように、場合によっては、音事象位置推定器によって行われる音事象位置推定は、例えば、間違った到来方向推定の場合に失敗する。図１４は、そのようなシナリオを示す。これらの場合、異なる空間マイクロホンでさらに入力１１１〜１１Ｎとして受信されるように推定される拡散パラメータに関して、仮想マイクロホン１０３のための拡散は、空間的にコヒーレントな再生が可能でないように、１に（すなわち、完全な拡散に）設定されてもよい。

さらに、Ｎ個の空間マイクロホンでのＤＯＡ推定の信頼性が考慮されてもよい。これは、例えば、ＤＯＡ推定器またはＳＮＲの差異に関して表されてもよい。そのような情報は、ＤＯＡ推定が信頼できないという場合にＶＭ拡散１０３を人工的に増加することができるように、拡散サブ計算器８５０によって考慮されてもよい。結果として、実際に、位置推定２０５も信頼できない。

いくつかの態様が装置との関係で記載されているにもかかわらず、これらの態様は対応する方法の記述も表すことが明らかであり、ブロックまたは装置は、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップとの関係で記載される態様は、対応するブロックまたはアイテムまたは対応する装置の特徴の記述も表す。

本発明の分解された信号は、デジタル記憶媒体に格納することができ、または、例えば無線伝送媒体若しくは例えばインターネットなどの有線伝送媒体などの伝送媒体に送信することができる。

特定の実施要件に応じて、本発明の実施形態は、ハードウェアにおいてまたはソフトウェアにおいて実施することができる。実施は、それぞれの方法が実行されるように、プログラム可能なコンピュータシステムと協働する（または協働することができる）電子的に可読の制御信号が格納される、デジタル記憶媒体、例えばフロッピー（登録商標）ディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリを用いて実行することができる。

本発明によるいくつかの実施形態は、ここに記載される方法のうちの１つが実行されるように、プログラム可能なコンピュータシステムと協働することができる電子的に可読の制御信号を有する一時的でないデータキャリアを含む。

一般的に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実施することができ、そのプログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに、それらの方法のうちの１つを実行するために働く。プログラムコードは、例えば、機械可読のキャリアに格納されてもよい。

他の実施形態は、機械可読のキャリアに格納される、ここに記載される方法のうちの１つを実行するためのコンピュータプログラムを含む。

したがって、換言すれば、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、ここに記載される方法のうちの１つを実行するためのプログラムコードを有するコンピュータプログラムである。

したがって、本発明の方法のさらなる実施形態は、ここに記載される方法のうちの１つを実行するためのコンピュータプログラムが記録されるデータキャリア（またはデジタル記憶媒体またはコンピュータ可読の媒体）である。

したがって、本発明の方法のさらなる実施形態は、ここに記載される方法のうちの１つを実行するためのコンピュータプログラムを表すデータストリームまたは一連の信号である。データストリームまたは一連の信号は、例えば、データ通信接続を介して、例えばインターネットを介して、転送されるように構成されてもよい。

さらなる実施形態は、ここに記載される方法のうちの１つを実行するように構成されまたは適している処理手段、例えばコンピュータまたはプログラム可能な論理デバイスを含む。

さらなる実施形態は、ここに記載される方法のうちの１つを実行するためのコンピュータプログラムがインストールされているコンピュータを含む。

いくつかの実施形態において、プログラム可能な論理デバイス（例えばフィールドプログラム可能なゲートアレイ）は、ここに記載される方法の機能のいくらかまたはすべてを実行するために用いられてもよい。いくつかの実施形態において、フィールドプログラム可能なゲートアレイは、ここに記載される方法のうちの１つを実行するために、マイクロプロセッサと協働することができる。一般的に、その方法は、好ましくは、いかなるハードウェア装置によっても実行される。

上述の実施形態は、本発明の原理のために単に例示するだけである。ここに記載される構成および詳細の修正および変更が他の当業者にとって明らかであるものと理解される。したがって、本発明は、特許請求の範囲によってだけ制限され、ここに実施形態の記述および説明として示される具体的な詳細によって制限されないと意図される。

Claims

環境において設定可能な仮想位置で仮想マイクロホンによってオーディオ出力信号の記録をシミュレートするためにオーディオ出力信号を生成するための装置であって、
前記環境において音事象の位置を示す音事象位置を推定するための音事象位置推定器（１１０）であって、前記音事象は、特定の時間瞬間でまたは特定の時間周波数ビンにおいてアクティブであり、前記音事象は、真の音源または鏡像源であり、前記音事象位置推定器（１１０）は、前記音事象が鏡像源であるときに前記環境において鏡像源の位置を示す前記音事象位置を推定するように構成され、さらに、前記音事象位置推定器（１１０）は、前記環境において第１の真のマイクロホン位置に設置される第１の真の空間マイクロホンによって提供される第１の方向情報に基づいて、さらに、前記環境において第２の真のマイクロホン位置に設置される第２の真の空間マイクロホンによって提供される第２の方向情報に基づいて、前記音事象位置を推定するように構成され、前記第１の真の空間マイクロホンおよび前記第２の真の空間マイクロホンは、物理的に存在する空間マイクロホンであり、さらに、前記第１の真の空間マイクロホンおよび前記第２の真の空間マイクロホンは、音の到来方向を検索することができる空間音の取得のための装置である、音事象位置推定器、および
第１の記録されたオーディオ入力信号に基づいて、前記第１の真のマイクロホン位置に基づいて、前記仮想マイクロホンの前記仮想位置に基づいて、さらに、前記音事象位置に基づいて、前記オーディオ出力信号を生成するための情報計算モジュール（１２０）を含み、
前記第１の真の空間マイクロホンは、前記第１の記録されたオーディオ入力信号を記録するように構成され、または、第３のマイクロホンが、前記第１の記録されたオーディオ入力信号を記録するように構成され、
前記音事象位置推定器（１１０）は、前記第１の方向情報として前記第１の真のマイクロホン位置での前記音事象から放出される前記音波の第１の到来方向に基づいてさらに前記第２の方向情報として前記第２の真のマイクロホン位置での前記音波の第２の到来方向に基づいて前記音事象位置を推定するように構成され、さらに
前記情報計算モジュール（１２０）は、伝搬補償器（５００）を含み、
前記伝搬補償器（５００）は、前記オーディオ出力信号を得るために、前記第１の記録されたオーディオ入力信号の振幅値、強度値または位相値を調整することによって、前記音事象および前記第１の真の空間マイクロホン間の第１の振幅減衰に基づいてさらに前記音事象および前記仮想マイクロホン間の第２の振幅減衰に基づいて、前記第１の記録されたオーディオ入力信号を修正することによって第１の修正されたオーディオ信号を生成するように構成され、または、前記伝搬補償器（５００）は、前記オーディオ出力信号を得るために、前記第１の記録されたオーディオ入力信号の振幅値、強度値または位相値を調整することによって、前記第１の真の空間マイクロホンでの前記音事象から放出される音波の到来および前記仮想マイクロホンでの前記音波の到来間の第１の時間遅延を補償することによって第１の修正されたオーディオ信号を生成するように構成される、装置。
前記情報計算モジュール（１２０）は、空間サイド情報を計算するための空間サイド情報計算モジュール（５０７）を含み、
前記情報計算モジュール（１２０）は、前記仮想マイクロホンの位置ベクトルに基づいてさらに前記音事象の位置ベクトルに基づいて、空間サイド情報として前記仮想マイクロホンでの前記到来方向またはアクティブな音のインテンシティを推定するように構成される、
請求項１に記載の装置。
前記伝搬補償器（５００）は、前記オーディオ出力信号を得るために、前記第１の記録されたオーディオ入力信号の前記振幅値、前記強度値または前記位相値を調整することによって、前記音事象および前記第１の真の空間マイクロホン間の前記第１の振幅減衰に基づいてさらに前記音事象および前記仮想マイクロホン間の前記第２の振幅減衰に基づいて、前記第１の記録されたオーディオ入力信号を修正することによって前記第１の修正されたオーディオ信号を生成するように構成され、
前記伝搬補償器（５００）は、時間周波数領域において表される前記第１の記録されたオーディオ入力信号の前記強度値を調整することによって、前記音事象および前記第１の真の空間マイクロホン間の前記第１の振幅減衰に基づいてさらに前記音事象および前記仮想マイクロホン間の前記第２の振幅減衰に基づいて、時間周波数領域において前記第１の修正されたオーディオ信号を生成するように構成される、
請求項１に記載の装置。
前記伝搬補償器（５００）は、前記オーディオ出力信号を得るために、前記第１の記録されたオーディオ入力信号の前記振幅値、前記強度値または前記位相値を調整することによって、前記第１の真の空間マイクロホンでの前記音事象から放出される音波の前記到来および前記仮想マイクロホンでの前記音波の前記到来間の前記第１の時間遅延を補償することによって前記第１の修正されたオーディオ信号を生成するように構成され、
前記伝搬補償器（５００）は、時間周波数領域において表される前記第１の記録されたオーディオ入力信号の前記強度値を調整することによって、前記第１の真の空間マイクロホンでの前記音事象から放出される前記音波の前記到来および前記仮想マイクロホンでの前記音波の前記到来間の前記第１の時間遅延を補償することによって、前記時間周波数領域において前記第１の修正されたオーディオ信号を生成するように構成される、
請求項１に記載の装置。
前記情報計算モジュール（１２０）は、結合器（５１０）をさらに含み、
前記伝搬補償器（５００）は、第２の修正されたオーディオ信号を得るために前記第２の記録されたオーディオ入力信号の振幅値、強度値または位相値を調整することによって、前記第２の真の空間マイクロホンでの前記音事象から放出される前記音波の到来および前記仮想マイクロホンでの前記音波の到来間の第２の時間遅延または第２の振幅減衰を補償することによって、前記第２の真の空間マイクロホンによって記録される、第２の記録されたオーディオ入力信号を修正するようにさらに構成され、さらに
前記結合器（５１０）は、前記オーディオ出力信号を得るために、前記第１の修正されたオーディオ信号および前記第２の修正されたオーディオ信号を結合することによって結合信号を生成するように構成される、
請求項１ないし請求項５のうちの１つに記載の装置。
前記伝搬補償器（５００）は、前記仮想マイクロホンでの前記音波の到来およびさらなる真の空間マイクロホンのそれぞれでの前記音事象から放出される前記音波の到来間の時間遅延または振幅減衰を補償することによって、１つ以上のさらなる真の空間マイクロホンによって記録される、１つ以上のさらなる記録されたオーディオ入力信号を修正するようにさらに構成され、前記伝搬補償器（５００）は、複数の第３の修正されたオーディオ信号を得るために、前記さらなる記録されたオーディオ入力信号のそれぞれの振幅値、強度値または位相値を調整することによって、前記時間遅延または振幅減衰のそれぞれを補償するように構成され、さらに
前記結合器（５１０）は、前記オーディオ出力信号を得るために、前記第１の修正されたオーディオ信号および前記第２の修正されたオーディオ信号および前記複数の第３の修正されたオーディオ信号を結合することによって結合信号を生成するように構成される、
請求項６に記載の装置。
前記情報計算モジュール（１２０）は、前記オーディオ出力信号を得るために、前記仮想マイクロホンの前記仮想位置での前記音波の到来方向に応じてさらに前記仮想マイクロホンの前記方向を記載する単位ベクトルに応じて、前記第１の修正されたオーディオ信号を修正することによって重み付けられたオーディオ信号を生成するためのスペクトル重み付けユニット（５２０）を含み、前記第１の修正されたオーディオ信号は、時間周波数領域において修正される、請求項１ないし請求項５のうちの１つに記載の装置。
前記情報計算モジュール（１２０）は、前記オーディオ出力信号を得るために、前記仮想マイクロホンの前記仮想位置での到来方向または前記音波に応じてさらに前記仮想マイクロホンの前記方向を記載する単位ベクトルに応じて前記結合信号を修正することによって重み付けられたオーディオ信号を生成するためのスペクトル重み付けユニット（５２０）を含み、前記結合信号は、時間周波数領域において修正される、請求項６または請求項７に記載の装置。
前記伝搬補償器（５００）は、前記オーディオ出力信号を得るために、前記第３の記録されたオーディオ入力信号の振幅値、強度値または位相値を調整することによって、第４のマイクロホンでの前記音事象から放出される前記音波の到来および前記仮想マイクロホンでの前記音波の到来間の第３の時間遅延または第３の振幅減衰を補償することによって第４のマイクロホンによって記録される第３の記録されたオーディオ入力信号を修正することによって第３の修正されたオーディオ信号を生成するようにさらに構成される、請求項１ないし請求項６のうちの１つに記載の装置。
前記音事象位置推定器（１１０）は、３次元環境において音事象位置を推定するように構成される、請求項１ないし請求項１１のうちの１つに記載の装置。
前記情報計算モジュール（１２０）は、前記仮想マイクロホンでの拡散音エネルギーまたは前記仮想マイクロホンでの直接音エネルギーを推定するように構成される拡散計算ユニット（８０１）をさらに含み、前記拡散計算ユニット（８０１）は、前記第１および前記第２の真の空間マイクロホンでの拡散音エネルギーに基づいて前記仮想マイクロホンでの前記拡散音エネルギーを推定するように構成される、請求項１ないし請求項１２のうちの１つに記載の装置。
環境において設定可能な仮想位置で仮想マイクロホンによってオーディオ出力信号の記録をシミュレートするためにオーディオ出力信号を生成するための方法であって、
前記環境において音事象の位置を示す音事象位置を推定するステップであって、前記音事象は、特定の時間瞬間でまたは特定の時間周波数ビンにおいてアクティブであり、前記音事象は、真の音源または鏡像源であり、前記音事象位置を推定する前記ステップは、前記音事象が鏡像源であるときに前記環境において鏡像源の位置を示す前記音事象位置を推定するステップを含み、さらに、前記音事象位置を推定する前記ステップは、前記環境において第１の真のマイクロホン位置に設置される第１の真の空間マイクロホンによって提供される第１の方向情報に基づき、さらに、前記環境において第２の真のマイクロホン位置に設置される第２の真の空間マイクロホンによって提供される第２の方向情報に基づき、前記第１の真の空間マイクロホンおよび前記第２の真の空間マイクロホンは、物理的に存在する空間マイクロホンであり、さらに、前記第１の真の空間マイクロホンおよび前記第２の真の空間マイクロホンは、音の到来方向を検索することができる空間音の取得のための装置である、前記環境において音事象の位置を示す音事象位置を推定するステップ、および
第１の記録されたオーディオ入力信号に基づいて、前記第１の真のマイクロホン位置に基づいて、前記仮想マイクロホンの前記仮想位置に基づいて、さらに、前記音事象位置に基づいて、前記オーディオ出力信号を生成するステップを含み、
前記第１の真の空間マイクロホンは、第１の記録されたオーディオ入力信号を記録するように構成され、または、第３のマイクロホンが、前記第１の記録されたオーディオ入力信号を記録するように構成され、
前記音事象位置を推定するステップは、前記第１の方向情報として前記第１の真のマイクロホン位置での前記音事象から放出される前記音波の第１の到来方向に基づいてさらに前記第２の方向情報として前記第２の真のマイクロホン位置での前記音波の第２の到来方向に基づいて行われ、
前記オーディオ出力信号を生成する前記ステップは、前記オーディオ出力信号を得るために、前記第１の記録されたオーディオ入力信号の振幅値、強度値または位相値を調整することによって、前記音事象および前記第１の真の空間マイクロホン間の第１の振幅減衰に基づいてさらに前記音事象および前記仮想マイクロホン間の第２の振幅減衰に基づいて、前記第１の記録されたオーディオ入力信号を修正することによって第１の修正されたオーディオ信号を生成するステップを含み、または、前記オーディオ出力信号を生成する前記ステップは、前記オーディオ出力信号を得るために、前記第１の記録されたオーディオ入力信号の振幅値、強度値または位相値を調整することによって、前記第１の真の空間マイクロホンでの前記音事象から放出される音波の到来および前記仮想マイクロホンでの前記音波の到来間の第１の時間遅延を補償することによって第１の修正されたオーディオ信号を生成するステップを含む、方法。
コンピュータまたは信号プロセッサ上で実行されるときに、請求項１７の方法を実施するためのコンピュータプログラム。