JP2014501945A

JP2014501945A - 幾何ベースの空間オーディオ符号化のための装置および方法

Info

Publication number: JP2014501945A
Application number: JP2013541377A
Authority: JP
Inventors: ガルドジョヴァンニデル; オリヴァーティールガルト; ユールゲンヘレ; ファビアンキュッヒ; エマヌエルハベツ; アレクサンドラクラチウン; アヒムクンツ
Original assignee: フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ; フリードリヒ−アレクサンダー−ウニベルジテート・エアランゲン−ニュルンベルク
Priority date: 2010-12-03
Filing date: 2011-12-02
Publication date: 2014-01-23
Anticipated expiration: 2031-12-02
Also published as: PL2647222T3; TW201234873A; AR084091A1; HK1190490A1; JP2014502109A; US20130268280A1; ES2643163T3; KR101619578B1; WO2012072804A1; AU2011334857A1; WO2012072798A1; ES2525839T3; MX338525B; CN103460285A; CA2819394A1; EP2647222A1; CN103460285B; AU2011334851B2; BR112013013681A2; AU2011334857B2

Abstract

１つ又は複数の音源に関連したオーディオデータを含むオーディオデータストリームに基づいて、少なくとも１つのオーディオ出力信号を生成するための装置が、提供される。本装置は、オーディオデータを含むオーディオデータストリームを受信するための受信機を含む。オーディオデータは、音源のそれぞれについて１つ又は複数の圧力値を含む。さらにまた、オーディオデータは、音源のそれぞれについて音源のうちの１つの位置を示している１つ又は複数の位置値を含む。さらに、本装置は、オーディオデータストリームのオーディオデータの１つ又は複数の圧力値のうちの少なくとも１つに基づいて、そして、オーディオデータストリームのオーディオデータの１つ又は複数の位置値のうちの少なくとも１つに基づいて、少なくとも１つのオーディオ出力信号を生成するための合成モジュールを含む。
【選択図】図１

Description

本発明は、オーディオ処理に、特に、幾何ベースの空間オーディオ符号化のための装置および方法に関する。

オーディオ処理や、特に、空間オーディオ符号化は、ますます重要になってきている。従来の空間音響録音は、再生側で、音像が録音位置にあるかのように聴取者が音像を知覚するように、音場を取り込むことを目的とする。チャンネル表現、オブジェクト表現、またはパラメトリック表現に基づきうる空間音響の録音および再生技術への種々のアプローチが現状技術から知られている。

チャンネルベースの表現は、周知のセットアップ、例えば５．１サラウンドサウンドセットアップで配置されたＮ個のスピーカによって再生されることを意味したＮ個の別々のオーディオ信号によって、音響シーンを示す。空間音響録音についての方法は、通常、例えばＡＢ立体音響においては、間隔を置いた全指向性マイクロホン、または、例えば強度立体音響においては、一致した指向性のマイクロホンを採用する。あるいは、より精巧なマイクロホン（例えばＢ―フォーマット・マイクロホン）は、例えば、アンビソニックス（Ａｍｂｉｓｏｎｉｃｓ）において使用されうる。参照：
［１］マイケルＡ．ガーゾン．オーディオ多重放送およびビデオのアンビソニックス．Ｊ．Ａｕｄｉｏ．Ｅｎｇ．Ｓｏｃ，３３（１１）：８５９−８７１，１９８５．

周知のセットアップのための所望のスピーカ信号は、記録されたマイクロホン信号から直接に引き出されて、それから別々に送られるか又は格納される。より効率的な表現は、例えば５．１のためのＭＰＥＧサラウンドにおける、場合によっては増加させた効率のために異なるチャンネルの情報を共同で符号化するオーディオ符号化を離散信号に適用することによって得られる、参照：
［２１］Ｊ．ヘーレ、Ｋ．クジュルリング、Ｊ．ブリーバールト、Ｃ．ファーラー、Ｓ．ディッシュ、Ｈ．パルンハーゲン、Ｊ．コッペンス、Ｊ．ヒルペルト、Ｊ．レーデン、Ｗ．オーメン、Ｋ．リンツマイヤー、Ｋ．Ｓ．チョン、「ＭＰＥＧサラウンド ―効率的かつ互換性を持つマルチチャンネルオーディオ符号化のためのＩＳＯ／ＭＰＥＧ基準」、第１２２回ＡＥＳコンベンション、ウィーン、オーストリア、２００７年、プレプリント７０４８

これらの技術の大きな欠点は、一旦スピーカ信号が割り出された場合、音響シーンが修正されることができないことである。

例えば、オブジェクトベースの表現は、空間オーディオオブジェクト符号化（ＳｐａｔｉａｌＡｕｄｉｏＯｂｊｅｃｔＣｏｄｉｎｇ（ＳＡＯＣ））において使用される。参照、
［２５］イェルーン・ブリーバールト、ジョナス・エングデガルト、コーネリア・ファルヒ、オリバー・ヘルムート、ヨハネス・ヒルペルト、アンドレアス・ホエルツァー、イェルーン・コッペンス、ワーナー・オーメン、バーバラ・レッシュ、エリク・シュイヤース、レオニード・テレンティーブ、空間オーディオオブジェクト符号化（ｓａｏｃ）−パラメトリック・オブジェクトベースのオーディオ符号化に関する最新のＭＰＥＧ標準、ＡＥＳコンベンション１２４回、２００８年５月

オブジェクトベースの表現は、Ｎ個の別々のオーディオオブジェクトを有する音響シーンを示す。この表現は、再生側で高い柔軟性を与える。というのも、音響シーンは、例えば各オブジェクトの位置およびラウドネスを変えることによって操作されることができるからである。この表現は、例えばマルチトラック記録からすぐに利用可能である一方で、２、３のマイクロホンによって記録される複雑な音響シーンから得られることは非常に困難である（例えば［２１］参照）。実際に、トーカー（または他の音を発するオブジェクト）は、まずローカライズされて、次に混合から抽出される必要があるが、それは、アーチファクトを生じさせうる。

パラメトリック表現は、空間音響を記述している空間補助情報と共に、１つ又は複数のオーディオダウンミックス信号を決定するために、しばしば空間マイクロホンを使用する。１つの例としては、
［２２］ビーレ・プルッキ、方向オーディオ符号化を用いた空間再生、Ｊ．ＡｕｄｉｏＥｎｇ．Ｓｏｃ、５５（６）：５０３―５１６、２００７年６月
で述べられているように、方向オーディオ符号化（ＤｉｒｅｃｔｉｏｎａｌＡｕｄｉｏＣｏｄｉｎｇ（ＤｉｒＡＣ））がある。

「空間マイクロホン（ｓｐａｔｉａｌｍｉｃｒｏｐｈｏｎｅ）」という用語は、音の到来の方向を取り出すことができる空間音響の捕捉のための装置をいう（例えば指向性マイクロホン、マイクロホンアレイなどの組み合わせ）。

「非空間マイクロホン（ｎｏｎ−ｓｐａｔｉａｌｍｉｃｒｏｐｈｏｎｅ）」という用語は、例えば１つの全方向または指向性マイクロホンなどの、音響の到来方向を取り出すように構成されていない装置をいう。

他の例は、
［２３］Ｃ．ファーラー、空間オーディオコーダのためのマイクロホン・フロントエンド、第１２５回ＡＥＳ国際コンベンションのプロシーディング、サンフランシスコ、２００８年１０月
で提示される。

ＤｉｒＡＣにおいて、空間キュー（ｃｕｅ）情報は、音響の到来方向（ＤＯＡ）および時間―周波数領域において計算される音場の拡散を含む。音響再生のために、オーディオ再生信号は、パラメトリック記述に基づいて抽出されることができる。これらの技術は、再生側に大きな柔軟性を提供する。というのも、任意のスピーカセットアップを使用することができ、それがダウンミックスモノラルオーディオ信号および補助情報を含むように、その表現が特に柔軟でコンパクトであるからであり、そして、それが音響シーンに関して簡単な修正、例えば音響ズーミング、方向のフィルタリング、シーンの組合せ（ｍｅｒｇｉｎｇ）などを可能にするからである。

しかしながら、これらの技術は、記録される空間像が使用される空間マイクロホンと常に関連しているという点で、まだ制限される。従って、音響視点を変更することはできず、そして、音響シーンの範囲内のリスニング位置を変更することはできない。

仮想マイクロホンアプローチは、
［２０］ジョヴァンニ・デルガルト、オリバー・ティーレガルト、トビアス・ウェラーおよびＥ．Ａ．Ｐ．ハベッツ、分散型配置によって集められた幾何的情報を使用した仮想マイクロホン信号の生成、ハンズフリー・スピーチ・コミュニケーションとマイクロホン配置（ＨＳＣＭＡ’１１）の第３回ジョイントワークショップ、エジンバラ、英国、２０１１年５月
で提供される。それは、その環境において任意で仮想的に位置づけられた任意の空間マイクロホンの出力信号（すなわち任意の位置および方向）を算出することを可能にする。仮想マイクロホン（ｖｉｒｔｕａｌｍｉｃｒｏｐｈｏｎｅ）（ＶＭ）アプローチを特徴づけている柔軟性によって、音響シーンが後処理ステップで任意で仮想的に捕捉されることを可能にするが、音響シーンを効率的に、送信する、および／または、格納する、および／または、修正するために、使用されることができる音場表現は、利用可能ではない。さらに、時間―周波数ビンごとに１つのソースだけがアクティブであると仮定され、したがって、２つ以上のソースが、同じ時間―周波数ビンにおいてアクティブである場合、それは音響シーンを正しく示すことができない。さらに、仮想マイクロホン（ＶＭ）が受信機側で適用される場合、すべてのマイクロホン信号は、そのチャネルを通じて送られる必要があり、それは、その表現を非効率にするが、一方、ＶＭが送信器側で適用される場合、音響シーンを、更に操作することができず、そのモデルは、柔軟性を失って、特定のスピーカセットアップに制限されることになる。さらに、パラメトリック情報に基づく音響シーンの操作を考慮しない。

［２４］エマニュエル・ガロおよびニコラス・ツィンゴス、フィールドレコーディングからの構造聴覚シーンの抽出とリレンダリング、ＡＥＳ第３０回国際コンフェレンス、２００７
では、音源位置推定は、分散マイクロホンによって測定された到来の２つ１組になって起こる時間差に基づく。さらにまた、受信機は、その録音に依存し、合成（例えばスピーカ信号の生成）のためのすべてのマイクロホン信号を必要とする。

［２８］スヴェイン・ベルグ、空間オーディオ信号を変換するための装置および方法、米特許出願、出願番号１０／５４７，１５１
の中で提示された方法は、ＤｉｒＡＣと同様に、パラメータとしての到来方向を使用し、したがって、その表現を音響シーンの特定の視点に制限する。さらに、それは音響シーン表現を送信する／格納するための可能性を提案しない。というのも、分析および合成は、両方とも通信システムの同じ側で適用されることを必要とするからである。

国際公開第２００４／０７７８８４号

マイケルＡ．ガーゾン．オーディオ多重放送およびビデオのアンビソニックス．Ｊ．Ａｕｄｉｏ．Ｅｎｇ．Ｓｏｃ，３３（１１）：８５９−８７１，１９８５．Ｖ．プルッキ、「空間再生およびステレオアップミキシングにおける方向オーディオ符号化」、第２８回ＡＥＳ国際コンフェレンスの予稿集、ｐｐ．２５１―２５８、Ｐｉｔｅａ、スウェーデン、２００６年６月３０日〜７月２日Ｖ．プルッキ、「方向オーディオ符号化を用いた空間再生」、Ｊ．Ａｕｄｉｏ．Ｅｎｇ．Ｓｏｃ、ｖｏｌ５５、ｎｏ．６、ｐｐ．５０３―５１６、２００７年６月Ｃ．ファーラー、「空間オーディオ符号器に関するマイクロホンフロントエンド」、第１２５回ＡＥＳ国際コンベンションの予稿集、サンフランシスコ、２００８年１０月Ｍ．カリンガー、Ｈ．オクセンフェルト、Ｇ．デルガルド、Ｆ．キュッヒ、Ｄ．マーネ、Ｒ．シュルツ―アムリング、およびＯ．ティエルガルト、「方向オーディオ符号化のための空間フィルタリング手法」、ＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ１２６、ミュンヘン、ドイツ、２００９年５月Ｒ．シュルツ―アムリング、Ｆ．キュッヒ、Ｏ．ティエルガルト、およびＭ．カリンガー、「パラメトリック音場表現に基づく音響ズーミング」、ＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ１２８、ロンドン、英国、２０１０年５月Ｊ．ヘーレ、Ｃ．ファルヒ、Ｄ．マーネ、Ｇ．デルガルト、Ｍ．カリンガー、およびＯ．ティエルガルト、「空間オーディオオブジェクト符号化および方向オーディオ符号化技術を組み合わせたインタラクティブ遠隔会議」、ＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ１２８、ロンドン英国、２０１０年５月Ｅ．Ｇ．ウィリアムス、フーリエ音響学：音響放射および近場音響ホログラフィー、アカデミック・プレス、１９９９年Ａ．クンツおよびＲ．ラベンシュタイン、「全周性測定からの波動場の外挿の限界」、１５ｔｈＥｕｒｏｐｅａｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＣｏｎｆｅｒｅｎｃｅ（ＥＵＳＩＰＣＯ２００７）、２００７Ａ・ワルターおよびＣ．フォーラ、「ｂ―フォーマット記録を使用した間隔をおいたマイクロホンアレイの線形シミュレーション」、ＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ１２８、ロンドン英国、２０１０年５月Ｓ．リカードおよびＺ．ユルマズ、「音声の近似Ｗ−ディスジョイント直交性について」、Ａｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ、２００２．ＩＣＡＳＳＰ２００２年ＩＥＥＥ国際コンフェレンス、２００２年４月、１巻Ｒ．ロイ、Ａ．ポールラージおよびＴ．カイラス、「サブスペース回転による到来方向推定 ― ＥＳＰＲＩＴ」、Ａｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ）、ＩＥＥＥ国際コンフェレンス、スタンフォード、ＣＡ、ＵＳＡ、１９８６年４月Ｒ．シュミット、「複数のエミッタ位置および信号パラメータ推定」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｎｔｅｎｎａｓａｎｄＰｒｏｐａｇａｔｉｏｎ、３４巻、ｎｏ．３、ページ２７６〜２８０、１９８６年Ｊ．マイケル・スティール、「平面のランダムサンプルの最適三角測量」、確率の紀要、１０巻、Ｎｏ．３（１９８２年８月）、ページ５４８〜５５３Ｆ．Ｊ．ファヒー、音の強さ、エセックス：エルゼビア・サイエンス・パブリッシャーズ社、１９８９年Ｒ．シュルツ―アムリング、Ｆ．キュッヒ、Ｍ．カリンガー、Ｇ．デルガルト、Ｔ．アホネンおよびＶ．プルッキ、「分析のための平面マイクロホン・アレイ処理および方向オーディオ符号化を使用した空間オーディオの再生」、オーディオ技術学会規則１２４、アムステルダム、オランダ、２００８年５月Ｍ．カリンガー、Ｆ．キュッヒ、Ｒ．シュルツ―アムリング、Ｇ．デルガルト、Ｔ．アホネンおよびＶ．プルッキ、「方向オーディオ符号化のためのマイクロホンアレイを用いた拡張された方向推定」、ハンズフリーオーディオ通信およびマイクロホンアレイ、２００８．ＨＳＣＭＡ２００８、２００８年５月、ページ４５〜４８Ｒ．Ｋ．ファーネス、「アンビソニック ― 概要 ― 」、ＡＥＳ第８回国際コンフェレンス、１９９０年４月、ページ１８１〜１８９ジョヴァンニ・デルガルト、オリバー・ティーレガルト、トビアス・ウェラーおよびＥ．Ａ．Ｐ．ハベッツ、分散型配置によって集められた幾何的情報を使用した仮想マイクロホン信号の生成、ハンズフリー・スピーチ・コミュニケーションとマイクロホン配置（ＨＳＣＭＡ’１１）の第３回ジョイントワークショップ、エジンバラ、英国、２０１１年５月Ｊ．ヘーレ、Ｋ．クジュルリング、Ｊ．ブリーバールト、Ｃ．ファーラー、Ｓ．ディッシュ、Ｈ．パルンハーゲン、Ｊ．コッペンス、Ｊ．ヒルペルト、Ｊ．レーデン、Ｗ．オーメン、Ｋ．リンツマイヤー、Ｋ．Ｓ．チョン、「ＭＰＥＧサラウンド ―効率的かつ互換性を持つマルチチャンネルオーディオ符号化のためのＩＳＯ／ＭＰＥＧ基準」、第１２２回ＡＥＳコンベンション、ウィーン、オーストリア、２００７年、プレプリント７０４８ビーレ・プルッキ、方向オーディオ符号化を用いた空間再生、Ｊ．ＡｕｄｉｏＥｎｇ．Ｓｏｃ、５５（６）：５０３―５１６、２００７年６月Ｃ．ファーラー、空間オーディオコーダのためのマイクロホン・フロントエンド、第１２５回ＡＥＳ国際コンベンションのプロシーディング、サンフランシスコ、２００８年１０月エマニュエル・ガロおよびニコラス・ツィンゴス、フィールドレコーディングからの構造聴覚シーンの抽出とリレンダリング、ＡＥＳ第３０回国際コンフェレンス、２００７イェルーン・ブリーバールト、ジョナス・エングデガルト、コーネリア・ファルヒ、オリバー・ヘルムート、ヨハネス・ヒルペルト、アンドレアス・ホエルツァー、イェルーン・コッペンス、ワーナー・オーメン、バーバラ・レッシュ、エリク・シュイヤース、レオニード・テレンティーブ、空間オーディオオブジェクト符号化（ｓａｏｃ）−パラメトリック・オブジェクトベースのオーディオ符号化に関する最新のＭＰＥＧ標準、ＡＥＳコンベンション１２４回、２００８年５月Ｒ．ロイおよびＴ．カイラス、ＥＳＰＲＩＴ −回転不変技術による信号パラメータの推定、音響、音声および信号処理、ＩＥＥＥ論文集、３７（７）：９８４―９９５、１９８９年７月

本発明は、幾何的な情報の抽出により、空間音響の取得及び記述についての改善された概念を提供することを目的とする。本発明の目的は、請求項１に記載のオーディオデータストリームに基づいて少なくとも１つのオーディオ出力信号を生成するための装置、請求項１０に記載のオーディオデータストリームを生成するための装置、請求項１９に記載のシステム、請求項２０に記載のオーディオデータストリーム、請求項２３に記載の少なくとも１つのオーディオ出力信号を生成するための方法、請求項２４に記載のオーディオデータストリームを生成するための方法、および、請求項２５に記載のコンピュータプログラムにより達成される。

１つ又は複数の音源に関連したオーディオデータを含んでいるオーディオデータストリームに基づいて少なくとも１つのオーディオ出力信号を生成するための装置が提供される。本装置は、オーディオデータを含んでいるオーディオデータストリームを受信するための受信機を含む。オーディオデータは、音源のそれぞれについて、１つ又は複数の圧力値を含む。さらにまた、オーディオデータは、音源のそれぞれについて音源のうちの１つの位置を示している１つ又は複数の位置値を含む。さらに、本装置は、オーディオデータストリームのオーディオデータの１つ又は複数の圧力値のうちの少なくとも１つに基づいて、かつ、オーディオデータストリームのオーディオデータの１つ又は複数の位置値のうちの少なくとも１つに基づいて、少なくとも１つのオーディオ出力信号を生成するための合成モジュールを含む。一実施形態において、１つ又は複数の位置値のそれぞれは、少なくとも２つの座標値を含むことができる。

オーディオデータは、複数の時間―周波数ビンのうちの１つの時間―周波数ビンについて定められうる。あるいは、オーディオデータは、複数の時間インスタント（ｔｉｍｅｉｎｓｔａｎｔ）のうちの１つの時間インスタントについて定められうる。いくつかの実施形態において、オーディオデータの１つ又は複数の圧力値は、複数の時間インスタントのうちの１つの時間インスタントについて定められうり、一方で、対応するパラメータ（例えば位置値）は、時間―周波数領域で定められうる。これは、そうでなければ時間―周波数領域で定められた圧力値を、時間領域に戻す変換をすることによって直ちに得ることができる。音源のそれぞれについて、少なくとも１つの圧力値は、オーディオデータに含まれる。ここで、その少なくとも１つの圧力値は、例えば音源から生じる、発された音波に関連した圧力値でありうる。その圧力値は、オーディオ信号の値、例えば、仮想マイクロホンのオーディオ出力信号を生成するための装置によって生成されたオーディオ出力信号の圧力値でありうる。ここで、仮想マイクロホンは、音源の位置に位置付けられる。

上記実施形態は、録音位置から真に独立した音場表現を割り出すのを可能にし、複雑な音響シーンの効率的な送信および保存、並びに、再生システムでの容易な修正および増加した柔軟性を提供する。

特に、この技術の重要な利点は、再生側で、聴取者が記録された音響シーンの範囲内のその位置に自由に選択することができ、いかなるスピーカセットアップも使用することができ、加えて、幾何的な情報、例えば位置ベースのフィルタリングに基づいて、音響シーンを操作することができることである。換言すれば、提案された技術について、音響視点を変更することができ、音響シーンの範囲内のリスニング位置を変更することができる。

上記実施形態によれば、オーディオデータストリームにおいて含まれるオーディオデータは、音源のそれぞれについて１つ又は複数の圧力値を含む。このように、圧力値は、音源のうちの１つと関連したオーディオ信号、例えば音源から生じているオーディオ信号であって、記録マイクロホンの位置と関連していないオーディオ信号を示す。同様に、オーディオデータストリームに含まれる１つ又は複数の位置値は、音源の位置を示し、マイクロホンの位置を示さない。

これにより、複数の利点が、実現される。例えば、ほとんどビットを使用せずに符号化することができるオーディオシーンの表現が達成される。音響シーンが特定の時間周波数ビンに１つの音源を含むだけである場合、その唯一の音源に関連した１つのオーディオ信号の圧力値だけが、音源の位置を示している位置値と共に符号化される必要がある。対照的に、従来の方法は、受信機でオーディオシーンを再構築するために、複数の記録されたマイクロホン信号から複数の圧力値を符号化する必要がありうる。さらに、上記の実施形態は、後述するように、受信機側だけでなく、送信機での音響シーンの容易な修正を可能にする。このように、（例えば、音響シーンの範囲内のリスニング位置を決定している）シーン構成は、受信機側で実行されることもできる。

実施形態は、例えば短時間フーリエ変換（Ｓｈｏｒｔ−ＴｉｍｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）（ＳＴＦＴ）によって供給されるものなどの時間―周波数表現における特定のスロットでアクティブになる、点音源（ＰＬＳ＝ｐｏｉｎｔ−ｌｉｋｅｓｏｕｎｄｓｏｕｒｃｅ）、例えば等方的点音源（ＩＰＬＳ）などの音源によって、複雑な音響シーンをモデル化する構想を使用する。

一実施形態によれば、受信機は、オーディオデータを含んでいるオーディオデータストリームを受信するように構成されることができる。ここで、オーディオデータは、さらに、音源のそれぞれについて１つ又は複数の拡散値を含む。合成モジュールは、１つ又は複数の拡散値のうちの少なくとも１つに基づいて少なくとも１つのオーディオ出力信号を生成するように構成されうる。

他の実施形態において、受信機は、オーディオデータの１つ又は複数の圧力値のうちの少なくとも１つを修正することによって、オーディオデータの１つ又は複数の位置値のうちの少なくとも１つを修正することによって、または、オーディオデータの拡散値のうちの少なくとも１つを修正することによって、受信されたオーディオデータストリームのオーディオデータを修正するための修正モジュールをさらに含むことができる。合成モジュールは、修正された少なくとも１つの圧力値に基づいて、修正された少なくとも１つの位置値に基づいて、または、修正された少なくとも１つの拡散値に基づいて、少なくとも１つのオーディオ出力信号を生成するように構成されうる。

別の実施形態において、音源のそれぞれの位置値のそれぞれは、少なくとも２つの座標値を含むことができる。さらにまた、座標値が、音源が環境の所定の領域内にあることを示すとき、修正モジュールは、座標値に少なくとも１つの乱数を加えることによって座標値を修正するように構成されうる。

他の実施形態によれば、音源のそれぞれの位置値のそれぞれは、少なくとも２つの座標値を含むことができる。さらに、座標値が、音源が環境の所定の領域内にあることを示すとき、修正モジュールは、座標値に確定関数を適用することによって座標値を修正するように構成される。

別の実施形態において、音源のそれぞれの位置値のそれぞれは、少なくとも２つの座標値を含むことができる。さらに、座標値が、音源が環境の所定の領域内にあることを示すとき、修正モジュールは、座標値と同じ音源に関連して、オーディオデータの１つ又は複数の圧力値のうちの選択された圧力値を修正するように構成されうる。

実施形態によれば、合成モジュールは、第１のステージ合成ユニットおよび第２のステージ合成ユニットを含むことができる。第１のステージ合成ユニットは、オーディオデータストリームのオーディオデータの１つ又は複数の圧力値のうちの少なくとも１つに基づいて、オーディオデータストリームのオーディオデータの１つ又は複数の位置値のうちの少なくとも１つに基づいて、そして、オーディオデータストリームのオーディオデータの１つ又は複数の拡散値のうちの少なくとも１つに基づいて、直接音を含んでいる直接圧力信号、拡散音を含んでいる拡散圧力信号、および到来方向情報を生成するように構成されうる。第２のステージ合成ユニットは、直接圧力信号、拡散圧力信号および到来方向情報に基づいて、少なくとも１つのオーディオ出力信号を生成するように構成されうる。

実施形態によれば、１つ又は複数の音源に関連した音源データを含んでいるオーディオデータストリームを生成するための装置が提供される。オーディオデータストリームを生成するための装置は、少なくとも１つのマイクロホンにより記録された少なくとも１つのオーディオ入力信号に基づいて、かつ、少なくとも２つの空間マイクロホンによって供給されたオーディオ補助情報に基づいて、音源データを決定するための決定器を含む。さらにまた、本装置は、オーディオデータストリームが音源データを含むように、オーディオデータストリームを生成するためのデータストリーム生成器を含む。音源データは、音源のそれぞれについて１つ又は複数の圧力値を含む。さらに、音源データは、音源のそれぞれについて音源位置を示している１つ又は複数の位置値を更に含む。さらにまた、音源データは、複数の時間―周波数ビンのうちの１つの時間―周波数ビンについて定められる。

別の実施形態において、決定器は、少なくとも１つの空間マイクロホンによって拡散情報に基づいて音源データを決定するように構成されうる。データストリーム生成器は、オーディオデータストリームが音源データを含むように、オーディオデータストリームを生成するように構成されうる。さらに、音源データは、音源のそれぞれについて１つ又は複数の拡散値を含む。

他の実施形態において、音源のうちの少なくとも１つに関連したオーディオデータストリームを生成するための装置は、オーディオデータの圧力値のうちの少なくとも１つ、オーディオデータの位置値のうちの少なくとも１つ、またはオーディオデータの拡散値のうちの少なくとも１つを修正することによって、データストリーム生成器によって生成されたオーディオデータストリームを修正するための修正モジュールを更に含むことができる。

他の実施形態によれば、音源のそれぞれの位置値のそれぞれは、少なくとも２つの座標値（例えば、デカルト座標系の２つの座標、または極座標系の方位角および距離）を含むことができる。座標値が、音源が環境の所定の領域内にあることを示すとき、修正モジュールは、座標値に少なくとも１つの乱数を加えることによって、または、座標値に確定関数を適用することによって、座標値を修正するように構成されうる。

更なる実施形態によれば、オーディオデータストリームが供給される。オーディオデータストリームは、１つ又は複数の音源に関連したオーディオデータを含むことができる。ここで、オーディオデータは、音源のそれぞれについて１つ又は複数の圧力値を含む。オーディオデータは、音源のそれぞれについて音源位置を示している少なくとも１つの位置値を更に含むことができる。一実施形態において、少なくとも１つの位置値のそれぞれは、少なくとも２つの座標値を含むことができる。オーディオデータは、複数の時間―周波数ビンのうちの１つの時間―周波数ビンについて定められうる。

他の実施形態において、オーディオデータは、音源のそれぞれについて１つ又は複数の拡散値を更に含む。

本発明の好ましい実施形態は、以下に説明される。

図１は、一実施形態による１つ又は複数の音源に関連したオーディオデータを含んでいるオーディオデータストリームに基づいて少なくとも１つのオーディオ出力信号を生成するための装置を示す。図２は、一実施形態による１つ又は複数の音源に関連した音源データを含んでいるオーディオデータストリームを生成するための装置を示す。図３ａ及び図３ｂは、異なる実施形態によるオーディオデータストリームを示す。図３ｃは、異なる実施形態によるオーディオデータストリームを示す。図４は、他の実施形態による１つ又は複数の音源に関連した音源データを含んでいるオーディオデータストリームを生成するための装置を示す。図５は、２つの音源および２つの同一の線形マイクロホンアレイからなる音響シーンを示す。図６ａは、一実施形態によるオーディオデータストリームに基づいて少なくとも１つのオーディオ出力信号を生成するための装置６００を示す。図６ｂは、一実施形態による１つ又は複数の音源に関連した音源データを含んでいるオーディオデータストリームを生成するための装置６６０を示す。図７は、一実施形態による修正モジュールを示す。図８は、他の実施形態による修正モジュールを示す。図９は、一実施形態による送信機／分析装置および受信機／合成ユニットを示す。図１０ａは、一実施形態による合成モジュールを示す。図１０ｂは、一実施形態による第１の合成ステージユニットを示す。図１０ｃは、一実施形態による第２の合成ステージユニットを示す。図１１は、他の実施形態による合成モジュールを示す。図１２は、一実施形態による仮想マイクロホンのオーディオ出力信号を生成するための装置を示す。図１３は、一実施形態による仮想マイクロホンのオーディオ出力信号を生成するための装置および方法の入力および出力を示す。図１４は、音事象位置推定器および情報計算モジュールを含む一実施形態による仮想マイクロホンのオーディオ出力信号を生成するための装置の基本構造を示す。図１５は、実在の空間マイクロホンがそれぞれ３つのマイクロホンの線形等間隔アレイ（ＵｎｉｆｏｒｍＬｉｎｅａｒＡｒｒａｙｓ）として示される典型的なシナリオを示す。図１６は、三次元空間における到来方向を推定するための三次元にある２つの空間マイクロホンを示す。図１７は、現在の時間―周波数ビン（ｋ，ｎ）の等方的点音源が位置ｐ_IPLS（ｋ，ｎ）に位置するジオメトリーを示す。図１８は、一実施形態による情報計算モジュールを示す。図１９は、他の実施形態による情報計算モジュールを示す。図２０は、２つの実在の空間マイクロホン、ローカライズされた音事象、および仮想空間マイクロホンの位置を示す。図２１は、一実施形態による仮想マイクロホンと関連して到来方向を得る方法を示す。図２２は、一実施形態による仮想マイクロホンの視点から音の到来方向を抽出するための考えられる方法を示す。図２３は、一実施形態による拡散計算ユニットを含んでいる情報計算ブロックを示す。図２４は、一実施形態による拡散計算ユニットを示す。図２５は、音事象位置推定が可能でないシナリオを示す。図２６は、一実施形態による仮想マイクロホンデータストリームを生成するための装置を示す。図２７は、他の実施形態によるオーディオデータストリームに基づいて少なくとも１つのオーディオ出力信号を生成するための装置を示す。図２８ａは、２つのマイクロホンアレイが直接音を受けるシナリオを示す。図２８ｂは、２つのマイクロホンアレイが壁により反射された音を受けるシナリオを示す。図２８ｃは、２つのマイクロホンアレイが拡散音を受けるシナリオを示す。

本発明の実施形態の詳細な説明をする前に、仮想マイクロホンのオーディオ出力信号を生成するための装置が、本発明の構想に関して基礎的な情報を提供するために説明される。

図１２は、環境において構成可能な仮想位置ｐｏｓＶｍｉｃでマイクロホンの記録をシミュレートするためにオーディオ出力信号を生成するための装置を示す。その装置は、音事象位置推定器１１０と情報計算モジュール１２０とを含む。音事象位置推定器１１０は、第１の実在の空間マイクロホンから第１の方向情報ｄｉ１、および、第２の実在の空間マイクロホンから第２の方向情報ｄｉ２を受ける。音事象位置推定器１１０は、環境の音源の位置を示している音源位置ｓｓｐを推定するように構成される。音源は音波を発する。音事象位置推定器１１０は、環境の第１の実在のマイクロホン位置ｐｏｓ１ｍｉｃにある第１の実在の空間マイクロホンによって供給される第１の方向情報ｄｉ１に基いて、かつ、環境の第２の実在のマイクロホン位置にある第２の実在の空間マイクロホンによって供給される第２の方向情報ｄｉ２に基づいて、音源位置ｓｓｐを推定するように構成される。情報計算モジュール１２０は、第１の実在の空間マイクロホンによって記録されている第１の記録されたオーディオ入力信号ｉｓ１に基づいて、第１の実在のマイクロホン位置ｐｏｓ１ｍｉｃに基づいて、そして、仮想マイクロホンの仮想位置ｐｏｓＶｍｉｃに基づいて、オーディオ出力信号を生成するように構成される。情報計算モジュール１２０は、オーディオ出力信号を得るために、第１の記録されたオーディオ入力信号ｉｓ１の振幅値、マグニチュード値または位相値を調整することによって、第１の実在の空間マイクロホンでの音源によって発された音波の到来と仮想マイクロホンでの音波の到来との間の第１の遅延または振幅減衰を補償することによって第１の記録されたオーディオ入力信号ｉｓ１を修正することによって第１の修正されたオーディオ信号を生成するように構成されている伝搬補償器を含む。

図１３は、一実施形態による装置および方法の入力および出力を示す。２つ又は複数の実在の空間マイクロホン１１１、１１２、…、１１Ｎからの情報は、本装置に送られる又は本方法により処理される。この情報は、実在の空間マイクロホンによって拾われるオーディオ信号、並びに、実在の空間マイクロホンからの方向情報、例えば到来方向（ｄｉｒｅｃｔｉｏｎｏｆａｒｒｉｖａｌ）（ＤＯＡ）推定値を含む。オーディオ信号および到来方向推定値などの方向情報は、時間―周波数領域で表されることができる。例えば、二次元の幾何再構成が望まれ、そして、従来のＳＴＦＴ（短時間フーリエ変換）領域が信号の表現のために選択される場合、到来方向（ＤＯＡ）は、ｋおよびｎ、すなわち、周波数および時間インデックスに依存しているアジマス角として表されることができる。

実施形態において、空間の音事象定位は、仮想マイクロホンの位置を示しているだけでなく、一般の座標系の実在のおよび仮想の空間マイクロホンの位置および方位に基づいて行われることができる。この情報は、図１３の入力１２１、…、１２Ｎおよび入力１０４によって示されることができる。入力１０４は、加えて、仮想空間マイクロホンの特性、例えばその位置およびピックアップパターンを特定することができる。そして、そのことは以下で述べられる。仮想空間マイクロホンが複数の仮想センサを含む場合、それらの位置および対応する異なるピックアップパターンが考慮されうる。

本装置または対応する方法の出力は、必要に応じて、１０４によって特定されるように定められて、位置付けられる空間マイクロホンによって拾われることができた１つ又は複数の音信号１０５でありうる。さらに、本装置（またはむしろ本方法）は、出力として、仮想空間マイクロホンを使用することによって推定されうる対応する空間補助情報１０６を供給しうる。

図１４は、２つの主処理装置、音事象位置推定器２０１および情報計算モジュール２０２を含む実施形態による装置を示す。音事象位置推定器２０１は、入力１１１、…、１１Ｎに含まれる到来方向（ＤＯＡ）に基づいて、そして、実在の空間マイクロホンの位置および方位についての情報に基づいて、幾何的な再構成を行うことができる。そこで、到来方向（ＤＯＡ）が割り出された。音事象位置推定器２０５の出力は、音事象が時間及び周波数ビンごとに起こる音源の（２Ｄまたは３Ｄにおける）位置推定値を含む。第２の処理ブロック２０２は、情報計算モジュールである。図１４の実施形態によれば、第２の処理ブロック２０２は、仮想マイクロホン信号および空間補助情報を割り出す。従って、それは、仮想マイクロホン信号および補助情報計算ブロック２０２と呼ばれもする。仮想マイクロホン信号および補助情報計算ブロック２０２は、仮想マイクロホンオーディオ信号１０５を出力するために、１１１、…、１１Ｎにおいて含まれるオーディオ信号を処理するために音事象の位置２０５を使用する。ブロック２０２は、必要であれば、仮想空間マイクロホンに対応する空間補助情報１０６を計算することもできる。以下の実施形態は、ブロック２０１および２０２がどのように作動しうるかの可能性を示す。

以下に、一実施形態による音事象位置推定器の位置推定が、更に詳細に説明される。

問題の次元（２Ｄまたは３Ｄ）および空間マイクロホンの数に応じて、位置推定についてのいくつかの解決が可能である。

２Ｄの２つの空間マイクロホンが存在する場合、（最も単純な可能なケース）単純な三角測量が可能である。図１５は、実在の空間マイクロホンが各々３つのマイクロホンの線形等間隔アレイ（ＵｎｉｆｏｒｍＬｉｎｅａｒＡｒｒａｙｓ）（ＵＬＡｓ）として示される典型的なシナリオを示す。アジマス角ａｌ（ｋ，ｎ）およびａ２（ｋ，ｎ）として表される到来方向（ＤＯＡ）は、時間―周波数ビン（ｋ，ｎ）について割り出される。これは、時間―周波数領域に変換された圧力信号に、ＥＳＰＲＩＴ、
［１３］Ｒ．ロイ、Ａ．ポールラージおよびＴ．カイラス、「サブスペース回転による到来方向推定 ― ＥＳＰＲＩＴ」、Ａｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ）、ＩＥＥＥ国際コンフェレンス、スタンフォード、ＣＡ、ＵＳＡ、１９８６年４月
または、（ルート）ＭＵＳＩＣ、参照
［１４］Ｒ．シュミット、「複数のエミッタ位置および信号パラメータ推定」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｎｔｅｎｎａｓａｎｄＰｒｏｐａｇａｔｉｏｎ、３４巻、ｎｏ．３、ページ２７６〜２８０、１９８６年
などの、適切な到来方向（ＤＯＡ）推定器を使用することによって達成される。

図１５において、２つの実在の空間マイクロホン、ここでは、２つの実在の空間マイクロホンアレイ４１０、４２０が示される。２つの推定された到来方向ａｌ（ｋ，ｎ）及びａ２（ｋ，ｎ）が、２本の線、到来方向ａ１（ｋ，ｎ）を示している第１の線４３０および到来方向ａ２（ｋ，ｎ）を示している第２の線４４０によって示される。三角測量は、各アレイの位置および方位を知っている単純な幾何的な考慮によって可能である。

２本の線４３０、４４０がちょうど平行であるときに、三角測量は失敗する。しかし、現実の応用において、これは非常に可能性が低い。しかし、すべての三角測量結果が、考慮した空間の音事象のための物理的な又は都合の良い位置に対応するというわけではない。例えば、音事象の推定位置が、あまりにも遠い又は想定された空間の外側でさえある場合もあり、それは、おそらく、到来方向が、使用されたモデルを用いて物理的に解釈されることができるいかなる音事象にも対応しないことを示す。このような結果は、センサノイズまたはあまりに強い部屋残響によって生じうる。従って、一実施形態によれば、情報計算モジュール２０２が適切にそれらを扱うことができるように、このような望まれていない結果はフラグされる。

図１６は、音事象の位置が３Ｄ空間において推定されるシナリオを示す。適当な空間マイクロホン、例えば二次元または三次元マイクロホンアレイが使用される。図１６において、第１の空間マイクロホン５１０、例えば、第１の３Ｄマイクロホンアレイ、および、第２の空間マイクロホン５２０、例えば第２の３Ｄマイクロホンアレイが示される。３Ｄ空間において到来方向、例えば、方位角および仰角として表されうる。単位ベクトル５３０、５４０は、到来方向を表すために使用されうる。２本の線５５０、５６０は、到来方向に従って投射される。３Ｄにおいて、非常に信頼性が高い推定によってさえ、到来方向に従って投射した２本の線５５０、５６０は、交差しないかもしれない。しかし、三角測量は、それでもなお、例えば、２本の線を連結している最も小さいセグメントの中点を選択することによって、実行することができる。

二次元の場合も同様に、三角測量は、失敗しうるかまたは方向の特定の組み合わせについての実行不可能な結果を生じさせうり、それは例えば図１４の情報計算モジュール２０２に、フラグされうる。

２つ以上の空間マイクロホンが存在する場合、いくつかの解決策が可能である。例えば、上で説明された三角測量は、実在の空間マイクロホンのすべての対（Ｎ＝３の場合、１と２、１と３、２と３）について実行されることができる。結果として生じる位置は、それから（ｘおよびｙ、並びに、３Ｄが考慮される場合、ｚに沿って）平均化されうる。

別な方法として、より複雑な構想が使用されうる。例えば、確率論的アプローチが、
［１５］Ｊ．マイケル・スティール、「平面のランダムサンプルの最適三角測量」、確率の紀要、１０巻、Ｎｏ．３（１９８２年８月）、ページ５４８〜５５３
に説明されるように、適用されうる。

各ＩＰＬＳは、直接音又は区別可能な部屋反射をモデル化する。その位置ｐ_IPLS（ｋ，ｎ）は、それぞれ、部屋の中に位置する実際の音源、または、外に位置した鏡像音源に理想的には対応しうる。従って、位置ｐ_IPLS（ｋ，ｎ）はまた、音事象の位置を示す。

用語「実音源（ｒｅａｌｓｏｕｎｄｓｏｕｒｃｅｓ）」が、記録環境に物理的に存在している実在の音源、例えばトーカーまたは楽器を意味する点に留意されたい。これに対して、「音源（ｓｏｕｎｄｓｏｕｒｃｅｓ）」または「音事象（ｓｏｕｎｄｅｖｅｎｔｓ）」または「ＩＰＬＳ」については、我々は、特定の時間インスタントで、または、特定の時間―周波数ビンで、アクティブである有効な音源に関連する。ここで、音源は、例えば、実音源または鏡像ソースを示しうる。

図２８ａ―２８ｂは、音源を定位しているマイクロホンアレイを示す。定位された音源は、それらの性質に応じた異なる物理解釈を有しうる。マイクロホンアレイが直接音を受けるとき、それらは、真の音源（例えばトーカー）の位置を定位することができうる。マイクロホンアレイが反射を受けるとき、それらは、鏡像ソースの位置を定位しうる。鏡像ソースもまた音源である。

図２８ａは、２つのマイクロホンアレイ１５１および１５２が実在の音源（物理的に存在する音源）１５３から直接音を受けるシナリオを示す。

図２８ｂは、２つのマイクロホンアレイ１６１、１６２が反射音を受けるシナリオを示す。ここで、音響は壁によって反射されている。反射のため、マイクロホンアレイ１６１、１６２は、スピーカ１６３の位置とは異なる鏡像ソース１６５の位置で、音響が来るようにみえる位置を定位する。

図２８ａの実在の音源１５３並びに鏡像ソース１６５は両方とも音源である。

図２８ｃは、２つのマイクロホンアレイ１７１、１７２が拡散音を受けて、音源を位置決めできないシナリオを示す。

この単一波モデルが少し反響する環境に関してのみ正確であるが、ソース信号がＷディスジョイント直交性（Ｗ−ｄｉｓｊｏｉｎｔｏｒｔｈｏｇｏｎａｌｉｔｙ）（ＷＤＯ）条件を満たすと想定すると、すなわち、時間―周波数の重なりは十分に小さい。これは、通常、スピーチ信号にあてはまる。例えば、
［１２］Ｓ．リカードおよびＺ．ユルマズ、「音声の近似Ｗ−ディスジョイント直交性について」、Ａｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ、２００２．ＩＣＡＳＳＰ２００２年ＩＥＥＥ国際コンフェレンス、２００２年４月、１巻
を参照されたい。

しかし、そのモデルはまた、他の環境についても良い推定値を供給し、従って、それらの環境にも適用できる。

以下に、一実施形態による位置ｐ_IPLS（ｋ，ｎ）の推定値が説明される。特定の時間―周波数ビンのアクティブなＩＰＬＳの位置ｐ_IPLS（ｋ，ｎ）、ひいては時間―周波数ビンの音事象の推定値は、少なくとも２つの異なる観測点において測定された音響の到来方向（ＤＯＡ）に基づいて、三角測量により推定される。

他の実施形態において、式（６）は、ｄ₂（ｋ，ｎ）について解くことができ、ｐ_IPLS（ｋ，ｎ）は、ｄ₂（ｋ，ｎ）を使用して類似して計算される。

ｅ₁（ｋ，ｎ）およびｅ₂（ｋ，ｎ）が平行でない限り、２Ｄで演算するときに、式（６）は、常に解を与える。しかし、２つ以上のマイクロホンアレイを使用するとき、または、３Ｄで演算するとき、方向ベクトルｄが交差しないときは、解は得ることができない。一実施形態によれば、この場合、すべての方向ベクトルｄに最も近い点が割り出されて、その結果は、ＩＰＬＳの位置として使用されることができる。

以下に、一実施形態による情報計算モジュール２０２、例えば仮想マイクロホン信号および補助情報計算モジュールは、更に詳細に説明される。

図１８は、一実施形態による情報計算モジュール２０２の図式的概観を示す。情報計算ユニットは、伝搬補償器５００と、結合器５１０と、スペクトル重み付けユニット５２０とを含む。情報計算モジュール２０２は、音事象位置推定器によって推定された音源位置推定値ｓｓｐ、実在の空間マイクロホンの１つ又は複数により記録された１つ又は複数のオーディオ入力信号ｉｓ、実在の空間マイクロホンの１つ又は複数の位置ｐｏｓＲｅａｌＭｉｃ、および仮想マイクロホンの仮想位置ｐｏｓＶｍｉｃを受ける。それは、仮想マイクロホンのオーディオ信号を示しているオーディオ出力信号ｏｓを出力する。

図１９は、他の実施形態による情報計算モジュールを示す。図１９の情報計算モジュールは、伝搬補償器５００と、結合器５１０と、スペクトル重み付けユニット５２０とを含む。伝搬補償器５００は、伝搬パラメータ計算モジュール５０１と伝搬補償モジュール５０４とを含む。結合器５１０は、結合係数計算モジュール５０２と結合モジュール５０５とを含む。スペクトル重み付けユニット５２０は、スペクトル重み計算ユニット５０３と、スペクトル重み付け適用モジュール５０６と、空間補助情報計算モジュール５０７とを含む。

仮想マイクロホンのオーディオ信号を割り出すために、幾何情報、例えば実在の空間マイクロホン１２１、…、１２Ｎの位置および方位、仮想空間マイクロホン１０４の位置、方位および特性、並びに、音事象２０５の位置推定値は、情報計算モジュール２０２に、特に、伝搬補償器５００の伝搬パラメータ計算モジュール５０１に、結合器５１０の結合係数計算モジュール５０２に、そして、スペクトル重み付けユニット５２０のスペクトル重み計算ユニット５０３に送られる。伝搬パラメータ計算モジュール５０１、結合係数計算モジュール５０２、およびスペクトル重み計算ユニット５０３は、伝搬補償モジュール５０４、結合モジュール５０５およびスペクトル重み付け適用モジュール５０６のオーディオ信号１１１、…、１１Ｎの修正において使用されるパラメータを算出する。

情報計算モジュール２０２において、オーディオ信号１１１、…、１１Ｎは、まず、音事象位置と実在の空間マイクロホンとの間の異なる伝搬長によって与えられる効果を補償するために、修正されることができる。信号は、次に、例えばＳＮ比（ＳＮＲ）を改善するために、結合されることができる。最後に、結果として生じる信号は、それから、距離に依存する利得関数だけでなく、仮想マイクロホンの指向性ピックアップパターンを考慮するように、スペクトル重み付けされることができる。これらの３つのステップは、以下に更に詳細に述べられる。

伝搬補償は、ここで更に詳細に説明される。図２０の上部において、２つの実在の空間マイクロホン（第１のマイクロホンアレイ９１０および第２のマイクロホンアレイ９２０）、時間―周波数ビン（ｋ，ｎ）について定位された音事象９３０の位置、および仮想空間マイクロホン９４０の位置が示される。

図２０の下部は、時間軸を示す。音事象が時間ｔ０で発されて、実在のおよび仮想の空間マイクロホンに伝搬されることが仮定される。伝搬距離が遠いほど、アンプリチュードが弱く、到来の時間遅延が長くなるように、到来の時間遅延およびアンプリチュードは、距離により変化する。

２つの実在のアレイの信号は、それらの間の相対的な遅延Ｄｔ１２が小さい場合にだけ、比較できる。そうでない場合は、２つの信号のうちの１つは、相対的な遅延Ｄｔ１２を補償するために時間的に再調整されることを要し、おそらく、異なる減衰を補償するためにスケールされることを要する。

仮想マイクロホンへの到来と（実在の空間マイクロホンのうちの１つにある）実在のマイクロホンアレイへの到来との間の遅延を補償することは、音事象の定位から独立して遅延を変え、大部分の応用についてはそれを不必要にする。

図１９に一旦戻って、伝搬パラメータ計算モジュール５０１は、実在の空間マイクロホンごとに、そして、音事象ごとに、修正される遅延を算出するように構成される。必要に応じて、それはまた、異なる振幅減衰を補償するために考慮される利得係数を算出する。

伝搬補償モジュール５０４は、オーディオ信号をしかるべく修正するためにこの情報を使用するように構成される。信号が（フィルタバンクの時間窓と比較して）わずかな時間だけシフトされることになる場合、単純な位相回転で十分である。遅延がより大きい場合、より複雑な実施態様が必要である。

伝搬補償モジュール５０４の出力は、元の時間―周波数領域において表された修正されたオーディオ信号である。

以下に、一実施形態による仮想マイクロホンのための伝搬補償の特定の推定は、特に第１の実在の空間マイクロホンの位置６１０および第２の実在の空間マイクロホンの位置６２０を示す図１７に関して説明される。

ここで説明される実施形態において、少なくとも、第１の記録されたオーディオ入力信号、例えば実在の空間マイクロホン（例えばマイクロホンアレイ）のうちの少なくとも１つの圧力信号、例えば第１の実在の空間マイクロホンの圧力信号が利用可能であることが仮定される。我々は、考慮したマイクロホンを基準マイクロホンと、その位置を基準位置ｐ_refと、その圧力信号を基準圧力信号Ｐ_ref（ｋ，ｎ）と呼ぶこととする。しかし、伝搬補償は、１つだけの圧力信号に関してだけでなく、複数の又は全ての実在の空間マイクロホンの圧力信号に関しても行ないうる。

一般に、複合係数γ（ｋ，ｐ_a，ｐ_b）は、ｐ_a、ｐ_bにおいてその起点からの球面波の伝搬によって導入された位相回転および振幅減衰を表す。しかし、実用試験は、γの振幅減衰だけを考慮することが、位相回転を考慮することと比較して、著しく少ないアーチファクトを有する仮想マイクロホン信号のもっともらしい印象につながることを示した。

空間におけるある点で測定されうる音響エネルギーは、音源から、図６においては音源の位置ｐ_IPLSからの距離ｒに強く依存する。多くの状況において、この依存は、周知の物理原理、例えば点音源の遠視野の音圧の１／ｒ減衰を使用して、充分な精度でモデル化することができる。基準マイクロホンの距離、例えば、音源からの第１の実在のマイクロホンが知られているとき、また、音源から仮想マイクロホンの距離が知られているとき、それから、仮想マイクロホンの位置の音響エネルギーは、基準マイクロホン、例えば第１の実在の空間マイクロホンの信号およびエネルギーから推定されることができる。このことは、仮想マイクロホンの出力信号が適当な利得を基準圧力信号に適用することによって得られることができることを意味する。

式（１）のモデルが保持するときに、例えば、直接音だけが存在するときに、式（１２）は、マグニチュード情報を正確に再構築することができる。しかし、純粋な拡散音場の場合に、例えば、そのモデル仮定が満たされないときに、センサアレイの位置から仮想マイクロホンを遠ざけるときに、提示された方法は、信号の潜在的な非残響を生じさせる。実際、上記のように、拡散音場において、我々は、大部分のＩＰＬＳが２つのセンサアレイの近くにローカライズされることを予想する。このように、これらの位置から仮想マイクロホンを遠ざけるときに、我々はおそらく図１７の距離ｓ＝｜｜ｓ｜｜を増加させる。従って、式（１１）に従って重み付けを適用するとき、基準圧のマグニチュードが減少する。対応して、実在の音源の近くに仮想マイクロホンを動かすとき、全体のオーディオ信号がより少ない拡散が知覚されるように、直接音に対応する時間―周波数ビンが増幅される。式（１２）のルールを調整することによって、自由に直接音増幅および拡散音抑制を制御することができる。

第１の実在の空間マイクロホンの記録されたオーディオ入力信号（例えば圧力信号）への伝搬補償を行うことによって、第１の修正されたオーディオ信号が得られる。

実施形態において、第２の修正されたオーディオ信号は、第２の実在の空間マイクロホンの記録された第２のオーディオ入力信号（第２の圧力信号）への伝搬補償を行うことによって得られうる。

他の実施態様において、更なるオーディオ信号は、更なる実在の空間マイクロホンの更に記録されたオーディオ入力信号（更なる圧力信号）への伝搬補償を行うことによって得られることができる。

ここで、一実施形態による図１９のブロック５０２および５０５での結合が更に詳細に説明される。複数の異なる実在の空間マイクロホンからの２つ又はそれ以上のオーディオ信号が、２つ又はそれ以上の修正されたオーディオ信号を得るように、その異なる伝搬経路を補償するために、修正されたと仮定する。一旦異なる実在の空間マイクロホンからのオーディオ信号が、異なる伝搬経路を補償するために修正されると、それらはオーディオ品質を改善するために結合されうる。こうすることによって、例えば、ＳＮＲを増加することができる、または、残響を低減することができる。

結合のための可能な解決法は、以下を含む。
− 例えばＳＮＲ、または仮想マイクロホンまでの距離、または実在の空間マイクロホンによって推定された拡散を考慮する、加重平均。従来の解決法、例えば、最大比合成（ＭａｘｉｍｕｍＲａｔｉｏＣｏｍｂｉｎｉｎｇ）（ＭＲＣ）または等利得合成（ＥｑｕａｌＧａｉｎＣｏｍｂｉｎｉｎｇ）（ＥＱＣ）のために使用されることができる。または、
− 合成信号を得るための一部または全部の修正されたオーディオ信号の１次結合。修正されたオーディオ信号は、合成信号を得るために、１次結合において重み付けされうる。または、
− 例えば、一つの信号だけが、例えば、ＳＮＲまたは距離または拡散に依存して、使用される、選択。

モジュール５０２のタスクは、適用できる場合、モジュール５０５において実行される合成のためのパラメータを算出することである。

ここで、実施形態によるスペクトル重み付けについて更に詳細に説明する。これについては、図１９のブロック５０３および５０６が参照される。この最終ステップで、合成から、または、入力オーディオ信号の伝搬補償から生じるオーディオ信号は、入力１０４によって特定されるような仮想空間マイクロホンの空間特性に従って、および／または、再構築された幾何（２０５で与えられる）に従って、時間―周波数領域において重み付けされる。

時間―周波数ビンごとに、図２１に示すように、幾何的な再構成は、我々が仮想マイクロホンに関連した到来方向（ＤＯＡ）を容易に得ることを可能にする。さらにまた、仮想マイクロホンと音事象の位置との間の距離を、直ちに算出することもできる。

時間―周波数ビンについての重みは、望まれた仮想マイクロホンのタイプを考慮して算出される。

指向性マイクロホンの場合には、スペクトル重みは、所定のピックアップパターンに従って算出されうる。例えば、一実施形態によれば、カージオイドマイクロホンは、関数ｇ（θ）、
ｇ（θ）＝０．５＋０．５ｃｏｓ（θ）
によって定められたピックアップパターンを有することができる。ここで、θは、仮想空間マイクロホンの視方向（ｌｏｏｋｄｉｒｅｃｔｉｏｎ）と仮想マイクロホンの視点からの音響の到来方向（ＤＯＡ）との間の角度である。

他の可能性は、アーティスティックな（非物理的）減衰関数である。特定のアプリケーションにおいて、自由場伝搬を特徴とするものより大きい係数で仮想マイクロホンから遠くの音事象を抑制することが望まれうる。この目的のために、いくつかの実施形態は、仮想マイクロホンと音事象との間の距離に依存する付加的な重み付け関数を導入する。一実施形態において、仮想マイクロホンからの（例えばメートルでの）特定の距離の範囲内の音事象だけが捕捉される。

仮想マイクロホン指向性に関して、任意の指向性パターンは、仮想マイクロホンのために適用されることができる。この際、例えば、複合的な音シーンとソースとは分離されうる。

実施形態において、１つ又は複数の実在の、非空間マイクロホン、例えば全指向性マイクロホンまたはカージオイドのような指向性マイクロホンは、図８の仮想マイクロホン信号１０５の音質を更に改善するために、実在の空間マイクロホンに加えて、音響シーンに位置付けられる。これらのマイクロホンは、幾何的な情報も集めるために使用されないが、むしろクリーナーオーディオ信号を供給するだけのために使用される。これらのマイクロホンは、空間マイクロホンよりも音源に近くに位置付けられうる。この場合、一実施形態によれば、実在の、非空間マイクロホンのオーディオ信号およびそれらの位置は、実在の空間マイクロホンのオーディオ信号の代わりに、処理のために図１９の伝搬補償モジュール５０４に単純に送られる。伝搬補償は、それから１つ又は複数の非空間マイクロホンの位置に関して、非空間マイクロホンの１つ又は複数の記録されたオーディオ信号のために実行される。これにより、一実施形態は、付加的な非空間マイクロホンを使用して実現される。

別の実施形態において、仮想マイクロホンの空間補助情報の計算が実現される。マイクロホンの空間補助情報１０６を割り出すために、図１９の情報計算モジュール２０２は、入力として音源の位置２０５および仮想マイクロホンの位置、方位および特性１０４を受けるように構成される、空間補助情報計算モジュール５０７を含む。ある実施形態において、算出されることを必要とする補助情報１０６によれば、仮想マイクロホン１０５のオーディオ信号を、空間補助情報計算モジュール５０７への入力として考慮することもできる。

空間補助情報計算モジュール５０７の出力は、仮想マイクロホン１０６の補助情報である。この補助情報は、例えば、仮想マイクロホンの視点からの各時間―周波数ビン（ｋ，ｎ）についての音響の到来方向（ＤＯＡ）または拡散でありえる。他の可能な補助情報は、例えば、仮想マイクロホンの位置において測定されたアクティブな音の強さベクトルＩａ（ｋ，ｎ）でありえる。これらのパラメータをどのように抽出することができるかをここでは説明する。

一実施形態によれば、仮想空間マイクロホンのためのＤＯＡ推定が実現される。情報計算モジュール１２０は、図２２で示すように、仮想マイクロホンの位置ベクトルに基づき、かつ、音事象の位置ベクトルに基づいて、空間補助情報として到来方向を仮想マイクロホンと推定するように構成される。

図２２は、仮想マイクロホンの視点から音の到来方向ＤＯＡを得るための可能な方法を表す。図１９のブロック２０５によって与えられる音事象の位置は、位置ベクトルｒ（ｋ，ｎ）、音事象の位置ベクトルによって、時間―周波数ビン（ｋ，ｎ）ごとに、示されることができる。同様に、図１９の入力１０４として与えられる仮想マイクロホンの位置は、位置ベクトルｓ（ｋ，ｎ）、仮想マイクロホンの位置ベクトルによって示されることができる。仮想マイクロホンの視方向（ｌｏｏｋｄｉｒｅｃｔｉｏｎ）は、ベクトルｖ（ｋ，ｎ）によって示されることができる。仮想マイクロホンと関連する到来方向（ＤＯＡ）は、ａ（ｋ，ｎ）で与えられる。それは、ｖと音伝搬経路ｈ（ｋ，ｎ）との間の角度を示す。ｈ（ｋ，ｎ）は、

ｈ（ｋ，ｎ）＝ｓ（ｋ，ｎ）−ｒ（ｋ，ｎ）

を使用することによって、算出されることができる。

所望の到来方向（ＤＯＡ）ａ（ｋ，ｎ）は、ここで、例えばｈ（ｋ，ｎ）とｖ（ｋ，ｎ）の内積の定義、すなわち、

ａ（ｋ，ｎ）＝ａｒｃｏｓ（ｈ（ｋ，ｎ）・ｖ（ｋ，ｎ）／（｜｜ｈ（ｋ，ｎ）｜｜｜｜ｖ（ｋ，ｎ）｜｜）

により、（ｋ，ｎ）ごとに算出される。

他の実施形態において、情報計算モジュール１２０は、図２２で示すように、仮想マイクロホンの位置ベクトルに基づき、かつ、音事象の位置ベクトルに基づいて、仮想マイクロホンでのアクティブな音の強さを空間補助情報として推定するように構成されうる。

上で定められた到来方向（ＤＯＡ）ａ（ｋ，ｎ）から、我々は仮想マイクロホンの位置でのアクティブな音の強さＩａ（ｋ，ｎ）を得ることができる。これについて、図１９の仮想マイクロホンオーディオ信号１０５が、全指向性マイクロホンの出力に対応すると仮定される、例えば、我々が、仮想マイクロホンが、全指向性マイクロホンであると仮定する。さらに、図２２の視方向（ｌｏｏｋｉｎｇｄｉｒｅｃｔｉｏｎ）ｖは、座標系のｘ軸と平行であるとみなされる。所望のアクティブな音の強さベクトルＩａ（ｋ，ｎ）が仮想マイクロホンの位置によるエネルギーの純流動を示すので、我々は、例えば式

Ｉａ（ｋ，ｎ）＝−（１／２ρ）｜Ｐ_v（ｋ，ｎ）｜²＊［ｃｏｓ（ｋ，ｎ），ｓｉｎ（ｋ，ｎ）］^T

に従って、Ｉａ（ｋ，ｎ）を算出することができる。ここで、［］^Tは、転置ベクトルを示し、ρは、空気密度であり、そして、Ｐ_v（ｋ，ｎ）は、仮想空間マイクロホン、例えば図１９のブロック５０６の出力１０５により測定された音圧である。

アクティブな強度ベクトルが、一般の座標系において表されて算出されるが、仮想マイクロホンの位置でなお算出される場合、以下の式が適用されうる。
Ｉａ（ｋ，ｎ）＝（１／２ρ）｜Ｐ_v（ｋ，ｎ）｜²ｈ（ｋ，ｎ）／｜｜ｈ（ｋ，ｎ）｜｜。

一実施形態によれば、拡散は、音響シーンの任意の位置で自由に位置付けられることができる仮想マイクロホン（ＶｉｒｔｕａｌＭｉｃｒｏｐｈｏｎｅ）（ＶＭ）について生成された補助情報に対する付加的なパラメータとして算出されることができる。これにより、音響シーンの任意の点について、ＤｉｒＡＣストリーム、すなわち、オーディオ信号、到来方向および拡散を生じさせることが可能であるように、仮想マイクロホンの仮想位置でオーディオ信号に加えて拡散を算出する装置は、仮想ＤｉｒＡＣフロントエンドとして理解されうる。ＤｉｒＡＣストリームは、任意のマルチスピーカセットアップで、更に処理され、格納され、送信され、再生されることができる。この場合、聴取者は、あたかも仮想マイクロホンによって特定された位置におり、その方位で決定された方向を見ているかのように、音響シーンを経験する。

図２３は、仮想マイクロホンで拡散を算出するための拡散計算ユニット８０１を含んでいる実施形態に従って、情報計算ブロックを示す。情報計算ブロック２０２が、図１４の入力に加えて実在の空間マイクロホンで拡散を含む入力１１１〜１１Ｎを受けるように構成される。ψ^(SM1)〜ψ^(SMN)がこれらの値を示すものとする。これらの付加的な入力は、情報計算モジュール２０２に送られる。拡散計算ユニット８０１の出力１０３は、仮想マイクロホンの位置で算出される拡散パラメータである。

一実施形態の拡散計算ユニット８０１は、より詳細を表している図２４で示される。一実施形態によれば、Ｎ個の空間マイクロホンの各々の直接音および拡散音のエネルギーが推定される。そして、ＩＰＬＳの位置に関する情報、並びに、空間および仮想マイクロホンの位置に関する情報を使用して、仮想マイクロホンの位置のこれらのエネルギーのＮ個の推定値が得られる。最後に、推定値は、推定精度を改善するために合成されることができ、仮想マイクロホンの拡散パラメータは、直ちに算出されることができる。

上述のように、場合によっては、誤った到来方向が推定された場合に、例えば、音事象位置推定器によって行われる音事象位置推定は、失敗する。図２５は、このようなシナリオを示す。これらの場合、異なる空間マイクロホンで推定された拡散パラメータに関係なく、空間的に整合的でない再生がありうるように、仮想マイクロホン１０３についての拡散は、１（すなわち、完全に拡散）にセットされることができる。

加えて、Ｎ個の空間マイクロホンでの到来方向（ＤＯＡ）推定値の信頼性が、考慮されうる。これは、例えば、ＤＯＡ推定器のばらつきまたはＳＮＲに関して、表すことができる。この種の情報は、拡散サブカルキュレータ８５０によって考慮されることができ、その結果、ＶＭ拡散１０３は、到来方向（ＤＯＡ）推定値が信頼できないという場合において人為的に増加することができる。実際に、結果として、位置推定値２０５も信頼できないであろう。

図１は、一実施形態による１つ又は複数の音源に関連したオーディオデータを含んでいるオーディオデータストリームに基づいて、少なくとも１つのオーディオ出力信号を生成するための装置１５０を示す。

装置１５０は、オーディオデータを含んでいるオーディオデータストリームを受信するための受信機１６０を含む。オーディオデータは、１つ又は複数の音源のそれぞれについて１つ又は複数の圧力値を含む。さらにまた、オーディオデータは、音源のそれぞれについて音源のうちの１つの位置を示している１つ又は複数の位置値を含む。さらに、その装置は、オーディオデータストリームのオーディオデータの１つ又は複数の圧力値のうちの少なくとも１つに基づいて、かつ、オーディオデータストリームのオーディオデータの１つ又は複数の位置値のうちの少なくとも１つに基づいて、少なくとも１つのオーディオ出力信号を生成するための合成モジュール１７０を含む。オーディオデータは、複数の時間―周波数ビンのうちの１つの時間―周波数ビンのために定められる。音源のそれぞれについて、少なくとも１つの圧力値は、オーディオデータに含まれる。ここで、少なくとも１つの圧力値は、例えば音源から生じる、発された音波に関する圧力値でありえる。圧力値はオーディオ信号の値、例えば、仮想マイクロホンのオーディオ出力信号を生成するための装置によって生成されたオーディオ出力信号の圧力値でありえる。ここで、仮想マイクロホンは、音源の位置で位置付けられる。

このように、図１は、上述のオーディオデータストリームを受信する又は処理するために用いられうる装置１５０を示す。すなわち、装置１５０は、受信機／合成側で用いられうる。オーディオデータストリームは、複数の音源のうちのそれぞれについて、１つ又は複数の圧力値および１つ又は複数の位置値を含むオーディオデータを含む。すなわち、圧力値および位置値のそれぞれは、記録されたオーディオシーンの１つ又は複数の音源のうちの特定の音源と関連する。これは、位置値が、録音するマイクロホンの代わりに音源の位置を示すことを意味する。圧力値に関して、これは、オーディオデータストリームが音源のそれぞれについて、１つ又は複数の圧力値を含むことを意味する。すなわち、圧力値は、実在の空間マイクロホンの記録に関連する代わりに、音源に関連するオーディオ信号を示す。

一実施形態によれば、受信機１６０は、オーディオデータを含んでいるオーディオデータストリームを受信するように構成されうる。ここで、オーディオデータはさらに、音源のそれぞれについて１つ又は複数の拡散値を含む。合成モジュール１７０は、１つ又は複数の拡散値のうちの少なくとも１つに基づいて、少なくとも１つのオーディオ出力信号を生成するように構成されうる。

図２は、一実施形態による１つ又は複数の音源に関連した音源データを含んでいるオーディオデータストリームを生成するための装置２００を示す。オーディオデータストリームを生成するための装置２００は、少なくとも１つの空間マイクロホンによって記録された少なくとも１つのオーディオ入力信号に基づいて、かつ、少なくとも２つの空間マイクロホンによって供給されたオーディオ補助情報に基づいて、音源データを決定するための決定器２１０を含む。さらにまた、装置２００は、オーディオデータストリームが音源データを含むように、オーディオデータストリームを生成するためのデータストリーム生成器２２０を含む。音源データは、音源のそれぞれについて１つ又は複数の圧力値を含む。さらに、音源データは、音源のそれぞれについて音源位置を示している１つ又は複数の位置値を更に含む。さらにまた、音源データは、複数の時間―周波数ビンのうちの１つの時間―周波数ビンについて定められる。

それから、装置２００によって生成されたオーディオデータストリームは、送信されうる。このように、装置２００は、分析／送信機側で用いられうる。オーディオデータストリームは、１つ又は複数の圧力値を含むオーディオデータを含む、１つ又は複数の音源のそれぞれについて値を位置決めする。すなわち、圧力値および位置値のそれぞれは、記録されたオーディオシーンの１つ又は複数の音源のうちの特定の音源と関連する。これは、位置値に関して、位置値が、録音するマイクロホンの代わりに音源の位置を示すことを意味する。

別の実施形態において、決定器２１０は、少なくとも１つの空間マイクロホンによって拡散情報に基づいて、音源データを決定するように構成されうる。データストリーム生成器２２０は、オーディオデータストリームが音源データを含むように、オーディオデータストリームを生成するように構成されうる。さらに、音源データは、音源のそれぞれについて１つ又は複数の拡散値を含む。

図３ａは、一実施形態によるオーディオデータストリームを示す。オーディオデータストリームは、時間―周波数ビンにおいてアクティブである２つの音源に関連したオーディオデータを含む。特に、図３ａは、時間―周波数ビン（ｋ，ｎ）のために送信されるオーディオデータを示す。ここで、ｋは、周波数インデックスを意味し、ｎは、時間インデックスを意味する。オーディオデータは、第１の音源の圧力値Ｐ１、位置値Ｑ１、および拡散値ψ１を含む。位置値Ｑ１は、第１の音源の位置を示している３つの座標値Ｘ１、Ｙ１、およびＺ１を含む。さらにまた、オーディオデータは、第２の音源の圧力値Ｐ２、位置値Ｑ２、および拡散値ψ２を含む。位置値Ｑ２は、第２の音源の位置を示している３つの座標値Ｘ２、Ｙ２、およびＺ２を含む。

図３ｂは、他の実施形態によるオーディオストリームを示す。さらにまた、オーディオデータは、第１の音源の圧力値Ｐ１、位置値Ｑ１、および拡散値ψ１を含む。位置値Ｑ１は、第１の音源の位置を示している３つの座標値Ｘ１、Ｙ１、およびＺ１を含む。さらにまた、オーディオデータは、第２の音源の圧力値Ｐ２、位置値Ｑ２、および拡散値ψ２を含む。位置値Ｑ２は、第２の音源の位置を示している３つの座標値Ｘ２、Ｙ２、およびＺ２を含む。

図３ｃは、オーディオデータストリームの他の図を与える。オーディオデータストリームが、幾何ベースの空間オーディオ符号化（ＧＡＣ）情報を供給するので、それはまた「幾何ベースの空間オーディオ符号化ストリーム（ｇｅｏｍｅｔｒｙ−ｂａｓｅｄｓｐａｔｉａｌａｕｄｉｏｃｏｄｉｎｇｓｔｒｅａｍ）」または「ＧＡＣストリーム（ＧＡＣｓｔｒｅａｍ）」と呼ばれることもある。オーディオデータストリームは、１つ又は複数の音源、例えば１つ又は複数の等方的点音源（ＩＰＬＳ）に関する情報を含む。すでに上で説明されたように、ＧＡＣストリームは、以下の信号を含むことができる。ここで、ｋおよびｎは、考慮された時間―周波数ビンの周波数インデックスおよび時間インデックスを意味する。
●Ｐ（ｋ，ｎ）：音源の、例えばＩＰＬＳの合成圧力。この信号は、おそらく直接音（ＩＰＬＳ自体から生じている音）と拡散音とを含む。
●Ｑ（ｋ，ｎ）：音源、例えばＩＰＬＳの位置（例えば３Ｄの直角座標）：
その位置は、例えば、直角座標Ｘ（ｋ，ｎ）、Ｙ（ｋ，ｎ）、Ｚ（ｋ，ｎ）を含むことができる。
●ＩＰＬＳでの拡散：ψ（ｋ，ｎ）。このパラメータは、Ｐ（ｋ，ｎ）において含まれる拡散音に対する直接音の出力比に関連する。Ｐ（ｋ，ｎ）＝Ｐ_dir（ｋ，ｎ）＋Ｐ_diff（ｋ，ｎ）である場合、拡散を表す１つの可能性は、ψ（ｋ，ｎ）＝｜Ｐ_diff（ｋ，ｎ）｜²／｜Ｐ（ｋ，ｎ）｜²である。｜Ｐ（ｋ，ｎ）｜²が知られている場合、他の相当する表現、例えば、直接音対拡散音比（ＤｉｒｅｃｔｔｏＤｉｆｆｕｓｅＲａｔｉｏ）（ＤＤＲ）Γ＝｜Ｐ_dir（ｋ，ｎ）｜²／｜Ｐ_diff（ｋ，ｎ）｜²が考えられる。

すでに述べたように、ｋおよびｎは、周波数および時間インデックスをそれぞれ意味する。必要である場合、そして、分析がそれを可能にする場合、１つ又は複数のＩＰＬＳは、一定の時間―周波数スロットで示されることができる。これは、ｉ番目の層（すなわち、ｉ番目のＩＰＬＳ）についての圧力信号が、Ｐｉ（ｋ，ｎ）で示されるように、Ｍ個の多層としての図３ｃに表される。便宜上、ＩＰＬＳの位置は、ベクトルＱ_i（ｋ，ｎ）＝［Ｘ_i（ｋ，ｎ），Ｙ_i（ｋ，ｎ），Ｚ_i（ｋ，ｎ）］^Tで表される。最新の技術とは異なり、ＧＡＣストリームのすべてのパラメータが、１つ又は複数の音源に関して、例えばＩＰＬＳに関して、表され、従って、録音位置からの独立を達成する。図３ｃにおいては、図３ａおよび３ｂと同様に、図のすべての量が、時間―周波数領域において考慮される。例えば、（ｋ，ｎ）表記は、簡単のため省略され、Ｐ_iがＰ_i（ｋ，ｎ）、例えばＰ_i＝Ｐ_i（ｋ，ｎ）を意味する。

以下に、一実施形態によるオーディオデータストリームを生成するための装置は、更に詳細に説明される。図２の装置として、図４の装置は、決定器２１０と、決定器２１０に類似しうるデータストリーム生成器２２０とを含む。その決定器が、それに基づいてデータストリーム生成器がオーディオデータストリームを生成する音源データを決定するために、オーディオ入力データを分析するので、決定器およびデータストリーム生成器は、「分析モジュール」とも呼ばれうる。（図４の分析モジュール４１０を参照）。

分析モジュール４１０は、Ｎ個の空間マイクロホンの記録から、ＧＡＣストリームを算出する。要求されるＭ個の層（例えば情報が特定の時間―周波数ビンについてのオーディオデータストリームに含まれる音源の数）に応じて、空間マイクロホンの種類および数Ｎ、分析のための種々の方法が考えられる。２、３の例が、以下に挙げられる。

１つ目の例として、時間―周波数スロットごとの１つの音源、例えば１つのＩＰＬＳについてのパラメータ推定が考慮される。Ｍ＝１の場合、ＧＡＣストリームは、仮想空間マイクロホンが音源の位置において位置付けられることができるという点で、例えばＩＰＬＳの位置で、仮想マイクロホンのオーディオ出力信号を生成するための装置について上で説明された構想によって直ちに得られることができる。これは、圧力信号が、対応する位置推定値、およびおそらく拡散性と共に、ＩＰＬＳの位置で算出されるのを可能にする。これらの３つのパラメータは、ＧＡＣストリームに一まとめにされ、送信されるまたは格納される前に、図８のモジュール１０２によって、更に操作されることができる。

例えば、その決定器は、仮想マイクロホンのオーディオ出力信号を生成するための装置の音事象位置推定のために提案された構想を使用することによって音源の位置を決定することができる。さらに、その決定器は、オーディオ出力信号を生成するための装置を含むことができて、音源の位置での圧力値（例えば生成されるオーディオ出力信号の値）および拡散を算出する仮想マイクロホンの位置として、音源の決定された位置を使用することができる。

特に、例えば図４の決定器２１０は、データストリーム生成器２２０が、算出された圧力信号、位置推定値および拡散に基づいてオーディオデータストリームを生成するように構成される一方で、圧力信号、対応する位置推定値、および対応する拡散を決定するように構成される。

別の例として、時間―周波数スロットごとに２つの音源、例えば２つのＩＰＬＳのためのパラメータ推定が考慮される。分析モジュール４１０が時間―周波数ビンごとに２つの音源を推定することになる場合、最新技術の推定器に基づく以下の構想が使用されることができる。

図５は、２つの音源および２つの同一の線形マイクロホンアレイから成る音響シーンを示す。ＥＳＰＲＩＴが参照される。参照
［２６］Ｒ．ロイおよびＴ．カイラス、ＥＳＰＲＩＴ −回転不変技術による信号パラメータの推定、音響、音声および信号処理、ＩＥＥＥ論文集、３７（７）：９８４―９９５、１９８９年７月

ＥＳＰＲＩＴ（［２６］）は、各アレイで時間―周波数ビンごとに２つの到来方向（ＤＯＡ）推定値を得るために、各アレイで別々に使用されることができる。ペアリングの不明瞭のため、これは、ソースの位置についての２つの考えられる解をもたらす。図５から分かるように、２つの考えられる解が（１，２）と（１’，２’）により与えられる。この不明瞭性を解決するために、以下の解決法を適用することができる。各ソースで発された信号は、推定されたソース位置の方向に向きを定められたビームフォーマを使用して、伝搬を補償するために適当な係数を適用する（例えば、波によって経験された減衰量の逆数を掛ける）ことによって推定される。これは、考えられる解の各々について各アレイで、ソースごとに実行されることができる。我々は、ソース（ｉ，ｊ）の各対のための推定エラーを定義することができる：

Ｅ_i,j＝｜Ｐ_i,1−Ｐ_i,2｜＋｜Ｐ_j,1−Ｐ_j,2｜、（１）

ここで、（ｉ，ｊ）∈｛（１，２），（１’，２’）｝（図５を参照）およびＰ_i,lが音源ｉのアレイｒによって参照された補償された信号電力を表す。エラーは、実音源の一対について最小である。一旦、ペアリング問題が解決されて、正しい到来方向（ＤＯＡ）推定値が計算されると、これらは、ＧＡＣストリームに、対応する圧力信号および拡散評価と共に、一まとめにされる。圧力信号および拡散評価は、１つの音源のためのパラメータ推定のためにすでに説明された同じ方法を使用して得られることができる。

図６ａは、一実施形態によるオーディオデータストリームに基づいて少なくとも１つのオーディオ出力信号を生成するための装置６００を示す。装置６００は、受信機６１０と合成モジュール６２０とを含む。受信機６１０は、音源のうちの少なくとも１つに関するオーディオデータの圧力値のうちの少なくとも１つ、オーディオデータの位置値のうちの少なくとも１つ、または、オーディオデータの拡散値のうちの少なくとも１つを修正することによって、受信されたオーディオデータストリームのオーディオデータを修正するための修正モジュール６３０を含む。

図６ｂは、一実施形態による１つ又は複数の音源に関連した音源データを含んでいるオーディオデータストリームを生成するための装置６６０を示す。オーディオデータストリームを生成するための装置は、決定器６７０、データストリーム生成器６８０を含み、さらに、音源のうちの少なくとも１つに関するオーディオデータの圧力値のうちの少なくとも１つ、オーディオデータの位置値のうちの少なくとも１つ、または、オーディオデータの拡散値のうちの少なくとも１つを修正することによって、データストリーム生成器によって生成されるオーディオデータストリームを修正するための修正モジュール６９０を含む。

図６ａの修正モジュール６１０が、受信機／合成側で用いられる一方で、図６ｂの修正モジュール６６０は、送信機／分析側で用いられる。

修正モジュール６１０、６６０によって実行されるオーディオデータストリームの修正は、音響シーンの修正とみなすこともできる。このように、修正モジュール６１０、６６０は、音響シーン操作モジュールとも呼ばれうる。

ＧＡＣストリームによって与えられた音場表現は、オーディオデータストリームの様々な種類の修正に、すなわち結果として、音響シーンの操作を可能にする。これに関連したいくつかの例は、以下の通りである。
１．音響シーンにおいて空間／ボリュームの任意のセクションを拡大すること（例えばそれを聴取者にとって広く見えるように点音源を拡張すること）；
２．音響シーンにおいて空間／ボリュームの選択されたセクションを空間／ボリュームの他の任意のセクションに変換すること（変換された空間／ボリュームは、例えば、新たな位置に移動することを必要とするソースを含むことができる）；
３．位置ベースのフィルタリング（音響シーンの選択された領域が強化されるかまたは部分的に／完全に抑制される）

以下において、オーディオデータストリーム、例えばＧＡＣストリームの層は、特定の時間―周波数ビンに関して、音源のうちの１つのすべてのオーディオデータを含むと仮定される。

図７は、一実施形態による修正モジュールを表す。図７の修正ユニットは、デマルチプレクサ４０１と、操作処理装置４２０と、マルチプレクサ４０５とを含む。

デマルチプレクサ４０１は、Ｍ層ＧＡＣストリームの異なる層を分離して、Ｍ個の単一層ＧＡＣストリームを形成するように構成される。さらに、操作処理装置４２０は、別々にＧＡＣストリームの各々に適用されるユニット４０２、４０３および４０４を含む。さらにまた、マルチプレクサ４０５は、操作された単一層ＧＡＣストリームから結果として生じるＭ層ＧＡＣストリームを形成するように構成される。

ＧＡＣストリームからの位置データおよび実音源（例えばトーカー）の位置についての情報に基づいて、エネルギーは、時間―周波数ビンごとに特定の実音源と関連することができる。圧力値Ｐは、各実音源（例えばトーカー）のラウドネスを修正するために、それに応じて重み付けされる。それは、事前情報または実音源（例えばトーカー）の位置の推定値を必要とする。

いくつかの実施形態において、実音源の位置についての情報が利用できる場合、ＧＡＣストリームから位置データに基づいて、エネルギーを時間―周波数ビンごとに特定の実音源と関連付けることができる。

オーディオデータストリーム、例えばＧＡＣストリームの操作は、図６ａの、すなわち受信機／合成側の少なくとも１つのオーディオ出力信号、および／または、図６ｂの、すなわち送信機／分析側のオーディオデータストリームを生成するための装置６００の修正モジュール６３０で生じうる。

例えば、オーディオデータストリーム、すなわち、ＧＡＣストリームは、送信の前に、または、送信の後で合成の前に、修正されることができる。

受信機／合成側の図６ａの修正モジュール６３０とは異なり、送信機／分析側の図６ｂの修正モジュール６９０は、入力１１１〜１１Ｎ（記録された信号）および１２１〜１２Ｎ（空間マイクロホンの相対位置および方位）からの追加情報を、この情報が送信機側で利用できるので、活用することができる。この情報を使用して、別の実施形態による修正装置が、実現されうる。そして、それは図８において表される。

図９は、システムの模式的概要を示すことによって実施形態を表す。ここで、ＧＡＣストリームは、送信機／分析側に生成される。ここで、任意選択で、ＧＡＣストリームは、送信機／分析側で修正モジュール１０２によって修正されることができる。ここで、ＧＡＣストリームは、任意選択で、修正モジュール１０３によって受信機／合成側で修正されることができ、そして、ＧＡＣストリームは、複数のオーディオ出力シグナル１９１、…、１９Ｌを生成するために使用される。

装置１０１の出力は、上述した音場表現であり、以下では、幾何ベースの空間オーディオ符号化（Ｇｅｏｍｅｔｒｙ−ｂａｓｅｄｓｐａｔｉａｌＡｕｄｉｏＣｏｄｉｎｇ）（ＧＡＣ）ストリームとして意味される。
［２０］ジョヴァンニ・デルガルト、オリバー・ティーレガルト、トビアス・ウェラーおよびＥ．Ａ．Ｐ．ハベッツ、分散型配置によって集められた幾何的情報を使用した仮想マイクロホン信号の生成、ハンズフリー・スピーチ・コミュニケーションとマイクロホン配置（ＨＳＣＭＡ’１１）の第３回ジョイントワークショップ、エジンバラ、英国、２０１１年５月
における提案と同様に、そして、構成可能な仮想位置で仮想マイクロホンのオーディオ出力信号を生成するための装置について説明されたように、複雑な音響シーンは、時間―周波数表現、例えば短時間フーリエ変換（ＳＴＦＴ）によって供給されるもの特定のスロットでアクティブである、音源、例えば、等方的点音源（ＩＰＬＳ）によってモデル化される。

ＧＡＣストリームは、操作装置とも呼ばれうる任意の修正モジュール１０２で更に処理されうる。修正モジュール１０２は、多くの応用を可能にする。ＧＡＣストリームは、送信されることができる、または、格納されることができる。ＧＡＣストリームのパラメトリック性質は、非常に効率的である。合成／受信機側では、もう１つの任意の修正モジュール（操作ユニット）１０３が用いられることができる。結果として生じるＧＡＣストリームは、スピーカ信号を生成する合成ユニット１０４に入る。その録音からの表現の独立を与えられて、再生側のエンドユーザは、潜在的に音響シーンを操作することができて、自由に音響シーンの範囲内のリスニング位置および方位を決定することができる。

オーディオデータストリーム、例えば、ＧＡＣストリームの修正／操作は、モジュール１０２での送信前又はその送信後で合成１０３前に、それに応じてＧＡＣストリームを修正することによって、図９の修正モジュール１０２および／または１０３で起こりうる。受信機／合成側の修正モジュール１０３と異なって、送信機／分析側の修正モジュール１０２は、入力１１１〜１１Ｎ（空間マイクロホンによって供給されるオーディオデータ）および１２１〜１２Ｎ（空間マイクロホンの相対位置および方位）から付加情報を、この情報が送信機側で利用できるように、実施することができる。図８は、この情報を使用する修正モジュールの別の実施形態を示す。

ＧＡＣストリームの操作のための種々の構想の例は、図７および図８に関して以下において説明される。等しい基準信号を有するユニットは、等しい機能を有する。

１．ボリューム拡張
そのシーンの特定のエネルギーが、ボリュームＶの範囲内に位置すると仮定する。ボリュームＶは、環境の所定の領域を示しうる。Θは、対応する音源、例えばＩＰＬＳがボリュームＶの範囲内に配置される時間―周波数ビン（ｋ，ｎ）のセットを意味する。

他のボリュームＶ’へのボリュームＶの拡張が望まれる場合、これは、（決定ユニット４０３において評価される）（ｋ，ｎ）∈ΘのときはいつでもＧＡＣストリームの位置データにランダムな項を加えることによって達成される。そして、置換Ｑ（ｋ，ｎ）＝［Ｘ（ｋ，ｎ），Ｙ（ｋ，ｎ），Ｚ（ｋ，ｎ）］^T（インデックスレイヤーは、説明を簡単にするためはずしている）。図７および図８のユニット４０４の出力４３１〜４３Ｍが、

Ｑ（ｋ，ｎ）＝［Ｘ（ｋ，ｎ）＋Φ_x（ｋ，ｎ）；Ｙ（ｋ，ｎ）＋Φ_y（ｋ，ｎ）Ｚ（ｋ，ｎ）＋Φ_z（ｋ，ｎ）］^T （２）

となる。ここで、Φｘ、ΦｙおよびΦｚが元のボリュームに関して新たなボリュームＶ’の幾何にその範囲が依存するランダム変数である。この構想は、例えば、音源を広く知覚させるために使用されることができる。この例において、元のボリュームＶは、無限小に小さい、すなわち、音源、例えばＩＰＬＳは、同じ点Ｑ（ｋ，ｎ）＝［Ｘ（ｋ，ｎ），Ｙ（ｋ，ｎ），Ｚ（ｋ，ｎ）］^T ｆｏｒａｌｌ（ｋ，ｎ）∈Θに定位される。この機構は、位置パラメータＱ（ｋ，ｎ）のディザリングの形としてみなされる。

一実施形態によれば、音源のそれぞれの位置値のそれぞれは、少なくとも２つの座標値を含み、座標値が、音源が環境の所定の領域内にあることを示すとき、修正モジュールは、座標値に少なくとも１つの乱数を加えることによって座標値を修正するように構成される。

２．ボリューム変換
ボリューム拡張に加えて、ＧＡＣストリームの位置データは、音場の中で空間／ボリュームのセクションを再配置するために修正されることができる。この場合も、操作されるデータは、定位されたエネルギーの空間座標を含む。

Ｖはまた、再配置されるボリュームを示し、Θは、エネルギーがボリュームＶの範囲内に定位されるすべての時間―周波数ビン（ｋ，ｎ）のセットを示す。さらに、ボリュームＶは、環境の所定の領域を示しうる。

ボリューム再配置は、ＧＡＣストリームを修正することによって達成されることができ、その結果、全ての時間―周波数ビン（ｋ，ｎ）∈Θについて、Ｑ（ｋ，ｎ）は、ユニット４０４の出力４３１〜４３Ｍのｆ（Ｑ（ｋ，ｎ））により再配置され、ここで、ｆは、実行されるボリューム操作を示している空間座標（Ｘ，Ｙ，Ｚ）の関数である。関数ｆは、単純な一次変換、例えば回転、平行移動または他のいかなる合成の非線形マッピングも示しうる。この技術は、例えば、Θが、音源がボリュームＶの範囲内に定位された時間―周波数ビンのセットに対応することを確実にすることによって、音響シーン内で一位置から他の位置に音源を動かすために、使用されることができる。その技術は、シーンミラーリング、シーンローテーション、シーン拡張および／または圧縮などの全体の音響シーンの様々な他の複雑な操作を可能にする。例えば、ボリュームＶへの適当な線形マッピングを適用することによって、ボリューム拡張の相補的効果、すなわち、ボリューム圧縮が達成されうる。これは、例えば、ｆ（Ｑ（ｋ，ｎ））∈Ｖに、（ｋ，ｎ）∈ΘのＱ（ｋ，ｎ）をマッピングすることによってなされうる。ここで、Ｖ’⊂Ｖであり、Ｖ’は、Ｖより著しく小さいボリュームを含む。

一実施形態によれば、座標値が、音源が環境の所定の領域内にあることを示すとき、修正モジュールは、座標値に確定関数を適用することによって座標値を修正するように構成される。

３．位置ベースのフィルタリング
幾何ベースのフィルタリング（または位置ベースのフィルタリング）の考えは、音響シーンから空間／ボリュームのセクションを増す又は完全に／部分的に取り除くための方法を提供する。しかし、ボリューム拡張および変換技術と比較すると、この場合、ＧＡＣストリームからの圧力データだけが、適当なスカラー重みを適用することによって修正される。

幾何ベースのフィルタリングにおいて、図８に示されるように、送信機側１０２と受信機側修正モジュール１０３との間で、前者が適当なフィルタ重みの計算を補助するために入力１１１〜１１Ｎおよび１２１〜１２Ｎを使用しうるという点で、区別されうる。その目的が空間／ボリュームＶの選択されたセクションから生じているエネルギーを抑制する／強化することであると仮定するならば、幾何ベースのフィルタリングは以下のように適用されることができる。すべての（ｋ，ｎ）∈Θについて、ＧＡＣストリームの複合圧力Ｐ（ｋ，ｎ）は４０２の出力でηＰ（ｋ，ｎ）に修正される。ここで、ηは、例えばユニット４０２によって計算された、実在の重み係数である。いくつかの実施形態では、モジュール４０２は、拡散にも依存して重み係数を計算するように構成されることがありえる。

幾何ベースのフィルタリングの構想は、信号の増強およびソース分離などの複数のアプリケーションで使用されることができる。アプリケーションのいくつかおよび必要な事前情報は、以下を含む。
●非残響。部屋のジオメトリーを知っていることによって、空間周波数フィルタは、多重伝搬によって生じることがありえる部屋の境界の外側で定位されるエネルギーを抑制するために使用されることができる。例えば会議室および車でのハンズフリーコミュニケーションに関して、このアプリケーションが関心がある。遅い残響を抑制するために、高い拡散の場合にはフィルタを閉じるのに十分であり、一方、初期の反射を抑制するために、位置に依存するフィルタがより効果的であることに留意されたい。この場合、すでに述べたように、部屋のジオメトリーは、事前に知られていることを必要とする。
●バックグラウンドノイズ抑制。同様の構想は、同様にバックグラウンドノイズを抑制するために使用されることができる。ソースが位置付けされうる潜在的領域（例えば会議室の参加者の椅子または車の座席）が知られている場合、これらの領域の外に位置付けされるエネルギーは、バックグラウンドノイズに関連しており、従って、空間周波数フィルタによって抑制される。このアプリケーションは、ソースの近似の位置の、ＧＡＣストリームの利用できるデータに基づいて、事前情報または推定値を必要とする。
●点状の干渉物の抑制。干渉物が空間において明らかに定位される場合、拡散であるよりはむしろ、位置ベースのフィルタリングは干渉物の位置で定位されるエネルギーを減らすために適用されることができる。それは、事前情報または干渉物の位置の推定値を必要とする。
●エコー制御。この場合、抑制される干渉物は、スピーカ信号である。この目的のために、点状の干渉物の場合と同様に、ちょうどスピーカ位置またはその近傍に定位されたエネルギーは、抑制される。それは、事前情報またはスピーカ位置の推定値を必要とする。 ●拡張された音声検出。幾何ベースのフィルタリング発明と関連した信号拡張技術は、従来のオーディオ活動検知システムにおいて、例えば車において、前処理ステップとして実行されることができる。非残響、またはノイズ抑制は、システム性能を改善するアドオンとして使用されることができる。
●監視。エネルギーだけを特定の領域から保存して、残りを抑制することは、監視アプリケーションの一般的に用いられる技術である。それは、幾何に関する事前情報および関心がある領域の位置を必要とする。
●ソース分離。複数の同時にアクティブであるソースを有する環境において、幾何ベースの空間フィルタリングは、ソース分離のために適用されることができる。ソースの位置に中央に置かれた適切に設計された空間周波数フィルタを位置付けることは、結果として他の同時にアクティブなソースの抑制／減弱になる。このイノベーションは、例えばＳＡＯＣのフロントエンドとして、使用されることができる。事前情報またはソース位置の推定値が必要である。
●位置に依存する自動利得調整（ＡＧＣ）。位置に依存する重みは、例えば遠隔会議アプリケーションの異なるトーカーのラウドネスを等しくするために、使用されることができる。

以下に、実施形態による合成モジュールは、説明される。一実施形態によれば、合成モジュールは、オーディオデータストリームのオーディオデータの少なくとも１つの圧力値に基づいて、そして、オーディオデータストリームのオーディオデータの少なくとも１つの位置値に基づいて、少なくとも１つのオーディオ出力信号を生成するように構成されうる。少なくとも１つの圧力値は、圧力信号（例えばオーディオ信号）の圧力値でありうる。

ＧＡＣ合成後の動作原理は、
［２７］国際公開ＷＯ２００４／０７７８８４号公報：タピオ・ロッキ、ユハ・メリマー、ビーレ・プルッキ、マルチチャンネルリスニングにおける自然のまたは修正された空間印象を再生するための方法、２００６年
で与えられる空間音響の知覚に関する仮定により動機を与えられる。

特に、正しく音響シーンの空間像を知覚するために必要な空間キュー（ｃｕｅ）は、時間―周波数ビンごとに非拡散音響の到来方向を正しく再現することによって得ることができる。従って、図１０ａに表される合成は、２つのステージに分けられる。

第１のステージは音響シーンの範囲内で聴取者の位置および方位を考慮し、Ｍ個のＩＰＬＳのうちどれが時間―周波数ビンごとに有力であるかを決定する。従って、その圧力信号Ｐ_dirおよび到来方向θは計算されることができる。残りのソースおよび拡散音は、第２の圧力信号Ｐ_diffに集められる。

第２のステージは、［２７］に説明されたＤｉｒＡＣ合成の後半と同一である。非拡散音響は、点音源を生み出すパニング機構で再現されるが、拡散音は非相関であった後にすべてのスピーカから再現される。

図１０ａは、ＧＡＣストリームの合成を示している実施形態による合成モジュールを表す。

第１のステージ合成ユニット５０１は、異なって再生されることを必要とする圧力信号Ｐ_dirおよびＰ_diffを計算する。実際に、Ｐ_dirが空間においてコヒーレントに再生されなければならない音響を含む一方で、Ｐ_diffは拡散音を含む。第１のステージ合成ユニット５０１の第３の出力は、所望のリスニング位置の視点からの到来方向（ＤＯＡ）θ５０５、すなわち到来方向情報である。到来方向（ＤＯＡ）が、２Ｄ空間である場合には、方位角として、または、３Ｄにおいては、方位角および高度角の対によって表されうることに留意されたい。同等に、到来方向（ＤＯＡ）で指し示された単位基準ベクトル使用することができる。到来方向（ＤＯＡ）は、（所望のリスニング位置に対して）どの方向から信号Ｐ_dirが来るかについて特定する。第１のステージ合成ユニット５０１は、ＧＡＣストリームを、入力、すなわち音場のパラメトリック表現とし、入力１４１によって特定された聴取者位置および方位に基づいて上述の信号を計算する。実際に、エンドユーザは、ＧＡＣストリームによって示された音響シーンの範囲内で、自由にリスニング位置および方位を決定することができる。

第２のステージ合成ユニット５０２は、スピーカセットアップ１３１についての情報に基づいて、Ｌ個のスピーカ信号５１１〜５１Ｌを計算する。ユニット５０２が［２７］で説明されたＤｉｒＡＣ合成の後半と同一であることを思い出してほしい。

図１０ｂは、一実施形態による第１の合成ステージユニットを表す。ブロックに供給された入力は、Ｍ層からなるＧＡＣストリームである。第１のステップにおいて、ユニット６０１は、Ｍ層を、各々１つの層のＭ並列ＧＡＣストリームに非多重化する。

ｉ番目のＧＡＣストリームは、圧力信号Ｐ_iと、拡散ψ_iと、位置ベクトルＱ_i＝［Ｘ_i，Ｙ_i，Ｚ_i］^Tとを含む。圧力信号Ｐ_iは、１つ又は複数の圧力値を含む。位置ベクトルは、位置値である。少なくとも１つのオーディオ出力信号は、ここで、これらの値に基づいて生成される。

直接および拡散音のための圧力信号Ｐ_dir,iおよびＰ_diff,iは、拡散ψ_iから得られた適当な係数を適用することによって、Ｐｉから得られる。直接音を含む圧力信号は、音源位置、例えばＩＰＬＳ位置から聴取者の位置への信号伝搬に対応する遅延を算出する、伝搬補償ブロック６０２に入る。これに加えて、そのブロックはまた、異なるマグニチュード減衰を補償するために必要な利得係数を算出する。他の実施形態において、異なるマグニチュード減衰だけが補償され、その一方で、遅延は補償されない。

図１０ｃは、第２の合成ステージユニット５０２を示す。すでに述べたように、このステージは、［２７］において提案された合成モジュールの後半と同一である。非拡散音Ｐ_dir５０３は、例えばパニングによって点音源として再生され、その利得は、到来方向（５０５）に基づいてブロック７０１で計算される。一方、拡散音（Ｐ_diff）は、Ｌ個の異なった非相関器（７１１〜７１Ｌ）を通過する。Ｌ個のスピーカ信号の各々について、直接および拡散音パスは、逆フィルタバンク（７０３）を通過する前に付加される。

図１１は、別の実施形態による合成モジュールを示す。図のすべての量は、時間―周波数領域において考慮される。（ｋ，ｎ）表記は、簡単にする理由で無視され、例えばＰ_i＝Ｐ_i（ｋ，ｎ）である。特に複雑な音響シーン、例えば同時にアクティブである多数のソースの場合に、再生についてのオーディオ品質を改善するために、合成モジュール、例えば合成モジュール１０４は、例えば、図１１に示すように実現されうる。最も優位なＩＰＬＳをコヒーレントに再生されるように選択する代わりに、図１１の合成は、別々にＭ層の各々の完全な合成を実行する。ｉ番目の層からのＬ個のスピーカ信号は、ブロック５０２の出力であって、１９１_i〜１９Ｌ_iにより示される。第１の合成ステージユニット５０１の出力のｈ番目のスピーカ信号１９ｈは、１９ｈ₁〜１９ｈ_Mの総和である。図１０ｂとは異なって、ブロック６０７におけるＤＯＡ推定ステップがＭ層の各々について実行されることを必要とする点に留意されたい。

図２６は、一実施形態による仮想マイクロホンデータストリームを生成するための装置９５０を示す。仮想マイクロホンデータストリームを生成するための装置９５０は、上記実施形態のうちの１つによる、例えば図１２による、仮想マイクロホンのオーディオ出力信号を生成するための装置９６０と、上記実施形態のうちの１つによる、例えば図２による、オーディオデータストリームを生成するための装置９７０を含む。ここで、オーディオデータストリームを生成するための装置９７０により生成されたオーディオデータストリームは、仮想マイクロホンデータストリームである。

仮想マイクロホンのオーディオ出力信号を生成するための例えば図２６の装置９６０は、図１２のような音事象位置推定器および情報計算モジュールを含む。音事象位置推定器は、環境における音源の位置を示している音源位置を推定するように構成される。ここで、音事象位置推定器は、その環境の第１の実在のマイクロホン位置にある第１の実在の空間マイクロホンによって供給される第１の方向情報に基づいて、および、その環境の第２の実在のマイクロホン位置にある第２の実在の空間マイクロホンによって供給される第２の方向情報に基づいて、音源位置を推定するように構成される。情報計算モジュールは、記録されたオーディオ入力信号に基づいて、第１の実在のマイクロホン位置に基づいて、そして、算出されたマイクロホン位置に基づいて、オーディオ出力信号を生成するように構成される。

仮想マイクロホンのオーディオ出力信号を生成するための装置９６０は、オーディオデータストリームを生成するための装置９７０にオーディオ出力信号を供給するように配置される。オーディオデータストリームを生成する装置９７０は、決定器、例えば図２に関して説明された決定器２１０を含む。オーディオデータストリームを生成する装置９７０の決定器は、仮想マイクロホンのオーディオ出力信号を生成する装置９６０によって供給されるオーディオ出力信号に基づいて、音源データを決定する。

図２７は、仮想マイクロホンデータストリームを生成する装置９５０、例えば図２６の装置９５０によって供給されるオーディオデータストリームとしての仮想マイクロホンデータストリームに基づいて、オーディオ出力信号を生成するように構成される、上記の実施形態のうちの１つ、例えば請求項１の装置によりオーディオデータストリームに基づいて少なくとも１つのオーディオ出力信号を生成するための装置９８０を示す。

仮想マイクロホンデータストリームを生成するための装置９８０は、生成された仮想マイクロホン信号を、オーディオデータストリームに基づいて少なくとも１つのオーディオ出力信号を生成する装置９８０に送る。仮想マイクロホンデータストリームがオーディオデータストリームであることに留意する必要がある。オーディオデータストリームに基づく少なくとも１つのオーディオ出力信号のための装置９８０は、例えば、図１の装置について述べたように、オーディオデータストリームとして、仮想マイクロホンデータストリームに基づいてオーディオ出力信号を生成する。

いくつかの態様が装置に関連して説明されたが、これらの態様はまた、対応する方法の記載を示すことは明らかである。ここで、ブロックまたはデバイスは方法ステップまたは方法ステップの機能に対応する。同様に、方法ステップに関連して説明された態様も、対応する装置または項目の記載または対応する装置の機能を示す。

本発明の分解された信号は、デジタル記憶媒体に格納されることができる、または、無線伝送媒体またはインターネットなどの有線伝送媒体などの伝送媒体に送られることができる。

特定の実現要求に応じて、本発明の実施形態は、ハードウェアにおいて、または、ソフトウェアにおいて実行されることができる。その実施態様は、各方法が実行されるように、プログラミング可能な計算機システムと協動する（または協動することができる）、そこに格納される電子的に読み込み可能な制御信号を有するデジタル記憶媒体、例えばフロッピー（登録商標）ディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはＦＬＡＳＨメモリを使用して実行されることができる。

本発明によるいくつかの実施形態は、本願明細書において説明された方法のうちの１つが実行されるように、プログラミング可能な計算機システムと協動することができる、電子的に読み込み可能な制御信号を有する非一時的データキャリアを含む。

通常、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実行されることができ、コンピュータプログラム製品がコンピュータ上で動作するときに、そのプログラムコードは、本方法のうちの１つを実行するために実施される。プログラムコードは、例えば機械読み取り可能なキャリアに格納されうる。

他の実施形態は、機械読み取り可読キャリアに格納された、本願明細書において説明された方法のうちの１つを実行するためのコンピュータプログラムを含む。

従って、換言すれば、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で動作するときに、本願明細書において説明された方法のうちの１つを実行するためのプログラムコードを有するコンピュータプログラムである。

従って、本発明の方法の更なる実施形態は、その上に記録された、本願明細書において説明された方法のうちの１つを実行するためのコンピュータプログラムを含んでいるデータキャリア（またはデジタル記憶媒体またはコンピュータ可読媒体）である。

従って、本発明の方法の更なる実施形態は、本願明細書において説明された方法のうちの１つを実行するためのコンピュータプログラムを示しているデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して転送されるように構成されることができる。

更なる実施形態は、本願明細書において説明された方法のうちの１つを実行するために構成された又は適合された処理手段、例えばコンピュータまたはプログラム可能な論理回路を含む。

更なる実施形態は、本願明細書において説明された方法のうちの１つを実行するためのコンピュータプログラムをそこにインストールされているコンピュータを含む。

いくつかの実施形態において、プログラム可能な論理回路（例えば論理プログラミング可能デバイス）は、本願明細書において説明された方法の機能の一部又は全部を実行するために使用されることができる。いくつかの実施形態において、論理プログラミング可能デバイスは、本願明細書において説明された方法のうちの１つを実行するために、マイクロプロセッサと協動することができる。通常、本方法は、いかなるハードウェア装置によっても好ましくは実行される。

上記実施形態は、本発明の原理のために、単に図示しているだけである。本願明細書において説明された本装置および詳細の修正変更が、他の当業者にとって明らかであるものと理解される。従って、間近に迫った特許請求の範囲のみによって限定され、本願明細書における実施形態の記載および説明として示された具体的な詳細によっては限定されないという意図である。

「文献」
［１］マイケルＡ．ガーゾン．オーディオ多重放送およびビデオのアンビソニックス．Ｊ．Ａｕｄｉｏ．Ｅｎｇ．Ｓｏｃ，３３（１１）：８５９−８７１，１９８５．
［２］Ｖ．プルッキ、「空間再生およびステレオアップミキシングにおける方向オーディオ符号化」、第２８回ＡＥＳ国際コンフェレンスの予稿集、ｐｐ．２５１―２５８、Ｐｉｔｅa、スウェーデン、２００６年６月３０日〜７月２日
［３］Ｖ．プルッキ、「方向オーディオ符号化を用いた空間再生」、Ｊ．Ａｕｄｉｏ．Ｅｎｇ．Ｓｏｃ、ｖｏｌ５５、ｎｏ．６、ｐｐ．５０３―５１６、２００７年６月
［４］Ｃ．ファーラー、「空間オーディオ符号器に関するマイクロホンフロントエンド」、第１２５回ＡＥＳ国際コンベンションの予稿集、サンフランシスコ、２００８年１０月
［５］Ｍ．カリンガー、Ｈ．オクセンフェルト、Ｇ．デルガルド、Ｆ．キュッヒ、Ｄ．マーネ、Ｒ．シュルツ―アムリング、およびＯ．ティエルガルト、「方向オーディオ符号化のための空間フィルタリング手法」、ＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ１２６、ミュンヘン、ドイツ、２００９年５月
［６］Ｒ．シュルツ―アムリング、Ｆ．キュッヒ、Ｏ．ティエルガルト、およびＭ．カリンガー、「パラメトリック音場表現に基づく音響ズーミング」、ＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ１２８、ロンドン、英国、２０１０年５月
［７］Ｊ．ヘーレ、Ｃ．ファルヒ、Ｄ．マーネ、Ｇ．デルガルト、Ｍ．カリンガー、およびＯ．ティエルガルト、「空間オーディオオブジェクト符号化および方向オーディオ符号化技術を組み合わせたインタラクティブ遠隔会議」、ＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ１２８、ロンドン英国、２０１０年５月
［８］Ｅ．Ｇ．ウィリアムス、フーリエ音響学：音響放射および近場音響ホログラフィー、アカデミック・プレス、１９９９年
［９］Ａ．クンツおよびＲ．ラベンシュタイン、「全周性測定からの波動場の外挿の限界」、１５ｔｈＥｕｒｏｐｅａｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＣｏｎｆｅｒｅｎｃｅ（ＥＵＳＩＰＣＯ２００７）、２００７
［１０］Ａ・ワルターおよびＣ．フォーラ、「ｂ―フォーマット記録を使用した間隔をおいたマイクロホンアレイの線形シミュレーション」、ＡｕｄｉｏＥｎｇｉｎｅｅｒｉｎｇＳｏｃｉｅｔｙＣｏｎｖｅｎｔｉｏｎ１２８、ロンドン英国、２０１０年５月
［１１］米国６１／２８７，５９６公報：第２のパラメトリック空間オーディオ信号に第１のパラメトリック空間オーディオ信号を変換するための装置及び方法
［１２］Ｓ．リカードおよびＺ．ユルマズ、「音声の近似Ｗ−ディスジョイント直交性について」、Ａｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ、２００２．ＩＣＡＳＳＰ２００２年ＩＥＥＥ国際コンフェレンス、２００２年４月、１巻
［１３］Ｒ．ロイ、Ａ．ポールラージおよびＴ．カイラス、「サブスペース回転による到来方向推定 ― ＥＳＰＲＩＴ」、Ａｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ）、ＩＥＥＥ国際コンフェレンス、スタンフォード、ＣＡ、ＵＳＡ、１９８６年４月
［１４］Ｒ．シュミット、「複数のエミッタ位置および信号パラメータ推定」、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＡｎｔｅｎｎａｓａｎｄＰｒｏｐａｇａｔｉｏｎ、３４巻、ｎｏ．３、ページ２７６〜２８０、１９８６年
［１５］Ｊ．マイケル・スティール、「平面のランダムサンプルの最適三角測量」、確率の紀要、１０巻、Ｎｏ．３（１９８２年８月）、ページ５４８〜５５３
［１６］Ｆ．Ｊ．ファヒー、音の強さ、エセックス：エルゼビア・サイエンス・パブリッシャーズ社、１９８９年
［１７］Ｒ．シュルツ―アムリング、Ｆ．キュッヒ、Ｍ．カリンガー、Ｇ．デルガルト、Ｔ．アホネンおよびＶ．プルッキ、「分析のための平面マイクロホン・アレイ処理および方向オーディオ符号化を使用した空間オーディオの再生」、オーディオ技術学会規則１２４、アムステルダム、オランダ、２００８年５月
［１８］Ｍ．カリンガー、Ｆ．キュッヒ、Ｒ．シュルツ―アムリング、Ｇ．デルガルト、Ｔ．アホネンおよびＶ．プルッキ、「方向オーディオ符号化のためのマイクロホンアレイを用いた拡張された方向推定」、ハンズフリーオーディオ通信およびマイクロホンアレイ、２００８．ＨＳＣＭＡ２００８、２００８年５月、ページ４５〜４８
［１９］Ｒ．Ｋ．ファーネス、「アンビソニック ― 概要 ― 」、ＡＥＳ第８回国際コンフェレンス、１９９０年４月、ページ１８１〜１８９
［２０］ジョヴァンニ・デルガルト、オリバー・ティーレガルト、トビアス・ウェラーおよびＥ．Ａ．Ｐ．ハベッツ、分散型配置によって集められた幾何的情報を使用した仮想マイクロホン信号の生成、ハンズフリー・スピーチ・コミュニケーションとマイクロホン配置（ＨＳＣＭＡ’１１）の第３回ジョイントワークショップ、エジンバラ、英国、２０１１年５月
［２１］Ｊ．ヘーレ、Ｋ．クジュルリング、Ｊ．ブリーバールト、Ｃ．ファーラー、Ｓ．ディッシュ、Ｈ．パルンハーゲン、Ｊ．コッペンス、Ｊ．ヒルペルト、Ｊ．レーデン、Ｗ．オーメン、Ｋ．リンツマイヤー、Ｋ．Ｓ．チョン、「ＭＰＥＧサラウンド ―効率的かつ互換性を持つマルチチャンネルオーディオ符号化のためのＩＳＯ／ＭＰＥＧ基準」、第１２２回ＡＥＳコンベンション、ウィーン、オーストリア、２００７年、プレプリント７０４８
［２２］ビーレ・プルッキ、方向オーディオ符号化を用いた空間再生、Ｊ．ＡｕｄｉｏＥｎｇ．Ｓｏｃ、５５（６）：５０３―５１６、２００７年６月
［２３］Ｃ．ファーラー、空間オーディオコーダのためのマイクロホン・フロントエンド、第１２５回ＡＥＳ国際コンベンションのプロシーディング、サンフランシスコ、２００８年１０月
［２４］エマニュエル・ガロおよびニコラス・ツィンゴス、フィールドレコーディングからの構造聴覚シーンの抽出とリレンダリング、ＡＥＳ第３０回国際コンフェレンス、２００７
［２５］イェルーン・ブリーバールト、ジョナス・エングデガルト、コーネリア・ファルヒ、オリバー・ヘルムート、ヨハネス・ヒルペルト、アンドレアス・ホエルツァー、イェルーン・コッペンス、ワーナー・オーメン、バーバラ・レッシュ、エリク・シュイヤース、レオニード・テレンティーブ、空間オーディオオブジェクト符号化（ｓａｏｃ）−パラメトリック・オブジェクトベースのオーディオ符号化に関する最新のＭＰＥＧ標準、ＡＥＳコンベンション１２４回、２００８年５月
［２６］Ｒ．ロイおよびＴ．カイラス、ＥＳＰＲＩＴ −回転不変技術による信号パラメータの推定、音響、音声および信号処理、ＩＥＥＥ論文集、３７（７）：９８４―９９５、１９８９年７月
［２７］国際公開ＷＯ２００４／０７７８８４号公報：タピオ・ロッキ、ユハ・メリマー、ビーレ・プルッキ、マルチチャンネルリスニングにおける自然のまたは修正された空間印象を再生するための方法、２００６年
［２８］スヴェイン・ベルグ、空間オーディオ信号を変換するための装置および方法、米特許出願、出願番号１０／５４７，１５１

Claims

１つ又は複数の音源に関連したオーディオデータを含むオーディオデータストリームに基づいて、少なくとも１つのオーディオ出力信号を生成するための装置（１５０）であって、前記装置（１５０）は、
前記オーディオデータを含む前記オーディオデータストリームを受信するための受信機（１６０）であって、前記オーディオデータは、前記１つ又は複数の音源のそれぞれについて、１つ又は複数の圧力値を含み、前記オーディオデータは、更に、前記１つ又は複数の音源のそれぞれについて、前記音源のうちの１つの位置を示している１つ又は複数の位置値を含み、前記１つ又は複数の位置値のそれぞれは、少なくとも２つの座標値を含む、前記受信機と、
前記オーディオデータストリームの前記オーディオデータの前記１つ又は複数の圧力値のうちの少なくとも１つに基づき、かつ、前記オーディオデータストリームの前記オーディオデータの前記１つ又は複数の位置値のうちの少なくとも１つに基づいて、前記少なくとも１つのオーディオ出力信号を生成するための合成モジュール（１７０）とを含むことを特徴とする、前記装置（１５０）。
前記オーディオデータは、複数の時間―周波数ビンのうちの１つの時間―周波数ビンについて定められることを特徴とする、請求項１に記載の装置（１５０）。
前記受信機（１６０；６１０）は、前記オーディオデータを含む前記オーディオデータストリームを受信するように構成され、前記オーディオデータは、前記音源のそれぞれについて１つ又は複数の拡散値を更に含み、
前記合成モジュール（１７０；６２０）は、前記オーディオデータストリームの前記オーディオデータの前記１つ又は複数の拡散値のうちの少なくとも１つに基づいて、前記少なくとも１つのオーディオ出力信号を生成するように構成されることを特徴とする、請求項１又は請求項２に記載の装置（１５０）。
前記受信機（１６０；６１０）は、前記オーディオデータの前記１つ又は複数の圧力値のうちの少なくとも１つを修正することによって、前記オーディオデータの前記１つ又は複数の位置値のうちの少なくとも１つを修正することによって、または、前記オーディオデータの前記１つ又は複数の拡散値のうちの少なくとも１つを修正することによって、前記受信されたオーディオデータストリームの前記オーディオデータを修正するための修正モジュール（６３０）を更に含み、
前記合成モジュール（１７０；６２０）は、修正された前記少なくとも１つの圧力値に基づいて、修正された前記少なくとも１つの位置値に基づいて、または、修正された前記少なくとも１つの拡散値に基づいて、前記少なくとも１つのオーディオ出力信号を生成するように構成されることを特徴とする、請求項３に記載の装置（１５０）。
前記音源のそれぞれの前記位置値のそれぞれは、少なくとも２つの座標値を含み、前記修正モジュール（６３０）は、前記座標値が、音源が環境の予め定められた領域の範囲内の位置にあることを示すとき、前記座標値に少なくとも１つの乱数を加えることによって前記座標値を修正するように構成されることを特徴とする、請求項４に記載の装置（１５０）。
前記音源のそれぞれの前記位置値のそれぞれは、少なくとも２つの座標値を含み、前記修正モジュール（６３０）は、前記座標値が、音源が環境の予め定められた領域の範囲内の位置にあることを示すとき、前記座標値に確定関数を適用することによって前記座標値を修正するように構成されることを特徴とする、請求項４に記載の装置（１５０）。
前記音源のそれぞれの前記位置値のそれぞれは、少なくとも２つの座標値を含み、前記修正モジュール（６３０）は、前記座標値が、音源が環境の予め定められた領域の範囲内の位置にあることを示すとき、前記座標値と同じ音源に関連して、前記オーディオデータの前記１つ又は複数の圧力値のうちの選択された圧力値を修正するように構成されることを特徴とする、請求項４に記載の装置（１５０）。
前記修正モジュール（６３０）は、前記座標値が、前記音源が環境の予め定められた領域の範囲内の位置にあることを示すとき、前記１つ又は複数の拡散値のうちの１つに基づいて、前記オーディオデータの前記１つ又は複数の圧力値のうちの前記選択された圧力値を修正するように構成されることを特徴とする、請求項７に記載の装置（１５０）。
前記合成モジュールは、
前記オーディオデータストリームの前記オーディオデータの前記１つ又は複数の圧力値のうちの少なくとも１つに基づいて、前記オーディオデータストリームの前記オーディオデータの前記１つ又は複数の位置値のうちの少なくとも１つに基づいて、および、前記オーディオデータストリームの前記オーディオデータの前記１つ又は複数の拡散値のうちの少なくとも１つに基づいて、直接音を含む直接圧力信号、拡散音を含む拡散圧力信号および到来方向情報を生成するための第１のステージ合成ユニット（５０１）と、
前記直接圧力信号、前記拡散圧力信号および前記到来方向情報に基づいて、前記少なくとも１つのオーディオ出力信号を生成するための第２のステージ合成ユニット（５０２）とを含むことを特徴とする、請求項２〜請求項８のいずれかに記載の装置（１５０）。
１つ又は複数の音源に関連した音源データを含むオーディオデータストリームを生成するための装置（２００）であって、オーディオデータストリームを生成するための前記装置は、
少なくとも１つのマイクロホンによって記録された少なくとも１つのオーディオ入力信号に基づき、かつ、少なくとも２つの空間マイクロホンによって供給されたオーディオ補助情報に基づいて、前記音源データを決定するための決定器（２１０；６７０）と、
前記オーディオデータストリームが前記音源データを含むように、前記オーディオデータストリームを生成するためのデータストリーム生成器（２２０；６８０）とを含み、
前記音源データは、前記音源のそれぞれについて１つ又は複数の圧力値を含み、前記音源データは、前記音源のそれぞれについて音源位置を示している１つ又は複数の位置値を更に含むことを特徴とする、前記装置。
前記音源データは、複数の時間―周波数ビンのうちの１つの時間―周波数ビンについて定められることを特徴とする、請求項１０に記載の装置（２００）。
前記決定器（２１０；６７０）は、少なくとも１つの空間マイクロホンによって拡散情報に基づいて前記音源データを決定するように構成され、
前記データストリーム生成器（２２０；６８０）は、前記オーディオデータストリームが前記音源データを含むように、前記オーディオデータストリームを生成するように構成され、
前記音源データは、前記音源のそれぞれについて１つ又は複数の拡散値を更に含むことを特徴とする、請求項１０又は請求項１１に記載の装置（２００）。
前記装置（２００）は、前記音源のうちの少なくとも１つに関する前記オーディオデータの前記圧力値のうちの少なくとも１つ、前記オーディオデータの前記位置値のうちの少なくとも１つ、または、前記オーディオデータの前記拡散値のうちの少なくとも１つを修正することによって、前記データストリーム生成器によって生成された前記オーディオデータストリームを修正するための修正モジュール（６９０）を含むことを特徴とする、請求項１２に記載の装置（２００）。
前記音源のそれぞれの前記位置値のそれぞれは、少なくとも２つの座標値を含み、前記修正モジュール（６９０）は、前記座標値が、音源が環境の予め定められた領域の範囲内の位置にあることを示すとき、前記座標値に少なくとも１つの乱数を加えることによって、または、前記座標値に確定関数を適用することによって、前記座標値を修正するように構成されることを特徴とする、請求項１３に記載の装置（２００）。
前記音源のそれぞれの前記位置値のそれぞれは、少なくとも２つの座標値を含み、前記修正モジュール（６９０）は、前記座標値が、音源が環境の予め定められた領域の範囲内の位置にあることを示すとき、前記座標値と同じ音源に関連して、前記オーディオデータの前記１つ又は複数の圧力値のうちの選択された圧力値を修正するように構成されることを特徴とする、請求項１３に記載の装置（２００）。
前記修正モジュール（６９０）は、前記少なくとも１つのオーディオ入力信号のうちの少なくとも１つに基づいて、前記１つ又は複数の圧力値のうちの前記選択された圧力値を修正するように構成されることを特徴とする、請求項１５に記載の装置（２００）。
仮想マイクロホンデータストリームを生成するための装置（９５０）であって、
仮想マイクロホンのオーディオ出力信号を生成するための装置（９６０）と、
前記仮想マイクロホンデータストリームとして、オーディオデータストリームを生成するための請求項１０〜請求項１３のいずれかに記載の装置（９７０）とを含み、
仮想マイクロホンのオーディオ出力信号を生成するための装置（９６０）は、
前記環境の音源の位置を示している音源位置を推定するための音事象位置推定器（１１０）であって、前記音事象位置推定器（１１０）は、前記環境の第１の実在のマイクロホン位置にある第１の実在の空間マイクロホンによって供給された第１の方向情報に基づき、かつ、前記環境の第２の実在のマイクロホン位置にある第２の実在の空間マイクロホンによって供給された第２の方向情報に基づいて、前記音源位置を推定するように構成される、前記音事象位置推定器（１１０）と、
記録されたオーディオ入力信号に基づいて、前記第１の実在のマイクロホン位置に基づいて、および、前記計算されたマイクロホン位置に基づいて、前記オーディオ出力信号を生成するための情報計算モジュール（１２０）とを含み、
仮想マイクロホンのオーディオ出力信号を生成するための装置（９６０）は、オーディオデータストリームを生成するための前記装置（９７０）に前記オーディオ出力信号を供給するように配置されること、および、
オーディオデータストリームを生成するための前記装置（９７０）の前記決定器は、仮想マイクロホンのオーディオ出力信号を生成するための前記装置（９６０）によって供給された前記オーディオ出力信号に基づいて、前記音源データを決定することを特徴とする、前記装置（９５０）。
請求項１７に記載の仮想マイクロホンデータストリームを生成するための装置（９５０）によって供給された前記オーディオデータストリームとして、仮想マイクロホンデータストリームに基づいて、前記オーディオ出力信号を生成するように構成される、請求項１〜請求項９のいずれかに記載の装置（９８０）。
請求項１〜請求項９のいずれか又は請求項１８に記載の装置と、
請求項１０〜請求項１６のいずれかに記載の装置とを含む、システム。
１つ又は複数の音源に関連したオーディオデータを含むオーディオデータストリームであって、前記オーディオデータは、前記１つ又は複数の音源のそれぞれについて、１つ又は複数の圧力値を含むこと、および、
前記オーディオデータは、前記１つ又は複数の音源のそれぞれについて、音源位置を示している１つ又は複数の位置値を含み、前記１つ又は複数の位置値のそれぞれは、少なくとも２つの座標値を含むことを特徴とする、オーディオデータストリーム。
前記オーディオデータは、複数の時間―周波数ビンのうちの１つの時間―周波数ビンについて定められることを特徴とする、請求項２０に記載のオーディオデータストリーム。
前記オーディオデータは、前記１つ又は複数の音源のそれぞれについて１つ又は複数の拡散値を含むことを特徴とする、請求項２０又は請求項２１に記載のオーディオデータストリーム。
１つ又は複数の音源に関連したオーディオデータを含むオーディオデータストリームに基づいて、少なくとも１つのオーディオ出力信号を生成するための方法であって、
前記オーディオデータストリームを受信するステップであって、前記オーディオデータストリームは、前記音源のそれぞれについて、１つ又は複数の圧力値を含み、前記オーディオデータストリームは、前記音源のそれぞれについて音源位置を示している１つ又は複数の位置値を含む、前記ステップと、
前記オーディオストリームから、得られる圧力値を得るために前記圧力値の少なくともいくつか、および、得られる位置値を得るために前記位置の少なくともいくつかを決定するステップと、
前記得られる圧力値の少なくともいくつかに基づき、かつ、前記得られた位置値の少なくともいくつかに基づいて、前記少なくとも１つのオーディオ出力信号を決定するステップとを含む、方法。
１つ又は複数の音源に関連したオーディオデータを含むオーディオデータストリームを生成するための方法であって、
前記音源のそれぞれについて、少なくとも１つの圧力値を含むオーディオデータを受信するステップであって、前記オーディオデータは、前記音源のそれぞれについて、音源位置を示している１つ又は複数の位置値を更に含む、前記ステップと、
前記オーディオデータストリームが、前記音源のそれぞれについて、１つ又は複数の圧力値を含み、かつ、前記オーディオデータストリームが、前記音源のそれぞれについて、音源位置を示している１つ又は複数の位置値を更に含むように、前記オーディオデータストリームを生成するステップとを含む、前記方法。
コンピュータまたは処理装置で実行されるときに、請求項２３又は請求項２４の方法を実行するためのコンピュータプログラム。