JP2014501945A - 幾何ベースの空間オーディオ符号化のための装置および方法 - Google Patents

幾何ベースの空間オーディオ符号化のための装置および方法 Download PDF

Info

Publication number
JP2014501945A
JP2014501945A JP2013541377A JP2013541377A JP2014501945A JP 2014501945 A JP2014501945 A JP 2014501945A JP 2013541377 A JP2013541377 A JP 2013541377A JP 2013541377 A JP2013541377 A JP 2013541377A JP 2014501945 A JP2014501945 A JP 2014501945A
Authority
JP
Japan
Prior art keywords
audio data
data stream
audio
values
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013541377A
Other languages
English (en)
Other versions
JP5878549B2 (ja
Inventor
ガルド ジョヴァンニ デル
オリヴァー ティールガルト
ユールゲン ヘレ
ファビアン キュッヒ
エマヌエル ハベツ
アレクサンドラ クラチウン
アヒム クンツ
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
フリードリヒ−アレクサンダー−ウニベルジテート・エアランゲン−ニュルンベルク
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ, フリードリヒ−アレクサンダー−ウニベルジテート・エアランゲン−ニュルンベルク filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2014501945A publication Critical patent/JP2014501945A/ja
Application granted granted Critical
Publication of JP5878549B2 publication Critical patent/JP5878549B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/326Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/21Direction finding using differential microphone array [DMA]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

1つ又は複数の音源に関連したオーディオデータを含むオーディオデータストリームに基づいて、少なくとも1つのオーディオ出力信号を生成するための装置が、提供される。本装置は、オーディオデータを含むオーディオデータストリームを受信するための受信機を含む。オーディオデータは、音源のそれぞれについて1つ又は複数の圧力値を含む。さらにまた、オーディオデータは、音源のそれぞれについて音源のうちの1つの位置を示している1つ又は複数の位置値を含む。さらに、本装置は、オーディオデータストリームのオーディオデータの1つ又は複数の圧力値のうちの少なくとも1つに基づいて、そして、オーディオデータストリームのオーディオデータの1つ又は複数の位置値のうちの少なくとも1つに基づいて、少なくとも1つのオーディオ出力信号を生成するための合成モジュールを含む。
【選択図】図1

Description

本発明は、オーディオ処理に、特に、幾何ベースの空間オーディオ符号化のための装置および方法に関する。
オーディオ処理や、特に、空間オーディオ符号化は、ますます重要になってきている。従来の空間音響録音は、再生側で、音像が録音位置にあるかのように聴取者が音像を知覚するように、音場を取り込むことを目的とする。チャンネル表現、オブジェクト表現、またはパラメトリック表現に基づきうる空間音響の録音および再生技術への種々のアプローチが現状技術から知られている。
チャンネルベースの表現は、周知のセットアップ、例えば5.1サラウンドサウンドセットアップで配置されたN個のスピーカによって再生されることを意味したN個の別々のオーディオ信号によって、音響シーンを示す。空間音響録音についての方法は、通常、例えばAB立体音響においては、間隔を置いた全指向性マイクロホン、または、例えば強度立体音響においては、一致した指向性のマイクロホンを採用する。あるいは、より精巧なマイクロホン(例えばB―フォーマット・マイクロホン)は、例えば、アンビソニックス(Ambisonics)において使用されうる。参照:
[1]マイケル A.ガーゾン.オーディオ多重放送およびビデオのアンビソニックス.J.Audio.Eng.Soc,33(11):859−871,1985.
周知のセットアップのための所望のスピーカ信号は、記録されたマイクロホン信号から直接に引き出されて、それから別々に送られるか又は格納される。より効率的な表現は、例えば5.1のためのMPEGサラウンドにおける、場合によっては増加させた効率のために異なるチャンネルの情報を共同で符号化するオーディオ符号化を離散信号に適用することによって得られる、参照:
[21]J.ヘーレ、K.クジュルリング、J.ブリーバールト、C.ファーラー、S.ディッシュ、H.パルンハーゲン、J.コッペンス、J.ヒルペルト、J.レーデン、W.オーメン、K.リンツマイヤー、K.S.チョン、「MPEGサラウンド ―効率的かつ互換性を持つマルチチャンネルオーディオ符号化のためのISO/MPEG基準」、第122回AESコンベンション、ウィーン、オーストリア、2007年、プレプリント7048
これらの技術の大きな欠点は、一旦スピーカ信号が割り出された場合、音響シーンが修正されることができないことである。
例えば、オブジェクトベースの表現は、空間オーディオオブジェクト符号化(Spatial Audio Object Coding(SAOC))において使用される。参照、
[25]イェルーン・ブリーバールト、ジョナス・エングデガルト、コーネリア・ファルヒ、オリバー・ヘルムート、ヨハネス・ヒルペルト、アンドレアス・ホエルツァー、イェルーン・コッペンス、ワーナー・オーメン、バーバラ・レッシュ、エリク・シュイヤース、レオニード・テレンティーブ、空間オーディオオブジェクト符号化(saoc)−パラメトリック・オブジェクトベースのオーディオ符号化に関する最新のMPEG標準、AESコンベンション124回、2008年5月
オブジェクトベースの表現は、N個の別々のオーディオオブジェクトを有する音響シーンを示す。この表現は、再生側で高い柔軟性を与える。というのも、音響シーンは、例えば各オブジェクトの位置およびラウドネスを変えることによって操作されることができるからである。この表現は、例えばマルチトラック記録からすぐに利用可能である一方で、2、3のマイクロホンによって記録される複雑な音響シーンから得られることは非常に困難である(例えば[21]参照)。実際に、トーカー(または他の音を発するオブジェクト)は、まずローカライズされて、次に混合から抽出される必要があるが、それは、アーチファクトを生じさせうる。
パラメトリック表現は、空間音響を記述している空間補助情報と共に、1つ又は複数のオーディオダウンミックス信号を決定するために、しばしば空間マイクロホンを使用する。1つの例としては、
[22]ビーレ・プルッキ、方向オーディオ符号化を用いた空間再生、J.Audio Eng.Soc、55(6):503―516、2007年6月
で述べられているように、方向オーディオ符号化(Directional Audio Coding(DirAC))がある。
「空間マイクロホン(spatial microphone)」という用語は、音の到来の方向を取り出すことができる空間音響の捕捉のための装置をいう(例えば指向性マイクロホン、マイクロホンアレイなどの組み合わせ)。
「非空間マイクロホン(non−spatial microphone)」という用語は、例えば1つの全方向または指向性マイクロホンなどの、音響の到来方向を取り出すように構成されていない装置をいう。
他の例は、
[23]C.ファーラー、空間オーディオコーダのためのマイクロホン・フロントエンド、第125回AES国際コンベンションのプロシーディング、サンフランシスコ、2008年10月
で提示される。
DirACにおいて、空間キュー(cue)情報は、音響の到来方向(DOA)および時間―周波数領域において計算される音場の拡散を含む。音響再生のために、オーディオ再生信号は、パラメトリック記述に基づいて抽出されることができる。これらの技術は、再生側に大きな柔軟性を提供する。というのも、任意のスピーカセットアップを使用することができ、それがダウンミックスモノラルオーディオ信号および補助情報を含むように、その表現が特に柔軟でコンパクトであるからであり、そして、それが音響シーンに関して簡単な修正、例えば音響ズーミング、方向のフィルタリング、シーンの組合せ(merging)などを可能にするからである。
しかしながら、これらの技術は、記録される空間像が使用される空間マイクロホンと常に関連しているという点で、まだ制限される。従って、音響視点を変更することはできず、そして、音響シーンの範囲内のリスニング位置を変更することはできない。
仮想マイクロホンアプローチは、
[20]ジョヴァンニ・デルガルト、オリバー・ティーレガルト、トビアス・ウェラーおよびE.A.P.ハベッツ、分散型配置によって集められた幾何的情報を使用した仮想マイクロホン信号の生成、ハンズフリー・スピーチ・コミュニケーションとマイクロホン配置(HSCMA’11)の第3回ジョイントワークショップ、エジンバラ、英国、2011年5月
で提供される。それは、その環境において任意で仮想的に位置づけられた任意の空間マイクロホンの出力信号(すなわち任意の位置および方向)を算出することを可能にする。仮想マイクロホン(virtual microphone)(VM)アプローチを特徴づけている柔軟性によって、音響シーンが後処理ステップで任意で仮想的に捕捉されることを可能にするが、音響シーンを効率的に、送信する、および/または、格納する、および/または、修正するために、使用されることができる音場表現は、利用可能ではない。さらに、時間―周波数ビンごとに1つのソースだけがアクティブであると仮定され、したがって、2つ以上のソースが、同じ時間―周波数ビンにおいてアクティブである場合、それは音響シーンを正しく示すことができない。さらに、仮想マイクロホン(VM)が受信機側で適用される場合、すべてのマイクロホン信号は、そのチャネルを通じて送られる必要があり、それは、その表現を非効率にするが、一方、VMが送信器側で適用される場合、音響シーンを、更に操作することができず、そのモデルは、柔軟性を失って、特定のスピーカセットアップに制限されることになる。さらに、パラメトリック情報に基づく音響シーンの操作を考慮しない。
[24]エマニュエル・ガロおよびニコラス・ツィンゴス、フィールドレコーディングからの構造聴覚シーンの抽出とリレンダリング、AES第30回国際コンフェレンス、2007
では、音源位置推定は、分散マイクロホンによって測定された到来の2つ1組になって起こる時間差に基づく。さらにまた、受信機は、その録音に依存し、合成(例えばスピーカ信号の生成)のためのすべてのマイクロホン信号を必要とする。
[28]スヴェイン・ベルグ、空間オーディオ信号を変換するための装置および方法、米特許出願、出願番号10/547,151
の中で提示された方法は、DirACと同様に、パラメータとしての到来方向を使用し、したがって、その表現を音響シーンの特定の視点に制限する。さらに、それは音響シーン表現を送信する/格納するための可能性を提案しない。というのも、分析および合成は、両方とも通信システムの同じ側で適用されることを必要とするからである。
国際公開第2004/077884号
マイケル A.ガーゾン.オーディオ多重放送およびビデオのアンビソニックス.J.Audio.Eng.Soc,33(11):859−871,1985. V.プルッキ、「空間再生およびステレオアップミキシングにおける方向オーディオ符号化」、第28回AES国際コンフェレンスの予稿集、pp.251―258、Pitea、スウェーデン、2006年6月30日〜7月2日 V.プルッキ、「方向オーディオ符号化を用いた空間再生」、J.Audio.Eng.Soc、vol55、no.6、pp.503―516、2007年6月 C.ファーラー、「空間オーディオ符号器に関するマイクロホンフロントエンド」、第125回AES国際コンベンションの予稿集、サンフランシスコ、2008年10月 M.カリンガー、H.オクセンフェルト、G.デルガルド、F.キュッヒ、D.マーネ、R.シュルツ―アムリング、およびO.ティエルガルト、「方向オーディオ符号化のための空間フィルタリング手法」、Audio Engineering Society Convention 126、ミュンヘン、ドイツ、2009年5月 R.シュルツ―アムリング、F.キュッヒ、O.ティエルガルト、およびM.カリンガー、「パラメトリック音場表現に基づく音響ズーミング」、Audio Engineering Society Convention 128、ロンドン、英国、2010年5月 J.ヘーレ、C.ファルヒ、D.マーネ、G.デルガルト、M.カリンガー、およびO.ティエルガルト、「空間オーディオオブジェクト符号化および方向オーディオ符号化技術を組み合わせたインタラクティブ遠隔会議」、Audio Engineering Society Convention 128、ロンドン英国、2010年5月 E.G.ウィリアムス、フーリエ音響学:音響放射および近場音響ホログラフィー、アカデミック・プレス、1999年 A.クンツおよびR.ラベンシュタイン、「全周性測定からの波動場の外挿の限界」、15th European Signal Processing Conference(EUSIPCO 2007)、2007 A・ワルターおよびC.フォーラ、「b―フォーマット記録を使用した間隔をおいたマイクロホンアレイの線形シミュレーション」、Audio Engineering Society Convention 128、ロンドン英国、2010年5月 S.リカードおよびZ.ユルマズ、「音声の近似W−ディスジョイント直交性について」、Acoustics, Speech and Signal Processing、2002.ICASSP 2002年IEEE国際コンフェレンス、2002年4月、1巻 R.ロイ、A.ポールラージおよびT.カイラス、「サブスペース回転による到来方向推定 ― ESPRIT」、Acoustics, Speech and Signal Processing(ICASSP)、IEEE国際コンフェレンス、スタンフォード、CA、USA、1986年4月 R.シュミット、「複数のエミッタ位置および信号パラメータ推定」、IEEE Transactions on Antennas and Propagation、34巻、no.3、ページ276〜280、1986年 J.マイケル・スティール、「平面のランダムサンプルの最適三角測量」、確率の紀要、10巻、No.3(1982年8月)、ページ548〜553 F.J.ファヒー、音の強さ、エセックス:エルゼビア・サイエンス・パブリッシャーズ社、1989年 R.シュルツ―アムリング、F.キュッヒ、M.カリンガー、G.デルガルト、T.アホネンおよびV.プルッキ、「分析のための平面マイクロホン・アレイ処理および方向オーディオ符号化を使用した空間オーディオの再生」、オーディオ技術学会規則124、アムステルダム、オランダ、2008年5月 M.カリンガー、F.キュッヒ、R.シュルツ―アムリング、G.デルガルト、T.アホネンおよびV.プルッキ、「方向オーディオ符号化のためのマイクロホンアレイを用いた拡張された方向推定」、ハンズフリーオーディオ通信およびマイクロホンアレイ、2008.HSCMA 2008、2008年5月、ページ45〜48 R.K.ファーネス、「アンビソニック ― 概要 ― 」、AES第8回国際コンフェレンス、1990年4月、ページ181〜189 ジョヴァンニ・デルガルト、オリバー・ティーレガルト、トビアス・ウェラーおよびE.A.P.ハベッツ、分散型配置によって集められた幾何的情報を使用した仮想マイクロホン信号の生成、ハンズフリー・スピーチ・コミュニケーションとマイクロホン配置(HSCMA’11)の第3回ジョイントワークショップ、エジンバラ、英国、2011年5月 J.ヘーレ、K.クジュルリング、J.ブリーバールト、C.ファーラー、S.ディッシュ、H.パルンハーゲン、J.コッペンス、J.ヒルペルト、J.レーデン、W.オーメン、K.リンツマイヤー、K.S.チョン、「MPEGサラウンド ―効率的かつ互換性を持つマルチチャンネルオーディオ符号化のためのISO/MPEG基準」、第122回AESコンベンション、ウィーン、オーストリア、2007年、プレプリント7048 ビーレ・プルッキ、方向オーディオ符号化を用いた空間再生、J.Audio Eng.Soc、55(6):503―516、2007年6月 C.ファーラー、空間オーディオコーダのためのマイクロホン・フロントエンド、第125回AES国際コンベンションのプロシーディング、サンフランシスコ、2008年10月 エマニュエル・ガロおよびニコラス・ツィンゴス、フィールドレコーディングからの構造聴覚シーンの抽出とリレンダリング、AES第30回国際コンフェレンス、2007 イェルーン・ブリーバールト、ジョナス・エングデガルト、コーネリア・ファルヒ、オリバー・ヘルムート、ヨハネス・ヒルペルト、アンドレアス・ホエルツァー、イェルーン・コッペンス、ワーナー・オーメン、バーバラ・レッシュ、エリク・シュイヤース、レオニード・テレンティーブ、空間オーディオオブジェクト符号化(saoc)−パラメトリック・オブジェクトベースのオーディオ符号化に関する最新のMPEG標準、AESコンベンション124回、2008年5月 R.ロイおよびT.カイラス、ESPRIT −回転不変技術による信号パラメータの推定、音響、音声および信号処理、IEEE論文集、37(7):984―995、1989年7月
本発明は、幾何的な情報の抽出により、空間音響の取得及び記述についての改善された概念を提供することを目的とする。本発明の目的は、請求項1に記載のオーディオデータストリームに基づいて少なくとも1つのオーディオ出力信号を生成するための装置、請求項10に記載のオーディオデータストリームを生成するための装置、請求項19に記載のシステム、請求項20に記載のオーディオデータストリーム、請求項23に記載の少なくとも1つのオーディオ出力信号を生成するための方法、請求項24に記載のオーディオデータストリームを生成するための方法、および、請求項25に記載のコンピュータプログラムにより達成される。
1つ又は複数の音源に関連したオーディオデータを含んでいるオーディオデータストリームに基づいて少なくとも1つのオーディオ出力信号を生成するための装置が提供される。本装置は、オーディオデータを含んでいるオーディオデータストリームを受信するための受信機を含む。オーディオデータは、音源のそれぞれについて、1つ又は複数の圧力値を含む。さらにまた、オーディオデータは、音源のそれぞれについて音源のうちの1つの位置を示している1つ又は複数の位置値を含む。さらに、本装置は、オーディオデータストリームのオーディオデータの1つ又は複数の圧力値のうちの少なくとも1つに基づいて、かつ、オーディオデータストリームのオーディオデータの1つ又は複数の位置値のうちの少なくとも1つに基づいて、少なくとも1つのオーディオ出力信号を生成するための合成モジュールを含む。一実施形態において、1つ又は複数の位置値のそれぞれは、少なくとも2つの座標値を含むことができる。
オーディオデータは、複数の時間―周波数ビンのうちの1つの時間―周波数ビンについて定められうる。あるいは、オーディオデータは、複数の時間インスタント(time instant)のうちの1つの時間インスタントについて定められうる。いくつかの実施形態において、オーディオデータの1つ又は複数の圧力値は、複数の時間インスタントのうちの1つの時間インスタントについて定められうり、一方で、対応するパラメータ(例えば位置値)は、時間―周波数領域で定められうる。これは、そうでなければ時間―周波数領域で定められた圧力値を、時間領域に戻す変換をすることによって直ちに得ることができる。音源のそれぞれについて、少なくとも1つの圧力値は、オーディオデータに含まれる。ここで、その少なくとも1つの圧力値は、例えば音源から生じる、発された音波に関連した圧力値でありうる。その圧力値は、オーディオ信号の値、例えば、仮想マイクロホンのオーディオ出力信号を生成するための装置によって生成されたオーディオ出力信号の圧力値でありうる。ここで、仮想マイクロホンは、音源の位置に位置付けられる。
上記実施形態は、録音位置から真に独立した音場表現を割り出すのを可能にし、複雑な音響シーンの効率的な送信および保存、並びに、再生システムでの容易な修正および増加した柔軟性を提供する。
特に、この技術の重要な利点は、再生側で、聴取者が記録された音響シーンの範囲内のその位置に自由に選択することができ、いかなるスピーカセットアップも使用することができ、加えて、幾何的な情報、例えば位置ベースのフィルタリングに基づいて、音響シーンを操作することができることである。換言すれば、提案された技術について、音響視点を変更することができ、音響シーンの範囲内のリスニング位置を変更することができる。
上記実施形態によれば、オーディオデータストリームにおいて含まれるオーディオデータは、音源のそれぞれについて1つ又は複数の圧力値を含む。このように、圧力値は、音源のうちの1つと関連したオーディオ信号、例えば音源から生じているオーディオ信号であって、記録マイクロホンの位置と関連していないオーディオ信号を示す。同様に、オーディオデータストリームに含まれる1つ又は複数の位置値は、音源の位置を示し、マイクロホンの位置を示さない。
これにより、複数の利点が、実現される。例えば、ほとんどビットを使用せずに符号化することができるオーディオシーンの表現が達成される。音響シーンが特定の時間周波数ビンに1つの音源を含むだけである場合、その唯一の音源に関連した1つのオーディオ信号の圧力値だけが、音源の位置を示している位置値と共に符号化される必要がある。対照的に、従来の方法は、受信機でオーディオシーンを再構築するために、複数の記録されたマイクロホン信号から複数の圧力値を符号化する必要がありうる。さらに、上記の実施形態は、後述するように、受信機側だけでなく、送信機での音響シーンの容易な修正を可能にする。このように、(例えば、音響シーンの範囲内のリスニング位置を決定している)シーン構成は、受信機側で実行されることもできる。
実施形態は、例えば短時間フーリエ変換(Short−Time Fourier Transform)(STFT)によって供給されるものなどの時間―周波数表現における特定のスロットでアクティブになる、点音源(PLS=point−like sound source)、例えば等方的点音源(IPLS)などの音源によって、複雑な音響シーンをモデル化する構想を使用する。
一実施形態によれば、受信機は、オーディオデータを含んでいるオーディオデータストリームを受信するように構成されることができる。ここで、オーディオデータは、さらに、音源のそれぞれについて1つ又は複数の拡散値を含む。合成モジュールは、1つ又は複数の拡散値のうちの少なくとも1つに基づいて少なくとも1つのオーディオ出力信号を生成するように構成されうる。
他の実施形態において、受信機は、オーディオデータの1つ又は複数の圧力値のうちの少なくとも1つを修正することによって、オーディオデータの1つ又は複数の位置値のうちの少なくとも1つを修正することによって、または、オーディオデータの拡散値のうちの少なくとも1つを修正することによって、受信されたオーディオデータストリームのオーディオデータを修正するための修正モジュールをさらに含むことができる。合成モジュールは、修正された少なくとも1つの圧力値に基づいて、修正された少なくとも1つの位置値に基づいて、または、修正された少なくとも1つの拡散値に基づいて、少なくとも1つのオーディオ出力信号を生成するように構成されうる。
別の実施形態において、音源のそれぞれの位置値のそれぞれは、少なくとも2つの座標値を含むことができる。さらにまた、座標値が、音源が環境の所定の領域内にあることを示すとき、修正モジュールは、座標値に少なくとも1つの乱数を加えることによって座標値を修正するように構成されうる。
他の実施形態によれば、音源のそれぞれの位置値のそれぞれは、少なくとも2つの座標値を含むことができる。さらに、座標値が、音源が環境の所定の領域内にあることを示すとき、修正モジュールは、座標値に確定関数を適用することによって座標値を修正するように構成される。
別の実施形態において、音源のそれぞれの位置値のそれぞれは、少なくとも2つの座標値を含むことができる。さらに、座標値が、音源が環境の所定の領域内にあることを示すとき、修正モジュールは、座標値と同じ音源に関連して、オーディオデータの1つ又は複数の圧力値のうちの選択された圧力値を修正するように構成されうる。
実施形態によれば、合成モジュールは、第1のステージ合成ユニットおよび第2のステージ合成ユニットを含むことができる。第1のステージ合成ユニットは、オーディオデータストリームのオーディオデータの1つ又は複数の圧力値のうちの少なくとも1つに基づいて、オーディオデータストリームのオーディオデータの1つ又は複数の位置値のうちの少なくとも1つに基づいて、そして、オーディオデータストリームのオーディオデータの1つ又は複数の拡散値のうちの少なくとも1つに基づいて、直接音を含んでいる直接圧力信号、拡散音を含んでいる拡散圧力信号、および到来方向情報を生成するように構成されうる。第2のステージ合成ユニットは、直接圧力信号、拡散圧力信号および到来方向情報に基づいて、少なくとも1つのオーディオ出力信号を生成するように構成されうる。
実施形態によれば、1つ又は複数の音源に関連した音源データを含んでいるオーディオデータストリームを生成するための装置が提供される。オーディオデータストリームを生成するための装置は、少なくとも1つのマイクロホンにより記録された少なくとも1つのオーディオ入力信号に基づいて、かつ、少なくとも2つの空間マイクロホンによって供給されたオーディオ補助情報に基づいて、音源データを決定するための決定器を含む。さらにまた、本装置は、オーディオデータストリームが音源データを含むように、オーディオデータストリームを生成するためのデータストリーム生成器を含む。音源データは、音源のそれぞれについて1つ又は複数の圧力値を含む。さらに、音源データは、音源のそれぞれについて音源位置を示している1つ又は複数の位置値を更に含む。さらにまた、音源データは、複数の時間―周波数ビンのうちの1つの時間―周波数ビンについて定められる。
別の実施形態において、決定器は、少なくとも1つの空間マイクロホンによって拡散情報に基づいて音源データを決定するように構成されうる。データストリーム生成器は、オーディオデータストリームが音源データを含むように、オーディオデータストリームを生成するように構成されうる。さらに、音源データは、音源のそれぞれについて1つ又は複数の拡散値を含む。
他の実施形態において、音源のうちの少なくとも1つに関連したオーディオデータストリームを生成するための装置は、オーディオデータの圧力値のうちの少なくとも1つ、オーディオデータの位置値のうちの少なくとも1つ、またはオーディオデータの拡散値のうちの少なくとも1つを修正することによって、データストリーム生成器によって生成されたオーディオデータストリームを修正するための修正モジュールを更に含むことができる。
他の実施形態によれば、音源のそれぞれの位置値のそれぞれは、少なくとも2つの座標値(例えば、デカルト座標系の2つの座標、または極座標系の方位角および距離)を含むことができる。座標値が、音源が環境の所定の領域内にあることを示すとき、修正モジュールは、座標値に少なくとも1つの乱数を加えることによって、または、座標値に確定関数を適用することによって、座標値を修正するように構成されうる。
更なる実施形態によれば、オーディオデータストリームが供給される。オーディオデータストリームは、1つ又は複数の音源に関連したオーディオデータを含むことができる。ここで、オーディオデータは、音源のそれぞれについて1つ又は複数の圧力値を含む。オーディオデータは、音源のそれぞれについて音源位置を示している少なくとも1つの位置値を更に含むことができる。一実施形態において、少なくとも1つの位置値のそれぞれは、少なくとも2つの座標値を含むことができる。オーディオデータは、複数の時間―周波数ビンのうちの1つの時間―周波数ビンについて定められうる。
他の実施形態において、オーディオデータは、音源のそれぞれについて1つ又は複数の拡散値を更に含む。
本発明の好ましい実施形態は、以下に説明される。
図1は、一実施形態による1つ又は複数の音源に関連したオーディオデータを含んでいるオーディオデータストリームに基づいて少なくとも1つのオーディオ出力信号を生成するための装置を示す。 図2は、一実施形態による1つ又は複数の音源に関連した音源データを含んでいるオーディオデータストリームを生成するための装置を示す。 図3a及び図3bは、異なる実施形態によるオーディオデータストリームを示す。 図3cは、異なる実施形態によるオーディオデータストリームを示す。 図4は、他の実施形態による1つ又は複数の音源に関連した音源データを含んでいるオーディオデータストリームを生成するための装置を示す。 図5は、2つの音源および2つの同一の線形マイクロホンアレイからなる音響シーンを示す。 図6aは、一実施形態によるオーディオデータストリームに基づいて少なくとも1つのオーディオ出力信号を生成するための装置600を示す。 図6bは、一実施形態による1つ又は複数の音源に関連した音源データを含んでいるオーディオデータストリームを生成するための装置660を示す。 図7は、一実施形態による修正モジュールを示す。 図8は、他の実施形態による修正モジュールを示す。 図9は、一実施形態による送信機/分析装置および受信機/合成ユニットを示す。 図10aは、一実施形態による合成モジュールを示す。 図10bは、一実施形態による第1の合成ステージユニットを示す。 図10cは、一実施形態による第2の合成ステージユニットを示す。 図11は、他の実施形態による合成モジュールを示す。 図12は、一実施形態による仮想マイクロホンのオーディオ出力信号を生成するための装置を示す。 図13は、一実施形態による仮想マイクロホンのオーディオ出力信号を生成するための装置および方法の入力および出力を示す。 図14は、音事象位置推定器および情報計算モジュールを含む一実施形態による仮想マイクロホンのオーディオ出力信号を生成するための装置の基本構造を示す。 図15は、実在の空間マイクロホンがそれぞれ3つのマイクロホンの線形等間隔アレイ(Uniform Linear Arrays)として示される典型的なシナリオを示す。 図16は、三次元空間における到来方向を推定するための三次元にある2つの空間マイクロホンを示す。 図17は、現在の時間―周波数ビン(k,n)の等方的点音源が位置pIPLS(k,n)に位置するジオメトリーを示す。 図18は、一実施形態による情報計算モジュールを示す。 図19は、他の実施形態による情報計算モジュールを示す。 図20は、2つの実在の空間マイクロホン、ローカライズされた音事象、および仮想空間マイクロホンの位置を示す。 図21は、一実施形態による仮想マイクロホンと関連して到来方向を得る方法を示す。 図22は、一実施形態による仮想マイクロホンの視点から音の到来方向を抽出するための考えられる方法を示す。 図23は、一実施形態による拡散計算ユニットを含んでいる情報計算ブロックを示す。 図24は、一実施形態による拡散計算ユニットを示す。 図25は、音事象位置推定が可能でないシナリオを示す。 図26は、一実施形態による仮想マイクロホンデータストリームを生成するための装置を示す。 図27は、他の実施形態によるオーディオデータストリームに基づいて少なくとも1つのオーディオ出力信号を生成するための装置を示す。 図28aは、2つのマイクロホンアレイが直接音を受けるシナリオを示す。 図28bは、2つのマイクロホンアレイが壁により反射された音を受けるシナリオを示す。 図28cは、2つのマイクロホンアレイが拡散音を受けるシナリオを示す。
本発明の実施形態の詳細な説明をする前に、仮想マイクロホンのオーディオ出力信号を生成するための装置が、本発明の構想に関して基礎的な情報を提供するために説明される。
図12は、環境において構成可能な仮想位置posVmicでマイクロホンの記録をシミュレートするためにオーディオ出力信号を生成するための装置を示す。その装置は、音事象位置推定器110と情報計算モジュール120とを含む。音事象位置推定器110は、第1の実在の空間マイクロホンから第1の方向情報di1、および、第2の実在の空間マイクロホンから第2の方向情報di2を受ける。音事象位置推定器110は、環境の音源の位置を示している音源位置sspを推定するように構成される。音源は音波を発する。音事象位置推定器110は、環境の第1の実在のマイクロホン位置pos1micにある第1の実在の空間マイクロホンによって供給される第1の方向情報di1に基いて、かつ、環境の第2の実在のマイクロホン位置にある第2の実在の空間マイクロホンによって供給される第2の方向情報di2に基づいて、音源位置sspを推定するように構成される。情報計算モジュール120は、第1の実在の空間マイクロホンによって記録されている第1の記録されたオーディオ入力信号is1に基づいて、第1の実在のマイクロホン位置pos1micに基づいて、そして、仮想マイクロホンの仮想位置posVmicに基づいて、オーディオ出力信号を生成するように構成される。情報計算モジュール120は、オーディオ出力信号を得るために、第1の記録されたオーディオ入力信号is1の振幅値、マグニチュード値または位相値を調整することによって、第1の実在の空間マイクロホンでの音源によって発された音波の到来と仮想マイクロホンでの音波の到来との間の第1の遅延または振幅減衰を補償することによって第1の記録されたオーディオ入力信号is1を修正することによって第1の修正されたオーディオ信号を生成するように構成されている伝搬補償器を含む。
図13は、一実施形態による装置および方法の入力および出力を示す。2つ又は複数の実在の空間マイクロホン111、112、…、11Nからの情報は、本装置に送られる又は本方法により処理される。この情報は、実在の空間マイクロホンによって拾われるオーディオ信号、並びに、実在の空間マイクロホンからの方向情報、例えば到来方向(direction of arrival)(DOA)推定値を含む。オーディオ信号および到来方向推定値などの方向情報は、時間―周波数領域で表されることができる。例えば、二次元の幾何再構成が望まれ、そして、従来のSTFT(短時間フーリエ変換)領域が信号の表現のために選択される場合、到来方向(DOA)は、kおよびn、すなわち、周波数および時間インデックスに依存しているアジマス角として表されることができる。
実施形態において、空間の音事象定位は、仮想マイクロホンの位置を示しているだけでなく、一般の座標系の実在のおよび仮想の空間マイクロホンの位置および方位に基づいて行われることができる。この情報は、図13の入力121、…、12Nおよび入力104によって示されることができる。入力104は、加えて、仮想空間マイクロホンの特性、例えばその位置およびピックアップパターンを特定することができる。そして、そのことは以下で述べられる。仮想空間マイクロホンが複数の仮想センサを含む場合、それらの位置および対応する異なるピックアップパターンが考慮されうる。
本装置または対応する方法の出力は、必要に応じて、104によって特定されるように定められて、位置付けられる空間マイクロホンによって拾われることができた1つ又は複数の音信号105でありうる。さらに、本装置(またはむしろ本方法)は、出力として、仮想空間マイクロホンを使用することによって推定されうる対応する空間補助情報106を供給しうる。
図14は、2つの主処理装置、音事象位置推定器201および情報計算モジュール202を含む実施形態による装置を示す。音事象位置推定器201は、入力111、…、11Nに含まれる到来方向(DOA)に基づいて、そして、実在の空間マイクロホンの位置および方位についての情報に基づいて、幾何的な再構成を行うことができる。そこで、到来方向(DOA)が割り出された。音事象位置推定器205の出力は、音事象が時間及び周波数ビンごとに起こる音源の(2Dまたは3Dにおける)位置推定値を含む。第2の処理ブロック202は、情報計算モジュールである。図14の実施形態によれば、第2の処理ブロック202は、仮想マイクロホン信号および空間補助情報を割り出す。従って、それは、仮想マイクロホン信号および補助情報計算ブロック202と呼ばれもする。仮想マイクロホン信号および補助情報計算ブロック202は、仮想マイクロホンオーディオ信号105を出力するために、111、…、11Nにおいて含まれるオーディオ信号を処理するために音事象の位置205を使用する。ブロック202は、必要であれば、仮想空間マイクロホンに対応する空間補助情報106を計算することもできる。以下の実施形態は、ブロック201および202がどのように作動しうるかの可能性を示す。
以下に、一実施形態による音事象位置推定器の位置推定が、更に詳細に説明される。
問題の次元(2Dまたは3D)および空間マイクロホンの数に応じて、位置推定についてのいくつかの解決が可能である。
2Dの2つの空間マイクロホンが存在する場合、(最も単純な可能なケース)単純な三角測量が可能である。図15は、実在の空間マイクロホンが各々3つのマイクロホンの線形等間隔アレイ(Uniform Linear Arrays)(ULAs)として示される典型的なシナリオを示す。アジマス角al(k,n)およびa2(k,n)として表される到来方向(DOA)は、時間―周波数ビン(k,n)について割り出される。これは、時間―周波数領域に変換された圧力信号に、ESPRIT、
[13]R.ロイ、A.ポールラージおよびT.カイラス、「サブスペース回転による到来方向推定 ― ESPRIT」、Acoustics, Speech and Signal Processing(ICASSP)、IEEE国際コンフェレンス、スタンフォード、CA、USA、1986年4月
または、(ルート)MUSIC、参照
[14]R.シュミット、「複数のエミッタ位置および信号パラメータ推定」、IEEE Transactions on Antennas and Propagation、34巻、no.3、ページ276〜280、1986年
などの、適切な到来方向(DOA)推定器を使用することによって達成される。
図15において、2つの実在の空間マイクロホン、ここでは、2つの実在の空間マイクロホンアレイ410、420が示される。2つの推定された到来方向al(k,n)及びa2(k,n)が、2本の線、到来方向a1(k,n)を示している第1の線430および到来方向a2(k,n)を示している第2の線440によって示される。三角測量は、各アレイの位置および方位を知っている単純な幾何的な考慮によって可能である。
2本の線430、440がちょうど平行であるときに、三角測量は失敗する。しかし、現実の応用において、これは非常に可能性が低い。しかし、すべての三角測量結果が、考慮した空間の音事象のための物理的な又は都合の良い位置に対応するというわけではない。例えば、音事象の推定位置が、あまりにも遠い又は想定された空間の外側でさえある場合もあり、それは、おそらく、到来方向が、使用されたモデルを用いて物理的に解釈されることができるいかなる音事象にも対応しないことを示す。このような結果は、センサノイズまたはあまりに強い部屋残響によって生じうる。従って、一実施形態によれば、情報計算モジュール202が適切にそれらを扱うことができるように、このような望まれていない結果はフラグされる。
図16は、音事象の位置が3D空間において推定されるシナリオを示す。適当な空間マイクロホン、例えば二次元または三次元マイクロホンアレイが使用される。図16において、第1の空間マイクロホン510、例えば、第1の3Dマイクロホンアレイ、および、第2の空間マイクロホン520、例えば第2の3Dマイクロホンアレイが示される。3D空間において到来方向、例えば、方位角および仰角として表されうる。単位ベクトル530、540は、到来方向を表すために使用されうる。2本の線550、560は、到来方向に従って投射される。3Dにおいて、非常に信頼性が高い推定によってさえ、到来方向に従って投射した2本の線550、560は、交差しないかもしれない。しかし、三角測量は、それでもなお、例えば、2本の線を連結している最も小さいセグメントの中点を選択することによって、実行することができる。
二次元の場合も同様に、三角測量は、失敗しうるかまたは方向の特定の組み合わせについての実行不可能な結果を生じさせうり、それは例えば図14の情報計算モジュール202に、フラグされうる。
2つ以上の空間マイクロホンが存在する場合、いくつかの解決策が可能である。例えば、上で説明された三角測量は、実在の空間マイクロホンのすべての対(N=3の場合、1と2、1と3、2と3)について実行されることができる。結果として生じる位置は、それから(xおよびy、並びに、3Dが考慮される場合、zに沿って)平均化されうる。
別な方法として、より複雑な構想が使用されうる。例えば、確率論的アプローチが、
[15]J.マイケル・スティール、「平面のランダムサンプルの最適三角測量」、確率の紀要、10巻、No.3(1982年8月)、ページ548〜553
に説明されるように、適用されうる。
Figure 2014501945
各IPLSは、直接音又は区別可能な部屋反射をモデル化する。その位置pIPLS(k,n)は、それぞれ、部屋の中に位置する実際の音源、または、外に位置した鏡像音源に理想的には対応しうる。従って、位置pIPLS(k,n)はまた、音事象の位置を示す。
用語「実音源(real sound sources)」が、記録環境に物理的に存在している実在の音源、例えばトーカーまたは楽器を意味する点に留意されたい。これに対して、「音源(sound sources)」または「音事象(sound events)」または「IPLS」については、我々は、特定の時間インスタントで、または、特定の時間―周波数ビンで、アクティブである有効な音源に関連する。ここで、音源は、例えば、実音源または鏡像ソースを示しうる。
図28a―28bは、音源を定位しているマイクロホンアレイを示す。定位された音源は、それらの性質に応じた異なる物理解釈を有しうる。マイクロホンアレイが直接音を受けるとき、それらは、真の音源(例えばトーカー)の位置を定位することができうる。マイクロホンアレイが反射を受けるとき、それらは、鏡像ソースの位置を定位しうる。鏡像ソースもまた音源である。
図28aは、2つのマイクロホンアレイ151および152が実在の音源(物理的に存在する音源)153から直接音を受けるシナリオを示す。
図28bは、2つのマイクロホンアレイ161、162が反射音を受けるシナリオを示す。ここで、音響は壁によって反射されている。反射のため、マイクロホンアレイ161、162は、スピーカ163の位置とは異なる鏡像ソース165の位置で、音響が来るようにみえる位置を定位する。
図28aの実在の音源153並びに鏡像ソース165は両方とも音源である。
図28cは、2つのマイクロホンアレイ171、172が拡散音を受けて、音源を位置決めできないシナリオを示す。
この単一波モデルが少し反響する環境に関してのみ正確であるが、ソース信号がWディスジョイント直交性(W−disjoint orthogonality)(WDO)条件を満たすと想定すると、すなわち、時間―周波数の重なりは十分に小さい。これは、通常、スピーチ信号にあてはまる。例えば、
[12]S.リカードおよびZ.ユルマズ、「音声の近似W−ディスジョイント直交性について」、Acoustics, Speech and Signal Processing、2002.ICASSP 2002年IEEE国際コンフェレンス、2002年4月、1巻
を参照されたい。
しかし、そのモデルはまた、他の環境についても良い推定値を供給し、従って、それらの環境にも適用できる。
以下に、一実施形態による位置pIPLS(k,n)の推定値が説明される。特定の時間―周波数ビンのアクティブなIPLSの位置pIPLS(k,n)、ひいては時間―周波数ビンの音事象の推定値は、少なくとも2つの異なる観測点において測定された音響の到来方向(DOA)に基づいて、三角測量により推定される。
Figure 2014501945
Figure 2014501945
他の実施形態において、式(6)は、d2(k,n)について解くことができ、pIPLS(k,n)は、d2(k,n)を使用して類似して計算される。
1(k,n)およびe2(k,n)が平行でない限り、2Dで演算するときに、式(6)は、常に解を与える。しかし、2つ以上のマイクロホンアレイを使用するとき、または、3Dで演算するとき、方向ベクトルdが交差しないときは、解は得ることができない。一実施形態によれば、この場合、すべての方向ベクトルdに最も近い点が割り出されて、その結果は、IPLSの位置として使用されることができる。
Figure 2014501945
以下に、一実施形態による情報計算モジュール202、例えば仮想マイクロホン信号および補助情報計算モジュールは、更に詳細に説明される。
図18は、一実施形態による情報計算モジュール202の図式的概観を示す。情報計算ユニットは、伝搬補償器500と、結合器510と、スペクトル重み付けユニット520とを含む。情報計算モジュール202は、音事象位置推定器によって推定された音源位置推定値ssp、実在の空間マイクロホンの1つ又は複数により記録された1つ又は複数のオーディオ入力信号is、実在の空間マイクロホンの1つ又は複数の位置posRealMic、および仮想マイクロホンの仮想位置posVmicを受ける。それは、仮想マイクロホンのオーディオ信号を示しているオーディオ出力信号osを出力する。
図19は、他の実施形態による情報計算モジュールを示す。図19の情報計算モジュールは、伝搬補償器500と、結合器510と、スペクトル重み付けユニット520とを含む。伝搬補償器500は、伝搬パラメータ計算モジュール501と伝搬補償モジュール504とを含む。結合器510は、結合係数計算モジュール502と結合モジュール505とを含む。スペクトル重み付けユニット520は、スペクトル重み計算ユニット503と、スペクトル重み付け適用モジュール506と、空間補助情報計算モジュール507とを含む。
仮想マイクロホンのオーディオ信号を割り出すために、幾何情報、例えば実在の空間マイクロホン121、…、12Nの位置および方位、仮想空間マイクロホン104の位置、方位および特性、並びに、音事象205の位置推定値は、情報計算モジュール202に、特に、伝搬補償器500の伝搬パラメータ計算モジュール501に、結合器510の結合係数計算モジュール502に、そして、スペクトル重み付けユニット520のスペクトル重み計算ユニット503に送られる。伝搬パラメータ計算モジュール501、結合係数計算モジュール502、およびスペクトル重み計算ユニット503は、伝搬補償モジュール504、結合モジュール505およびスペクトル重み付け適用モジュール506のオーディオ信号111、…、11Nの修正において使用されるパラメータを算出する。
情報計算モジュール202において、オーディオ信号111、…、11Nは、まず、音事象位置と実在の空間マイクロホンとの間の異なる伝搬長によって与えられる効果を補償するために、修正されることができる。信号は、次に、例えばSN比(SNR)を改善するために、結合されることができる。最後に、結果として生じる信号は、それから、距離に依存する利得関数だけでなく、仮想マイクロホンの指向性ピックアップパターンを考慮するように、スペクトル重み付けされることができる。これらの3つのステップは、以下に更に詳細に述べられる。
伝搬補償は、ここで更に詳細に説明される。図20の上部において、2つの実在の空間マイクロホン(第1のマイクロホンアレイ910および第2のマイクロホンアレイ920)、時間―周波数ビン(k,n)について定位された音事象930の位置、および仮想空間マイクロホン940の位置が示される。
図20の下部は、時間軸を示す。音事象が時間t0で発されて、実在のおよび仮想の空間マイクロホンに伝搬されることが仮定される。伝搬距離が遠いほど、アンプリチュードが弱く、到来の時間遅延が長くなるように、到来の時間遅延およびアンプリチュードは、距離により変化する。
2つの実在のアレイの信号は、それらの間の相対的な遅延Dt12が小さい場合にだけ、比較できる。そうでない場合は、2つの信号のうちの1つは、相対的な遅延Dt12を補償するために時間的に再調整されることを要し、おそらく、異なる減衰を補償するためにスケールされることを要する。
仮想マイクロホンへの到来と(実在の空間マイクロホンのうちの1つにある)実在のマイクロホンアレイへの到来との間の遅延を補償することは、音事象の定位から独立して遅延を変え、大部分の応用についてはそれを不必要にする。
図19に一旦戻って、伝搬パラメータ計算モジュール501は、実在の空間マイクロホンごとに、そして、音事象ごとに、修正される遅延を算出するように構成される。必要に応じて、それはまた、異なる振幅減衰を補償するために考慮される利得係数を算出する。
伝搬補償モジュール504は、オーディオ信号をしかるべく修正するためにこの情報を使用するように構成される。信号が(フィルタバンクの時間窓と比較して)わずかな時間だけシフトされることになる場合、単純な位相回転で十分である。遅延がより大きい場合、より複雑な実施態様が必要である。
伝搬補償モジュール504の出力は、元の時間―周波数領域において表された修正されたオーディオ信号である。
以下に、一実施形態による仮想マイクロホンのための伝搬補償の特定の推定は、特に第1の実在の空間マイクロホンの位置610および第2の実在の空間マイクロホンの位置620を示す図17に関して説明される。
ここで説明される実施形態において、少なくとも、第1の記録されたオーディオ入力信号、例えば実在の空間マイクロホン(例えばマイクロホンアレイ)のうちの少なくとも1つの圧力信号、例えば第1の実在の空間マイクロホンの圧力信号が利用可能であることが仮定される。我々は、考慮したマイクロホンを基準マイクロホンと、その位置を基準位置prefと、その圧力信号を基準圧力信号Pref(k,n)と呼ぶこととする。しかし、伝搬補償は、1つだけの圧力信号に関してだけでなく、複数の又は全ての実在の空間マイクロホンの圧力信号に関しても行ないうる。
Figure 2014501945
一般に、複合係数γ(k,pa,pb)は、pa、pbにおいてその起点からの球面波の伝搬によって導入された位相回転および振幅減衰を表す。しかし、実用試験は、γの振幅減衰だけを考慮することが、位相回転を考慮することと比較して、著しく少ないアーチファクトを有する仮想マイクロホン信号のもっともらしい印象につながることを示した。
空間におけるある点で測定されうる音響エネルギーは、音源から、図6においては音源の位置pIPLSからの距離rに強く依存する。多くの状況において、この依存は、周知の物理原理、例えば点音源の遠視野の音圧の1/r減衰を使用して、充分な精度でモデル化することができる。基準マイクロホンの距離、例えば、音源からの第1の実在のマイクロホンが知られているとき、また、音源から仮想マイクロホンの距離が知られているとき、それから、仮想マイクロホンの位置の音響エネルギーは、基準マイクロホン、例えば第1の実在の空間マイクロホンの信号およびエネルギーから推定されることができる。このことは、仮想マイクロホンの出力信号が適当な利得を基準圧力信号に適用することによって得られることができることを意味する。
Figure 2014501945
Figure 2014501945
Figure 2014501945
式(1)のモデルが保持するときに、例えば、直接音だけが存在するときに、式(12)は、マグニチュード情報を正確に再構築することができる。しかし、純粋な拡散音場の場合に、例えば、そのモデル仮定が満たされないときに、センサアレイの位置から仮想マイクロホンを遠ざけるときに、提示された方法は、信号の潜在的な非残響を生じさせる。実際、上記のように、拡散音場において、我々は、大部分のIPLSが2つのセンサアレイの近くにローカライズされることを予想する。このように、これらの位置から仮想マイクロホンを遠ざけるときに、我々はおそらく図17の距離s=||s||を増加させる。従って、式(11)に従って重み付けを適用するとき、基準圧のマグニチュードが減少する。対応して、実在の音源の近くに仮想マイクロホンを動かすとき、全体のオーディオ信号がより少ない拡散が知覚されるように、直接音に対応する時間―周波数ビンが増幅される。式(12)のルールを調整することによって、自由に直接音増幅および拡散音抑制を制御することができる。
第1の実在の空間マイクロホンの記録されたオーディオ入力信号(例えば圧力信号)への伝搬補償を行うことによって、第1の修正されたオーディオ信号が得られる。
実施形態において、第2の修正されたオーディオ信号は、第2の実在の空間マイクロホンの記録された第2のオーディオ入力信号(第2の圧力信号)への伝搬補償を行うことによって得られうる。
他の実施態様において、更なるオーディオ信号は、更なる実在の空間マイクロホンの更に記録されたオーディオ入力信号(更なる圧力信号)への伝搬補償を行うことによって得られることができる。
ここで、一実施形態による図19のブロック502および505での結合が更に詳細に説明される。複数の異なる実在の空間マイクロホンからの2つ又はそれ以上のオーディオ信号が、2つ又はそれ以上の修正されたオーディオ信号を得るように、その異なる伝搬経路を補償するために、修正されたと仮定する。一旦異なる実在の空間マイクロホンからのオーディオ信号が、異なる伝搬経路を補償するために修正されると、それらはオーディオ品質を改善するために結合されうる。こうすることによって、例えば、SNRを増加することができる、または、残響を低減することができる。
結合のための可能な解決法は、以下を含む。
− 例えばSNR、または仮想マイクロホンまでの距離、または実在の空間マイクロホンによって推定された拡散を考慮する、加重平均。従来の解決法、例えば、最大比合成(Maximum Ratio Combining)(MRC)または等利得合成(Equal Gain Combining)(EQC)のために使用されることができる。または、
− 合成信号を得るための一部または全部の修正されたオーディオ信号の1次結合。修正されたオーディオ信号は、合成信号を得るために、1次結合において重み付けされうる。または、
− 例えば、一つの信号だけが、例えば、SNRまたは距離または拡散に依存して、使用される、選択。
モジュール502のタスクは、適用できる場合、モジュール505において実行される合成のためのパラメータを算出することである。
ここで、実施形態によるスペクトル重み付けについて更に詳細に説明する。これについては、図19のブロック503および506が参照される。この最終ステップで、合成から、または、入力オーディオ信号の伝搬補償から生じるオーディオ信号は、入力104によって特定されるような仮想空間マイクロホンの空間特性に従って、および/または、再構築された幾何(205で与えられる)に従って、時間―周波数領域において重み付けされる。
時間―周波数ビンごとに、図21に示すように、幾何的な再構成は、我々が仮想マイクロホンに関連した到来方向(DOA)を容易に得ることを可能にする。さらにまた、仮想マイクロホンと音事象の位置との間の距離を、直ちに算出することもできる。
時間―周波数ビンについての重みは、望まれた仮想マイクロホンのタイプを考慮して算出される。
指向性マイクロホンの場合には、スペクトル重みは、所定のピックアップパターンに従って算出されうる。例えば、一実施形態によれば、カージオイドマイクロホンは、関数g(θ)、
g(θ)=0.5+0.5cos(θ)
によって定められたピックアップパターンを有することができる。ここで、θは、仮想空間マイクロホンの視方向(look direction)と仮想マイクロホンの視点からの音響の到来方向(DOA)との間の角度である。
他の可能性は、アーティスティックな(非物理的)減衰関数である。特定のアプリケーションにおいて、自由場伝搬を特徴とするものより大きい係数で仮想マイクロホンから遠くの音事象を抑制することが望まれうる。この目的のために、いくつかの実施形態は、仮想マイクロホンと音事象との間の距離に依存する付加的な重み付け関数を導入する。一実施形態において、仮想マイクロホンからの(例えばメートルでの)特定の距離の範囲内の音事象だけが捕捉される。
仮想マイクロホン指向性に関して、任意の指向性パターンは、仮想マイクロホンのために適用されることができる。この際、例えば、複合的な音シーンとソースとは分離されうる。
Figure 2014501945
実施形態において、1つ又は複数の実在の、非空間マイクロホン、例えば全指向性マイクロホンまたはカージオイドのような指向性マイクロホンは、図8の仮想マイクロホン信号105の音質を更に改善するために、実在の空間マイクロホンに加えて、音響シーンに位置付けられる。これらのマイクロホンは、幾何的な情報も集めるために使用されないが、むしろクリーナーオーディオ信号を供給するだけのために使用される。これらのマイクロホンは、空間マイクロホンよりも音源に近くに位置付けられうる。この場合、一実施形態によれば、実在の、非空間マイクロホンのオーディオ信号およびそれらの位置は、実在の空間マイクロホンのオーディオ信号の代わりに、処理のために図19の伝搬補償モジュール504に単純に送られる。伝搬補償は、それから1つ又は複数の非空間マイクロホンの位置に関して、非空間マイクロホンの1つ又は複数の記録されたオーディオ信号のために実行される。これにより、一実施形態は、付加的な非空間マイクロホンを使用して実現される。
別の実施形態において、仮想マイクロホンの空間補助情報の計算が実現される。マイクロホンの空間補助情報106を割り出すために、図19の情報計算モジュール202は、入力として音源の位置205および仮想マイクロホンの位置、方位および特性104を受けるように構成される、空間補助情報計算モジュール507を含む。ある実施形態において、算出されることを必要とする補助情報106によれば、仮想マイクロホン105のオーディオ信号を、空間補助情報計算モジュール507への入力として考慮することもできる。
空間補助情報計算モジュール507の出力は、仮想マイクロホン106の補助情報である。この補助情報は、例えば、仮想マイクロホンの視点からの各時間―周波数ビン(k,n)についての音響の到来方向(DOA)または拡散でありえる。他の可能な補助情報は、例えば、仮想マイクロホンの位置において測定されたアクティブな音の強さベクトルIa(k,n)でありえる。これらのパラメータをどのように抽出することができるかをここでは説明する。
一実施形態によれば、仮想空間マイクロホンのためのDOA推定が実現される。情報計算モジュール120は、図22で示すように、仮想マイクロホンの位置ベクトルに基づき、かつ、音事象の位置ベクトルに基づいて、空間補助情報として到来方向を仮想マイクロホンと推定するように構成される。
図22は、仮想マイクロホンの視点から音の到来方向DOAを得るための可能な方法を表す。図19のブロック205によって与えられる音事象の位置は、位置ベクトルr(k,n)、音事象の位置ベクトルによって、時間―周波数ビン(k,n)ごとに、示されることができる。同様に、図19の入力104として与えられる仮想マイクロホンの位置は、位置ベクトルs(k,n)、仮想マイクロホンの位置ベクトルによって示されることができる。仮想マイクロホンの視方向(look direction)は、ベクトルv(k,n)によって示されることができる。仮想マイクロホンと関連する到来方向(DOA)は、a(k,n)で与えられる。それは、vと音伝搬経路h(k,n)との間の角度を示す。h(k,n)は、

h(k,n)=s(k,n)−r(k,n)

を使用することによって、算出されることができる。
所望の到来方向(DOA)a(k,n)は、ここで、例えばh(k,n)とv(k,n)の内積の定義、すなわち、

a(k,n)=arcos(h(k,n)・v(k,n)/(||h(k,n)||||v(k,n)||)

により、(k,n)ごとに算出される。
他の実施形態において、情報計算モジュール120は、図22で示すように、仮想マイクロホンの位置ベクトルに基づき、かつ、音事象の位置ベクトルに基づいて、仮想マイクロホンでのアクティブな音の強さを空間補助情報として推定するように構成されうる。
上で定められた到来方向(DOA)a(k,n)から、我々は仮想マイクロホンの位置でのアクティブな音の強さIa(k,n)を得ることができる。これについて、図19の仮想マイクロホンオーディオ信号105が、全指向性マイクロホンの出力に対応すると仮定される、例えば、我々が、仮想マイクロホンが、全指向性マイクロホンであると仮定する。さらに、図22の視方向(looking direction)vは、座標系のx軸と平行であるとみなされる。所望のアクティブな音の強さベクトルIa(k,n)が仮想マイクロホンの位置によるエネルギーの純流動を示すので、我々は、例えば式

Ia(k,n)=−(1/2ρ)|Pv(k,n)|2*[cos(k,n),sin(k,n)]T

に従って、Ia(k,n)を算出することができる。ここで、[]Tは、転置ベクトルを示し、ρは、空気密度であり、そして、Pv(k,n)は、仮想空間マイクロホン、例えば図19のブロック506の出力105により測定された音圧である。
アクティブな強度ベクトルが、一般の座標系において表されて算出されるが、仮想マイクロホンの位置でなお算出される場合、以下の式が適用されうる。
Ia(k,n)=(1/2ρ)|Pv(k,n)|2h(k,n)/||h(k,n)||。
Figure 2014501945
一実施形態によれば、拡散は、音響シーンの任意の位置で自由に位置付けられることができる仮想マイクロホン(Virtual Microphone)(VM)について生成された補助情報に対する付加的なパラメータとして算出されることができる。これにより、音響シーンの任意の点について、DirACストリーム、すなわち、オーディオ信号、到来方向および拡散を生じさせることが可能であるように、仮想マイクロホンの仮想位置でオーディオ信号に加えて拡散を算出する装置は、仮想DirACフロントエンドとして理解されうる。DirACストリームは、任意のマルチスピーカセットアップで、更に処理され、格納され、送信され、再生されることができる。この場合、聴取者は、あたかも仮想マイクロホンによって特定された位置におり、その方位で決定された方向を見ているかのように、音響シーンを経験する。
図23は、仮想マイクロホンで拡散を算出するための拡散計算ユニット801を含んでいる実施形態に従って、情報計算ブロックを示す。情報計算ブロック202が、図14の入力に加えて実在の空間マイクロホンで拡散を含む入力111〜11Nを受けるように構成される。ψ(SM1)〜ψ(SMN)がこれらの値を示すものとする。これらの付加的な入力は、情報計算モジュール202に送られる。拡散計算ユニット801の出力103は、仮想マイクロホンの位置で算出される拡散パラメータである。
一実施形態の拡散計算ユニット801は、より詳細を表している図24で示される。一実施形態によれば、N個の空間マイクロホンの各々の直接音および拡散音のエネルギーが推定される。そして、IPLSの位置に関する情報、並びに、空間および仮想マイクロホンの位置に関する情報を使用して、仮想マイクロホンの位置のこれらのエネルギーのN個の推定値が得られる。最後に、推定値は、推定精度を改善するために合成されることができ、仮想マイクロホンの拡散パラメータは、直ちに算出されることができる。
Figure 2014501945
Figure 2014501945
Figure 2014501945
Figure 2014501945
Figure 2014501945
上述のように、場合によっては、誤った到来方向が推定された場合に、例えば、音事象位置推定器によって行われる音事象位置推定は、失敗する。図25は、このようなシナリオを示す。これらの場合、異なる空間マイクロホンで推定された拡散パラメータに関係なく、空間的に整合的でない再生がありうるように、仮想マイクロホン103についての拡散は、1(すなわち、完全に拡散)にセットされることができる。
加えて、N個の空間マイクロホンでの到来方向(DOA)推定値の信頼性が、考慮されうる。これは、例えば、DOA推定器のばらつきまたはSNRに関して、表すことができる。この種の情報は、拡散サブカルキュレータ850によって考慮されることができ、その結果、VM拡散103は、到来方向(DOA)推定値が信頼できないという場合において人為的に増加することができる。実際に、結果として、位置推定値205も信頼できないであろう。
図1は、一実施形態による1つ又は複数の音源に関連したオーディオデータを含んでいるオーディオデータストリームに基づいて、少なくとも1つのオーディオ出力信号を生成するための装置150を示す。
装置150は、オーディオデータを含んでいるオーディオデータストリームを受信するための受信機160を含む。オーディオデータは、1つ又は複数の音源のそれぞれについて1つ又は複数の圧力値を含む。さらにまた、オーディオデータは、音源のそれぞれについて音源のうちの1つの位置を示している1つ又は複数の位置値を含む。さらに、その装置は、オーディオデータストリームのオーディオデータの1つ又は複数の圧力値のうちの少なくとも1つに基づいて、かつ、オーディオデータストリームのオーディオデータの1つ又は複数の位置値のうちの少なくとも1つに基づいて、少なくとも1つのオーディオ出力信号を生成するための合成モジュール170を含む。オーディオデータは、複数の時間―周波数ビンのうちの1つの時間―周波数ビンのために定められる。音源のそれぞれについて、少なくとも1つの圧力値は、オーディオデータに含まれる。ここで、少なくとも1つの圧力値は、例えば音源から生じる、発された音波に関する圧力値でありえる。圧力値はオーディオ信号の値、例えば、仮想マイクロホンのオーディオ出力信号を生成するための装置によって生成されたオーディオ出力信号の圧力値でありえる。ここで、仮想マイクロホンは、音源の位置で位置付けられる。
このように、図1は、上述のオーディオデータストリームを受信する又は処理するために用いられうる装置150を示す。すなわち、装置150は、受信機/合成側で用いられうる。オーディオデータストリームは、複数の音源のうちのそれぞれについて、1つ又は複数の圧力値および1つ又は複数の位置値を含むオーディオデータを含む。すなわち、圧力値および位置値のそれぞれは、記録されたオーディオシーンの1つ又は複数の音源のうちの特定の音源と関連する。これは、位置値が、録音するマイクロホンの代わりに音源の位置を示すことを意味する。圧力値に関して、これは、オーディオデータストリームが音源のそれぞれについて、1つ又は複数の圧力値を含むことを意味する。すなわち、圧力値は、実在の空間マイクロホンの記録に関連する代わりに、音源に関連するオーディオ信号を示す。
一実施形態によれば、受信機160は、オーディオデータを含んでいるオーディオデータストリームを受信するように構成されうる。ここで、オーディオデータはさらに、音源のそれぞれについて1つ又は複数の拡散値を含む。合成モジュール170は、1つ又は複数の拡散値のうちの少なくとも1つに基づいて、少なくとも1つのオーディオ出力信号を生成するように構成されうる。
図2は、一実施形態による1つ又は複数の音源に関連した音源データを含んでいるオーディオデータストリームを生成するための装置200を示す。オーディオデータストリームを生成するための装置200は、少なくとも1つの空間マイクロホンによって記録された少なくとも1つのオーディオ入力信号に基づいて、かつ、少なくとも2つの空間マイクロホンによって供給されたオーディオ補助情報に基づいて、音源データを決定するための決定器210を含む。さらにまた、装置200は、オーディオデータストリームが音源データを含むように、オーディオデータストリームを生成するためのデータストリーム生成器220を含む。音源データは、音源のそれぞれについて1つ又は複数の圧力値を含む。さらに、音源データは、音源のそれぞれについて音源位置を示している1つ又は複数の位置値を更に含む。さらにまた、音源データは、複数の時間―周波数ビンのうちの1つの時間―周波数ビンについて定められる。
それから、装置200によって生成されたオーディオデータストリームは、送信されうる。このように、装置200は、分析/送信機側で用いられうる。オーディオデータストリームは、1つ又は複数の圧力値を含むオーディオデータを含む、1つ又は複数の音源のそれぞれについて値を位置決めする。すなわち、圧力値および位置値のそれぞれは、記録されたオーディオシーンの1つ又は複数の音源のうちの特定の音源と関連する。これは、位置値に関して、位置値が、録音するマイクロホンの代わりに音源の位置を示すことを意味する。
別の実施形態において、決定器210は、少なくとも1つの空間マイクロホンによって拡散情報に基づいて、音源データを決定するように構成されうる。データストリーム生成器220は、オーディオデータストリームが音源データを含むように、オーディオデータストリームを生成するように構成されうる。さらに、音源データは、音源のそれぞれについて1つ又は複数の拡散値を含む。
図3aは、一実施形態によるオーディオデータストリームを示す。オーディオデータストリームは、時間―周波数ビンにおいてアクティブである2つの音源に関連したオーディオデータを含む。特に、図3aは、時間―周波数ビン(k,n)のために送信されるオーディオデータを示す。ここで、kは、周波数インデックスを意味し、nは、時間インデックスを意味する。オーディオデータは、第1の音源の圧力値P1、位置値Q1、および拡散値ψ1を含む。位置値Q1は、第1の音源の位置を示している3つの座標値X1、Y1、およびZ1を含む。さらにまた、オーディオデータは、第2の音源の圧力値P2、位置値Q2、および拡散値ψ2を含む。位置値Q2は、第2の音源の位置を示している3つの座標値X2、Y2、およびZ2を含む。
図3bは、他の実施形態によるオーディオストリームを示す。さらにまた、オーディオデータは、第1の音源の圧力値P1、位置値Q1、および拡散値ψ1を含む。位置値Q1は、第1の音源の位置を示している3つの座標値X1、Y1、およびZ1を含む。さらにまた、オーディオデータは、第2の音源の圧力値P2、位置値Q2、および拡散値ψ2を含む。位置値Q2は、第2の音源の位置を示している3つの座標値X2、Y2、およびZ2を含む。
図3cは、オーディオデータストリームの他の図を与える。オーディオデータストリームが、幾何ベースの空間オーディオ符号化(GAC)情報を供給するので、それはまた「幾何ベースの空間オーディオ符号化ストリーム(geometry−based spatial audio coding stream)」または「GACストリーム(GAC stream)」と呼ばれることもある。オーディオデータストリームは、1つ又は複数の音源、例えば1つ又は複数の等方的点音源(IPLS)に関する情報を含む。すでに上で説明されたように、GACストリームは、以下の信号を含むことができる。ここで、kおよびnは、考慮された時間―周波数ビンの周波数インデックスおよび時間インデックスを意味する。
●P(k,n):音源の、例えばIPLSの合成圧力。この信号は、おそらく直接音(IPLS自体から生じている音)と拡散音とを含む。
●Q(k,n):音源、例えばIPLSの位置(例えば3Dの直角座標):
その位置は、例えば、直角座標X(k,n)、Y(k,n)、Z(k,n)を含むことができる。
●IPLSでの拡散:ψ(k,n)。このパラメータは、P(k,n)において含まれる拡散音に対する直接音の出力比に関連する。P(k,n)=Pdir(k,n)+Pdiff(k,n)である場合、拡散を表す1つの可能性は、ψ(k,n)=|Pdiff(k,n)|2/|P(k,n)|2である。|P(k,n)|2が知られている場合、他の相当する表現、例えば、直接音対拡散音比(Direct to Diffuse Ratio)(DDR)Γ=|Pdir(k,n)|2/|Pdiff(k,n)|2が考えられる。
すでに述べたように、kおよびnは、周波数および時間インデックスをそれぞれ意味する。必要である場合、そして、分析がそれを可能にする場合、1つ又は複数のIPLSは、一定の時間―周波数スロットで示されることができる。これは、i番目の層(すなわち、i番目のIPLS)についての圧力信号が、Pi(k,n)で示されるように、M個の多層としての図3cに表される。便宜上、IPLSの位置は、ベクトルQi(k,n)=[Xi(k,n),Yi(k,n),Zi(k,n)]Tで表される。最新の技術とは異なり、GACストリームのすべてのパラメータが、1つ又は複数の音源に関して、例えばIPLSに関して、表され、従って、録音位置からの独立を達成する。図3cにおいては、図3aおよび3bと同様に、図のすべての量が、時間―周波数領域において考慮される。例えば、(k,n)表記は、簡単のため省略され、PiがPi(k,n)、例えばPi=Pi(k,n)を意味する。
以下に、一実施形態によるオーディオデータストリームを生成するための装置は、更に詳細に説明される。図2の装置として、図4の装置は、決定器210と、決定器210に類似しうるデータストリーム生成器220とを含む。その決定器が、それに基づいてデータストリーム生成器がオーディオデータストリームを生成する音源データを決定するために、オーディオ入力データを分析するので、決定器およびデータストリーム生成器は、「分析モジュール」とも呼ばれうる。(図4の分析モジュール410を参照)。
分析モジュール410は、N個の空間マイクロホンの記録から、GACストリームを算出する。要求されるM個の層(例えば情報が特定の時間―周波数ビンについてのオーディオデータストリームに含まれる音源の数)に応じて、空間マイクロホンの種類および数N、分析のための種々の方法が考えられる。2、3の例が、以下に挙げられる。
1つ目の例として、時間―周波数スロットごとの1つの音源、例えば1つのIPLSについてのパラメータ推定が考慮される。M=1の場合、GACストリームは、仮想空間マイクロホンが音源の位置において位置付けられることができるという点で、例えばIPLSの位置で、仮想マイクロホンのオーディオ出力信号を生成するための装置について上で説明された構想によって直ちに得られることができる。これは、圧力信号が、対応する位置推定値、およびおそらく拡散性と共に、IPLSの位置で算出されるのを可能にする。これらの3つのパラメータは、GACストリームに一まとめにされ、送信されるまたは格納される前に、図8のモジュール102によって、更に操作されることができる。
例えば、その決定器は、仮想マイクロホンのオーディオ出力信号を生成するための装置の音事象位置推定のために提案された構想を使用することによって音源の位置を決定することができる。さらに、その決定器は、オーディオ出力信号を生成するための装置を含むことができて、音源の位置での圧力値(例えば生成されるオーディオ出力信号の値)および拡散を算出する仮想マイクロホンの位置として、音源の決定された位置を使用することができる。
特に、例えば図4の決定器210は、データストリーム生成器220が、算出された圧力信号、位置推定値および拡散に基づいてオーディオデータストリームを生成するように構成される一方で、圧力信号、対応する位置推定値、および対応する拡散を決定するように構成される。
別の例として、時間―周波数スロットごとに2つの音源、例えば2つのIPLSのためのパラメータ推定が考慮される。分析モジュール410が時間―周波数ビンごとに2つの音源を推定することになる場合、最新技術の推定器に基づく以下の構想が使用されることができる。
図5は、2つの音源および2つの同一の線形マイクロホンアレイから成る音響シーンを示す。ESPRITが参照される。参照
[26]R.ロイおよびT.カイラス、ESPRIT −回転不変技術による信号パラメータの推定、音響、音声および信号処理、IEEE論文集、37(7):984―995、1989年7月
ESPRIT([26])は、各アレイで時間―周波数ビンごとに2つの到来方向(DOA)推定値を得るために、各アレイで別々に使用されることができる。ペアリングの不明瞭のため、これは、ソースの位置についての2つの考えられる解をもたらす。図5から分かるように、2つの考えられる解が(1,2)と(1’,2’)により与えられる。この不明瞭性を解決するために、以下の解決法を適用することができる。各ソースで発された信号は、推定されたソース位置の方向に向きを定められたビームフォーマを使用して、伝搬を補償するために適当な係数を適用する(例えば、波によって経験された減衰量の逆数を掛ける)ことによって推定される。これは、考えられる解の各々について各アレイで、ソースごとに実行されることができる。我々は、ソース(i,j)の各対のための推定エラーを定義することができる:

i,j=|Pi,1−Pi,2|+|Pj,1−Pj,2|、 (1)

ここで、(i,j)∈{(1,2),(1’,2’)}(図5を参照)およびPi,lが音源iのアレイrによって参照された補償された信号電力を表す。エラーは、実音源の一対について最小である。一旦、ペアリング問題が解決されて、正しい到来方向(DOA)推定値が計算されると、これらは、GACストリームに、対応する圧力信号および拡散評価と共に、一まとめにされる。圧力信号および拡散評価は、1つの音源のためのパラメータ推定のためにすでに説明された同じ方法を使用して得られることができる。
図6aは、一実施形態によるオーディオデータストリームに基づいて少なくとも1つのオーディオ出力信号を生成するための装置600を示す。装置600は、受信機610と合成モジュール620とを含む。受信機610は、音源のうちの少なくとも1つに関するオーディオデータの圧力値のうちの少なくとも1つ、オーディオデータの位置値のうちの少なくとも1つ、または、オーディオデータの拡散値のうちの少なくとも1つを修正することによって、受信されたオーディオデータストリームのオーディオデータを修正するための修正モジュール630を含む。
図6bは、一実施形態による1つ又は複数の音源に関連した音源データを含んでいるオーディオデータストリームを生成するための装置660を示す。オーディオデータストリームを生成するための装置は、決定器670、データストリーム生成器680を含み、さらに、音源のうちの少なくとも1つに関するオーディオデータの圧力値のうちの少なくとも1つ、オーディオデータの位置値のうちの少なくとも1つ、または、オーディオデータの拡散値のうちの少なくとも1つを修正することによって、データストリーム生成器によって生成されるオーディオデータストリームを修正するための修正モジュール690を含む。
図6aの修正モジュール610が、受信機/合成側で用いられる一方で、図6bの修正モジュール660は、送信機/分析側で用いられる。
修正モジュール610、660によって実行されるオーディオデータストリームの修正は、音響シーンの修正とみなすこともできる。このように、修正モジュール610、660は、音響シーン操作モジュールとも呼ばれうる。
GACストリームによって与えられた音場表現は、オーディオデータストリームの様々な種類の修正に、すなわち結果として、音響シーンの操作を可能にする。これに関連したいくつかの例は、以下の通りである。
1.音響シーンにおいて空間/ボリュームの任意のセクションを拡大すること(例えばそれを聴取者にとって広く見えるように点音源を拡張すること);
2.音響シーンにおいて空間/ボリュームの選択されたセクションを空間/ボリュームの他の任意のセクションに変換すること(変換された空間/ボリュームは、例えば、新たな位置に移動することを必要とするソースを含むことができる);
3.位置ベースのフィルタリング(音響シーンの選択された領域が強化されるかまたは部分的に/完全に抑制される)
以下において、オーディオデータストリーム、例えばGACストリームの層は、特定の時間―周波数ビンに関して、音源のうちの1つのすべてのオーディオデータを含むと仮定される。
図7は、一実施形態による修正モジュールを表す。図7の修正ユニットは、デマルチプレクサ401と、操作処理装置420と、マルチプレクサ405とを含む。
デマルチプレクサ401は、M層GACストリームの異なる層を分離して、M個の単一層GACストリームを形成するように構成される。さらに、操作処理装置420は、別々にGACストリームの各々に適用されるユニット402、403および404を含む。さらにまた、マルチプレクサ405は、操作された単一層GACストリームから結果として生じるM層GACストリームを形成するように構成される。
GACストリームからの位置データおよび実音源(例えばトーカー)の位置についての情報に基づいて、エネルギーは、時間―周波数ビンごとに特定の実音源と関連することができる。圧力値Pは、各実音源(例えばトーカー)のラウドネスを修正するために、それに応じて重み付けされる。それは、事前情報または実音源(例えばトーカー)の位置の推定値を必要とする。
いくつかの実施形態において、実音源の位置についての情報が利用できる場合、GACストリームから位置データに基づいて、エネルギーを時間―周波数ビンごとに特定の実音源と関連付けることができる。
オーディオデータストリーム、例えばGACストリームの操作は、図6aの、すなわち受信機/合成側の少なくとも1つのオーディオ出力信号、および/または、図6bの、すなわち送信機/分析側のオーディオデータストリームを生成するための装置600の修正モジュール630で生じうる。
例えば、オーディオデータストリーム、すなわち、GACストリームは、送信の前に、または、送信の後で合成の前に、修正されることができる。
受信機/合成側の図6aの修正モジュール630とは異なり、送信機/分析側の図6bの修正モジュール690は、入力111〜11N(記録された信号)および121〜12N(空間マイクロホンの相対位置および方位)からの追加情報を、この情報が送信機側で利用できるので、活用することができる。この情報を使用して、別の実施形態による修正装置が、実現されうる。そして、それは図8において表される。
図9は、システムの模式的概要を示すことによって実施形態を表す。ここで、GACストリームは、送信機/分析側に生成される。ここで、任意選択で、GACストリームは、送信機/分析側で修正モジュール102によって修正されることができる。ここで、GACストリームは、任意選択で、修正モジュール103によって受信機/合成側で修正されることができ、そして、GACストリームは、複数のオーディオ出力シグナル191、…、19Lを生成するために使用される。
Figure 2014501945
装置101の出力は、上述した音場表現であり、以下では、幾何ベースの空間オーディオ符号化(Geometry−based spatial Audio Coding)(GAC)ストリームとして意味される。
[20]ジョヴァンニ・デルガルト、オリバー・ティーレガルト、トビアス・ウェラーおよびE.A.P.ハベッツ、分散型配置によって集められた幾何的情報を使用した仮想マイクロホン信号の生成、ハンズフリー・スピーチ・コミュニケーションとマイクロホン配置(HSCMA’11)の第3回ジョイントワークショップ、エジンバラ、英国、2011年5月
における提案と同様に、そして、構成可能な仮想位置で仮想マイクロホンのオーディオ出力信号を生成するための装置について説明されたように、複雑な音響シーンは、時間―周波数表現、例えば短時間フーリエ変換(STFT)によって供給されるもの特定のスロットでアクティブである、音源、例えば、等方的点音源(IPLS)によってモデル化される。
GACストリームは、操作装置とも呼ばれうる任意の修正モジュール102で更に処理されうる。修正モジュール102は、多くの応用を可能にする。GACストリームは、送信されることができる、または、格納されることができる。GACストリームのパラメトリック性質は、非常に効率的である。合成/受信機側では、もう1つの任意の修正モジュール(操作ユニット)103が用いられることができる。結果として生じるGACストリームは、スピーカ信号を生成する合成ユニット104に入る。その録音からの表現の独立を与えられて、再生側のエンドユーザは、潜在的に音響シーンを操作することができて、自由に音響シーンの範囲内のリスニング位置および方位を決定することができる。
オーディオデータストリーム、例えば、GACストリームの修正/操作は、モジュール102での送信前又はその送信後で合成103前に、それに応じてGACストリームを修正することによって、図9の修正モジュール102および/または103で起こりうる。受信機/合成側の修正モジュール103と異なって、送信機/分析側の修正モジュール102は、入力111〜11N(空間マイクロホンによって供給されるオーディオデータ)および121〜12N(空間マイクロホンの相対位置および方位)から付加情報を、この情報が送信機側で利用できるように、実施することができる。図8は、この情報を使用する修正モジュールの別の実施形態を示す。
GACストリームの操作のための種々の構想の例は、図7および図8に関して以下において説明される。等しい基準信号を有するユニットは、等しい機能を有する。
1.ボリューム拡張
そのシーンの特定のエネルギーが、ボリュームVの範囲内に位置すると仮定する。ボリュームVは、環境の所定の領域を示しうる。Θは、対応する音源、例えばIPLSがボリュームVの範囲内に配置される時間―周波数ビン(k,n)のセットを意味する。
他のボリュームV’へのボリュームVの拡張が望まれる場合、これは、(決定ユニット403において評価される)(k,n)∈ΘのときはいつでもGACストリームの位置データにランダムな項を加えることによって達成される。そして、置換Q(k,n)=[X(k,n),Y(k,n),Z(k,n)]T(インデックスレイヤーは、説明を簡単にするためはずしている)。図7および図8のユニット404の出力431〜43Mが、

Q(k,n)=[X(k,n)+Φx(k,n);Y(k,n)+Φy(k,n)Z(k,n)+Φz(k,n)]T (2)

となる。ここで、Φx、ΦyおよびΦzが元のボリュームに関して新たなボリュームV’の幾何にその範囲が依存するランダム変数である。この構想は、例えば、音源を広く知覚させるために使用されることができる。この例において、元のボリュームVは、無限小に小さい、すなわち、音源、例えばIPLSは、同じ点Q(k,n)=[X(k,n),Y(k,n),Z(k,n)]T for all(k,n)∈Θに定位される。この機構は、位置パラメータQ(k,n)のディザリングの形としてみなされる。
一実施形態によれば、音源のそれぞれの位置値のそれぞれは、少なくとも2つの座標値を含み、座標値が、音源が環境の所定の領域内にあることを示すとき、修正モジュールは、座標値に少なくとも1つの乱数を加えることによって座標値を修正するように構成される。
2.ボリューム変換
ボリューム拡張に加えて、GACストリームの位置データは、音場の中で空間/ボリュームのセクションを再配置するために修正されることができる。この場合も、操作されるデータは、定位されたエネルギーの空間座標を含む。
Vはまた、再配置されるボリュームを示し、Θは、エネルギーがボリュームVの範囲内に定位されるすべての時間―周波数ビン(k,n)のセットを示す。さらに、ボリュームVは、環境の所定の領域を示しうる。
ボリューム再配置は、GACストリームを修正することによって達成されることができ、その結果、全ての時間―周波数ビン(k,n)∈Θについて、Q(k,n)は、ユニット404の出力431〜43Mのf(Q(k,n))により再配置され、ここで、fは、実行されるボリューム操作を示している空間座標(X,Y,Z)の関数である。関数fは、単純な一次変換、例えば回転、平行移動または他のいかなる合成の非線形マッピングも示しうる。この技術は、例えば、Θが、音源がボリュームVの範囲内に定位された時間―周波数ビンのセットに対応することを確実にすることによって、音響シーン内で一位置から他の位置に音源を動かすために、使用されることができる。その技術は、シーンミラーリング、シーンローテーション、シーン拡張および/または圧縮などの全体の音響シーンの様々な他の複雑な操作を可能にする。例えば、ボリュームVへの適当な線形マッピングを適用することによって、ボリューム拡張の相補的効果、すなわち、ボリューム圧縮が達成されうる。これは、例えば、f(Q(k,n))∈Vに、(k,n)∈ΘのQ(k,n)をマッピングすることによってなされうる。ここで、V’⊂Vであり、V’は、Vより著しく小さいボリュームを含む。
一実施形態によれば、座標値が、音源が環境の所定の領域内にあることを示すとき、修正モジュールは、座標値に確定関数を適用することによって座標値を修正するように構成される。
3.位置ベースのフィルタリング
幾何ベースのフィルタリング(または位置ベースのフィルタリング)の考えは、音響シーンから空間/ボリュームのセクションを増す又は完全に/部分的に取り除くための方法を提供する。しかし、ボリューム拡張および変換技術と比較すると、この場合、GACストリームからの圧力データだけが、適当なスカラー重みを適用することによって修正される。
幾何ベースのフィルタリングにおいて、図8に示されるように、送信機側102と受信機側修正モジュール103との間で、前者が適当なフィルタ重みの計算を補助するために入力111〜11Nおよび121〜12Nを使用しうるという点で、区別されうる。その目的が空間/ボリュームVの選択されたセクションから生じているエネルギーを抑制する/強化することであると仮定するならば、幾何ベースのフィルタリングは以下のように適用されることができる。すべての(k,n)∈Θについて、GACストリームの複合圧力P(k,n)は402の出力でηP(k,n)に修正される。ここで、ηは、例えばユニット402によって計算された、実在の重み係数である。いくつかの実施形態では、モジュール402は、拡散にも依存して重み係数を計算するように構成されることがありえる。
幾何ベースのフィルタリングの構想は、信号の増強およびソース分離などの複数のアプリケーションで使用されることができる。アプリケーションのいくつかおよび必要な事前情報は、以下を含む。
●非残響。部屋のジオメトリーを知っていることによって、空間周波数フィルタは、多重伝搬によって生じることがありえる部屋の境界の外側で定位されるエネルギーを抑制するために使用されることができる。例えば会議室および車でのハンズフリーコミュニケーションに関して、このアプリケーションが関心がある。遅い残響を抑制するために、高い拡散の場合にはフィルタを閉じるのに十分であり、一方、初期の反射を抑制するために、位置に依存するフィルタがより効果的であることに留意されたい。この場合、すでに述べたように、部屋のジオメトリーは、事前に知られていることを必要とする。
●バックグラウンドノイズ抑制。同様の構想は、同様にバックグラウンドノイズを抑制するために使用されることができる。ソースが位置付けされうる潜在的領域(例えば会議室の参加者の椅子または車の座席)が知られている場合、これらの領域の外に位置付けされるエネルギーは、バックグラウンドノイズに関連しており、従って、空間周波数フィルタによって抑制される。このアプリケーションは、ソースの近似の位置の、GACストリームの利用できるデータに基づいて、事前情報または推定値を必要とする。
●点状の干渉物の抑制。干渉物が空間において明らかに定位される場合、拡散であるよりはむしろ、位置ベースのフィルタリングは干渉物の位置で定位されるエネルギーを減らすために適用されることができる。それは、事前情報または干渉物の位置の推定値を必要とする。
●エコー制御。この場合、抑制される干渉物は、スピーカ信号である。この目的のために、点状の干渉物の場合と同様に、ちょうどスピーカ位置またはその近傍に定位されたエネルギーは、抑制される。それは、事前情報またはスピーカ位置の推定値を必要とする。 ●拡張された音声検出。幾何ベースのフィルタリング発明と関連した信号拡張技術は、従来のオーディオ活動検知システムにおいて、例えば車において、前処理ステップとして実行されることができる。非残響、またはノイズ抑制は、システム性能を改善するアドオンとして使用されることができる。
●監視。エネルギーだけを特定の領域から保存して、残りを抑制することは、監視アプリケーションの一般的に用いられる技術である。それは、幾何に関する事前情報および関心がある領域の位置を必要とする。
●ソース分離。複数の同時にアクティブであるソースを有する環境において、幾何ベースの空間フィルタリングは、ソース分離のために適用されることができる。ソースの位置に中央に置かれた適切に設計された空間周波数フィルタを位置付けることは、結果として他の同時にアクティブなソースの抑制/減弱になる。このイノベーションは、例えばSAOCのフロントエンドとして、使用されることができる。事前情報またはソース位置の推定値が必要である。
●位置に依存する自動利得調整(AGC)。位置に依存する重みは、例えば遠隔会議アプリケーションの異なるトーカーのラウドネスを等しくするために、使用されることができる。
以下に、実施形態による合成モジュールは、説明される。一実施形態によれば、合成モジュールは、オーディオデータストリームのオーディオデータの少なくとも1つの圧力値に基づいて、そして、オーディオデータストリームのオーディオデータの少なくとも1つの位置値に基づいて、少なくとも1つのオーディオ出力信号を生成するように構成されうる。少なくとも1つの圧力値は、圧力信号(例えばオーディオ信号)の圧力値でありうる。
GAC合成後の動作原理は、
[27]国際公開WO2004/077884号公報:タピオ・ロッキ、ユハ・メリマー、ビーレ・プルッキ、マルチチャンネルリスニングにおける自然のまたは修正された空間印象を再生するための方法、2006年
で与えられる空間音響の知覚に関する仮定により動機を与えられる。
特に、正しく音響シーンの空間像を知覚するために必要な空間キュー(cue)は、時間―周波数ビンごとに非拡散音響の到来方向を正しく再現することによって得ることができる。従って、図10aに表される合成は、2つのステージに分けられる。
第1のステージは音響シーンの範囲内で聴取者の位置および方位を考慮し、M個のIPLSのうちどれが時間―周波数ビンごとに有力であるかを決定する。従って、その圧力信号Pdirおよび到来方向θは計算されることができる。残りのソースおよび拡散音は、第2の圧力信号Pdiffに集められる。
第2のステージは、[27]に説明されたDirAC合成の後半と同一である。非拡散音響は、点音源を生み出すパニング機構で再現されるが、拡散音は非相関であった後にすべてのスピーカから再現される。
図10aは、GACストリームの合成を示している実施形態による合成モジュールを表す。
第1のステージ合成ユニット501は、異なって再生されることを必要とする圧力信号PdirおよびPdiffを計算する。実際に、Pdirが空間においてコヒーレントに再生されなければならない音響を含む一方で、Pdiffは拡散音を含む。第1のステージ合成ユニット501の第3の出力は、所望のリスニング位置の視点からの到来方向(DOA)θ505、すなわち到来方向情報である。到来方向(DOA)が、2D空間である場合には、方位角として、または、3Dにおいては、方位角および高度角の対によって表されうることに留意されたい。同等に、到来方向(DOA)で指し示された単位基準ベクトル使用することができる。到来方向(DOA)は、(所望のリスニング位置に対して)どの方向から信号Pdirが来るかについて特定する。第1のステージ合成ユニット501は、GACストリームを、入力、すなわち音場のパラメトリック表現とし、入力141によって特定された聴取者位置および方位に基づいて上述の信号を計算する。実際に、エンドユーザは、GACストリームによって示された音響シーンの範囲内で、自由にリスニング位置および方位を決定することができる。
第2のステージ合成ユニット502は、スピーカセットアップ131についての情報に基づいて、L個のスピーカ信号511〜51Lを計算する。ユニット502が[27]で説明されたDirAC合成の後半と同一であることを思い出してほしい。
図10bは、一実施形態による第1の合成ステージユニットを表す。ブロックに供給された入力は、M層からなるGACストリームである。第1のステップにおいて、ユニット601は、M層を、各々1つの層のM並列GACストリームに非多重化する。
i番目のGACストリームは、圧力信号Piと、拡散ψiと、位置ベクトルQi=[Xi,Yi,ZiTとを含む。圧力信号Piは、1つ又は複数の圧力値を含む。位置ベクトルは、位置値である。少なくとも1つのオーディオ出力信号は、ここで、これらの値に基づいて生成される。
直接および拡散音のための圧力信号Pdir,iおよびPdiff,iは、拡散ψiから得られた適当な係数を適用することによって、Piから得られる。直接音を含む圧力信号は、音源位置、例えばIPLS位置から聴取者の位置への信号伝搬に対応する遅延を算出する、伝搬補償ブロック602に入る。これに加えて、そのブロックはまた、異なるマグニチュード減衰を補償するために必要な利得係数を算出する。他の実施形態において、異なるマグニチュード減衰だけが補償され、その一方で、遅延は補償されない。
Figure 2014501945
Figure 2014501945
図10cは、第2の合成ステージユニット502を示す。すでに述べたように、このステージは、[27]において提案された合成モジュールの後半と同一である。非拡散音Pdir503は、例えばパニングによって点音源として再生され、その利得は、到来方向(505)に基づいてブロック701で計算される。一方、拡散音(Pdiff)は、L個の異なった非相関器(711〜71L)を通過する。L個のスピーカ信号の各々について、直接および拡散音パスは、逆フィルタバンク(703)を通過する前に付加される。
図11は、別の実施形態による合成モジュールを示す。図のすべての量は、時間―周波数領域において考慮される。(k,n)表記は、簡単にする理由で無視され、例えばPi=Pi(k,n)である。特に複雑な音響シーン、例えば同時にアクティブである多数のソースの場合に、再生についてのオーディオ品質を改善するために、合成モジュール、例えば合成モジュール104は、例えば、図11に示すように実現されうる。最も優位なIPLSをコヒーレントに再生されるように選択する代わりに、図11の合成は、別々にM層の各々の完全な合成を実行する。i番目の層からのL個のスピーカ信号は、ブロック502の出力であって、191i〜19Liにより示される。第1の合成ステージユニット501の出力のh番目のスピーカ信号19hは、19h1〜19hMの総和である。図10bとは異なって、ブロック607におけるDOA推定ステップがM層の各々について実行されることを必要とする点に留意されたい。
図26は、一実施形態による仮想マイクロホンデータストリームを生成するための装置950を示す。仮想マイクロホンデータストリームを生成するための装置950は、上記実施形態のうちの1つによる、例えば図12による、仮想マイクロホンのオーディオ出力信号を生成するための装置960と、上記実施形態のうちの1つによる、例えば図2による、オーディオデータストリームを生成するための装置970を含む。ここで、オーディオデータストリームを生成するための装置970により生成されたオーディオデータストリームは、仮想マイクロホンデータストリームである。
仮想マイクロホンのオーディオ出力信号を生成するための例えば図26の装置960は、図12のような音事象位置推定器および情報計算モジュールを含む。音事象位置推定器は、環境における音源の位置を示している音源位置を推定するように構成される。ここで、音事象位置推定器は、その環境の第1の実在のマイクロホン位置にある第1の実在の空間マイクロホンによって供給される第1の方向情報に基づいて、および、その環境の第2の実在のマイクロホン位置にある第2の実在の空間マイクロホンによって供給される第2の方向情報に基づいて、音源位置を推定するように構成される。情報計算モジュールは、記録されたオーディオ入力信号に基づいて、第1の実在のマイクロホン位置に基づいて、そして、算出されたマイクロホン位置に基づいて、オーディオ出力信号を生成するように構成される。
仮想マイクロホンのオーディオ出力信号を生成するための装置960は、オーディオデータストリームを生成するための装置970にオーディオ出力信号を供給するように配置される。オーディオデータストリームを生成する装置970は、決定器、例えば図2に関して説明された決定器210を含む。オーディオデータストリームを生成する装置970の決定器は、仮想マイクロホンのオーディオ出力信号を生成する装置960によって供給されるオーディオ出力信号に基づいて、音源データを決定する。
図27は、仮想マイクロホンデータストリームを生成する装置950、例えば図26の装置950によって供給されるオーディオデータストリームとしての仮想マイクロホンデータストリームに基づいて、オーディオ出力信号を生成するように構成される、上記の実施形態のうちの1つ、例えば請求項1の装置によりオーディオデータストリームに基づいて少なくとも1つのオーディオ出力信号を生成するための装置980を示す。
仮想マイクロホンデータストリームを生成するための装置980は、生成された仮想マイクロホン信号を、オーディオデータストリームに基づいて少なくとも1つのオーディオ出力信号を生成する装置980に送る。仮想マイクロホンデータストリームがオーディオデータストリームであることに留意する必要がある。オーディオデータストリームに基づく少なくとも1つのオーディオ出力信号のための装置980は、例えば、図1の装置について述べたように、オーディオデータストリームとして、仮想マイクロホンデータストリームに基づいてオーディオ出力信号を生成する。
いくつかの態様が装置に関連して説明されたが、これらの態様はまた、対応する方法の記載を示すことは明らかである。ここで、ブロックまたはデバイスは方法ステップまたは方法ステップの機能に対応する。同様に、方法ステップに関連して説明された態様も、対応する装置または項目の記載または対応する装置の機能を示す。
本発明の分解された信号は、デジタル記憶媒体に格納されることができる、または、無線伝送媒体またはインターネットなどの有線伝送媒体などの伝送媒体に送られることができる。
特定の実現要求に応じて、本発明の実施形態は、ハードウェアにおいて、または、ソフトウェアにおいて実行されることができる。その実施態様は、各方法が実行されるように、プログラミング可能な計算機システムと協動する(または協動することができる)、そこに格納される電子的に読み込み可能な制御信号を有するデジタル記憶媒体、例えばフロッピー(登録商標)ディスク、DVD、CD、ROM、PROM、EPROM、EEPROMまたはFLASHメモリを使用して実行されることができる。
本発明によるいくつかの実施形態は、本願明細書において説明された方法のうちの1つが実行されるように、プログラミング可能な計算機システムと協動することができる、電子的に読み込み可能な制御信号を有する非一時的データキャリアを含む。
通常、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実行されることができ、コンピュータプログラム製品がコンピュータ上で動作するときに、そのプログラムコードは、本方法のうちの1つを実行するために実施される。プログラムコードは、例えば機械読み取り可能なキャリアに格納されうる。
他の実施形態は、機械読み取り可読キャリアに格納された、本願明細書において説明された方法のうちの1つを実行するためのコンピュータプログラムを含む。
従って、換言すれば、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で動作するときに、本願明細書において説明された方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。
従って、本発明の方法の更なる実施形態は、その上に記録された、本願明細書において説明された方法のうちの1つを実行するためのコンピュータプログラムを含んでいるデータキャリア(またはデジタル記憶媒体またはコンピュータ可読媒体)である。
従って、本発明の方法の更なる実施形態は、本願明細書において説明された方法のうちの1つを実行するためのコンピュータプログラムを示しているデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して転送されるように構成されることができる。
更なる実施形態は、本願明細書において説明された方法のうちの1つを実行するために構成された又は適合された処理手段、例えばコンピュータまたはプログラム可能な論理回路を含む。
更なる実施形態は、本願明細書において説明された方法のうちの1つを実行するためのコンピュータプログラムをそこにインストールされているコンピュータを含む。
いくつかの実施形態において、プログラム可能な論理回路(例えば論理プログラミング可能デバイス)は、本願明細書において説明された方法の機能の一部又は全部を実行するために使用されることができる。いくつかの実施形態において、論理プログラミング可能デバイスは、本願明細書において説明された方法のうちの1つを実行するために、マイクロプロセッサと協動することができる。通常、本方法は、いかなるハードウェア装置によっても好ましくは実行される。
上記実施形態は、本発明の原理のために、単に図示しているだけである。本願明細書において説明された本装置および詳細の修正変更が、他の当業者にとって明らかであるものと理解される。従って、間近に迫った特許請求の範囲のみによって限定され、本願明細書における実施形態の記載および説明として示された具体的な詳細によっては限定されないという意図である。
「文献」
[1]マイケル A.ガーゾン.オーディオ多重放送およびビデオのアンビソニックス.J.Audio.Eng.Soc,33(11):859−871,1985.
[2]V.プルッキ、「空間再生およびステレオアップミキシングにおける方向オーディオ符号化」、第28回AES国際コンフェレンスの予稿集、pp.251―258、Pitea、スウェーデン、2006年6月30日〜7月2日
[3]V.プルッキ、「方向オーディオ符号化を用いた空間再生」、J.Audio.Eng.Soc、vol55、no.6、pp.503―516、2007年6月
[4]C.ファーラー、「空間オーディオ符号器に関するマイクロホンフロントエンド」、第125回AES国際コンベンションの予稿集、サンフランシスコ、2008年10月
[5]M.カリンガー、H.オクセンフェルト、G.デルガルド、F.キュッヒ、D.マーネ、R.シュルツ―アムリング、およびO.ティエルガルト、「方向オーディオ符号化のための空間フィルタリング手法」、Audio Engineering Society Convention 126、ミュンヘン、ドイツ、2009年5月
[6]R.シュルツ―アムリング、F.キュッヒ、O.ティエルガルト、およびM.カリンガー、「パラメトリック音場表現に基づく音響ズーミング」、Audio Engineering Society Convention 128、ロンドン、英国、2010年5月
[7]J.ヘーレ、C.ファルヒ、D.マーネ、G.デルガルト、M.カリンガー、およびO.ティエルガルト、「空間オーディオオブジェクト符号化および方向オーディオ符号化技術を組み合わせたインタラクティブ遠隔会議」、Audio Engineering Society Convention 128、ロンドン英国、2010年5月
[8]E.G.ウィリアムス、フーリエ音響学:音響放射および近場音響ホログラフィー、アカデミック・プレス、1999年
[9]A.クンツおよびR.ラベンシュタイン、「全周性測定からの波動場の外挿の限界」、15th European Signal Processing Conference(EUSIPCO 2007)、2007
[10]A・ワルターおよびC.フォーラ、「b―フォーマット記録を使用した間隔をおいたマイクロホンアレイの線形シミュレーション」、Audio Engineering Society Convention 128、ロンドン英国、2010年5月
[11]米国61/287,596公報:第2のパラメトリック空間オーディオ信号に第1のパラメトリック空間オーディオ信号を変換するための装置及び方法
[12]S.リカードおよびZ.ユルマズ、「音声の近似W−ディスジョイント直交性について」、Acoustics, Speech and Signal Processing、2002.ICASSP 2002年IEEE国際コンフェレンス、2002年4月、1巻
[13]R.ロイ、A.ポールラージおよびT.カイラス、「サブスペース回転による到来方向推定 ― ESPRIT」、Acoustics, Speech and Signal Processing(ICASSP)、IEEE国際コンフェレンス、スタンフォード、CA、USA、1986年4月
[14]R.シュミット、「複数のエミッタ位置および信号パラメータ推定」、IEEE Transactions on Antennas and Propagation、34巻、no.3、ページ276〜280、1986年
[15]J.マイケル・スティール、「平面のランダムサンプルの最適三角測量」、確率の紀要、10巻、No.3(1982年8月)、ページ548〜553
[16]F.J.ファヒー、音の強さ、エセックス:エルゼビア・サイエンス・パブリッシャーズ社、1989年
[17]R.シュルツ―アムリング、F.キュッヒ、M.カリンガー、G.デルガルト、T.アホネンおよびV.プルッキ、「分析のための平面マイクロホン・アレイ処理および方向オーディオ符号化を使用した空間オーディオの再生」、オーディオ技術学会規則124、アムステルダム、オランダ、2008年5月
[18]M.カリンガー、F.キュッヒ、R.シュルツ―アムリング、G.デルガルト、T.アホネンおよびV.プルッキ、「方向オーディオ符号化のためのマイクロホンアレイを用いた拡張された方向推定」、ハンズフリーオーディオ通信およびマイクロホンアレイ、2008.HSCMA 2008、2008年5月、ページ45〜48
[19]R.K.ファーネス、「アンビソニック ― 概要 ― 」、AES第8回国際コンフェレンス、1990年4月、ページ181〜189
[20]ジョヴァンニ・デルガルト、オリバー・ティーレガルト、トビアス・ウェラーおよびE.A.P.ハベッツ、分散型配置によって集められた幾何的情報を使用した仮想マイクロホン信号の生成、ハンズフリー・スピーチ・コミュニケーションとマイクロホン配置(HSCMA’11)の第3回ジョイントワークショップ、エジンバラ、英国、2011年5月
[21]J.ヘーレ、K.クジュルリング、J.ブリーバールト、C.ファーラー、S.ディッシュ、H.パルンハーゲン、J.コッペンス、J.ヒルペルト、J.レーデン、W.オーメン、K.リンツマイヤー、K.S.チョン、「MPEGサラウンド ―効率的かつ互換性を持つマルチチャンネルオーディオ符号化のためのISO/MPEG基準」、第122回AESコンベンション、ウィーン、オーストリア、2007年、プレプリント7048
[22]ビーレ・プルッキ、方向オーディオ符号化を用いた空間再生、J.Audio Eng.Soc、55(6):503―516、2007年6月
[23]C.ファーラー、空間オーディオコーダのためのマイクロホン・フロントエンド、第125回AES国際コンベンションのプロシーディング、サンフランシスコ、2008年10月
[24]エマニュエル・ガロおよびニコラス・ツィンゴス、フィールドレコーディングからの構造聴覚シーンの抽出とリレンダリング、AES第30回国際コンフェレンス、2007
[25]イェルーン・ブリーバールト、ジョナス・エングデガルト、コーネリア・ファルヒ、オリバー・ヘルムート、ヨハネス・ヒルペルト、アンドレアス・ホエルツァー、イェルーン・コッペンス、ワーナー・オーメン、バーバラ・レッシュ、エリク・シュイヤース、レオニード・テレンティーブ、空間オーディオオブジェクト符号化(saoc)−パラメトリック・オブジェクトベースのオーディオ符号化に関する最新のMPEG標準、AESコンベンション124回、2008年5月
[26]R.ロイおよびT.カイラス、ESPRIT −回転不変技術による信号パラメータの推定、音響、音声および信号処理、IEEE論文集、37(7):984―995、1989年7月
[27]国際公開WO2004/077884号公報:タピオ・ロッキ、ユハ・メリマー、ビーレ・プルッキ、マルチチャンネルリスニングにおける自然のまたは修正された空間印象を再生するための方法、2006年
[28]スヴェイン・ベルグ、空間オーディオ信号を変換するための装置および方法、米特許出願、出願番号10/547,151

Claims (25)

  1. 1つ又は複数の音源に関連したオーディオデータを含むオーディオデータストリームに基づいて、少なくとも1つのオーディオ出力信号を生成するための装置(150)であって、前記装置(150)は、
    前記オーディオデータを含む前記オーディオデータストリームを受信するための受信機(160)であって、前記オーディオデータは、前記1つ又は複数の音源のそれぞれについて、1つ又は複数の圧力値を含み、前記オーディオデータは、更に、前記1つ又は複数の音源のそれぞれについて、前記音源のうちの1つの位置を示している1つ又は複数の位置値を含み、前記1つ又は複数の位置値のそれぞれは、少なくとも2つの座標値を含む、前記受信機と、
    前記オーディオデータストリームの前記オーディオデータの前記1つ又は複数の圧力値のうちの少なくとも1つに基づき、かつ、前記オーディオデータストリームの前記オーディオデータの前記1つ又は複数の位置値のうちの少なくとも1つに基づいて、前記少なくとも1つのオーディオ出力信号を生成するための合成モジュール(170)とを含むことを特徴とする、前記装置(150)。
  2. 前記オーディオデータは、複数の時間―周波数ビンのうちの1つの時間―周波数ビンについて定められることを特徴とする、請求項1に記載の装置(150)。
  3. 前記受信機(160;610)は、前記オーディオデータを含む前記オーディオデータストリームを受信するように構成され、前記オーディオデータは、前記音源のそれぞれについて1つ又は複数の拡散値を更に含み、
    前記合成モジュール(170;620)は、前記オーディオデータストリームの前記オーディオデータの前記1つ又は複数の拡散値のうちの少なくとも1つに基づいて、前記少なくとも1つのオーディオ出力信号を生成するように構成されることを特徴とする、請求項1又は請求項2に記載の装置(150)。
  4. 前記受信機(160;610)は、前記オーディオデータの前記1つ又は複数の圧力値のうちの少なくとも1つを修正することによって、前記オーディオデータの前記1つ又は複数の位置値のうちの少なくとも1つを修正することによって、または、前記オーディオデータの前記1つ又は複数の拡散値のうちの少なくとも1つを修正することによって、前記受信されたオーディオデータストリームの前記オーディオデータを修正するための修正モジュール(630)を更に含み、
    前記合成モジュール(170;620)は、修正された前記少なくとも1つの圧力値に基づいて、修正された前記少なくとも1つの位置値に基づいて、または、修正された前記少なくとも1つの拡散値に基づいて、前記少なくとも1つのオーディオ出力信号を生成するように構成されることを特徴とする、請求項3に記載の装置(150)。
  5. 前記音源のそれぞれの前記位置値のそれぞれは、少なくとも2つの座標値を含み、前記修正モジュール(630)は、前記座標値が、音源が環境の予め定められた領域の範囲内の位置にあることを示すとき、前記座標値に少なくとも1つの乱数を加えることによって前記座標値を修正するように構成されることを特徴とする、請求項4に記載の装置(150)。
  6. 前記音源のそれぞれの前記位置値のそれぞれは、少なくとも2つの座標値を含み、前記修正モジュール(630)は、前記座標値が、音源が環境の予め定められた領域の範囲内の位置にあることを示すとき、前記座標値に確定関数を適用することによって前記座標値を修正するように構成されることを特徴とする、請求項4に記載の装置(150)。
  7. 前記音源のそれぞれの前記位置値のそれぞれは、少なくとも2つの座標値を含み、前記修正モジュール(630)は、前記座標値が、音源が環境の予め定められた領域の範囲内の位置にあることを示すとき、前記座標値と同じ音源に関連して、前記オーディオデータの前記1つ又は複数の圧力値のうちの選択された圧力値を修正するように構成されることを特徴とする、請求項4に記載の装置(150)。
  8. 前記修正モジュール(630)は、前記座標値が、前記音源が環境の予め定められた領域の範囲内の位置にあることを示すとき、前記1つ又は複数の拡散値のうちの1つに基づいて、前記オーディオデータの前記1つ又は複数の圧力値のうちの前記選択された圧力値を修正するように構成されることを特徴とする、請求項7に記載の装置(150)。
  9. 前記合成モジュールは、
    前記オーディオデータストリームの前記オーディオデータの前記1つ又は複数の圧力値のうちの少なくとも1つに基づいて、前記オーディオデータストリームの前記オーディオデータの前記1つ又は複数の位置値のうちの少なくとも1つに基づいて、および、前記オーディオデータストリームの前記オーディオデータの前記1つ又は複数の拡散値のうちの少なくとも1つに基づいて、直接音を含む直接圧力信号、拡散音を含む拡散圧力信号および到来方向情報を生成するための第1のステージ合成ユニット(501)と、
    前記直接圧力信号、前記拡散圧力信号および前記到来方向情報に基づいて、前記少なくとも1つのオーディオ出力信号を生成するための第2のステージ合成ユニット(502)とを含むことを特徴とする、請求項2〜請求項8のいずれかに記載の装置(150)。
  10. 1つ又は複数の音源に関連した音源データを含むオーディオデータストリームを生成するための装置(200)であって、オーディオデータストリームを生成するための前記装置は、
    少なくとも1つのマイクロホンによって記録された少なくとも1つのオーディオ入力信号に基づき、かつ、少なくとも2つの空間マイクロホンによって供給されたオーディオ補助情報に基づいて、前記音源データを決定するための決定器(210;670)と、
    前記オーディオデータストリームが前記音源データを含むように、前記オーディオデータストリームを生成するためのデータストリーム生成器(220;680)とを含み、
    前記音源データは、前記音源のそれぞれについて1つ又は複数の圧力値を含み、前記音源データは、前記音源のそれぞれについて音源位置を示している1つ又は複数の位置値を更に含むことを特徴とする、前記装置。
  11. 前記音源データは、複数の時間―周波数ビンのうちの1つの時間―周波数ビンについて定められることを特徴とする、請求項10に記載の装置(200)。
  12. 前記決定器(210;670)は、少なくとも1つの空間マイクロホンによって拡散情報に基づいて前記音源データを決定するように構成され、
    前記データストリーム生成器(220;680)は、前記オーディオデータストリームが前記音源データを含むように、前記オーディオデータストリームを生成するように構成され、
    前記音源データは、前記音源のそれぞれについて1つ又は複数の拡散値を更に含むことを特徴とする、請求項10又は請求項11に記載の装置(200)。
  13. 前記装置(200)は、前記音源のうちの少なくとも1つに関する前記オーディオデータの前記圧力値のうちの少なくとも1つ、前記オーディオデータの前記位置値のうちの少なくとも1つ、または、前記オーディオデータの前記拡散値のうちの少なくとも1つを修正することによって、前記データストリーム生成器によって生成された前記オーディオデータストリームを修正するための修正モジュール(690)を含むことを特徴とする、請求項12に記載の装置(200)。
  14. 前記音源のそれぞれの前記位置値のそれぞれは、少なくとも2つの座標値を含み、前記修正モジュール(690)は、前記座標値が、音源が環境の予め定められた領域の範囲内の位置にあることを示すとき、前記座標値に少なくとも1つの乱数を加えることによって、または、前記座標値に確定関数を適用することによって、前記座標値を修正するように構成されることを特徴とする、請求項13に記載の装置(200)。
  15. 前記音源のそれぞれの前記位置値のそれぞれは、少なくとも2つの座標値を含み、前記修正モジュール(690)は、前記座標値が、音源が環境の予め定められた領域の範囲内の位置にあることを示すとき、前記座標値と同じ音源に関連して、前記オーディオデータの前記1つ又は複数の圧力値のうちの選択された圧力値を修正するように構成されることを特徴とする、請求項13に記載の装置(200)。
  16. 前記修正モジュール(690)は、前記少なくとも1つのオーディオ入力信号のうちの少なくとも1つに基づいて、前記1つ又は複数の圧力値のうちの前記選択された圧力値を修正するように構成されることを特徴とする、請求項15に記載の装置(200)。
  17. 仮想マイクロホンデータストリームを生成するための装置(950)であって、
    仮想マイクロホンのオーディオ出力信号を生成するための装置(960)と、
    前記仮想マイクロホンデータストリームとして、オーディオデータストリームを生成するための請求項10〜請求項13のいずれかに記載の装置(970)とを含み、
    仮想マイクロホンのオーディオ出力信号を生成するための装置(960)は、
    前記環境の音源の位置を示している音源位置を推定するための音事象位置推定器(110)であって、前記音事象位置推定器(110)は、前記環境の第1の実在のマイクロホン位置にある第1の実在の空間マイクロホンによって供給された第1の方向情報に基づき、かつ、前記環境の第2の実在のマイクロホン位置にある第2の実在の空間マイクロホンによって供給された第2の方向情報に基づいて、前記音源位置を推定するように構成される、前記音事象位置推定器(110)と、
    記録されたオーディオ入力信号に基づいて、前記第1の実在のマイクロホン位置に基づいて、および、前記計算されたマイクロホン位置に基づいて、前記オーディオ出力信号を生成するための情報計算モジュール(120)とを含み、
    仮想マイクロホンのオーディオ出力信号を生成するための装置(960)は、オーディオデータストリームを生成するための前記装置(970)に前記オーディオ出力信号を供給するように配置されること、および、
    オーディオデータストリームを生成するための前記装置(970)の前記決定器は、仮想マイクロホンのオーディオ出力信号を生成するための前記装置(960)によって供給された前記オーディオ出力信号に基づいて、前記音源データを決定することを特徴とする、前記装置(950)。
  18. 請求項17に記載の仮想マイクロホンデータストリームを生成するための装置(950)によって供給された前記オーディオデータストリームとして、仮想マイクロホンデータストリームに基づいて、前記オーディオ出力信号を生成するように構成される、請求項1〜請求項9のいずれかに記載の装置(980)。
  19. 請求項1〜請求項9のいずれか又は請求項18に記載の装置と、
    請求項10〜請求項16のいずれかに記載の装置とを含む、システム。
  20. 1つ又は複数の音源に関連したオーディオデータを含むオーディオデータストリームであって、前記オーディオデータは、前記1つ又は複数の音源のそれぞれについて、1つ又は複数の圧力値を含むこと、および、
    前記オーディオデータは、前記1つ又は複数の音源のそれぞれについて、音源位置を示している1つ又は複数の位置値を含み、前記1つ又は複数の位置値のそれぞれは、少なくとも2つの座標値を含むことを特徴とする、オーディオデータストリーム。
  21. 前記オーディオデータは、複数の時間―周波数ビンのうちの1つの時間―周波数ビンについて定められることを特徴とする、請求項20に記載のオーディオデータストリーム。
  22. 前記オーディオデータは、前記1つ又は複数の音源のそれぞれについて1つ又は複数の拡散値を含むことを特徴とする、請求項20又は請求項21に記載のオーディオデータストリーム。
  23. 1つ又は複数の音源に関連したオーディオデータを含むオーディオデータストリームに基づいて、少なくとも1つのオーディオ出力信号を生成するための方法であって、
    前記オーディオデータストリームを受信するステップであって、前記オーディオデータストリームは、前記音源のそれぞれについて、1つ又は複数の圧力値を含み、前記オーディオデータストリームは、前記音源のそれぞれについて音源位置を示している1つ又は複数の位置値を含む、前記ステップと、
    前記オーディオストリームから、得られる圧力値を得るために前記圧力値の少なくともいくつか、および、得られる位置値を得るために前記位置の少なくともいくつかを決定するステップと、
    前記得られる圧力値の少なくともいくつかに基づき、かつ、前記得られた位置値の少なくともいくつかに基づいて、前記少なくとも1つのオーディオ出力信号を決定するステップとを含む、方法。
  24. 1つ又は複数の音源に関連したオーディオデータを含むオーディオデータストリームを生成するための方法であって、
    前記音源のそれぞれについて、少なくとも1つの圧力値を含むオーディオデータを受信するステップであって、前記オーディオデータは、前記音源のそれぞれについて、音源位置を示している1つ又は複数の位置値を更に含む、前記ステップと、
    前記オーディオデータストリームが、前記音源のそれぞれについて、1つ又は複数の圧力値を含み、かつ、前記オーディオデータストリームが、前記音源のそれぞれについて、音源位置を示している1つ又は複数の位置値を更に含むように、前記オーディオデータストリームを生成するステップとを含む、前記方法。
  25. コンピュータまたは処理装置で実行されるときに、請求項23又は請求項24の方法を実行するためのコンピュータプログラム。
JP2013541377A 2010-12-03 2011-12-02 幾何ベースの空間オーディオ符号化のための装置および方法 Active JP5878549B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US41962310P 2010-12-03 2010-12-03
US61/419,623 2010-12-03
US42009910P 2010-12-06 2010-12-06
US61/420,099 2010-12-06
PCT/EP2011/071644 WO2012072804A1 (en) 2010-12-03 2011-12-02 Apparatus and method for geometry-based spatial audio coding

Publications (2)

Publication Number Publication Date
JP2014501945A true JP2014501945A (ja) 2014-01-23
JP5878549B2 JP5878549B2 (ja) 2016-03-08

Family

ID=45406686

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2013541374A Active JP5728094B2 (ja) 2010-12-03 2011-12-02 到来方向推定から幾何学的な情報の抽出による音取得
JP2013541377A Active JP5878549B2 (ja) 2010-12-03 2011-12-02 幾何ベースの空間オーディオ符号化のための装置および方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2013541374A Active JP5728094B2 (ja) 2010-12-03 2011-12-02 到来方向推定から幾何学的な情報の抽出による音取得

Country Status (16)

Country Link
US (2) US9396731B2 (ja)
EP (2) EP2647222B1 (ja)
JP (2) JP5728094B2 (ja)
KR (2) KR101442446B1 (ja)
CN (2) CN103460285B (ja)
AR (2) AR084091A1 (ja)
AU (2) AU2011334851B2 (ja)
BR (1) BR112013013681B1 (ja)
CA (2) CA2819502C (ja)
ES (2) ES2525839T3 (ja)
HK (1) HK1190490A1 (ja)
MX (2) MX338525B (ja)
PL (1) PL2647222T3 (ja)
RU (2) RU2556390C2 (ja)
TW (2) TWI489450B (ja)
WO (2) WO2012072804A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016056410A1 (ja) * 2014-10-10 2016-04-14 ソニー株式会社 音声処理装置および方法、並びにプログラム
JP2020501428A (ja) * 2016-12-05 2020-01-16 マジック リープ, インコーポレイテッドMagic Leap,Inc. 仮想現実(vr)、拡張現実(ar)、および複合現実(mr)システムのための分散型オーディオ捕捉技法
JP2020098365A (ja) * 2016-03-15 2020-06-25 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 音場記述を生成する装置、方法、及びコンピュータプログラム

Families Citing this family (103)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
EP2600637A1 (en) * 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for microphone positioning based on a spatial power density
US10154361B2 (en) 2011-12-22 2018-12-11 Nokia Technologies Oy Spatial audio processing apparatus
CN104054126B (zh) * 2012-01-19 2017-03-29 皇家飞利浦有限公司 空间音频渲染和编码
BR112015004625B1 (pt) 2012-09-03 2021-12-07 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Aparelho e método para fornecer uma estimativa de probabilidade de presença de voz multicanal informada.
WO2014046916A1 (en) * 2012-09-21 2014-03-27 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
US10136239B1 (en) 2012-09-26 2018-11-20 Foundation For Research And Technology—Hellas (F.O.R.T.H.) Capturing and reproducing spatial sound apparatuses, methods, and systems
US10175335B1 (en) 2012-09-26 2019-01-08 Foundation For Research And Technology-Hellas (Forth) Direction of arrival (DOA) estimation apparatuses, methods, and systems
US9554203B1 (en) 2012-09-26 2017-01-24 Foundation for Research and Technolgy—Hellas (FORTH) Institute of Computer Science (ICS) Sound source characterization apparatuses, methods and systems
US9955277B1 (en) 2012-09-26 2018-04-24 Foundation For Research And Technology-Hellas (F.O.R.T.H.) Institute Of Computer Science (I.C.S.) Spatial sound characterization apparatuses, methods and systems
US9549253B2 (en) * 2012-09-26 2017-01-17 Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) Sound source localization and isolation apparatuses, methods and systems
US20160210957A1 (en) * 2015-01-16 2016-07-21 Foundation For Research And Technology - Hellas (Forth) Foreground Signal Suppression Apparatuses, Methods, and Systems
US10149048B1 (en) 2012-09-26 2018-12-04 Foundation for Research and Technology—Hellas (F.O.R.T.H.) Institute of Computer Science (I.C.S.) Direction of arrival estimation and sound source enhancement in the presence of a reflective surface apparatuses, methods, and systems
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
FR2998438A1 (fr) * 2012-11-16 2014-05-23 France Telecom Acquisition de donnees sonores spatialisees
EP2747451A1 (en) 2012-12-21 2014-06-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Filter and method for informed spatial filtering using multiple instantaneous direction-of-arrivial estimates
CN104010265A (zh) 2013-02-22 2014-08-27 杜比实验室特许公司 音频空间渲染设备及方法
CN104019885A (zh) * 2013-02-28 2014-09-03 杜比实验室特许公司 声场分析***
US9979829B2 (en) 2013-03-15 2018-05-22 Dolby Laboratories Licensing Corporation Normalization of soundfield orientations based on auditory scene analysis
WO2014171791A1 (ko) 2013-04-19 2014-10-23 한국전자통신연구원 다채널 오디오 신호 처리 장치 및 방법
CN108810793B (zh) 2013-04-19 2020-12-15 韩国电子通信研究院 多信道音频信号处理装置及方法
US9769586B2 (en) 2013-05-29 2017-09-19 Qualcomm Incorporated Performing order reduction with respect to higher order ambisonic coefficients
CN104244164A (zh) 2013-06-18 2014-12-24 杜比实验室特许公司 生成环绕立体声声场
CN104240711B (zh) * 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、***和装置
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830052A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
US9319819B2 (en) * 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
EP3028476B1 (en) 2013-07-30 2019-03-13 Dolby International AB Panning of audio objects to arbitrary speaker layouts
CN104637495B (zh) * 2013-11-08 2019-03-26 宏达国际电子股份有限公司 电子装置以及音频信号处理方法
CN103618986B (zh) * 2013-11-19 2015-09-30 深圳市新一代信息技术研究院有限公司 一种3d空间中音源声像体的提取方法及装置
CN112351367B (zh) 2013-11-22 2022-11-29 苹果公司 用于调节由扬声器阵列发出的声音的方法、***和设备
ES2833424T3 (es) 2014-05-13 2021-06-15 Fraunhofer Ges Forschung Aparato y método para panoramización de amplitud de atenuación de bordes
US9620137B2 (en) * 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
DE112015003945T5 (de) * 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
CN110636415B (zh) 2014-08-29 2021-07-23 杜比实验室特许公司 用于处理音频的方法、***和存储介质
CN104168534A (zh) * 2014-09-01 2014-11-26 北京塞宾科技有限公司 一种全息音频装置及控制方法
US9774974B2 (en) * 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
CN104378570A (zh) * 2014-09-28 2015-02-25 小米科技有限责任公司 录音方法及装置
US9794721B2 (en) 2015-01-30 2017-10-17 Dts, Inc. System and method for capturing, encoding, distributing, and decoding immersive audio
TWI579835B (zh) * 2015-03-19 2017-04-21 絡達科技股份有限公司 音效增益方法
EP3079074A1 (fr) * 2015-04-10 2016-10-12 B<>Com Procédé de traitement de données pour l'estimation de paramètres de mixage de signaux audio, procédé de mixage, dispositifs, et programmes d'ordinateurs associés
US9609436B2 (en) 2015-05-22 2017-03-28 Microsoft Technology Licensing, Llc Systems and methods for audio creation and delivery
US9530426B1 (en) 2015-06-24 2016-12-27 Microsoft Technology Licensing, Llc Filtering sounds for conferencing applications
US9601131B2 (en) * 2015-06-25 2017-03-21 Htc Corporation Sound processing device and method
WO2017004584A1 (en) 2015-07-02 2017-01-05 Dolby Laboratories Licensing Corporation Determining azimuth and elevation angles from stereo recordings
HK1255002A1 (zh) 2015-07-02 2019-08-02 杜比實驗室特許公司 根據立體聲記錄確定方位角和俯仰角
GB2543275A (en) * 2015-10-12 2017-04-19 Nokia Technologies Oy Distributed audio capture and mixing
TWI577194B (zh) * 2015-10-22 2017-04-01 山衛科技股份有限公司 環境音源辨識系統及其環境音源辨識之方法
US10425726B2 (en) * 2015-10-26 2019-09-24 Sony Corporation Signal processing device, signal processing method, and program
US10206040B2 (en) * 2015-10-30 2019-02-12 Essential Products, Inc. Microphone array for generating virtual sound field
EP3174316B1 (en) * 2015-11-27 2020-02-26 Nokia Technologies Oy Intelligent audio rendering
US9894434B2 (en) * 2015-12-04 2018-02-13 Sennheiser Electronic Gmbh & Co. Kg Conference system with a microphone array system and a method of speech acquisition in a conference system
US11064291B2 (en) 2015-12-04 2021-07-13 Sennheiser Electronic Gmbh & Co. Kg Microphone array system
US9956910B2 (en) * 2016-07-18 2018-05-01 Toyota Motor Engineering & Manufacturing North America, Inc. Audible notification systems and methods for autonomous vehicles
GB2554446A (en) * 2016-09-28 2018-04-04 Nokia Technologies Oy Spatial audio signal format generation from a microphone array using adaptive capture
US9986357B2 (en) 2016-09-28 2018-05-29 Nokia Technologies Oy Fitting background ambiance to sound objects
US10820097B2 (en) 2016-09-29 2020-10-27 Dolby Laboratories Licensing Corporation Method, systems and apparatus for determining audio representation(s) of one or more audio sources
US9980078B2 (en) 2016-10-14 2018-05-22 Nokia Technologies Oy Audio object modification in free-viewpoint rendering
CN106708041B (zh) * 2016-12-12 2020-12-29 西安Tcl软件开发有限公司 智能音箱、智能音箱定向移动方法及装置
US11096004B2 (en) 2017-01-23 2021-08-17 Nokia Technologies Oy Spatial audio rendering point extension
US10366700B2 (en) 2017-02-08 2019-07-30 Logitech Europe, S.A. Device for acquiring and processing audible input
US10229667B2 (en) 2017-02-08 2019-03-12 Logitech Europe S.A. Multi-directional beamforming device for acquiring and processing audible input
US10366702B2 (en) 2017-02-08 2019-07-30 Logitech Europe, S.A. Direction detection device for acquiring and processing audible input
US10362393B2 (en) 2017-02-08 2019-07-23 Logitech Europe, S.A. Direction detection device for acquiring and processing audible input
US10531219B2 (en) 2017-03-20 2020-01-07 Nokia Technologies Oy Smooth rendering of overlapping audio-object interactions
US10397724B2 (en) 2017-03-27 2019-08-27 Samsung Electronics Co., Ltd. Modifying an apparent elevation of a sound source utilizing second-order filter sections
US11074036B2 (en) 2017-05-05 2021-07-27 Nokia Technologies Oy Metadata-free audio-object interactions
US10165386B2 (en) * 2017-05-16 2018-12-25 Nokia Technologies Oy VR audio superzoom
IT201700055080A1 (it) * 2017-05-22 2018-11-22 Teko Telecom S R L Sistema di comunicazione wireless e relativo metodo per il trattamento di dati fronthaul di uplink
US10602296B2 (en) 2017-06-09 2020-03-24 Nokia Technologies Oy Audio object adjustment for phase compensation in 6 degrees of freedom audio
US10334360B2 (en) * 2017-06-12 2019-06-25 Revolabs, Inc Method for accurately calculating the direction of arrival of sound at a microphone array
GB2563606A (en) 2017-06-20 2018-12-26 Nokia Technologies Oy Spatial audio processing
GB201710085D0 (en) 2017-06-23 2017-08-09 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
GB201710093D0 (en) * 2017-06-23 2017-08-09 Nokia Technologies Oy Audio distance estimation for spatial audio processing
KR102654507B1 (ko) 2017-07-14 2024-04-05 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 다중-지점 음장 묘사를 이용하여 증강된 음장 묘사 또는 수정된 음장 묘사를 생성하기 위한 개념
KR102652670B1 (ko) 2017-07-14 2024-04-01 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 다중-층 묘사를 이용하여 증강된 음장 묘사 또는 수정된 음장 묘사를 생성하기 위한 개념
CN111108555B (zh) 2017-07-14 2023-12-15 弗劳恩霍夫应用研究促进协会 使用深度扩展DirAC技术或其他技术生成经增强的声场描述或经修改的声场描述的装置和方法
US10264354B1 (en) * 2017-09-25 2019-04-16 Cirrus Logic, Inc. Spatial cues from broadside detection
US11395087B2 (en) 2017-09-29 2022-07-19 Nokia Technologies Oy Level-based audio-object interactions
CN111201784B (zh) 2017-10-17 2021-09-07 惠普发展公司,有限责任合伙企业 通信***、用于通信的方法和视频会议***
US10542368B2 (en) 2018-03-27 2020-01-21 Nokia Technologies Oy Audio content modification for playback audio
TWI690921B (zh) * 2018-08-24 2020-04-11 緯創資通股份有限公司 收音處理裝置及其收音處理方法
US11017790B2 (en) * 2018-11-30 2021-05-25 International Business Machines Corporation Avoiding speech collisions among participants during teleconferences
TWI751457B (zh) 2018-12-07 2022-01-01 弗勞恩霍夫爾協會 使用直流分量補償用於編碼、解碼、場景處理及基於空間音訊編碼與DirAC有關的其他程序的裝置、方法及電腦程式
CN113841197B (zh) * 2019-03-14 2022-12-27 博姆云360公司 具有优先级的空间感知多频带压缩***
EP4005233A1 (en) 2019-07-30 2022-06-01 Dolby Laboratories Licensing Corporation Adaptable spatial audio playback
US11968268B2 (en) 2019-07-30 2024-04-23 Dolby Laboratories Licensing Corporation Coordination of audio devices
KR102154553B1 (ko) * 2019-09-18 2020-09-10 한국표준과학연구원 지향성이 향상된 마이크로폰 어레이 및 이를 이용한 음장 취득 방법
EP3963902A4 (en) 2019-09-24 2022-07-13 Samsung Electronics Co., Ltd. METHODS AND SYSTEMS FOR MIXED AUDIO SIGNAL RECORDING AND DIRECTIONAL AUDIO CONTENT REPRODUCTION
TW202123220A (zh) 2019-10-30 2021-06-16 美商杜拜研究特許公司 使用方向性元資料之多通道音頻編碼及解碼
GB2590504A (en) * 2019-12-20 2021-06-30 Nokia Technologies Oy Rotating camera and microphone configurations
CN113284504A (zh) * 2020-02-20 2021-08-20 北京三星通信技术研究有限公司 姿态检测方法、装置、电子设备及计算机可读存储介质
US11277689B2 (en) 2020-02-24 2022-03-15 Logitech Europe S.A. Apparatus and method for optimizing sound quality of a generated audible signal
US11425523B2 (en) * 2020-04-10 2022-08-23 Facebook Technologies, Llc Systems and methods for audio adjustment
CN111951833A (zh) * 2020-08-04 2020-11-17 科大讯飞股份有限公司 语音测试方法、装置、电子设备和存储介质
CN112083379B (zh) * 2020-09-09 2023-10-20 极米科技股份有限公司 基于声源定位的音频播放方法、装置、投影设备及介质
JPWO2022162878A1 (ja) * 2021-01-29 2022-08-04
CN116918350A (zh) * 2021-04-25 2023-10-20 深圳市韶音科技有限公司 声学装置
US20230036986A1 (en) * 2021-07-27 2023-02-02 Qualcomm Incorporated Processing of audio signals from multiple microphones
DE202022105574U1 (de) 2022-10-01 2022-10-20 Veerendra Dakulagi Ein System zur Klassifizierung mehrerer Signale für die Schätzung der Ankunftsrichtung

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01109996A (ja) * 1987-10-23 1989-04-26 Sony Corp マイクロホン装置
JP2002051399A (ja) * 2000-08-03 2002-02-15 Sony Corp 音声信号処理方法及び音声信号処理装置
JP2004193877A (ja) * 2002-12-10 2004-07-08 Sony Corp 音像定位信号処理装置および音像定位信号処理方法
JP2006503491A (ja) * 2002-10-15 2006-01-26 韓國電子通信研究院 空間性が拡張された音源を有する3次元音響シーンの生成及び消費方法
JP2008028700A (ja) * 2006-07-21 2008-02-07 Sony Corp 音声信号処理装置、音声信号処理方法および音声信号処理プログラム
JP2008245984A (ja) * 2007-03-30 2008-10-16 Konami Digital Entertainment:Kk ゲーム音出力装置、音像定位制御方法、および、プログラム
JP2009216473A (ja) * 2008-03-07 2009-09-24 Univ Nihon 音源距離計測装置及びそれを用いた音響情報分離装置
JP2009537876A (ja) * 2006-05-19 2009-10-29 韓國電子通信研究院 プリセットオーディオシーンを用いたオブジェクトベースの3次元オーディオサービスシステム及びその方法
WO2010128136A1 (en) * 2009-05-08 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder

Family Cites Families (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04181898A (ja) * 1990-11-15 1992-06-29 Ricoh Co Ltd マイクロホン
JPH1063470A (ja) * 1996-06-12 1998-03-06 Nintendo Co Ltd 画像表示に連動する音響発生装置
US6577738B2 (en) * 1996-07-17 2003-06-10 American Technology Corporation Parametric virtual speaker and surround-sound system
US6072878A (en) 1997-09-24 2000-06-06 Sonic Solutions Multi-channel surround sound mastering and reproduction techniques that preserve spatial harmonics
JP3344647B2 (ja) * 1998-02-18 2002-11-11 富士通株式会社 マイクロホンアレイ装置
JP3863323B2 (ja) 1999-08-03 2006-12-27 富士通株式会社 マイクロホンアレイ装置
EP1275272B1 (en) * 2000-04-19 2012-11-21 SNK Tech Investment L.L.C. Multi-channel surround sound mastering and reproduction techniques that preserve spatial harmonics in three dimensions
KR100387238B1 (ko) * 2000-04-21 2003-06-12 삼성전자주식회사 오디오 변조 기능을 갖는 오디오 재생 장치 및 방법, 그장치를 적용한 리믹싱 장치 및 방법
GB2364121B (en) 2000-06-30 2004-11-24 Mitel Corp Method and apparatus for locating a talker
KR100626661B1 (ko) * 2002-10-15 2006-09-22 한국전자통신연구원 공간성이 확장된 음원을 갖는 3차원 음향 장면 처리 방법
KR101014404B1 (ko) * 2002-11-15 2011-02-15 소니 주식회사 오디오신호의 처리방법 및 처리장치
KR20040060718A (ko) 2002-12-28 2004-07-06 삼성전자주식회사 오디오 스트림 믹싱 방법, 그 장치 및 그 정보저장매체
EP1576602A4 (en) 2002-12-28 2008-05-28 Samsung Electronics Co Ltd METHOD AND DEVICE FOR MIXING AUDIO SEQUENCE AND INFORMATION RECORDING MEDIUM
JP3639280B2 (ja) * 2003-02-12 2005-04-20 任天堂株式会社 ゲームメッセージ表示方法およびゲームプログラム
FI118247B (fi) 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
JP4133559B2 (ja) 2003-05-02 2008-08-13 株式会社コナミデジタルエンタテインメント 音声再生プログラム、音声再生方法及び音声再生装置
US20060104451A1 (en) * 2003-08-07 2006-05-18 Tymphany Corporation Audio reproduction system
RU2396608C2 (ru) * 2004-04-05 2010-08-10 Конинклейке Филипс Электроникс Н.В. Способ, устройство, кодирующее устройство, декодирующее устройство и аудиосистема
GB2414369B (en) * 2004-05-21 2007-08-01 Hewlett Packard Development Co Processing audio data
KR100586893B1 (ko) 2004-06-28 2006-06-08 삼성전자주식회사 시변 잡음 환경에서의 화자 위치 추정 시스템 및 방법
WO2006006935A1 (en) 2004-07-08 2006-01-19 Agency For Science, Technology And Research Capturing sound from a target region
US7617501B2 (en) 2004-07-09 2009-11-10 Quest Software, Inc. Apparatus, system, and method for managing policies on a computer having a foreign operating system
US7903824B2 (en) * 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
DE102005010057A1 (de) 2005-03-04 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms
WO2006105105A2 (en) 2005-03-28 2006-10-05 Sound Id Personal sound system
JP4273343B2 (ja) * 2005-04-18 2009-06-03 ソニー株式会社 再生装置および再生方法
US20070047742A1 (en) 2005-08-26 2007-03-01 Step Communications Corporation, A Nevada Corporation Method and system for enhancing regional sensitivity noise discrimination
JP5038145B2 (ja) * 2005-10-18 2012-10-03 パイオニア株式会社 定位制御装置、定位制御方法、定位制御プログラムおよびコンピュータに読み取り可能な記録媒体
CN101473645B (zh) * 2005-12-08 2011-09-21 韩国电子通信研究院 使用预设音频场景的基于对象的三维音频服务***
DE602007004451D1 (de) 2006-02-21 2010-03-11 Koninkl Philips Electronics Nv Audiokodierung und audiodekodierung
GB0604076D0 (en) * 2006-03-01 2006-04-12 Univ Lancaster Method and apparatus for signal presentation
EP1989926B1 (en) 2006-03-01 2020-07-08 Lancaster University Business Enterprises Limited Method and apparatus for signal presentation
US8374365B2 (en) * 2006-05-17 2013-02-12 Creative Technology Ltd Spatial audio analysis and synthesis for binaural reproduction and format conversion
US20080004729A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
US8229754B1 (en) * 2006-10-23 2012-07-24 Adobe Systems Incorporated Selecting features of displayed audio data across time
EP2595148A3 (en) * 2006-12-27 2013-11-13 Electronics and Telecommunications Research Institute Apparatus for coding multi-object audio signals
JP4449987B2 (ja) * 2007-02-15 2010-04-14 ソニー株式会社 音声処理装置、音声処理方法およびプログラム
US9015051B2 (en) * 2007-03-21 2015-04-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Reconstruction of audio channels with direction parameters indicating direction of origin
EP2147567B1 (en) 2007-04-19 2013-04-10 Epos Development Ltd. Voice and position localization
FR2916078A1 (fr) * 2007-05-10 2008-11-14 France Telecom Procede de codage et decodage audio, codeur audio, decodeur audio et programmes d'ordinateur associes
US8180062B2 (en) * 2007-05-30 2012-05-15 Nokia Corporation Spatial sound zooming
US20080298610A1 (en) 2007-05-30 2008-12-04 Nokia Corporation Parameter Space Re-Panning for Spatial Audio
JP5294603B2 (ja) * 2007-10-03 2013-09-18 日本電信電話株式会社 音響信号推定装置、音響信号合成装置、音響信号推定合成装置、音響信号推定方法、音響信号合成方法、音響信号推定合成方法、これらの方法を用いたプログラム、及び記録媒体
GB2467668B (en) * 2007-10-03 2011-12-07 Creative Tech Ltd Spatial audio analysis and synthesis for binaural reproduction and format conversion
KR101415026B1 (ko) 2007-11-19 2014-07-04 삼성전자주식회사 마이크로폰 어레이를 이용한 다채널 사운드 획득 방법 및장치
DE212009000019U1 (de) 2008-01-10 2010-09-02 Sound Id, Mountain View Persönliches Schallsystem für die Anzeige eines Schalldruckpegels oder einer anderen Umgebungsbedingung
JP2009246827A (ja) * 2008-03-31 2009-10-22 Nippon Hoso Kyokai <Nhk> 音源及び仮想音源の位置特定装置、方法及びプログラム
KR101461685B1 (ko) * 2008-03-31 2014-11-19 한국전자통신연구원 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치
US8457328B2 (en) * 2008-04-22 2013-06-04 Nokia Corporation Method, apparatus and computer program product for utilizing spatial information for audio signal enhancement in a distributed network environment
EP2154677B1 (en) 2008-08-13 2013-07-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a converted spatial audio signal
EP2154910A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for merging spatial audio streams
US8023660B2 (en) * 2008-09-11 2011-09-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for providing a set of spatial cues on the basis of a microphone signal and apparatus for providing a two-channel audio signal and a set of spatial cues
KR101392546B1 (ko) * 2008-09-11 2014-05-08 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 마이크로폰 신호를 기반으로 공간 큐의 세트를 제공하는 장치, 방법 및 컴퓨터 프로그램과, 2채널 오디오 신호 및 공간 큐의 세트를 제공하는 장치
ES2733878T3 (es) * 2008-12-15 2019-12-03 Orange Codificación mejorada de señales de audio digitales multicanales
JP5309953B2 (ja) 2008-12-17 2013-10-09 ヤマハ株式会社 収音装置
EP2205007B1 (en) * 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
US8867754B2 (en) 2009-02-13 2014-10-21 Honda Motor Co., Ltd. Dereverberation apparatus and dereverberation method
JP5197458B2 (ja) * 2009-03-25 2013-05-15 株式会社東芝 受音信号処理装置、方法およびプログラム
JP5314129B2 (ja) * 2009-03-31 2013-10-16 パナソニック株式会社 音響再生装置及び音響再生方法
CN102414743A (zh) * 2009-04-21 2012-04-11 皇家飞利浦电子股份有限公司 音频信号合成
EP2346028A1 (en) 2009-12-17 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
KR20120059827A (ko) * 2010-12-01 2012-06-11 삼성전자주식회사 다중 음원 위치추적장치 및 그 위치추적방법

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01109996A (ja) * 1987-10-23 1989-04-26 Sony Corp マイクロホン装置
JP2002051399A (ja) * 2000-08-03 2002-02-15 Sony Corp 音声信号処理方法及び音声信号処理装置
JP2006503491A (ja) * 2002-10-15 2006-01-26 韓國電子通信研究院 空間性が拡張された音源を有する3次元音響シーンの生成及び消費方法
JP2004193877A (ja) * 2002-12-10 2004-07-08 Sony Corp 音像定位信号処理装置および音像定位信号処理方法
JP2009537876A (ja) * 2006-05-19 2009-10-29 韓國電子通信研究院 プリセットオーディオシーンを用いたオブジェクトベースの3次元オーディオサービスシステム及びその方法
JP2008028700A (ja) * 2006-07-21 2008-02-07 Sony Corp 音声信号処理装置、音声信号処理方法および音声信号処理プログラム
JP2008245984A (ja) * 2007-03-30 2008-10-16 Konami Digital Entertainment:Kk ゲーム音出力装置、音像定位制御方法、および、プログラム
JP2009216473A (ja) * 2008-03-07 2009-09-24 Univ Nihon 音源距離計測装置及びそれを用いた音響情報分離装置
WO2010128136A1 (en) * 2009-05-08 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016056410A1 (ja) * 2014-10-10 2016-04-14 ソニー株式会社 音声処理装置および方法、並びにプログラム
JPWO2016056410A1 (ja) * 2014-10-10 2017-07-20 ソニー株式会社 音声処理装置および方法、並びにプログラム
US10602266B2 (en) 2014-10-10 2020-03-24 Sony Corporation Audio processing apparatus and method, and program
JP2020098365A (ja) * 2016-03-15 2020-06-25 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 音場記述を生成する装置、方法、及びコンピュータプログラム
US11272305B2 (en) 2016-03-15 2022-03-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Apparatus, method or computer program for generating a sound field description
JP7043533B2 (ja) 2016-03-15 2022-03-29 フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 音場記述を生成する装置、方法、及びコンピュータプログラム
JP2020501428A (ja) * 2016-12-05 2020-01-16 マジック リープ, インコーポレイテッドMagic Leap,Inc. 仮想現実(vr)、拡張現実(ar)、および複合現実(mr)システムのための分散型オーディオ捕捉技法
JP7125397B2 (ja) 2016-12-05 2022-08-24 マジック リープ, インコーポレイテッド 仮想現実(vr)、拡張現実(ar)、および複合現実(mr)システムのための分散型オーディオ捕捉技法
US11528576B2 (en) 2016-12-05 2022-12-13 Magic Leap, Inc. Distributed audio capturing techniques for virtual reality (VR), augmented reality (AR), and mixed reality (MR) systems

Also Published As

Publication number Publication date
PL2647222T3 (pl) 2015-04-30
TW201234873A (en) 2012-08-16
AR084091A1 (es) 2013-04-17
HK1190490A1 (en) 2014-11-21
JP2014502109A (ja) 2014-01-23
US20130268280A1 (en) 2013-10-10
ES2643163T3 (es) 2017-11-21
KR101619578B1 (ko) 2016-05-18
WO2012072804A1 (en) 2012-06-07
AU2011334857A1 (en) 2013-06-27
WO2012072798A1 (en) 2012-06-07
ES2525839T3 (es) 2014-12-30
MX338525B (es) 2016-04-20
CN103460285A (zh) 2013-12-18
CA2819394A1 (en) 2012-06-07
EP2647222A1 (en) 2013-10-09
CN103460285B (zh) 2018-01-12
AU2011334851B2 (en) 2015-01-22
BR112013013681A2 (pt) 2017-09-26
AU2011334857B2 (en) 2015-08-13
JP5878549B2 (ja) 2016-03-08
RU2570359C2 (ru) 2015-12-10
TWI489450B (zh) 2015-06-21
CN103583054B (zh) 2016-08-10
RU2013130226A (ru) 2015-01-10
TWI530201B (zh) 2016-04-11
US20130259243A1 (en) 2013-10-03
AR084160A1 (es) 2013-04-24
MX2013006068A (es) 2013-12-02
US9396731B2 (en) 2016-07-19
EP2647005A1 (en) 2013-10-09
CA2819502C (en) 2020-03-10
KR20140045910A (ko) 2014-04-17
BR112013013681B1 (pt) 2020-12-29
KR20130111602A (ko) 2013-10-10
CN103583054A (zh) 2014-02-12
RU2556390C2 (ru) 2015-07-10
CA2819502A1 (en) 2012-06-07
KR101442446B1 (ko) 2014-09-22
TW201237849A (en) 2012-09-16
JP5728094B2 (ja) 2015-06-03
MX2013006150A (es) 2014-03-12
AU2011334851A1 (en) 2013-06-27
US10109282B2 (en) 2018-10-23
CA2819394C (en) 2016-07-05
RU2013130233A (ru) 2015-01-10
EP2647222B1 (en) 2014-10-29
EP2647005B1 (en) 2017-08-16

Similar Documents

Publication Publication Date Title
JP5878549B2 (ja) 幾何ベースの空間オーディオ符号化のための装置および方法
JP6086923B2 (ja) 幾何学配置に基づく空間オーディオ符号化ストリームを統合する装置および方法
JP2015502716A (ja) 空間パワー密度に基づくマイクロフォン位置決め装置および方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140425

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140527

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20140528

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20140528

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20140821

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141127

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150414

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150813

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20150813

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20150907

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151020

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160128

R150 Certificate of patent or registration of utility model

Ref document number: 5878549

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250