JP2016509812A - 音場の高次アンビソニクス表現における無相関な音源の方向を決定する方法及び装置 - Google Patents

音場の高次アンビソニクス表現における無相関な音源の方向を決定する方法及び装置 Download PDF

Info

Publication number
JP2016509812A
JP2016509812A JP2015556516A JP2015556516A JP2016509812A JP 2016509812 A JP2016509812 A JP 2016509812A JP 2015556516 A JP2015556516 A JP 2015556516A JP 2015556516 A JP2015556516 A JP 2015556516A JP 2016509812 A JP2016509812 A JP 2016509812A
Authority
JP
Japan
Prior art keywords
sound source
dominant
time frame
hoa
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015556516A
Other languages
English (en)
Other versions
JP6374882B2 (ja
JP2016509812A5 (ja
Inventor
クルーガー,アレクサンダー
コルドン,スベン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of JP2016509812A publication Critical patent/JP2016509812A/ja
Publication of JP2016509812A5 publication Critical patent/JP2016509812A5/ja
Application granted granted Critical
Publication of JP6374882B2 publication Critical patent/JP6374882B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

高次アンビソニクス(HOA)は3次元サウンドを表す。HOAは、高い空間分解能を提供し、ドミナント音源に対する音場の解析を容易にする。発明は、音場を構成する独立したドミナント音源を特定し、それらの時間軌跡を追跡することを目的とする。知られている応用は、原のHOA表現の指向性電力分布を見ることによって、ドミナント音源方向についての全ての潜在的な候補を探すことであり、一方、発明において、前に見つけられた音源の信号と相関する全ての成分は、除外される。そのような動作によって、ただ1つの正確な音源ではなく多くを誤って検出する問題は、音場へのその寄与が極めて方向的に分散される場合に回避され得る。

Description

発明は、音場の高次アンビソニクス表現における無相関な音源の方向を決定する方法及び装置に関する。
高次アンビソニクス(Higher Order Ambisonics)(HOA)は、波面合成法(Wave Field Synthesis)(WFS)、及び22.2のようなチャネルベースのアプローチのような技術の中で特に、3次元サウンドを表現するための1つの可能性を提供する。チャネルベースの方法と対照的に、また一方で、HOA表現は、固有のラウドスピーカ配置に依存しないという利点を提供する。しかし、このような柔軟性は、特定のラウドスピーカ配置でのHOA表現の再生に必要とされる復号化プロセスを代償にする。必要とされるラウドスピーカの数が通常は非常に多いWFSアプローチと比較して、HOAは、ほんの少数のラウドスピーカから成る配置にもレンダリングされ得る。HOAの更なる利点は、同じ表現が、ヘッドホンへのバイノーラル・レンダリングのためにも、如何なる変更なしで用いられ得ることである。
HOAは、切り捨てられた球面調和関数(Spherical Harmonics)(SH)展開による複素高調平面波振幅の空間密度の表現に基づく。夫々の展開係数は、時間領域の関数によって等価に表現され得る角周波数の関数である。よって、一般性を損なうことなしに、完全なHOA音場表現は、実際上、O個の時間領域関数から成ると推測され得る。このとき、Oは、展開係数の数を表す。以下で、それらの時間領域関数は、HOA係数シーケンスと、又はHOAチャネルと呼ばれる。
HOAは、高い空間分解能を提供する可能性を備える。空間分解能は、最大展開次数Nを増やすことにより改善する。それは、ドミナント音源に対して音場を解析する可能性を提供する。
応用は、音場を構成する独立したドミナント音源を所与のHOA表現から如何にして特定するのか、及びそれらの時間軌跡を如何にして追跡するのかであってよい。そのような動作は、例えば、欧州特許出願第12305537.8号において記載されるような、ドミナント指向性信号及び残りの周囲成分への音場の分解によるHOA表現の圧縮のために、必要とされる。そのような方向追跡方法のための更なる応用は、粗い予備的な源分離でありうる。特定の音源の信号を増幅又は減衰させる手段として、推定される方向軌跡をHOA音場レコーディングのポストプロダクションのために使用することも可能でありうる。
上記の欧州特許出願では、次の3つの動作を逐次実行することが提案されている:
・時間フレーム内の目下存在しているドミナント音源の数が特定され、対応する方向が探索される。ドミナント音源の数は、HOAチャネル相互相関行列の固有値から決定される。ドミナント音源方向の探索のために、固定された多数の予め定義された試験方向についてのHOA係数のフレームに対応する指向性電力分布が評価される。最初の方向推定は、指向性電力分布において極大を探すことによって得られる。次いで、残りの特定された方向は、次の2つの動作を連続して繰り返すことによって見つけられる:空間近傍における試験方向は、残りの試験方向の組から削除され、結果として得られる組は、指向性電力分布の極大の探索のために考慮される。
・推定された方向は、最後の時間フレームにおいてアクティブであると見なされる音源に割り当てられる。
・割り当てに続いて、方向推定の適切な平滑化が、時間的に滑らかな方向軌跡を得るために実行される。
しかし、そのような処理によれば、方向推定の時間平滑化は、指数関数的に重み付けされた移動平均を計算することによって、原理上は達成されるが、この技術は、急な方向の変化又は新しいドミナント音の開始を正確に捕捉でないという欠点を持つ。
この問題を解決するよう、欧州特許出願第12306485.9号では、ベイズ学習規則によって実施される統計的に動機付けされた平滑化のために用いられる簡単な統計的な源移動予測モデルを導入することが提案された。しかし、この特許出願及び先の欧州特許出願第12305537.8号は、指向性電力分布からしか音源方向についての尤度関数を計算しない。この分布は、単位球面上のほぼ一様に分布したサンプリング点によって特定される方向からの多数の一般平面波の電力を表す。それは、異なる方向からの一般平面波の間の相互相関に関する如何なる情報も提供しない。実際に、HOA表現の次数Nは、通常は有限であり、空間的に帯域制限された音場を生じさせる。特に、このことは、指向性電力分布への指向性音源の寄与が、近傍にある方向へと真の入射方向の周囲で不鮮明化されることを意味する。このような不鮮明化効果は‘分散関数’によって数学的に記述される。以下の「高次アンビソニクスの空間分解」の項を参照されたい。その範囲は、HOA表現の次数が減るにつれて増大する。欧州特許出願第12306485.9号及び欧州特許出願第12305537.8号の方向追跡方法は、前に見つけられた方向の近傍の外にある領域に方向の探索を制限することによって、この効果をある程度まで考慮している。しかし、近傍の指定は、全ての音源がHOA表現の全次数Nにより符号化されると仮定する。このような仮定は、Nよりも小さい次数で符号化された一般平面波を含む次数NのHOA表現について破られる。Nよりも小さい次数のそのような一般平面波は、音源をより幅広く現れさせるために、芸術的創作の結果であってよい。しかし、それらは、球形マイクロホンによるHOA音場表現のレコーディングによっても起こる。
欧州特許出願第12306485.9号及び欧州特許出願第12305537.8号の方向追跡方法は、音場がNよりも小さい次数の単一の一般平面波から成る場合に、1よりも多い音源を特定しうる。このことは、好ましくない性質である。
発明によって解決されるべき課題は、HOA音場におけるドミナント音源の決定を改善して、それらの時間軌跡が追跡され得るようにすることである。この課題は、請求項1、2及び6において開示される方法によって解決される。請求項6の方法を用いる装置は、請求項7において開示される。
発明は、欧州特許出願第12306485.9号の処理を改善する。発明の処理は、独立したドミナント音源を探し、それらの方向を時間にわたって追跡する。‘独立したドミナント音源’との表現は、夫々の音源の信号が無相関であることを意味する。欧州特許出願第12305537.8号及び欧州特許出願第12306485.9号における最先端の方法は、原のHOA表現の指向性電力分布のみを調べることによって、ドミナント音源方向についての全ての潜在的な候補を探しており、一方、以下で記載される発明の処理は、原のHOA表現からの夫々の方向候補の探索について、前に見つけられた音源の信号と相関する全ての成分を除外する。そのような動作によって、ただ1つの正確な音源ではなく多くを誤って検出する問題は、音場へのその寄与が極めて方向的に分散される場合に回避され得る。上述されたように、そのような効果は、Nよりも小さい次数において符号化された一般平面波を含む次数NのHOA表現について起こり得る。
欧州特許出願第12306485.9号と同様に、ドミナント音源方向について見つけられた候補は、次いで、前に見つけられたドミナント音源に割り当てられ、最後に、統計的な源移動モデルに従って平滑化される。よって、欧州特許出願第12306485.9号と同様に、発明の処理は、時間的に平滑化された方向推定を提供し、急な方向の変化及び新しいドミナント音の開始を捕捉することが可能である。
発明の処理は、2つの連続した処理において、HOA表現の連続したフレームについてドミナント音源方向の推定を決定する:
HOA表現の減算時間フレームkから、ドミナント音源方向についての候補又は推定が逐次探索され、夫々の音源によって生成されると考えられるHOA表現の成分が決定される。この探索プロセスの夫々の繰り返しにおいて、夫々の更なる方向候補は、前に見つけられた音源の信号と相関する全ての成分が除外された原のHOA表現を表す残留HOA表現から計算される。現在の方向候補は、複数の予め定義された試験方向の中から選択され、聴取者位置で前記選択された方向から作用する残余HOA表現の関連する一般平面波の電力が、全ての他の試験方向の電力と比較して最大であるようにする。
次に、現在時間フレームについての選択された方向候補は、HOA係数の前の時間フレームk−1において見つけられたドミナント音源へ割り当てられる。その後に、結果として得られる時間軌跡に対して平滑化される最終の方向推定は、ベイズ推定プロセスを実行することによって計算される。このベイズ推定プロセスは、一方では、統計に基づく先験的な音源移動モデルを、そして、他方では、原のHOA表現のドミナント音源成分の指向性電力分布を利用する。その先験的な音源移動モデルは、個々の音源の現在の動きを、前の時間フレームk−1におけるそれらの方向と、前の時間フレームk−1と最後から2番目の時間フレームk−2との間での動きとから統計的に予測する。
HOA係数の前の時間フレーム(k−1)において見つけられたドミナント音源への方向推定の割り当ては、方向推定及び前に見つけられた音源の方向の組の間の角度の連帯的な最小化と、方向推定に及び前の時間フレームにおいて見つけられたドミナント音源に関連した指向性信号の組の間の相関係数の絶対値の最大化とによって達成される。
原理上、発明の方法は、音場のHOAと称される高次アンビソニクス表現における無相関な音源の方向を決定するのに適しており、当該方法は、
HOA係数の現在時間フレームにおいて、ドミナント音源の一応の方向推定を逐次探索し、対応するドミナント音源によって生成されるHOA音場成分を計算し、対応する指向性信号を計算するステップと、
前記現在時間フレームの前記一応の方向推定と前記HOA係数の前の時間フレームにおいてアクティブな音源の平滑化された方向とを比較することによって、且つ、前記現在時間フレームの前記指向性信号と前記前の時間フレームにおいてアクティブな音源の指向性信号とを相関させることによって、前記計算されたドミナント音源を、前記前の時間フレームにおいてアクティブな対応する音源に割り当てて、割り当て関数を得るステップと、
前記割り当て関数、前記前の時間フレームにおける平滑化された方向の組、前記前の時間フレームにおけるアクティブなドミナント音源のインデックスの組、最後から2番目の時間フレームと前記前の時間フレームとの間での夫々の源移動角度の組、及び前記対応するドミナント音源によって生成される前記HOA音場成分を用いて、平滑化されたドミナント源方向を計算するステップと、
前記平滑化されたドミナント源方向、前記前の時間フレームの前記アクティブなドミナント音源の方向のフレーム遅延されたバージョン、及び前記前の時間フレームにおける前記アクティブなドミナント音源のインデックスのフレーム遅延されたバージョンを用いて、前記現在時間フレームの前記アクティブなドミナント音源のインデックス及び方向を決定するステップと
を有し、
前記前の時間フレームにおいてアクティブな音源の前記指向性信号は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及び前記前の時間フレームのHOA係数からモードマッチングを用いて計算され、
前記最後から2番目の時間フレームと前記前の時間フレームとの間での前記源移動角度の組は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及びその更にフレーム遅延されたバージョンから計算される。
原理上、発明の装置は、音場のHOAと称される高次アンビソニクス表現における無相関な音源の方向を決定することに適しており、当該装置は、
HOA係数の現在時間フレームにおいて、ドミナント音源の一応の方向推定を逐次探索し、対応するドミナント音源によって生成されるHOA音場成分を計算し、対応する指向性信号を計算するよう構成される手段と、
前記現在時間フレームの前記一応の方向推定と前記HOA係数の前の時間フレームにおいてアクティブな音源の平滑化された方向とを比較することによって、且つ、前記現在時間フレームの前記指向性信号と前記前の時間フレームにおいてアクティブな音源の指向性信号とを相関させることによって、前記計算されたドミナント音源を、前記前の時間フレームにおいてアクティブな対応する音源に割り当てて、割り当て関数を得るよう構成される手段と、
前記割り当て関数、前記前の時間フレームにおける平滑化された方向の組、前記前の時間フレームにおけるアクティブなドミナント音源のインデックスの組、最後から2番目の時間フレームと前記前の時間フレームとの間での夫々の源移動角度の組、及び前記対応するドミナント音源によって生成される前記HOA音場成分を用いて、平滑化されたドミナント源方向を計算するよう構成される手段と、
前記平滑化されたドミナント源方向、前記前の時間フレームの前記アクティブなドミナント音源の方向のフレーム遅延されたバージョン、及び前記前の時間フレームにおける前記アクティブなドミナント音源のインデックスのフレーム遅延されたバージョンを用いて、前記現在時間フレームの前記アクティブなドミナント音源のインデックス及び方向を決定するよう構成される手段と
を有し、
前記前の時間フレームにおいてアクティブな音源の前記指向性信号は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及び前記前の時間フレームのHOA係数からモードマッチングを用いて計算され、
前記最後から2番目の時間フレームと前記前の時間フレームとの間での前記源移動角度の組は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及びその更にフレーム遅延されたバージョンから計算される。
発明の有利な更なる実施形態は、夫々の従属請求項において開示される。
高次アンビソニクス信号のドミナント及び無相関な指向性信号の方向の推定のための発明の処理のブロック図を示す。 一応の方向推定の詳細を示す。 ドミナント音源によって生成される音場のHOA表現及びドミナント指向性信号の計算を示す。 平滑化されたドミナント音源方向のモデルベースの計算を示す。 球座標系を示す。 異なるアンビソニクス次数Nについての且つ角度θ∈[0,π]についての正規化された分散関数ν(Θ)を示す。
発明の例となる実施形態は、添付の図面を参照して記載される。
発明の方向追跡処理の原理は、図1において表されており、以下で説明される。方向追跡は、kがフレームインデックスであるとして、長さLのHOA係数シーケンスの入力フレームC(k)の連続した処理に基づくと考えられる。フレームは、次の式(1)として、「高次アンビソニクスの基本」の項において式(45)で特定されるHOA係数シーケンスに対して定義される:
Figure 2016509812
このとき、Tは、サンプリング周期を表し、B≦Lは、フレームシフトを示す。連続したフレームは重なり合っている、すなわち、B<Lであると考えることが妥当であるが、必須ではない。
第1のステップ又は段階11において、HOA表現のk番目のフレームC(k)は、ドミナント音源について予備的解析をなされる。この処理の詳細な説明は、以下の「予備的な方向探索」の項で与えられる。特に、検出されたドミナント指向性信号の数
[外1]
Figure 2016509812
は、
対応する
[外2]
Figure 2016509812
とともに決定される。加えて、対応する個々のドミナント音源及び対応する瞬時指向性信号
[外3]
Figure 2016509812
(すなわち、一般平面波関数)によって生成される(と考えられる)HOA音場成分
[外4]
Figure 2016509812
が計算される。
個々の一応の方向推定及び関連する量は、順次に、すなわち、最初にd=1について、次いでd=2について、そして以降同様に、計算される。第1のステップで、原のHOA表現C(k)の指向性電力分布は、欧州特許出願第12305537.8号で提案されているように計算され、引き続いてドミナント音源の存在について解析される。ドミナント音源が検出される場合に、夫々の一応の方向推定
[外5]
Figure 2016509812
が計算される。加えて、対応する指向性信号xINST (1)(k)は、この音源によって生成されると考えられる現在フレームC(k)のその成分CDOM,CORR (1)(k)とともに、推定される。CDOM,CORR (1)(k)は、指向性信号xINST (1)(k)と相関するC(k)のその成分を表すと考えられる。最後に、HOA成分CDOM,CORR (1)(k)は、残余HOA表現CREM (2)(k)を得るために、C(k)から減じられる。d番目(d≧2)の一応の方向の推定は、C(k)の代わりに残余HOA表現CREM (d)(k)を用いる点のみを除いて、最初の一応の方向推定と全く同じように行われる。それによって、明らかに当然ながら、見つけられたd番目の音源によって生成される音場成分は、更なる方向探索について除外される。
方向割り当てステップ又は段階13において、k番目のフレームにおいてステップ/段階11で見つけられたドミナント音源は、(k−1)番目のフレームにおいてアクティブな(そうであると考えられる)対応する音源へ割り当てられる。一方で、割り当ては、現在のフレーム(k)についての一応の方向推定
[外6]
Figure 2016509812
と、(k−1)番目のフレームにおいてアクティブな(そうであると考えられる)音源の平滑化された方向とを比較することによって、達成される。この平滑化された方向は組GΩ,DOM,ACT(k−1)に含まれており、それらのインデックスはJDOM,ACT(k−1)に含まれている。他方で、割り当てのために、フレームkでの検出されたドミナント音源の瞬時指向性信号
[外7]
Figure 2016509812
と、(k−1)番目のフレームにおいてアクティブな(そうであると考えられる)音源の指向性信号XACT(k−1)との間の相関が利用される。割り当ての結果は、Dが、追跡されるべき期待される音源の最大数を表すとして、割り当て関数
[外8]
Figure 2016509812
によって定式化される。このことは、d番目の新たに見つけられた音源が、インデックスfA,k(d)を持った以前にアクティブであった音源へ割り当てられることを意味する。
平滑化されたドミナント音源方向のモデルベースの計算ステップ又は段階14で、平滑化されたドミナント源方向
[外9]
Figure 2016509812
は、フレーム(k−1)でのアクティブなドミナント音源のインデックスの組JDOM,ACT(k−1)と、フレーム(k−1)での対応するドミナント源方向推定の組GΩ,DOM,ACT(k−1)と、フレーム(k−2)及び(k−1)の間の夫々の源移動角度の組
[外10]
Figure 2016509812
と、見つけられたドミナント音源によって生成されると考えられるHOA音場成分
[外11]
Figure 2016509812
と、割り当て関数fA,Kとを用いることによって、欧州特許出願第12306485.9号で提案されている統計的な音源移動モデルに基づき計算される。このモデルベースの平滑化プロシージャの詳細な説明は、以下の「平滑化されたドミナント音源方向のモデルベースの計算」の項で与えられる。
最後のステップ又は段階15で、組JDOM,ACT(k)及びGΩ,DOM,ACT(k)に夫々含まれると考えられる目下アクティブなドミナント音源のインデックス及び方向は、ステップ/段階14からの平滑化されたドミナント源方向
[外12]
Figure 2016509812
と、(k−1)番目のフレームにおいてアクティブであると考えられる音源の平滑化された方向及び夫々のインデックスを含む組GΩ、DOM,ACT(k−1)及びJDOM,ACT(k−1)とを用いて、決定される。この動作は、少数の連続したフレームについて検出されなかった音源を擬似的に非アクティブにしない目的を持つ。
ステップ又は段階12は、フレームk−1のHOA表現C(k−1)と、(k−1)番目のフレームにおいてアクティブであると考えられる音源の平滑化された方向の組GΩ、DOM,ACT(k−1)とを用いて、(k−1)番目のフレームにおいてアクティブであると考えられる音源の指向性信号の計算を実行する。計算は、M. A. Poletti,“Three-Dimensional Surround Sound Systems Based on Spherical Harmonics”,J. Audio Eng. Soc.,Vo.53(11),pp.1004-1025,2005年において記載されるモードマッチングの原理に基づく。
源移動角度推定ステップ又は段階16で、フレームk−1でのドミナントのアクティブな音源の移動角度の組
[外13]
Figure 2016509812
は、(k−1)番目及び(k−2)番目のフレームにおいて夫々アクティブであると考えられる音源の平滑化された方向推定の2つの組GΩ,DOM,ACT(k−1)及びGΩ,DOM,ACT(k−2)から計算される。移動は、フレームk−2及びk−1の間で起こると理解される。アクティブなドミナント音源の移動角度は、フレームk−2でのその平滑化された方向推定と、フレームk−1でのその平滑化された方向推定との間の円弧である。
備考:フレームk−2についての方向推定が、フレームk−1においてアクティブであると考えられるドミナント音源について利用可能でない場合は、夫々の移動角度は、‘π’の最大値に設定され得る。一般に、第1のフレームk及びフレームk−1について処理を開始するときに値は未だ利用可能でなく、図1のステップ又は段階において入力される対応する設定又は値は、夫々、空であるか、又はゼロに設定される。
この動作は、この音源の次の方向についての事前確率を、全ての可能な方向にわたってほぼ一様にならしめる。以下の「目下アクティブなドミナント音源のインデックス及び方向の決定」の項を参照されたい。
フレーム遅延171乃至174は、夫々の信号を1フレームずつ遅延させている。
以下で、上記のステップ及び段階は、より詳細に説明される。
[予備的な方向探索]
予備的な方法探索のステップ/段階11で、(フレームkにおいて)存在するドミナント音源の現在数
[外14]
Figure 2016509812
及び夫々の方向
[外15]
Figure 2016509812
は推定される。加えて、個々の音源によって生成されると考えられるHOA音場成分
[外16]
Figure 2016509812
は、対応する指向性信号
[外17]
Figure 2016509812
(すなわち、一般平面波関数)とともに、計算される。全ての先に列挙された量は、最初に方向インデックスd=1について、次いでd=2について、そして以降同様に、
[外18]
Figure 2016509812
になるまで、計算される。
単一の方向dインデックスについての計算プロシージャは、図2に表されている。(d−1)番目の方向の推定後に生成される残りのHOA表現CREM (d)(k)(k番目の時間フレームについてのd番目の方向の推定に関連する。)は、この段階へ入力される。それによって、ループの開始時にCREM (1)(k)は原のHOAフレームC(k)に対応すると理解される。第1のステップ又は段階21で、残りのHOA表現CREM (d)(k)の指向性電力分布p(d)(k)は、単位球面上でほぼ一様に分布する所定の数Q個の離散的な試験方向Ω,q=1,...,Qについて計算される。具体的には、夫々の試験信号Ωは、次の式(2)に従って、傾斜角θ∈[0,π]及びアジマス角φq∈[0,2π]を含むベクトルとして定義される:
Figure 2016509812
このとき、(・)は、転置を表す。指向性電力分布は、次のベクトル式(3)によって表される:
Figure 2016509812
その成分p (d)(k)は、k番目の時間フレームについての方向Ωに関連した表現CREM (d)(k)に残っている全てのドミナント音源の結合電力を表す。CREM (d)(k)からの指向性電力分布p(d)(k)の実際の計算は、欧州特許出願第12305537.8号で提案されているように実行されてよい。
ステップ又は段階22で、指向性電力分布p(d)(k)は、ドミナント音源の存在について解析される。ドミナント源を検出する1つの方法は、以下の「ドミナント音源の存在についての解析」の項で記載される。ドミナント音源の不在が検出される場合は、方向探索は停止され、見つけられたドミナント方向の総数は
[外19]
Figure 2016509812
に設定される。そうではなく、ドミナント音源が検出される場合は、座標原点に対するその方向
[外20]
Figure 2016509812
の一応の推定がステップ又は段階23で計算される。詳細については、以下の「ドミナント音源方向の探索」の項を参照されたい。
引き続いて、d番目のドミナント音源によって生成されると考えられる音場成分の夫々の指向性信号xINST (d)(k)及びHOA表現CDOM,CORR (d)(k)は、以下の「ドミナント音源によって生成される音場のドミナント指向性信号及びHOA表現の計算」の項においてより詳細に記載されるように、ステップ又は段階24で計算される。
最後に、ステップ又は段階25で、HOA成分CDOM,CORR (d)(k)は、次(すなわち、(d+1)番目)の指向性音源の探索のために使用される残余HOA表現CREM (d+1)(k)を得るために、CREM (d)(k)から減じられる。それによって、明らかに当然ながら、見つけられたd番目の音源によって生成される音場成分は、更なる方向探索については除外される。
●ドミナント音源の存在の解析
REM (d)(k)によって表される音場内でドミナント音源の存在を検出するために、残りのHOA表現CREM (1)(k),...,CREM (d)(k)の指向性電力分布p(1)(k),...,p(d)(k)が考慮される。一方で、次の式(4)で表される分散比をモニタすることが妥当であることが実験的に分かっている:
Figure 2016509812
この分散比は、最初のHOA表現C(k)によって表される音場と比べられる、残りのHOA表現CREM (d)(k)によって表される音場の重要性の指標と見なされ得る。小さい比δ (d)(k)は、HOA表現CREM (d)(k)によって表される音源のいずれもがドミナントであると見なされるべきでないことを示す。他方で、次の式(5)によって表される、正規化された指向性電力分布pNORM (d)(k)及びpNORM (d−1)(k)の分散の比を見ることも妥当である:
Figure 2016509812
次の式(6)によって表される正規化された電力分布の要素pq、NORM (d)(k),q=1,...,Qは、次の式(7)によって、p(d)(k)の要素に応じて定義される:
Figure 2016509812
Figure 2016509812
分散var(pNORM (d)(k))は、指向性電力分布p(d)(k)の一様性の指標として見なされ得る。特に、分散は、全ての入力方向にわたって電力がより一様に分布するほどますます小さくなる。空間に広がったノイズの極端な場合において、分散var(pNORM (d)(k))は、ゼロの値に近づくべきである。そのような検討に基づき、分散比δp,NORM (d)(k)は、HOA表現CREM (d)(k)の指向性電力がCREM (d−1)(k)の指向性電力よりも一様に分布しているかどうかを示す。
上記の検討を要約するよう、C(k)によって表される音場には少なくとも単一のドミナント音源が常に存在していると考えられ得る。すなわち、
[外21]
Figure 2016509812
である。更なるドミナント音源は、変数比δ (d)(k)の値がある所定の閾値ε<1を上回ったままであり、且つ、変数比の値は1よりも小さい場合に、(d≧2について)検出される。すなわち、ドミナント音源は、次の関係式(8)が成立する場合に、(d≧2について)検出される:
Figure 2016509812
εの値は、何が‘ドミナント’を意味するのかの解釈に対して設定されるべきである。発明者は、妥当な選択がε=10−3によって与えられることに気付いた。
●ドミナント音源方向の探索
d番目の音源が検出された後、その方向
[外22]
Figure 2016509812
の一応の推定は、指向性電力分布p(d)(k)を用いることによって探索される。探索は、指向性電力が最大であるところの試験方向Ωを採ることによって、達成される。すなわち:
Figure 2016509812
●ドミナント音源によって生成される音場のドミナント指向性信号及びHOA表現の計算
その後に、ドミナント源方向の一応の推定
[外23]
Figure 2016509812
を決定した後、夫々の指向性信号xINT (d)(k)は、同じ音源によって生成されると考えられる音場成分のHOA表現CDOM,CORR (d)(k)とともに、図3に従って計算される。ステップ又は段階31で、単位球面上にほぼ一様に分布すると考えられるO個のサンプリング位置ΩINIT,o,o=1,...,Oから成る固定の予め定義された球面グリッドGΩ,INITは回転されて、回転されたサンプリング位置ΩROT,o (d)(k),o=1,...,Oから成るグリッドGΩ,ROT (d)(k)を与える。回転は、第1の回転されたサンプリング位置ΩROT,1 (d)(k)が一応の方向推定
[外24]
Figure 2016509812
に対応するように実行される。
ステップ又は段階32で、HOA表現CREM (d)(k)は、いわゆる空間領域に変形される。このとき、それは、回転されたグリッド方向ΩROT,o (d)(k),o=1,...,Oから観測者位置(すなわち、座標原点)に作用すると考えられるO個の平面波関数(グリッド指向性信号とも呼ばれる。)xo,INST (d)(k),o=1,...,Oによって等価に表される。平面波関数xo,INST (d)(k),o=1,...,Oを計算するよう、回転されたグリッド方向に対するモード行列
[外25]
Figure 2016509812
は、次のように、式(11)を用いて式(10)の通りに計算される:
Figure 2016509812
Figure 2016509812
次の式(12)の通りに、夫々のグリッド指向性信号xo,INST (d)(k)を、k番目の時間フレームの個々のサンプルから成る行ベクトルであるとする:
Figure 2016509812
このとき、Lは、解析されるHOA表現の長さ(サンプルにおける)を表し、全てのグリッド指向性信号の計算は、次の式(13)の通りに、球面調和関数変換(説明のために、以下の「球面調和関数変換」を参照されたい。)によって達成される:
Figure 2016509812
ドミナント音源方向の一応の推定
[外26]
Figure 2016509812
は、回転されたサンプリング位置ΩROT,1 (d)(k)に対応するので、一般平面波関数x1,INST (d)(k)は、所望のドミナント方向信号xINST (d)(k)と見なされ得る。すなわち:
Figure 2016509812
d番目の音源によって生成されるCREM (d)(k)のその成分を決定するよう、ステップ又は段階33で、この成分は、xINST (d)(k)から予測され得る平面波関数によって等価に表現されると仮定される。よって、グリッド指向性信号xo,INST (d)(k),o=2,...,Oは、xINST (d)(k)から予測されるよう試みられる。予測された信号は、
[外27]
Figure 2016509812
によって表される。
そのような予測を達成する1つの方法は、予測される信号
[外28]
Figure 2016509812
を、フィルタが予測誤差を最小限するように決定される線形フィルタリングによってxINST (d)(k)から生成されると考えることである。フィルタが(解析フレームの存続期間と比較して)ごく短い存続期間の有限インパルス応答(FIR)フィルタであると考えられる場合は、予測誤差の最小化は、最先端の最小二乗技術を用いることによって達成され得る。
最後に、ドミナント音源信号xINST (d)(k)及び全ての予測された相関成分のHOA表現は、次の式(15)の通りに、逆球面調和関数変換(説明のために、以下の「球面調和関数」の項を参照されたい。)によって、ステップ又は段階34で求められる:
Figure 2016509812
[以前にアクティブであったドミナント音源の指向性信号の計算]
(k−1)番目のフレームにおいてアクティブであると考えられる音源の指向性信号
[外29]
Figure 2016509812
は、式(20)に従って行列XACT(k−1)内に含まれる。この行列は、次の式(16)によってモードマッチング(上記のPolettiの文献を参照されたい。)を用いて計算される:
Figure 2016509812
このとき、C(k−1)は、原のHOA音場表現の(k−1)番目のフレームを表し、
[外30]
Figure 2016509812
は、(k−1)番目のフレームにおいてアクティブであると考えられる音源の方向
[外31]
Figure 2016509812
に対するモード行列を表す。モード行列
[外32]
Figure 2016509812
は、次のように、式(18)を用いて式(17)によって計算される:
Figure 2016509812
Figure 2016509812
[方向割り当て]
上述されたように、一方で、図1のステップ/段階13での割り当ては、一応の方向推定
[外33]
Figure 2016509812
と、(k−1)番目のフレームにおいてアクティブであると考えられる音源の平滑化された方向とを比較することによって、達成される。この平滑化された方向は、次の式(19)によって表される組に含まれる:
Figure 2016509812
このとき、iACT,k−1(d′)は、(k−1)番目のフレームにおいてアクティブであると考えられるd′番目の音源のインデックスを表す。特に、
[外34]
Figure 2016509812
の組の間の角度
[外35]
Figure 2016509812
が小さければ小さいほど、d番目の新たに見つけられたドミナント音源方向は、インデックスiACT,k−1(d′)を持った以前にアクティブであった音源に対応する可能性がますます高くなると考えられる。
他方で、割り当てのために、フレームkでの検出されたドミナント音源の瞬時指向性信号
[外36]
Figure 2016509812
と、(k−1)番目のフレームにおいてアクティブであると考えられる音源の指向性信号XACT(k−1)との間の相関が利用される。ここで、フレームXACT(k−1)は、次の式(20)の通りに、(k−1)番目のフレームにおいてアクティブであると考えられる音源の個々の指向性信号
[外37]
Figure 2016509812
から成ると考えられる:
Figure 2016509812
この定義を用いると、2つの信号
[外38]
Figure 2016509812
の間の相関係数
[外39]
Figure 2016509812
の絶対値が高ければ高いほど、d番目の新たに見つけられたドミナント音源方向は、インデックスiACT,k−1(d′)を持った以前にアクティブであった音源に対応する可能性がますます高くなると仮定される。そのような仮定は、相関係数が2つの信号の間の線形依存性のための指標を与えると事実によって正当化される。
これらの検討に基づき、割り当てを特定する割り当て関数
[外40]
Figure 2016509812
は、次の費用関数(21)を最小化するように計算される:
Figure 2016509812
(k−1)番目のフレーム内のいずれのアクティブな音源にも属さない方向インデックス
[外41]
Figure 2016509812
について、角度
[外42]
Figure 2016509812
は、ΘMINの最小角度に事実上設定されると暗に考えられる。このとき、例えば、ΘMIN=2π/N。更に、方向インデックス
[外43]
Figure 2016509812
についての相関係数
[外44]
Figure 2016509812
は、事実上ゼロに設定される。最初の動作は、d番目の新たに見つけられた方向
[外45]
Figure 2016509812
と以前にアクティブであったドミナント音源の方向との間の角度がΘMINよりも大きい場合に、この新たに見つけられた方向が新しい音源に属する傾向を有するとの効果を有する。
割り当ての問題は、H. W. Kuhn,“The Hungarian method for the assignment problem”,Naval research logistics quarterly,vol.2(1-2),pp.83-97,1995年において記載されている周知のハンガリアン法を用いるよって解かれ得る。
[平滑化されたドミナント音源方向のモデルベースの計算]
この項は、統計的な音源移動モデルに従って図1のステップ/段階14における平滑化されたドミナント音源方向の計算に対処する。この計算のための個々のステップは図4に表されており、以下で詳細に説明される。
●ドミナント音源方向についての方向の事前確率関数の計算
新たに見つけられたドミナント音源方向についての方向の事前確率関数
[外46]
Figure 2016509812
は:
・フレーム(k−1)でのアクティブなドミナント音源のインデックスiACT,k−1(d′),d′=1,...,DACT(k−1)の組JDOM,ACT(k−1)と、
・フレーム(k−1)での対応するドミナント音源方向推定
[外47]
Figure 2016509812
の組GΩ,DOM,ACT(k−1)と、
・フレーム(k−2)及び(k−1)の間の夫々の源移動角度
[外48]
Figure 2016509812
の組
[外49]
Figure 2016509812
と、
・割り当て関数fA,k
を用いて、ステップ又は段階42で計算される。計算は、欧州特許出願第12306485.9号において紹介されている単純な音源移動予測モデルに基づく。特に、d番目の新たに見つけられたドミナント音源についての方向の事前確率関数
[外50]
Figure 2016509812
は、3次元空間における単位球面上のフォンミーゼス−フィッシャー分布の離散バージョンであると考えられる。
以下で、方向の事前確率関数
[外51]
Figure 2016509812
は、次の式(22)として、個々の試験方向Ω,q=1,...,Qについての確率
[外52]
Figure 2016509812
から成るベクトルによって与えられると考えられる:
Figure 2016509812
個々の試験方向Ωについての事前確率を計算するよう、2つの場合が区別される:
a)d番目の新たに見つけられたドミナント音源に割り当てられる源インデックスfA,k(d)が組JDOM,ACT(k−1)に含まれる場合は、事前確率は、次の式(23)に従って計算される:
Figure 2016509812
このとき、Θq,d(k)は、推定される方向
[外53]
Figure 2016509812
と試験方向Ωとの間の角度を表す。すなわち:
Figure 2016509812
更に、k(k)は、次の式(25)に従って源移動角度推定
[外54]
Figure 2016509812
を用いて計算される濃度パラメータを表す:
Figure 2016509812
このとき。Cは、次の関係(26)に設定されてよい:
Figure 2016509812
MAX及びCのための妥当な値は、次の関係(27)であることが分かっている(欧州特許出願第12306485.9号を参照):
Figure 2016509812
この計算の背後にある原理は、以前に音源が移動していなければいないほど、事前確率関数の濃度を増大させることである。音源が以前にたくさん動いている場合は、その一連の方向に関する不確かさは高く、よって、濃度パラメータは小さい値に達するべきである。
b)d番目に新たに見つけられたドミナント音源に割り当てられた源インデックスfA,k(d)が組JDOM,ACT(k−1)に含まれない場合は、夫々の音源は、以前にアクティブでなかったと考えられる。結果として、この源の方向に関する演繹的知識は実際には利用可能でない。よって、事前確率関数
[外55]
Figure 2016509812
は、単位球面において一様であると考えられる。このとき、個々の確率は、全ての試験方向Ωに関して等しい。すなわち:
Figure 2016509812
●ドミナント音源方向についての方向の尤度関数の計算
方向の尤度関数
[外56]
Figure 2016509812
は、割り当て関数fA,kに加えて、個々の新たに検出されたドミナント音源によって生成されると考えられるHOA音場成分
[外57]
Figure 2016509812
を用いて、ステップ又は段階41で計算される。方向の尤度関数
[外58]
Figure 2016509812
は、次の式(29)のように、個々の試験方向Ω,q=1,...,Qについての尤度
[外59]
Figure 2016509812
から成るベクトルあると考えられる:
Figure 2016509812
個々の尤度
[外60]
Figure 2016509812
は、欧州特許出願第12305537.8号で記載されるように、試験方向Ωから作用する一般平面波の電力の近似であるよう計算される。特に:
Figure 2016509812
このとき、次の式(31)で表されるものは、試験方向に対するモードベクトルを表し(なお、S (・)は、以下の「実数値の球面調和関数の定義」の項において記載される実数値の球面調和関数を表す。)、このとき、次の式(32)で表されるものは、HOA表現CDOM,CORR (d)(k)に対するHOA係数間相関行列を示す:
Figure 2016509812
Figure 2016509812
●ドミナント音源方向についての方向の事後確率関数の計算
方向の事後確率関数
[外61]
Figure 2016509812
は、方向の事前確率関数
[外62]
Figure 2016509812
及び方向の尤度関数
[外63]
Figure 2016509812
を用いて、ステップ又は段階43で計算される。ここで、もう一度、方向の事後確率関数
[外64]
Figure 2016509812
は、次の式(33)のように、個々の試験方向Ω,q=1,...,Qについての事後確率
[外65]
Figure 2016509812
から成るベクトルあると考えられる:
Figure 2016509812
個々の事後確率
[外66]
Figure 2016509812
は、次の式(34)ベのように、ベイズの規則に従って計算される(欧州特許出願第12306485.9号を参照):
Figure 2016509812
固定の方向インデックスdを考えると、式(34)の分母は夫々の試験方向Ωについて一定である。続く方向探索のために、事後確率関数の最大値のみが重要である場合に、そのような大域的なスケーリングは不適切である。よって、式(34)の分母の計算は、計算出力を節約するよう完全に断念され得ることが知られる。
●平滑化されたドミナント音源方向の計算
平滑化されたドミナント音源方向
[外67]
Figure 2016509812
は、事後確率関数
[外68]
Figure 2016509812
を用いて、ステップ又は段階44で計算される。特に、フレームkについて見つけられたd番目の音源の平滑化された方向
[外69]
Figure 2016509812
は、次の事後確率関数において最大値を探すことによって求められる:
Figure 2016509812
[目下アクティブなドミナント音源のインデックス及び方向の決定]
フレームkでの全てのDACT(k)個のアクティブなドミナント音源のインデックスiact,k(d′),d′=1,...,DACT(k)の組JDOM,ACT(k)、及びフレームkでの対応するドミナント源方向の推定
[外70]
Figure 2016509812
の組GΩ,DOM,ACT(k)は、フレーム(k−1)での全てのアクティブなドミナント音源方向の平滑化された推定
[外71]
Figure 2016509812
の組GΩ,DOM,ACT(k−1)と、対応するインデックスiact,k−1(d),d′=1,...,DACT(k−1)と、フレームkについて求められた平滑化されたドミナント音源方向の推定
[外72]
Figure 2016509812
とを用いて、図1のステップ又は段階15で計算される。この演算は、少数の連続したフレームについて検出されていない音源を見かけ上非アクティブにしない目的を持ち、このようなことは、例えば、個々のインパルスの間に短い中断を伴ってインパルス様の音響を生成するカスタネットのような、源について起こり得る。このように、最後(すなわち、(k−1)番目)のふれーむにおいてアクティブであると考えられた音源を、それらが所定数KINACTの連続するフレームについて検出されなかった場合にのみ非アクティブにすることが妥当である。
先の検討に従って、第1のステップで、フレーム(k−1)での全てのDACT(k−1)個のアクティブなドミナント音源のインデックスiACT,k−1(d′),d′=1,...,DACT(k−1)の組JDOM,ACT(k−1)と、次の式(36)で表される全ての新たに検出された音源のインデックスの組との結合された組JJOINED(k)は、計算される:
Figure 2016509812
すなわち:
Figure 2016509812
この組から、所望の組JDOM,ACT(k)は、多数のKINACT個の前の連続したフレームについて検出されなかった源のインデックスをJJOINED(k)から除外することによって求められる。フレームkでのアクティブなドミナント音源の数DACT(k)は、JDOM,ACT(k)の要素の数に設定される。
最後に、iact,k(d′)がJDOM,ACT(k)の要素を示すとして、ドミナント源方向推定
[外73]
Figure 2016509812
は、次の式(38)によって決定される:
Figure 2016509812
これは、夫々の音源がフレームkで新たに検出されない場合に、以前にアクティブであったドミナント音源の方向が一定に保たれることを意味する。
[高次アンビソニクスの基本]
高次アンビソニクス(HOA)は、音源がないと考えられる関心のあるコンパクトな領域内での音場の記述に基づく。その場合に、関心のある領域内での時間t及び位置xでの音圧p(t,x)の時空間的な挙動は、同次波動方程式によって物理的に十分に決定される。以下で、図5に示される球座標系が考えられる。使用される座標系では、x軸は正面位置を指し示し、y軸は左を指し示し、z軸は上を指し示す。空間x(r,θ,φ)での位置は、半径r>0(すなわち、座標原点までの距離)、極軸zから測定される傾斜角度θ∈[0,π]、及びx軸からx−y平面において反時計回りで測定されるアジマス角φ∈[0,2π]によって表される。(・)は転置を表す。
次いで、ωが角周波数を表し且つiが虚数単位を示すとして、F(・)、すなわち、次の式(39)によって表される、時間に対する音圧のフーリエ変換は、式(40)に従って、一連の球面調和関数に展開され得ることが示され得る(E. G. Williams,“Fourier Acoustics”,vol.93 of Applied Mathematical Sciences,Academic Press,1999年を参照):
Figure 2016509812
Figure 2016509812
式(40)で、cは音響の速度を表し、kは、k=ω/cによって角周波数ωに関連付けられる角波数を表し、j(・)は、第1種の球ベッセル関数を表し、S (θ,φ)は、以下の「実数値の球面調和関数の定義」の項で定義される次数n及び角度mの実数値の球面調和関数を表す。展開係数A (k)は、角波数kにのみ依存している。音圧は空間的に帯域制限されると暗に考えられる。よって、級数は、HOA表現の次数と呼ばれる上限値Nで次数インデックスnに対して切り捨てられる。
音場が、角度タプル(θ,φ)によって特定される全ての可能な方向から到来する異なる角周波数ωの無限数の調和平面波の重ね合わせによって表される場合に、夫々の平面波複素振幅関数C(ω,θ,φ)は、次の球面調和関数展開(41)によって表現され得ることが示され得る(B. Rafaely,“Plane-wave Decomposition of the Sound Field on a Sphere by Spherical Convolution”,J. Acoust. Soc. Am.,vol.4(116),pp.2149-2157,2004年を参照):
Figure 2016509812
このとき、展開係数C (k)は、次の式(42)によって、展開係数A (k)に関連付けられる:
Figure 2016509812
個々の係数C (k=ω/c)が角周波数ωの関数であるとする場合に、逆フーリエ変換(F−1(・)によって表される)の適用は、夫々の次数及び角度mについて、時間領域の関数(43)を与える:
Figure 2016509812
これは、次の式(44)によって、単一ベクトルc(t)において収集され得る:
Figure 2016509812
ベクトルc(t)内の時間領域関数c (t)の位置インデックスは、n(n+1)+1+mによって与えられる。ベクトルc(t)における要素の全体数はO=(N+1)によって与えられる。
最終のアンビソニクス様式は、次の式(45)のように、サンプリング周波数fを用いたc(t)のサンプリングされたバージョンを提供する:
Figure 2016509812
このとき、T=1/fはサンプリング周期を表す。c(lT)の要素はアンビソニクス係数と呼ばれる。時間領域信号c (t)、ひいてはアンビソニクス係数は、実数値である。
●実数値の球面調和関数の定義
実数値の球面調和関数S (θ,φ)は、次の式(46)及び(47)によって表される:
Figure 2016509812
関連するルジャンドル関数Pn,m(x)は、ルジャンドル多項式P(x)を用いて、上記のE. G. Williamsのテキストとは異なって、コンドン−ショートレイ位相項(−1)によらずに、次の式(48)のように定義される:
Figure 2016509812
●高次アンビソニクスの空間分解能
方向Ω=(θ,φから到来する一般平面波関数x(t)は、次の式(49)によって、HOAにおいて表される:
Figure 2016509812
平面波振幅の対応する空間密度
[外74]
Figure 2016509812
は、次の式(50)及び(51)によって与えられる:
Figure 2016509812
式(51)から、それは一般平面波関数x(t)と空間分散関数ν(Θ)との積であることが分かる。このことは、次の式(52)によって表される性質をもって、ΩとΩとの間の角度Θののみ依存しているものとして示され得る:
Figure 2016509812
期待されるように、無限次数、すなわち、N→∞の制限において、空間分散関数は、デラック・デルタδ(・)になる。すなわち:
Figure 2016509812
しかし、有限次数Nの場合に、方向Ωからの一般平面波の寄与は、近傍方向に不鮮明化される。このとき、不鮮明の程度は、次数の増大に伴って小さくなる。Nの異なる値についての正規化された関数ν(Θ)のプロットは図6で与えられている。
あらゆる方向Ωについて、平面波振幅の空間密度の時間領域の挙動は、あらゆる他の方向でのその挙動の倍数である。特に、幾つかの固定方向Ω及びΩについての関数c(t,Ω)及びc(t,Ω)は、時間tに関して互いに大いに相関される。
●球面調和関数変換
平面波振幅の空間密度が、単位球面上でほぼ一様に分布している多数のO個の空間方向Ω,1≦o≦Oで離散化される場合に、O個の指向性信号c(t,Ω)が得られる。それらの信号を次の式(54)のようにベクトルにまとめることを考える:
Figure 2016509812
このベクトルは、次の式(55)のように単純マトリクス乗算によって、式(44)において定義される連続アンビソニクス表現d(t)から計算されることが、式(50)を用いることによって立証され得る:
Figure 2016509812
このとき、(・)は、共役転置を示し、Ψは、次の式(56)によって定義されるモード行列を表す:
Figure 2016509812
Ωoは、単位球面においてほぼ一様に分布しているので、モード行列は、一般に反転可能である。よって、連続アンビソニクス表現は、次の式(58)によって、指向性信号c(t,Ω)から計算され得る:
Figure 2016509812
双方の式は、アンビソニクス表現と‘空間領域’との間の変換及び逆変換を構成する。それらの変換は、夫々、球面調和関数変換及び逆球面調和関数変換と称される。方向Ωは、単位球面においてほぼ一様に分布しているので、式(55)においてΨの代わりにΨ−1の使用を正当化する近似が存在する:
Figure 2016509812
上記の全ての関係は、離散時間領域についても有効である。
発明の処理は、単一のプロセッサ又は電子回路によって、あるいは、並行して動作する及び/又は発明処理の異なる部分において動作する複数のプロセッサ若しくは電子回路によって、実行され得る。
発明によって解決されるべき課題は、HOA音場におけるドミナント音源の決定を改善して、それらの時間軌跡が追跡され得るようにすることである。この課題は、請求項1、2及び6において開示される方法によって解決される。請求項6の方法を用いる装置は、請求項11において開示される。

Claims (11)

  1. 音場のHOAと称される高次アンビソニクス表現における無相関な音源の方向を決定する方法であって、
    HOA係数の現在時間フレームにおいて、ドミナント音源の一応の方向推定を逐次探索し、対応するドミナント音源によって生成されるHOA音場成分を計算するステップを有し、
    前記探索の夫々の繰り返しにおいて、夫々の更なる方向推定は、前に見つけられた音源の信号と相関する全ての成分が取り除かれている原のHOA表現を表す残余HOA表現から計算され、
    現在の方向推定は、複数の予め定義された試験方向の中から選択され、聴取者位置で前記選択された方向から作用する前記残余HOA表現の関連する一般平面波の電力が、全ての他の試験方向の電力と比較して最大であるようにする、方法。
  2. 前記HOA係数の現在時間フレームについての前記選択された方向推定は、HOA係数の前の時間フレームにおいて見つけられたドミナント音源へ割り当てられ、最終の方向推定は、結果として得られる時間軌跡に対して平滑化される、
    請求項1に記載の方法。
  3. 前記平滑化は、ベイズ推定プロセスを実行することによって実行され、該ベイズ推定プロセスは、前記原のHOA表現のドミナント音源成分の指向性電力分布と、統計に基づく先験的な音源移動モデルとを利用する、
    請求項2に記載の方法。
  4. 前記統計に基づく先験的な音源移動モデルは、個々の音源の動きを、前記前の時間フレームにおけるそれらの方向の知識と、前記前の時間フレームと最後から2番目の時間フレームとの間での動きの知識とから統計的に予測する、
    請求項3に記載の方法。
  5. 前記HOA係数の前の時間フレームにおいて見つけられたドミナント音源への方向推定の前記割り当ては、方向推定及び前に見つけられた音源の方向の組の間の角度の連帯的な最小化と、方向推定に及び前記HOA係数の前の時間フレームにおいて見つけられたドミナント音源に関連した指向性信号の組の間の相関係数の絶対値の最大化とによって達成される、
    請求項3又は4に記載の方法。
  6. 音場のHOAと称される高次アンビソニクス表現における無相関な音源の方向を決定する方法であって、
    HOA係数の現在時間フレームにおいて、ドミナント音源の一応の方向推定を逐次探索し、対応するドミナント音源によって生成されるHOA音場成分を計算し、対応する指向性信号を計算するステップと、
    前記現在時間フレームの前記一応の方向推定と前記HOA係数の前の時間フレームにおいてアクティブな音源の平滑化された方向とを比較することによって、且つ、前記現在時間フレームの前記指向性信号と前記前の時間フレームにおいてアクティブな音源の指向性信号とを相関させることによって、前記計算されたドミナント音源を、前記前の時間フレームにおいてアクティブな対応する音源に割り当てて、割り当て関数を得るステップと、
    前記割り当て関数、前記前の時間フレームにおける平滑化された方向の組、前記前の時間フレームにおけるアクティブなドミナント音源のインデックスの組、最後から2番目の時間フレームと前記前の時間フレームとの間での夫々の源移動角度の組、及び前記対応するドミナント音源によって生成される前記HOA音場成分を用いて、平滑化されたドミナント源方向を計算するステップと、
    前記平滑化されたドミナント源方向、前記前の時間フレームの前記アクティブなドミナント音源の方向のフレーム遅延されたバージョン、及び前記前の時間フレームにおける前記アクティブなドミナント音源のインデックスのフレーム遅延されたバージョンを用いて、前記現在時間フレームの前記アクティブなドミナント音源のインデックス及び方向を決定するステップと
    を有し、
    前記前の時間フレームにおいてアクティブな音源の前記指向性信号は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及び前記前の時間フレームのHOA係数からモードマッチングを用いて計算され、
    前記最後から2番目の時間フレームと前記前の時間フレームとの間での前記源移動角度の組は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及びその更にフレーム遅延されたバージョンから計算される、方法。
  7. 音場のHOAと称される高次アンビソニクス表現における無相関な音源の方向を決定する装置であって、
    HOA係数の現在時間フレームにおいて、ドミナント音源の一応の方向推定を逐次探索し、対応するドミナント音源によって生成されるHOA音場成分を計算し、対応する指向性信号を計算するよう構成される手段と、
    前記現在時間フレームの前記一応の方向推定と前記HOA係数の前の時間フレームにおいてアクティブな音源の平滑化された方向とを比較することによって、且つ、前記現在時間フレームの前記指向性信号と前記前の時間フレームにおいてアクティブな音源の指向性信号とを相関させることによって、前記計算されたドミナント音源を、前記前の時間フレームにおいてアクティブな対応する音源に割り当てて、割り当て関数を得るよう構成される手段と、
    前記割り当て関数、前記前の時間フレームにおける平滑化された方向の組、前記前の時間フレームにおけるアクティブなドミナント音源のインデックスの組、最後から2番目の時間フレームと前記前の時間フレームとの間での夫々の源移動角度の組、及び前記対応するドミナント音源によって生成される前記HOA音場成分を用いて、平滑化されたドミナント源方向を計算するよう構成される手段と、
    前記平滑化されたドミナント源方向、前記前の時間フレームの前記アクティブなドミナント音源の方向のフレーム遅延されたバージョン、及び前記前の時間フレームにおける前記アクティブなドミナント音源のインデックスのフレーム遅延されたバージョンを用いて、前記現在時間フレームの前記アクティブなドミナント音源のインデックス及び方向を決定するよう構成される手段と
    を有し、
    前記前の時間フレームにおいてアクティブな音源の前記指向性信号は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及び前記前の時間フレームのHOA係数からモードマッチングを用いて計算され、
    前記最後から2番目の時間フレームと前記前の時間フレームとの間での前記源移動角度の組は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及びその更にフレーム遅延されたバージョンから計算される、装置。
  8. 検出されたドミナント指向性信号の数及び対応する一応の方向推定の決定において、前記対応するドミナント音源によって生成されるHOA音場成分は、対応する残余HOA表現を得るために、前記HOA係数の現在時間フレームから減算され、該減算の処理は、見つけられた音場成分が更なる方向探索について除外されるように、更なるそのような音場成分についてその都度の残りの残余HOA表現に基づき繰り返し実行される、
    請求項6に記載の方法、又は請求項7に記載の装置。
  9. 単一の方向インデックについて、前記残りの残余HOA表現の指向性電力分布は、単位球面においてほぼ一様に分布する所定の数の離散的な試験方向について計算され、前記指向性電力分布は、ドミナント音源の存在について解析され、ドミナント音源の不在が検出される場合は、前記方向探索は停止され、ドミナント音源が検出される場合は、座標原点に対するその方向の一応の推定が計算される、
    請求項8に記載の方法、又は請求項8に記載の装置。
  10. ドミナント音源の一応の推定を決定した後、同じ音源によって生成されると推測される音場成分のHOA表現及び夫々の指向性信号は、
    単位球面に一様に分布することを目標とされるサンプリング位置から成る固定の予め定義された球面グリッドを回転させて、回転されたサンプリング位置のグリッドを提供し、前記回転が、第1の回転されたサンプリング位置が前記一応の方向推定に対応するように実行されることと、
    前記残りの残余HOA表現を、前記回転されたグリッド方向から座標原点に作用すると推測される対応する平面波関数によって等価に表現される空間領域へと変換し、ドミナント音源信号及びグリッド指向性信号を計算することと、
    ドミナント音源信号からの前記グリッド指向性信号の予測を実行することと、
    前記残りの残余HOA表現によって表される音場に対する前記ドミナント音源の寄与を表す、前記予測されたグリッド指向性信号のHOA表現を、逆球面調和関数変換によって計算することと
    によって計算される、
    請求項8若しくは9に記載の方法、又は請求項8若しくは9に記載の装置。
  11. 前記平滑化されたドミナント源方向の計算は、
    前記割り当て関数、前記前の時間フレームにおける平滑化された方向の組、前記前の時間フレームにおけるアクティブなドミナント音源のインデックスの組、及び源移動角度の組を用いて、ドミナント音源方向について方向の事前確率関数を計算することと、
    前記割り当て関数を用いて、且つ、ドミナント音源によって生成される前記HOA音場成分を用いて、ドミナント音源方向について方向の尤度関数を計算することと、
    前記方向の尤度関数を用いて、且つ、前記方向の事前確率関数を用いて、ドミナント音源方向について方向の事後確率関数を計算することと、
    ドミナント音源方向についての前記方向の事後確率関数を用いて、平滑化されたドミナント音源方向を決定することと
    によって実行される、
    請求項6及び8乃至10のうちいずれか一項に記載の方法、又は請求項7乃至10のうちいずれか一項に記載の装置。
JP2015556516A 2013-02-08 2014-02-07 音場の高次アンビソニクス表現における無相関な音源の方向を決定する方法及び装置 Active JP6374882B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP13305156.5 2013-02-08
EP20130305156 EP2765791A1 (en) 2013-02-08 2013-02-08 Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field
PCT/EP2014/052479 WO2014122287A1 (en) 2013-02-08 2014-02-07 Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field

Publications (3)

Publication Number Publication Date
JP2016509812A true JP2016509812A (ja) 2016-03-31
JP2016509812A5 JP2016509812A5 (ja) 2017-02-09
JP6374882B2 JP6374882B2 (ja) 2018-08-15

Family

ID=47780000

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015556516A Active JP6374882B2 (ja) 2013-02-08 2014-02-07 音場の高次アンビソニクス表現における無相関な音源の方向を決定する方法及び装置

Country Status (7)

Country Link
US (1) US9622008B2 (ja)
EP (2) EP2765791A1 (ja)
JP (1) JP6374882B2 (ja)
KR (1) KR102220187B1 (ja)
CN (1) CN104995926B (ja)
TW (1) TWI647961B (ja)
WO (1) WO2014122287A1 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
EP2743922A1 (en) 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
EP2800401A1 (en) 2013-04-29 2014-11-05 Thomson Licensing Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation
US20140358565A1 (en) 2013-05-29 2014-12-04 Qualcomm Incorporated Compression of decomposed representations of a sound field
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US9489955B2 (en) 2014-01-30 2016-11-08 Qualcomm Incorporated Indicating frame parameter reusability for coding vectors
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
EP3357259B1 (en) * 2015-09-30 2020-09-23 Dolby International AB Method and apparatus for generating 3d audio content from two-channel stereo content
CN105516875B (zh) * 2015-12-02 2020-03-06 上海航空电器有限公司 用于快速测量虚拟声音产生设备空间角度分辨率的装置
GR1008860B (el) * 2015-12-29 2016-09-27 Κωνσταντινος Δημητριου Σπυροπουλος Συστημα διαχωρισμου ομιλητων απο οπτικοακουστικα δεδομενα
US10089063B2 (en) 2016-08-10 2018-10-02 Qualcomm Incorporated Multimedia device for processing spatialized audio based on movement
JP6723120B2 (ja) * 2016-09-05 2020-07-15 本田技研工業株式会社 音響処理装置および音響処理方法
CN107147975B (zh) * 2017-04-26 2019-05-14 北京大学 一种面向不规则扬声器摆放的Ambisonics匹配投影解码方法
JP7224302B2 (ja) 2017-05-09 2023-02-17 ドルビー ラボラトリーズ ライセンシング コーポレイション マルチチャネル空間的オーディオ・フォーマット入力信号の処理
US10405126B2 (en) * 2017-06-30 2019-09-03 Qualcomm Incorporated Mixed-order ambisonics (MOA) audio data for computer-mediated reality systems
FR3074584A1 (fr) * 2017-12-05 2019-06-07 Orange Traitement de donnees d'une sequence video pour un zoom sur un locuteur detecte dans la sequence
CN110751956B (zh) * 2019-09-17 2022-04-26 北京时代拓灵科技有限公司 一种沉浸式音频渲染方法及***
CN111933182B (zh) * 2020-08-07 2024-04-19 抖音视界有限公司 声源跟踪方法、装置、设备和存储介质
CN112019971B (zh) * 2020-08-21 2022-03-22 安声(重庆)电子科技有限公司 声场构建方法、装置、电子设备及计算机可读存储介质
US11743670B2 (en) 2020-12-18 2023-08-29 Qualcomm Incorporated Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011041834A1 (en) * 2009-10-07 2011-04-14 The University Of Sydney Reconstruction of a recorded sound field
WO2012059385A1 (en) * 2010-11-05 2012-05-10 Thomson Licensing Data structure for higher order ambisonics audio data

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9915398D0 (en) 1999-07-02 1999-09-01 Baker Matthew J Magnetic particles
FR2801108B1 (fr) 1999-11-16 2002-03-01 Maxmat S A Analyseur chimique ou biochimique a regulation de la temperature reactionnelle
FR2839565B1 (fr) 2002-05-07 2004-11-19 Remy Henri Denis Bruno Procede et systeme de representation d'un champ acoustique
FR2858403B1 (fr) 2003-07-31 2005-11-18 Remy Henri Denis Bruno Systeme et procede de determination d'une representation d'un champ acoustique
JP5220922B2 (ja) 2008-07-08 2013-06-26 ブリュエル アンド ケアー サウンド アンド ヴァイブレーション メジャーメント エー/エス 音場の再構成
EP2285139B1 (en) * 2009-06-25 2018-08-08 Harpex Ltd. Device and method for converting spatial audio signal
KR20240009530A (ko) 2010-03-26 2024-01-22 돌비 인터네셔널 에이비 오디오 재생을 위한 오디오 사운드필드 표현을 디코딩하는 방법 및 장치
US9271081B2 (en) * 2010-08-27 2016-02-23 Sonicemotion Ag Method and device for enhanced sound field reproduction of spatially encoded audio input signals
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
EP2541547A1 (en) * 2011-06-30 2013-01-02 Thomson Licensing Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation
EP2665208A1 (en) 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
EP2738962A1 (en) 2012-11-29 2014-06-04 Thomson Licensing Method and apparatus for determining dominant sound source directions in a higher order ambisonics representation of a sound field
US9736609B2 (en) * 2013-02-07 2017-08-15 Qualcomm Incorporated Determining renderers for spherical harmonic coefficients

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011041834A1 (en) * 2009-10-07 2011-04-14 The University Of Sydney Reconstruction of a recorded sound field
WO2012059385A1 (en) * 2010-11-05 2012-05-10 Thomson Licensing Data structure for higher order ambisonics audio data

Also Published As

Publication number Publication date
TWI647961B (zh) 2019-01-11
KR102220187B1 (ko) 2021-02-25
KR20150115779A (ko) 2015-10-14
EP2765791A1 (en) 2014-08-13
WO2014122287A1 (en) 2014-08-14
TW201448616A (zh) 2014-12-16
US20150373471A1 (en) 2015-12-24
JP6374882B2 (ja) 2018-08-15
EP2954700B1 (en) 2018-03-07
US9622008B2 (en) 2017-04-11
EP2954700A1 (en) 2015-12-16
CN104995926A (zh) 2015-10-21
CN104995926B (zh) 2017-12-26

Similar Documents

Publication Publication Date Title
JP6374882B2 (ja) 音場の高次アンビソニクス表現における無相関な音源の方向を決定する方法及び装置
Erdogan et al. Improved MVDR beamforming using single-channel mask prediction networks.
Pavlidi et al. 3D localization of multiple sound sources with intensity vector estimates in single source zones
EP2926482B1 (en) Method and apparatus for determining dominant sound source directions in a higher order ambisonics representation of a sound field
MX2014006499A (es) Aparato y metodo para posicionar microfonos basado en la densidad de potencia espacial.
Li et al. Online localization and tracking of multiple moving speakers in reverberant environments
Lima et al. A volumetric SRP with refinement step for sound source localization
JP7276470B2 (ja) 到来方向推定装置、モデル学習装置、到来方向推定方法、モデル学習方法、プログラム
WO2016119388A1 (zh) 一种基于语音信号构造聚焦协方差矩阵的方法及装置
Kotus Multiple sound sources localization in free field using acoustic vector sensor
Christensen Multi-channel maximum likelihood pitch estimation
Yang et al. Srp-dnn: Learning direct-path phase difference for multiple moving sound source localization
Hosseini et al. Time difference of arrival estimation of sound source using cross correlation and modified maximum likelihood weighting function
Krause et al. Data diversity for improving DNN-based localization of concurrent sound events
Cai et al. Accelerated steered response power method for sound source localization using orthogonal linear array
Dehghan Firoozabadi et al. A novel nested circular microphone array and subband processing-based system for counting and DOA estimation of multiple simultaneous speakers
JP2017085265A (ja) インパルス応答生成装置及びプログラム
Toma et al. Efficient Detection and Localization of Acoustic Sources with a low complexity CNN network and the Diagonal Unloading Beamforming
Dilungana et al. Learning-based estimation of individual absorption profiles from a single room impulse response with known positions of source, sensor and surfaces
Wu et al. Acoustic source tracking in reverberant environment using regional steered response power measurement
Kim et al. Multiple speaker tracking with the GLMB filter
Firoozabadi et al. Multi-speaker localization by central and lateral microphone arrays based on the combination of 2D-SRP and subband GEVD algorithms
Yan et al. Fast simulation method for room impulse responses based on the mirror image source assumption
Dehghan Firoozabadi et al. Subband processing‐based approach for the localisation of two simultaneous speakers
Sharma et al. Development of a speech separation system using frequency domain blind source separation technique

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20160826

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170106

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180703

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180720

R150 Certificate of patent or registration of utility model

Ref document number: 6374882

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250