JP2016509812A - 音場の高次アンビソニクス表現における無相関な音源の方向を決定する方法及び装置 - Google Patents
音場の高次アンビソニクス表現における無相関な音源の方向を決定する方法及び装置 Download PDFInfo
- Publication number
- JP2016509812A JP2016509812A JP2015556516A JP2015556516A JP2016509812A JP 2016509812 A JP2016509812 A JP 2016509812A JP 2015556516 A JP2015556516 A JP 2015556516A JP 2015556516 A JP2015556516 A JP 2015556516A JP 2016509812 A JP2016509812 A JP 2016509812A
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- dominant
- time frame
- hoa
- source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 49
- 238000009826 distribution Methods 0.000 claims abstract description 24
- 230000000875 corresponding effect Effects 0.000 claims description 34
- 238000004364 calculation method Methods 0.000 claims description 22
- 230000003111 delayed effect Effects 0.000 claims description 20
- 238000012360 testing method Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 17
- 238000005070 sampling Methods 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 9
- 230000005428 wave function Effects 0.000 claims description 9
- 238000009499 grossing Methods 0.000 claims description 5
- 230000002596 correlated effect Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 48
- UXIGZRQVLGFTOU-VQXQMPIVSA-N remikiren Chemical compound C([C@H](CS(=O)(=O)C(C)(C)C)C(=O)N[C@@H](CC=1NC=NC=1)C(=O)N[C@@H](CC1CCCCC1)[C@@H](O)[C@@H](O)C1CC1)C1=CC=CC=C1 UXIGZRQVLGFTOU-VQXQMPIVSA-N 0.000 description 24
- 239000011159 matrix material Substances 0.000 description 10
- 239000006185 dispersion Substances 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- FVFVNNKYKYZTJU-UHFFFAOYSA-N 6-chloro-1,3,5-triazine-2,4-diamine Chemical compound NC1=NC(N)=NC(Cl)=N1 FVFVNNKYKYZTJU-UHFFFAOYSA-N 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Stereophonic System (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
・時間フレーム内の目下存在しているドミナント音源の数が特定され、対応する方向が探索される。ドミナント音源の数は、HOAチャネル相互相関行列の固有値から決定される。ドミナント音源方向の探索のために、固定された多数の予め定義された試験方向についてのHOA係数のフレームに対応する指向性電力分布が評価される。最初の方向推定は、指向性電力分布において極大を探すことによって得られる。次いで、残りの特定された方向は、次の2つの動作を連続して繰り返すことによって見つけられる:空間近傍における試験方向は、残りの試験方向の組から削除され、結果として得られる組は、指向性電力分布の極大の探索のために考慮される。
・推定された方向は、最後の時間フレームにおいてアクティブであると見なされる音源に割り当てられる。
・割り当てに続いて、方向推定の適切な平滑化が、時間的に滑らかな方向軌跡を得るために実行される。
HOA表現の減算時間フレームkから、ドミナント音源方向についての候補又は推定が逐次探索され、夫々の音源によって生成されると考えられるHOA表現の成分が決定される。この探索プロセスの夫々の繰り返しにおいて、夫々の更なる方向候補は、前に見つけられた音源の信号と相関する全ての成分が除外された原のHOA表現を表す残留HOA表現から計算される。現在の方向候補は、複数の予め定義された試験方向の中から選択され、聴取者位置で前記選択された方向から作用する残余HOA表現の関連する一般平面波の電力が、全ての他の試験方向の電力と比較して最大であるようにする。
HOA係数の現在時間フレームにおいて、ドミナント音源の一応の方向推定を逐次探索し、対応するドミナント音源によって生成されるHOA音場成分を計算し、対応する指向性信号を計算するステップと、
前記現在時間フレームの前記一応の方向推定と前記HOA係数の前の時間フレームにおいてアクティブな音源の平滑化された方向とを比較することによって、且つ、前記現在時間フレームの前記指向性信号と前記前の時間フレームにおいてアクティブな音源の指向性信号とを相関させることによって、前記計算されたドミナント音源を、前記前の時間フレームにおいてアクティブな対応する音源に割り当てて、割り当て関数を得るステップと、
前記割り当て関数、前記前の時間フレームにおける平滑化された方向の組、前記前の時間フレームにおけるアクティブなドミナント音源のインデックスの組、最後から2番目の時間フレームと前記前の時間フレームとの間での夫々の源移動角度の組、及び前記対応するドミナント音源によって生成される前記HOA音場成分を用いて、平滑化されたドミナント源方向を計算するステップと、
前記平滑化されたドミナント源方向、前記前の時間フレームの前記アクティブなドミナント音源の方向のフレーム遅延されたバージョン、及び前記前の時間フレームにおける前記アクティブなドミナント音源のインデックスのフレーム遅延されたバージョンを用いて、前記現在時間フレームの前記アクティブなドミナント音源のインデックス及び方向を決定するステップと
を有し、
前記前の時間フレームにおいてアクティブな音源の前記指向性信号は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及び前記前の時間フレームのHOA係数からモードマッチングを用いて計算され、
前記最後から2番目の時間フレームと前記前の時間フレームとの間での前記源移動角度の組は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及びその更にフレーム遅延されたバージョンから計算される。
HOA係数の現在時間フレームにおいて、ドミナント音源の一応の方向推定を逐次探索し、対応するドミナント音源によって生成されるHOA音場成分を計算し、対応する指向性信号を計算するよう構成される手段と、
前記現在時間フレームの前記一応の方向推定と前記HOA係数の前の時間フレームにおいてアクティブな音源の平滑化された方向とを比較することによって、且つ、前記現在時間フレームの前記指向性信号と前記前の時間フレームにおいてアクティブな音源の指向性信号とを相関させることによって、前記計算されたドミナント音源を、前記前の時間フレームにおいてアクティブな対応する音源に割り当てて、割り当て関数を得るよう構成される手段と、
前記割り当て関数、前記前の時間フレームにおける平滑化された方向の組、前記前の時間フレームにおけるアクティブなドミナント音源のインデックスの組、最後から2番目の時間フレームと前記前の時間フレームとの間での夫々の源移動角度の組、及び前記対応するドミナント音源によって生成される前記HOA音場成分を用いて、平滑化されたドミナント源方向を計算するよう構成される手段と、
前記平滑化されたドミナント源方向、前記前の時間フレームの前記アクティブなドミナント音源の方向のフレーム遅延されたバージョン、及び前記前の時間フレームにおける前記アクティブなドミナント音源のインデックスのフレーム遅延されたバージョンを用いて、前記現在時間フレームの前記アクティブなドミナント音源のインデックス及び方向を決定するよう構成される手段と
を有し、
前記前の時間フレームにおいてアクティブな音源の前記指向性信号は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及び前記前の時間フレームのHOA係数からモードマッチングを用いて計算され、
前記最後から2番目の時間フレームと前記前の時間フレームとの間での前記源移動角度の組は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及びその更にフレーム遅延されたバージョンから計算される。
[外1]
は、
対応する
[外2]
とともに決定される。加えて、対応する個々のドミナント音源及び対応する瞬時指向性信号
[外3]
(すなわち、一般平面波関数)によって生成される(と考えられる)HOA音場成分
[外4]
が計算される。
[外5]
が計算される。加えて、対応する指向性信号xINST (1)(k)は、この音源によって生成されると考えられる現在フレームC(k)のその成分CDOM,CORR (1)(k)とともに、推定される。CDOM,CORR (1)(k)は、指向性信号xINST (1)(k)と相関するC(k)のその成分を表すと考えられる。最後に、HOA成分CDOM,CORR (1)(k)は、残余HOA表現CREM (2)(k)を得るために、C(k)から減じられる。d番目(d≧2)の一応の方向の推定は、C(k)の代わりに残余HOA表現CREM (d)(k)を用いる点のみを除いて、最初の一応の方向推定と全く同じように行われる。それによって、明らかに当然ながら、見つけられたd番目の音源によって生成される音場成分は、更なる方向探索について除外される。
[外6]
と、(k−1)番目のフレームにおいてアクティブな(そうであると考えられる)音源の平滑化された方向とを比較することによって、達成される。この平滑化された方向は組GΩ,DOM,ACT(k−1)に含まれており、それらのインデックスはJDOM,ACT(k−1)に含まれている。他方で、割り当てのために、フレームkでの検出されたドミナント音源の瞬時指向性信号
[外7]
と、(k−1)番目のフレームにおいてアクティブな(そうであると考えられる)音源の指向性信号XACT(k−1)との間の相関が利用される。割り当ての結果は、Dが、追跡されるべき期待される音源の最大数を表すとして、割り当て関数
[外8]
によって定式化される。このことは、d番目の新たに見つけられた音源が、インデックスfA,k(d)を持った以前にアクティブであった音源へ割り当てられることを意味する。
[外9]
は、フレーム(k−1)でのアクティブなドミナント音源のインデックスの組JDOM,ACT(k−1)と、フレーム(k−1)での対応するドミナント源方向推定の組GΩ,DOM,ACT(k−1)と、フレーム(k−2)及び(k−1)の間の夫々の源移動角度の組
[外10]
と、見つけられたドミナント音源によって生成されると考えられるHOA音場成分
[外11]
と、割り当て関数fA,Kとを用いることによって、欧州特許出願第12306485.9号で提案されている統計的な音源移動モデルに基づき計算される。このモデルベースの平滑化プロシージャの詳細な説明は、以下の「平滑化されたドミナント音源方向のモデルベースの計算」の項で与えられる。
[外12]
と、(k−1)番目のフレームにおいてアクティブであると考えられる音源の平滑化された方向及び夫々のインデックスを含む組GΩ、DOM,ACT(k−1)及びJDOM,ACT(k−1)とを用いて、決定される。この動作は、少数の連続したフレームについて検出されなかった音源を擬似的に非アクティブにしない目的を持つ。
[外13]
は、(k−1)番目及び(k−2)番目のフレームにおいて夫々アクティブであると考えられる音源の平滑化された方向推定の2つの組GΩ,DOM,ACT(k−1)及びGΩ,DOM,ACT(k−2)から計算される。移動は、フレームk−2及びk−1の間で起こると理解される。アクティブなドミナント音源の移動角度は、フレームk−2でのその平滑化された方向推定と、フレームk−1でのその平滑化された方向推定との間の円弧である。
予備的な方法探索のステップ/段階11で、(フレームkにおいて)存在するドミナント音源の現在数
[外14]
及び夫々の方向
[外15]
は推定される。加えて、個々の音源によって生成されると考えられるHOA音場成分
[外16]
は、対応する指向性信号
[外17]
(すなわち、一般平面波関数)とともに、計算される。全ての先に列挙された量は、最初に方向インデックスd=1について、次いでd=2について、そして以降同様に、
[外18]
になるまで、計算される。
[外19]
に設定される。そうではなく、ドミナント音源が検出される場合は、座標原点に対するその方向
[外20]
の一応の推定がステップ又は段階23で計算される。詳細については、以下の「ドミナント音源方向の探索」の項を参照されたい。
CREM (d)(k)によって表される音場内でドミナント音源の存在を検出するために、残りのHOA表現CREM (1)(k),...,CREM (d)(k)の指向性電力分布p(1)(k),...,p(d)(k)が考慮される。一方で、次の式(4)で表される分散比をモニタすることが妥当であることが実験的に分かっている:
[外21]
である。更なるドミナント音源は、変数比δp (d)(k)の値がある所定の閾値εp<1を上回ったままであり、且つ、変数比の値は1よりも小さい場合に、(d≧2について)検出される。すなわち、ドミナント音源は、次の関係式(8)が成立する場合に、(d≧2について)検出される:
d番目の音源が検出された後、その方向
[外22]
の一応の推定は、指向性電力分布p(d)(k)を用いることによって探索される。探索は、指向性電力が最大であるところの試験方向Ωqを採ることによって、達成される。すなわち:
その後に、ドミナント源方向の一応の推定
[外23]
を決定した後、夫々の指向性信号xINT (d)(k)は、同じ音源によって生成されると考えられる音場成分のHOA表現CDOM,CORR (d)(k)とともに、図3に従って計算される。ステップ又は段階31で、単位球面上にほぼ一様に分布すると考えられるO個のサンプリング位置ΩINIT,o,o=1,...,Oから成る固定の予め定義された球面グリッドGΩ,INITは回転されて、回転されたサンプリング位置ΩROT,o (d)(k),o=1,...,Oから成るグリッドGΩ,ROT (d)(k)を与える。回転は、第1の回転されたサンプリング位置ΩROT,1 (d)(k)が一応の方向推定
[外24]
に対応するように実行される。
[外25]
は、次のように、式(11)を用いて式(10)の通りに計算される:
[外26]
は、回転されたサンプリング位置ΩROT,1 (d)(k)に対応するので、一般平面波関数x1,INST (d)(k)は、所望のドミナント方向信号xINST (d)(k)と見なされ得る。すなわち:
[外27]
によって表される。
[外28]
を、フィルタが予測誤差を最小限するように決定される線形フィルタリングによってxINST (d)(k)から生成されると考えることである。フィルタが(解析フレームの存続期間と比較して)ごく短い存続期間の有限インパルス応答(FIR)フィルタであると考えられる場合は、予測誤差の最小化は、最先端の最小二乗技術を用いることによって達成され得る。
(k−1)番目のフレームにおいてアクティブであると考えられる音源の指向性信号
[外29]
は、式(20)に従って行列XACT(k−1)内に含まれる。この行列は、次の式(16)によってモードマッチング(上記のPolettiの文献を参照されたい。)を用いて計算される:
[外30]
は、(k−1)番目のフレームにおいてアクティブであると考えられる音源の方向
[外31]
に対するモード行列を表す。モード行列
[外32]
は、次のように、式(18)を用いて式(17)によって計算される:
上述されたように、一方で、図1のステップ/段階13での割り当ては、一応の方向推定
[外33]
と、(k−1)番目のフレームにおいてアクティブであると考えられる音源の平滑化された方向とを比較することによって、達成される。この平滑化された方向は、次の式(19)によって表される組に含まれる:
[外34]
の組の間の角度
[外35]
が小さければ小さいほど、d番目の新たに見つけられたドミナント音源方向は、インデックスiACT,k−1(d′)を持った以前にアクティブであった音源に対応する可能性がますます高くなると考えられる。
[外36]
と、(k−1)番目のフレームにおいてアクティブであると考えられる音源の指向性信号XACT(k−1)との間の相関が利用される。ここで、フレームXACT(k−1)は、次の式(20)の通りに、(k−1)番目のフレームにおいてアクティブであると考えられる音源の個々の指向性信号
[外37]
から成ると考えられる:
[外38]
の間の相関係数
[外39]
の絶対値が高ければ高いほど、d番目の新たに見つけられたドミナント音源方向は、インデックスiACT,k−1(d′)を持った以前にアクティブであった音源に対応する可能性がますます高くなると仮定される。そのような仮定は、相関係数が2つの信号の間の線形依存性のための指標を与えると事実によって正当化される。
[外41]
について、角度
[外42]
は、ΘMINの最小角度に事実上設定されると暗に考えられる。このとき、例えば、ΘMIN=2π/N。更に、方向インデックス
[外43]
についての相関係数
[外44]
は、事実上ゼロに設定される。最初の動作は、d番目の新たに見つけられた方向
[外45]
と以前にアクティブであったドミナント音源の方向との間の角度がΘMINよりも大きい場合に、この新たに見つけられた方向が新しい音源に属する傾向を有するとの効果を有する。
この項は、統計的な音源移動モデルに従って図1のステップ/段階14における平滑化されたドミナント音源方向の計算に対処する。この計算のための個々のステップは図4に表されており、以下で詳細に説明される。
新たに見つけられたドミナント音源方向についての方向の事前確率関数
[外46]
は:
・フレーム(k−1)でのアクティブなドミナント音源のインデックスiACT,k−1(d′),d′=1,...,DACT(k−1)の組JDOM,ACT(k−1)と、
・フレーム(k−1)での対応するドミナント音源方向推定
[外47]
の組GΩ,DOM,ACT(k−1)と、
・フレーム(k−2)及び(k−1)の間の夫々の源移動角度
[外48]
の組
[外49]
と、
・割り当て関数fA,kと
を用いて、ステップ又は段階42で計算される。計算は、欧州特許出願第12306485.9号において紹介されている単純な音源移動予測モデルに基づく。特に、d番目の新たに見つけられたドミナント音源についての方向の事前確率関数
[外50]
は、3次元空間における単位球面上のフォンミーゼス−フィッシャー分布の離散バージョンであると考えられる。
a)d番目の新たに見つけられたドミナント音源に割り当てられる源インデックスfA,k(d)が組JDOM,ACT(k−1)に含まれる場合は、事前確率は、次の式(23)に従って計算される:
[外55]
は、単位球面において一様であると考えられる。このとき、個々の確率は、全ての試験方向Ωqに関して等しい。すなわち:
方向の尤度関数
[外56]
は、割り当て関数fA,kに加えて、個々の新たに検出されたドミナント音源によって生成されると考えられるHOA音場成分
[外57]
を用いて、ステップ又は段階41で計算される。方向の尤度関数
[外58]
は、次の式(29)のように、個々の試験方向Ωq,q=1,...,Qについての尤度
[外59]
から成るベクトルあると考えられる:
方向の事後確率関数
[外61]
は、方向の事前確率関数
[外62]
及び方向の尤度関数
[外63]
を用いて、ステップ又は段階43で計算される。ここで、もう一度、方向の事後確率関数
[外64]
は、次の式(33)のように、個々の試験方向Ωq,q=1,...,Qについての事後確率
[外65]
から成るベクトルあると考えられる:
平滑化されたドミナント音源方向
[外67]
は、事後確率関数
[外68]
を用いて、ステップ又は段階44で計算される。特に、フレームkについて見つけられたd番目の音源の平滑化された方向
[外69]
は、次の事後確率関数において最大値を探すことによって求められる:
フレームkでの全てのDACT(k)個のアクティブなドミナント音源のインデックスiact,k(d′),d′=1,...,DACT(k)の組JDOM,ACT(k)、及びフレームkでの対応するドミナント源方向の推定
[外70]
の組GΩ,DOM,ACT(k)は、フレーム(k−1)での全てのアクティブなドミナント音源方向の平滑化された推定
[外71]
の組GΩ,DOM,ACT(k−1)と、対応するインデックスiact,k−1(d),d′=1,...,DACT(k−1)と、フレームkについて求められた平滑化されたドミナント音源方向の推定
[外72]
とを用いて、図1のステップ又は段階15で計算される。この演算は、少数の連続したフレームについて検出されていない音源を見かけ上非アクティブにしない目的を持ち、このようなことは、例えば、個々のインパルスの間に短い中断を伴ってインパルス様の音響を生成するカスタネットのような、源について起こり得る。このように、最後(すなわち、(k−1)番目)のふれーむにおいてアクティブであると考えられた音源を、それらが所定数KINACTの連続するフレームについて検出されなかった場合にのみ非アクティブにすることが妥当である。
高次アンビソニクス(HOA)は、音源がないと考えられる関心のあるコンパクトな領域内での音場の記述に基づく。その場合に、関心のある領域内での時間t及び位置xでの音圧p(t,x)の時空間的な挙動は、同次波動方程式によって物理的に十分に決定される。以下で、図5に示される球座標系が考えられる。使用される座標系では、x軸は正面位置を指し示し、y軸は左を指し示し、z軸は上を指し示す。空間x(r,θ,φ)Tでの位置は、半径r>0(すなわち、座標原点までの距離)、極軸zから測定される傾斜角度θ∈[0,π]、及びx軸からx−y平面において反時計回りで測定されるアジマス角φ∈[0,2π]によって表される。(・)Tは転置を表す。
実数値の球面調和関数Sn m(θ,φ)は、次の式(46)及び(47)によって表される:
平面波振幅の空間密度が、単位球面上でほぼ一様に分布している多数のO個の空間方向Ωo,1≦o≦Oで離散化される場合に、O個の指向性信号c(t,Ωo)が得られる。それらの信号を次の式(54)のようにベクトルにまとめることを考える:
Claims (11)
- 音場のHOAと称される高次アンビソニクス表現における無相関な音源の方向を決定する方法であって、
HOA係数の現在時間フレームにおいて、ドミナント音源の一応の方向推定を逐次探索し、対応するドミナント音源によって生成されるHOA音場成分を計算するステップを有し、
前記探索の夫々の繰り返しにおいて、夫々の更なる方向推定は、前に見つけられた音源の信号と相関する全ての成分が取り除かれている原のHOA表現を表す残余HOA表現から計算され、
現在の方向推定は、複数の予め定義された試験方向の中から選択され、聴取者位置で前記選択された方向から作用する前記残余HOA表現の関連する一般平面波の電力が、全ての他の試験方向の電力と比較して最大であるようにする、方法。 - 前記HOA係数の現在時間フレームについての前記選択された方向推定は、HOA係数の前の時間フレームにおいて見つけられたドミナント音源へ割り当てられ、最終の方向推定は、結果として得られる時間軌跡に対して平滑化される、
請求項1に記載の方法。 - 前記平滑化は、ベイズ推定プロセスを実行することによって実行され、該ベイズ推定プロセスは、前記原のHOA表現のドミナント音源成分の指向性電力分布と、統計に基づく先験的な音源移動モデルとを利用する、
請求項2に記載の方法。 - 前記統計に基づく先験的な音源移動モデルは、個々の音源の動きを、前記前の時間フレームにおけるそれらの方向の知識と、前記前の時間フレームと最後から2番目の時間フレームとの間での動きの知識とから統計的に予測する、
請求項3に記載の方法。 - 前記HOA係数の前の時間フレームにおいて見つけられたドミナント音源への方向推定の前記割り当ては、方向推定及び前に見つけられた音源の方向の組の間の角度の連帯的な最小化と、方向推定に及び前記HOA係数の前の時間フレームにおいて見つけられたドミナント音源に関連した指向性信号の組の間の相関係数の絶対値の最大化とによって達成される、
請求項3又は4に記載の方法。 - 音場のHOAと称される高次アンビソニクス表現における無相関な音源の方向を決定する方法であって、
HOA係数の現在時間フレームにおいて、ドミナント音源の一応の方向推定を逐次探索し、対応するドミナント音源によって生成されるHOA音場成分を計算し、対応する指向性信号を計算するステップと、
前記現在時間フレームの前記一応の方向推定と前記HOA係数の前の時間フレームにおいてアクティブな音源の平滑化された方向とを比較することによって、且つ、前記現在時間フレームの前記指向性信号と前記前の時間フレームにおいてアクティブな音源の指向性信号とを相関させることによって、前記計算されたドミナント音源を、前記前の時間フレームにおいてアクティブな対応する音源に割り当てて、割り当て関数を得るステップと、
前記割り当て関数、前記前の時間フレームにおける平滑化された方向の組、前記前の時間フレームにおけるアクティブなドミナント音源のインデックスの組、最後から2番目の時間フレームと前記前の時間フレームとの間での夫々の源移動角度の組、及び前記対応するドミナント音源によって生成される前記HOA音場成分を用いて、平滑化されたドミナント源方向を計算するステップと、
前記平滑化されたドミナント源方向、前記前の時間フレームの前記アクティブなドミナント音源の方向のフレーム遅延されたバージョン、及び前記前の時間フレームにおける前記アクティブなドミナント音源のインデックスのフレーム遅延されたバージョンを用いて、前記現在時間フレームの前記アクティブなドミナント音源のインデックス及び方向を決定するステップと
を有し、
前記前の時間フレームにおいてアクティブな音源の前記指向性信号は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及び前記前の時間フレームのHOA係数からモードマッチングを用いて計算され、
前記最後から2番目の時間フレームと前記前の時間フレームとの間での前記源移動角度の組は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及びその更にフレーム遅延されたバージョンから計算される、方法。 - 音場のHOAと称される高次アンビソニクス表現における無相関な音源の方向を決定する装置であって、
HOA係数の現在時間フレームにおいて、ドミナント音源の一応の方向推定を逐次探索し、対応するドミナント音源によって生成されるHOA音場成分を計算し、対応する指向性信号を計算するよう構成される手段と、
前記現在時間フレームの前記一応の方向推定と前記HOA係数の前の時間フレームにおいてアクティブな音源の平滑化された方向とを比較することによって、且つ、前記現在時間フレームの前記指向性信号と前記前の時間フレームにおいてアクティブな音源の指向性信号とを相関させることによって、前記計算されたドミナント音源を、前記前の時間フレームにおいてアクティブな対応する音源に割り当てて、割り当て関数を得るよう構成される手段と、
前記割り当て関数、前記前の時間フレームにおける平滑化された方向の組、前記前の時間フレームにおけるアクティブなドミナント音源のインデックスの組、最後から2番目の時間フレームと前記前の時間フレームとの間での夫々の源移動角度の組、及び前記対応するドミナント音源によって生成される前記HOA音場成分を用いて、平滑化されたドミナント源方向を計算するよう構成される手段と、
前記平滑化されたドミナント源方向、前記前の時間フレームの前記アクティブなドミナント音源の方向のフレーム遅延されたバージョン、及び前記前の時間フレームにおける前記アクティブなドミナント音源のインデックスのフレーム遅延されたバージョンを用いて、前記現在時間フレームの前記アクティブなドミナント音源のインデックス及び方向を決定するよう構成される手段と
を有し、
前記前の時間フレームにおいてアクティブな音源の前記指向性信号は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及び前記前の時間フレームのHOA係数からモードマッチングを用いて計算され、
前記最後から2番目の時間フレームと前記前の時間フレームとの間での前記源移動角度の組は、前記前の時間フレームの前記アクティブなドミナント音源の方向の前記フレーム遅延されたバージョン及びその更にフレーム遅延されたバージョンから計算される、装置。 - 検出されたドミナント指向性信号の数及び対応する一応の方向推定の決定において、前記対応するドミナント音源によって生成されるHOA音場成分は、対応する残余HOA表現を得るために、前記HOA係数の現在時間フレームから減算され、該減算の処理は、見つけられた音場成分が更なる方向探索について除外されるように、更なるそのような音場成分についてその都度の残りの残余HOA表現に基づき繰り返し実行される、
請求項6に記載の方法、又は請求項7に記載の装置。 - 単一の方向インデックについて、前記残りの残余HOA表現の指向性電力分布は、単位球面においてほぼ一様に分布する所定の数の離散的な試験方向について計算され、前記指向性電力分布は、ドミナント音源の存在について解析され、ドミナント音源の不在が検出される場合は、前記方向探索は停止され、ドミナント音源が検出される場合は、座標原点に対するその方向の一応の推定が計算される、
請求項8に記載の方法、又は請求項8に記載の装置。 - ドミナント音源の一応の推定を決定した後、同じ音源によって生成されると推測される音場成分のHOA表現及び夫々の指向性信号は、
単位球面に一様に分布することを目標とされるサンプリング位置から成る固定の予め定義された球面グリッドを回転させて、回転されたサンプリング位置のグリッドを提供し、前記回転が、第1の回転されたサンプリング位置が前記一応の方向推定に対応するように実行されることと、
前記残りの残余HOA表現を、前記回転されたグリッド方向から座標原点に作用すると推測される対応する平面波関数によって等価に表現される空間領域へと変換し、ドミナント音源信号及びグリッド指向性信号を計算することと、
ドミナント音源信号からの前記グリッド指向性信号の予測を実行することと、
前記残りの残余HOA表現によって表される音場に対する前記ドミナント音源の寄与を表す、前記予測されたグリッド指向性信号のHOA表現を、逆球面調和関数変換によって計算することと
によって計算される、
請求項8若しくは9に記載の方法、又は請求項8若しくは9に記載の装置。 - 前記平滑化されたドミナント源方向の計算は、
前記割り当て関数、前記前の時間フレームにおける平滑化された方向の組、前記前の時間フレームにおけるアクティブなドミナント音源のインデックスの組、及び源移動角度の組を用いて、ドミナント音源方向について方向の事前確率関数を計算することと、
前記割り当て関数を用いて、且つ、ドミナント音源によって生成される前記HOA音場成分を用いて、ドミナント音源方向について方向の尤度関数を計算することと、
前記方向の尤度関数を用いて、且つ、前記方向の事前確率関数を用いて、ドミナント音源方向について方向の事後確率関数を計算することと、
ドミナント音源方向についての前記方向の事後確率関数を用いて、平滑化されたドミナント音源方向を決定することと
によって実行される、
請求項6及び8乃至10のうちいずれか一項に記載の方法、又は請求項7乃至10のうちいずれか一項に記載の装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP13305156.5 | 2013-02-08 | ||
EP20130305156 EP2765791A1 (en) | 2013-02-08 | 2013-02-08 | Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field |
PCT/EP2014/052479 WO2014122287A1 (en) | 2013-02-08 | 2014-02-07 | Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2016509812A true JP2016509812A (ja) | 2016-03-31 |
JP2016509812A5 JP2016509812A5 (ja) | 2017-02-09 |
JP6374882B2 JP6374882B2 (ja) | 2018-08-15 |
Family
ID=47780000
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015556516A Active JP6374882B2 (ja) | 2013-02-08 | 2014-02-07 | 音場の高次アンビソニクス表現における無相関な音源の方向を決定する方法及び装置 |
Country Status (7)
Country | Link |
---|---|
US (1) | US9622008B2 (ja) |
EP (2) | EP2765791A1 (ja) |
JP (1) | JP6374882B2 (ja) |
KR (1) | KR102220187B1 (ja) |
CN (1) | CN104995926B (ja) |
TW (1) | TWI647961B (ja) |
WO (1) | WO2014122287A1 (ja) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2665208A1 (en) * | 2012-05-14 | 2013-11-20 | Thomson Licensing | Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation |
EP2743922A1 (en) | 2012-12-12 | 2014-06-18 | Thomson Licensing | Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field |
EP2800401A1 (en) | 2013-04-29 | 2014-11-05 | Thomson Licensing | Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation |
US20140358565A1 (en) | 2013-05-29 | 2014-12-04 | Qualcomm Incorporated | Compression of decomposed representations of a sound field |
US9466305B2 (en) | 2013-05-29 | 2016-10-11 | Qualcomm Incorporated | Performing positional analysis to code spherical harmonic coefficients |
US9489955B2 (en) | 2014-01-30 | 2016-11-08 | Qualcomm Incorporated | Indicating frame parameter reusability for coding vectors |
US9922656B2 (en) | 2014-01-30 | 2018-03-20 | Qualcomm Incorporated | Transitioning of ambient higher-order ambisonic coefficients |
US9852737B2 (en) | 2014-05-16 | 2017-12-26 | Qualcomm Incorporated | Coding vectors decomposed from higher-order ambisonics audio signals |
US10770087B2 (en) | 2014-05-16 | 2020-09-08 | Qualcomm Incorporated | Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals |
US9620137B2 (en) | 2014-05-16 | 2017-04-11 | Qualcomm Incorporated | Determining between scalar and vector quantization in higher order ambisonic coefficients |
US9747910B2 (en) | 2014-09-26 | 2017-08-29 | Qualcomm Incorporated | Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework |
EP3357259B1 (en) * | 2015-09-30 | 2020-09-23 | Dolby International AB | Method and apparatus for generating 3d audio content from two-channel stereo content |
CN105516875B (zh) * | 2015-12-02 | 2020-03-06 | 上海航空电器有限公司 | 用于快速测量虚拟声音产生设备空间角度分辨率的装置 |
GR1008860B (el) * | 2015-12-29 | 2016-09-27 | Κωνσταντινος Δημητριου Σπυροπουλος | Συστημα διαχωρισμου ομιλητων απο οπτικοακουστικα δεδομενα |
US10089063B2 (en) | 2016-08-10 | 2018-10-02 | Qualcomm Incorporated | Multimedia device for processing spatialized audio based on movement |
JP6723120B2 (ja) * | 2016-09-05 | 2020-07-15 | 本田技研工業株式会社 | 音響処理装置および音響処理方法 |
CN107147975B (zh) * | 2017-04-26 | 2019-05-14 | 北京大学 | 一种面向不规则扬声器摆放的Ambisonics匹配投影解码方法 |
JP7224302B2 (ja) | 2017-05-09 | 2023-02-17 | ドルビー ラボラトリーズ ライセンシング コーポレイション | マルチチャネル空間的オーディオ・フォーマット入力信号の処理 |
US10405126B2 (en) * | 2017-06-30 | 2019-09-03 | Qualcomm Incorporated | Mixed-order ambisonics (MOA) audio data for computer-mediated reality systems |
FR3074584A1 (fr) * | 2017-12-05 | 2019-06-07 | Orange | Traitement de donnees d'une sequence video pour un zoom sur un locuteur detecte dans la sequence |
CN110751956B (zh) * | 2019-09-17 | 2022-04-26 | 北京时代拓灵科技有限公司 | 一种沉浸式音频渲染方法及*** |
CN111933182B (zh) * | 2020-08-07 | 2024-04-19 | 抖音视界有限公司 | 声源跟踪方法、装置、设备和存储介质 |
CN112019971B (zh) * | 2020-08-21 | 2022-03-22 | 安声(重庆)电子科技有限公司 | 声场构建方法、装置、电子设备及计算机可读存储介质 |
US11743670B2 (en) | 2020-12-18 | 2023-08-29 | Qualcomm Incorporated | Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011041834A1 (en) * | 2009-10-07 | 2011-04-14 | The University Of Sydney | Reconstruction of a recorded sound field |
WO2012059385A1 (en) * | 2010-11-05 | 2012-05-10 | Thomson Licensing | Data structure for higher order ambisonics audio data |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9915398D0 (en) | 1999-07-02 | 1999-09-01 | Baker Matthew J | Magnetic particles |
FR2801108B1 (fr) | 1999-11-16 | 2002-03-01 | Maxmat S A | Analyseur chimique ou biochimique a regulation de la temperature reactionnelle |
FR2839565B1 (fr) | 2002-05-07 | 2004-11-19 | Remy Henri Denis Bruno | Procede et systeme de representation d'un champ acoustique |
FR2858403B1 (fr) | 2003-07-31 | 2005-11-18 | Remy Henri Denis Bruno | Systeme et procede de determination d'une representation d'un champ acoustique |
JP5220922B2 (ja) | 2008-07-08 | 2013-06-26 | ブリュエル アンド ケアー サウンド アンド ヴァイブレーション メジャーメント エー/エス | 音場の再構成 |
EP2285139B1 (en) * | 2009-06-25 | 2018-08-08 | Harpex Ltd. | Device and method for converting spatial audio signal |
KR20240009530A (ko) | 2010-03-26 | 2024-01-22 | 돌비 인터네셔널 에이비 | 오디오 재생을 위한 오디오 사운드필드 표현을 디코딩하는 방법 및 장치 |
US9271081B2 (en) * | 2010-08-27 | 2016-02-23 | Sonicemotion Ag | Method and device for enhanced sound field reproduction of spatially encoded audio input signals |
EP2469741A1 (en) * | 2010-12-21 | 2012-06-27 | Thomson Licensing | Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field |
EP2541547A1 (en) * | 2011-06-30 | 2013-01-02 | Thomson Licensing | Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation |
EP2665208A1 (en) | 2012-05-14 | 2013-11-20 | Thomson Licensing | Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation |
EP2738962A1 (en) | 2012-11-29 | 2014-06-04 | Thomson Licensing | Method and apparatus for determining dominant sound source directions in a higher order ambisonics representation of a sound field |
US9736609B2 (en) * | 2013-02-07 | 2017-08-15 | Qualcomm Incorporated | Determining renderers for spherical harmonic coefficients |
-
2013
- 2013-02-08 EP EP20130305156 patent/EP2765791A1/en not_active Withdrawn
-
2014
- 2014-02-07 KR KR1020157021230A patent/KR102220187B1/ko active IP Right Grant
- 2014-02-07 JP JP2015556516A patent/JP6374882B2/ja active Active
- 2014-02-07 EP EP14703102.5A patent/EP2954700B1/en active Active
- 2014-02-07 WO PCT/EP2014/052479 patent/WO2014122287A1/en active Application Filing
- 2014-02-07 CN CN201480008017.XA patent/CN104995926B/zh active Active
- 2014-02-07 US US14/766,739 patent/US9622008B2/en active Active
- 2014-02-10 TW TW103104224A patent/TWI647961B/zh active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011041834A1 (en) * | 2009-10-07 | 2011-04-14 | The University Of Sydney | Reconstruction of a recorded sound field |
WO2012059385A1 (en) * | 2010-11-05 | 2012-05-10 | Thomson Licensing | Data structure for higher order ambisonics audio data |
Also Published As
Publication number | Publication date |
---|---|
TWI647961B (zh) | 2019-01-11 |
KR102220187B1 (ko) | 2021-02-25 |
KR20150115779A (ko) | 2015-10-14 |
EP2765791A1 (en) | 2014-08-13 |
WO2014122287A1 (en) | 2014-08-14 |
TW201448616A (zh) | 2014-12-16 |
US20150373471A1 (en) | 2015-12-24 |
JP6374882B2 (ja) | 2018-08-15 |
EP2954700B1 (en) | 2018-03-07 |
US9622008B2 (en) | 2017-04-11 |
EP2954700A1 (en) | 2015-12-16 |
CN104995926A (zh) | 2015-10-21 |
CN104995926B (zh) | 2017-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6374882B2 (ja) | 音場の高次アンビソニクス表現における無相関な音源の方向を決定する方法及び装置 | |
Erdogan et al. | Improved MVDR beamforming using single-channel mask prediction networks. | |
Pavlidi et al. | 3D localization of multiple sound sources with intensity vector estimates in single source zones | |
EP2926482B1 (en) | Method and apparatus for determining dominant sound source directions in a higher order ambisonics representation of a sound field | |
MX2014006499A (es) | Aparato y metodo para posicionar microfonos basado en la densidad de potencia espacial. | |
Li et al. | Online localization and tracking of multiple moving speakers in reverberant environments | |
Lima et al. | A volumetric SRP with refinement step for sound source localization | |
JP7276470B2 (ja) | 到来方向推定装置、モデル学習装置、到来方向推定方法、モデル学習方法、プログラム | |
WO2016119388A1 (zh) | 一种基于语音信号构造聚焦协方差矩阵的方法及装置 | |
Kotus | Multiple sound sources localization in free field using acoustic vector sensor | |
Christensen | Multi-channel maximum likelihood pitch estimation | |
Yang et al. | Srp-dnn: Learning direct-path phase difference for multiple moving sound source localization | |
Hosseini et al. | Time difference of arrival estimation of sound source using cross correlation and modified maximum likelihood weighting function | |
Krause et al. | Data diversity for improving DNN-based localization of concurrent sound events | |
Cai et al. | Accelerated steered response power method for sound source localization using orthogonal linear array | |
Dehghan Firoozabadi et al. | A novel nested circular microphone array and subband processing-based system for counting and DOA estimation of multiple simultaneous speakers | |
JP2017085265A (ja) | インパルス応答生成装置及びプログラム | |
Toma et al. | Efficient Detection and Localization of Acoustic Sources with a low complexity CNN network and the Diagonal Unloading Beamforming | |
Dilungana et al. | Learning-based estimation of individual absorption profiles from a single room impulse response with known positions of source, sensor and surfaces | |
Wu et al. | Acoustic source tracking in reverberant environment using regional steered response power measurement | |
Kim et al. | Multiple speaker tracking with the GLMB filter | |
Firoozabadi et al. | Multi-speaker localization by central and lateral microphone arrays based on the combination of 2D-SRP and subband GEVD algorithms | |
Yan et al. | Fast simulation method for room impulse responses based on the mirror image source assumption | |
Dehghan Firoozabadi et al. | Subband processing‐based approach for the localisation of two simultaneous speakers | |
Sharma et al. | Development of a speech separation system using frequency domain blind source separation technique |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20160826 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170106 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170106 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180206 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180425 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180703 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180720 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6374882 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |