JP2023070650A - 音場の少なくとも一部の位置決めによる空間オーディオ再生 - Google Patents
音場の少なくとも一部の位置決めによる空間オーディオ再生 Download PDFInfo
- Publication number
- JP2023070650A JP2023070650A JP2022170339A JP2022170339A JP2023070650A JP 2023070650 A JP2023070650 A JP 2023070650A JP 2022170339 A JP2022170339 A JP 2022170339A JP 2022170339 A JP2022170339 A JP 2022170339A JP 2023070650 A JP2023070650 A JP 2023070650A
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- panning
- channel
- processing
- reverberation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 273
- 238000012545 processing Methods 0.000 claims abstract description 145
- 238000004091 panning Methods 0.000 claims abstract description 127
- 238000000034 method Methods 0.000 claims abstract description 66
- 239000002131 composite material Substances 0.000 claims description 31
- 238000012546 transfer Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 abstract description 10
- 238000010586 diagram Methods 0.000 description 17
- 238000013461 design Methods 0.000 description 11
- 239000011159 matrix material Substances 0.000 description 10
- 238000009877 rendering Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 230000001427 coherent effect Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 239000004065 semiconductor Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 5
- 230000008447 perception Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000010521 absorption reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000011664 signaling Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 238000003892 spreading Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 101100001675 Emericella variicolor andJ gene Proteins 0.000 description 1
- 239000012814 acoustic material Substances 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000003134 recirculating effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K15/00—Acoustics not otherwise provided for
- G10K15/08—Arrangements for producing a reverberation or echo sound
- G10K15/12—Arrangements for producing a reverberation or echo sound using electronic time-delay networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/002—Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/305—Electronic adaptation of stereophonic audio signals to reverberation of the listening space
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
- H04R2430/21—Direction finding using differential microphone array [DMA]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/13—Aspects of volume control, not necessarily automatic, in stereophonic sound systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
- H04S7/304—For headphones
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Stereophonic System (AREA)
Abstract
【課題】本願は、従来の課題を解決することを目的とする。
【解決手段】ターゲット方向に基づく音場位置決め装置であって、オーディオ信号、スピーカ設定情報、処理経路パラメータを取得し、処理経路パラメータは、処理経路に関連するターゲット方向を含み、処理経路パラメータに基づいてオーディオ信号を処理し、処理経路ごとに、オーディオ信号からインコヒーレントなオーディオ信号を生成し、処理経路に関連するターゲット方向およびスピーカ設定情報に基づいてパニングゲインを決定し、インコヒーレントなオーディオ信号に適用、インコヒーレントなオーディオ信号を結合してマルチチャネルオーディオ信号を生成するように構成され、マルチチャネルオーディオ信号を結合して複合パニングゲイン適用マルチチャネルオーディオ信号を生成する手段を備える。
【選択図】図2
【解決手段】ターゲット方向に基づく音場位置決め装置であって、オーディオ信号、スピーカ設定情報、処理経路パラメータを取得し、処理経路パラメータは、処理経路に関連するターゲット方向を含み、処理経路パラメータに基づいてオーディオ信号を処理し、処理経路ごとに、オーディオ信号からインコヒーレントなオーディオ信号を生成し、処理経路に関連するターゲット方向およびスピーカ設定情報に基づいてパニングゲインを決定し、インコヒーレントなオーディオ信号に適用、インコヒーレントなオーディオ信号を結合してマルチチャネルオーディオ信号を生成するように構成され、マルチチャネルオーディオ信号を結合して複合パニングゲイン適用マルチチャネルオーディオ信号を生成する手段を備える。
【選択図】図2
Description
本願は、音場の少なくとも一部を位置決めすることにより空間オーディオを再生する装置および方法に関するものであるが、拡張現実および/または仮想現実装置において音場の少なくとも一部を位置決めすることにより空間オーディオを再生することに限定されるものではない。
残響とは、実際の音源が停止した後、空間内に音が持続することをいう。空間によって残響特性は異なる。環境の空間的な印象を伝えるためには、残響を知覚的に正確に再現することが重要である。室内音響は、個別に合成された初期反射部分と、拡散性後期残響の統計モデルとで表現することが多い。図1は、直接音101の後に、到来方向(DOA)を有する離散的な初期反射103と、特定の到来方向を有さずに合成可能な拡散性後期残響105とを合成した部屋のインパルス応答の一例を示している。図1の遅延d1(t)102は、音源からリスナへの直接音到来遅延を示すと見ることができ、遅延d2(t)104は、初期反射の1つ(この場合、最初に到来する反射)についての音源からリスナへの遅延を示すと見ることができる。
残響を再現する1つの方法として、N個のラウドスピーカのセット(または、頭部伝達関数(HRTF)のセットを用いて、バイノーラルに再生される仮想ラウドスピーカ)を使用する方法がある。ラウドスピーカは、リスナの周囲に、ある程度均等に配置される。これらのラウドスピーカから、相互にインコヒーレントな残響信号が再生され、周囲の拡散した残響の知覚が得られる。
異なるラウドスピーカによって生成される残響は、相互にインコヒーレントでなければならない。単純なケースでは、残響は同じ残響器の異なるチャネルを使用して生成することができ、出力チャネルは無相関であるが、RT60時間やレベルなどの音響特性(特に、拡散対直接比または残響対直接比)は同じである。同じ音響特性を共有するこのような無相関出力は、例えば、遅延線長を適切に調整したフィードバック遅延ネットワーク(FDN)残響器の出力タップから、または、各チャネルで異なる無相関ノイズシーケンスを使用することによって、減衰する無相関ノイズシーケンスを使用することに基づいて残響器から取得することができる。この場合、異なる残響信号は、効果的に同じ特徴を持ち、残響は一般的に全ての方向に対して類似していると認識される。
本願の実施形態は、従来技術に関連する問題を解決することを目的としている。
第1の態様によれば、ターゲット方向に基づいて、音場の少なくとも一部を位置決めするための装置が提供され、本装置は、少なくとも1つのオーディオ信号を取得し、スピーカ設定情報を取得し、少なくとも2つの処理経路について、少なくとも1つの処理経路パラメータを取得し、少なくとも1つの処理経路パラメータは、少なくとも2つの処理経路の各々に関連するターゲット方向を含み、少なくとも2つの処理経路のそれぞれについて、少なくとも1つの処理経路パラメータに基づいて、少なくとも1つのオーディオ信号を処理し、マルチチャネルオーディオ信号を生成し、各処理経路について、手段は、少なくとも1つのオーディオ信号から、少なくとも2つの少なくとも部分的に相互にインコヒーレントなオーディオ信号を生成し、処理経路に関連付けられたターゲット方向およびスピーカ設定情報に基づいて、少なくとも2つのパニングゲインを決定し、少なくとも2つのパニングゲインのそれぞれを、少なくとも部分的に相互にインコヒーレントなオーディオ信号の関連する1つに適用して、少なくとも2つのパニングゲインが適用された少なくとも部分的に相互にインコヒーレントなオーディオ信号を生成し、少なくとも2つのパニングゲインを適用した少なくとも一部が相互にインコヒーレントなオーディオ信号を結合して、マルチチャネルオーディオ信号を生成する、ように構成され、各処理経路からのマルチチャネルオーディオ信号を結合して、複合パニングゲイン適用マルチチャネルオーディオ信号を生成する、ように構成される手段を備える。
少なくとも1つの処理経路パラメータは、少なくとも2つの処理経路の各々に関連する少なくとも1つの残響パラメータをさらに含んでもよく、少なくとも1つのオーディオ信号から少なくとも2つの少なくとも部分的に相互にインコヒーレントなオーディオ信号を生成するように構成された手段が、少なくとも1つの残響パラメータに基づいて、少なくとも1つのオーディオ信号を残響させて、少なくとも2つの少なくとも部分的に相互にインコヒーレントなオーディオ信号のそれぞれを生成するように構成されてよい。
少なくとも1つのオーディオ信号から、少なくとも2つの少なくとも部分的に相互にインコヒーレントなオーディオ信号を生成するように構成された手段は、少なくとも1つのオーディオ信号を無相関化して、少なくとも2つの少なくとも部分的に相互にインコヒーレントなオーディオ信号のそれぞれを生成するように構成されてよい。
処理経路に関連付けられたターゲット方向とスピーカ設定情報とに基づいて、少なくとも2つのパニングゲインを決定するように構成された手段は、処理経路に関連付けられたターゲット方向と、スピーカ設定情報に関連付けられた方向とに基づいて、ベクトルベースの振幅パニングを適用するように構成されてよい。
本手段は、複合パニングゲイン適用マルチチャネルオーディオ信号を処理することに基づいて、イマーシブオーディオ信号を生成するようにさらに構成されてよい。
複合パニングゲイン適用マルチチャネルオーディオ信号の処理に基づいて、イマーシブオーディオ信号を生成するように構成された手段は、複合パニングゲイン適用マルチチャネルオーディオ信号の各チャネルについて、チャネルに関連するラウドスピーカに対する方向に関連する頭部関連伝達関数に基づいて、複合パニングゲイン適用マルチチャネルオーディオ信号を処理して、チャネルバイノーラルパニング処理オーディオ信号を生成し、全てのチャネルについて、チャネルバイノーラルパニング処理オーディオ信号を結合して、イマーシブオーディオ信号を生成するように構成されてよい。
スピーカ設定情報を取得するように構成された手段は、スピーカ設定情報を受信すること、スピーカ設定情報を決定すること、および、所定の、または、デフォルトのスピーカ設定情報を取得することのいずれかを実行するように構成されてよい。
少なくとも2つの少なくとも部分的に相互にインコヒーレントなオーディオ信号は、相互にインコヒーレントなオーディオ信号であってよい。
第2の態様によれば、ターゲット方向に基づいて音場の少なくとも一部を位置決めする装置のための方法が提供され、該方法は、少なくとも1つのオーディオ信号を取得することと、スピーカ設定情報を取得することと、少なくとも2つの処理経路について、少なくとも1つの処理経路パラメータを取得することであって、少なくとも1つの処理経路パラメータは、少なくとも2つの処理経路の各々に関連するターゲット方向を含む、取得することと、少なくとも2つの処理経路のそれぞれについて、少なくとも1つの処理経路パラメータに基づいて、少なくとも1つのオーディオ信号を処理し、マルチチャネルオーディオ信号を生成することであって、処理のために、少なくとも1つのオーディオ信号から、少なくとも2つの少なくとも部分的に相互にインコヒーレントなオーディオ信号を生成することと、処理経路に関連付けられたターゲット方向とスピーカ設定情報とに基づいて、少なくとも2つのパニングゲインを決定することと、少なくとも2つのパニングゲインのそれぞれを、少なくとも部分的に相互にインコヒーレントなオーディオ信号の関連する1つに適用して、少なくとも2つのパニングゲインを適用した少なくとも部分的に相互にインコヒーレントなオーディオ信号を生成することと、少なくとも2つのパニングゲインが適用された少なくとも部分的に相互にインコヒーレントなオーディオ信号を結合して、マルチチャネルオーディオ信号を生成することと、を含む、生成することと、各処理経路からのマルチチャネルオーディオ信号を結合して、複合パニングゲイン適用マルチチャネルオーディオ信号を生成することと、を含む。
少なくとも1つの処理経路パラメータは、少なくとも2つの処理経路の各々に関連する少なくとも1つの残響パラメータをさらに含んでもよく、少なくとも1つのオーディオ信号から少なくとも2つの少なくとも部分的に相互にインコヒーレントなオーディオ信号を生成することは、少なくとも1つの残響パラメータに基づいて、少なくとも1つのオーディオ信号を残響させて、少なくとも2つの少なくとも部分的に相互にインコヒーレントなオーディオ信号のそれぞれを生成することを含んでよい。
少なくとも1つのオーディオ信号から少なくとも2つの少なくとも部分的に相互にインコヒーレントなオーディオ信号を生成することは、少なくとも2つの少なくとも部分的に相互にインコヒーレントなオーディオ信号のそれぞれを生成するために、少なくとも1つのオーディオ信号を無相関化することを含んでよい。
処理経路に関連付けられたターゲット方向とスピーカ設定情報とに基づいて、少なくとも2つのパニングゲインを決定することは、処理経路に関連付けられたターゲット方向と、スピーカ設定情報に関連付けられた方向とに基づいて、ベクトルベースの振幅パニングを適用することを含んでよい。
本方法は、複合パニングゲイン適用マルチチャネルオーディオ信号を処理することに基づいて、イマーシブオーディオ信号を生成することを含んでよい。
複合パニングゲイン適用マルチチャネルオーディオ信号の処理に基づいて、イマーシブオーディオ信号を生成することは、複合パニングゲイン適用マルチチャネルオーディオ信号の各チャネルについて、チャネルに関連するラウドスピーカの方向に関連する頭部関連伝達関数に基づいて、複合パニングゲイン適用マルチチャネルオーディオ信号を処理して、チャネルバイノーラルパニング処理オーディオ信号を生成することと、全てのチャネルについて、チャネルバイノーラルパニング処理オーディオ信号を結合して、イマーシブオーディオ信号を生成することと、を含んでいてよい。
スピーカ設定情報を取得することは、スピーカ設定情報を受信すること、スピーカ設定情報を決定すること、および、所定の、または、デフォルトのスピーカ設定情報を取得することのいずれかを含んでよい。
少なくとも2つの少なくとも部分的に相互にインコヒーレントなオーディオ信号は、相互にインコヒーレントなオーディオ信号であってもよい。
第3の態様によれば、ターゲット方向に基づいて音場の少なくとも一部を位置決めするための装置が提供され、本装置は、少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリと、を備え、少なくとも1つのメモリおよびコンピュータプログラムコードは、少なくとも1つのプロセッサによって、装置に、少なくとも、スピーカ設定情報を取得することと、少なくとも2つの処理経路について、少なくとも1つの処理経路パラメータを取得することであって、少なくとも1つの処理経路パラメータは、少なくとも2つの処理経路の各々に関連するターゲット方向を含む、取得することと、少なくとも2つの処理経路のそれぞれについて、少なくとも1つの処理経路パラメータに基づいて、少なくとも1つのオーディオ信号を処理して、マルチチャネルオーディオ信号を生成することであって、各処理経路について、本装置は、少なくとも1つのオーディオ信号から、少なくとも2つの少なくとも部分的に相互にインコヒーレントなオーディオ信号を生成することと、処理経路に関連するターゲット方向とスピーカ設定情報とに基づいて、少なくとも2つのパニングゲインを決定することと、少なくとも2つのパニングゲインのそれぞれを、少なくとも部分的に相互にインコヒーレントなオーディオ信号の関連する1つに適用して、少なくとも2つのパニングゲインを適用した少なくとも部分的に相互にインコヒーレントなオーディオ信号を生成することと、少なくとも2つのパニングゲインを適用した少なくとも部分的に相互にインコヒーレントなオーディオ信号を結合して、マルチチャネルオーディオ信号を生成することと、を行うようにされる、生成することと、各処理経路からのマルチチャネルオーディオ信号を結合して、複合パニングゲイン適用マルチチャネルオーディオ信号を生成することと、を実行させるように構成される。
少なくとも1つの処理経路パラメータは、少なくとも2つの処理経路の各々に関連する少なくとも1つの残響パラメータをさらに含んでもよく、少なくとも1つのオーディオ信号から少なくとも2つの少なくとも部分的に相互にインコヒーレントなオーディオ信号を生成するようにされる装置は、少なくとも1つの残響パラメータに基づいて、少なくとも1つのオーディオ信号を残響させて、少なくとも2つの少なくとも部分的に相互にインコヒーレントなオーディオ信号をそれぞれ生成するようにされてよい。
少なくとも1つのオーディオ信号から少なくとも2つの少なくとも部分的に相互にインコヒーレントなオーディオ信号を生成するようにされた装置は、少なくとも2つの少なくとも部分的に相互にインコヒーレントなオーディオ信号のそれぞれを生成するために、少なくとも1つのオーディオ信号を無相関化するようにされてよい。
処理経路に関連するターゲット方向と、スピーカ設定情報とに基づいて、少なくとも2つのパニングゲインを決定するようにされた装置は、処理経路に関連するターゲット方向と、スピーカ設定情報に関連する方向とに基づいて、ベクトルベースの振幅パニングを適用するようにされてもよい。
本装置は、複合パニングゲイン適用マルチチャネルオーディオ信号を処理することに基づいて、イマーシブオーディオ信号を生成するようにさらにされてよい。
複合パニングゲイン適用マルチチャネルオーディオ信号の処理に基づいて、イマーシブオーディオ信号を生成するようにされた装置は、複合パニングゲイン適用マルチチャネルオーディオ信号の各チャネルについて、チャネルに関連するラウドスピーカの方向に関連する頭部関連伝達関数に基づいて、複合パニングゲイン適用マルチチャネルオーディオ信号を処理して、チャネルバイノーラルパニング処理オーディオ信号を生成し、全てのチャネルについて、チャネルバイノーラルパニング処理オーディオ信号を結合して、イマーシブオーディオ信号を生成するようにされてよい。
スピーカ設定情報を取得するようにされる装置は、スピーカ設定情報を受信すること、スピーカ設定情報を決定すること、および、所定の、または、デフォルトのスピーカ設定情報を取得することのいずれかを実行するようにされてよい。
少なくとも2つの少なくとも部分的に相互にインコヒーレントなオーディオ信号は、相互にインコヒーレントなオーディオ信号であってもよい。
第4の態様によれば、少なくとも1つのオーディオ信号を取得するように構成された取得回路と、スピーカ設定情報を取得するように構成された取得回路と、少なくとも2つの処理経路について、少なくとも1つの処理経路パラメータを取得するように構成された取得回路であって、少なくとも1つの処理経路パラメータは、少なくとも2つの処理経路の各々に関連するターゲット方向を含む、取得回路と、少なくとも2つの処理経路のそれぞれについて、少なくとも1つの処理経路パラメータに基づいて、少なくとも1つのオーディオ信号を処理して、マルチチャネルオーディオ信号を生成するように構成された処理回路であって、各処理経路について、処理回路が、少なくとも1つのオーディオ信号から、少なくとも2つの少なくとも部分的に相互にインコヒーレントなオーディオ信号を生成し、処理経路に関連するターゲット方向とスピーカ設定情報とに基づいて、少なくとも2つのパニングゲインを決定し、少なくとも2つのパニングゲインのそれぞれを、少なくとも部分的に相互にインコヒーレントなオーディオ信号の関連する1つに適用して、少なくとも2つのパニングゲインが適用された少なくとも部分的に相互にインコヒーレントなオーディオ信号を生成し、少なくとも2つのパニングゲインを適用した少なくとも部分的に相互にインコヒーレントなオーディオ信号を結合して、マルチチャネルオーディオ信号を生成する、ように構成されている、処理回路と、各処理経路からのマルチチャネルオーディオ信号を結合して、複合パニングゲイン適用マルチチャネルオーディオ信号を生成するように構成された結合回路と、を含む装置が提供される。
第5の態様によれば、少なくとも、スピーカ設定情報を取得することと、少なくとも2つの処理経路について、少なくとも1つの処理経路パラメータを取得することであって、少なくとも1つの処理経路パラメータは、少なくとも2つの処理経路の各々に関連するターゲット方向を含む、取得することと、少なくとも2つの処理経路のそれぞれについて、少なくとも1つの処理経路パラメータに基づいて、少なくとも1つのオーディオ信号を処理して、マルチチャネルオーディオ信号を生成することであって、各処理経路について、本装置は、少なくとも1つのオーディオ信号から、少なくとも2つの少なくとも部分的に相互にインコヒーレントなオーディオ信号を生成し、処理経路に関連するターゲット方向とスピーカ設定情報とに基づいて、少なくとも2つのパニングゲインを決定し、少なくとも2つのパニングゲインのそれぞれを、少なくとも部分的に相互にインコヒーレントなオーディオ信号の関連する1つに適用して、少なくとも2つのパニングゲインを適用した少なくとも部分的に相互にインコヒーレントなオーディオ信号を生成し、少なくとも2つのパニングゲインを適用した少なくとも部分的に相互にインコヒーレントなオーディオ信号を結合して、マルチチャネルオーディオ信号を生成する、ようにされる、生成することと、各処理経路からのマルチチャネルオーディオ信号を結合して、複合パニングゲイン適用マルチチャネルオーディオ信号を生成することと、を装置に実行させるための命令[または、プログラム命令を含むコンピュータ可読媒体]を含むコンピュータプログラムが提供される。
第6の態様によれば、装置に、少なくとも、スピーカ設定情報を取得することと、少なくとも2つの処理経路について、少なくとも1つの処理経路パラメータを取得することであって、少なくとも1つの処理経路パラメータは、少なくとも2つの処理経路の各々に関連するターゲット方向を含む、取得することと、少なくとも2つの処理経路のそれぞれについて、少なくとも1つの処理経路パラメータに基づいて、少なくとも1つのオーディオ信号を処理して、マルチチャネルオーディオ信号を生成することであって、各処理経路について、本装置は、少なくとも1つのオーディオ信号から、少なくとも2つの少なくとも部分的に相互にインコヒーレントなオーディオ信号を生成し、処理経路に関連するターゲット方向とスピーカ設定情報とに基づいて、少なくとも2つのパニングゲインを決定し、少なくとも2つのパニングゲインのそれぞれを、少なくとも部分的に相互にインコヒーレントなオーディオ信号の関連する1つに適用して、少なくとも2つのパニングゲインを適用した少なくとも部分的に相互にインコヒーレントなオーディオ信号を生成し、少なくとも2つのパニングゲインを適用した少なくとも部分的に相互にインコヒーレントなオーディオ信号を結合して、マルチチャネルオーディオ信号を生成する、ようにされる、生成することと、各処理経路からのマルチチャネルオーディオ信号を結合して、複合パニングゲイン適用マルチチャネルオーディオ信号を生成することと、を実行させるためのプログラム命令を含む非一過性のコンピュータ可読媒体が提供される。
第7の態様によれば、スピーカ設定情報を取得する手段と、少なくとも2つの処理経路について、少なくとも1つの処理経路パラメータを取得する手段であって、少なくとも1つの処理経路パラメータは、少なくとも2つの処理経路の各々に関連するターゲット方向を含む、取得する手段と、少なくとも2つの処理経路のそれぞれについて、少なくとも1つの処理経路パラメータに基づいて、少なくとも1つのオーディオ信号を処理して、マルチチャネルオーディオ信号を生成する手段であって、各処理経路について、処理のための手段は、少なくとも1つのオーディオ信号から、少なくとも2つの少なくとも部分的に相互にインコヒーレントなオーディオ信号を生成するための手段と、処理経路に関連付けられたターゲット方向およびスピーカ設定情報に基づいて、少なくとも2つのパニングゲインを決定するための手段と、少なくとも2つのパニングゲインのそれぞれを、少なくとも部分的に相互にインコヒーレントなオーディオ信号の関連する1つに適用して、少なくとも2つのパニングゲインを適用した少なくとも部分的に相互にインコヒーレントなオーディオ信号を生成する手段と、少なくとも2つのパニングゲインが適用された少なくとも部分的に相互にインコヒーレントなオーディオ信号を結合して、マルチチャネルオーディオ信号を生成する手段と、を備える、生成する手段と、各処理経路からのマルチチャネルオーディオ信号を結合して、複合パニングゲイン適用マルチチャネルオーディオ信号を生成する手段と、を含む装置が提供される。
第8の態様によれば、装置に、少なくとも、スピーカ設定情報を取得することと、少なくとも2つの処理経路について、少なくとも1つの処理経路パラメータを取得することであって、少なくとも1つの処理経路パラメータは、少なくとも2つの処理経路の各々に関連するターゲット方向を含む、取得することと、少なくとも2つの処理経路のそれぞれについて、少なくとも1つの処理経路パラメータに基づいて、少なくとも1つのオーディオ信号を処理して、マルチチャネルオーディオ信号を生成することであって、各処理経路について、本装置は、少なくとも1つのオーディオ信号から、少なくとも2つの少なくとも部分的に相互にインコヒーレントなオーディオ信号を生成し、処理経路に関連するターゲット方向とスピーカ設定情報とに基づいて、少なくとも2つのパニングゲインを決定し、少なくとも2つのパニングゲインのそれぞれを、少なくとも部分的に相互にインコヒーレントなオーディオ信号の関連する1つに適用して、少なくとも2つのパニングゲインを適用した少なくとも部分的に相互にインコヒーレントなオーディオ信号を生成し、少なくとも2つのパニングゲインを適用した少なくとも部分的に相互にインコヒーレントなオーディオ信号を結合して、マルチチャネルオーディオ信号を生成する、ようにされる、生成することと、各処理経路からのマルチチャネルオーディオ信号を結合して、複合パニングゲイン適用マルチチャネルオーディオ信号を生成することと、を実行させるためのプログラム命令を含むコンピュータ可読媒体が提供される。
上記記載の方法の動作を実行するための手段を含む装置。
上記のような方法の動作を実行するように構成された装置。
上記のような方法をコンピュータに実行させるためのプログラム命令を含むコンピュータプログラム。
媒体に格納されたコンピュータプログラム製品は、本明細書に記載の方法を装置に実行させることができる。
電子デバイスは、本明細書で説明するような装置を含んでもよい。
チップセットは、本明細書に記載されるような装置を含んでいてもよい。
本願発明をより良く理解するために、次に、添付の図面を例として参照する。
図1は、室内音響のモデルおよび室内インパルス応答を示す。
図2は、いくつかの実施形態が実装され得る例示的な装置を概略的に示す。
図3は、図2に示すような例示的な装置の動作のフロー図を示す。
図4は、いくつかの実施形態による、図2に示すような例示的な残響パナーを概略的に示す。
図5は、図4に示すような例示的な残響パナーの動作のフロー図である。
図6は、ターゲット方向、パニングゲイン、および、ターゲット方向経路を例示した残響チャネルマッピングのグラフと、いくつかの実施形態を実施することによる効果を示す図である。
図7は、いくつかの実施形態によるフィードバック遅延ネットワーク(FDN)残響器の一例を概略的に示している。
図8は、いくつかの実施形態によるフィードバック遅延ネットワーク(FDN)残響器のパラメータを調整する動作のフロー図である。
図9は、いくつかの実施形態による3つのフィードバック遅延ネットワーク(FDN)残響器のパラメータを調整する動作のフロー図である。
図10は、いくつかの実施形態による例示的なアプリケーション内での図2に示されるような装置の実装を示す図である。
図11は、いくつかの実施形態が実装され得る、その中のマイクオーディオ信号のための例示的な装置を概略的に示す。
図12は、図11に示すような例示的な装置の動作のフロー図である。
図13は、いくつかの実施形態による、図12に示すような例示的な無相関化器パナーを概略的に示す図である。
図14は、図13に示されるような例示的な無相関化器パナーの動作のフロー図を示す。
図15は、これまでの図に示した装置を実施するのに適した装置の一例を示す図である。
以下では、残響のあるオーディオシーンをパラメータ化してレンダリングするための好適な装置および可能なメカニズムについて、さらに詳しく説明する。
上述したように、リスナの周りにあるN個のインコヒーレントラウドスピーカ(仮想または現実)から残響を再生すると、拡散残響の知覚を再現することが多い。しかしながら、このような実装では、残響を回転させる必要がある場合、例えば、生成される残響が方向に依存する場合、適切に知覚される残響を出力することができない。
これは、例えば、ノイズコンボリューションベースの残響器において、異なる壁材の吸収特性に基づいて、異なるチャネルの減衰率を調整し、各チャネルが異なるRT60時間を持つようにすることで実現できる。
バイノーラル再生、つまり、スピーカがHRTFで作成された仮想スピーカである実装では、正しい残響の特徴が正しい方向から知覚されるため、ヘッドトラッキングがない場合は、正確な再生が可能である。しかしながら、ヘッドトラッキングが行われた場合には問題が生じる。
この例として、リスナがまず前を向き、左右方向と前後方向で残響時間が異なることを示すことができる。例えば、この状況では前後方向のRT60時間は、RT60_front_back=1.2秒、左右方向の残響時間は、RT60_left_right=0.7秒である。リスナが頭を90度回転させると、RT60=1.2秒の残響が左右方向に、RT60=0.7秒の残響が前後方向に、残響が変化すると考えるであろう。しかしながら、これは残響の実装方法とは異なる可能性がある。
ヘッドトラッキングを行った後、各残響チャネルの所望の方向に最も近いHRTFを常に選択するのが簡単な方法であるが、そのようなアプローチを実施すると、HRTF切り替え時に不自然さが生じることがある。
また、ヘッドトラッキングを行った後に、各残響チャネルの所望の方向の間でHRTFフィルタを補間する方法もあるが、この方法では補間ステップが知覚可能な不自然さを生じさせる可能性が高い。
HRTFの切り替えや補間を行うことを回避するアプローチとして、ヘッドトラッキング情報に基づいて作成された残響を位置決めすることが考えられる。例えば、一般的に使用されているベクトルベースの振幅パニング(VBAP)法を使用する。その結果、リスナが頭を90度回転させると、元々前方にあった残響が、-90度から生成されることになる。その結果、ヘッドトラッキング情報に従って、残響の正しい特徴を正しい方向から再生することができる。この方法では、各仮想ラウドスピーカは、同じHRTFフィルタで空間化されるため、HRTFフィルタの切り替えや補間による不自然さは生じない。
しかしながら、VBAPを適用することで別の問題が生じることがある。VBAPは、スピーカの設定と所望の方向に従って、1~3個のスピーカからオーディオ信号を再生することによって、オーディオ信号を位置付け、各スピーカに適したゲインを適用する。これは通常のオーディオ信号の位置決めに適しており、空間オーディオ処理によく応用されている。しかしながら、VBAPは1~3個のスピーカを使用して各残響信号をコヒーレントに生成するため、残響の再生には問題がある。このように生成された残響は、周囲を取り囲むように拡散するのではなく、コヒーレントで広がりのない残響として知覚される。
いくつかの実施形態によれば、本明細書で議論される概念は、拡散残響またはアンビエントオーディオ信号の再生に関し、残響またはアンビエンス特性が方向依存性を有する(すなわち、異なる方向で異なる残響特性を有する)ことがある、回転可能な拡散残響またはアンビエンスオーディオの再生を可能にする方法が提案される。これは、いくつかの実施形態では、1つのオーディオ信号から、2つのオーディオ信号を生成することによって達成される。これらの2つのオーディオ信号は、元のオーディオ信号の2つの同一の複製をただ比較するよりも、コヒーレント性が低い。このように、いくつかの実施形態では、ターゲット方向と(仮想)ラウドスピーカセット内の(仮想)ラウドスピーカの位置に基づいて、少なくとも2つのパニングゲインを決定し(例えば、VBAPを使用して)、決定されたゲインのそれぞれについて、少なくとも部分的に相互にインコヒーレントなオーディオ信号、換言すれば、よりコヒーレントではないオーディオ信号(および、好ましくは相互にインコヒーレントなオーディオ信号)を取得することにより、多数の処理経路(少なくとも3つ、通常は6~20経路)について(仮想)マルチチャネル信号をレンダリングすることが実装される。例えば、少なくとも部分的に相互にインコヒーレントな(または、コヒーレントでない、または、相互にインコヒーレントな)残響オーディオ信号出力を生成するように調整された2つの残響器の出力を使用するか、少なくとも部分的に相互にインコヒーレントな(コヒーレントでない、または、相互にインコヒーレントな)アンビエントオーディオ信号を生成する無相関化器を使用する。本実施例の目的は、例えば、残響器や無相関化器をそれぞれ実装した処理経路が、相互にインコヒーレントなオーディオ信号を生成することである。しかしながら、設計上および実用上の理由により、各処理経路の出力は、完全に相互にインコヒーレントなオーディオ信号を生成するのではなく、よりコヒーレントでないオーディオ信号、または、少なくとも部分的に相互にインコヒーレントであるオーディオ信号を生成する場合がある。以下の例では、理想的な相互にインコヒーレントなオーディオ信号が生成されるが、よりコヒーレントでないオーディオ信号、または、少なくとも部分的に相互にインコヒーレントなオーディオ信号の生成も、同じ方法および装置によって包含されることが理解されよう。
これらのゲインを決定し、対応する取得された(残響)信号に対して適用することで、(残響)マルチチャネル信号を取得することができる。
そして、取得された(残響)マルチチャネル信号を、いくつかの実施形態で結合して、対応する(仮想)ラウドスピーカから、複合(残響)マルチチャネル信号を再生することができる。
典型的なユースケースでは、HRTFで再生される周囲の仮想ラウドスピーカセット(例えば、リスナの周りに、ある程度均等に配置された16個の仮想ラウドスピーカ)が採用されることがある。そのような場合、実施形態は、
残響器の初期ターゲット方向(例えば、仮想ラウドスピーカの方向、すなわち、この例では、16個のターゲット方向)を決定し、
各ターゲット方向について、残響の3つの互いにインコヒーレントなバリエーション(または、コヒーレントでないもの)を決定し、残響はその方向の望ましい残響特性に従っており、
頭の向きおよび初期ターゲット方向に基づいて、回転したターゲット方向を決定し、
本発明を用いて、対応する回転したターゲット方向に、3つの残響セットのそれぞれを再現する(例えば、パニングゲイン決定ツールとしてVBAPを使用する)、
ように構成され得る。
残響器の初期ターゲット方向(例えば、仮想ラウドスピーカの方向、すなわち、この例では、16個のターゲット方向)を決定し、
各ターゲット方向について、残響の3つの互いにインコヒーレントなバリエーション(または、コヒーレントでないもの)を決定し、残響はその方向の望ましい残響特性に従っており、
頭の向きおよび初期ターゲット方向に基づいて、回転したターゲット方向を決定し、
本発明を用いて、対応する回転したターゲット方向に、3つの残響セットのそれぞれを再現する(例えば、パニングゲイン決定ツールとしてVBAPを使用する)、
ように構成され得る。
その結果、本実施形態によって生成されるサウンドシーンは、周囲を取り囲むように、包み込むように、拡散するように、知覚され得る。さらに、リスナの向きに基づいて残響が更新されるため、残響の特徴が正しい方向から発生しているように知覚される。
図2に関して、本発明を利用した例示的な装置299の実施形態が示されている。システムへの入力は、残響を生じさせるオーディオ信号200である。
図2に示す残響装置は、残響パナー201の数がN個である。図2では、第1残響パナー2011、第2残響パナー2012、第N残響パナー201Nが具体的に示されている。
各残響パナー201は、オーディオ信号200、さらに、スピーカ設定情報202、ターゲット方向情報204、および、残響パラメータ206を取得または受信するように構成される。
例えば、第1残響パナー2011は、オーディオ信号200、および、ラウドスピーカ設定情報202、さらに、第1ターゲット方向情報(または、ターゲット方向1)2041、および、第1残響パラメータ(または、残響パラメータ1)2061を取得または受信するように構成される。
第2残響パナー2012は、共通オーディオ信号200、および、スピーカ設定情報202、さらに、第2ターゲット方向情報(または、ターゲット方向2)2042、および、第2残響パラメータ(または、残響パラメータ2)2062を取得または受信するように構成される。
図2に示す残響装置は、残響パナー201の数がN個である。図2では、第1残響パナー2011、第2残響パナー2012、および、第N残響パナー201Nが具体的に示されている。各残響パナー201は、オーディオ信号200、さらに、スピーカ設定情報202、ターゲット方向情報204、および、残響パラメータ206を取得または受信するように構成される。例えば、第1残響パナー2011は、オーディオ信号200およびラウドスピーカ設定情報202、さらに、第1ターゲット方向情報(または、ターゲット方向1)2041、および、第1残響パラメータ(または、残響パラメータ1)2061を取得または受信するよう構成される。第2残響パナー2012は、共通オーディオ信号200、および、ラウドスピーカ設定情報202、さらに、第2ターゲット方向情報(または、ターゲット方向2)2042、および、第2残響パラメータ(または、残響パラメータ2)2062を取得または受信するように構成される。さらに、第N残響パナー201Nは、オーディオ信号200、および、ラウドスピーカ設定情報202、第Nターゲット方向情報(または、ターゲット方向N)204N、および、第N残響パラメータ(または、残響パラメータN)206Nを取得または受信するように構成される。
残響パラメータおよびターゲット方向に従って、残響処理を行う。入力オーディオ信号は、sin(n)(nは時間的サンプルインデックスである)として表すことができる。いくつかの実施形態におけるラウドスピーカ設定情報202は、包囲拡散残響の知覚を生成するために使用することができる、サラウンドラウドスピーカ設定である。設定またはラウドスピーカ構成は、任意の好適な方法に基づいて取得することができる。例えば、いくつかの実施形態では、ラウドスピーカ設定は、予め決められた、または、デフォルトのラウドスピーカ設定情報である。いくつかの実施形態では、ラウドスピーカ設定情報は、決定されるか(例えば、スピーカキャリブレーションプロセスが実行される)、または、(例えば、ユーザ入力によって)入力される。さらに、設定またはラウドスピーカ構成は、任意の適切なフォーマットであってよい。ラウドスピーカ設定情報は、いくつかの実施形態において、ラウドスピーカの数、および、リスナに対する相対的な方向を定義することができる。ラウドスピーカの設定または構成の例は、例えば、K.Hiyama,S.Komiyama, and K.Hamasaki, The Minimum Number of Loudspeakers and Its Arrangement for Reproducing the Spatial Impression of Diffuse Sound Field, AES 113th Convention, 2002、および、C.Kirch, J Poppitz, T.Wendt, S.van der Par, and S.Ewert, Spatial Resolution of late Reverbouration in Virtual Acoustic Environmentsに記述されている。Trends in Hearing(現在、Carl von Ossietzky Universitat Oldenburgのウェブサイトにて公開中)、2021に投稿されている。
リスナの平面上に、方位角45度の間隔で8個のスピーカを配置した第1層、仰角30度、方位角90度の間隔で4個のスピーカを配置した第2層、仰角-30度、方位角90度の間隔で4個のスピーカを配置した第3層の3層に配置した16個のスピーカを持つスピーカの構成や設定の例である。これは方位角と仰角の値で表すことができる。
方位角θls(i):0、45、90、135、180、-135、-90、-45、135、-135、-45、45、135、-135度
仰角φls(i):0、0、0、0、0、0、30、30、30、-30、-30、-30、-30°
ここで、iはスピーカのチャネルである。ラウドスピーカ設定にはN個のチャネルがある(この例では、16チャネル)。
方位角θls(i):0、45、90、135、180、-135、-90、-45、135、-135、-45、45、135、-135度
仰角φls(i):0、0、0、0、0、0、30、30、30、-30、-30、-30、-30°
ここで、iはスピーカのチャネルである。ラウドスピーカ設定にはN個のチャネルがある(この例では、16チャネル)。
残響パナー(第1残響パラメータ2061、第2残響パラメータ2062、第3残響パラメータ2063など)のそれぞれの残響パラメータ206は、それぞれ、ターゲット方向1(2041)(θtarget(1,n),φtarget(1,n))、ターゲット方向2(2042)(θtarget(2,n),φtarget(2,n))、ターゲット方向3(2043)(θtarget(3,n),φtarget(3,n))(ターゲット方向は時間的に変化してもよい)における残響の生成を制御するパラメータを含む。残響パラメータおよびターゲット方向は、任意の適切な方法または手段によって取得することができる。例えば、いくつかの実施形態では、初期ターゲット方向は、スピーカ設定の方向に設定することができ、すなわち、
θinitial(j)=θls(i)
φinitial(j)=φls(i)である。
ここで、jは、残響パナーのインデックスである。次に、ターゲット方向θtarget(j,n),φtarget(j,n)は、リスナの向きおよび初期ターゲット方向θinitial(j),φinitial(j)に基づいて、例えば、四元数を用いるか、M.V.Laitinen,“Binaural reproduction for directional audio coding”,M.Sc.Thesis,TKK,2008に示される方法に基づいて決定可能である。
θinitial(j)=θls(i)
φinitial(j)=φls(i)である。
ここで、jは、残響パナーのインデックスである。次に、ターゲット方向θtarget(j,n),φtarget(j,n)は、リスナの向きおよび初期ターゲット方向θinitial(j),φinitial(j)に基づいて、例えば、四元数を用いるか、M.V.Laitinen,“Binaural reproduction for directional audio coding”,M.Sc.Thesis,TKK,2008に示される方法に基づいて決定可能である。
このように、残響パナーは、頭の向き(四元数、または、オイラー角として入手可能)に基づいて、初期ターゲット方向を回転させるように構成されている。
いくつかの実施形態では、残響パラメータ206(第1残響パラメータ2061、第2残響パラメータ2062、および、第3残響パラメータ2063など)は、例えば、コンテンツクリエータによって作成されたエンコーダ入力フォーマットファイルから、入力として取得され、ターゲット方向に加えて、所望の残響時間RT60(f)、残響対直接比RDR(f)(または、直接対総放出エネルギー比などの他の等価表現)などのパラメータ、および/または、仮想環境の大きさ、および/または、1つ以上の材料を含むことができる。
いくつかの実施形態では、第1残響パナー2011、第2残響パナー2012、および、第N残響パナー201Nは、次に、残響パラメータに基づいて、残響パラメータ206(第1残響パラメータ2061、第2残響パラメータ2062、および、第3残響パラメータ2063など)によって定義される、所望の残響特性を有する残響オーディオ信号を作成する残響器を構成または初期化するよう構成される。
このような実施形態では、残響パナー201は、残響パラメータ206に基づいてオーディオ信号201sin(n)を残響させ、残響信号がターゲット方向204に配置されるスピーカ設定202(または、スピーカ構成)に従って、マルチチャネル信号を生成する。
残響パナー201の出力は、それぞれのパニング残響信号(panned reverberant signals)208spr,1(n,i)である。第1残響パナー2011は第1パニング残響信号(または、残響信号1)2081を生成するように構成され、第2残響パナー2012は第2パニング残響信号(または残響信号2)2082を生成するように構成され、第N残響パナー201Nは第Nパニング残響信号(または残響信号N)208Nを生成するように構成される。パニング残響信号208 spr,1(n,i)は、N個のチャネルを有するマルチチャネル信号である。残響パナーの例は、図4に関して、以下にさらに説明される。
したがって、図2に示すように、オーディオ信号200 sin(n)は、残響パナーブロックに転送される。これらは同じように動作するが、ターゲット方向θtarget(j,n),φtarget(j,n)、および、残響パラメータは、残響パナーブロックの各々に対して独立している。さらに、異なる残響パナーブロックによって生成される残響は、相互にインコヒーレントである。したがって,各残響パナーブロックの出力は,パニングされた残響信号spr,j(n,i)(ここで、jは残響パナー経路のインデックスである)である。
この例では、マルチチャネル設定におけるチャネルiの数と同じ数の残響パナーjが存在する。他の実施形態では、異なる数のパナーが存在することもあり得る。
装置299は、さらに、ラウドスピーカ信号結合器203を有する。ラウドスピーカ信号結合器203は、パニングされた残響信号spr,j(n,i)208を受信するように構成され、それらを単一のマルチチャネル信号、パニングされた残響信号210に結合するように構成される。例えば、以下のように適用する。
その結果、パニングされた残響信号210はHRTFプロセッサ205に転送され、パニングされた残響信号210iの各チャネルiは、個々のHRTFプロセッサ205iに渡される。
したがって、例えば、パニングされた残響信号2101 spr(n,1)の第1チャネルは、第1HRTFプロセッサ2051に転送され、それはまた、頭部関連伝達関数「HRTF 1」ペア(各耳に対して1つのフィルタ)hhrtf(n,1,k)(ここで、kはHRTFチャネル、すなわち、左、または、右)2121を受信する。HRTFペアの方向は、ラウドスピーカ設定θls(1)、φls(1)における対応するチャネルの方向に対応する。したがって、先に説明した例示的なラウドスピーカ設定または構成の場合、これは、方位角0度および仰角0度となる。これらの実施形態では、HRTFプロセッサ205は、HRTFフィルタを適用するように構成され(例えば、畳み込みを介し)、結果として生じる信号は、バイノーラルのパニングされた残響信号spr,bin(n,1,k)214である。したがって、第1チャネル出力は、第1チャネル、または、チャネル1のバイノーラルパニング残響信号2141であり、これはバイノーラル信号結合器207に渡される。
同じ処理が、パニングされた残響信号spr(n,i)の各チャネルについて、対応するHRTFフィルタhhrtf(n,i,k)を使用して適用される。結果として生じるバイノーラルのパニングされた残響信号spr,bin(n,i,k)は、バイノーラル信号結合器207に転送される。
いくつかの実施形態では、装置299は、バイノーラルパニング残響信号を受信し、例えば、次式を適用することによって、それらを単一のバイノーラル信号に結合するように構成されたバイノーラル結合器207を含む。
残響バイノーラル信号srev,bin(n,k)250は、処理の出力である。残響バイノーラル信号250は、サラウンド拡散残響の知覚を生じさせるように構成される。さらに、残響特性は、所望の指向性残響特性に基づいてレンダリングされ、これらの特性は、頭部トラッキングデータまたは他の任意の指向性ターゲットデータに基づいて適用される。
図3に関して、図2の装置299の動作例を示すフロー図が示されている。
したがって、図3において、ステップ301によって示すように、本方法は、オーディオ信号、スピーカ設定、ターゲット方向、および、残響パラメータを取得することを含む。
次に、オーディオ信号、スピーカ設定、ターゲット方向、および、残響パラメータを取得した後、図3において、ステップ303によって示されるように、複数の経路に対して、パニングされた残響信号(マルチチャネル)を生成する。
次に、図3において、ステップ305によって示されるように、パニングされた残響信号は、ラウドスピーカチャネルパニング残響信号を生成するために結合され得る。
次に、図3において、ステップ307によって示されるように、チャネルパニング残響信号に対して、HRTF処理が行われる。
その後、図3において、ステップ309によって示されるように、処理された信号は、残響バイノーラル信号を生成するために結合され得る。
そして、図3において、ステップ311によって示されるように、残響バイノーラル信号が出力され得る。
図4に関して、残響パナー201が、さらに詳細に模式的に示されている。図4に示す例は、図2に示す例示的な実施形態からのN個のブロックのうちの1つであり、それらの各々は、個々のターゲット方向204および残響パラメータ入力206を有するように構成される。さらに、図1に示す例では、異なる経路jのすべての残響パナーが、相互にインコヒーレントな残響を生成するように構成される。それ以外の場合、異なる経路の残響パナーの動作は同一である。
図4に示す例では、オーディオ信号sin(n)200は、一連の残響器401(第1残響器4011、第2残響器4012、および、第3残響器4013として示されている)に渡される。各残響器401は、残響パラメータ206も入力として受信するように構成される。
残響パラメータ206に基づいて、残響器401は、残響オーディオ信号402を生成するように構成される。例えば、第1残響器4011は、例えば、フィードフォワード遅延ネットワーク(FDN)残響器を使用して、(第1)残響オーディオ信号1 4021 srev(n,1)を出力するよう構成される。
第2残響器4012は、(第2)残響オーディオ信号1 4022 srev(n,2)を、第3残響器4013は、(第3)残響オーディオ信号3 4023 srev(n,3)を出力するよう構成される。これら3つの信号は、同じ残響特性を持つが、相互にインコヒーレントである。
ラウドスピーカ設定202 θls(i),φls(i)、および、ターゲット方向204 θtarget(j,n),φtarget(j,n)も残響パナー201への入力であり、パニングゲインg(i,j,n)を決定するように構成されたパニングゲイン決定器405へ転送される。これらのパニングゲインは、例えば、V.Pulkki,“Virtual source positioning using vector base amplitude panning”,J.Audio Eng.Soc.、45巻、456-466頁、1997年6月、および、EP出願18161580.8号に示される方法に基づいて、ベクトルベース振幅パニング(VBAP)を使用して決定することができる。このような実施形態では、各パスjは、(時変)ターゲット方向θtarget(j,n),φtarget(j,n)に基づいて、各チャネルiに対して専用のパニングゲインを有する。簡単のため、以下では、1つの時間的瞬間および1つの経路のみを考慮するため、以下では、パニングゲイン404をg(i)と表記する。
パニングゲイン404 g(i)は、パニングゲインアプライヤ403に転送される。パニングゲインアプライヤ403は、パニングゲイン404および残響オーディオ信号402 srev(n,l)(ここで、lは残響器経路)を受信するように構成される。
パニングゲイン404g(i)がVBAPで作成されたように、いくつかの実施形態では、それらのうちの1~3個だけが非ゼロである。以下の例では、第1時刻(time instant)に非ゼロゲインを有する正確に3個のチャネル(チャネルi1,i2,i3)が存在し、残りのチャネルはゼロゲインを有すると仮定される。以下の例では、非ゼロのチャネルは3,4,10である。
第1時刻について、これらは任意の順序(例えば、i1=3,i2=4,i3=10)で割り当てることができる。そして、残響オーディオ信号402 srev(n,l)は、これらのチャネルにそれぞれ割り当てられ、それぞれのゲインで処理される。例えば、以下のようになる。
そして、パニングされた残響信号208 spr,1(n,i)を出力することができる。
この例では、次の時刻に、θtarget(j,n),φtarget(j,n)が変化し、パニングゲイン404g(i)も変化する。しかしながら、非ゼロゲインは依然として同じチャネル、すなわち、例えば、3、4、10にある。この例では、非ゼロチャネルへの残響信号の割り当てを自由に選択することはできない。その代わり、割り当て順序は変わらず、すなわち、i1=3,i2=4,i3=10とする。これにより、出力信号spr,1(n,i)に不連続性がなく、良好なオーディオ品質が維持される。もし、割り当てが変更された場合、オーディオ信号の不連続性が生じ、オーディオ信号のクリックやスナップが発生する可能性がある。
そして、次の時刻にθtarget(j,n),φtarget(j,n)は再び変化し、パニングゲイン404 g(i)も変化する。今回は、非ゼロゲインが異なるチャネル、例えば、3、4、14であると仮定する。また、この例では、残響信号の非ゼロチャネルへの割り当てを自由に選択することはできない。チャネル3と4は、不連続性(および、その後のクリックやスナップ)を避けるために、それぞれの残響信号を保持する必要がある。しかしながら、3番目の残響信号は、新しいチャネルに変更することができる。したがって、新しい割当は、i1=3,i2=4,i3=14となる。したがって、出力は次のようになる。
このように、各残響信号に対するスピーカチャネルの選択は、チャネルが「ゼロゲイン」を介してのみ、変更されるように実行される。換言すれば、ゼロより大きいゲインを有するチャネルについては、同じ残響が維持される。さらに、あるパニングゲイン404の値がゼロになり、他のチャネルにゼロより大きなゲイン値が割り当てられた場合、残響信号のチャネルマッピングの変更が実行される。パニングツールとしてVBAPを使用する場合、この変更は、さらに、スムーズに行われる。
図5に関して、いくつかの実施形態による図4に示すパナーの動作のフロー図を示す。
例えば、本方法は、図5において、ステップ501によって示すように、オーディオ信号、残響パラメータ、スピーカ設定、および、ターゲット方向を取得することを含むことができる。
そして、図5において、ステップ503によって示すように、オーディオ信号への残響パラメータの適用に基づいて、残響オーディオ信号を生成する。
さらに、図5において、ステップ504によって示されるように、パニングゲインパラメータは、スピーカ設定およびターゲット方向に基づいて決定することができる。
その後、図5において、ステップ505によって示されるように、残響オーディオ信号にゲインパラメータを適用して、パニングされた残響信号を生成することができる。
そして、図5において、ステップ507によって示されるように、残響オーディオ信号を出力することができる。
図6は、ターゲット方向がθtarget=0,φtarget=10から、θtarget=0,φtarget=-10に滑らかに変化する、いくつかの実施形態の実装を示すグラフの例である。対応するパニングゲインも滑らかに変化し、チャネル10のパニングゲインは滑らかにゼロになり、チャネル14のパニングゲインは(チャネル10のゲインがゼロになった後)ゼロから滑らかに増加する。このように、g(10)がゼロになる時刻の瞬間には、不連続性を生じさせることなく、余計な処理をすることなく、チャネルマッピングを実行することができる。他のパニングツールの場合(または、「ターゲット方向」における急激な変化の場合)、時間をかけて平滑化することにより、古いパニングゲインをゆっくりとゼロまでフェードアウトし、その後にのみチャネルマッピングを変更し、その後、新たなパニングゲインをフェードインすることができる(例えば、約10ms長のハンウィンドウ型スロープを用いて、最初のハンウィンドウの半分をフェードイン、後半をフェードアウトする)。
図7に関しては、残響器401として採用することができ、D個の無相関出力を生成するために使用することができるような、例示的なFDN残響器を示す。図4に示す例では、3つのそのようなFDN反射器401があり、その各々は、合計45個の出力に対して15個の無相関出力(D=15)を生成するように構成される。したがって、この実施例では、15個の残響パナー経路jが存在する。
例示的なFDN-残響器の実装は、残響パラメータを処理して、各減衰フィルタ761の係数GEQd(GEQ1、GEQ2、・・・GEQD)、フィードバック行列757の係数A、D遅延線759の長さmd(m1、m2、・・・mD)および直接対残響比フィルタ753の係数GEQDDRを生成するよう構成される。
いくつかの実施形態では、各減衰フィルタGEQdは、M個の双2次(biquad)IIRバンドフィルタを使用するグラフィックEQフィルタとして実装される。したがって、オクターブバンドM=10では、各グラフィックEQのパラメータは、10個の双2次IIRフィルタのフィードフォワード係数およびフィードバック係数、双2次バンドフィルタのゲイン、および、全体ゲインを含む。いくつかの実施形態では、FDN残響器パラメータを決定するために、任意の適切な方法を実施することができ、例えば、仮想/物理シーンの所望のRT60時間を再現できるようなFDN残響器パラメータを導出するために、特許出願GB2101657.1に記載の方法を実施することができる。
残響器は、遅延759、フィードバック要素(ゲイン761、757結合器755および出力ゲイン763として示される)のネットワークを使用して、後半部分の非常に密なインパルス応答を生成する。入力サンプル751は残響器へ入力され、残響オーディオ信号成分を生成し、それを出力することができる。
FDN残響器は、複数の再循環遅延線を含む。ユニタリー行列A757は、ネットワーク内の再循環を制御するために使用される。いくつかの実施形態では、2次断面IIRフィルタのカスケードとして実装されるグラフィックEQフィルタとして実装され得る減衰フィルタ761は、異なる周波数におけるエネルギー減衰率の制御を容易にすることができる。フィルタ761は、遅延線を通過する各パルスでデシベル単位の所望の量を減衰させ、所望のRT60時間が得られるように設計される。
例示したFDN残響器は、各FDN遅延線からの出力を独立した出力として提供することで、Dチャネル出力を示している。
図8は、1つのFDN残響器のパラメータの調整を示すフロー図である。この残響器のパラメータには、各減衰フィルタGEQdの係数、フィードバック行列の係数A、D本の遅延線の長さmdが含まれている。さらに、拡散直流比フィルタGEQDDRの係数が含まれる。これらの実施形態において、各減衰フィルタGEQdは、M個の双2次IIRバンドフィルタを用いたグラフィックEQフィルタである。したがって、オクターブ帯域M=10の場合、各グラフィックEQのパラメータは、10個の双2次(biquad)IIRフィルタのフィードフォワード係数およびフィードバック係数、双2次帯域フィルタのゲイン、および、全体ゲインからなる。
したがって、図8において、ステップ801によって示すように、本方法は、仮想シーンの形状(geometry)から寸法を取得することを含む。
次に、図8において、ステップ803によって示すように、本方法は、寸法に基づいて、少なくとも1つの遅延線長の長さを決定することをさらに含んでよい。
次に、図8において、ステップ805によって示すように、仮想シーンの所望の残響特性に基づいて、少なくとも1つの減衰フィルタの係数を決定する。
さらに、図8において、ステップ807によって示すように、本方法は、仮想シーンの所望の拡散対指向比特性に基づいて、少なくとも1つの拡散対指向比制御フィルタの係数を決定するように構成される。
遅延線の数Dは、品質要件と、残響品質と計算の複雑さとの間の所望のトレードオフとに応じて、調整することができる。いくつかの実施形態では、D=15本の遅延線による効率的な実装が使用される。これにより、Rocchesso:Maximally Diffusive Yet Efficient Feedback Delay Networks for Artificial Reverberation,IEEE Signal Processing Letters,Vol.4,No.9,Sep 1997.Rocchessoに記載の方法で示されるように、フィードバック行列係数Aを効率の良い実装を容易にするガロア列の観点から定義することが可能になる。
遅延線dの長さmdは、仮想部屋の寸法に基づいて決定することができる。仮想部屋は、任意の適切な立方体の形状にすることができる。さらに音響学では、これらの立方体は、「シューボックス型の部屋」と呼ばれる。例えば、シューボックス型の部屋は、寸法xDim、yDim、zDimで定義することができる。部屋の形状が「シューボックス」でない場合は、「シューボックス」を部屋の中に収めることができ、収められたシューボックスの寸法を遅延線長に利用することができる。あるいは、寸法は、靴箱の形をしていない部屋における3つの最長寸法として、または他の適切な方法で取得することができる。
いくつかの実施形態では、遅延は、仮想部屋または現実の部屋における定在波共振周波数に比例して設定される。遅延線長mdは、さらに、相互にプライム(prime)にすることができる。
いくつかの実施形態では、遅延線の減衰フィルタ係数は、所望のRT60時間が取得されるように、遅延線を通る各信号再循環で減衰のデシベル単位の所望の量が発生するように調整される。これは、特定の周波数における信号エネルギーの適切な減衰率を確保するために、周波数に応じた方法で実施される。
エンコーダへの入力は、いくつかの実施形態では、RT60(f)として示される指定周波数fあたりの所望のRT60時間を提供することができる。周波数fについて、信号サンプルあたりの所望の減衰は、attenuationPerSample(f)=-60/(samplingRate*rt60(f))として計算される。長さmdの遅延線に対するデシベル単位の減衰は、attenuationDb(f)=md*attenuationPerSample(f)となる。
いくつかの実施形態では、RT60時間は、異なる空間方向について異ならせることができる。この場合、遅延線の吸収フィルタは、この遅延線がパニングされるターゲット方向のRT60時間に基づいて調整される。
いくつかの実施形態における減衰フィルタは、V. Valimaki and J.Liski,“Accurate cascade graphic equalizer”,IEEE Signal Process.Lett.、24巻、2号、176-180頁、2017年2月に各遅延線について記載されているように、カスケードグラフィックイコライザのフィルタとして設計される。概説された設計手順は、オクターブバンドでのコマンドゲインのセットを入力として受け取る。また、第3オクターブバンドをサポートできる同様のグラフィックEQ構造の方法もあり、双2次フィルタの数を31に増やし、Third-Octave and Bark Graphic-Equalizer Design with Symmetric Band Filters、https://www.mdpi.com/2076-3417/10/4/1222/pdfに記載されているような詳細なターゲット応答に対するより良い適合性を提供する。
図9に関して、無相関の出力を生成する3つのFDN残響器のパラメータを調整する方法を示すフロー図が示されている。これらの実施形態では、修正されていない仮想部屋の形状に基づいて、1つの残響器のパラメータを調整し、修正された仮想部屋の形状を用いて第2および第3のFDN残響器のパラメータを調整することを含む。例えば、残響器1は、仮想部屋の寸法xDim、yDim、zDimを使用して、図8に示す方法を使用してパラメータ化される。第2FDN残響器は、修正された仮想部屋の寸法1.2*xDim、1.2*yDim、1.2*zDimを使用して調整される。第3FDN残響器は,0.8*xDim,0.8*yDim,0.8*zDimの修正された仮想部屋の寸法を使用して調整される.
したがって、例えば、図9において、ステップ901によって示すように、この方法は、環境の寸法、RT60、および、オプションで拡散対直行比特性を取得することができる。
次に、図9において、ステップ903によって示すように、本方法は、環境特性に従って、残響を発生させるための第1残響器を構成することを含む。
次に、図9において、ステップ905によって示すように、環境の少なくとも1つの寸法が変更される。
環境を変更した後、図9において、ステップ907によって示されるように、変更した環境特性に従って、残響を発生させるための第2残響器を構成する。
次に、図9において、ステップ909によって示されるように、環境の少なくとも第2寸法が変更される。
次に、図9において、ステップ911によって示されるように、さらに、変更された環境特性に従って、残響を発生させるための第3残響器を構成する。
FDN遅延線長m1~mDはシーンの形状に基づいて調整されるため、シーンの形状を変更すると、各残響器の遅延線の長さが異なり、出力が無相関となる。
いくつかの実施形態では、すべてのFDN残響器に渡る全ての遅延線は、相互に無相関な出力を保証するために、相互にプライムな長さを有するように調整される。これは、例えば、最初に作成されたFDNに、それが使用している遅延線長を報告させ、第2FDNを、第1FDNが使用している遅延線長のいずれをも使用しないように作成することによって実施することができる。第3FDNは、第1または第2FDNが使用する遅延線長のいずれも使用しないような方法で作成される。
図10は、いくつかの実施形態による例示的な実装シナリオを示す図である。このシナリオは、仮想現実(VR)および拡張現実(AR)のための6自由度(6DoF)シナリオにおけるオーディオレンダリングをサポートする予定のMPEG-Iオーディオフェーズ2規格の想定されるユースケースに対応する。
エンコーダへの入力は、1つ以上のオーディオ信号200、および、仮想シーンの記述282である。いくつかの実施形態における仮想シーン記述パラメータ282は、三角形メッシュフォーマットとして定義され得る仮想シーン形状、(メッシュ)音響材料特性、(メッシュ)残響特性、オーディオオブジェクト位置(いくつかの実施形態ではカルテシアン座標として定義され得る)、を含む。換言すれば、仮想シーン記述282は、RT60時間、拡散対全エネルギー比、および、シーン形状などの所望の残響パラメータを有する音響環境の記述を含む。これらのパラメータは、エンコーダ1001によって取得される。
エンコーダ1001は、残響パナーパラメータ取得部1005に渡される残響パラメータを導出するように構成された残響パラメータ取得部1003を備え、残響パナーパラメータを(上述の方法を用いて)決定するように構成された残響パラメータ取得部を備える。この方法は、シーン形状と残響特性に基づいて残響器パラメータを導出する。残響特性が提供されない場合、それらは仮想シーンの形状と材料特性を使用する音響シミュレーションを介して取得することができる。形状や波動ベースの仮想音響シミュレーション方法、または、それらの組み合わせを使用することができる。例えば、低い周波数には波動ベースの仮想音響シミュレーションを、高い周波数には幾何学的な音響手法を用いることができる。英国特許出願GB2101657.1に記載された方法は、残響器パラメータを導出するために使用することができる。
残響パナーのパラメータ(遅延線長、遅延線減衰フィルタ係数、拡散対フィルタ係数、および、ターゲット方向)は、次に、パラメータを符号化するように構成されている残響パナーパラメータエンコーダ1007に渡すことができる。符号化された残響パナーパラメータは、次に、ビットストリームエンコーダ1009に渡すことができ、このエンコーダは、次に、オーディオ信号200とともに、ビットストリーム220を生成するように構成される。換言すれば、仮想シーン記述の他のコンテンツもビットストリームに符号化することができる。オーディオ信号は、MPEG-H 3Dオーディオで符号化され、ビットストリームに多重化される。
デコーダ/レンダラ1011は、仮想シーンコンテンツのビットストリーム220の記述、残響パナーパラメータなどのレンダリングパラメータ、および、オーディオ信号を受信するように構成される。
いくつかの実施形態では、デコーダ/レンダラ1011は、ビットストリームデコーダ1031を含む。ビットストリームデコーダ1031は、仮想シーンコンテンツの「符号化」された記述、残響パナーのパラメータなどのレンダリングパラメータ、および、オーディオ信号をビットストリームから復号/分離して出力するように構成される。
いくつかの実施形態におけるデコーダ/レンダラ1011は、ビットストリームデコーダ1031から符号化された残響パナーパラメータを取得し、残響パナーパラメータを作成して、これらを残響パナークリエータ1035に出力するように構成された残響パナーパラメータデコーダ1033を含む。
デコーダ/レンダラ1011は、復号化された残響パナーパラメータを受信し、残響パナー201を初期化するように構成された残響パナークリエータ1035をさらに備えている。この例では、1つの残響パナー201のみが示されているが、上述のように、それぞれが独自の残響パラメータおよびターゲット方向を有する複数の残響パナーを採用することができる。
その後、残響パナー201、ラウドスピーカ信号結合器203、および、HRTFプロセッサ205は、頭部方向決定器1099の出力およびビットストリームデコーダ1031からのラウドスピーカ設定または構成情報に基づいて、前述のように実装することができる。換言すれば、残響パナー201、スピーカ信号結合器203、および、HRTFプロセッサ205は、所望の残響特性を有するオーディオ信号をレンダリングするために使用され得る。なお、本例では、ヘッドトラッキング情報に基づくターゲット方向の回転は、図2~図5に関して説明した例示的な実施形態ではパナーの外側で行われていたのに対し、残響パナー201の内側で行われている。
さらに、デコーダ/レンダラ1011は、ビットストリームデコーダ1031から復号されたオーディオ信号を受信するように構成され、空気吸収や距離対ゲイン減衰などの任意の直接音処理を実施するように構成される直接音プロセッサ1039を備え、これは、頭部方位決定とともに直接音成分を生成し、HRTFプロセッサ205からの残響成分とともにバイノーラル信号結合器207に渡され得るHRTFプロセッサ1041へ渡される。バイノーラル信号結合器207は、直接音部分と残響音部分を結合して、適切な出力(例えば、ヘッドホン再生用)を生成するように構成されている。
また、図示はしていないが、提案方法と組み合わせた初期反射レンダリングなど、他の様々なオーディオ処理方法を適用することも可能である。
いくつかの実施形態では、残響パナーパラメータは、レンダラによって部分的または完全に導出され得る。例えば、ARオーディオレンダリングにおいて、レンダラが所望の残響パラメータとともにリスニングスペースの記述を受信するような場合がそうであり得る。
上記の実施形態で説明したようなアプローチは、さらに、多数のチャネルからの残響を計算上効率的な方法でレンダリングする際の残響器および残響空間化ソリューションの問題の解決を目指すように構成することもできる。ユーザを実際に包み込む高品質な残響を得るための簡単な方法は、例えば、45個の出力チャネルを有する大型の残響器を調整することである。しかし、このような残響器をFDN残響器として実装する場合、各サンプルに対して45本の遅延線に渡るフィードバックをフィードバック行列で実装する必要があるため、フィードバック行列の計算が膨大になる。
本明細書で説明する実施形態では、それぞれ、15チャネルしか持たない3つのFDN残響器を採用することが可能であり、これらは最新のプロセッサアーキテクチャで並列に実行することができ、実際に行列計算を実行せずに高速フィードバック行列計算を個別に行う。さらに、45個の残響器出力チャネルの空間化には、現在、45個の仮想ラウドスピーカと45個のHRTFフィルタが必要であるが、本明細書に記載の実施形態では、15個の仮想ラウドスピーカのゲインを計算して15個のHRTFフィルタによる空間化を実行するだけでよい。
いくつかの実施形態では、本明細書に記載された装置および方法は、(残響以外の)他のインコヒーレントコンテンツも生成するために重要な創作的知見を得ることなく採用することができる。例えば、アンビエンス音は、上述の実施形態を使用して、周囲を取り囲むように再生され、包み込むように再生され得る。この例では、残響器を無相関化器に置き換えることができる。また、いくつかの実施形態では、残響パラメータを省略することができる。その代わりに、異なるマイク信号を異なる残響パナー経路jに転送することができる。例えば、マイクは、音響的に影があるデバイスの表面上に取り付けられてよい。その結果、異なるマイクは、方向に依存した方法でアンビエンス(および/または、残響)をキャプチャすることができる。したがって、実際には、方向依存の残響パラメータを提供するのと同じ効果が得られる。
図11は実施形態例を示す概略図であり、図12は実施形態例の動作を示すフロー図である。これは、図2に示した例と同様であり、相違点のみを詳細に示す。
図11に示す装置への入力は、単一のオーディオ信号200の代わりに、複数のマイク信号1100(これらは、マイク信号1 11001、マイク信号2 11002、マイク信号N 1100Nを示す)である。これらの入力マイク信号は、関連する無相関化器パナー1101に転送される。したがって、マイク信号1 11001は無相関化器パナー11011に転送され、マイク信号2 11002は無相関化器パナー11012に転送され、マイク信号N 1100Nは無相関化器パナー1101Nに転送される。
各無相関化器パナー1101(図2の残響パナーの代わり)は、ラウドスピーカ設定1102とターゲット方向1104のパラメータを受信するように構成されているが、残響パラメータは受信しない。したがって、例えば、図11に示すように、ラウドスピーカ設定1102および第1ターゲット方向(ターゲット方向1)11041を受信するように構成された第1無相関化器パナー11011、ラウドスピーカ設定1102および第2ターゲット方向(ターゲット方向2)11042を受信するように構成された第2無相関化器パナー11012、ラウドスピーカ設定1102および第Nターゲット方向(ターゲット方向N)1104Nを受信するように構成された第N無相関化器パナー1101Nがある。
いくつかの実施形態におけるターゲット方向1104は、頭部の向きおよびアレイ内のマイクのそれぞれの方向から導出され得る。いくつかの実施形態における無相関化器パナー11011、11012、1101Nの各々は、先に説明した残響パナー2011、2012、201Nと同様の方法で動作するように構成されるが、入力マイク信号を残響させるのではなく、マイクオーディオ信号を無相関化してパニングアンビエンス信号(マルチチャネル)1108を発生するように構成される。例えば、第1無相関化器パナー11011からの第1パニングアンビエンス信号(パニングされたアンビエンス信号1)11081、第2無相関化器パナー11012からの第2パニングアンビエンス信号(パニングされたアンビエンス信号2)11082、および、第N無相関化器パナー1101Nからの第Nパニングアンビエンス信号(パニングされたアンビエンス信号N)1108Nは、スピーカ信号結合器1103へ渡すことができる。
ラウドスピーカ信号結合器1103は、無相関化器パナー11011、11012、および、1101Nの出力をそれぞれパニングされたアンビエンス信号11081、11082、1108Nの形で結合し、さらに1~Nの選択されたチャネルに対するパニングされたアンビエンス信号1110(図11では、11101、11102、1110Nとして示す)を生成してHRTFプロセッサ1105へ渡すよう構成される。
HRTFプロセッサは、各HRTFプロセッサ1105のHRTF212を取得するように構成され、処理されたパニングされたアンビエンス信号からバイノーラルのパニングされたアンビエンス信号1114を生成し、バイノーラル信号結合器1107に渡されるように構成される。
バイノーラル信号結合器1107は、バイノーラルのパニングされたアンビエンス信号1114を受信し、これらに基づいてアンビエンスバイノーラル信号1150を生成する。その結果、アンビエンスバイノーラル信号1150は、サラウンドの、包み込むようなアンビエンスの知覚を生み出す。さらに、異なるマイクの指向特性が維持され、正しい方向から再生されるため、アンビエンスの指向特性は正しい方向へ生成される。
図12に関して、図11の装置1199の例示的な動作を示すフロー図が示されている。
したがって、図12において、ステップ1201によって示されるように、本方法は、マイクオーディオ信号、スピーカ設定、および、ターゲット方向を取得することを含む。
次に、マイクオーディオ信号、スピーカ設定、ターゲット方向を取得した後、図12において、ステップ1203によって示されるように、パニングされたアンビエンス信号(マルチチャネル)を生成する。
次に、図12において、ステップ1205によって示されるように、パニングされたアンビエンス信号は、ラウドスピーカチャネルのパニングされたアンビエンス信号を生成するために結合することができる。
次に、図12において、ステップ1207によって示されるように、チャネルパニングされたアンビエンス信号に対してHRTF処理が実行される。
次に、図12において、ステップ1209によって示されるように、処理された信号は、アンビエンスバイノーラル信号を生成するために結合することができる
そして、図12において、ステップ1211によって示されるように、アンビエンスバイノーラル信号を出力することができる。
図13は、図11に示すような例示的な無相関化器パナー(例えば、無相関化器パナー11011)を模式的に示す。これは、図4に示した残響パナーと他の点で同様に動作するように構成されているが、残響器401が、相互にインコヒーレントな無相関化された信号を生成するように構成された無相関化器1301に置き換わっている。これらの実施形態では、残響パラメータ入力はなく、その代わりに、パニングゲインアプライヤ1303に渡される無相関化されたオーディオ信号1302が、無相関化器の各々から出力される。したがって、図13は、マイク信号11001を受信し、第1無相関オーディオ信号(無相関化されたオーディオ信号1)13021を出力する第1無相関化器13011、マイク信号11001を受信し、第2無相関オーディオ信号(無相関化されたオーディオ信号2)13022を出力する第2無相関化器13012、マイク信号11001を受信し、第N無相関オーディオ信号(無相関化されたオーディオ信号N)1302Nを出力する第N無相関化器1301Nを示す。
さらに、ラウドスピーカ設定1102とターゲット方向11044を受信し、パニングゲイン1304を生成してパニングゲインアプライヤ1303に渡すように構成されたパニングゲイン決定器1305が示される。
パニングゲインアプライヤ1303は、無相関化器13011、13012、および、1301Nからの出力を受信し、パニングゲインを適用して、これらを結合し、パニングされ無相関化された信号11081を生成するように構成される。
図14に関して、いくつかの実施形態による図13に示すパナーの動作のフロー図が示されている。
例えば、図14において、ステップ1401によって示されるように、本方法は、マイクオーディオ信号、スピーカ設定、および、ターゲット方向を取得することを含むことができる。
次に、図14において、ステップ1403によって示されるように、マイクオーディオ信号1100から、無相関化されたオーディオ信号を生成する。
さらに、図14において、ステップ1404によって示されるように、スピーカ設定およびターゲット方向に基づいて、パニングゲインパラメータを決定することができる。
その後、図14において、ステップ1405によって示されるように、無相関化されたオーディオ信号にゲインパラメータを適用し、パニングされたアンビエンス信号を生成することができる。
そして、図14において、ステップ1407によって示されるように、アンビエンスオーディオ信号を出力することができる。
本明細書で説明する例では、いくつかの残響パナーまたは残響器が示されているが、それらは単一の残響パナーまたは残響器の内部に実装することができることに留意されたい。例えば、FDN残響器フィードバック行列は、ブロックがより小さいFDNインスタンスの所望のフィードバック行列に対応するブロック構造を有するように構成することができる。そして、実際の実装は、ブロックフィードバック行列と適切な遅延線を用いて小さなFDNを共同で実装する単一のFDNにすることができる。
さらにいくつかの実施形態では、FDN残響器の遅延線長は、本明細書に記載されるものとは異なる方法で設定することができる。例えば、1つの更なる選択肢は、遅延長を仮想部屋における平均自由行路長に比例させることである。いくつかの実施形態では、仮想部屋の寸法は、別の部屋の寸法にマッピングされる。例えば、部屋の1つは、比[1、1.6、2.56]を持った寸法を有することができる。これらの実施形態では、入力仮想部屋の最短寸法が比率1に対応してそのまま使用され、他の2つの寸法は、最短入力部屋の寸法の1.6倍および2.56倍の比率に基づいて計算される。そして、これら算出された別の部屋の寸法に基づいて遅延線長を調整する。
いくつかの実施形態では、他の寸法比も存在し得る。例えば、以下の寸法比が使用され得る。
[1 1 1]
[1 1.14 1.39]
[1 1.26 1.59]
[1 1.28 1.54]
[1 1.3 1.9]
[1 1.4 1.9]
[1 1.5 2.5]
[1 1.6 2.33]
この中から、1つの寸法比率のセットを選択することができる。
[1 1 1]
[1 1.14 1.39]
[1 1.26 1.59]
[1 1.28 1.54]
[1 1.3 1.9]
[1 1.4 1.9]
[1 1.5 2.5]
[1 1.6 2.33]
この中から、1つの寸法比率のセットを選択することができる。
さらに、いくつかの実施形態では、異なる寸法比はレンダラに記憶され、どれを使用するかを示すインデックスがエンコーダからレンダラに送信されてもよい。
FDN残響器の遅延線減衰フィルタは、さらに、いくつかの実施形態において、並列2次セクションフィルタ、IIRフィルタの任意の他の組み合わせ、または、FIRフィルタなどの異なる実装を有することができる。
残響器は、任意の適切な方法で実装することができる。例えば、いくつかの実施形態では、残響器は、減衰ノイズシーケンスとの畳み込みを使用して実装することができる。このアプローチでは、各帯域の所望のRT60時間に基づく所望の減衰エンベロープと乗算されるN個の無相関帯域通過ノイズシーケンスを初期化することによって、マルチチャネル残響器を作成することができる。出力信号は、入力信号を各帯域通過ノイズシーケンスと畳み込むことによって作成することができる。このような残響器は仮想シーンの形状に依存しないため、全ての残響器の全ての帯域で異なる無相関ノイズシーケンスを使用することによって、3つの残響器を初期化することができる。
上記の例示的な実施形態では、ターゲット方向θtarget(j,n),φtarget(j,n)、および、その後の全ての処理は、オーディオサンプルの時間的精度で実行された。いくつかの実施形態では、ターゲット方向、および/または、任意の他の変数(パニングゲインなど)は、任意の他の時間分解能(例えば、10ms毎)で決定することができ、その後、必要な変数を好適に補間することができる。
例示した実施形態では、パニングゲインの決定にはVBAPを使用した。VBAPは最大で3つの非ゼロゲインを生成するため、各残響パナーには最大で3つの残響器が必要である。いくつかの実施形態では、パニングゲイン決定のための異なる方法が使用され得る。したがって、いくつかの実施形態では、残響器の数は、それに応じて任意の適切な数とすることができる。例えば、パニングツールが4つの非ゼロゲインを生成する場合、パナーごとに4つの残響器を採用することができる。
いくつかの実施形態では、残響器パラメータの調整において、エンコーダ/レンダラ間で分割が可能であり、第1残響器のパラメータがエンコーダで調整されてビットストリームに符号化される。レンダラでは、第1残響器のパラメータが復号化され、次に第2および第3残響器を作成するために修正される。このような修正の例には、第2および第3残響器のパラメータを取得するために、第1残響器の遅延線長mDおよび減衰フィルタ係数GEQdを修正することが含まれる。所望のRT60時間を生成するために、遅延線長を短く、または、長く変更し、減衰フィルタ係数をそれに応じて変更することができる。次に、エンコーダによって導出され、ビットストリームから受信したパラメータを使用して第1残響器を初期化し、第1残響器のものから変更したパラメータを使用して第2および第3残響器を初期化する。
いくつかの実施形態では、エンコーダからレンダラへのビットストリームは、ヘッドトラッキングを適用するか否かのシグナリングを含むことができる(例えば、「headTrackingEnabled」信号を採用する)。headTrackingEnabledが真である例(または、ヘッドトラッキングが適用されることを示す他の適切なシグナリング)では、残響は、本明細書に提示される方法を使用してレンダリングされ得る。headTrackingEnabledが偽である例(または、ヘッドトラッキングが使用されないことを示す他の任意の適切なシグナリング)では、残響は、マルチチャネル設定の各チャネルに対して単一の残響器を使用することによって、単にパニングを使用せずにレンダリングされ得る。このheadTrackingEnabledは、単一の値を用いてシーン全体に対してシグナリングされてもよいし、シーンの異なる部分に対して個別にシグナリングされてもよい(例えば、異なる音響環境に対して個々の値を有する)。さらに、この情報は、いくつかの実施形態において間接的にシグナリングされることもある(例えば、各残響パナーの3つの残響器を初期化するパラメータがある場合、ヘッドトラッキングが有効になり、それらが利用できない場合、ヘッドトラッキングは無効になる)。
図15に、上述のようなシステムの装置部分のいずれかとして使用することができる例示的な電子デバイスを示す。デバイスは、任意の適切な電子機器または装置であってよい。例えば、いくつかの実施形態では、デバイス2000は、携帯端末、ユーザ機器、タブレットコンピュータ、コンピュータ、オーディオ再生装置などである。デバイスは、例えば、エンコーダ、または、レンダラ、または、上記のような任意の機能ブロックを実装するように構成されてもよい。
いくつかの実施形態では、デバイス2000は、少なくとも1つのプロセッサまたは中央処理装置2007を備える。プロセッサ2007は、本明細書に記載されるような方法などの様々なプログラムコードを実行するように構成され得る。
いくつかの実施形態では、デバイス2000は、メモリ2011を備える。いくつかの実施形態では、少なくとも1つのプロセッサ2007は、メモリ2011に接続される。メモリ2011は、任意の適切な記憶手段であり得る。いくつかの実施形態では、メモリ2011は、プロセッサ2007で実装可能なプログラムコードを格納するためのプログラムコードセクションを備える。さらに、いくつかの実施形態では、メモリ2011は、データ、例えば、本明細書に記載の実施形態に従って処理された、または、処理されるべきデータを格納するための格納データセクションをさらに含むことができる。プログラムコードセクション内に格納された実装されたプログラムコード、および、格納されたデータセクション内に格納されたデータは、メモリ-プロセッサ接続を介して、必要なときにプロセッサ2007によって取り出され得る。
いくつかの実施形態では、デバイス2000は、ユーザインタフェース2005を備える。ユーザインタフェース2005は、いくつかの実施形態において、プロセッサ2007に接続され得る。いくつかの実施形態では、プロセッサ2007は、ユーザインタフェース2005の動作を制御し、ユーザインタフェース2005から入力を受信することができる。いくつかの実施形態では、ユーザインタフェース2005は、ユーザが、例えば、キーパッドを介して、デバイス2000にコマンドを入力することを可能にすることができる。いくつかの実施形態では、ユーザインタフェース2005は、ユーザがデバイス2000から情報を取得することを可能にすることができる。例えば、ユーザインタフェース2005は、デバイス2000からの情報をユーザに表示するように構成されたディスプレイを含むことができる。ユーザインタフェース2005は、いくつかの実施形態では、デバイス2000に情報を入力することを可能にし、さらに、デバイス2000のユーザに情報を表示することの両方が可能なタッチスクリーン、または、タッチインタフェースを含む。いくつかの実施形態では、ユーザインタフェース2005は、通信するためのユーザインタフェースとすることができる。
いくつかの実施形態では、デバイス2000は、入力/出力ポート2009を備える。いくつかの実施形態における入出力ポート2009は、トランシーバを含む。このような実施形態におけるトランシーバは、プロセッサ2007に接続され、例えば、無線通信ネットワークを介して、他の装置または電子デバイスとの通信を可能にするように構成され得る。トランシーバ、または、任意の適切なトランシーバ、または、送信手段、および/または、受信手段は、いくつかの実施形態において、有線または有線接続を介して、他の電子デバイスまたは装置と通信するように構成され得る。
トランシーバは、任意の適切な既知の通信プロトコルによって、さらなる装置と通信することができる。例えば、いくつかの実施形態において、トランシーバは、適切なユニバーサル移動通信システム(UMTS)プロトコル、例えば、IEEE 802.Xなどの無線ローカルエリアネットワーク(WLAN)プロトコル、Bluetooth(登録商標)などの適切な短距離無線通信プロトコル、または、赤外線データ通信経路(IRDA)を使用できる。
入出力ポート2009は、信号を受信するように構成されていてもよい。
いくつかの実施形態では、デバイス2000は、レンダラの少なくとも一部として使用されてよい。入出力ポート2009は、ヘッドホン(ヘッドトラッキング型ヘッドホン、または、ノントラッキング型ヘッドホンであってもよい)などに接続されてよい。
一般に、本発明の様々な実施形態は、ハードウェアまたは特殊用途回路、ソフトウェア、ロジック、または、それらの任意の組み合わせで実装され得る。例えば、いくつかの態様はハードウェアで実装されてもよく、他の態様は、コントローラ、マイクロプロセッサ、または、他のコンピューティングデバイスによって実行され得るファームウェア、または、ソフトウェアで実装されてもよいが、本発明はこれらに限定されない。本発明の様々な態様は、ブロック図、フローチャートとして、または、他の何らかの図形的表現を用いて、図示および説明され得るが、本明細書に記載されるこれらのブロック、装置、システム、技術または方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、特殊用途回路またはロジック、汎用ハードウェアまたはコントローラまたは他の計算装置、または、それらの何らかの組み合わせで実施されてもよいことを十分に理解されたい。
本発明の実施形態は、プロセッサエンティティ内のような携帯端末のデータプロセッサによって実行可能なコンピュータソフトウェアによって、または、ハードウェアによって、または、ソフトウェアとハードウェアの組合せによって、実施され得る。さらに、この点で、図のような論理フローの任意のブロックは、プログラムステップ、または、相互接続された論理回路、ブロックおよび機能、または、プログラムステップと論理回路、ブロックおよび機能との組み合わせを表すことができることに留意されたい。ソフトウェアは、メモリチップ、または、プロセッサ内に実装されたメモリブロック、ハードディスクまたはフロッピーディスクなどの磁気媒体、および、例えば、DVD、および、そのデータバリエーションであるCDなどの光媒体などの物理媒体に格納されてよい。
メモリは、ローカルな技術環境に適した任意のタイプのものであってよく、半導体ベースのメモリ装置、磁気メモリ装置およびシステム、光学メモリ装置およびシステム、固定メモリおよび取り外し可能メモリなど、任意の適切なデータ記憶技術を使用して実装することができる。データ処理装置は、ローカルな技術環境に適した任意のタイプのものであってよく、非限定的な例として、汎用コンピュータ、特殊用途コンピュータ、マイクロプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、ゲートレベル回路及びマルチコアプロセッサアーキテクチャに基づくプロセッサの1つ以上を含むことができる。
本発明の実施形態は、集積回路モジュールのような様々なコンポーネントにおいて実施することができる。集積回路の設計は、概して、高度に自動化されたプロセスである。論理レベル設計を、半導体基板上にエッチングして形成することが可能な半導体回路設計に変換するために、複雑で強力なソフトウェアツールが利用可能である。
カリフォルニア州マウンテンビューのシノプシス社や、カリフォルニア州サンノゼのケイデンスデザイン社が提供するプログラムでは、確立された設計ルールや、あらかじめ保存された設計モジュールのライブラリを使用して、半導体チップ上の導体の配線や部品の配置を自動的に行う。半導体回路の設計が完了すると、標準化された電子フォーマット(Opus、GDSIIなど)の結果としての設計は、製造のために半導体製造施設または「ファブ」に送信されてよい。
上述の説明は、例示的かつ非限定的な例として、本発明の例示的な実施形態に関する完全かつ有益な説明を提供した。しかしながら、添付の図面および添付の特許請求の範囲と併せて読むと、上述の説明を考慮して、様々な修正および適応が当業者には明らかになるであろう。しかしながら、本発明の教示の全てのそのような、および、類似の修正は、やはり、添付の特許請求の範囲に定義される本発明の範囲内に入るであろう。
Claims (16)
- ターゲット方向に基づいて、音場の少なくとも一部を位置決めするための装置であって、該装置は、
少なくとも1つのオーディオ信号を取得することと、
スピーカ設定情報を取得することと、
少なくとも2つの処理経路について、少なくとも1つの処理経路パラメータを取得することであって、前記少なくとも1つの処理経路パラメータは、前記少なくとも2つの処理経路の各々に関連するターゲット方向を含む、取得することと、
前記少なくとも2つの処理経路のそれぞれについて、前記少なくとも1つの処理経路パラメータに基づいて、前記少なくとも1つのオーディオ信号を処理して、マルチチャネルオーディオ信号を生成することであって、各処理経路について、前記手段は、
前記少なくとも1つのオーディオ信号から、少なくとも2つの少なくとも部分的に相互にインコヒーレントなオーディオ信号を生成し、
前記処理経路に関連付けられた前記ターゲット方向および前記スピーカ設定情報に基づいて、少なくとも2つのパニングゲインを決定し、
前記少なくとも2つのパニングゲインのそれぞれを、前記少なくとも部分的に相互にインコヒーレントなオーディオ信号の関連する1つに適用して、少なくとも2つのパニングゲインが適用された少なくとも部分的に相互にインコヒーレントなオーディオ信号を生成し、
前記少なくとも2つのパニングゲインを適用した少なくとも部分的に相互にインコヒーレントなオーディオ信号を結合して、前記マルチチャネルオーディオ信号を生成する、
ように構成される、生成することと、
各処理経路からの前記マルチチャネルオーディオ信号を結合して、複合パニングゲイン適用マルチチャネルオーディオ信号を生成することと、
を行うように構成された手段を含む装置。 - 前記少なくとも1つの処理経路パラメータは、前記少なくとも2つの処理経路の各々に関連する少なくとも1つの残響パラメータをさらに含み、前記少なくとも1つのオーディオ信号から、少なくとも2つの少なくとも部分的に相互にインコヒーレントなオーディオ信号を生成するように構成された前記手段は、前記少なくとも1つの残響パラメータに基づいて、前記少なくとも1つのオーディオ信号を残響させて、前記少なくとも2つの少なくとも部分的に相互にインコヒーレントなオーディオ信号をそれぞれ生成するように構成される、請求項1に記載の装置。
- 前記少なくとも1つのオーディオ信号から、少なくとも2つの少なくとも部分的に相互にインコヒーレントなオーディオ信号を生成するように構成された前記手段が、
前記少なくとも2つの少なくとも部分的に相互にインコヒーレントなオーディオ信号の各々を生成するために、前記少なくとも1つのオーディオ信号を無相関化する、
ように構成される、請求項1に記載の装置。 - 前記処理経路に関連付けられた前記ターゲット方向と前記スピーカ設定情報とに基づいて、少なくとも2つのパニングゲインを決定するように構成された前記手段は、前記処理経路に関連付けられた前記ターゲット方向と前記スピーカ設定情報に関連付けられた方向とに基づいて、ベクトルベース振幅パニングを適用するように構成される、請求項1乃至3のいずれかに記載の装置。
- 前記手段は、前記複合パニングゲイン適用マルチチャネルオーディオ信号の処理に基づいて、イマーシブオーディオ信号を生成するようにさらに構成される、請求項1乃至4のいずれかに記載の装置。
- 前記複合パニングゲイン適用マルチチャネルオーディオ信号を処理することに基づいて、前記イマーシブオーディオ信号を生成するように構成された前記手段が、
前記複合パニングゲイン適用マルチチャネルオーディオ信号の各チャネルについて、前記チャネルに関連するラウドスピーカに対する方向に関連する頭部関連伝達関数に基づいて、前記複合パニングゲイン適用マルチチャネルオーディオ信号を処理し、チャネルバイノーラルパニング処理オーディオ信号を生成し、
全てのチャネルについて、前記チャネルバイノーラルパニング処理オーディオ信号を結合して、前記イマーシブオーディオ信号を生成する、
ように構成される、請求項5に記載の装置。 - スピーカ設定情報を取得するように構成された前記手段は、
スピーカ設定情報を受信すること、
スピーカ設定情報を決定すること、および、
所定の、または、デフォルトのスピーカ設定情報を取得すること、
のいずれかを実行するように構成されている、請求項1乃至6のいずれかに記載の装置。 - 前記少なくとも2つの少なくとも部分的に相互にインコヒーレントなオーディオ信号は、相互にインコヒーレントなオーディオ信号である、請求項1乃至7のいずれかに記載の装置。
- ターゲット方向に基づいて、音場の少なくとも一部を位置決めする装置のための方法であって、該方法は、
少なくとも1つのオーディオ信号を取得することと、
スピーカ設定情報を取得することと、
少なくとも2つの処理経路について、少なくとも1つの処理経路パラメータを取得することであって、前記少なくとも1つの処理経路パラメータは、前記少なくとも2つの処理経路の各々に関連するターゲット方向を含む、取得することと、
前記少なくとも2つの処理経路のそれぞれについて、前記少なくとも1つの処理経路パラメータに基づいて、前記少なくとも1つのオーディオ信号を処理し、マルチチャネルオーディオ信号を生成することであって、処理のために、
前記少なくとも1つのオーディオ信号から、少なくとも2つの少なくとも部分的に相互にインコヒーレントなオーディオ信号を生成することと、
前記処理経路に関連付けられた前記ターゲット方向と前記スピーカ設定情報とに基づいて、少なくとも2つのパニングゲインを決定することと、
前記少なくとも2つのパニングゲインのそれぞれを、前記少なくとも部分的に相互にインコヒーレントなオーディオ信号の関連する1つに適用して、少なくとも2つのパニングゲインを適用した少なくとも部分的に相互にインコヒーレントなオーディオ信号を生成することと、
前記少なくとも2つのパニングゲインを適用した少なくとも部分的に相互にインコヒーレントなオーディオ信号を結合して、前記マルチチャネルオーディオ信号を生成することと、
を含む、生成することと、
各処理経路からの前記マルチチャネルオーディオ信号を結合して、複合パニングゲイン適用マルチチャネルオーディオ信号を生成することと、
を含む、方法。 - 前記少なくとも1つの処理経路パラメータは、前記少なくとも2つの処理経路の各々に関連する少なくとも1つの残響パラメータをさらに含み、前記少なくとも1つのオーディオ信号から、少なくとも2つの少なくとも部分的に相互にインコヒーレントなオーディオ信号を生成することは、前記少なくとも1つの残響パラメータに基づいて、前記少なくとも1つのオーディオ信号を残響させて、前記少なくとも2つの少なくとも部分的に相互にインコヒーレントなオーディオ信号をそれぞれ生成することを含む、請求項9に記載の方法。
- 前記少なくとも1つのオーディオ信号から、少なくとも2つの少なくとも部分的に相互にインコヒーレントなオーディオ信号を生成することは、前記少なくとも1つのオーディオ信号を無相関化して、前記少なくとも2つの少なくとも部分的に相互にインコヒーレントなオーディオ信号のそれぞれを生成することを含む、請求項10に記載の方法。
- 前記処理経路に関連する前記ターゲット方向および前記スピーカ設定情報に基づいて、少なくとも2つのパニングゲインを決定することは、前記処理経路に関連する前記ターゲット方向および前記スピーカ設定情報に関連する方向に基づいて、ベクトルベースの振幅パニングを適用することを含む、請求項9乃至11のいずれかに記載の方法。
- 前記方法は、前記複合パニングゲイン適用マルチチャネルオーディオ信号を処理することに基づいて、イマーシブオーディオ信号を生成することを含む、請求項9乃至12のいずれかに記載の方法。
- 前記複合パニングゲイン適用マルチチャネルオーディオ信号を処理することに基づいて、前記イマーシブオーディオ信号を生成することは、
前記複合パニングゲイン適用マルチチャネルオーディオ信号の各チャネルについて、前記チャネルに関連するラウドスピーカに対する方向に関連する頭部関連伝達関数に基づいて、前記複合パニングゲイン適用マルチチャネルオーディオ信号を処理して、チャネルバイノーラルパニング処理オーディオ信号を生成することと、
全てのチャネルについて、前記チャネルバイノーラルパニング処理オーディオ信号を結合して、前記イマーシブオーディオ信号を生成することと、
を含む、請求項13に記載の方法。 - スピーカ設定情報を取得することは、
スピーカ設定情報を受信すること、
スピーカ設定情報を決定すること、および、
所定の、または、デフォルトのスピーカ設定情報を取得すること、
のいずれかを含む、請求項9乃至14のいずれかに記載の方法。 - 前記少なくとも2つの少なくとも部分的に相互にインコヒーレントなオーディオ信号は、相互にインコヒーレントなオーディオ信号である、請求項9乃至15のいずれかに記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB202116093 | 2021-11-09 | ||
GB2116093.2 | 2021-11-09 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023070650A true JP2023070650A (ja) | 2023-05-19 |
Family
ID=83902708
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022170339A Pending JP2023070650A (ja) | 2021-11-09 | 2022-10-25 | 音場の少なくとも一部の位置決めによる空間オーディオ再生 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230143857A1 (ja) |
EP (1) | EP4178231A1 (ja) |
JP (1) | JP2023070650A (ja) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2101657B (en) | 1981-02-13 | 1985-01-03 | Arnol Staggs | Miner bit |
KR101607334B1 (ko) * | 2010-03-12 | 2016-03-30 | 한국전자통신연구원 | 멀티 채널 오디오 디코딩 방법 및 멀티 채널 오디오 코덱 |
KR20170106063A (ko) * | 2016-03-11 | 2017-09-20 | 가우디오디오랩 주식회사 | 오디오 신호 처리 방법 및 장치 |
GB2571949A (en) * | 2018-03-13 | 2019-09-18 | Nokia Technologies Oy | Temporal spatial audio parameter smoothing |
-
2022
- 2022-10-21 EP EP22202957.1A patent/EP4178231A1/en active Pending
- 2022-10-25 JP JP2022170339A patent/JP2023070650A/ja active Pending
- 2022-11-01 US US17/978,683 patent/US20230143857A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4178231A1 (en) | 2023-05-10 |
US20230143857A1 (en) | 2023-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9918179B2 (en) | Methods and devices for reproducing surround audio signals | |
JP7183467B2 (ja) | 少なくとも一つのフィードバック遅延ネットワークを使ったマルチチャネル・オーディオに応答したバイノーラル・オーディオの生成 | |
JP7139409B2 (ja) | 少なくとも一つのフィードバック遅延ネットワークを使ったマルチチャネル・オーディオに応答したバイノーラル・オーディオの生成 | |
JP5285626B2 (ja) | 音声空間化及び環境シミュレーション | |
Hacihabiboglu et al. | Perceptual spatial audio recording, simulation, and rendering: An overview of spatial-audio techniques based on psychoacoustics | |
CN110326310B (zh) | 串扰消除的动态均衡 | |
US20120213375A1 (en) | Audio Spatialization and Environment Simulation | |
JP2023517720A (ja) | 残響のレンダリング | |
JP2022553913A (ja) | 空間オーディオ表現およびレンダリング | |
US20240089692A1 (en) | Spatial Audio Representation and Rendering | |
Liitola | Headphone sound externalization | |
EP4178231A1 (en) | Spatial audio reproduction by positioning at least part of a sound field | |
US20230179947A1 (en) | Adjustment of Reverberator Based on Source Directivity | |
WO2023213501A1 (en) | Apparatus, methods and computer programs for spatial rendering of reverberation | |
WO2023169819A2 (en) | Spatial audio rendering of reverberation | |
KR20190060464A (ko) | 오디오 신호 처리 방법 및 장치 | |
JP2023066418A (ja) | オブジェクトベースのオーディオ空間化器 | |
GB2616280A (en) | Spatial rendering of reverberation | |
JP2023066419A (ja) | オブジェクトベースのオーディオ空間化器 | |
Tsakostas et al. | Real-time spatial mixing using binaural processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230309 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230309 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240315 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240416 |