JP2022051974A - 情報処理装置および方法、並びにプログラム - Google Patents
情報処理装置および方法、並びにプログラム Download PDFInfo
- Publication number
- JP2022051974A JP2022051974A JP2019022615A JP2019022615A JP2022051974A JP 2022051974 A JP2022051974 A JP 2022051974A JP 2019022615 A JP2019022615 A JP 2019022615A JP 2019022615 A JP2019022615 A JP 2019022615A JP 2022051974 A JP2022051974 A JP 2022051974A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- event
- time interval
- unit
- amplitude
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000010365 information processing Effects 0.000 title claims abstract description 35
- 238000001514 detection method Methods 0.000 claims abstract description 62
- 230000005236 sound signal Effects 0.000 claims abstract description 51
- 238000012545 processing Methods 0.000 claims description 48
- 230000008569 process Effects 0.000 claims description 40
- 230000003595 spectral effect Effects 0.000 claims description 8
- 238000003672 processing method Methods 0.000 claims description 3
- 238000012800 visualization Methods 0.000 abstract description 70
- 102100040862 Dual specificity protein kinase CLK1 Human genes 0.000 description 56
- 101000749294 Homo sapiens Dual specificity protein kinase CLK1 Proteins 0.000 description 56
- 102100040844 Dual specificity protein kinase CLK2 Human genes 0.000 description 50
- 101000749291 Homo sapiens Dual specificity protein kinase CLK2 Proteins 0.000 description 50
- 238000005516 engineering process Methods 0.000 description 27
- 230000008859 change Effects 0.000 description 26
- 238000013507 mapping Methods 0.000 description 21
- 238000006243 chemical reaction Methods 0.000 description 18
- 230000001360 synchronised effect Effects 0.000 description 13
- 230000006870 function Effects 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 7
- 230000009466 transformation Effects 0.000 description 7
- 230000007704 transition Effects 0.000 description 7
- 238000012937 correction Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 230000004807 localization Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000001131 transforming effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000007562 laser obscuration time method Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L21/14—Transforming into visible information by displaying frequency domain information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/04—Generating or distributing clock signals or signals derived directly therefrom
- G06F1/08—Clock generators with changeable or programmable clock frequency
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01H—MEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
- G01H3/00—Measuring characteristics of vibrations by using a detector in a fluid
- G01H3/04—Frequency
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
- H04R29/004—Monitoring arrangements; Testing arrangements for microphones
- H04R29/005—Microphone arrays
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
- H04R29/008—Visual indication of individual signal levels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/40—Visual indication of stereophonic sound image
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Otolaryngology (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
【課題】より簡単に音場を可視化する。【解決手段】情報処理装置は、空間内の複数の観測位置を示す位置情報と、複数の観測位置のそれぞれで観測された音のオーディオ信号のそれぞれとに基づいて、第1の時間間隔で、空間内の複数の位置における音の振幅または位相を算出する算出部と、イベントを検出するイベント検出部と、イベントが検出された場合、第1の時間間隔よりも短い第2の時間間隔で振幅または位相が算出されるように制御する調整部とを備える。本技術は音場可視化システムに適用することができる。【選択図】図1
Description
本技術は、情報処理装置および方法、並びにプログラムに関し、特により簡単に音場を可視化することができるようにした情報処理装置および方法、並びにプログラムに関する。
近年、波面合成やイマーシブオーディオといった音場制御に関する技術が一般的になってきている。このような技術を利用すれば、バーチャル音源や音場を制御することで、一般的なステレオオーディオやマルチチャネルオーディオよりも圧倒的な没入感を得ることができる。
しかし、実際に形成された音場の正確性や品質を検証することは容易ではない。これは、人の聴感による評価では、定位感の評価が不安定であったり前後の定位を間違ったりするなど、信頼性が十分でないからであり、音場の正確性や品質を客観的に評価することが重要である。
音場の正確性や品質を客観的に評価するためには、実際に形成された音場を計測して可視化することが有効である。
音場の可視化に関する技術として、例えばレーザ光発生装置、レンズ、ビームスプリッタ、および光検出装置を組み合わせ、音場の密度変化に応じて干渉光の明暗差が変化することを利用して、音場の密度を可視化および計測する音場可視化計測装置が提案されている(例えば、特許文献1参照)。
また、例えば探査対象空間を撮像する撮像装置、マイクロホンアレイ、およびマーカを用いてマイクロホンアレイの各マイクロホン位置を推定し、それらのマイクロホン位置で観測された音圧データから音源位置を演算する音源探査システムも提案されている(例えば、特許文献2参照)。この技術では、さらに演算により得られた音源位置を可視化した画像と、探査対象空間の撮像画像とが重ね合わせられて表示装置に表示される。
しかしながら上述した技術では、用途や環境によらず、音場を可視化することは容易ではなかった。
例えば特許文献1に記載の技術では、一般的には入手が困難であるレーザ光発生装置や光検出装置を使用する必要があり、特殊な用途や環境でしか利用することができない。
また、特許文献1に記載の技術では、正確に音場を計測するためには、レーザ光を射出および受光するときにレーザ光が他の光源の光や観測対象以外の雑音と干渉しないように注意する必要があり、使用環境が限定されてしまう。
さらに、特許文献2に記載の技術では、音源位置は複数のマイクロホンへと到達する音の位相差(音源定位情報)に基づいて求められており、この音源位置は、マイクロホンから見た時の方向ごとの音圧ヒストグラムに相当する。
そのため、特許文献2に記載の技術では、実際にマイクロホンが配置された地点を通過する音の波面を表示しているわけではなく、音の位相などの正確な情報を得ることはできない。
本技術は、このような状況に鑑みてなされたものであり、より簡単に音場を可視化することができるようにするものである。
本技術の一側面の情報処理装置は、空間内の複数の観測位置を示す位置情報と、前記複数の前記観測位置のそれぞれで観測された音のオーディオ信号のそれぞれとに基づいて、第1の時間間隔で、前記空間内の複数の位置における音の振幅または位相を算出する算出部と、イベントを検出するイベント検出部と、前記イベントが検出された場合、前記第1の時間間隔よりも短い第2の時間間隔で前記振幅または前記位相が算出されるように制御する調整部とを備える。
本技術の一側面の情報処理方法またはプログラムは、空間内の複数の観測位置を示す位置情報と、前記複数の前記観測位置のそれぞれで観測された音のオーディオ信号のそれぞれとに基づいて、第1の時間間隔で、前記空間内の複数の位置における音の振幅または位相を算出し、イベントを検出し、前記イベントが検出された場合、前記第1の時間間隔よりも短い第2の時間間隔で前記振幅または前記位相が算出されるように制御するステップを含む。
本技術の一側面においては、空間内の複数の観測位置を示す位置情報と、前記複数の前記観測位置のそれぞれで観測された音のオーディオ信号のそれぞれとに基づいて、第1の時間間隔で、前記空間内の複数の位置における音の振幅または位相が算出され、イベントが検出され、前記イベントが検出された場合、前記第1の時間間隔よりも短い第2の時間間隔で前記振幅または前記位相が算出されるように制御される。
以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術について〉
本技術は、より簡単に空間内に形成された音の波面(音場)、すなわち空間内の音圧分布を可視化する手法に関するものである。
〈本技術について〉
本技術は、より簡単に空間内に形成された音の波面(音場)、すなわち空間内の音圧分布を可視化する手法に関するものである。
本技術では、観測された音のオーディオ信号と、それらのオーディオ信号の観測位置の情報、つまり収音が行われたマイクロホンの位置情報とが用いられて、空間内の音の波面が描画される。このような本技術は、例えばリアルタイムアプリケーションなどに用いることができる。
また、本技術は、特殊な機器を必要とせず、手軽に使用できるマイクロホン、オーディオインターフェース、パーソナルコンピュータなどにより実現可能である。
さらに、本技術は、以下のような特徴を有している。
すなわち、本技術では、空間内における音の音圧分布は、マイクロホンで観測された音のオーディオ信号のモード領域(空間周波数領域)の係数、つまり円筒調和係数や球面調和係数等の調和係数を計算することで算出される。
調和係数を用いることで、マイクロホンが設置されていない位置を含む、空間内の任意の位置における音圧を算出することが可能である。このような音圧の算出は、音の観測位置間の音圧を単純に補間するものとは異なり、調和係数を用いて実際に伝搬する物理的な音の波面を計算していることになる。なお、ここでは調和係数に基づいて音圧分布を計算する例について説明するが、音圧分布は、その他、スパースコーディングや圧縮センシングなどにより求められてもよい。例えばスパースコーディングや圧縮センシングにおいても、空間周波数領域の信号から音圧分布が算出される。
また、例えば音は約340m/secの速度で伝搬するため、観測した音の波面(音圧分布)をそのまま表示することは困難である。すなわち、音の伝搬速度に合わせて音の波面の表示を更新しても、その表示を見るユーザが瞬時に正しく空間内の音圧分布等を把握することは難しい。
そこで本技術では、音圧分布、すなわち空間内における音の波面の様子の描画の時間軸を動的に伸縮させることにより、必要なタイミングにおける音の波面の様子を詳細に観察できるようにした。
さらに、本技術では、観測対象となる音場の単一の周波数帯域、または任意の複数の周波数帯域を1つにまとめて得られる広い周波数帯域について、音の波面を描画することが可能である。また、本技術では、互いに異なる複数の周波数帯域について同時に波面(音圧分布)を描画することもできる。
以上のような本技術は、一般的な波面表示手法と比較して、以下のような利点を有する。
すなわち、本技術では、調和係数を計算により求め、得られた調和係数に基づいて音圧分布を算出することで、任意の位置における正確な音の音圧、すなわち音の振幅および位相を可視化することが可能である。
また、音の波面の描画時における時間軸の伸縮によって、瞬時に起こる音の変化を可視化することができる。本技術では、一般的な音源定位に基づく波面表示手法とは異なり、音の振幅や位相を可視化することができるため、時間軸の伸縮によるスロー表示は大きな利点となる。
しかも本技術では、レーザ光発生装置や光検出装置などの高価で特殊な装置は必要なく、一般的に市販されているマイクロホンを用いて簡単に音の波面を可視化することができ、使用環境や用途が限定されることもない。
さらに、本技術では、ビームフォーミングを用いた手法のように遠方の音圧分布を表示するのではなく、マイクロホンが設置された位置の音を取得するため、その場における実際の音の波面(音圧分)を描画することができる。
したがって、例えば算出された音圧分布を、AR(Augmented Reality)システムやVR(Virtual Reality)システムのコンテンツに重畳したり、音情報として使用したりするなど様々な応用が可能となる。
〈音場可視化システムの構成例〉
続いて、以上において説明した本技術を音場可視化システムに適用した例について、より具体的に説明する。
続いて、以上において説明した本技術を音場可視化システムに適用した例について、より具体的に説明する。
図1は、本技術を適用した音場可視化システムの一実施の形態の構成例を示す図である。
図1に示す音場可視化システムは、音場可視化装置11、マイクロホンアレイ12、およびディスプレイデバイス13を有している。
この例では、音場可視化システムは、可視化対象の空間(以下、対象空間とも称する)に形成された音場がディスプレイデバイス13上で可視化される。
すなわち、この例では、例えば複数のマイクロホンを並べて得られた、環状マイクロホンアレイや球状マイクロホンアレイなどからなるマイクロホンアレイ12が対象空間に配置されている。マイクロホンアレイ12は、周囲の音を収音することで対象空間に形成された音場を収録し、その結果得られたマルチチャネルのオーディオ信号を音場可視化装置11に供給する。
音場可視化装置11は、マイクロホンアレイ12が収音することで得られたオーディオ信号を入力とし、対象空間に形成された音の波面(音場)を示す表示用画像、より詳細には表示用画像の画像データ(映像データ)を出力する情報処理装置である。
音場可視化装置11は、マイクロホンアレイ12から供給されたオーディオ信号に基づいて表示用画像を生成し、得られた表示用画像をディスプレイデバイス13に供給する。
なお、表示用画像は静止画像であってもよいし、動画像であってもよいが、以下では表示用画像が動画像であるものとして説明を続ける。
ディスプレイデバイス13は、音場可視化装置11から供給された表示用画像を表示することで、対象空間の音場を可視化する。
なお、ここでは対象空間の複数の位置(観測位置)における音を観測するために、それらの複数の位置に配置されたマイクロホンからなるマイクロホンアレイ12を用いる例について説明する。しかし、各観測位置、つまり各マイクロホンの配置位置を示す位置情報を得ることができれば、マイクロホンアレイ12に限らず、複数のマイクロホンを用いるようにしてもよい。
〈音場可視化装置の構成例〉
また、図1に示した音場可視化装置11は、例えば図2に示すように構成される。
また、図1に示した音場可視化装置11は、例えば図2に示すように構成される。
音場可視化装置11は、ユーザ制御部21、時間軸マッピング部22、および描画部23を有している。
ユーザ制御部21は、例えばマウスやキーボード、タッチパネル、スイッチ、ボタンなどからなり、ユーザが音場可視化装置11全体の動作を制御するためのインターフェースとして機能する。
ユーザ制御部21は、ユーザ制御信号部31およびユーザ定義パラメータ部32を有している。
ユーザ制御信号部31は、ユーザの操作に応じた信号を時間軸マッピング部22に供給し、時間軸マッピング部22での所定のイベントの検出を制御する。
例えば音場可視化装置11では、特定音の再生や発生など、対象空間で観測される音に関する事象がイベントとして検出され、イベントが検出されると、特定音の音圧分布(音場)をよく観察できるように表示用画像の表示(描画)の時間軸が伸縮される。
換言すれば、対象空間で特定音が検出されると、描画の時間軸を伸縮する処理が時間軸マッピング処理として行われる。
例えばユーザ制御信号部31は、ユーザの操作等に応じて、検出対象とする特定音の種別(タイプ)、すなわち検出対象のイベントを変更するために、その特定音の検出に用いる検出器の切り替えを指示する制御信号を時間軸マッピング部22に供給する。
また、ユーザ制御信号部31が、ユーザの操作等に応じて、特定音の検出タイミングを指示する制御信号を時間軸マッピング部22に供給するようにしてもよい。
具体的には、例えばユーザがユーザ制御部21に対する操作を行うことで、所定のGUI(Graphical User Interface)上のボタンを操作し、特定音(イベント)の検出タイミングを指示したとする。換言すれば、特定音が発生した旨の指示入力が行われたとする。
この場合、ユーザ制御信号部31は、ユーザの操作に応じて特定音の検出タイミングを指示する制御信号、すなわち特定音が発生した旨の制御信号を時間軸マッピング部22に供給する。すると時間軸マッピング部22は、制御信号が供給されたタイミングをイベントが検出されたタイミングであるとする。換言すれば、ユーザからの指示があった場合に、イベントが検出されたとされる。その他、数秒などの所定の時間間隔やランダムな時間間隔などの定期的な、または不定期のタイミングや、ユーザにより指定された時刻などの指定されたタイミングとなったときにイベントが検出されたとされてもよい。
ユーザ定義パラメータ部32は、ユーザの操作等に応じて、算出する音圧の周波数帯域や調和係数の次数を示す設定情報を描画部23に供給する。
例えば表示用画像において表示対象とする音の周波数帯域を設定情報により指定すれば、表示対象としない周波数帯域、つまり不要な周波数帯域について音圧分布を求める演算が行われないようにすることができ、処理負荷を低減させることができる。
また、例えば、どの次数まで音圧分布を求める演算を行うかを設定情報により指定することでも処理負荷を低減させることができる。
例えば、より高い次数の調和係数まで演算を行えば、より正確な音圧分布を算出することができるが、その分だけ計算量が多くなり、結果として処理負荷が高くなる。
なお、演算を行う調和係数の次数は、ユーザが指定するようにしてもよいし、音場可視化装置11の処理能力や処理負荷に応じて、音場可視化装置11を制御するソフトウェア側で自動的に決定するようにしてもよい。
時間軸マッピング部22は、ユーザ制御部21から供給された制御信号や、描画部23から供給されたオーディオ信号等に基づいて時間軸マッピング処理を行う。
時間軸マッピング部22は、イベント検出部33およびクロック調整部34を有している。
イベント検出部33は、ユーザ制御信号部31から供給された制御信号や、描画部23から供給されたオーディオ信号等に基づいてイベントを検出し、その検出結果をクロック調整部34に供給する。
クロック調整部34は、常時、音圧分布の算出のタイミングを示すクロック信号CLK1と、表示用画像の描画のタイミングを示すクロック信号CLK2とを生成し、クロック信号CLK1およびクロック信号CLK2を描画部23に供給する。これらのクロック信号CLK1およびクロック信号CLK2は、クロック周波数、つまりクロック周期が可変である可変クロックとなっている。
クロック調整部34は、イベント検出部33から、イベントが検出された旨の検出結果が供給されたタイミングで時間軸マッピング処理を開始する。
クロック調整部34は、時間軸マッピング処理として、クロック信号CLK1とクロック信号CLK2のクロック周波数(周期)を各タイミングにおいて適切に変更する処理を行う。
例えばクロック信号CLK1とクロック信号CLK2の間で相対的にクロック周期を変更することは、表示用画像の描画の時間軸を伸縮させる、つまり描画タイミングを時間方向に伸縮させて表示用画像の再生速度を変化させることであるといえる。
描画部23は、クロック調整部34から供給されたクロック信号CLK1およびクロック信号CLK2に従って音圧分布の算出と、音圧分布のレンダリングとを行う。
すなわち、描画部23は、マイクロホンアレイ12から供給されたマルチチャネルのオーディオ信号と、ユーザ定義パラメータ部32から供給された設定情報とに基づいて音圧分布を算出し、表示用画像を生成する。
描画部23は算出部35、FIFO(First In First Out)バッファ36、および画像処理部37を有している。
算出部35は、マイクロホンアレイ12で収音することで得られたマルチチャネルのオーディオ信号と、マイクロホンアレイ12を構成する各マイクロホンの配置位置を示すマイク配置情報とに基づいて、対象空間内における音圧分布を示す音圧分布情報を算出する。
音圧分布情報は、対象空間内の各位置における音圧を示す情報であるから、この音圧分布情報は、対象空間内の各位置における音の振幅および位相を示す情報であるともいうことができる。
なお、以下では、音圧分布情報に基づいて対象空間内における音圧分布、つまり対象空間内における音の波面を示す表示用画像が生成される例について説明する。
しかし、表示用画像は、対象空間内の各位置における音の振幅を示す画像であってもよいし、対象空間内の各位置における音の位相を示す画像であってもよい。すなわち、表示用画像は、対象空間内の各位置における音の振幅と位相の少なくとも何れか一方を示す画像とすることができる。また、算出部35で算出でされる音圧分布情報も対象空間内の各位置における音の振幅と位相のうちの少なくとも何れか一方を示す情報であればよい。
算出部35は、空間周波数領域変換部41および音圧分布算出部42を有している。
空間周波数領域変換部41には、マイクロホンアレイ12で収音することで得られたマルチチャネルのオーディオ信号と、マイクロホンアレイ12を構成する各マイクロホンの配置位置を示すマイク配置情報とが供給される。
空間周波数領域変換部41は、供給されたオーディオ信号とマイク配置情報に基づいて、時間信号であるオーディオ信号を、空間周波数領域の信号(空間周波数領域信号)である調和係数に変換し、音圧分布算出部42に供給する。
また、空間周波数領域変換部41は、時間信号であるオーディオ信号や、そのオーディオ信号から得られた時間周波数領域の信号、調和係数を適宜、イベント検出部33に供給する。
音圧分布算出部42は、クロック調整部34から供給されたクロック信号CLK1に従って動作する。
すなわち、音圧分布算出部42は、ユーザ定義パラメータ部32から供給された設定情報と、空間周波数領域変換部41から供給された調和係数とに基づいて対象空間の各位置における音圧を求めることで、対象空間における音の音圧分布を算出する。
また、音圧分布算出部42は、対象空間内の音圧分布を示す音圧分布情報を、FIFOバッファ36に供給して一時的に保持(記録)させる。
例えば音圧分布算出部42では、クロック信号CLK1が立ち上がるタイミングなど、クロック信号CLK1により示されるタイミングで、ある1つの時刻(タイミング)における音圧分布情報が生成され、FIFOバッファ36に供給される。
FIFOバッファ36は、音圧分布算出部42から供給された音圧分布情報を一時的に保持し、保持している音圧分布情報を画像処理部37に供給する。
また、FIFOバッファ36は、自身(バッファ)の音圧分布情報の記録状況(保持状況)をクロック調整部34に供給する。この記録状況は、時間軸マッピング処理に用いられる。
画像処理部37は、クロック調整部34から供給されたクロック信号CLK2に従って動作し、音圧分布情報のディスプレイデバイス13へのレンダリングを行う。
すなわち、画像処理部37はクロック信号CLK2が立ち上がるタイミングなど、クロック信号CLK2により示されるタイミングで、FIFOバッファ36から1時刻分の音圧分布情報を読み出し、その音圧分布情報に基づいて表示用画像を生成する。そして画像処理部37は、生成した表示用画像を後段のディスプレイデバイス13に出力し、表示させる。
ここで、表示用画像は、ある1つの時刻における対象空間内の音の音圧分布、すなわち対象空間内の各位置における音の振幅と位相を視覚的に図示する画像である。換言すれば、表示用画像は1時刻分の音の波面の様子を視覚的に表す画像である。
より詳細には、表示用画像は対象空間内の音の波面の様子の時間変化を示す動画像であり、画像処理部37からは、クロック信号CLK2により示されるタイミングで、表示用画像を構成する1フレーム分の画像が出力される。
このとき、1フレーム分の画像が、ある1つの時刻における対象空間内の音の波面を示す画像となっている。したがって、動画像である表示用画像のフレームレートは、画像処理部37での動作を制御するクロック信号CLK2によって定まることになる。
このように音場可視化装置11では、FIFOバッファ36の導入と、クロック信号CLK1およびクロック信号CLK2のクロック周波数の変更制御とによって、表示用画像の描画の時間軸の伸縮制御が実現可能とされている。
〈音場可視化装置の各部の処理について〉
次に、時間軸マッピング部22で行われる時間軸マッピング処理と、描画部23で行われる音圧分布の算出および表示用画像の描画制御とについて、さらに詳細に説明する。
次に、時間軸マッピング部22で行われる時間軸マッピング処理と、描画部23で行われる音圧分布の算出および表示用画像の描画制御とについて、さらに詳細に説明する。
まず、空間周波数領域変換部41での調和係数の算出について説明する。
上述のように空間周波数領域変換部41は、マイクロホンアレイ12で観測された音の時間信号であるオーディオ信号を、音場の空間周波数領域信号である調和係数に変換するブロックである。
空間周波数領域変換部41に供給されたマルチチャネルのオーディオ信号は、まずDFT(Discrete Fourier Transform)により時間周波数信号へと変換される。
続いて、時間周波数信号に対して、SHT((Spherical Harmonics Transform)球面調和変換)またはCHT((Cylindrical Harmonics Transform)円筒調和変換)が行われ、その結果として球面調和係数、または円筒調和係数が得られる。
すなわち、SHTまたはCHTによって、時間周波数信号が空間周波数領域信号である調和係数に変換される。
なお、SHTについては「B. Rafaely, “The Spherical-Shell Microphone Array”, IEEE Transactions on Audio, Speech, and Language Processing, 2008.」などに詳細に記載されている。
例えばマイクロホンアレイ12を構成する各マイクロホンが環状または球状に配置されている場合、SHTの変換式は次式(1)に示すようになる。
なお、式(1)においてamn(k)は球面調和係数を示しており、Y*m
n(θq,φq)は球面調和基底を表している。
特に、mおよびnは球面調和係数amn(k)の次数を示している。また、kは信号の波数を示しており、周波数をfとし、音速をcsとして波数k=2πf/csである。
さらに、θqおよびφqはマイクロホンアレイ12を構成する合計Q個のマイクロホンのうちのq番目のマイクロホンの位置を示す仰角および方位角を示しており、*は複素共役を示している。
また、式(1)においてbn(kr)は球ベッセル関数などの動径関数を示しており、rはマイクロホンアレイ12の半径を示している。
したがって、ここではマイクロホンアレイ12を構成するq番目のマイクロホンの配置位置は、マイクロホンアレイ12の中心位置を原点とする球座標系の座標(r,θq,φq)によって表される。つまり、座標(r,θq,φq)により示される位置が音の観測位置となる。
さらに、式(1)においてpk(r,θq,φq)は、球座標系の座標(r,θq,φq)により示されるマイクロホンアレイ12のq番目のマイクロホンの配置位置で観測された音、すなわちq番目のマイクロホンにより収音された音の音圧を示している。
例えば、マイクロホンアレイ12がQ個のマイクロホンから構成されるとする。そのような場合、任意のマイクロホン配置、すなわち任意の観測位置で収音された音圧(時間周波数信号)を、各次数nおよび次数mの球面調和係数amn(k)からなるベクトルakに変換する式は次式(2)となる。
なお、式(2)においてpkは以下の式(3)で表されるように、マイクロホンアレイ12を構成する各マイクロホンごとに得られた音圧pk(rq,θq,φq)(但し、0≦q≦L)からなる行列を示している。
また、式(2)においてBkは以下の式(4)で表されるように、次数nおよび次数mの組み合わせごとの球ベッセル関数bn(krq)と球面調和関数Ym
n(θq,φq)との積を要素とする変換行列であり、B+
kは変換行列Bkの一般化逆行列を示している。
上述の式(2)で得られる球面調和係数amn(k)の正確性は、式(4)に示した変換行列Bkの条件数により決定される。
より正確な球面調和係数amn(k)を得るためには、条件数のよい変換行列Bk、すなわち条件数の小さい変換行列Bkを用いて式(2)の計算を行うことが重要である。このことは、マイクロホンアレイ12を構成するマイクロホンの位置を適切に決定しておくことに相当する。
以上のように空間周波数領域変換部41において調和係数が得られると、音圧分布算出部42では、調和係数に基づいて、対象空間の任意の位置における音圧が求められる。
例えば調和係数として、上述の式(2)により球面調和係数amn(k)が得られた場合には、次式(5)を計算することで、球座標系の座標(rd,θd,φd)により示される任意の位置の音圧pk(rd,θd,φd)を得ることができる。
この例では、どの波数kについて音圧pk(rd,θd,φd)を求めるかを示す情報、すなわち波数kを特定するための周波数fを示す情報と、式(5)において、どの次数nまで計算を行うかを示す情報、すなわち次数nの最大次数Nを示す情報とが設定情報とされる。そして、そのような設定情報がユーザ定義パラメータ部32から音圧分布算出部42に供給される。
このように、複数の各座標(rd,θd,φd)の位置について式(5)を計算することで、マイクロホンの配置位置以外の位置、つまり音圧を観測していない位置についても音圧pk(rd,θd,φd)を求めることができる。
したがって、例えば音場が形成される対象空間を任意のサイズのグリッドに区切り、それらの各グリッド内の音圧を式(5)により求めれば、対象空間全体の音圧の分布を示す音圧分布情報を得ることができる。換言すれば、対象空間全体の音圧分布が求められたことになる。
音圧分布算出部42で得られた音圧分布情報は、FIFOバッファ36に供給されて保持される。そして、画像処理部37は、FIFOバッファ36から音圧分布情報を読み出して表示用画像を生成する。
これにより、例えば図3に示す表示用画像が得られる。
図3に示す例では、ディスプレイデバイス13に表示用画像P11が表示される。
なお、この例ではマイクロホンアレイ12の各マイクロホンは、対象空間の床と平行な2次元平面上に並べられて配置されており、コンテンツ等の音が対象空間の横方向にマイクロホンアレイ12に向かって放射されたものとする。
表示用画像P11では、対象空間全体における音場の様子、つまり音の波面(音波)の様子が表示されており、特に、ここでは表示用画像P11は対象空間を天井側から俯瞰したときの様子を示す画像となっている。
また、表示用画像P11では、音の波面(音波)を表す曲線の各位置における高さは、それらの各位置における音の振幅を表しており、各位置における濃淡はそれらの位置における音の位相を表している。すなわち、表示用画像P11では、各位置の振幅と位相によって、対象空間内に形成された音場(音圧分布)が可視化されている。
表示用画像P11に示される各位置の振幅と位相とから、対象空間の天井側から出力された音の波面の様子が正確に再現されていることが分かる。このような表示用画像P11を表示すれば、ユーザは音の直進性や反射についても鮮明に観察することができる。
音場可視化システムでは、リアルタイムで表示用画像をディスプレイデバイス13に表示するようにしてもよいし、オーディオ信号や調和係数を収録データとして保存しておき、後からオフラインで表示用画像を生成して表示させるようにしてもよい。
例えば表示用画像をオフラインで表示させる場合、設定情報により指定する周波数や調和係数の次数を変更して、設定情報に応じた周波数帯域や次数の表示用画像を表示させることも可能である。
この場合、画像処理部37は表示用画像において複数の周波数(波数)ごとに音圧分布を表示させたり、周波数ごとの表示用画像を個別にまたは同時に表示させたり、複数の周波数からなる周波数帯域について表示用画像を表示させたりすることができる。
なお、表示用画像をリアルタイムで表示する場合であっても、設定情報により周波数や調和係数の次数を変更することもできるし、複数の周波数(波数)ごと等の音圧分布を表示させることは可能である。しかし、リアルタイムでは、オフライン時のように設定情報を変更しながら同じ時刻の表示用画像を設定情報ごとに見比べたりすることは困難である。
以上のように、対象空間全体の音圧分布を示す音圧分布情報を求めることで、その音圧分布情報により示される対象空間全体の音圧分布、つまり音の波面の振幅と位相を示す表示用画像を生成し、対象空間全体に形成された音場を可視化することができる。
特に、音場可視化装置11では、対象空間のいくつかの位置で音を観測し、その観測結果として得られたオーディオ信号を調和係数に変換することで、実際に音を観測していない位置の音圧も正しく得ることができる。これにより、より簡単かつ正確に音場を可視化することができる。
しかも、収音により得られたオーディオ信号を調和係数に変換し、得られた調和係数から音圧分布を算出して表示用画像を生成する処理はリアルタイムで実行可能であるので、対象空間の音の波面の変化をリアルタイムで観察することができる。
続いて、時間軸マッピング部22で行われる時間軸マッピング処理について説明する。
対象空間では音は約340m/secの速さで伝搬する。そのため、ディスプレイデバイス13において、音の伝搬速度に合わせて表示用画像により対象空間の音の波面の変化を表示したとしても、瞬時に音圧分布が変化してしまうので、表示用画像はユーザにとって見辛いものとなってしまう。
そこで、音場可視化装置11では、時間軸マッピング処理により上述のクロック信号CLK1とクロック信号CLK2のクロック周期(クロック周波数)を調整することで、音圧の算出と、表示用画像の描画のタイミングが調整される。これにより、時間軸が伸縮された適切な表示用画像(映像)がユーザに対して提示されるようになる。
具体的には、通常状態では、例えば30frame/secなどの一定の時間間隔で、つまり一定のクロック周波数で調和係数から音圧分布が算出され、その音圧分布情報から得られた表示用画像がディスプレイデバイス13に出力される。この場合、例えばクロック信号CLK1とクロック信号CLK2は同じクロック周波数とされる。
その後、イベント検出部33で、ユーザが詳細に観察したいイベント(音響イベント)、つまり観察したい特定音が検出されると、クロック調整部34においてクロック信号CLK1とクロック信号CLK2の各クロック周波数が適切に調整される。
これにより、例えばイベントが検出されたタイミング以降における音の波面の変化がスロー表示されるなどされて、ユーザはイベント発生後における対象空間の音の波面をより詳細に観察できるようになる。
ここで、イベント検出とクロック信号の調整についてさらに詳細に説明する。
例えば一例として、イベント検出部33がユーザによる指定等を受けずに、自動的にイベントを検出する場合、イベント検出部33は、所定の種別の音として、信号レベルが一定レベルよりも大きい音(オーディオ信号)を検出する検出器を予め保持している。
また、イベント検出部33は保持している検出器を用いて、マイクロホンアレイ12で得られ、空間周波数領域変換部41から供給されるオーディオ信号を常時監視し、供給されたオーディオ信号の信号レベルが所定の閾値を超えたときにイベントが検出されたとする。すなわち、所定の閾値(所定レベル)よりも大きい信号レベルの音が観測されたときに、イベントが検出されたとされる。
なお、所定の信号レベル以下など、信号レベルが所定レベル範囲内である音が観測されたときにイベントが検出されたとされてもよい。また、ここではオーディオ信号の信号レベルに基づいてイベントを検出する例について説明した。しかし、その他、例えば所定の種別の音として、特定の周波数のレベルが所定の閾値(所定レベル)よりも大きい音(時間周波数信号)や、所定の閾値よりも小さい音など、所定範囲内の音が観測された場合にイベントが検出されたとしてもよい。
また、例えばオーディオ信号の各周波数帯域のレベル変動や、オーディオ信号の波形の急峻な変化、オーディオ信号のスペクトル形状などに基づいてイベントを検出するようにしてもよい。
具体的には、例えばスペクトル形状に基づいてイベントが検出される場合、イベント検出部33は予め定められた特定のスペクトル形状を検出する検出器を保持している。
そしてイベント検出部33は、保持している検出器と、空間周波数領域変換部41からの時間周波数信号とに基づいて、特定のスペクトル形状の音が観測されたとき、つまり特定のスペクトル形状の時間周波数信号が供給されたときにイベントが検出されたとする。
なお、イベントの検出に用いられる検出器は、一定レベル以上のオーディオ信号や、特定のスペクトル形状のオーディオ信号など、ユーザが描画したい、つまり観察したい音を検出できるものであれば、どのようなものであってもよい。例えば一般的に用いられている汎用の検出器をイベント検出に利用することができる。
その他、イベント検出部33が図示せぬカメラから供給された画像など、外部のブロック(装置)から供給された情報に基づいてイベントを検出してもよい。
具体的には、例えばイベント検出部33が対象空間を被写体とする画像に基づいて、対象空間が明るくなった、または暗くなったなどの空間の明るさの変化や、対象空間に人が入ってきたなどの人の有無をイベントとして検出するようにしてもよい。
また、1または複数の検出器がイベント検出部33に保持されているようにしてもよい。
例えばイベント検出部33に複数のイベントごとに検出器が保持されている場合、ユーザはユーザ制御部21を操作することで、所望のイベントの検出を指示することができる。換言すれば、ユーザはイベント検出に用いる検出器の切り替えを指示することができる。
そのような場合、イベント検出部33は、予め保持している複数の検出器のうち、ユーザの操作に応じてユーザ制御信号部31から供給された制御信号により示される検出器を用いて、イベントの検出を行う。
その他、ユーザがユーザ制御部21を操作して、イベントの検出タイミングを指示するようにしてもよい。そのような場合、ユーザ制御信号部31は、ユーザの操作に応じた制御信号をイベント検出部33に供給する。イベント検出部33は、ユーザ制御信号部31から制御信号が供給されると、イベントが検出されたとして、イベントが検出された旨の検出結果をクロック調整部34に供給する。
次に、イベントの検出結果に応じて、クロック信号CLK1とクロック信号CLK2の各クロック周波数を調整する場合の具体的な例について説明する。
クロック調整部34では、例えば図4に示すようにしてクロック信号CLK1とクロック信号CLK2のクロック周波数が調整される。なお、図4において横方向は時間を示しており、特に図中、右方向が未来方向となっている。
図4では、矢印A11により示される部分には、クロック信号CLK1に従って音圧分布算出部42により生成された各時刻(タイミング)の音圧分布情報が示されている。
特に、矢印A11により示される部分では、1つの長方形が1つの時刻における音圧分布情報を表している。
音圧分布算出部42では、例えばクロック信号CLK1の1クロックのタイミング、つまりクロック信号CLK1が立ち上がるタイミングで1つの時刻の音圧分布情報が生成される。したがって、音圧分布情報を表す長方形の図中の横方向の幅が狭いほど、クロック信号CLK1のクロック周波数が高くなる(周期が短くなる)。
また、矢印A12により示される部分には、各時刻において、音圧分布算出部42から出力され、FIFOバッファ36に格納(保持)されている音圧分布情報が示されている。
特に、矢印A12により示される部分では、1つの長方形が1つの時刻における音圧分布情報を表している。また、矢印により結ばれている、矢印A11に示す部分の長方形と、矢印A12に示す部分の長方形とは、同じ時刻の音圧分布情報を表している。
矢印A12により示される部分では、音圧分布情報を表す長方形の図中の横方向の幅は、その音圧分布情報がFIFOバッファ36に保持されている期間を表している。
さらに、矢印A13により示される部分には、各時刻において、FIFOバッファ36から読み出された音圧分布情報に基づいて画像処理部37により生成された表示用画像が示されている。換言すれば、矢印A13により示される部分には、画像処理部37から出力され、ディスプレイデバイス13に表示された表示用画像が示されている。
特に、矢印A13により示される部分では、1つの長方形が1つの時刻の音圧分布情報から生成された表示用画像、より詳細には表示用画像の1つのフレームを表している。
また、矢印A13に示す部分に示される1つの表示用画像(フレーム)を表す長方形と矢印により結ばれている、矢印A12に示す部分の長方形は、その表示用画像の生成に用いられた音圧分布情報を表している。
矢印A13により示される部分では、1フレーム分の表示用画像を表す長方形の図中の横方向の幅は、その表示用画像のフレームの表示期間、換言すれば表示用画像のフレームレートを表している。
図4の例では、まず表示用画像の表示が指示されると、クロック信号CLK1とクロック信号CLK2の各クロック周波数により定まる表示用画像の再生状態、つまり時間軸の状態(ステート)が通常状態であるSyncステートとされる。
図4では期間T11がSyncステートの期間となっている。
Syncステートでは、クロック信号CLK1とクロック信号CLK2のクロック周波数が同じであり、それらのクロック信号CLK1とクロック信号CLK2が同期した状態とされる。
すなわち、クロック調整部34は、互いに同期した同じクロック周波数のクロック信号CLK1とクロック信号CLK2を、それぞれ音圧分布算出部42および画像処理部37に供給する。
したがって、期間T11では、一定の時間間隔で音圧分布情報が求められてFIFOバッファ36に保持され、その音圧分布情報から表示用画像が生成されてディスプレイデバイス13に描画(表示)される。つまり、音圧分布情報の算出と、表示用画像の表示(表示の更新)とが同じ時間間隔で行われる。
このような状態から、例えば矢印Q11に示すタイミングでイベントが検出されると、時間軸の状態は、SyncステートからSlow-Motionステートへと遷移する。Slow-Motionステートでは、表示用画像がスロー表示される。
図4では期間T12がSlow-Motionステートの期間となっている。
クロック調整部34は、イベント検出部33からイベントが検出された旨の検出結果が供給されると、時間軸の状態をSlow-Motionステートとする。
具体的には、クロック調整部34は、クロック信号CLK1のクロック周波数を、Syncステートにおける場合よりも高いクロック周波数に変更し、クロック信号CLK2のクロック周波数はSyncステートにおける場合と同じクロック周波数のままとする。
これにより、Slow-Motionステートでは、音圧分布情報の算出の時間間隔がSyncステートにおける場合よりも短くなるように、クロック調整部34によって、音圧分布算出部42による音圧分布情報の算出が制御されたことになる。
クロック信号CLK1のクロック周波数が高くなると、すなわちクロック信号CLK1のクロック周期が短くなると、音圧分布算出部42では、より高い時間分解能で音圧分布が算出されるようになる。
すなわち、より短い時間区間が対象とされて、それらの時間区間ごとに音圧分布情報が求められ、結果として時間方向により細かく音圧分布の分析が行われるようになる。
このようにして得られた音圧分布情報は、FIFOバッファ36を介して画像処理部37に供給され、画像処理部37では、Syncステートにおける場合と同じクロック周波数のクロック信号CLK2に従って表示用画像が生成される。
この場合、対象空間における音の観測に対して、観測により得られる音の波面の描画、つまり表示用画像による表示の時間軸が相対的に伸張されることになる。
具体的には、表示用画像により示される波面が実際に対象空間で観測された時間、つまり音圧分布情報の算出対象とされた期間は、クロック信号CLK1の1周期分の期間である。換言すれば、音圧分布情報は、クロック信号CLK1の1周期分の時間で更新される。
これに対して、表示用画像の1フレームの提示時間は、クロック信号CLK2の1周期分の期間である。つまり、表示用画像の表示は、クロック信号CLK2の1周期分の時間で更新される。
Slow-Motionステートでは、クロック信号CLK1の周期よりもクロック信号CLK2の周期が長いので、表示用画像の1フレームの提示時間は、その1フレームで表示される音の波面が実際に対象空間で観測された時間(期間)よりも長くなる。
換言すれば、Slow-Motionステートでは、音圧分布情報を算出する時間間隔よりも長い時間間隔で表示用画像の表示が更新されるように、クロック調整部34によって画像処理部37が制御される。
これにより、対象空間の音圧分布の時間変化、つまり音の波面の時間変化が実際の時間変化よりも遅く変化するように表示用画像が表示(再生)されることになる。
このような表示用画像の表示は、音の波面の時間変化をスロー表示(スロー再生)することであるといえる。
このように表示用画像をスロー表示することで、ディスプレイデバイス13上では、対象空間の音の波面が実際よりもゆっくりと変化するので、ユーザは音の波面や、その波面の時間変化を詳細に観察することができる。
Slow-Motionステートであるときに、例えば矢印Q12に示すタイミングでイベントが終了すると、時間軸の状態はSlow-MotionステートからTime-Lapseステートへと遷移する。
図4では期間T13がTime-Lapseステートの期間となっている。
なお、図4の例においては、音圧分布算出部42では矢印Q12に示すイベント終了のタイミングで直ちにTime-Lapseステートへと遷移するが、画像処理部37では、Slow-Motionステートの時に得られた音圧分布情報に対応する表示用画像が表示し終えたタイミングでTime-Lapseステートへと遷移する。
換言すれば、クロック調整部34は、Slow-Motionステートの期間にクロック信号CLK1として出力したクロックの数だけ、Slow-Motionステートのクロック周波数でクロック信号CLK2を出力した後、Time-Lapseステートのクロック周波数のクロック信号CLK2の出力を開始する。
他のステートでの遷移時においても、Slow-MotionステートからTime-Lapseステートへの遷移時と同様のことが行われる。すなわち、時間軸の状態を遷移させるときには、時間軸の各状態においてクロック信号CLK1とクロック信号CLK2とで出力されるクロック数が同じとなるように、各クロック信号のクロック周波数の変更タイミングが制御される。
また、イベント終了のタイミングは、例えばユーザにより設定することが可能である。
具体的には、例えばユーザが予めユーザ制御部21を操作し、Slow-Motionステートで観察したいイベントの継続時間(長さ)を任意の長さに設定することができる。
この場合、イベント検出部33は、ユーザの操作に応じてユーザ制御信号部31から供給された制御信号に基づいて、イベントの継続時間(以下、イベント継続時間とも称する)をユーザにより指定された長さとする。そして、イベント検出部33は、イベントが検出されてから、定められたイベント継続時間が経過したタイミングで、イベントが終了した旨の検出結果をクロック調整部34へと供給する。
クロック調整部34は、イベント検出部33からイベントが終了した旨の検出結果が供給されると、時間軸の状態をSlow-MotionステートからTime-Lapseステートへと遷移させる。
その他、イベント検出部33が、空間周波数領域変換部41から供給されたオーディオ信号等に基づいて、イベントの終了を検出するようにしてもよい。
そのような場合、例えばイベント検出部33はイベントが検出された後、継続して検出器とオーディオ信号に基づいてイベントの検出を行い、イベントが検出されない状態となったタイミングでイベントが終了したとする。
Time-Lapseステートでは、クロック調整部34はクロック信号CLK1のクロック周波数をSyncステートにおける場合よりも低いクロック周波数に変更し、クロック信号CLK2のクロック周波数はSyncステートにおける場合と同じクロック周波数のままとする。
これにより、Time-Lapseステートでは音圧分布情報の算出の時間間隔が、Syncステートにおける場合よりも長くなるように、クロック調整部34によって、音圧分布算出部42による音圧分布情報の算出が制御されたことになる。
クロック信号CLK1のクロック周波数が低くなると、すなわちクロック信号CLK1のクロック周期が長くなると、音圧分布算出部42では、より低い時間分解能で音圧分布情報が算出されるようになる。
上述のSyncステートでは、音圧分布情報の算出のタイミングと、表示用画像、つまり音の波面の提示のタイミングとが同期した状態となっていた。
これが、続くSlow-Motionステートでは、表示用画像の提示タイミングは、対応する音圧分布情報の算出のタイミングよりも遅いタイミングとされ、表示用画像の表示を更新するたびに、それらのタイミングのずれが大きくなっていく。
そのため、イベント期間の長さによっては、イベント終了のタイミングでは、現時点の対象空間の音の波面よりも大幅に前のタイミングの波面が表示された状態となってしまっている。
そこでTime-Lapseステートでは、クロック信号CLK1のクロック周波数が、クロック信号CLK2のクロック周波数よりも低くなるように制御することで、音圧分布情報の算出のタイミングと、表示用画像の提示タイミングとのずれが小さくなっていくようにされる。
そうすれば、次第に音圧分布情報の算出のタイミングと、表示用画像の提示タイミングとが同期した状態、つまりSyncステートと同じ状態に近づいていくことになる。
この場合、Slow-Motionステートにおける場合とは逆に、表示用画像上において、対象空間の音の波面の時間変化、つまり音圧分布の時間変化が実際の時間変化よりも速く変化するように表示用画像が表示(高速再生)されることになる。
ここで、Time-Lapseステートにおいて、最終的に音圧分布情報の算出のタイミングと、表示用画像の提示タイミングとが完全に同期した状態とすることができればよいが、クロック信号CLK1やクロック信号CLK2の時間分解能によってはバッファ不足が起きる可能性がある。すなわち、FIFOバッファ36で音圧分布情報のアンダーフローが生じる可能性がある。
図4では、Time-Lapseステートのままであると、矢印Q13に示すタイミングの直後にバッファ不足(アンダーフロー)が生じるので、ここでは矢印Q13に示すタイミングで、時間軸の状態はTime-LapseステートからSyncingステートへと遷移する。図4では期間T14がSyncingステートの期間となっている。
例えばクロック調整部34は、FIFOバッファ36の音圧分布情報の記録状況を参照して、Syncingステートへと遷移するタイミングを特定する。
Syncingステートでは、クロック調整部34は音圧分布情報の算出のタイミングと、表示用画像の提示タイミングとが同期した状態となるように、クロック信号CLK1のクロック周波数を変更する。特に、Syncingステートでは、クロック信号CLK1のクロック周期が、クロック信号CLK2のクロック周期よりも短くなるようにされる。
具体的にはSyncingステートでは、クロック調整部34はクロック信号CLK1のクロック周波数が、Slow-Motionステートにおける場合よりも低く、かつSyncステートにおける場合よりも高くなるように、クロック信号CLK1のクロック周波数を変更する。
これにより、Syncingステートでは音圧分布情報の算出の時間間隔が、Slow-Motionステートにおける場合よりも長く、かつSyncステートにおける場合よりも短くなるように、クロック調整部34によって、音圧分布算出部42による音圧分布情報の算出が制御されたことになる。
クロック調整部34は、音圧分布情報の算出のタイミングと、表示用画像の提示タイミングが同期したタイミング、すなわちクロック信号CLK1とクロック信号CLK2が同期したタイミングで、時間軸の状態をSyncingステートからSyncステートへと遷移させる。
具体的には、クロック調整部34はクロック信号CLK1とクロック信号CLK2のクロック周波数を同じ周波数とする。図4では期間T15がSyncステートの期間となっている。
このようにして再びSyncステートとなると、クロック調整部34は新たにイベントが検出されるまで、継続してSyncステートが維持された状態とし、新たにイベントが検出されると、時間軸の状態をSyncステートからSlow-Motionステートへと遷移させる。したがって、期間T15は、新たなイベント検出の待機状態の期間となっている。
なお、ここではTime-LapseステートからSyncingステートを経てSyncステートに戻る例について説明した。しかし、Time-Lapseステートでバッファ不足が生じる前にクロック信号CLK1とクロック信号CLK2を同期させることができる場合には、Time-LapseステートからSyncステートに遷移させるようにしてもよい。
また、例えばSlow-Motionステートにおいて、音圧分布情報を保持するFIFOバッファ36でオーバーフローが生じる可能性もある。そのような場合、クロック調整部34は、オーバーフローが生じる前のタイミングで、クロック信号CLK2のクロック周波数がSlow-Motionステートにおける場合よりも高くなるように、クロック信号CLK2のクロック周波数を変更するなどしてもよい。
さらに、ここでは説明を分かり易くするため、表示用画像の描画のためのクロック信号CLK2は常に同じクロック周波数とし、音圧分布情報の算出のためのクロック信号CLK1のクロック周波数のみを動的に変化させる例について説明した。
しかし、クロック信号CLK2のクロック周波数を動的に変化させることも可能であり、時間軸マッピング処理では、クロック信号CLK1とクロック信号CLK2の少なくとも何れか一方のクロック周波数が動的に変更されるようにすればよい。
したがって、例えば音圧分布算出部42における処理負荷が高い場合には、表示用画像の描画のためのクロック信号CLK2や、音圧分布情報の算出のためのクロック信号CLK1のクロック周波数を低くし、音場可視化システムの安定化を図るようにしてもよい。
また、例えば表示用画像に対して時間分解能が高い描画が求められるシーンでは、クロック信号CLK1とクロック信号CLK2の両方のクロック周波数を高くするようにしてもよい。
〈音場可視化処理の説明〉
ここで、音場可視化システムの動作について説明する。なお、ここではリアルタイムで対象空間の音の波面を表示用画像として表示させる例について説明する。
ここで、音場可視化システムの動作について説明する。なお、ここではリアルタイムで対象空間の音の波面を表示用画像として表示させる例について説明する。
例えば対象空間においてコンテンツの音が再生されるなど、可視化したい音場が形成される前のタイミングで、その音場の可視化、つまり表示用画像の表示が指示されると、音場可視化システムは音場可視化処理を開始する。以下、図5のフローチャートを参照して、音場可視化システムによる音場可視化処理について説明する。
ステップS11においてマイクロホンアレイ12は、対象空間における音を収音し、その結果得られたマルチチャネルのオーディオ信号を空間周波数領域変換部41に供給する。
ステップS12において空間周波数領域変換部41は、供給されたマイク配置情報に基づいて、マイクロホンアレイ12から供給されたマルチチャネルのオーディオ信号を調和係数に変換し、音圧分布算出部42に供給する。
例えば空間周波数領域変換部41は、マルチチャネルのオーディオ信号に対してDFTを行うとともに、DFTにより得られた時間周波数信号に対してSHTまたはCHTを行い、調和係数を算出する。例えば空間周波数領域変換部41は、SHTを行う場合には上述した式(2)を計算することで球面調和係数を求める。
空間周波数領域変換部41は、得られた調和係数を音圧分布算出部42に供給するとともに、マイクロホンアレイ12から供給されたオーディオ信号、DFTで得られた時間周波数信号、または調和係数をイベント検出部33に供給する。
ステップS13において音圧分布算出部42は、ユーザ定義パラメータ部32から供給された設定情報と、空間周波数領域変換部41から供給された調和係数とに基づいて対象空間の各位置における音圧を算出することで、音圧分布情報を生成する。
例えば音圧分布算出部42は、クロック調整部34から供給されるクロック信号CLK1が立ち上がるタイミングで、設定情報により定まる波数および次数について式(5)を計算し、その結果得られた1時刻分の音圧分布情報をFIFOバッファ36に供給する。
ステップS14において画像処理部37は、クロック調整部34から供給されるクロック信号CLK2が立ち上がるタイミングでFIFOバッファ36から1時刻分の音圧分布情報を読み出し、その音圧分布情報に基づいて表示用画像を生成する。
ステップS15において画像処理部37は、ステップS14で生成された表示用画像をディスプレイデバイス13に供給し、表示用画像を表示させる。これにより、クロック信号CLK2に合わせてディスプレイデバイス13における表示用画像の表示が更新される。
ステップS16において音場可視化装置11は、表示用画像を表示させる処理を終了するか否かを判定する。例えばユーザがユーザ制御部21等を操作して、表示用画像の表示終了を指示した場合、処理を終了すると判定される。
ステップS16において、まだ処理を終了しないと判定された場合、処理はステップS11に戻り、上述した処理が繰り返し行われる。
これに対して、ステップS16において処理を終了すると判定された場合、音場可視化システムの各部は行っている動作を停止し、音場可視化処理は終了する。
以上のようにして音場可視化システムは、対象空間で音を収音し、得られたオーディオ信号を調和係数に変換してから、その調和係数に基づいて音圧分布を算出する。このようにすることで、対象空間の各位置の音圧を簡単かつ正確に求めることができ、より簡単に音場を可視化することができる。
〈クロック調整処理の説明〉
また、音場可視化システムで図5を参照して説明した音場可視化処理が行われている間、音場可視化装置11では音場可視化処理と並行してクロック調整処理が行われる。以下、図6のフローチャートを参照して、音場可視化装置11により行われるクロック調整処理について説明する。
また、音場可視化システムで図5を参照して説明した音場可視化処理が行われている間、音場可視化装置11では音場可視化処理と並行してクロック調整処理が行われる。以下、図6のフローチャートを参照して、音場可視化装置11により行われるクロック調整処理について説明する。
ステップS41においてクロック調整部34は、時間軸の状態をSyncステートとし、同じクロック周波数の同期したクロック信号CLK1およびクロック信号CLK2を、それぞれ音圧分布算出部42および画像処理部37に供給する。
ステップS42においてイベント検出部33は、空間周波数領域変換部41から供給されたオーディオ信号や、時間周波数信号、調和係数、ユーザ制御信号部31から供給された制御信号に基づいてイベントを検出する。
例えばイベント検出部33は、制御信号により指定された検出器を用いて、オーディオ信号や時間周波数信号に基づきイベントを検出したり、特定音の検出タイミングを指示する制御信号が供給されるとイベントが検出されたとしたりする。
イベント検出部33は、イベントが検出されると、イベントが検出された旨の検出結果をクロック調整部34に供給し、その後、処理はステップS43へと進む。
ステップS43においてクロック調整部34は、イベント検出部33からイベントが検出された旨の検出結果が供給されると、時間軸の状態をSlow-Motionステートとする。
そしてクロック調整部34は、クロック信号CLK1のクロック周波数をSyncステートにおける場合よりも高いクロック周波数に変更する。
その後、イベント検出から所定時間が経過する等して、イベント検出部33が、イベントが終了した旨の検出結果をクロック調整部34に供給すると、処理はステップS44へと進む。
ステップS44においてクロック調整部34は、時間軸の状態をTime-Lapseステートとし、クロック信号CLK1のクロック周波数をSyncステートにおける場合よりも低いクロック周波数に変更する。
そして、クロック調整部34はFIFOバッファ36の記録状況を監視し、FIFOバッファ36でバッファ不足が起きるタイミングとなると、ステップS45の処理を行う。
すなわち、ステップS45においてクロック調整部34は、時間軸の状態をSyncingステートとし、クロック信号CLK1とクロック信号CLK2が同期するように、適宜、クロック信号CLK1のクロック周波数を変更する。
そして、クロック信号CLK1とクロック信号CLK2が同期した状態となると、ステップS46においてクロック調整部34は、時間軸の状態をSyncステートとし、クロック信号CLK1およびクロック信号CLK2が同期した状態を維持する。
ステップS47においてクロック調整部34は、処理を終了するか否かを判定する。例えば図5のステップS16で処理を終了すると判定されると、ステップS47においても処理を終了すると判定される。
ステップS47において、まだ処理を終了しないと判定された場合、処理はステップS42に戻り、上述した処理が繰り返し行われる。
これに対して、ステップS47において処理を終了すると判定された場合、音場可視化装置11の各部は行っている処理を停止させ、クロック調整処理は終了する。
以上のようにして音場可視化装置11は、イベント検出等に応じてクロック信号CLK1およびクロック信号CLK2のクロック周波数を調整(変更)する。
このようにすることで、ユーザはより詳細に表示用画像を観察することができ、またイベント終了後も適切に音圧分布情報の算出と表示用画像の表示(描画)のずれを調整することができる。
〈第1の実施の形態の変形例1〉
〈音場可視化システムの構成例〉
なお、以上においては図1に示したようにディスプレイデバイス13に表示用画像を表示させる例について説明したが、音場を可視化する音場可視化システムの構成は図1に示した構成に限らず、他のどのような構成であってもよい。
〈音場可視化システムの構成例〉
なお、以上においては図1に示したようにディスプレイデバイス13に表示用画像を表示させる例について説明したが、音場を可視化する音場可視化システムの構成は図1に示した構成に限らず、他のどのような構成であってもよい。
以下、図7乃至図9を参照して、音場可視化システムの他の構成例について説明する。なお、図7乃至図9において図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図7に示す例では、音場可視化システムは音場可視化装置11、マイクロホンアレイ12、ビデオカメラ71、映像重畳部72、およびディスプレイデバイス13を有している。
この例では、ビデオカメラ71によって対象空間の画像(映像)が撮影され、その結果得られた撮影画像が映像重畳部72に供給される。また、映像重畳部72には、音場可視化装置11で得られた表示用画像が画像処理部37から供給される。
映像重畳部72は、ビデオカメラ71から供給された撮影画像に対して、画像処理部37から供給された表示用画像を重畳し、最終的な表示用画像としてディスプレイデバイス13に供給し、表示させる。
図1に示した音場可視化システムでは、ディスプレイデバイス13では対象空間における音の波面の様子のみが可視化されて表示されていた。
これに対して、図7に示す音場可視化システムでは、音の波面だけでなく対象空間の様子もディスプレイデバイス13に表示される。
したがって、ディスプレイデバイス13を観察するユーザは、実際の対象空間の映像と、その映像上に重畳された音の波面を目視で確認することができる。これにより、実空間で生じている音場(音圧分布)の変化をより観察しやすくすることができる。
また、この場合においてもオーディオ信号や調和係数とともに撮影画像を収録データとして保存しておけば、音場収録後、設定情報としての周波数や次数を変更し、その変更に応じた音の波面と対象空間の様子をオフラインで観察することができる。
〈第1の実施の形態の変形例2〉
〈音場可視化システムの構成例〉
また、例えば図8に示すように、マイクロホンアレイ12が配置されている対象空間に、音場を可視化した表示用画像を投影させるようにしてもよい。
〈音場可視化システムの構成例〉
また、例えば図8に示すように、マイクロホンアレイ12が配置されている対象空間に、音場を可視化した表示用画像を投影させるようにしてもよい。
図8に示す例では、音場可視化システムは音場可視化装置11、マイクロホンアレイ12、およびプロジェクタ101を有している。
この例では、音場可視化装置11の画像処理部37で得られた表示用画像が、画像処理部37からプロジェクタ101へと供給される。
プロジェクタ101は、画像処理部37から供給された表示用画像に基づいて対象空間に光を投影することで、実際の対象空間に重畳させて音の波面の様子を示す表示用画像を表示させる。
このように実際の対象空間に表示用画像を投影することで、実空間で生じている音場(音圧分布)の変化をより観察しやすくするとともに、より理解しやすくすることができる。図8に示す音場可視化システムは、ゲームや施設のアトラクションといった娯楽用途等の運用にも効果的である。
〈第1の実施の形態の変形例3〉
〈音場可視化システムの構成例〉
さらに、本技術は、図9に示すようにARやVRにも適用することができる。
〈音場可視化システムの構成例〉
さらに、本技術は、図9に示すようにARやVRにも適用することができる。
図9に示す音場可視化システムは、音場可視化装置11、マイクロホンアレイ12、可視化映像方位仰角補正部131、およびゴーグル132を有している。
この例では、対象空間にマイクロホンアレイ12が配置されており、また対象空間にはAR用またはVR用のウェアラブルデバイスであるゴーグル132を頭部に装着したユーザがいる状態となっている。
この場合、音場可視化装置11の画像処理部37で得られた表示用画像は可視化映像方位仰角補正部131に供給される。また、ゴーグル132から可視化映像方位仰角補正部131には、ゴーグル132の向いている方向を示す方向情報が供給される。
例えばゴーグル132には、ゴーグル132の向きを測定し、その測定結果を方向情報として出力するジャイロセンサ等が設けられており、ゴーグル132は常時、方向情報を可視化映像方位仰角補正部131に供給する。
可視化映像方位仰角補正部131は、ゴーグル132から供給された方向情報に応じて、画像処理部37から供給された表示用画像の方位角や仰角、すなわち表示用画像の表示向きを補正し、補正後の表示用画像をゴーグル132に供給する。
ゴーグル132は、可視化映像方位仰角補正部131から供給された補正後の表示用画像を表示することで、ユーザに対して対象空間の音の波面を提示する。
例えばゴーグル132がAR用のものであれば、ゴーグル132は半透明の透過型の表示部に補正後の表示用画像を表示することで、ユーザに対して実際の対象空間に重畳させて音の波面を提示することができる。
また、例えばゴーグル132がVR用のものであれば、ゴーグル132は自身が有するカメラで撮影した対象空間の撮影画像に重畳させて補正後の表示用画像を表示することで、ユーザに対して対象空間に重畳させて音の波面を提示することができる。
このようにすることで、ユーザの頭部の向きに応じて、ユーザの視点位置から見た音の波面(音圧分布)を提示することができる。
〈コンピュータの構成例〉
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図10は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、本技術は、以下の構成とすることも可能である。
(1)
空間内の複数の観測位置を示す位置情報と、前記複数の前記観測位置のそれぞれで観測された音のオーディオ信号のそれぞれとに基づいて、第1の時間間隔で、前記空間内の複数の位置における音の振幅または位相を算出する算出部と、
イベントを検出するイベント検出部と、
前記イベントが検出された場合、前記第1の時間間隔よりも短い第2の時間間隔で前記振幅または前記位相が算出されるように制御する調整部と
を備える情報処理装置。
(2)
前記算出部は、前記位置情報に基づいて前記複数の前記観測位置の前記オーディオ信号を空間周波数領域信号に変換し、前記空間周波数領域信号に基づいて前記振幅または前記位相を算出する
(1)に記載の情報処理装置。
(3)
前記調整部は、前記イベントが終了した場合、前記第1の時間間隔よりも長い第3の時間間隔で前記振幅または前記位相が算出されるように制御する
(1)または(2)に記載の情報処理装置。
(4)
算出された前記振幅または前記位相を保持するバッファをさらに備え、
前記調整部は、前記第3の時間間隔で前記振幅または前記位相が算出されているときに、前記バッファにおいて前記振幅または前記位相のアンダーフローが生じる場合、前記第2の時間間隔よりも長く、かつ前記第1の時間間隔よりも短い第4の時間間隔で前記振幅または前記位相が算出されるように制御する
(3)に記載の情報処理装置。
(5)
前記イベント検出部は、ユーザからの指示があった場合、前記イベントが検出されたとする
(1)乃至(4)の何れか一項に記載の情報処理装置。
(6)
前記イベント検出部は、所定の種別の音が検出された場合、前記イベントが検出されたとする
(1)乃至(4)の何れか一項に記載の情報処理装置。
(7)
前記所定の種別の音は、信号レベルが所定レベル範囲内の音である
(6)に記載の情報処理装置。
(8)
前記所定の種別の音は、特定の周波数のレベルが所定レベル範囲内の音である
(6)に記載の情報処理装置。
(9)
前記所定の種別の音は、所定のスペクトル形状の音である
(6)に記載の情報処理装置。
(10)
前記イベント検出部は、所定のタイミングとなった場合、前記イベントが検出されたとする
(1)乃至(4)の何れか一項に記載の情報処理装置。
(11)
算出された前記振幅または前記位相に基づいて、前記空間内における音の波面の画像を生成する画像処理部をさらに備える
(1)乃至(10)の何れか一項に記載の情報処理装置。
(12)
前記調整部は、前記第2の時間間隔で前記振幅または前記位相が算出されている場合、前記第2の時間間隔よりも長い時間間隔で前記画像の表示が更新されるように制御する
(11)に記載の情報処理装置。
(13)
情報処理装置が、
空間内の複数の観測位置を示す位置情報と、前記複数の前記観測位置のそれぞれで観測された音のオーディオ信号のそれぞれとに基づいて、第1の時間間隔で、前記空間内の複数の位置における音の振幅または位相を算出し、
イベントを検出し、
前記イベントが検出された場合、前記第1の時間間隔よりも短い第2の時間間隔で前記振幅または前記位相が算出されるように制御する
情報処理方法。
(14)
空間内の複数の観測位置を示す位置情報と、前記複数の前記観測位置のそれぞれで観測された音のオーディオ信号のそれぞれとに基づいて、第1の時間間隔で、前記空間内の複数の位置における音の振幅または位相を算出し、
イベントを検出し、
前記イベントが検出された場合、前記第1の時間間隔よりも短い第2の時間間隔で前記振幅または前記位相が算出されるように制御する
ステップを含む処理をコンピュータに実行させるプログラム。
空間内の複数の観測位置を示す位置情報と、前記複数の前記観測位置のそれぞれで観測された音のオーディオ信号のそれぞれとに基づいて、第1の時間間隔で、前記空間内の複数の位置における音の振幅または位相を算出する算出部と、
イベントを検出するイベント検出部と、
前記イベントが検出された場合、前記第1の時間間隔よりも短い第2の時間間隔で前記振幅または前記位相が算出されるように制御する調整部と
を備える情報処理装置。
(2)
前記算出部は、前記位置情報に基づいて前記複数の前記観測位置の前記オーディオ信号を空間周波数領域信号に変換し、前記空間周波数領域信号に基づいて前記振幅または前記位相を算出する
(1)に記載の情報処理装置。
(3)
前記調整部は、前記イベントが終了した場合、前記第1の時間間隔よりも長い第3の時間間隔で前記振幅または前記位相が算出されるように制御する
(1)または(2)に記載の情報処理装置。
(4)
算出された前記振幅または前記位相を保持するバッファをさらに備え、
前記調整部は、前記第3の時間間隔で前記振幅または前記位相が算出されているときに、前記バッファにおいて前記振幅または前記位相のアンダーフローが生じる場合、前記第2の時間間隔よりも長く、かつ前記第1の時間間隔よりも短い第4の時間間隔で前記振幅または前記位相が算出されるように制御する
(3)に記載の情報処理装置。
(5)
前記イベント検出部は、ユーザからの指示があった場合、前記イベントが検出されたとする
(1)乃至(4)の何れか一項に記載の情報処理装置。
(6)
前記イベント検出部は、所定の種別の音が検出された場合、前記イベントが検出されたとする
(1)乃至(4)の何れか一項に記載の情報処理装置。
(7)
前記所定の種別の音は、信号レベルが所定レベル範囲内の音である
(6)に記載の情報処理装置。
(8)
前記所定の種別の音は、特定の周波数のレベルが所定レベル範囲内の音である
(6)に記載の情報処理装置。
(9)
前記所定の種別の音は、所定のスペクトル形状の音である
(6)に記載の情報処理装置。
(10)
前記イベント検出部は、所定のタイミングとなった場合、前記イベントが検出されたとする
(1)乃至(4)の何れか一項に記載の情報処理装置。
(11)
算出された前記振幅または前記位相に基づいて、前記空間内における音の波面の画像を生成する画像処理部をさらに備える
(1)乃至(10)の何れか一項に記載の情報処理装置。
(12)
前記調整部は、前記第2の時間間隔で前記振幅または前記位相が算出されている場合、前記第2の時間間隔よりも長い時間間隔で前記画像の表示が更新されるように制御する
(11)に記載の情報処理装置。
(13)
情報処理装置が、
空間内の複数の観測位置を示す位置情報と、前記複数の前記観測位置のそれぞれで観測された音のオーディオ信号のそれぞれとに基づいて、第1の時間間隔で、前記空間内の複数の位置における音の振幅または位相を算出し、
イベントを検出し、
前記イベントが検出された場合、前記第1の時間間隔よりも短い第2の時間間隔で前記振幅または前記位相が算出されるように制御する
情報処理方法。
(14)
空間内の複数の観測位置を示す位置情報と、前記複数の前記観測位置のそれぞれで観測された音のオーディオ信号のそれぞれとに基づいて、第1の時間間隔で、前記空間内の複数の位置における音の振幅または位相を算出し、
イベントを検出し、
前記イベントが検出された場合、前記第1の時間間隔よりも短い第2の時間間隔で前記振幅または前記位相が算出されるように制御する
ステップを含む処理をコンピュータに実行させるプログラム。
11 音場可視化装置, 12 マイクロホンアレイ, 13 ディスプレイデバイス, 22 時間軸マッピング部, 23 描画部, 33 イベント検出部, 34 クロック調整部, 35 算出部, 36 FIFOバッファ, 37 画像処理部, 41 空間周波数領域変換部, 42 音圧分布算出部
Claims (14)
- 空間内の複数の観測位置を示す位置情報と、前記複数の前記観測位置のそれぞれで観測された音のオーディオ信号のそれぞれとに基づいて、第1の時間間隔で、前記空間内の複数の位置における音の振幅または位相を算出する算出部と、
イベントを検出するイベント検出部と、
前記イベントが検出された場合、前記第1の時間間隔よりも短い第2の時間間隔で前記振幅または前記位相が算出されるように制御する調整部と
を備える情報処理装置。 - 前記算出部は、前記位置情報に基づいて前記複数の前記観測位置の前記オーディオ信号を空間周波数領域信号に変換し、前記空間周波数領域信号に基づいて前記振幅または前記位相を算出する
請求項1に記載の情報処理装置。 - 前記調整部は、前記イベントが終了した場合、前記第1の時間間隔よりも長い第3の時間間隔で前記振幅または前記位相が算出されるように制御する
請求項1に記載の情報処理装置。 - 算出された前記振幅または前記位相を保持するバッファをさらに備え、
前記調整部は、前記第3の時間間隔で前記振幅または前記位相が算出されているときに、前記バッファにおいて前記振幅または前記位相のアンダーフローが生じる場合、前記第2の時間間隔よりも長く、かつ前記第1の時間間隔よりも短い第4の時間間隔で前記振幅または前記位相が算出されるように制御する
請求項3に記載の情報処理装置。 - 前記イベント検出部は、ユーザからの指示があった場合、前記イベントが検出されたとする
請求項1に記載の情報処理装置。 - 前記イベント検出部は、所定の種別の音が検出された場合、前記イベントが検出されたとする
請求項1に記載の情報処理装置。 - 前記所定の種別の音は、信号レベルが所定レベル範囲内の音である
請求項6に記載の情報処理装置。 - 前記所定の種別の音は、特定の周波数のレベルが所定レベル範囲内の音である
請求項6に記載の情報処理装置。 - 前記所定の種別の音は、所定のスペクトル形状の音である
請求項6に記載の情報処理装置。 - 前記イベント検出部は、所定のタイミングとなった場合、前記イベントが検出されたとする
請求項1に記載の情報処理装置。 - 算出された前記振幅または前記位相に基づいて、前記空間内における音の波面の画像を生成する画像処理部をさらに備える
請求項1に記載の情報処理装置。 - 前記調整部は、前記第2の時間間隔で前記振幅または前記位相が算出されている場合、前記第2の時間間隔よりも長い時間間隔で前記画像の表示が更新されるように制御する
請求項11に記載の情報処理装置。 - 情報処理装置が、
空間内の複数の観測位置を示す位置情報と、前記複数の前記観測位置のそれぞれで観測された音のオーディオ信号のそれぞれとに基づいて、第1の時間間隔で、前記空間内の複数の位置における音の振幅または位相を算出し、
イベントを検出し、
前記イベントが検出された場合、前記第1の時間間隔よりも短い第2の時間間隔で前記振幅または前記位相が算出されるように制御する
情報処理方法。 - 空間内の複数の観測位置を示す位置情報と、前記複数の前記観測位置のそれぞれで観測された音のオーディオ信号のそれぞれとに基づいて、第1の時間間隔で、前記空間内の複数の位置における音の振幅または位相を算出し、
イベントを検出し、
前記イベントが検出された場合、前記第1の時間間隔よりも短い第2の時間間隔で前記振幅または前記位相が算出されるように制御する
ステップを含む処理をコンピュータに実行させるプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019022615A JP2022051974A (ja) | 2019-02-12 | 2019-02-12 | 情報処理装置および方法、並びにプログラム |
PCT/JP2020/003080 WO2020166324A1 (ja) | 2019-02-12 | 2020-01-29 | 情報処理装置および方法、並びにプログラム |
US17/310,433 US12002485B2 (en) | 2019-02-12 | 2020-01-29 | Information processing device and information processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019022615A JP2022051974A (ja) | 2019-02-12 | 2019-02-12 | 情報処理装置および方法、並びにプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022051974A true JP2022051974A (ja) | 2022-04-04 |
Family
ID=72044816
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019022615A Pending JP2022051974A (ja) | 2019-02-12 | 2019-02-12 | 情報処理装置および方法、並びにプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US12002485B2 (ja) |
JP (1) | JP2022051974A (ja) |
WO (1) | WO2020166324A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021072575A (ja) * | 2019-10-31 | 2021-05-06 | パナソニックIpマネジメント株式会社 | 音源表示システム及び音源表示装置 |
CN114355286A (zh) * | 2020-10-12 | 2022-04-15 | 阿里巴巴集团控股有限公司 | 一种声源追踪方法、装置、设备、***及存储介质 |
US20240070941A1 (en) * | 2022-08-31 | 2024-02-29 | Sonaria 3D Music, Inc. | Frequency interval visualization education and entertainment system and method |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1151485C (zh) * | 2000-05-02 | 2004-05-26 | 莫绍祥 | 声音及节拍的图象显示方法和设备 |
JP3867057B2 (ja) | 2003-02-20 | 2007-01-10 | 三井造船株式会社 | 音響センサアレイ、音響診断装置及び音響診断方法 |
JP2005241348A (ja) | 2004-02-25 | 2005-09-08 | Matsushita Electric Ind Co Ltd | 音場可視化計測装置 |
JP2009257944A (ja) | 2008-04-17 | 2009-11-05 | Shimizu Corp | 音源探査システム |
JP5353316B2 (ja) | 2009-03-06 | 2013-11-27 | ヤマハ株式会社 | 音場可視化装置 |
JP2010249939A (ja) * | 2009-04-13 | 2010-11-04 | Sony Corp | ノイズ低減装置、ノイズ判定方法 |
US8620672B2 (en) * | 2009-06-09 | 2013-12-31 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal |
JP2011114801A (ja) | 2009-11-30 | 2011-06-09 | Olympus Imaging Corp | 表示装置、撮影装置、及び、表示方法 |
JP6061693B2 (ja) * | 2013-01-18 | 2017-01-18 | 株式会社日立パワーソリューションズ | 異常診断装置およびこれを用いた異常診断方法 |
JP6413741B2 (ja) | 2014-12-16 | 2018-10-31 | 日本電気株式会社 | 振動発生源推定装置、方法およびプログラム |
JP2017203931A (ja) | 2016-05-13 | 2017-11-16 | パイオニア株式会社 | 音響特性測定装置及び音響特性測定方法 |
US10409552B1 (en) * | 2016-09-19 | 2019-09-10 | Amazon Technologies, Inc. | Speech-based audio indicators |
-
2019
- 2019-02-12 JP JP2019022615A patent/JP2022051974A/ja active Pending
-
2020
- 2020-01-29 US US17/310,433 patent/US12002485B2/en active Active
- 2020-01-29 WO PCT/JP2020/003080 patent/WO2020166324A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2020166324A1 (ja) | 2020-08-20 |
US12002485B2 (en) | 2024-06-04 |
US20220208212A1 (en) | 2022-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020166324A1 (ja) | 情報処理装置および方法、並びにプログラム | |
JP6961007B2 (ja) | 複合現実デバイスにおける仮想および実オブジェクトの記録 | |
US9794722B2 (en) | Head-related transfer function recording using positional tracking | |
US10353198B2 (en) | Head-mounted display with sound source detection | |
EP3554098A1 (en) | Hrtf measurement method, hrtf measurement device, and program | |
CN109565629B (zh) | 用于控制音频信号的处理的方法和装置 | |
CN106416292A (zh) | 用于获取声信号的方法、电路、设备、***和相关计算机可执行代码 | |
US10021505B2 (en) | Control apparatus, measurement system, control method, and storage medium | |
EP3276982B1 (en) | Information processing apparatus, information processing method, and program | |
US11462235B2 (en) | Surveillance camera system for extracting sound of specific area from visualized object and operating method thereof | |
US10747492B2 (en) | Signal processing apparatus, signal processing method, and storage medium | |
US8965004B2 (en) | Method for acquiring audio signals, and audio acquisition system thereof | |
JP6819368B2 (ja) | 装置、システム、方法およびプログラム | |
JP2022010300A (ja) | 映像音声信号処理装置、映像音声信号処理方法及び映像音声信号処理システム | |
TWI605261B (zh) | 用於使用音訊信號於裝置間之距離量測的方法、媒體與設備 | |
US10547961B2 (en) | Signal processing apparatus, signal processing method, and storage medium | |
EP3944638A1 (en) | Acoustic processing device, acoustic processing method, and acoustic processing program | |
JP5864799B1 (ja) | 音源探査装置および音源探査方法 | |
JP7111103B2 (ja) | 撮像システム、撮像装置及び撮像方法 | |
US20170003386A1 (en) | Measurement of distance between devices using audio signals | |
US11363374B2 (en) | Signal processing apparatus, method of controlling signal processing apparatus, and non-transitory computer-readable storage medium | |
JPH10191498A (ja) | 音信号処理装置 | |
JP7463907B2 (ja) | 騒音源特定支援システム、および騒音源特定支援方法 | |
JP6983583B2 (ja) | 音響処理装置、音響処理システム、音響処理方法、及びプログラム | |
JP6585547B2 (ja) | 撮像システム、撮像方法 |