JP2022051974A

JP2022051974A - 情報処理装置および方法、並びにプログラム

Info

Publication number: JP2022051974A
Application number: JP2019022615A
Authority: JP
Inventors: ウェイシャンリャオ; Hsiang LIAO; 慶一大迫; keiichi Osako; 祐基光藤; Yuki Mitsufuji
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2019-02-12
Filing date: 2019-02-12
Publication date: 2022-04-04
Also published as: WO2020166324A1; US12002485B2; US20220208212A1

Abstract

【課題】より簡単に音場を可視化する。【解決手段】情報処理装置は、空間内の複数の観測位置を示す位置情報と、複数の観測位置のそれぞれで観測された音のオーディオ信号のそれぞれとに基づいて、第１の時間間隔で、空間内の複数の位置における音の振幅または位相を算出する算出部と、イベントを検出するイベント検出部と、イベントが検出された場合、第１の時間間隔よりも短い第２の時間間隔で振幅または位相が算出されるように制御する調整部とを備える。本技術は音場可視化システムに適用することができる。【選択図】図１

Description

本技術は、情報処理装置および方法、並びにプログラムに関し、特により簡単に音場を可視化することができるようにした情報処理装置および方法、並びにプログラムに関する。

近年、波面合成やイマーシブオーディオといった音場制御に関する技術が一般的になってきている。このような技術を利用すれば、バーチャル音源や音場を制御することで、一般的なステレオオーディオやマルチチャネルオーディオよりも圧倒的な没入感を得ることができる。

しかし、実際に形成された音場の正確性や品質を検証することは容易ではない。これは、人の聴感による評価では、定位感の評価が不安定であったり前後の定位を間違ったりするなど、信頼性が十分でないからであり、音場の正確性や品質を客観的に評価することが重要である。

音場の正確性や品質を客観的に評価するためには、実際に形成された音場を計測して可視化することが有効である。

音場の可視化に関する技術として、例えばレーザ光発生装置、レンズ、ビームスプリッタ、および光検出装置を組み合わせ、音場の密度変化に応じて干渉光の明暗差が変化することを利用して、音場の密度を可視化および計測する音場可視化計測装置が提案されている（例えば、特許文献１参照）。

また、例えば探査対象空間を撮像する撮像装置、マイクロホンアレイ、およびマーカを用いてマイクロホンアレイの各マイクロホン位置を推定し、それらのマイクロホン位置で観測された音圧データから音源位置を演算する音源探査システムも提案されている（例えば、特許文献２参照）。この技術では、さらに演算により得られた音源位置を可視化した画像と、探査対象空間の撮像画像とが重ね合わせられて表示装置に表示される。

特開２００５－２４１３４８号公報特開２００９－２５７９４４号公報

しかしながら上述した技術では、用途や環境によらず、音場を可視化することは容易ではなかった。

例えば特許文献１に記載の技術では、一般的には入手が困難であるレーザ光発生装置や光検出装置を使用する必要があり、特殊な用途や環境でしか利用することができない。

また、特許文献１に記載の技術では、正確に音場を計測するためには、レーザ光を射出および受光するときにレーザ光が他の光源の光や観測対象以外の雑音と干渉しないように注意する必要があり、使用環境が限定されてしまう。

さらに、特許文献２に記載の技術では、音源位置は複数のマイクロホンへと到達する音の位相差（音源定位情報）に基づいて求められており、この音源位置は、マイクロホンから見た時の方向ごとの音圧ヒストグラムに相当する。

そのため、特許文献２に記載の技術では、実際にマイクロホンが配置された地点を通過する音の波面を表示しているわけではなく、音の位相などの正確な情報を得ることはできない。

本技術は、このような状況に鑑みてなされたものであり、より簡単に音場を可視化することができるようにするものである。

本技術の一側面の情報処理装置は、空間内の複数の観測位置を示す位置情報と、前記複数の前記観測位置のそれぞれで観測された音のオーディオ信号のそれぞれとに基づいて、第１の時間間隔で、前記空間内の複数の位置における音の振幅または位相を算出する算出部と、イベントを検出するイベント検出部と、前記イベントが検出された場合、前記第１の時間間隔よりも短い第２の時間間隔で前記振幅または前記位相が算出されるように制御する調整部とを備える。

本技術の一側面の情報処理方法またはプログラムは、空間内の複数の観測位置を示す位置情報と、前記複数の前記観測位置のそれぞれで観測された音のオーディオ信号のそれぞれとに基づいて、第１の時間間隔で、前記空間内の複数の位置における音の振幅または位相を算出し、イベントを検出し、前記イベントが検出された場合、前記第１の時間間隔よりも短い第２の時間間隔で前記振幅または前記位相が算出されるように制御するステップを含む。

本技術の一側面においては、空間内の複数の観測位置を示す位置情報と、前記複数の前記観測位置のそれぞれで観測された音のオーディオ信号のそれぞれとに基づいて、第１の時間間隔で、前記空間内の複数の位置における音の振幅または位相が算出され、イベントが検出され、前記イベントが検出された場合、前記第１の時間間隔よりも短い第２の時間間隔で前記振幅または前記位相が算出されるように制御される。

音場可視化システムの構成例を示す図である。音場可視化装置の構成例を示す図である。表示用画像の一例を示す図である。クロック信号の調整について説明する図である。音場可視化処理を説明するフローチャートである。クロック調整処理を説明するフローチャートである。音場可視化システムの構成例を示す図である。音場可視化システムの構成例を示す図である。音場可視化システムの構成例を示す図である。コンピュータの構成例を示す図である。

以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈本技術について〉
本技術は、より簡単に空間内に形成された音の波面（音場）、すなわち空間内の音圧分布を可視化する手法に関するものである。

本技術では、観測された音のオーディオ信号と、それらのオーディオ信号の観測位置の情報、つまり収音が行われたマイクロホンの位置情報とが用いられて、空間内の音の波面が描画される。このような本技術は、例えばリアルタイムアプリケーションなどに用いることができる。

また、本技術は、特殊な機器を必要とせず、手軽に使用できるマイクロホン、オーディオインターフェース、パーソナルコンピュータなどにより実現可能である。

さらに、本技術は、以下のような特徴を有している。

すなわち、本技術では、空間内における音の音圧分布は、マイクロホンで観測された音のオーディオ信号のモード領域（空間周波数領域）の係数、つまり円筒調和係数や球面調和係数等の調和係数を計算することで算出される。

調和係数を用いることで、マイクロホンが設置されていない位置を含む、空間内の任意の位置における音圧を算出することが可能である。このような音圧の算出は、音の観測位置間の音圧を単純に補間するものとは異なり、調和係数を用いて実際に伝搬する物理的な音の波面を計算していることになる。なお、ここでは調和係数に基づいて音圧分布を計算する例について説明するが、音圧分布は、その他、スパースコーディングや圧縮センシングなどにより求められてもよい。例えばスパースコーディングや圧縮センシングにおいても、空間周波数領域の信号から音圧分布が算出される。

また、例えば音は約340m/secの速度で伝搬するため、観測した音の波面（音圧分布）をそのまま表示することは困難である。すなわち、音の伝搬速度に合わせて音の波面の表示を更新しても、その表示を見るユーザが瞬時に正しく空間内の音圧分布等を把握することは難しい。

そこで本技術では、音圧分布、すなわち空間内における音の波面の様子の描画の時間軸を動的に伸縮させることにより、必要なタイミングにおける音の波面の様子を詳細に観察できるようにした。

さらに、本技術では、観測対象となる音場の単一の周波数帯域、または任意の複数の周波数帯域を１つにまとめて得られる広い周波数帯域について、音の波面を描画することが可能である。また、本技術では、互いに異なる複数の周波数帯域について同時に波面（音圧分布）を描画することもできる。

以上のような本技術は、一般的な波面表示手法と比較して、以下のような利点を有する。

すなわち、本技術では、調和係数を計算により求め、得られた調和係数に基づいて音圧分布を算出することで、任意の位置における正確な音の音圧、すなわち音の振幅および位相を可視化することが可能である。

また、音の波面の描画時における時間軸の伸縮によって、瞬時に起こる音の変化を可視化することができる。本技術では、一般的な音源定位に基づく波面表示手法とは異なり、音の振幅や位相を可視化することができるため、時間軸の伸縮によるスロー表示は大きな利点となる。

しかも本技術では、レーザ光発生装置や光検出装置などの高価で特殊な装置は必要なく、一般的に市販されているマイクロホンを用いて簡単に音の波面を可視化することができ、使用環境や用途が限定されることもない。

さらに、本技術では、ビームフォーミングを用いた手法のように遠方の音圧分布を表示するのではなく、マイクロホンが設置された位置の音を取得するため、その場における実際の音の波面（音圧分）を描画することができる。

したがって、例えば算出された音圧分布を、AR（Augmented Reality）システムやVR（Virtual Reality）システムのコンテンツに重畳したり、音情報として使用したりするなど様々な応用が可能となる。

〈音場可視化システムの構成例〉
続いて、以上において説明した本技術を音場可視化システムに適用した例について、より具体的に説明する。

図１は、本技術を適用した音場可視化システムの一実施の形態の構成例を示す図である。

図１に示す音場可視化システムは、音場可視化装置１１、マイクロホンアレイ１２、およびディスプレイデバイス１３を有している。

この例では、音場可視化システムは、可視化対象の空間（以下、対象空間とも称する）に形成された音場がディスプレイデバイス１３上で可視化される。

すなわち、この例では、例えば複数のマイクロホンを並べて得られた、環状マイクロホンアレイや球状マイクロホンアレイなどからなるマイクロホンアレイ１２が対象空間に配置されている。マイクロホンアレイ１２は、周囲の音を収音することで対象空間に形成された音場を収録し、その結果得られたマルチチャネルのオーディオ信号を音場可視化装置１１に供給する。

音場可視化装置１１は、マイクロホンアレイ１２が収音することで得られたオーディオ信号を入力とし、対象空間に形成された音の波面（音場）を示す表示用画像、より詳細には表示用画像の画像データ（映像データ）を出力する情報処理装置である。

音場可視化装置１１は、マイクロホンアレイ１２から供給されたオーディオ信号に基づいて表示用画像を生成し、得られた表示用画像をディスプレイデバイス１３に供給する。

なお、表示用画像は静止画像であってもよいし、動画像であってもよいが、以下では表示用画像が動画像であるものとして説明を続ける。

ディスプレイデバイス１３は、音場可視化装置１１から供給された表示用画像を表示することで、対象空間の音場を可視化する。

なお、ここでは対象空間の複数の位置（観測位置）における音を観測するために、それらの複数の位置に配置されたマイクロホンからなるマイクロホンアレイ１２を用いる例について説明する。しかし、各観測位置、つまり各マイクロホンの配置位置を示す位置情報を得ることができれば、マイクロホンアレイ１２に限らず、複数のマイクロホンを用いるようにしてもよい。

〈音場可視化装置の構成例〉
また、図１に示した音場可視化装置１１は、例えば図２に示すように構成される。

音場可視化装置１１は、ユーザ制御部２１、時間軸マッピング部２２、および描画部２３を有している。

ユーザ制御部２１は、例えばマウスやキーボード、タッチパネル、スイッチ、ボタンなどからなり、ユーザが音場可視化装置１１全体の動作を制御するためのインターフェースとして機能する。

ユーザ制御部２１は、ユーザ制御信号部３１およびユーザ定義パラメータ部３２を有している。

ユーザ制御信号部３１は、ユーザの操作に応じた信号を時間軸マッピング部２２に供給し、時間軸マッピング部２２での所定のイベントの検出を制御する。

例えば音場可視化装置１１では、特定音の再生や発生など、対象空間で観測される音に関する事象がイベントとして検出され、イベントが検出されると、特定音の音圧分布（音場）をよく観察できるように表示用画像の表示（描画）の時間軸が伸縮される。

換言すれば、対象空間で特定音が検出されると、描画の時間軸を伸縮する処理が時間軸マッピング処理として行われる。

例えばユーザ制御信号部３１は、ユーザの操作等に応じて、検出対象とする特定音の種別（タイプ）、すなわち検出対象のイベントを変更するために、その特定音の検出に用いる検出器の切り替えを指示する制御信号を時間軸マッピング部２２に供給する。

また、ユーザ制御信号部３１が、ユーザの操作等に応じて、特定音の検出タイミングを指示する制御信号を時間軸マッピング部２２に供給するようにしてもよい。

具体的には、例えばユーザがユーザ制御部２１に対する操作を行うことで、所定のGUI（Graphical User Interface）上のボタンを操作し、特定音（イベント）の検出タイミングを指示したとする。換言すれば、特定音が発生した旨の指示入力が行われたとする。

この場合、ユーザ制御信号部３１は、ユーザの操作に応じて特定音の検出タイミングを指示する制御信号、すなわち特定音が発生した旨の制御信号を時間軸マッピング部２２に供給する。すると時間軸マッピング部２２は、制御信号が供給されたタイミングをイベントが検出されたタイミングであるとする。換言すれば、ユーザからの指示があった場合に、イベントが検出されたとされる。その他、数秒などの所定の時間間隔やランダムな時間間隔などの定期的な、または不定期のタイミングや、ユーザにより指定された時刻などの指定されたタイミングとなったときにイベントが検出されたとされてもよい。

ユーザ定義パラメータ部３２は、ユーザの操作等に応じて、算出する音圧の周波数帯域や調和係数の次数を示す設定情報を描画部２３に供給する。

例えば表示用画像において表示対象とする音の周波数帯域を設定情報により指定すれば、表示対象としない周波数帯域、つまり不要な周波数帯域について音圧分布を求める演算が行われないようにすることができ、処理負荷を低減させることができる。

また、例えば、どの次数まで音圧分布を求める演算を行うかを設定情報により指定することでも処理負荷を低減させることができる。

例えば、より高い次数の調和係数まで演算を行えば、より正確な音圧分布を算出することができるが、その分だけ計算量が多くなり、結果として処理負荷が高くなる。

なお、演算を行う調和係数の次数は、ユーザが指定するようにしてもよいし、音場可視化装置１１の処理能力や処理負荷に応じて、音場可視化装置１１を制御するソフトウェア側で自動的に決定するようにしてもよい。

時間軸マッピング部２２は、ユーザ制御部２１から供給された制御信号や、描画部２３から供給されたオーディオ信号等に基づいて時間軸マッピング処理を行う。

時間軸マッピング部２２は、イベント検出部３３およびクロック調整部３４を有している。

イベント検出部３３は、ユーザ制御信号部３１から供給された制御信号や、描画部２３から供給されたオーディオ信号等に基づいてイベントを検出し、その検出結果をクロック調整部３４に供給する。

クロック調整部３４は、常時、音圧分布の算出のタイミングを示すクロック信号CLK1と、表示用画像の描画のタイミングを示すクロック信号CLK2とを生成し、クロック信号CLK1およびクロック信号CLK2を描画部２３に供給する。これらのクロック信号CLK1およびクロック信号CLK2は、クロック周波数、つまりクロック周期が可変である可変クロックとなっている。

クロック調整部３４は、イベント検出部３３から、イベントが検出された旨の検出結果が供給されたタイミングで時間軸マッピング処理を開始する。

クロック調整部３４は、時間軸マッピング処理として、クロック信号CLK1とクロック信号CLK2のクロック周波数（周期）を各タイミングにおいて適切に変更する処理を行う。

例えばクロック信号CLK1とクロック信号CLK2の間で相対的にクロック周期を変更することは、表示用画像の描画の時間軸を伸縮させる、つまり描画タイミングを時間方向に伸縮させて表示用画像の再生速度を変化させることであるといえる。

描画部２３は、クロック調整部３４から供給されたクロック信号CLK1およびクロック信号CLK2に従って音圧分布の算出と、音圧分布のレンダリングとを行う。

すなわち、描画部２３は、マイクロホンアレイ１２から供給されたマルチチャネルのオーディオ信号と、ユーザ定義パラメータ部３２から供給された設定情報とに基づいて音圧分布を算出し、表示用画像を生成する。

描画部２３は算出部３５、FIFO（First In First Out）バッファ３６、および画像処理部３７を有している。

算出部３５は、マイクロホンアレイ１２で収音することで得られたマルチチャネルのオーディオ信号と、マイクロホンアレイ１２を構成する各マイクロホンの配置位置を示すマイク配置情報とに基づいて、対象空間内における音圧分布を示す音圧分布情報を算出する。

音圧分布情報は、対象空間内の各位置における音圧を示す情報であるから、この音圧分布情報は、対象空間内の各位置における音の振幅および位相を示す情報であるともいうことができる。

なお、以下では、音圧分布情報に基づいて対象空間内における音圧分布、つまり対象空間内における音の波面を示す表示用画像が生成される例について説明する。

しかし、表示用画像は、対象空間内の各位置における音の振幅を示す画像であってもよいし、対象空間内の各位置における音の位相を示す画像であってもよい。すなわち、表示用画像は、対象空間内の各位置における音の振幅と位相の少なくとも何れか一方を示す画像とすることができる。また、算出部３５で算出でされる音圧分布情報も対象空間内の各位置における音の振幅と位相のうちの少なくとも何れか一方を示す情報であればよい。

算出部３５は、空間周波数領域変換部４１および音圧分布算出部４２を有している。

空間周波数領域変換部４１には、マイクロホンアレイ１２で収音することで得られたマルチチャネルのオーディオ信号と、マイクロホンアレイ１２を構成する各マイクロホンの配置位置を示すマイク配置情報とが供給される。

空間周波数領域変換部４１は、供給されたオーディオ信号とマイク配置情報に基づいて、時間信号であるオーディオ信号を、空間周波数領域の信号（空間周波数領域信号）である調和係数に変換し、音圧分布算出部４２に供給する。

また、空間周波数領域変換部４１は、時間信号であるオーディオ信号や、そのオーディオ信号から得られた時間周波数領域の信号、調和係数を適宜、イベント検出部３３に供給する。

音圧分布算出部４２は、クロック調整部３４から供給されたクロック信号CLK1に従って動作する。

すなわち、音圧分布算出部４２は、ユーザ定義パラメータ部３２から供給された設定情報と、空間周波数領域変換部４１から供給された調和係数とに基づいて対象空間の各位置における音圧を求めることで、対象空間における音の音圧分布を算出する。

また、音圧分布算出部４２は、対象空間内の音圧分布を示す音圧分布情報を、FIFOバッファ３６に供給して一時的に保持（記録）させる。

例えば音圧分布算出部４２では、クロック信号CLK1が立ち上がるタイミングなど、クロック信号CLK1により示されるタイミングで、ある１つの時刻（タイミング）における音圧分布情報が生成され、FIFOバッファ３６に供給される。

FIFOバッファ３６は、音圧分布算出部４２から供給された音圧分布情報を一時的に保持し、保持している音圧分布情報を画像処理部３７に供給する。

また、FIFOバッファ３６は、自身（バッファ）の音圧分布情報の記録状況（保持状況）をクロック調整部３４に供給する。この記録状況は、時間軸マッピング処理に用いられる。

画像処理部３７は、クロック調整部３４から供給されたクロック信号CLK2に従って動作し、音圧分布情報のディスプレイデバイス１３へのレンダリングを行う。

すなわち、画像処理部３７はクロック信号CLK2が立ち上がるタイミングなど、クロック信号CLK2により示されるタイミングで、FIFOバッファ３６から１時刻分の音圧分布情報を読み出し、その音圧分布情報に基づいて表示用画像を生成する。そして画像処理部３７は、生成した表示用画像を後段のディスプレイデバイス１３に出力し、表示させる。

ここで、表示用画像は、ある１つの時刻における対象空間内の音の音圧分布、すなわち対象空間内の各位置における音の振幅と位相を視覚的に図示する画像である。換言すれば、表示用画像は１時刻分の音の波面の様子を視覚的に表す画像である。

より詳細には、表示用画像は対象空間内の音の波面の様子の時間変化を示す動画像であり、画像処理部３７からは、クロック信号CLK2により示されるタイミングで、表示用画像を構成する１フレーム分の画像が出力される。

このとき、１フレーム分の画像が、ある１つの時刻における対象空間内の音の波面を示す画像となっている。したがって、動画像である表示用画像のフレームレートは、画像処理部３７での動作を制御するクロック信号CLK2によって定まることになる。

このように音場可視化装置１１では、FIFOバッファ３６の導入と、クロック信号CLK1およびクロック信号CLK2のクロック周波数の変更制御とによって、表示用画像の描画の時間軸の伸縮制御が実現可能とされている。

〈音場可視化装置の各部の処理について〉
次に、時間軸マッピング部２２で行われる時間軸マッピング処理と、描画部２３で行われる音圧分布の算出および表示用画像の描画制御とについて、さらに詳細に説明する。

まず、空間周波数領域変換部４１での調和係数の算出について説明する。

上述のように空間周波数領域変換部４１は、マイクロホンアレイ１２で観測された音の時間信号であるオーディオ信号を、音場の空間周波数領域信号である調和係数に変換するブロックである。

空間周波数領域変換部４１に供給されたマルチチャネルのオーディオ信号は、まずDFT（Discrete Fourier Transform）により時間周波数信号へと変換される。

続いて、時間周波数信号に対して、SHT（（Spherical Harmonics Transform）球面調和変換）またはCHT（（Cylindrical Harmonics Transform）円筒調和変換）が行われ、その結果として球面調和係数、または円筒調和係数が得られる。

すなわち、SHTまたはCHTによって、時間周波数信号が空間周波数領域信号である調和係数に変換される。

なお、SHTについては「B. Rafaely, “The Spherical-Shell Microphone Array”, IEEE Transactions on Audio, Speech, and Language Processing, 2008.」などに詳細に記載されている。

例えばマイクロホンアレイ１２を構成する各マイクロホンが環状または球状に配置されている場合、SHTの変換式は次式（１）に示すようになる。

なお、式（１）においてa_mn(k)は球面調和係数を示しており、Y^*m _n(θ_q,φ_q)は球面調和基底を表している。

特に、mおよびnは球面調和係数a_mn(k)の次数を示している。また、kは信号の波数を示しており、周波数をfとし、音速をc_sとして波数k＝2πf/c_sである。

さらに、θ_qおよびφ_qはマイクロホンアレイ１２を構成する合計Q個のマイクロホンのうちのq番目のマイクロホンの位置を示す仰角および方位角を示しており、＊は複素共役を示している。

また、式（１）においてb_n(kr)は球ベッセル関数などの動径関数を示しており、rはマイクロホンアレイ１２の半径を示している。

したがって、ここではマイクロホンアレイ１２を構成するq番目のマイクロホンの配置位置は、マイクロホンアレイ１２の中心位置を原点とする球座標系の座標（r,θ_q,φ_q）によって表される。つまり、座標（r,θ_q,φ_q）により示される位置が音の観測位置となる。

さらに、式（１）においてp_k(r,θ_q,φ_q)は、球座標系の座標（r,θ_q,φ_q）により示されるマイクロホンアレイ１２のq番目のマイクロホンの配置位置で観測された音、すなわちq番目のマイクロホンにより収音された音の音圧を示している。

例えば、マイクロホンアレイ１２がQ個のマイクロホンから構成されるとする。そのような場合、任意のマイクロホン配置、すなわち任意の観測位置で収音された音圧（時間周波数信号）を、各次数nおよび次数mの球面調和係数a_mn(k)からなるベクトルａ_kに変換する式は次式（２）となる。

なお、式（２）においてp_kは以下の式（３）で表されるように、マイクロホンアレイ１２を構成する各マイクロホンごとに得られた音圧p_k(r_q,θ_q,φ_q)（但し、0≦q≦L）からなる行列を示している。

また、式（２）においてB_kは以下の式（４）で表されるように、次数nおよび次数mの組み合わせごとの球ベッセル関数b_n(kr_q)と球面調和関数Y^m _n(θ_q,φ_q)との積を要素とする変換行列であり、B⁺ _kは変換行列B_kの一般化逆行列を示している。

上述の式（２）で得られる球面調和係数a_mn(k)の正確性は、式（４）に示した変換行列B_kの条件数により決定される。

より正確な球面調和係数a_mn(k)を得るためには、条件数のよい変換行列B_k、すなわち条件数の小さい変換行列B_kを用いて式（２）の計算を行うことが重要である。このことは、マイクロホンアレイ１２を構成するマイクロホンの位置を適切に決定しておくことに相当する。

以上のように空間周波数領域変換部４１において調和係数が得られると、音圧分布算出部４２では、調和係数に基づいて、対象空間の任意の位置における音圧が求められる。

例えば調和係数として、上述の式（２）により球面調和係数a_mn(k)が得られた場合には、次式（５）を計算することで、球座標系の座標（r_d,θ_d,φ_d）により示される任意の位置の音圧p_k(r_d,θ_d,φ_d)を得ることができる。

この例では、どの波数kについて音圧p_k(r_d,θ_d,φ_d)を求めるかを示す情報、すなわち波数kを特定するための周波数fを示す情報と、式（５）において、どの次数nまで計算を行うかを示す情報、すなわち次数nの最大次数Nを示す情報とが設定情報とされる。そして、そのような設定情報がユーザ定義パラメータ部３２から音圧分布算出部４２に供給される。

このように、複数の各座標（r_d,θ_d,φ_d）の位置について式（５）を計算することで、マイクロホンの配置位置以外の位置、つまり音圧を観測していない位置についても音圧p_k(r_d,θ_d,φ_d)を求めることができる。

したがって、例えば音場が形成される対象空間を任意のサイズのグリッドに区切り、それらの各グリッド内の音圧を式（５）により求めれば、対象空間全体の音圧の分布を示す音圧分布情報を得ることができる。換言すれば、対象空間全体の音圧分布が求められたことになる。

音圧分布算出部４２で得られた音圧分布情報は、FIFOバッファ３６に供給されて保持される。そして、画像処理部３７は、FIFOバッファ３６から音圧分布情報を読み出して表示用画像を生成する。

これにより、例えば図３に示す表示用画像が得られる。

図３に示す例では、ディスプレイデバイス１３に表示用画像P11が表示される。

なお、この例ではマイクロホンアレイ１２の各マイクロホンは、対象空間の床と平行な２次元平面上に並べられて配置されており、コンテンツ等の音が対象空間の横方向にマイクロホンアレイ１２に向かって放射されたものとする。

表示用画像P11では、対象空間全体における音場の様子、つまり音の波面（音波）の様子が表示されており、特に、ここでは表示用画像P11は対象空間を天井側から俯瞰したときの様子を示す画像となっている。

また、表示用画像P11では、音の波面（音波）を表す曲線の各位置における高さは、それらの各位置における音の振幅を表しており、各位置における濃淡はそれらの位置における音の位相を表している。すなわち、表示用画像P11では、各位置の振幅と位相によって、対象空間内に形成された音場（音圧分布）が可視化されている。

表示用画像P11に示される各位置の振幅と位相とから、対象空間の天井側から出力された音の波面の様子が正確に再現されていることが分かる。このような表示用画像P11を表示すれば、ユーザは音の直進性や反射についても鮮明に観察することができる。

音場可視化システムでは、リアルタイムで表示用画像をディスプレイデバイス１３に表示するようにしてもよいし、オーディオ信号や調和係数を収録データとして保存しておき、後からオフラインで表示用画像を生成して表示させるようにしてもよい。

例えば表示用画像をオフラインで表示させる場合、設定情報により指定する周波数や調和係数の次数を変更して、設定情報に応じた周波数帯域や次数の表示用画像を表示させることも可能である。

この場合、画像処理部３７は表示用画像において複数の周波数（波数）ごとに音圧分布を表示させたり、周波数ごとの表示用画像を個別にまたは同時に表示させたり、複数の周波数からなる周波数帯域について表示用画像を表示させたりすることができる。

なお、表示用画像をリアルタイムで表示する場合であっても、設定情報により周波数や調和係数の次数を変更することもできるし、複数の周波数（波数）ごと等の音圧分布を表示させることは可能である。しかし、リアルタイムでは、オフライン時のように設定情報を変更しながら同じ時刻の表示用画像を設定情報ごとに見比べたりすることは困難である。

以上のように、対象空間全体の音圧分布を示す音圧分布情報を求めることで、その音圧分布情報により示される対象空間全体の音圧分布、つまり音の波面の振幅と位相を示す表示用画像を生成し、対象空間全体に形成された音場を可視化することができる。

特に、音場可視化装置１１では、対象空間のいくつかの位置で音を観測し、その観測結果として得られたオーディオ信号を調和係数に変換することで、実際に音を観測していない位置の音圧も正しく得ることができる。これにより、より簡単かつ正確に音場を可視化することができる。

しかも、収音により得られたオーディオ信号を調和係数に変換し、得られた調和係数から音圧分布を算出して表示用画像を生成する処理はリアルタイムで実行可能であるので、対象空間の音の波面の変化をリアルタイムで観察することができる。

続いて、時間軸マッピング部２２で行われる時間軸マッピング処理について説明する。

対象空間では音は約340m/secの速さで伝搬する。そのため、ディスプレイデバイス１３において、音の伝搬速度に合わせて表示用画像により対象空間の音の波面の変化を表示したとしても、瞬時に音圧分布が変化してしまうので、表示用画像はユーザにとって見辛いものとなってしまう。

そこで、音場可視化装置１１では、時間軸マッピング処理により上述のクロック信号CLK1とクロック信号CLK2のクロック周期（クロック周波数）を調整することで、音圧の算出と、表示用画像の描画のタイミングが調整される。これにより、時間軸が伸縮された適切な表示用画像（映像）がユーザに対して提示されるようになる。

具体的には、通常状態では、例えば30frame/secなどの一定の時間間隔で、つまり一定のクロック周波数で調和係数から音圧分布が算出され、その音圧分布情報から得られた表示用画像がディスプレイデバイス１３に出力される。この場合、例えばクロック信号CLK1とクロック信号CLK2は同じクロック周波数とされる。

その後、イベント検出部３３で、ユーザが詳細に観察したいイベント（音響イベント）、つまり観察したい特定音が検出されると、クロック調整部３４においてクロック信号CLK1とクロック信号CLK2の各クロック周波数が適切に調整される。

これにより、例えばイベントが検出されたタイミング以降における音の波面の変化がスロー表示されるなどされて、ユーザはイベント発生後における対象空間の音の波面をより詳細に観察できるようになる。

ここで、イベント検出とクロック信号の調整についてさらに詳細に説明する。

例えば一例として、イベント検出部３３がユーザによる指定等を受けずに、自動的にイベントを検出する場合、イベント検出部３３は、所定の種別の音として、信号レベルが一定レベルよりも大きい音（オーディオ信号）を検出する検出器を予め保持している。

また、イベント検出部３３は保持している検出器を用いて、マイクロホンアレイ１２で得られ、空間周波数領域変換部４１から供給されるオーディオ信号を常時監視し、供給されたオーディオ信号の信号レベルが所定の閾値を超えたときにイベントが検出されたとする。すなわち、所定の閾値（所定レベル）よりも大きい信号レベルの音が観測されたときに、イベントが検出されたとされる。

なお、所定の信号レベル以下など、信号レベルが所定レベル範囲内である音が観測されたときにイベントが検出されたとされてもよい。また、ここではオーディオ信号の信号レベルに基づいてイベントを検出する例について説明した。しかし、その他、例えば所定の種別の音として、特定の周波数のレベルが所定の閾値（所定レベル）よりも大きい音（時間周波数信号）や、所定の閾値よりも小さい音など、所定範囲内の音が観測された場合にイベントが検出されたとしてもよい。

また、例えばオーディオ信号の各周波数帯域のレベル変動や、オーディオ信号の波形の急峻な変化、オーディオ信号のスペクトル形状などに基づいてイベントを検出するようにしてもよい。

具体的には、例えばスペクトル形状に基づいてイベントが検出される場合、イベント検出部３３は予め定められた特定のスペクトル形状を検出する検出器を保持している。

そしてイベント検出部３３は、保持している検出器と、空間周波数領域変換部４１からの時間周波数信号とに基づいて、特定のスペクトル形状の音が観測されたとき、つまり特定のスペクトル形状の時間周波数信号が供給されたときにイベントが検出されたとする。

なお、イベントの検出に用いられる検出器は、一定レベル以上のオーディオ信号や、特定のスペクトル形状のオーディオ信号など、ユーザが描画したい、つまり観察したい音を検出できるものであれば、どのようなものであってもよい。例えば一般的に用いられている汎用の検出器をイベント検出に利用することができる。

その他、イベント検出部３３が図示せぬカメラから供給された画像など、外部のブロック（装置）から供給された情報に基づいてイベントを検出してもよい。

具体的には、例えばイベント検出部３３が対象空間を被写体とする画像に基づいて、対象空間が明るくなった、または暗くなったなどの空間の明るさの変化や、対象空間に人が入ってきたなどの人の有無をイベントとして検出するようにしてもよい。

また、１または複数の検出器がイベント検出部３３に保持されているようにしてもよい。

例えばイベント検出部３３に複数のイベントごとに検出器が保持されている場合、ユーザはユーザ制御部２１を操作することで、所望のイベントの検出を指示することができる。換言すれば、ユーザはイベント検出に用いる検出器の切り替えを指示することができる。

そのような場合、イベント検出部３３は、予め保持している複数の検出器のうち、ユーザの操作に応じてユーザ制御信号部３１から供給された制御信号により示される検出器を用いて、イベントの検出を行う。

その他、ユーザがユーザ制御部２１を操作して、イベントの検出タイミングを指示するようにしてもよい。そのような場合、ユーザ制御信号部３１は、ユーザの操作に応じた制御信号をイベント検出部３３に供給する。イベント検出部３３は、ユーザ制御信号部３１から制御信号が供給されると、イベントが検出されたとして、イベントが検出された旨の検出結果をクロック調整部３４に供給する。

次に、イベントの検出結果に応じて、クロック信号CLK1とクロック信号CLK2の各クロック周波数を調整する場合の具体的な例について説明する。

クロック調整部３４では、例えば図４に示すようにしてクロック信号CLK1とクロック信号CLK2のクロック周波数が調整される。なお、図４において横方向は時間を示しており、特に図中、右方向が未来方向となっている。

図４では、矢印A11により示される部分には、クロック信号CLK1に従って音圧分布算出部４２により生成された各時刻（タイミング）の音圧分布情報が示されている。

特に、矢印A11により示される部分では、１つの長方形が１つの時刻における音圧分布情報を表している。

音圧分布算出部４２では、例えばクロック信号CLK1の１クロックのタイミング、つまりクロック信号CLK1が立ち上がるタイミングで１つの時刻の音圧分布情報が生成される。したがって、音圧分布情報を表す長方形の図中の横方向の幅が狭いほど、クロック信号CLK1のクロック周波数が高くなる（周期が短くなる）。

また、矢印A12により示される部分には、各時刻において、音圧分布算出部４２から出力され、FIFOバッファ３６に格納（保持）されている音圧分布情報が示されている。

特に、矢印A12により示される部分では、１つの長方形が１つの時刻における音圧分布情報を表している。また、矢印により結ばれている、矢印A11に示す部分の長方形と、矢印A12に示す部分の長方形とは、同じ時刻の音圧分布情報を表している。

矢印A12により示される部分では、音圧分布情報を表す長方形の図中の横方向の幅は、その音圧分布情報がFIFOバッファ３６に保持されている期間を表している。

さらに、矢印A13により示される部分には、各時刻において、FIFOバッファ３６から読み出された音圧分布情報に基づいて画像処理部３７により生成された表示用画像が示されている。換言すれば、矢印A13により示される部分には、画像処理部３７から出力され、ディスプレイデバイス１３に表示された表示用画像が示されている。

特に、矢印A13により示される部分では、１つの長方形が１つの時刻の音圧分布情報から生成された表示用画像、より詳細には表示用画像の１つのフレームを表している。

また、矢印A13に示す部分に示される１つの表示用画像（フレーム）を表す長方形と矢印により結ばれている、矢印A12に示す部分の長方形は、その表示用画像の生成に用いられた音圧分布情報を表している。

矢印A13により示される部分では、１フレーム分の表示用画像を表す長方形の図中の横方向の幅は、その表示用画像のフレームの表示期間、換言すれば表示用画像のフレームレートを表している。

図４の例では、まず表示用画像の表示が指示されると、クロック信号CLK1とクロック信号CLK2の各クロック周波数により定まる表示用画像の再生状態、つまり時間軸の状態（ステート）が通常状態であるSyncステートとされる。

図４では期間T11がSyncステートの期間となっている。

Syncステートでは、クロック信号CLK1とクロック信号CLK2のクロック周波数が同じであり、それらのクロック信号CLK1とクロック信号CLK2が同期した状態とされる。

すなわち、クロック調整部３４は、互いに同期した同じクロック周波数のクロック信号CLK1とクロック信号CLK2を、それぞれ音圧分布算出部４２および画像処理部３７に供給する。

したがって、期間T11では、一定の時間間隔で音圧分布情報が求められてFIFOバッファ３６に保持され、その音圧分布情報から表示用画像が生成されてディスプレイデバイス１３に描画（表示）される。つまり、音圧分布情報の算出と、表示用画像の表示（表示の更新）とが同じ時間間隔で行われる。

このような状態から、例えば矢印Q11に示すタイミングでイベントが検出されると、時間軸の状態は、SyncステートからSlow-Motionステートへと遷移する。Slow-Motionステートでは、表示用画像がスロー表示される。

図４では期間T12がSlow-Motionステートの期間となっている。

クロック調整部３４は、イベント検出部３３からイベントが検出された旨の検出結果が供給されると、時間軸の状態をSlow-Motionステートとする。

具体的には、クロック調整部３４は、クロック信号CLK1のクロック周波数を、Syncステートにおける場合よりも高いクロック周波数に変更し、クロック信号CLK2のクロック周波数はSyncステートにおける場合と同じクロック周波数のままとする。

これにより、Slow-Motionステートでは、音圧分布情報の算出の時間間隔がSyncステートにおける場合よりも短くなるように、クロック調整部３４によって、音圧分布算出部４２による音圧分布情報の算出が制御されたことになる。

クロック信号CLK1のクロック周波数が高くなると、すなわちクロック信号CLK1のクロック周期が短くなると、音圧分布算出部４２では、より高い時間分解能で音圧分布が算出されるようになる。

すなわち、より短い時間区間が対象とされて、それらの時間区間ごとに音圧分布情報が求められ、結果として時間方向により細かく音圧分布の分析が行われるようになる。

このようにして得られた音圧分布情報は、FIFOバッファ３６を介して画像処理部３７に供給され、画像処理部３７では、Syncステートにおける場合と同じクロック周波数のクロック信号CLK2に従って表示用画像が生成される。

この場合、対象空間における音の観測に対して、観測により得られる音の波面の描画、つまり表示用画像による表示の時間軸が相対的に伸張されることになる。

具体的には、表示用画像により示される波面が実際に対象空間で観測された時間、つまり音圧分布情報の算出対象とされた期間は、クロック信号CLK1の１周期分の期間である。換言すれば、音圧分布情報は、クロック信号CLK1の１周期分の時間で更新される。

これに対して、表示用画像の１フレームの提示時間は、クロック信号CLK2の１周期分の期間である。つまり、表示用画像の表示は、クロック信号CLK2の１周期分の時間で更新される。

Slow-Motionステートでは、クロック信号CLK1の周期よりもクロック信号CLK2の周期が長いので、表示用画像の１フレームの提示時間は、その１フレームで表示される音の波面が実際に対象空間で観測された時間（期間）よりも長くなる。

換言すれば、Slow-Motionステートでは、音圧分布情報を算出する時間間隔よりも長い時間間隔で表示用画像の表示が更新されるように、クロック調整部３４によって画像処理部３７が制御される。

これにより、対象空間の音圧分布の時間変化、つまり音の波面の時間変化が実際の時間変化よりも遅く変化するように表示用画像が表示（再生）されることになる。

このような表示用画像の表示は、音の波面の時間変化をスロー表示（スロー再生）することであるといえる。

このように表示用画像をスロー表示することで、ディスプレイデバイス１３上では、対象空間の音の波面が実際よりもゆっくりと変化するので、ユーザは音の波面や、その波面の時間変化を詳細に観察することができる。

Slow-Motionステートであるときに、例えば矢印Q12に示すタイミングでイベントが終了すると、時間軸の状態はSlow-MotionステートからTime-Lapseステートへと遷移する。

図４では期間T13がTime-Lapseステートの期間となっている。

なお、図４の例においては、音圧分布算出部４２では矢印Q12に示すイベント終了のタイミングで直ちにTime-Lapseステートへと遷移するが、画像処理部３７では、Slow-Motionステートの時に得られた音圧分布情報に対応する表示用画像が表示し終えたタイミングでTime-Lapseステートへと遷移する。

換言すれば、クロック調整部３４は、Slow-Motionステートの期間にクロック信号CLK1として出力したクロックの数だけ、Slow-Motionステートのクロック周波数でクロック信号CLK2を出力した後、Time-Lapseステートのクロック周波数のクロック信号CLK2の出力を開始する。

他のステートでの遷移時においても、Slow-MotionステートからTime-Lapseステートへの遷移時と同様のことが行われる。すなわち、時間軸の状態を遷移させるときには、時間軸の各状態においてクロック信号CLK1とクロック信号CLK2とで出力されるクロック数が同じとなるように、各クロック信号のクロック周波数の変更タイミングが制御される。

また、イベント終了のタイミングは、例えばユーザにより設定することが可能である。

具体的には、例えばユーザが予めユーザ制御部２１を操作し、Slow-Motionステートで観察したいイベントの継続時間（長さ）を任意の長さに設定することができる。

この場合、イベント検出部３３は、ユーザの操作に応じてユーザ制御信号部３１から供給された制御信号に基づいて、イベントの継続時間（以下、イベント継続時間とも称する）をユーザにより指定された長さとする。そして、イベント検出部３３は、イベントが検出されてから、定められたイベント継続時間が経過したタイミングで、イベントが終了した旨の検出結果をクロック調整部３４へと供給する。

クロック調整部３４は、イベント検出部３３からイベントが終了した旨の検出結果が供給されると、時間軸の状態をSlow-MotionステートからTime-Lapseステートへと遷移させる。

その他、イベント検出部３３が、空間周波数領域変換部４１から供給されたオーディオ信号等に基づいて、イベントの終了を検出するようにしてもよい。

そのような場合、例えばイベント検出部３３はイベントが検出された後、継続して検出器とオーディオ信号に基づいてイベントの検出を行い、イベントが検出されない状態となったタイミングでイベントが終了したとする。

Time-Lapseステートでは、クロック調整部３４はクロック信号CLK1のクロック周波数をSyncステートにおける場合よりも低いクロック周波数に変更し、クロック信号CLK2のクロック周波数はSyncステートにおける場合と同じクロック周波数のままとする。

これにより、Time-Lapseステートでは音圧分布情報の算出の時間間隔が、Syncステートにおける場合よりも長くなるように、クロック調整部３４によって、音圧分布算出部４２による音圧分布情報の算出が制御されたことになる。

クロック信号CLK1のクロック周波数が低くなると、すなわちクロック信号CLK1のクロック周期が長くなると、音圧分布算出部４２では、より低い時間分解能で音圧分布情報が算出されるようになる。

上述のSyncステートでは、音圧分布情報の算出のタイミングと、表示用画像、つまり音の波面の提示のタイミングとが同期した状態となっていた。

これが、続くSlow-Motionステートでは、表示用画像の提示タイミングは、対応する音圧分布情報の算出のタイミングよりも遅いタイミングとされ、表示用画像の表示を更新するたびに、それらのタイミングのずれが大きくなっていく。

そのため、イベント期間の長さによっては、イベント終了のタイミングでは、現時点の対象空間の音の波面よりも大幅に前のタイミングの波面が表示された状態となってしまっている。

そこでTime-Lapseステートでは、クロック信号CLK1のクロック周波数が、クロック信号CLK2のクロック周波数よりも低くなるように制御することで、音圧分布情報の算出のタイミングと、表示用画像の提示タイミングとのずれが小さくなっていくようにされる。

そうすれば、次第に音圧分布情報の算出のタイミングと、表示用画像の提示タイミングとが同期した状態、つまりSyncステートと同じ状態に近づいていくことになる。

この場合、Slow-Motionステートにおける場合とは逆に、表示用画像上において、対象空間の音の波面の時間変化、つまり音圧分布の時間変化が実際の時間変化よりも速く変化するように表示用画像が表示（高速再生）されることになる。

ここで、Time-Lapseステートにおいて、最終的に音圧分布情報の算出のタイミングと、表示用画像の提示タイミングとが完全に同期した状態とすることができればよいが、クロック信号CLK1やクロック信号CLK2の時間分解能によってはバッファ不足が起きる可能性がある。すなわち、FIFOバッファ３６で音圧分布情報のアンダーフローが生じる可能性がある。

図４では、Time-Lapseステートのままであると、矢印Q13に示すタイミングの直後にバッファ不足（アンダーフロー）が生じるので、ここでは矢印Q13に示すタイミングで、時間軸の状態はTime-LapseステートからSyncingステートへと遷移する。図４では期間T14がSyncingステートの期間となっている。

例えばクロック調整部３４は、FIFOバッファ３６の音圧分布情報の記録状況を参照して、Syncingステートへと遷移するタイミングを特定する。

Syncingステートでは、クロック調整部３４は音圧分布情報の算出のタイミングと、表示用画像の提示タイミングとが同期した状態となるように、クロック信号CLK1のクロック周波数を変更する。特に、Syncingステートでは、クロック信号CLK1のクロック周期が、クロック信号CLK2のクロック周期よりも短くなるようにされる。

具体的にはSyncingステートでは、クロック調整部３４はクロック信号CLK1のクロック周波数が、Slow-Motionステートにおける場合よりも低く、かつSyncステートにおける場合よりも高くなるように、クロック信号CLK1のクロック周波数を変更する。

これにより、Syncingステートでは音圧分布情報の算出の時間間隔が、Slow-Motionステートにおける場合よりも長く、かつSyncステートにおける場合よりも短くなるように、クロック調整部３４によって、音圧分布算出部４２による音圧分布情報の算出が制御されたことになる。

クロック調整部３４は、音圧分布情報の算出のタイミングと、表示用画像の提示タイミングが同期したタイミング、すなわちクロック信号CLK1とクロック信号CLK2が同期したタイミングで、時間軸の状態をSyncingステートからSyncステートへと遷移させる。

具体的には、クロック調整部３４はクロック信号CLK1とクロック信号CLK2のクロック周波数を同じ周波数とする。図４では期間T15がSyncステートの期間となっている。

このようにして再びSyncステートとなると、クロック調整部３４は新たにイベントが検出されるまで、継続してSyncステートが維持された状態とし、新たにイベントが検出されると、時間軸の状態をSyncステートからSlow-Motionステートへと遷移させる。したがって、期間T15は、新たなイベント検出の待機状態の期間となっている。

なお、ここではTime-LapseステートからSyncingステートを経てSyncステートに戻る例について説明した。しかし、Time-Lapseステートでバッファ不足が生じる前にクロック信号CLK1とクロック信号CLK2を同期させることができる場合には、Time-LapseステートからSyncステートに遷移させるようにしてもよい。

また、例えばSlow-Motionステートにおいて、音圧分布情報を保持するFIFOバッファ３６でオーバーフローが生じる可能性もある。そのような場合、クロック調整部３４は、オーバーフローが生じる前のタイミングで、クロック信号CLK2のクロック周波数がSlow-Motionステートにおける場合よりも高くなるように、クロック信号CLK2のクロック周波数を変更するなどしてもよい。

さらに、ここでは説明を分かり易くするため、表示用画像の描画のためのクロック信号CLK2は常に同じクロック周波数とし、音圧分布情報の算出のためのクロック信号CLK1のクロック周波数のみを動的に変化させる例について説明した。

しかし、クロック信号CLK2のクロック周波数を動的に変化させることも可能であり、時間軸マッピング処理では、クロック信号CLK1とクロック信号CLK2の少なくとも何れか一方のクロック周波数が動的に変更されるようにすればよい。

したがって、例えば音圧分布算出部４２における処理負荷が高い場合には、表示用画像の描画のためのクロック信号CLK2や、音圧分布情報の算出のためのクロック信号CLK1のクロック周波数を低くし、音場可視化システムの安定化を図るようにしてもよい。

また、例えば表示用画像に対して時間分解能が高い描画が求められるシーンでは、クロック信号CLK1とクロック信号CLK2の両方のクロック周波数を高くするようにしてもよい。

〈音場可視化処理の説明〉
ここで、音場可視化システムの動作について説明する。なお、ここではリアルタイムで対象空間の音の波面を表示用画像として表示させる例について説明する。

例えば対象空間においてコンテンツの音が再生されるなど、可視化したい音場が形成される前のタイミングで、その音場の可視化、つまり表示用画像の表示が指示されると、音場可視化システムは音場可視化処理を開始する。以下、図５のフローチャートを参照して、音場可視化システムによる音場可視化処理について説明する。

ステップＳ１１においてマイクロホンアレイ１２は、対象空間における音を収音し、その結果得られたマルチチャネルのオーディオ信号を空間周波数領域変換部４１に供給する。

ステップＳ１２において空間周波数領域変換部４１は、供給されたマイク配置情報に基づいて、マイクロホンアレイ１２から供給されたマルチチャネルのオーディオ信号を調和係数に変換し、音圧分布算出部４２に供給する。

例えば空間周波数領域変換部４１は、マルチチャネルのオーディオ信号に対してDFTを行うとともに、DFTにより得られた時間周波数信号に対してSHTまたはCHTを行い、調和係数を算出する。例えば空間周波数領域変換部４１は、SHTを行う場合には上述した式（２）を計算することで球面調和係数を求める。

空間周波数領域変換部４１は、得られた調和係数を音圧分布算出部４２に供給するとともに、マイクロホンアレイ１２から供給されたオーディオ信号、DFTで得られた時間周波数信号、または調和係数をイベント検出部３３に供給する。

ステップＳ１３において音圧分布算出部４２は、ユーザ定義パラメータ部３２から供給された設定情報と、空間周波数領域変換部４１から供給された調和係数とに基づいて対象空間の各位置における音圧を算出することで、音圧分布情報を生成する。

例えば音圧分布算出部４２は、クロック調整部３４から供給されるクロック信号CLK1が立ち上がるタイミングで、設定情報により定まる波数および次数について式（５）を計算し、その結果得られた１時刻分の音圧分布情報をFIFOバッファ３６に供給する。

ステップＳ１４において画像処理部３７は、クロック調整部３４から供給されるクロック信号CLK2が立ち上がるタイミングでFIFOバッファ３６から１時刻分の音圧分布情報を読み出し、その音圧分布情報に基づいて表示用画像を生成する。

ステップＳ１５において画像処理部３７は、ステップＳ１４で生成された表示用画像をディスプレイデバイス１３に供給し、表示用画像を表示させる。これにより、クロック信号CLK2に合わせてディスプレイデバイス１３における表示用画像の表示が更新される。

ステップＳ１６において音場可視化装置１１は、表示用画像を表示させる処理を終了するか否かを判定する。例えばユーザがユーザ制御部２１等を操作して、表示用画像の表示終了を指示した場合、処理を終了すると判定される。

ステップＳ１６において、まだ処理を終了しないと判定された場合、処理はステップＳ１１に戻り、上述した処理が繰り返し行われる。

これに対して、ステップＳ１６において処理を終了すると判定された場合、音場可視化システムの各部は行っている動作を停止し、音場可視化処理は終了する。

以上のようにして音場可視化システムは、対象空間で音を収音し、得られたオーディオ信号を調和係数に変換してから、その調和係数に基づいて音圧分布を算出する。このようにすることで、対象空間の各位置の音圧を簡単かつ正確に求めることができ、より簡単に音場を可視化することができる。

〈クロック調整処理の説明〉
また、音場可視化システムで図５を参照して説明した音場可視化処理が行われている間、音場可視化装置１１では音場可視化処理と並行してクロック調整処理が行われる。以下、図６のフローチャートを参照して、音場可視化装置１１により行われるクロック調整処理について説明する。

ステップＳ４１においてクロック調整部３４は、時間軸の状態をSyncステートとし、同じクロック周波数の同期したクロック信号CLK1およびクロック信号CLK2を、それぞれ音圧分布算出部４２および画像処理部３７に供給する。

ステップＳ４２においてイベント検出部３３は、空間周波数領域変換部４１から供給されたオーディオ信号や、時間周波数信号、調和係数、ユーザ制御信号部３１から供給された制御信号に基づいてイベントを検出する。

例えばイベント検出部３３は、制御信号により指定された検出器を用いて、オーディオ信号や時間周波数信号に基づきイベントを検出したり、特定音の検出タイミングを指示する制御信号が供給されるとイベントが検出されたとしたりする。

イベント検出部３３は、イベントが検出されると、イベントが検出された旨の検出結果をクロック調整部３４に供給し、その後、処理はステップＳ４３へと進む。

ステップＳ４３においてクロック調整部３４は、イベント検出部３３からイベントが検出された旨の検出結果が供給されると、時間軸の状態をSlow-Motionステートとする。

そしてクロック調整部３４は、クロック信号CLK1のクロック周波数をSyncステートにおける場合よりも高いクロック周波数に変更する。

その後、イベント検出から所定時間が経過する等して、イベント検出部３３が、イベントが終了した旨の検出結果をクロック調整部３４に供給すると、処理はステップＳ４４へと進む。

ステップＳ４４においてクロック調整部３４は、時間軸の状態をTime-Lapseステートとし、クロック信号CLK1のクロック周波数をSyncステートにおける場合よりも低いクロック周波数に変更する。

そして、クロック調整部３４はFIFOバッファ３６の記録状況を監視し、FIFOバッファ３６でバッファ不足が起きるタイミングとなると、ステップＳ４５の処理を行う。

すなわち、ステップＳ４５においてクロック調整部３４は、時間軸の状態をSyncingステートとし、クロック信号CLK1とクロック信号CLK2が同期するように、適宜、クロック信号CLK1のクロック周波数を変更する。

そして、クロック信号CLK1とクロック信号CLK2が同期した状態となると、ステップＳ４６においてクロック調整部３４は、時間軸の状態をSyncステートとし、クロック信号CLK1およびクロック信号CLK2が同期した状態を維持する。

ステップＳ４７においてクロック調整部３４は、処理を終了するか否かを判定する。例えば図５のステップＳ１６で処理を終了すると判定されると、ステップＳ４７においても処理を終了すると判定される。

ステップＳ４７において、まだ処理を終了しないと判定された場合、処理はステップＳ４２に戻り、上述した処理が繰り返し行われる。

これに対して、ステップＳ４７において処理を終了すると判定された場合、音場可視化装置１１の各部は行っている処理を停止させ、クロック調整処理は終了する。

以上のようにして音場可視化装置１１は、イベント検出等に応じてクロック信号CLK1およびクロック信号CLK2のクロック周波数を調整（変更）する。

このようにすることで、ユーザはより詳細に表示用画像を観察することができ、またイベント終了後も適切に音圧分布情報の算出と表示用画像の表示（描画）のずれを調整することができる。

〈第１の実施の形態の変形例１〉
〈音場可視化システムの構成例〉
なお、以上においては図１に示したようにディスプレイデバイス１３に表示用画像を表示させる例について説明したが、音場を可視化する音場可視化システムの構成は図１に示した構成に限らず、他のどのような構成であってもよい。

以下、図７乃至図９を参照して、音場可視化システムの他の構成例について説明する。なお、図７乃至図９において図１における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図７に示す例では、音場可視化システムは音場可視化装置１１、マイクロホンアレイ１２、ビデオカメラ７１、映像重畳部７２、およびディスプレイデバイス１３を有している。

この例では、ビデオカメラ７１によって対象空間の画像（映像）が撮影され、その結果得られた撮影画像が映像重畳部７２に供給される。また、映像重畳部７２には、音場可視化装置１１で得られた表示用画像が画像処理部３７から供給される。

映像重畳部７２は、ビデオカメラ７１から供給された撮影画像に対して、画像処理部３７から供給された表示用画像を重畳し、最終的な表示用画像としてディスプレイデバイス１３に供給し、表示させる。

図１に示した音場可視化システムでは、ディスプレイデバイス１３では対象空間における音の波面の様子のみが可視化されて表示されていた。

これに対して、図７に示す音場可視化システムでは、音の波面だけでなく対象空間の様子もディスプレイデバイス１３に表示される。

したがって、ディスプレイデバイス１３を観察するユーザは、実際の対象空間の映像と、その映像上に重畳された音の波面を目視で確認することができる。これにより、実空間で生じている音場（音圧分布）の変化をより観察しやすくすることができる。

また、この場合においてもオーディオ信号や調和係数とともに撮影画像を収録データとして保存しておけば、音場収録後、設定情報としての周波数や次数を変更し、その変更に応じた音の波面と対象空間の様子をオフラインで観察することができる。

〈第１の実施の形態の変形例２〉
〈音場可視化システムの構成例〉
また、例えば図８に示すように、マイクロホンアレイ１２が配置されている対象空間に、音場を可視化した表示用画像を投影させるようにしてもよい。

図８に示す例では、音場可視化システムは音場可視化装置１１、マイクロホンアレイ１２、およびプロジェクタ１０１を有している。

この例では、音場可視化装置１１の画像処理部３７で得られた表示用画像が、画像処理部３７からプロジェクタ１０１へと供給される。

プロジェクタ１０１は、画像処理部３７から供給された表示用画像に基づいて対象空間に光を投影することで、実際の対象空間に重畳させて音の波面の様子を示す表示用画像を表示させる。

このように実際の対象空間に表示用画像を投影することで、実空間で生じている音場（音圧分布）の変化をより観察しやすくするとともに、より理解しやすくすることができる。図８に示す音場可視化システムは、ゲームや施設のアトラクションといった娯楽用途等の運用にも効果的である。

〈第１の実施の形態の変形例３〉
〈音場可視化システムの構成例〉
さらに、本技術は、図９に示すようにARやVRにも適用することができる。

図９に示す音場可視化システムは、音場可視化装置１１、マイクロホンアレイ１２、可視化映像方位仰角補正部１３１、およびゴーグル１３２を有している。

この例では、対象空間にマイクロホンアレイ１２が配置されており、また対象空間にはAR用またはVR用のウェアラブルデバイスであるゴーグル１３２を頭部に装着したユーザがいる状態となっている。

この場合、音場可視化装置１１の画像処理部３７で得られた表示用画像は可視化映像方位仰角補正部１３１に供給される。また、ゴーグル１３２から可視化映像方位仰角補正部１３１には、ゴーグル１３２の向いている方向を示す方向情報が供給される。

例えばゴーグル１３２には、ゴーグル１３２の向きを測定し、その測定結果を方向情報として出力するジャイロセンサ等が設けられており、ゴーグル１３２は常時、方向情報を可視化映像方位仰角補正部１３１に供給する。

可視化映像方位仰角補正部１３１は、ゴーグル１３２から供給された方向情報に応じて、画像処理部３７から供給された表示用画像の方位角や仰角、すなわち表示用画像の表示向きを補正し、補正後の表示用画像をゴーグル１３２に供給する。

ゴーグル１３２は、可視化映像方位仰角補正部１３１から供給された補正後の表示用画像を表示することで、ユーザに対して対象空間の音の波面を提示する。

例えばゴーグル１３２がAR用のものであれば、ゴーグル１３２は半透明の透過型の表示部に補正後の表示用画像を表示することで、ユーザに対して実際の対象空間に重畳させて音の波面を提示することができる。

また、例えばゴーグル１３２がVR用のものであれば、ゴーグル１３２は自身が有するカメラで撮影した対象空間の撮影画像に重畳させて補正後の表示用画像を表示することで、ユーザに対して対象空間に重畳させて音の波面を提示することができる。

このようにすることで、ユーザの頭部の向きに応じて、ユーザの視点位置から見た音の波面（音圧分布）を提示することができる。

〈コンピュータの構成例〉
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

図１０は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

入力部５０６は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、本技術は、以下の構成とすることも可能である。

（１）
空間内の複数の観測位置を示す位置情報と、前記複数の前記観測位置のそれぞれで観測された音のオーディオ信号のそれぞれとに基づいて、第１の時間間隔で、前記空間内の複数の位置における音の振幅または位相を算出する算出部と、
イベントを検出するイベント検出部と、
前記イベントが検出された場合、前記第１の時間間隔よりも短い第２の時間間隔で前記振幅または前記位相が算出されるように制御する調整部と
を備える情報処理装置。
（２）
前記算出部は、前記位置情報に基づいて前記複数の前記観測位置の前記オーディオ信号を空間周波数領域信号に変換し、前記空間周波数領域信号に基づいて前記振幅または前記位相を算出する
（１）に記載の情報処理装置。
（３）
前記調整部は、前記イベントが終了した場合、前記第１の時間間隔よりも長い第３の時間間隔で前記振幅または前記位相が算出されるように制御する
（１）または（２）に記載の情報処理装置。
（４）
算出された前記振幅または前記位相を保持するバッファをさらに備え、
前記調整部は、前記第３の時間間隔で前記振幅または前記位相が算出されているときに、前記バッファにおいて前記振幅または前記位相のアンダーフローが生じる場合、前記第２の時間間隔よりも長く、かつ前記第１の時間間隔よりも短い第４の時間間隔で前記振幅または前記位相が算出されるように制御する
（３）に記載の情報処理装置。
（５）
前記イベント検出部は、ユーザからの指示があった場合、前記イベントが検出されたとする
（１）乃至（４）の何れか一項に記載の情報処理装置。
（６）
前記イベント検出部は、所定の種別の音が検出された場合、前記イベントが検出されたとする
（１）乃至（４）の何れか一項に記載の情報処理装置。
（７）
前記所定の種別の音は、信号レベルが所定レベル範囲内の音である
（６）に記載の情報処理装置。
（８）
前記所定の種別の音は、特定の周波数のレベルが所定レベル範囲内の音である
（６）に記載の情報処理装置。
（９）
前記所定の種別の音は、所定のスペクトル形状の音である
（６）に記載の情報処理装置。
（１０）
前記イベント検出部は、所定のタイミングとなった場合、前記イベントが検出されたとする
（１）乃至（４）の何れか一項に記載の情報処理装置。
（１１）
算出された前記振幅または前記位相に基づいて、前記空間内における音の波面の画像を生成する画像処理部をさらに備える
（１）乃至（１０）の何れか一項に記載の情報処理装置。
（１２）
前記調整部は、前記第２の時間間隔で前記振幅または前記位相が算出されている場合、前記第２の時間間隔よりも長い時間間隔で前記画像の表示が更新されるように制御する
（１１）に記載の情報処理装置。
（１３）
情報処理装置が、
空間内の複数の観測位置を示す位置情報と、前記複数の前記観測位置のそれぞれで観測された音のオーディオ信号のそれぞれとに基づいて、第１の時間間隔で、前記空間内の複数の位置における音の振幅または位相を算出し、
イベントを検出し、
前記イベントが検出された場合、前記第１の時間間隔よりも短い第２の時間間隔で前記振幅または前記位相が算出されるように制御する
情報処理方法。
（１４）
空間内の複数の観測位置を示す位置情報と、前記複数の前記観測位置のそれぞれで観測された音のオーディオ信号のそれぞれとに基づいて、第１の時間間隔で、前記空間内の複数の位置における音の振幅または位相を算出し、
イベントを検出し、
前記イベントが検出された場合、前記第１の時間間隔よりも短い第２の時間間隔で前記振幅または前記位相が算出されるように制御する
ステップを含む処理をコンピュータに実行させるプログラム。

１１音場可視化装置，１２マイクロホンアレイ，１３ディスプレイデバイス，２２時間軸マッピング部，２３描画部，３３イベント検出部，３４クロック調整部，３５算出部，３６ FIFOバッファ，３７画像処理部，４１空間周波数領域変換部，４２音圧分布算出部

Claims

空間内の複数の観測位置を示す位置情報と、前記複数の前記観測位置のそれぞれで観測された音のオーディオ信号のそれぞれとに基づいて、第１の時間間隔で、前記空間内の複数の位置における音の振幅または位相を算出する算出部と、
イベントを検出するイベント検出部と、
前記イベントが検出された場合、前記第１の時間間隔よりも短い第２の時間間隔で前記振幅または前記位相が算出されるように制御する調整部と
を備える情報処理装置。
前記算出部は、前記位置情報に基づいて前記複数の前記観測位置の前記オーディオ信号を空間周波数領域信号に変換し、前記空間周波数領域信号に基づいて前記振幅または前記位相を算出する
請求項１に記載の情報処理装置。
前記調整部は、前記イベントが終了した場合、前記第１の時間間隔よりも長い第３の時間間隔で前記振幅または前記位相が算出されるように制御する
請求項１に記載の情報処理装置。
算出された前記振幅または前記位相を保持するバッファをさらに備え、
前記調整部は、前記第３の時間間隔で前記振幅または前記位相が算出されているときに、前記バッファにおいて前記振幅または前記位相のアンダーフローが生じる場合、前記第２の時間間隔よりも長く、かつ前記第１の時間間隔よりも短い第４の時間間隔で前記振幅または前記位相が算出されるように制御する
請求項３に記載の情報処理装置。
前記イベント検出部は、ユーザからの指示があった場合、前記イベントが検出されたとする
請求項１に記載の情報処理装置。
前記イベント検出部は、所定の種別の音が検出された場合、前記イベントが検出されたとする
請求項１に記載の情報処理装置。
前記所定の種別の音は、信号レベルが所定レベル範囲内の音である
請求項６に記載の情報処理装置。
前記所定の種別の音は、特定の周波数のレベルが所定レベル範囲内の音である
請求項６に記載の情報処理装置。
前記所定の種別の音は、所定のスペクトル形状の音である
請求項６に記載の情報処理装置。
前記イベント検出部は、所定のタイミングとなった場合、前記イベントが検出されたとする
請求項１に記載の情報処理装置。
算出された前記振幅または前記位相に基づいて、前記空間内における音の波面の画像を生成する画像処理部をさらに備える
請求項１に記載の情報処理装置。
前記調整部は、前記第２の時間間隔で前記振幅または前記位相が算出されている場合、前記第２の時間間隔よりも長い時間間隔で前記画像の表示が更新されるように制御する
請求項１１に記載の情報処理装置。
情報処理装置が、
空間内の複数の観測位置を示す位置情報と、前記複数の前記観測位置のそれぞれで観測された音のオーディオ信号のそれぞれとに基づいて、第１の時間間隔で、前記空間内の複数の位置における音の振幅または位相を算出し、
イベントを検出し、
前記イベントが検出された場合、前記第１の時間間隔よりも短い第２の時間間隔で前記振幅または前記位相が算出されるように制御する
情報処理方法。
空間内の複数の観測位置を示す位置情報と、前記複数の前記観測位置のそれぞれで観測された音のオーディオ信号のそれぞれとに基づいて、第１の時間間隔で、前記空間内の複数の位置における音の振幅または位相を算出し、
イベントを検出し、
前記イベントが検出された場合、前記第１の時間間隔よりも短い第２の時間間隔で前記振幅または前記位相が算出されるように制御する
ステップを含む処理をコンピュータに実行させるプログラム。