WO2024084920A1

WO2024084920A1 - 音響処理方法、音響処理装置、及び、プログラム

Info

Publication number: WO2024084920A1
Application number: PCT/JP2023/035546
Authority: WO
Inventors: 成悟榎本; 智一石川; 陽宇佐見; 康太中橋; 宏幸江原; 摩里子山田; 修二宮阪
Original assignee: パナソニックインテレクチュアルプロパティコーポレーションオブアメリカ
Priority date: 2022-10-19
Filing date: 2023-09-28
Publication date: 2024-04-25

Abstract

情報処理方法は、音源から発せられる音を、収音装置を用いて収音した音声信号を取得するステップ（Ｓ１０１）と、前記音声信号に対して、前記収音装置と前記音源との相対位置を時間領域で繰り返し変化させる音響処理を実行するステップ（Ｓ１０３）と、前記音響処理を実行済みの出力音声信号を出力するステップ（Ｓ１０５）とを含む。

Description

音響処理方法、音響処理装置、及び、プログラム

　本開示は、音響処理方法、音響処理装置、及び、プログラムに関する。

　従来、仮想的な三次元空間内で、立体的な音をユーザに知覚させるための音響再生に関する技術が知られている（例えば、特許文献１参照）。また、このような三次元空間内で音源オブジェクトからユーザへと到来するように音を知覚させるためには、元となる音情報から出力音情報を生成する処理が必要となる。ここで、音を受聴するユーザに三次元空間内での臨場感をより感じさせるために、音の定位感を増加させる音響処理が行われることがある。例えば、座標ゆらぎ付加装置から入力された音源座標の方向から音が聴こえてくるように定位感をもたらす立体音響処理装置が知られている（特許文献１参照）。

特開２００５－２９５４１６号公報

　音の定位感を増加させるためにゆらぎを付与する場合、そのゆらぎの付与の音響処理が適切に実行できない場合がある。そこで、本開示では、音響処理をより適切に実行するための音響処理方法等について説明する。

　本開示の一態様に係る音響処理方法は、音源から発せられる音を、収音装置を用いて収音した音声信号を取得するステップと、前記音声信号に対して、前記収音装置と前記音源との相対位置を時間領域で繰り返し変化させる音響処理を実行するステップと、前記音響処理を実行済みの出力音声信号を出力するステップとを含む。

　また、本開示の別の一態様に係る音響処理方法は、仮想音空間内の音源オブジェクトから発せられる音を、前記仮想音空間内の受聴点において受聴したように知覚させる出力音声信号を出力するための音響処理方法であって、前記音源オブジェクトから発せられる音を含む音声信号を取得するステップと、前記受聴点と前記音源オブジェクトとの相対位置を変化させる指示であって、当該指示によって前記相対位置が変化する第１変化量を含む指示を受け付けるステップと、前記音声信号に対して、前記相対位置を前記第１変化量変化させ、かつ、前記相対位置を時間領域で第２変化量繰り返し変化させる音響処理を実行するステップと、前記音響処理を実行済みの前記出力音声信号を出力するステップとを含む。

　また本開示の一態様に係る音響処理装置は、音源から発せられる音を、収音装置を用いて収音した音声信号を取得する取得部と、前記音声信号に対して、前記収音装置と前記音源との相対位置を時間領域で繰り返し変化させる音響処理を実行する処理部と、前記音響処理を実行済みの出力音声信号を出力する出力部とを備える。

　また、本開示の別の一態様に係る音響処理装置は、仮想音空間内の音源オブジェクトから発せられる音を、前記仮想音空間内の受聴点において受聴したように知覚させる出力音声信号を出力するための音響処理装置であって、前記音源オブジェクトから発せられる音を含む音声信号を取得する取得部と、前記受聴点と前記音源オブジェクトとの相対位置を変化させる指示であって、当該指示によって前記相対位置が変化する第１変化量を含む指示を受け付ける受付部と、前記音声信号に対して、前記相対位置を前記第１変化量変化させ、かつ、前記相対位置を時間領域で第２変化量繰り返し変化させる音響処理を実行する処理部と、前記音響処理を実行済みの前記出力音声信号を出力する出力部とを備える。

　また、本開示の一態様は、上記に記載の音響処理方法をコンピュータに実行させるためのプログラムとして実現することもできる。

　なお、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なＣＤ－ＲＯＭなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。

　本開示によれば、音響処理をより適切に実行することが可能となる。

図１は、実施の形態に係る音響再生システムの使用事例を示す概略図である。図２Ａは、実施の形態に係る音響再生システムの使用事例を説明するための図である。図２Ｂは、実施の形態に係る音響再生システムの使用事例を説明するための図である。図３は、実施の形態に係る音響再生システムの機能構成を示すブロック図である。図４は、実施の形態に係る取得部の機能構成を示すブロック図である。図５は、実施の形態に係る処理部の機能構成を示すブロック図である。図６は、実施の形態に係る音響再生システムの別の例を説明するための図である。図７は、実施の形態に係る音響再生システムの別の例を説明するための図である。図８は、実施の形態に係る音響再生システムの別の例を説明するための図である。図９は、実施の形態に係る音響再生システムの別の例を説明するための図である。図１０は、実施の形態に係る音響再生システムの別の例を説明するための図である。図１１は、実施の形態に係る音響再生システムの別の例を説明するための図である。図１２は、実施の形態に係る音響再生システムの別の例を説明するための図である。図１３は、実施の形態に係る音響再生システムの別の例を説明するための図である。図１４は、実施の形態に係る音響再生システムの別の例を説明するための図である。図１５は、実施の形態に係る音響再生システムの別の例を説明するための図である。図１６は、実施の形態に係る音響処理装置の動作を示すフローチャートである。図１７は、実施の形態に係る音響処理の周波数特性について説明するための図である。図１８は、実施の形態に係る、音響処理のゆらぎの大きさについて説明するための図である。図１９は、実施の形態に係る、音響処理のゆらぎの周期及び角度について説明するための図である。図２０は、実施の形態の別例に係る処理部の機能構成を示すブロック図である。図２１は、実施の形態の別例に係る音響処理装置の動作を示すフローチャートである。

　（開示の基礎となった知見）
　従来、仮想的な三次元空間内（以下、三次元音場又は仮想音空間という場合がある）で、立体的な音をユーザに知覚させるための音響再生に関する技術が知られている（例えば、特許文献１参照）。この技術を用いることで、ユーザは仮想空間内の所定位置に音源オブジェクトが存在し、その方向から音が到来するかのごとく、この音を知覚することができる。このように仮想的な三次元空間内の所定位置に音像を定位させるには、例えば、音源オブジェクトの音の信号に対して、立体的な音として知覚されるような両耳間での音の到来時間差、及び、両耳間での音のレベル差（又は音圧差）などを生じさせる計算処理が必要となる。このような計算処理は、立体音響フィルタを適用することによって行われる。立体音響フィルタは、元の音情報に対して、当該フィルタを適用した後の出力音信号が再生されると、音の方向や距離などの位置や音源の大きさ、空間の広さなどが立体感をもって知覚されるようになる情報処理用のフィルタである。

　このような立体音響フィルタの適用の計算処理の一例として、所定方向から到来する音として知覚させるための頭部伝達関数を目的の音の信号に対して畳み込む処理が知られている。この頭部伝達関数の畳み込みの処理を、音源オブジェクトの位置からユーザ位置までの音の到来方向に対して、十分に細かい角度で実施することで、ユーザが体感する臨場感が向上される。

　また、近年、仮想現実（ＶＲ：Ｖｉｒｔｕａｌ　Ｒｅａｌｉｔｙ）に関する技術の開発が盛んに行われている。仮想現実では、三次元音場での音の定位感が映像の臨場感にもつながるため、定位感を増加させるための音響処理が実行されることがある。音の定位感を増加させるためにゆらぎを付与する場合、その効果の観点では全ての音に一様にゆらぎを付与する必要はない。言い換えると、ゆらぎの付与が効果的に作用する条件が存在する。そのような条件を満たす場合のみにゆらぎの付与を行うことで不必要に処理リソースを準備する必要がなくなるため好適といえる。

　より具体的な本開示の概要は、以下の通りである。

　本開示の第１態様に係る音響処理方法は、音源から発せられる音を、収音装置を用いて収音した音声信号を取得するステップと、音声信号に対して、収音装置と音源との相対位置を時間領域で繰り返し変化させる音響処理を実行するステップと、音響処理を実行済みの出力音声信号を出力するステップとを含む。

　このような音響処理方法によれば、収音装置を用いて収音した音声信号のように、集音装置の配置位置が、音源の位置に対して相対的に変化しない等の臨場感が失われる条件である場合に、音響処理によって収音装置と音源との相対位置を時間領域で繰り返し変化させてゆらぎを付与することで、失われた臨場感を再生させることができる。このように、臨場感の再生という観点で音響処理をより適切に実行することが可能となる。

　また、第２態様に係る音響処理方法は、第１態様に記載の音響処理方法であって、音響処理を実行するステップでは、音声信号における音圧の時間領域における変化が、当該変化に関する所定の条件を満たすか否かを判定し、所定の条件を満たすと判定された場合に音響処理を実行し、所定の条件を満たさないと判定された場合に音響処理を実行しない。

　このような音響処理方法によれば、音声信号における音圧の時間領域における変化に関する所定の条件を満たすか否かの判定により音響処理の実行の有無を変化させることができる。

　また、第３態様に係る音響処理方法は、第１又は第２態様に記載の音響処理方法であって、音響処理を実行するステップでは、音声信号を用いて収音装置と音源との位置関係を推定し、推定した位置関係が、当該位置関係に関する所定の条件を満たすか否かを判定し、所定の条件を満たすと判定された場合に音響処理を実行し、所定の条件を満たさないと判定された場合に音響処理を実行しない。

　このような音響処理方法によれば、音声信号を用いて推定した収音装置と音源との位置関係に関する所定の条件を満たすか否かの判定により音響処理の実行の有無を変化させることができる。

　また、第４態様に係る音響処理方法は、第１～第３態様のいずれか１態様に記載の音響処理方法であって、音声信号は、収音時の状況に関する収音状況情報を含み、音響処理を実行するステップでは、音声信号に含まれる収音状況情報が、当該収音状況情報に関する所定の条件を満たすか否かを判定し、所定の条件を満たすと判定された場合に音響処理を実行し、所定の条件を満たさないと判定された場合に音響処理を実行しない。

　このような音響処理方法によれば、音声信号に含まれる収音状況情報に関する所定の条件を満たすか否かの判定により音響処理の実行の有無を変化させることができる。

　また、第５態様に係る音響処理方法は、第１～第４態様のいずれか１態様に記載の音響処理方法であって、音響処理を実行するステップでは、音声信号を用いて収音装置と音源との位置関係を推定し、推定した位置関係に応じた処理条件で音響処理を実行する。

　このような音響処理方法によれば、音声信号を用いて推定した収音装置と音源との位置関係に応じた処理条件で音響処理を実行することができる。

　また、第６態様に係る音響処理方法は、仮想音空間内の音源オブジェクトから発せられる音を、仮想音空間内の受聴点において受聴したように知覚させる出力音声信号を出力するための音響処理方法であって、音源オブジェクトから発せられる音を含む音声信号を取得するステップと、受聴点と音源オブジェクトとの相対位置を変化させる指示であって、当該指示によって相対位置が変化する第１変化量を含む指示を受け付けるステップと、音声信号に対して、相対位置を第１変化量変化させ、かつ、相対位置を時間領域で第２変化量繰り返し変化させる音響処理を実行するステップと、音響処理を実行済みの出力音声信号を出力するステップとを含む。

　このような音響処理方法によれば、仮想音空間内の音源オブジェクトから発せられる音を、仮想音空間内の受聴点において受聴したように知覚させる際に、受聴点と音源オブジェクトとの相対位置を変化させる指示に基づく第１変化量の相対位置の変化とは別に、音声信号ですでに臨場感が失われている場合に、音響処理によって受聴点と音源オブジェクトとの相対位置を時間領域で第２変化量繰り返し変化させてゆらぎを付与することで、失われた臨場感を再生させることができる。このように、臨場感の再生という観点で音響処理をより適切に実行することが可能となる。

　また、第７態様に係る音響処理方法は、第６態様に記載の音響処理方法であって、音源オブジェクトは、実空間のユーザを模しており、音響処理方法は、実空間に設けられた、ユーザを検知するセンサから検知結果を取得するステップをさらに含み、第２変化量は、検知結果に基づき算出される。

　このような音響処理方法によれば、第２変化量として、音源オブジェクトに対応する実空間のユーザを検知するセンサから取得した検知結果により第２変化量を算出することができる。

　また、第８態様に係る音響処理方法は、第６態様に記載の音響処理方法であって、音源オブジェクトは、実空間のユーザを模しており、音響処理方法は、実空間に設けられた、ユーザを検知するセンサから検知結果を取得するステップをさらに含み、第２変化量は、検知結果とは独立して算出される。

　このような音響処理方法によれば、音源オブジェクトに対応する実空間のユーザを検知するセンサから取得した検知結果とは独立して、第２変化量を算出することができる。

　また、第９態様に係る音響処理方法は、第６態様に記載の音響処理方法であって、第２変化量は、第１変化量とは独立して算出される。

　このような音響処理方法によれば、第１変化量とは独立した第２変化量を算出することができる。

　また、第１０態様に係る音響処理方法は、第６態様に記載の音響処理方法であって、第２変化量は、第１変化量が大きいほど大きい数値として算出される。

　このような音響処理方法によれば、第１変化量が大きいほど大きい第２変化量を算出することができる。

　また、第１１態様に係る音響処理方法は、第６態様に記載の音響処理方法であって、第２変化量は、第１変化量が小さいほど大きい数値として算出される。

　このような音響処理方法によれば、第１変化量が小さいほど大きい第２変化量を算出することができる。

　また、第１２態様に係る音響処理方法は、第１～１１のいずれか１態様に記載の音響処理方法であって、音声信号に対する制御情報を取得するステップをさらに含み、音響処理を実行するステップでは、制御情報が、音響処理を実行させることを示していた場合に、音響処理を実行する。

　このような音響処理方法によれば、取得した制御情報が、音響処理を実行させることを示していた場合に、音響処理を実行することができる。

　また、本開示の第１３態様に係る音響処理装置は、音源から発せられる音を、収音装置を用いて収音した音声信号を取得する取得部と、音声信号に対して、収音装置と音源との相対位置を時間領域で繰り返し変化させる音響処理を実行する処理部と、音響処理を実行済みの出力音声信号を出力する出力部とを備える。

　このような音響処理装置によれば、上記に記載の音響処理方法と同様の効果を奏することができる。

　また、本開示の第１４態様に係る音響処理装置は、仮想音空間内の音源オブジェクトから発せられる音を、仮想音空間内の受聴点において受聴したように知覚させる出力音声信号を出力するための音響処理装置であって、音源オブジェクトから発せられる音を含む音声信号を取得する取得部と、受聴点と音源オブジェクトとの相対位置を変化させる指示であって、当該指示によって相対位置が変化する第１変化量を含む指示を受け付ける受付部と、音声信号に対して、相対位置を第１変化量変化させ、かつ、相対位置を時間領域で第２変化量繰り返し変化させる音響処理を実行する処理部と、音響処理を実行済みの出力音声信号を出力する出力部とを備える。

　さらに、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なＣＤ－ＲＯＭなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。

　以下、実施の形態について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。なお、各図は模式図であり、必ずしも厳密に図示されたものではない。また、各図において、実質的に同一の構成に対しては同一の符号を付し、重複する説明は省略又は簡略化される場合がある。

　また、以下の説明において、第１、第２及び第３等の序数が要素に付けられている場合がある。これらの序数は、要素を識別するため、要素に付けられており、意味のある順序に必ずしも対応しない。これらの序数は、適宜、入れ替えられてもよいし、新たに付与されてもよいし、取り除かれてもよい。

　（実施の形態）
　［概要］
　はじめに、実施の形態に係る音響再生システムの概要について説明する。図１は、実施の形態に係る音響再生システムの使用事例を示す概略図である。図１では、音響再生システム１００を使用するユーザ９９が示されている。

　図１に示す音響再生システム１００は、立体映像再生装置２００と同時に使用されている。立体的な画像及び立体的な音を同時に視聴することで、画像が聴覚的な臨場感を、音が視覚的な臨場感をそれぞれ高め合い、画像及び音が撮られた現場に居るかのように体感することができる。例えば、人が会話をする画像（動画像）が表示されている場合に、会話音の音像の定位が当該人の口元とずれている場合にも、ユーザ９９が、当該人の口から発せられた会話音として知覚することが知られている。このように視覚情報によって、音像の位置が補正されるなど、画像と音とが併せられることで臨場感が高められることがある。

　立体映像再生装置２００は、ユーザ９９の頭部に装着される画像表示デバイスである。したがって、立体映像再生装置２００は、ユーザ９９の頭部と一体的に移動する。例えば、立体映像再生装置２００は、図示するように、ユーザ９９の耳と鼻とで支持するメガネ型のデバイスである。

　立体映像再生装置２００は、ユーザ９９の頭部の動きに応じて表示する画像を変化させることで、ユーザ９９が三次元画像空間内で頭部を動かしているように知覚させる。つまり、ユーザ９９の正面に三次元画像空間内の物体が位置しているときに、ユーザ９９が右を向くと当該物体がユーザ９９の左方向に移動し、ユーザ９９が左を向くと当該物体がユーザ９９の右方向に移動する。このように、立体映像再生装置２００は、ユーザ９９の動きに対して、三次元画像空間をユーザ９９の動きとは逆方向に移動させる。

　立体映像再生装置２００は、ユーザ９９の左右の目それぞれに視差分のずれが生じた２つの画像をそれぞれ表示する。ユーザ９９は、表示される画像の視差分のずれに基づき、画像上の物体の三次元的な位置を知覚することができる。なお、音響再生システム１００を睡眠誘導用のヒーリング音の再生に使用する等、ユーザ９９が目を閉じて使用する場合等には、立体映像再生装置２００が同時に使用される必要はない。つまり、立体映像再生装置２００は、本開示の必須の構成要素ではない。立体映像再生装置２００としては、専用の映像表示デバイスの他にも、ユーザ９９が所有するスマートフォン、タブレット装置など、汎用の携帯端末が用いられる場合もある。

　このような汎用の携帯端末には、映像を表示するためのディスプレイの他に、端末の姿勢や動きを検知するための各種のセンサが搭載されている。さらには、情報処理用のプロセッサも搭載され、ネットワークに接続してクラウドサーバなどのサーバ装置と情報の送受信が可能になっている。つまり、立体映像再生装置２００及び音響再生システム１００をスマートフォンと、情報処理機能のない汎用のヘッドフォン等との組み合わせによって実現することもできる。

　この例のように、頭部の動きを検知する機能、映像の提示機能、提示用の映像情報処理機能、音の提示機能、及び、提示用の音情報処理機能を１以上の装置に適切に配置して立体映像再生装置２００及び音響再生システム１００を実現してもよい。立体映像再生装置２００が不要である場合には、頭部の動きを検知する機能、音の提示機能、及び、提示用の音情報処理機能を１以上の装置に適切に配置できればよく、例えば、提示用の音情報処理機能を有するコンピュータ又はスマートフォンなどの処理装置と、頭部の動きを検知する機能及び音の提示機能を有するヘッドフォン等とによって音響再生システム１００を実現することもできる。

　音響再生システム１００は、ユーザ９９の頭部に装着される音提示デバイスである。したがって、音響再生システム１００は、ユーザ９９の頭部と一体的に移動する。例えば、本実施の形態における音響再生システム１００は、いわゆるオーバーイヤーヘッドホン型のデバイスである。なお、音響再生システム１００の形態に特に限定はなく、例えば、ユーザ９９の左右の耳にそれぞれ独立して装着される２つの耳栓型のデバイスであってもよい。

　音響再生システム１００は、ユーザ９９の頭部の動きに応じて提示する音を変化させることで、ユーザ９９が三次元音場内で頭部を動かしているようにユーザ９９に知覚させる。このため、上記したように、音響再生システム１００は、ユーザ９９の動きに対して三次元音場をユーザ９９の動きとは逆方向に移動させる。

　ここで、ユーザ９９が受聴する音の臨場感を高めるという目的で、音にゆらぎを付与する音響処理を実行することがある。例えば、図２Ａ及び図２Ｂは、実施の形態に係る音響再生システムの使用事例を説明するための図である。図２Ａでは、いわゆるビデオ通話をしているユーザが示されている。図２Ａの左図において、音声がヘッドセットのように、口（音源）とヘッドセットのマイク（収音装置）との位置がほとんど変わらない条件で収音される。しかしながら、右図の通話先では、映像上で動くユーザに対して、音源と収音装置との位置がほとんど移動しないことによる違和感が生じる。このような場合に、映像上で動くユーザの動きに合わせた音のゆらぎ、あるいは、会話中のユーザの一般的な動きに合わせた音のゆらぎを適用することで、音の違和感が低減されて臨場感が増加される。

　また、図２Ｂでは、いわゆるヴァーチャルライブ用の歌の音声をスタジオ収音しているユーザが示されている。収音しているユーザは受聴者であるユーザ９９とは異なるユーザであってもよい。例えば、歌手やアーティストなどが想定される。図２Ｂの左図において、ユーザが固定されたマイクに向かって歌うことで歌の音声が収音される。収音された音声を用いて、右図のヴァーチャル映像上で音声を再生し、仮想空間内のライブ会場でユーザを模したアバターが踊りながら歌う映像とともに視聴をすることで、ヴァーチャルライブが実現される。このとき、アバターの動きに追従して音声の再生位置として、仮想音空間内の音源オブジェクト（アバターの頭部）の位置を指定すると、位置は合っていても実際のユーザにあるはずのゆらぎのわずかな動きが再現されず、音の臨場感が減少してしまう。本開示においては、このように、本来あるはずのゆらぎを音声に与えることで、音の臨場感を増加させる音響処理を行う。また、同様の課題が生じる別の状況として、図２Ａのようなビデオ通話でユーザのゆらぎも含めて収音可能な収音装置を用いても、聴者に聞き取りやすい音にするためにＡＧＣ（自動音量調整）と呼ばれる機械的音声処理等が適用されて、音声からゆらぎが抑制されて逆に違和感が生じる場合がある。このような機械的音声処理によって抑制されたゆらぎを再び付与することで、音の違和感を低減して臨場感を増加させることも本開示には含まれる。

　一方、ゆらぎの付与は、出力される出力音信号にフィルタ処理をすることで、音を時間領域で繰り返し移動させるようにして行われる。この処理は、時間領域の連続する２つの時点でそれぞれ異なるフィルタを適用する必要があるため煩雑であり、ゆらぎの効果が見込まれない条件においては、音響処理を適用しないことが望ましい。

　［構成］
　次に、図３を参照して、本実施の形態に係る音響再生システム１００の構成について説明する。図３は、実施の形態に係る音響再生システムの機能構成を示すブロック図である。

　図３に示すように、本実施の形態に係る音響再生システム１００は、情報処理装置１０１と、通信モジュール１０２と、検知器１０３と、ドライバ１０４と、を備える。

　情報処理装置１０１は、音響処理装置の一例であり、音響再生システム１００における各種の信号処理を行うための演算装置である、情報処理装置１０１は、例えば、コンピュータなどの、プロセッサとメモリとを備え、メモリに記憶されたプログラムがプロセッサによって実行される形で実現される。このプログラムの実行によって、以下で説明する各機能部に関する機能が発揮される。

　情報処理装置１０１は、取得部１１１、処理部１２１、及び、信号出力部１４１を有する。情報処理装置１０１が有する各機能部の詳細は、情報処理装置１０１以外の構成の詳細と併せて以下に説明する。

　通信モジュール１０２は、音響再生システム１００への音情報の入力を受け付けるためのインタフェース装置である。通信モジュール１０２は、例えば、アンテナと信号変換器とを備え、無線通信により外部の装置から音情報を受信する。より詳しくは、通信モジュール１０２は、無線通信のための形式に変換された音情報を示す無線信号を、アンテナを用いて受波し、信号変換器により無線信号から音情報への再変換を行う。これにより、音響再生システム１００は、外部の装置から無線通信により音情報を取得する。通信モジュール１０２によって取得された音情報は、取得部１１１によって取得される。このようにして音情報は、情報処理装置１０１に入力される。なお、音響再生システム１００と外部の装置との通信は、有線通信によって行われてもよい。

　音響再生システム１００が取得する音情報は、音源から発せられる音を、収音装置を用いて収音した音声信号である。音情報は、例えば、ＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏ（ＩＳＯ／ＩＥＣ　２３００８－３）、ＭＰＥＧ－Ｉ等の所定の形式で符号化されている。一例として、符号化された音情報には、音響再生システム１００によって再生される所定音についての情報と、当該音の音像を三次元音場内において所定位置に定位させる（つまり所定方向から到来する音として知覚させる）際の定位位置に関する情報と、その他のメタデータとが含まれる。例えば、音情報には第１の所定音及び第２の所定音を含む複数の音に関する情報が含まれ、それぞれの音が再生された際の音像を三次元音場内における異なる位置から到来する音として知覚させるように音像を定位させる。

　この立体的な音によって、例えば、立体映像再生装置２００を用いて視認される画像と併せて、視聴されるコンテンツなどの臨場感を向上することができる。なお、音情報には、所定音についての情報のみが含まれていてもよい。この場合、所定位置に関する情報を別途取得してもよい。また、上記したように、音情報は、第１の所定音に関する第１音情報、及び、第２の所定音に関する第２音情報を含むが、これらを別個に含む複数の音情報をそれぞれ取得し、同時に再生することで三次元音場内における異なる位置に音像を定位させてもよい。このように、入力される音情報の形態に特に限定はなく、音響再生システム１００に各種の形態の音情報に応じた取得部１１１が備えられればよい。

　音情報に含まれるメタデータは、ゆらぎを付与するための音響処理を制御するための制御情報を含む。制御情報は、音響処理を実行するか否かを指定するための情報である。例えば、制御情報において音響処理を実行することが指定されている場合に、さらに所定の条件を満たすか否かを判定して、所定の条件を満たす場合に音響処理を実行してもよいし、所定の条件を満たすか否かの判定によらず、音響処理を実行してもよい。一方で、制御情報において音響処理を実行しないことが指定されている場合には、音響処理を実行しない。このように、所定の条件を満たすか否かの判定と、制御情報において音響処理を実行することが指定されているか否かとの２つのトリガによって、音響処理を実行してもよく、音響処理を実行することが指定されているか否かの１つのトリガによって、音響処理を実行してもよい。制御情報は、メタデータに含まれていなくてもよい。例えば、制御情報は、音響再生システム１００の動作設定によって指定することができ、記憶部に記憶されてもよい。そして、制御情報は、音響再生システム１００の起動時に取得されて上記のように用いられてもよい。

　また、メタデータには、収音状況情報が含まれてもよい。収音状況情報は、音情報に含まれる所定音の収音に係る残響レベル及び雑音レベルである。収音状況情報の詳細については後述する。

　音情報はビットストリームとして取得されてもよい。音情報をビットストリームとして取得する場合のビットストリームの構造例について説明する。ビットストリームには、例えば、音声信号と、メタデータと、が含まれる。音声信号は、音の周波数及び強弱に関する情報などを示す、音が表現された音データである。メタデータは、上述した情報以外の空間情報を含んでいてもよい。空間情報は、音声信号に基づく音を聞くリスナが位置する空間に関する情報である。具体的には、空間情報は、当該音の音像を、音空間（例えば、三次元音場内）における所定の位置に定位させる際の、つまり、リスナに所定方向から到達する音として知覚させる際の当該所定の位置（定位位置）に関する情報である。空間情報には、例えば、音源オブジェクト情報と、リスナの位置を示す位置情報と、が含まれる。

　音源オブジェクト情報は、音声信号に基づく音を発生させる、つまり、音声信号を再生する物体を示すオブジェクトの情報であって、当該物体が配置される実空間に対応する仮想的な空間である音空間に配置される仮想的なオブジェクト（音源オブジェクト）に関する情報である。音源オブジェクト情報は、例えば、音空間に配置される音源オブジェクトの位置を示す情報、音源オブジェクトの向きに関する情報、音源オブジェクトが発する音の指向性に関する情報、音源オブジェクトが生物に属するか否かを示す情報、及び、音源オブジェクトが動体であるか否かを示す情報などを含む。例えば、音声信号は、音源オブジェクト情報が示す１以上の音源オブジェクトに対応している。

　ビットストリームのデータ構造の一例として、ビットストリームは、例えばメタデータ（制御情報）と音声信号とで構成される。

　音声信号とメタデータとは一つのビットストリームに格納されていてもよいし、複数のビットストリームに別々に格納されていてもよい。同様に音声信号とメタデータとは一つのファイルに格納されていてもよいし、複数のファイルに別々に格納されていてもよい。

　ビットストリームは音源ごとに存在してもよいし、再生時間ごとに存在してもよい。再生時間ごとにビットストリームが存在する場合、同時に複数のビットストリームが並列で処理されてもよい。

　メタデータは、ビットストリームごとに付与されてもよく、複数のビットストリームを制御する情報としてまとめて付与されてもよい。また、メタデータは、再生時間ごとに付与されてもよい。

　音声信号とメタデータとは、複数のビットストリーム又は複数のファイルに別々に格納されている場合、一つもしくは一部のビットストリーム又はファイルに関連する他のビットストリーム又はファイルを示す情報が含まれていてもよいし、全てのビットストリーム又はファイルのそれぞれに関連する他のビットストリーム又はファイルを示す情報が含まれていてもよい。ここで、関連するビットストリーム又はファイルとは、例えば、音響処理の際に同時に用いられる可能性のあるビットストリーム又はファイルである。また、関連するビットストリーム又はファイルには、関連する他のビットストリーム又はファイルを示す情報をまとめて記述したビットストリーム又はファイルが含まれていてもよい。

　ここで、関連する他のビットストリーム又はファイルを示す情報とは、例えば、当該他のビットストリームを示す識別子又は他のファイルを示すファイル名又はＵＲＬ（Ｕｎｉｆｏｒｍ　Ｒｅｓｏｕｒｃｅ　Ｌｏｃａｔｏｒ）又はＵＲＩ（Ｕｎｉｆｏｒｍ　Ｒｅｓｏｕｒｃｅ　Ｉｄｅｎｔｉｆｉｅｒ）などである。この場合、取得部１１１は、関連する他のビットストリーム又はファイルを示す情報に基づいてビットストリーム又はファイルを特定又は取得する。また、ビットストリーム内に関連する他のビットストリームを示す情報が含まれていると共に、ビットストリーム内に別のビットストリーム又はファイルに関連するビットストリーム又はファイルを示す情報を含めていてもよい。また、関連するビットストリーム又はファイルを示す情報を含むファイルとは、例えばコンテンツの配信に用いられるマニフェストファイルなどの制御ファイルであってもよい。

　なお、全てのメタデータ又は一部のメタデータは音声信号のビットストリーム以外から取得されてもよい。例えば、音響を制御するメタデータと映像を制御するメタデータとのいずれかがビットストリーム以外から取得されてもよいし、両方のメタデータがビットストリーム以外から取得されてもよい。また、映像を制御するメタデータが音声信号再生システム（音響再生システム１００に対応）で取得されるビットストリームに含まれる場合は、音声信号再生システムは映像の制御に用いることができるメタデータを、画像を表示する表示装置、又は立体映像を再生する立体映像再生装置（例えば、実施の形態における立体映像再生装置２００）に対して出力する機能を備えていてもよい。

　さらに、メタデータに含まれる情報の例について説明する。

　メタデータは、音空間で表現されるシーンを記述するために用いられる情報であってもよい。ここで、シーンとは、メタデータを用いて音声信号再生システムでモデリングされる、音空間における三次元映像及び音響イベントを表すすべての要素の集合体を指す用語である。つまり、ここでいうメタデータとは、音響処理を制御する情報だけでなく、映像処理を制御する情報も含んでいてもよい。勿論、メタデータには、音響処理と映像処理とのいずれか一方だけを制御する情報が含まれていてもよいし、両方の制御に用いられる情報が含まれていてもよい。

　音声信号再生システムは、ビットストリームに含まれるメタデータ及び、追加で取得されるインタラクティブなリスナの位置情報などを用いて、音声信号に音響処理を行うことで、仮想的な音響効果を生成する。本実施の形態では、音響効果のうち、初期反射処理と、障害物処理と、回折処理と、遮断処理と、残響処理とを行う場合を説明するが、メタデータを用いてほかの音響処理を行ってもよい。例えば、音声信号再生システムは、距離減衰効果、ローカリゼーション、ドップラー効果などの音響効果を付加することが考えられる。また、音響効果の全て又は一部のオンオフを切り替える情報、優先度情報をメタデータとして付加してもよい。

　また、一例として、符号化されたメタデータは、音源オブジェクト及び障害物オブジェクトを含む音空間に関する情報と、当該音の音像を音空間内において所定位置に定位させる（つまり、所定方向から到達する音として知覚させる）際の定位位置に関する情報とを含む。ここで、障害物オブジェクトは、音源オブジェクトが発する音がリスナへと到達するまでの間において、例えば音を遮ったり、音を反射したりして、リスナが知覚する音に影響を及ぼし得るオブジェクトである。障害物オブジェクトは、静止物体の他に、人等の動物、又は機械等の動体を含み得る。また、音空間に複数の音源オブジェクトが存在する場合、任意の音源オブジェクトにとっては、他の音源オブジェクトは障害物オブジェクトとなり得る。建材又は無生物などの音を発しないオブジェクトである非発音オブジェクトも、音を発する音源オブジェクトも障害物オブジェクトとなり得る。

　メタデータには、音空間の形状、音空間に存在する障害物オブジェクトの形状情報及び位置情報、音空間に存在する音源オブジェクトの形状情報及び位置情報、並びに音空間におけるリスナの位置及び向きをそれぞれ表す情報の全て又は一部が含まれる。

　音空間は、閉空間又は開空間のいずれであってもよい。また、メタデータには、例えば床、壁、又は天井等の音空間において音を反射し得る構造物の反射率、及び音空間に存在する障害物オブジェクトの反射率を表す情報が含まれる。ここで、反射率は、反射音と入射音とのエネルギーの比であって、音の周波数帯域ごとに設定されている。勿論、反射率は、音の周波数帯域に依らず、一律に設定されていてもよい。音空間が開空間の場合は、例えば一律で設定された減衰率、回折音、初期反射音などのパラメータが用いられてもよい。

　上記の説明では、反射率を例に挙げたが、メタデータに含まれる障害物オブジェクト又は音源オブジェクトに関するパラメータとして、反射率以外の情報を含んでいてもよい。例えば、反射率以外の情報は、音源オブジェクト及び非発音オブジェクトの両方に関わるメタデータとして、オブジェクトの素材に関する情報を含んでいてもよい。具体的には、反射率以外の情報は、拡散率、透過率、吸音率などのパラメータを含んでいてもよい。

　音源オブジェクトに関する情報として、音量、放射特性（指向性）、再生条件、一つのオブジェクトから発せられる音源の数及び種類、並びに、オブジェクトにおける音源領域を指定する情報などを含めてもよい。再生条件では例えば、継続的に流れ続ける音なのか、イベント発動する音なのかが定められてもよい。オブジェクトにおける音源領域は、リスナの位置とオブジェクトの位置との相対的な関係で定めてもよいし、オブジェクトを基準として定めてもよい。オブジェクトにおける音源領域がリスナの位置とオブジェクトの位置との相対的な関係で定められる場合、リスナがオブジェクトを見ている面を基準とし、リスナから見てオブジェクトの右側からは音Ａ、左側からは音Ｂが発せられているようにリスナに知覚させることができる。オブジェクトにおける音源領域がオブジェクトを基準として定められる場合、リスナの見ている方向に関わらず、オブジェクトのどの領域からどの音を出すかは固定にすることができる。例えばオブジェクトを正面から見たときの右側からは高い音、左側からは低い音が流れているようにリスナに知覚させることができる。この場合、リスナがオブジェクトの背面に回り込んだ場合、背面から見て右側からは低い音、左側からは高い音が流れているようにリスナに知覚させることができる。

　空間に関するメタデータとして、初期反射音までの時間、残響時間、直接音と拡散音との比率などを含めることができる。直接音と拡散音との比率がゼロの場合、直接音のみをリスナに知覚させることができる。

　取得部１１１の一例を、図４を用いて説明する。図４は、実施の形態に係る取得部の機能構成を示すブロック図である。図４に示すように、本実施の形態における取得部１１１は、例えば、エンコード音情報入力部１１２、デコード処理部１１３、及び、センシング情報入力部１１４を備える。

　エンコード音情報入力部１１２は、取得部１１１が取得した、符号化された（言い換えるとエンコードされている）音情報が入力される処理部である。エンコード音情報入力部１１２は、入力された音情報をデコード処理部１１３へと出力する。

　デコード処理部１１３は、エンコード音情報入力部１１２から出力された音情報を復号する（言い換えるとデコードする）ことにより音情報に含まれる所定音に関する情報と、所定位置に関する情報とを、以降の処理に用いられる形式で生成する処理部である。

　センシング情報入力部１１４については、検知器１０３の機能とともに、以下に説明する。

　検知器１０３は、ユーザ９９の頭部の動き速度を検知するための装置である。検知器１０３は、ジャイロセンサ、加速度センサなど動きの検知に使用される各種のセンサを組み合わせて構成される。本実施の形態では、検知器１０３は、音響再生システム１００に内蔵されているが、例えば、音響再生システム１００と同様にユーザ９９の頭部の動きに応じて動作する立体映像再生装置２００等、外部の装置に内蔵されていてもよい。この場合、検知器１０３は、音響再生システム１００に含まれなくてもよい。また、検知器１０３として、外部の撮像装置などを用いて、ユーザ９９の頭部の動きを撮像し、撮像された画像を処理することでユーザ９９の動きを検知してもよい。

　検知器１０３は、例えば、音響再生システム１００の筐体に一体的に固定され、筐体の動きの速度を検知する。上記の筐体を含む音響再生システム１００は、ユーザ９９が装着した後、ユーザ９９の頭部と一体的に移動するため、検知器１０３は、結果としてユーザ９９の頭部の動きの速度を検知することができる。

　検知器１０３は、例えば、ユーザ９９の頭部の動きの量として、三次元空間内で互いに直交する３軸の少なくとも一つを回転軸とする回転量を検知してもよいし、上記３軸の少なくとも一つを変位方向とする変位量を検知してもよい。また、検知器１０３は、ユーザ９９の頭部の動きの量として、回転量及び変位量の両方を検知してもよい。

　センシング情報入力部１１４は、検知器１０３からユーザ９９の頭部の動き速度を取得する。より具体的には、センシング情報入力部１１４は、単位時間あたりに検知器１０３が検知したユーザ９９の頭部の動きの量を動きの速度として取得する。このようにしてセンシング情報入力部１１４は、検知器１０３から回転速度及び変位速度の少なくとも一方を取得する。ここで取得されるユーザ９９の頭部の動きの量は、三次元音場内のユーザ９９の位置及び姿勢（言い換えると座標及び向き）を決定するために用いられる。音響再生システム１００では、決定されたユーザ９９の座標及び向きに基づいて、音像の相対的な位置を決定して音が再生される。このため、ユーザ９９の頭部の動きの量によって三次元音場内の受聴点を変更することができる。言い換えると、センシング情報入力部１１４は、受聴点と音像（音源オブジェクト）との相対位置を変化させる指示であって、指示によって相対位置が変化する第１変化量を含む指示を受け付けることができる。なお相対位置とは、収音装置又は受聴点と音像（音源オブジェクト）との相対距離、及び相対方向の少なくとも一方によって表現される、一方に対する他方の位置を示す概念である。

　処理部１２１は、決定されたユーザ９９の座標及び向きに基づいて、所定音について、三次元音場内のいずれの方向から到来する音としてユーザ９９に知覚させるかを上記のユーザ９９の座標及び向きに基づいて決定し、再生される出力音情報がそのような音となるように、音情報を処理する。そして、処理部１２１は、上記の処理とともに、ゆらぎを付与するための音響処理を実行する。ここで付与されるゆらぎは、音源オブジェクトと収音装置との距離が時間領域において繰り返し変化する相対距離のゆらぎと、音源オブジェクトと収音装置との方向が時間領域において繰り返し変化する相対方向のゆらぎとが含まれる。

　図５は、実施の形態に係る処理部の機能構成を示すブロック図である。処理部１２１は、図５に示すように、音響処理を実行するための機能部分として、判定部１２２、記憶部１２３及び実行部１２４を備える。なお、処理部１２１は、上記の音情報の処理に係る機能部分として図示しないその他の機能部分を有する。

　判定部１２２は、音響処理を実行するか否かを決定するための判定を行う。判定部１２２は、例えば、所定の条件を満たすか否かを判定することで、当該所定の条件を満たす場合に音響処理を実行すると決定し、当該所定の条件を満たさない場合に音響処理を実行しないと決定する。所定の条件の詳細については後述する。所定の条件を示す情報は、例えば、記憶部１２３によって記憶デバイスに記憶されている。

　記憶部１２３は、情報を記憶している記憶デバイス（不図示）に情報を格納する、及び、情報を読み出す処理を行う記憶コントローラである。

　実行部１２４は、判定部１２２の判定結果に応じて音響処理を実行する。

　信号出力部１４１は、出力音信号を生成し、生成された出力音信号をドライバ１０４へと出力する機能部である。

　信号出力部１４１は、音の定位置を決定し、その位置に定位させるための処理とともに、判定結果に応じて音響処理が実行された後の音情報に対して、デジタルデータとしての出力音声信号を生成する。そして、信号出力部１４１は、出力音声信号に基づいてデジタル信号からアナログ信号への信号変換などを行うことで、波形信号を生成し、波形信号に基づいてドライバ１０４に音波を発生させ、ユーザ９９に音を提示する。ドライバ１０４は、例えば、振動板とマグネット及びボイスコイルなどの駆動機構とを有する。ドライバ１０４は、波形信号に応じて駆動機構を動作させ、駆動機構によって振動板を振動させる。このようにして、ドライバ１０４は、出力音声信号に応じた振動板の振動により、音波を発生させ（出力音信号を「再生」することを意味する、すなわち、ユーザ９９が知覚することは「再生」の意味には含まれない）、音波が空気を伝播してユーザ９９の耳に伝達し、ユーザ９９が音を知覚する。

　[本実施の形態に係る音響再生システムの別の例]
　上述の例において、本実施の形態に係る音響再生システム１００は、音提示デバイスであり、情報処理装置１０１と、通信モジュール１０２と、検知器１０３と、ドライバ１０４とを備えることを説明したが、音響再生システム１００の機能を複数の装置で実現してもよいし一つの装置で実現してもよい。図６～図１５を用いて説明する。図６～図１５は、実施の形態に係る音響再生システムの別の例を説明するための図である。

　例えば、情報処理装置６０１が音声提示デバイス６０２に含まれ、音声提示デバイス６０２が音響処理と音の提示との両方を行ってもよい。また、情報処理装置６０１と音声提示デバイス６０２とが本開示で説明する音響処理を分担して実施してもよいし、情報処理装置６０１又は音声提示デバイス６０２とネットワークを介して接続されたサーバが本開示で説明する音響処理の一部又は全体を実施してもよい。

　なお、上記説明では、情報処理装置６０１と呼んでいるが、情報処理装置６０１が音声信号又は音響処理に用いる空間情報の少なくとも一部のデータを符号化して生成されたビットストリームを復号して音響処理を実施する場合、情報処理装置６０１は復号装置と呼ばれてもよいし、音響再生システム１００（つまり、図中の立体音響再生システム６００）は、復号処理システムと呼ばれてもよい。

　ここでは、音響再生システム１００が復号処理システムとして機能する例について説明する。

　＜符号化装置の例＞
　図７は、本開示の符号化装置の一例である符号化装置７００の構成を示す機能ブロック図である。

　入力データ７０１はエンコーダ７０２に入力される空間情報及び／又は音声信号を含む符号化対象となるデータである。空間情報の詳細については後で説明する。

　エンコーダ７０２は、入力データ７０１を符号化して、符号化データ７０３を生成する。符号化データ７０３は、例えば、符号化処理によって生成されたビットストリームである。

　メモリ７０４は、符号化データ７０３を格納する。メモリ７０４は、例えば、ハードディスク又はＳＳＤ（Ｓｏｌｉｄ－Ｓｔａｔｅ　Ｄｒｉｖｅ）であってもよいし、その他の記憶装置であってもよい。

　なお、上記説明ではメモリ７０４に記憶される符号化データ７０３の一例として符号化処理によって生成されたビットストリームを挙げたが、ビットストリーム以外のデータであってもよい。例えば、符号化装置７００は、ビットストリームを所定のデータフォーマットに変換して生成された変換後のデータをメモリ７０４に記憶してもよい。変換後のデータは、例えば、一又は複数のビットストリームを格納したファイル又は多重化ストリームであってもよい。ここで、ファイルは、例えばＩＳＯＢＭＦＦ（ＩＳＯ　Ｂａｓｅ　Ｍｅｄｉａ　Ｆｉｌｅ　Ｆｏｒｍａｔなどのファイルフォーマットを有するファイルである。また、符号化データ７０３は、上記のビットストリーム又はファイルを分割して生成された複数のパケットの形式であってもよい。エンコーダ７０２で生成されたビットストリームをビットストリームとは異なるデータに変換する場合、符号化装置７００は、図示されていない変換部を備えていてもよいし、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）で変換処理を行ってもよい。

　＜復号装置の例＞
　図８は、本開示の復号装置の一例である復号装置８００の構成を示す機能ブロック図である。

　メモリ８０４は、例えば、符号化装置７００で生成された符号化データ７０３と同じデータを格納している。メモリ８０４は、保存されているデータを読み出し、デコーダ８０２の入力データ８０３として入力する。入力データ８０３は、例えば、復号対象となるビットストリームである。メモリ８０４は、例えば、ハードディスク又はＳＳＤであってもよいし、その他の記憶装置であってもよい。

　なお、復号装置８００は、メモリ８０４が記憶しているデータをそのまま入力データ８０３とするのではなく、読み出したデータを変換して生成された変換後のデータを入力データ８０３としてもよい。変換前のデータは、例えば、一又は複数のビットストリームを格納した多重化データであってもよい。ここで、多重化データは、例えばＩＳＯＢＭＦＦなどのファイルフォーマットを有するファイルであってもよい。また、変換前のデータは、上記のビットストリーム又はファイルを分割して生成された複数のパケットの形式であってもよい。メモリ８０４から読み出したビットストリームとは異なるデータをビットストリームに変換する場合、復号装置８００は、図示されていない変換部を備えていてもよいし、ＣＰＵで変換処理を行ってもよい。

　デコーダ８０２は、入力データ８０３を復号して、リスナに提示される音声信号８０１を生成する。

　＜符号化装置の別の例＞
　図９は、本開示の符号化装置の別の一例である符号化装置９００の構成を示す機能ブロック図である。図９では、図７の構成と同じ機能を有する構成に図７の構成と同じ符号を付しており、これらの構成については説明を省略する。

　符号化装置７００は符号化データ７０３を記憶するメモリ７０４を備えているのに対し、符号化装置９００は符号化データ７０３を外部に対して送信する送信部９０１を備える点で符号化装置７００と異なる。

　送信部９０１は、符号化データ７０３又は符号化データ７０３を変換して生成した別のデータ形式のデータに基づいて送信信号９０２を別の装置又はサーバに対して送信する。送信信号９０２の生成に用いられるデータは、例えば、符号化装置７００で説明したビットストリーム、多重化データ、ファイル、又はパケットである。

　＜複合装置の別の例＞
　図１０は、本開示の復号装置の別の一例である復号装置１０００の構成を示す機能ブロック図である。図１０では、図８の構成と同じ機能を有する構成に図８の構成と同じ符号を付しており、これらの構成については説明を省略する。

　復号装置８００は入力データ８０３を読み出すメモリ８０４を備えているのに対し、復号装置１０００は入力データ８０３を外部から受信する受信部１００１を備える点で復号装置８００と異なる。

　受信部１００１は、受信信号１００２を受信して受信データを取得し、デコーダ８０２に入力される入力データ８０３を出力する。受信データは、デコーダ８０２に入力される入力データ８０３と同じであってもよいし、入力データ８０３とは異なるデータ形式のデータであってもよい。受信データが、入力データ８０３と異なるデータ形式のデータの場合、受信部１００１が受信データを入力データ８０３に変換してもよいし、復号装置１０００が備える図示されていない変換部又はＣＰＵが受信データを入力データ８０３に変換してもよい。受信データは、例えば、符号化装置９００で説明したビットストリーム、多重化データ、ファイル、又はパケットである。

　＜デコーダの機能説明＞
　図１１は、図８又は図１０におけるデコーダ８０２の一例であるデコーダ１１００の構成を示す機能ブロック図である。

　入力データ８０３は符号化されたビットストリームであり、符号化された音声信号である符号化音声データと音響処理に用いるメタデータとを含んでいる。

　空間情報管理部１１０１は、入力データ８０３に含まれるメタデータを取得して、メタデータを解析する。メタデータは、音空間に配置された音に作用する要素を記述した情報を含む。空間情報管理部１１０１は、メタデータを解析して得られた音響処理に必要な空間情報を管理し、レンダリング部１１０３に対して空間情報を提供する。なお、本開示では音響処理に用いる情報が空間情報と呼ばれているが、それ以外の呼び方であってもよい。当該音響処理に用いる情報は、例えば、音空間情報と呼ばれてもよいし、シーン情報と呼ばれてもよい。また、音響処理に用いる情報が経時的に変化する場合、レンダリング部１１０３に入力される空間情報は、空間状態、音空間状態、シーン状態などと呼ばれてもよい。

　また、空間情報は音空間ごと又はシーンごとに管理されていてもよい。例えば、異なる部屋を仮想空間として表現する場合、それぞれの部屋が異なる音空間のシーンとして管理されてもよいし、同じ空間であっても表現する場面に応じて異なるシーンとして空間情報が管理されてもよい。空間情報の管理において、それぞれの空間情報を識別する識別子が付与されておいてもよい。空間情報のデータは、入力データ８０３の一形態であるビットストリームに含まれていてもよいし、ビットストリームが空間情報の識別子を含み、空間情報のデータはビットストリーム以外から取得してもよい。ビットストリームに空間情報の識別子のみが含まれる場合、レンダリング時に空間情報の識別子を用いて、音響信号処理装置のメモリ又は外部のサーバに記憶された空間情報のデータが入力データとして取得されてもよい。

　なお、空間情報管理部１１０１が管理する情報は、ビットストリームに含まれる情報に限定されない。例えば、入力データ８０３は、ビットストリームには含まれないデータとして、ＶＲ又はＡＲを提供するソフトウェアアプリケーション又はサーバから取得された空間の特性又は構造を示すデータを含んでいてもよい。また、例えば、入力データ８０３は、ビットストリームには含まれないデータとして、リスナ又はオブジェクトの特性又は位置などを示すデータを含んでいてもよい。また、入力データ８０３は、リスナの位置を示す情報として復号装置を含む端末が備えるセンサで取得された情報、又は、センサで取得された情報に基づいて推定された端末の位置を示す情報を含んでいてもよい。つまり、空間情報管理部１１０１は、外部のシステム又はサーバと通信し、空間情報及びリスナの位置を取得してもよい。また、空間情報管理部１１０１が外部のシステムからクロック同期情報を取得し、レンダリング部１１０３のクロックと同期する処理を実行してもよい。なお、上記の説明における空間は、仮想的に形成された空間、つまりＶＲ空間であってもよいし、実空間又は実空間に対応する仮想空間、つまりＡＲ空間又はＭＲ（Ｍｉｘｅｄ　Ｒｅａｌｉｔｙ）空間であってもよい。また、仮想空間は音場又は音空間と呼ばれてもよい。また、上記の説明における位置を示す情報は、空間内における位置を示す座標値などの情報であってもよいし、所定の基準位置に対する相対位置を示す情報であってもよいし、空間内の位置の動き又は加速度を示す情報であってもよい。

　音声データデコーダ１１０２は、入力データ８０３に含まれる符号化音声データを復号して、音声信号を取得する。

　立体音響再生システム６００が取得する符号化音声データは、例えば、ＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏ（ＩＳＯ／ＩＥＣ　２３００８－３）等の所定の形式で符号化されたビットストリームである。なお、ＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏはあくまでビットストリームに含まれる符号化音声データを生成する際に利用可能な符号化方式の一例であり、他の符号化方式で符号化されたビットストリームと符号化音声データとして含んでいてもよい。例えば、用いられる符号化方式は、ＭＰ３（ＭＰＥＧ－１　Ａｕｄｉｏ　Ｌａｙｅｒ－３）、ＡＡＣ（Ａｄｖａｎｃｅｄ　Ａｕｄｉｏ　Ｃｏｄｉｎｇ）、ＷＭＡ（Ｗｉｎｄｏｗｓ　Ｍｅｄｉａ　Ａｕｄｉｏ）、ＡＣ３（Ａｕｄｉｏ　Ｃｏｄｅｃ－３）、Ｖｏｒｂｉｓなどの非可逆コーデックであってもよいし、ＡＬＡＣ（Ａｐｐｌｅ　Ｌｏｓｓｌｅｓｓ　Ａｕｄｉｏ　Ｃｏｄｅｃ）、ＦＬＡＣ（Ｆｒｅｅ　Ｌｏｓｓｌｅｓｓ　Ａｕｄｉｏ　Ｃｏｄｅｃ）などの可逆コーデックであってもよいし、上記以外の任意の符号化方式が用いられてもよい。例えば、ＰＣＭ（Ｐｕｌｓｅ　Ｃｏｄｅ　Ｍｏｄｕｌａｔｉｏｎ）データが符号化音声データの一種であるとしてもよい。この場合、復号処理は、例えば、当該ＰＣＭデータの量子化ビット数がＮである場合、Ｎビットの二進数を、レンダリング部１１０３が処理できる数形式（例えば浮動小数点形式）に変換する処理としてもよい。

　レンダリング部１１０３は、音声信号と空間情報とを入力とし、空間情報を用いて音声信号に音響処理を施して、音響処理後の音声信号８０１を出力する。

　空間情報管理部１１０１は、レンダリングを開始する前に、入力信号のメタデータを読み込み、空間情報で規定されたオブジェクト又は音などのレンダリングアイテムを検出し、レンダリング部１１０３に送信する。レンダリング開始後、空間情報管理部１１０１は、空間情報及びリスナの位置の経時的な変化を把握し、空間情報を更新して管理する。そして、空間情報管理部１１０１は、更新された空間情報をレンダリング部１１０３に送信する。レンダリング部１１０３は入力データに含まれる音声信号と、空間情報管理部１１０１から受信した空間情報とに基づいて音響処理を付加した音声信号を生成し出力する。

　空間情報の更新処理と、音響処理を付加した音声信号の出力処理とが同じスレッドで実行されてもよいし、空間情報管理部１１０１とレンダリング部１１０３とはそれぞれ独立したスレッドに配分してもよい。空間情報の更新処理と、音響処理を付加した音声信号の出力処理とが異なるスレッドで処理される場合、スレッドの起動頻度が個々に設定されてもよいし、並行して処理が実行されてもよい。

　空間情報管理部１１０１とレンダリング部１１０３とが異なる独立したスレッドで処理を実行することで、レンダリング部１１０３に優先的に演算資源を割り当てることができるので、僅かな遅延も許容できないような出音処理の場合、例えば、１サンプル（０．０２ｍｓｅｃ）でも遅延した場合にプチっというノイズが発生するような出音処理であっても安全に実施することができる。その際、空間情報管理部１１０１には演算資源の割り当てが制限される。しかし、空間情報の更新は、音声信号の出力処理と比較して、低頻度の処理（例えば、受聴者の顔の向きの更新のような処理）である。このため、音声信号の出力処理のように必ずしも瞬間的に応答しなければならないというものではないので、演算資源の割り当てを制限しても受聴者に与えられる音響的な品質に大きな影響はない。

　空間情報の更新は、予め設定された時間又は期間ごとに定期的に実行されてもよいし、予め設定された条件が満たされた場合に実行されてもよい。また、空間情報の更新は、リスナ又は音空間の管理者によって手動で実行されてもよいし、外部システムの変化をトリガとして実行されてもよい。例えば、受聴者がコントローラを操作して、自身のアバターの立ち位置を瞬間的にワープしたり、時刻を瞬時に進めたり戻したり、或いは、仮想空間の管理者が、突如、場の環境を変更するような演出を施したりした場合、空間情報管理部１１０１が配置されたスレッドは、定期的な起動に加えて、単発的な割り込み処理として起動されてもよい。

　空間情報の更新処理を実行する情報更新スレッドが担う役割は、例えば、受聴者が装着しているＶＲゴーグルの位置又は向きに基づいて、仮想空間内に配置された受聴者のアバターの位置又は向きを更新する処理、及び、仮想空間内を移動している物体の位置の更新などであり、数１０Ｈｚ程度の比較的低頻度で起動する処理スレッド内で賄われるものである。そのような、発生頻度の低い処理スレッドで直接音の性質を反映させる処理が行われるようにしてもよい。それは、オーディオ出力のためのオーディオ処理フレームの発生頻度より直接音の性質が変動する頻度が低いためである。むしろそうすることで、当該処理の演算負荷を相対的に小さくすることができるし、不必要に速い頻度で情報を更新するとパルシブなノイズが発生するリスクが生じるので、そのリスクを回避することもできる。

　図１２は、図８又は図１０におけるデコーダ８０２の別の一例であるデコーダ１２００の構成を示す機能ブロック図である。

　図１２は、入力データ８０３が、符号化音声データではなく符号化されていない音声信号を含んでいる点で図１１と異なる。入力データ８０３は、メタデータを含むビットストリームと音声信号を含む。

　空間情報管理部１２０１は、図１１の空間情報管理部１１０１と同じであるため説明を省略する。

　レンダリング部１２０２は、図１１のレンダリング部１１０３と同じであるため説明を省略する。

　なお、上記説明では図１２の構成がデコーダと呼ばれているが、音響処理を実施する音響処理部と呼ばれてもよい。また、音響処理部を含む装置が復号装置ではなく音響処理装置と呼ばれてもよい。また、音響信号処理装置（情報処理装置６０１）が音響処理装置と呼ばれてもよい。

　＜符号化装置の物理的構成＞
　図１３は、符号化装置の物理的構成の一例を示す図である。また、図１３に示される符号化装置は、上記の符号化装置７００及び９００などの一例である。

　図１３の符号化装置は、プロセッサと、メモリと、通信ＩＦとを備える。

　プロセッサは、例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）又はＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）又はＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）であり、当該ＣＰＵ又はＤＳＰ又はＧＰＵがメモリに記憶されたプログラム実行することで本開示の符号化処理を実施してもよい。また、プロセッサは、本開示の符号化処理を含む音声信号に対する信号処理を行う専用回路であってもよい。

　メモリは、例えば、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）又はＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）で構成される。メモリは、ハードディスクなどの磁気記憶媒体又はＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）などの半導体メモリなどを含んでいてもよい。また、ＣＰＵ又はＧＰＵに組み込まれた内部メモリを含めてメモリと呼ばれてもよい。

　通信ＩＦ（Ｉｎｔｅｒ　Ｆａｃｅ）は、例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）又はＷＩＧＩＧ（登録商標）などの通信方式に対応した通信モジュールである。符号化装置は、通信ＩＦを介して他の通信装置と通信を行う機能を有し、符号化されたビットストリームを送信する。

　通信モジュールは、例えば、通信方式に対応した信号処理回路とアンテナとで構成される。上記の例では、通信方式としてＢｌｕｅｔｏｏｔｈ（登録商標）又はＷＩＧＩＧ（登録商標）を例に挙げたが、ＬＴＥ（Ｌｏｎｇ　Ｔｅｒｍ　Ｅｖｏｌｕｔｉｏｎ）、ＮＲ（Ｎｅｗ　Ｒａｄｉｏ）、又はＷｉ－Ｆｉ（登録商標）などの通信方式に対応していてもよい。また、通信ＩＦは、上記のような無線通信方式ではなく、Ｅｔｈｅｒｎｅｔ（登録商標）、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）、ＨＤＭＩ（登録商標）（Ｈｉｇｈ－Ｄｅｆｉｎｉｔｉｏｎ　Ｍｕｌｔｉｍｅｄｉａ　Ｉｎｔｅｒｆａｃｅ）などの有線の通信方式であってもよい。

　＜音響信号処理装置の物理的構成＞
　図１４は、音響信号処理装置の物理的構成の一例を示す図である。なお、図１４の音響信号処理装置は、復号装置であってもよい。また、ここで説明する構成の一部は音声提示装置６０２に備えられていてもよい。また、図１４に示される音響信号処理装置は、上記の音響信号処理装置６０１の一例である。

　図１４の音響信号処理装置は、プロセッサと、メモリと、通信ＩＦと、センサと、スピーカとを備える。

　プロセッサは、例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）又はＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）又はＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）であり、当該ＣＰＵ又はＤＳＰ又はＧＰＵがメモリに記憶されたプログラム実行することで本開示の音響処理又はデコード処理を実施してもよい。また、プロセッサは、本開示の音響処理を含む音声信号に対する信号処理を行う専用回路であってもよい。

　通信ＩＦ（Ｉｎｔｅｒ　Ｆａｃｅ）は、例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）又はＷＩＧＩＧ（登録商標）などの通信方式に対応した通信モジュールである。図２Ｉに示される音響信号処理装置は、通信ＩＦを介して他の通信装置と通信を行う機能を有し、復号対象のビットストリームを取得する。取得したビットストリームは、例えば、メモリに格納される。

　センサは、リスナの位置又は向きを推定するためのセンシングを行う。具体的には、センサは、リスナの頭部など身体の一部又は全体の位置、向き、動き、速度、角速度、又は加速度などのうちいずれか一つ又は複数の検出結果に基づいてリスナの位置及び／又は向きを推定し、リスナの位置及び／又は向きを示す位置情報を生成する。なお、位置情報は実空間におけるリスナの位置及び／又は向きを示す情報であってもよいし、所定の時点におけるリスナの位置及び／又は向きを基準としたリスナの位置及び／又は向きの変位を示す情報であってもよい。また、位置情報は、立体音響再生システム又はセンサを備える外部装置との相対的な位置及び／又は向きを示す情報であってもよい。

　センサは、例えば、カメラなどの撮像装置又はＬｉＤＡＲ（Ｌｉｇｈｔ　Ｄｅｔｅｃｔｉｏｎ　Ａｎｄ　Ｒａｎｇｉｎｇ）などの測距装置であってもよく、リスナの頭部の動きを撮像し、撮像された画像を処理することでリスナの頭部の動きを検知してもよい。また、センサとして例えばミリ波などの任意の周波数帯域の無線を用いて位置推定を行う装置を用いてもよい。

　なお、図１４に示される音響信号処理装置は、センサを備える外部の機器から通信ＩＦを介して位置情報を取得してもよい。この場合、音響信号処理装置はセンサを含んでいなくてもよい。ここで、外部の機器とは、例えば図６で説明した音声提示装置６０２又は、リスナの頭部に装着される立体映像再生装置などである。このときセンサは、例えば、ジャイロセンサ及び加速度センサなど各種のセンサを組み合わせて構成される。

　センサは、例えば、リスナの頭部の動きの速度として、音空間内で互いに直交する３軸の少なくとも１つを回転軸とする回転の角速度を検知してもよいし、上記３軸の少なくとも１つを変位方向とする変位の加速度を検知してもよい。

　センサは、例えば、リスナの頭部の動きの量として、音空間内で互いに直交する３軸の少なくとも１つを回転軸とする回転量を検知してもよいし、上記３軸の少なくとも１つを変位方向とする変位量を検知してもよい。具体的には、センサは、リスナの位置として６ＤｏＦ（位置（ｘ、ｙ、ｚ）及び角度（ｙａｗ、ｐｉｔｃｈ、ｒｏｌｌ））を検知する。センサは、ジャイロセンサ及び加速度センサなど動きの検知に使用される各種のセンサを組み合わせて構成される。

　なお、センサは、リスナの位置を検出できればよく、カメラ又はＧＰＳ（Ｇｌｏｂａｌ　Ｐｏｓｉｔｉｏｎｉｎｇ　Ｓｙｓｔｅｍ）受信機などにより実現されてもよい。ＬｉＤＡＲ（Ｌａｓｅｒ　Ｉｍａｇｉｎｇ　Ｄｅｔｅｃｔｉｏｎ　ａｎｄ　Ｒａｎｇｉｎｇ）等を用いて自己位置推定を実施して得られた位置情報を用いてもよい。例えば、センサは、音声信号再生システムがスマートフォンにより実現される場合には、スマートフォンに内蔵される。

　また、センサには、図１４に示される音響信号処理装置の温度を検出する熱電対などの温度センサ、及び、音響信号処理装置が備える、又は音響信号処理装置と接続されたバッテリの残量を検出するセンサなどが含まれていてもよい。

　スピーカは、例えば、振動板と、マグネット又はボイスコイル等の駆動機構とアンプとを有し、音響処理後の音声信号を音としてリスナに提示する。スピーカは、アンプを介して増幅させた音声信号（より具体的には、音の波形を示す波形信号）に応じて駆動機構を動作させ、駆動機構によって振動板を振動させる。このようにして、音声信号に応じて振動する振動板は、音波を発生させ、音波が空気を伝播してリスナの耳に伝達し、リスナが音を知覚する。

　なお、ここでは図１４に示される音響信号処理装置がスピーカを備え、当該スピーカを介して音響処理後の音声信号を提示する場合を例に挙げて説明したが、音声信号の提示手段は上記の構成に限定されない。例えば、通信モジュールで接続された外部の音声提示装置６０２に音響処理後の音声信号が出力されてもよい。通信モジュールで行う通信は有線でも無線でもよい。また別の例として、図１４に示される音響信号処理装置が音声のアナログ信号を出力する端子を備え、端子にイヤホンなどのケーブルを接続してイヤホンなどから音声信号を提示してもよい。上記の場合、音声提示装置６０２であるリスナの頭部又は体の一部に装着されるヘッドフォン、イヤホン、ヘッドマウントディスプレイ、ネックスピーカー、ウェアラブルスピーカー、又は固定された複数のスピーカで構成されたサラウンドスピーカーなどが音声信号を再生する。

　＜レンダリング部の機能説明＞
　図１５は、図１１および図１２のレンダリング部１１０３および１２０２の詳細な構成の一例を示す機能ブロック図である。

　レンダリング部は、解析部と、合成部とで構成され、入力信号に含まれる音データに対して音響処理を付加し出力する。

　以下、入力信号に含まれる情報について説明する。

　入力信号は、例えば、空間情報とセンサ情報と音データとで構成される。入力信号は、音データとメタデータ（制御情報）とで構成されるビットストリームを含んでいてもよく、その場合メタデータに空間情報が含まれていてもよい。

　空間情報は、立体音響再生システムが作り出す音空間（三次元音場）に関する情報であって、音空間に含まれるオブジェクトに関する情報とリスナに関する情報とで構成される。オブジェクトには、音を発し音源となる音源オブジェクトと、音を発しない非発音オブジェクトが存在する。非発音オブジェクトは、音源オブジェクトが発した音を反射する障害物オブジェクトとして機能するが、音源オブジェクトが別の音源オブジェクトが発した音を反射する障害物オブジェクトとして機能する場合もある。

　音源オブジェクトと非発音オブジェクトに共通して付与される情報として、位置情報や形状情報、オブジェクトが音を反射する際の音量の減衰率などがある。

　位置情報は、ユークリッド空間の例えばＸ軸、Ｙ軸、Ｚ軸の３軸の座標値で表されるが、必ずしも三次元情報でなくてもよい。例えば、Ｘ軸、Ｙ軸の２軸の座標値で表される二次元情報であってもよい。オブジェクトの位置情報は、メッシュやボクセルで表現される形状の代表位置で定められる。

　形状情報は、表面の素材に関する情報を含んでいてもよい。

　また、オブジェクトが生物に属するか否かを示す情報やオブジェクトが動体であるか否かを示す情報などを含んでいてもよい。オブジェクトが動体である場合、位置情報は時間とともに移動してもよく、変化した位置情報または変化量がレンダリング部に伝送される。

　音源オブジェクトに関する情報は、上述した音源オブジェクトと非発音オブジェクトに共通して付与される情報に加えて、音データと音データを音空間内に放射するために必要な情報とを含む。

　音データは、音の周波数および強弱に関する情報などを示す、リスナに知覚される音が表現されたデータである。音データは、典型的にはＰＣＭ信号であるが、ＭＰ３等の符号化方式を用いて圧縮されたデータであってもよい。その場合は、少なくとも当該信号が合成部に到達するまでに復号される必要があるため、レンダリング部に図示しない復号部を含んでいてもよい。或いは音声データデコーダ１１０２で復号してもよい。

　１つの音源オブジェクトに対して少なくとも１つの音データが設定されていればよく、複数の音データが設定されていてもよい。また、それぞれの音データを識別する識別情報を付与し、音源オブジェクトに関する情報として、音データの識別情報を保持してもよい。

　音データを音空間内に放射するために必要な情報として、例えば、音データを再生する際に基準となる基準音量の情報、音データの性質（特性ともいう）を示す情報、音源オブジェクトの位置に関する情報、音源オブジェクトの向きに関する情報、音源オブジェクトが発する音の指向性に関する情報などを含んでいてもよい。基準音量の情報は、例えば、音データを音空間に放射する際の音源位置における音データの振幅値の実効値であって、デシベル（ｄＢ）値として浮動小数点で表されてもよい。

　例えば基準音量が０ｄＢの場合、音データが示す信号レベルの音量を増減させることなくそのままの音量で上記位置に関する情報が指し示す位置から音空間に対して音を放射することを示しているものとしてもよいし、－６ｄＢの場合、音データが示す信号レベルの音量を約半分にして上記位置に関する情報が指し示す位置から音空間に対して音を放射することを示しているものとしてもよい。これらの情報は、１つの音データに対してまたは複数の音データに対してまとめて付与される。

　音データの性質を示す情報は、例えば、音源の音量に関する情報であって、その時系列的な変動を示す情報であってもよい。例えば、音空間が仮想会議室であり、音源が話者である場合、音量は短い時間で断続的に遷移する。それをさらに単純に表現すれば、有音部分と無音部分が交互に発生する、とも言える。

　また、音空間がコンサートホールであり、音源が演奏者である場合、音量は一定の時間長維持される。また、音空間が戦場であり、音源が爆発物である場合、爆発音の音量は一瞬だけ大となり以降は無音であり続ける。このように音源の音量の情報は、音の大きさの情報のみならず、音の大きさの遷移の情報を含むものであり、そのような情報を音データの性質を示す情報としてもよい。

　ここで、音の大きさの遷移の情報は、周波数特性を時系列に示したデータであってもよい。有音である区間の継続時間長を示したデータであってもよい。有音である区間の継続時間長と無音である区間の時間長の時系列を示したデータであってもよい。音信号の振幅が定常的であるとみなせる（概ね一定であるとみなせる）継続時間とその間の当該信号の振幅値のデータを複数組時系列で列挙したデータなどであってもよい。音信号の周波数特性が定常的であるとみなせる継続時間のデータであってもよい。音信号の周波数特性が定常的であるとみなせる継続時間とその間の当該周波数特性のデータを複数組時系列で列挙したデータなどであってもよい。

　データの形式として例えば、スペクトログラムの概形を示すデータであってもよい。また、上記周波数特性の基準となる音量を上記基準音量としてもよい。基準音量の情報と音データの性質を示す情報は、リスナに知覚させる直接音または反射音の音量を算出する他、リスナに知覚させるか否か選択をするための選択処理に用いられてもよい。音データの性質を示す情報の他の例や具体的な選択処理への用いられ方については後述する。

　向きに関する情報は、典型的には、ｙａｗ、ｐｉｔｃｈ、ｒｏｌｌで表現される。または、ｒｏｌｌの回転を省略し、アジマス（ｙａｗ）、エレベーション（ｐｉｔｃｈ）で表現してもよい。向き情報は時間とともに変化してもよく、変化した場合、レンダリング部に伝送される。

　リスナに関する情報は、音空間におけるリスナの位置情報と向きに関する情報である。位置情報はユークリッド空間のＸＹＺ軸の位置で表されるが、必ずしも三次元情報でなくてもよく、二次元情報であってもよい。向きに関する情報は、典型的には、ｙａｗ、ｐｉｔｃｈ、ｒｏｌｌで表現される。または、ｒｏｌｌの回転を省略し、アジマス（ｙａｗ）、エレベーション（ｐｉｔｃｈ）で表現してもよい。位置情報と向き情報とは時間とともに変化してもよく、変化した場合、レンダリング部に伝送される。

　センサ情報は、リスナが装着するセンサで検知された回転量又は変位量等とリスナの位置及び向きとを含む情報である。センサ情報はレンダリング部に伝送され、レンダリング部はセンサ情報に基づいてリスナの位置及び向きの情報を更新する。センサ情報は、例えば携帯端末がＧＰＳ、カメラ、又はＬｉＤＡＲ（Ｌａｓｅｒ　Ｉｍａｇｉｎｇ　Ｄｅｔｅｃｔｉｏｎ　ａｎｄ　Ｒａｎｇｉｎｇ）等を用いて自己位置推定を実施して得られた位置情報が用いられてもよい。またセンサ以外から、通信モジュールを通じて外部から取得した情報をセンサ情報として検出してもよい。センサから、音声信号処理装置の温度を示す情報、および、バッテリの残量を示す情報を取得してもよい。音声信号処理装置や音声信号提示装置の演算資源（ＣＰＵ能力、メモリ資源、ＰＣ性能）などをリアルタイムで取得してもよい。

　解析部は、上述の例における取得部１１１と同等の機能を担う。つまり、入力信号の解析を行い、処理部１２１で必要な情報を取得する。

　合成部は、上述の例における処理部１２１と信号出力部１４１と同等の機能を担う。直接音の音声信号と、解析部が算出した直接音到来時刻と直接音到来時音量の情報とに基づいて、入力された音声信号を加工し直接音を生成する。また、解析部が算出した反射音到来時刻と反射音到来時音量の情報に基づいて、入力された音声信号を加工し反射音を生成する。合成部は、生成した直接音と反射音を合成し出力する。

　［動作］
　次に、図１６～図１９を参照して、上記に説明した音響再生システム１００の動作について説明する。図１６は、実施の形態に係る音響再生システムの動作を示すフローチャートである。また、図１７は、実施の形態に係る音響処理の周波数特性について説明するための図である。図１８は、実施の形態に係る、音響処理のゆらぎの大きさについて説明するための図である。図１９は、実施の形態に係る、音響処理のゆらぎの周期及び角度について説明するための図である。

　なお、図１６に示す各ステップの前に、制御情報に基づく判定によって、音響処理を実行する設定になっているとして説明する。図１６に示すように、まず、取得部１１１により音情報（音声信号）を取得する（Ｓ１０１）。次に、判定部１２２は、音響処理を実行するか否かを判定する。具体的には、判定部１２２は、記憶部１２３において記憶された所定の条件を読み出し、所定の条件を満たすか否かを判定することで、音響処理を実行するか否かを判定する（Ｓ１０２）。

　所定の条件について、以下、いくつかの例を述べる。

　まず、取得した音情報における所定音の音圧の時間領域における変化が所定の閾値以下である場合に、音情報の所定音にゆらぎが含まれておらず、ゆらぎの付与が適切であると考えられる。音響処理を行うために適切といえる条件として、音圧の時間領域における変化に関する条件を設定すれば、上記の閾値以下の音圧の時間領域における変化を示す場合に所定の条件を満たすと判定することができる。

　ここで、図１７には、各周波数の音が音源（各破線円の中心）から発せられた場合において、水平面内の各方向で同じ音圧で到達する距離の差が示されている。図１７に示す各図では、その周波数において、音の各方向における伝播特性の差を示しており、形状がいびつであるほど、音源のゆらぎが反映されやすいといえる。言い換えると、音源のゆらぎを音圧の時間領域における変化によって判断するために、所定音を周波数ごとに分解して、より音源のゆらぎが反映されやすい周波数で、音圧の時間領域における変化を示すか否かを判定するとよい。例えば、図中に示す、１０００Ｈｚ以上の周波数であれば、形状が円形からいびつな形に変化しており、ゆらぎが反映されやすいといえる。また、図中に示す、４０００Ｈｚ以上の周波数であれば、形状が円形からよりいびつな形に変化しており、ゆらぎがより反映されやすいといえる。

　逆に、図１７に示すように、ゆらぎを付与する場合に、１０００Ｈｚ未満の周波数に音響処理を実行しても、ゆらぎの効果が得られにくいということもできる。そのため、音響処理においては、１０００Ｈｚ以上の周波数のみに音響処理を実行してもよいし、４０００Ｈｚ以上の周波数のみに音響処理を実行してもよい。あるいは、周波数が大きくなるほどゆらぎが大きいとなる音響処理を実行してもよい。

　また、取得した音情報における所定位置又は所定音の音圧を用いて収音装置と音源との位置関係を推定し、推定した位置関係が所定の閾値以下である場合に、ヘッドセットのマイクのような接話型の収音装置が用いられていると考えられるので、音情報の所定音にゆらぎが含まれておらず、ゆらぎの付与が適切であると考えられる。音響処理を行うために適切といえる条件として、推定した位置関係に関する条件を設定すれば、上記の閾値以下の位置関係を示す場合に所定の条件を満たすと判定することができる。

　ここで、図１８には、ヒトの頭部の動きをＸＹＺの３軸において、プロットした結果を示している。図１８では、上段にＹ軸方向（上下方向）の頭部の動きのプロットを示し、中段にＺ軸方向（前後方向）の頭部の動きのプロットを示し、下段にＸ軸方向（左右方向）の頭部の動きのプロットを示している。図中に示すように、ヒトの頭部は、Ｘ軸方向（左右方向）に±０．２ｍの動きがあり、Ｙ軸方向（上下方向）に±０．０２ｍの動きがあり、Ｚ軸方向（前後方向）に±０．０５ｍの動きがあることが分かる。

　つまり、このような大きさの動きがないのであれば、推定した位置関係がヘッドセットのマイクのような接話型の収音装置が用いられているような所定の閾値以下であると考えられる。

　逆に、図１８に示すように、ゆらぎを付与する場合に、Ｘ軸方向（左右方向）に±０．２ｍの動きを、Ｙ軸方向（上下方向）に±０．０２ｍの動きを、Ｚ軸方向（前後方向）に±０．０５ｍの動きを再現して音響処理を実行してもよい。このように、収音装置と音源との位置関係に応じた処理条件で音響処理を実行することもできる。

　また、図１９には、ヒトの頭部の動きをＹａｗ、Ｐｉｔｃｈ、Ｒｏｌｌの３つの回転軸において、回転角をプロットした結果を示している。図１９では、上段にＹａｗ角での回転角を示し、中段にＰｉｔｃｈ角での回転角を示し、下段にＲｏｌｌ角での回転角を示している。図中に示すように、ヒトの頭部は、３～４ｓ周期で、Ｙａｗ角に±２０度の回転があり、Ｐｉｔｃｈ角に±１０度の回転があり、Ｙａｗ角に±３度の回転があることが分かる。

　つまり、このような周期及び角度の動きがないのであれば、推定した位置関係がヘッドセットのマイクのような接話型の収音装置が用いられているような所定の閾値以下であると考えられる。

　逆に、図１９に示すように、ゆらぎを付与する場合に、３～４ｓ周期で、Ｙａｗ角に±２０度の回転を、Ｐｉｔｃｈ角に±１０度の回転を、Ｙａｗ角に±３度の回転を再現して音響処理を実行してもよい。このように、収音装置と音源との位置関係に応じた処理条件で音響処理を実行することもできる。

　また、収音時の状況に関する収音状況情報を用いて、収音状況情報に示される残響レベル及び／又は雑音レベルが所定の閾値以下である場合に、ヘッドセットのマイクのような接話型の収音装置が用いられていると考えられるので、音情報の所定音にゆらぎが含まれておらず、ゆらぎの付与が適切であると考えられる。音響処理を行うために適切といえる条件として、収音状況情報に示される残響レベル及び／又は雑音レベルに関する条件を設定すれば、上記の閾値以下の残響レベル及び／又は雑音レベルを示す場合に所定の条件を満たすと判定することができる。

　その他、ヘッドセットのマイクのような接話型の収音装置を用いて収音したという収音機器に関する情報（型番などの機器を特定する情報又はゆらぎの付与の要否などの機器の特性を示す情報）を用いて、当該情報によって、ヘッドセットのマイクのような接話型の収音装置が用いられていることが示される場合は所定の条件を満たすと判定してもよい。

　図１６に戻り、判定部１２２が上記所定の条件を満たすと判定した場合（Ｓ１０２でＹｅｓ）、実行部１２４が音響処理を実行する（Ｓ１０３）。一方、判定部１２２が上記所定の条件を満たさないと判定した場合（Ｓ１０２でＮｏ）、実行部１２４は音響処理を実行しない（Ｓ１０４）。そして、信号出力部１４１が、出力音声信号を生成して出力する（Ｓ１０５）。

　［別例］
　以下、図２０及び図２１を用いて、実施の形態の別例に係る音響再生システムについて説明する。図２０は、実施の形態の別例に係る処理部の機能構成を示すブロック図である。図２１は、実施の形態の別例に係る音響処理装置の動作を示すフローチャートである。なお、以下の別例に係る説明では、上記実施の形態の一部の説明の「収音装置」を「受聴点」に読み替えることで説明を省略する場合がある。

　上記実施の形態の音響再生システム１００に比べて、実施の形態の別例に係る音響再生システムは、処理部１２１に代えて、処理部１２１ａを備える点で異なる。

　処理部１２１ａは、判定部１２２の代わりに、算出部１２５を有する。算出部１２５は、第１変化量及び第２変化量を算出する。第１変化量とは、受聴点と音源オブジェクトとの相対位置を変化させる指示に基づく変化量であり、いわゆるＶＲ空間内での移動の移動量に対応している。そして、仮想音空間に限ってみれば、受聴点の移動に伴う受聴点と音源オブジェクトとの相対位置の変化の変化量である。第１変化量は、センサとしての検知器１０３から検知結果を取得することでそのときの相対位置の変化の指示、すなわち、変化量を取得する。つまり本例では、取得部１１１（特にセンシング情報入力部１１４）が第１変化量を含む指示を受け付ける。

　本実施の形態では、このような相対位置の変化に加えて、ゆらぎによる受聴点の変化が生じるので、第１変化量と第２変化量とを分けて算出する。なお、第２変化量を０とすることで判定部１２２による処理を経ることなく、音響処理を実行することと実行しないこととを分けることができる。第２変化量は、検知結果によって算出されてもよいし、検知結果とは独立して算出されてもよい。例えば、第２変化量は、検知結果に示される音源オブジェクトと受聴点との相対位置の変化の変化速度、又は、変化量である第１変化量を用いた関数によって算出されてもよい。あるいは、第２変化量は、音源オブジェクトと受聴点との相対位置の変化の変化速度、又は、変化量である第１変化量を用いることなく（独立して）、単に制御情報及び収音状況情報などの、コンテンツ作成時にコンテンツに付された情報等によって、一義的に算出されてもよい。

　ところで、第１変化量が大きい場合、停止している受聴点に対して音源オブジェクトが大きく移動している場合がある。このような場合、第１変化量が大きいほど、その音源オブジェクトのゆらぎも大きくなることが自然である。つまり、第１変化量が大きいほど第２変化量が大きくなるとよい。そのため、音響処理において、ゆらぎの大きさにあたる第２変化量が、第１変化量に応じて、第１変化量が大きいほど大きい第２変化量となればよい。

　一方で、音響処理において、ゆらぎの大きさにあたる第２変化量が、第１変化量に応じて、変化する例として、逆に、第１変化量が大きいほど小さい（例えば０の）第２変化量とすることが適切な場合もある。具体的には、例えば、第１変化量が大きい（又は相対位置の変化の速度が速い）場合、ゆらぎを付与してもあまり臨場感の増加効果がみられない。これは、ゆらぎによる変化と相対位置の変化とが同期して重なり合い、又は、打ち消し合うことで、ゆらぎが付与されていることが聴者に知覚されにくいためである。そのような場合には、第１変化量が大きいほど小さい（例えば０の）第２変化量とすればよい。

　以下、本例に係る音響再生システムの動作を説明する。なお、図２１に示す各ステップの前に、制御情報に基づく判定によって、音響処理を実行する設定になっているとして説明する。図２１に示すように、まず、取得部１１１により音情報（音声信号）を取得する（Ｓ２０１）。次に、算出部１２５は、第１変化量を算出する（Ｓ２０２）。また、算出部１２５は、第２変化量を算出する（Ｓ２０３）。音響処理を実行するか否か（ゆらぎを付与するか否か）は、第２変化量を０と算出するか否かによって設定することができる。そして、実行部１２４は、音響処理として、相対位置を第１変化量変化させ、かつ、相対位置を時間領域で第２変化量繰り返し変化させる音響処理を実行する（Ｓ２０４）。その後、信号出力部１４１が、出力音声信号を生成して出力する（Ｓ２０５）。

　（その他の実施の形態）
　以上、実施の形態について説明したが、本開示は、上記の実施の形態に限定されるものではない。

　例えば、上記の実施の形態に説明した音響再生システムは、構成要素をすべて備える一つの装置として実現されてもよいし、複数の装置に各機能が割り振られ、この複数の装置が連携することで実現されてもよい。後者の場合には、音響処理装置に該当する装置として、スマートフォン、タブレット端末、又は、ＰＣなどの音響処理装置が用いられてもよい。例えば、音響効果を付加した音響信号を生成するレンダラとしての機能を有する音響再生システム１００において、レンダラの機能のすべて又は一部をサーバが担ってもよい。つまり、取得部１１１、処理部１２１、信号出力部１４１のすべて又は一部は、図示しないサーバに存在してもよい。その場合、音響再生システム１００は、例えば、コンピュータ又はスマートフォンなどの音響処理装置と、ユーザ９９に装着されるヘッドマウントディスプレイ（ＨＭＤ）やイヤホンなどの音提示デバイスと、図示しないサーバとを組み合わせて実現される。なお、コンピュータと音提示デバイスとサーバとが同一のネットワークで通信可能に接続されていてもよいし、異なるネットワークで接続されていてもよい。異なるネットワークで接続されている場合、通信に遅延が発生する可能性が高くなるため、コンピュータと音提示デバイスとサーバとが同一ネットワークで通信可能に接続されている場合にのみサーバでの処理を許可してもよい。また、音響再生システム１００が受け付けるビットストリームのデータ量に応じて、レンダラのすべて又は一部の機能をサーバが担うか否かを決定してもよい。

　また、本開示の音響再生システムは、ドライバのみを備える再生装置に接続され、当該再生装置に対して、取得した音情報に基づいて生成された出力音信号を再生するのみの音響処理装置として実現することもできる。この場合、音響処理装置は、専用の回路を備えるハードウェアとして実現してもよいし、汎用のプロセッサに特定の処理を実行させるためのソフトウェアとして実現してもよい。

　また、上記の実施の形態において、特定の処理部が実行する処理を別の処理部が実行してもよい。また、複数の処理の順序が変更されてもよいし、複数の処理が並行して実行されてもよい。

　また、上記の実施の形態において、各構成要素は、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵ又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

　また、各構成要素は、ハードウェアによって実現されてもよい。例えば、各構成要素は、回路（又は集積回路）でもよい。これらの回路は、全体として１つの回路を構成してもよいし、それぞれ別々の回路でもよい。また、これらの回路は、それぞれ、汎用的な回路でもよいし、専用の回路でもよい。

　また、本開示の全般的又は具体的な態様は、装置、装置、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよい。また、本開示の全般的又は具体的な態様は、装置、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

　例えば、本開示は、コンピュータによって実行される音声信号再生方法として実現されてもよいし、音声信号再生方法コンピュータに実行させるためのプログラムとして実現されてもよい。本開示は、このようなプログラムが記録されたコンピュータ読み取り可能な非一時的な記録媒体として実現されてもよい。

　その他、各実施の形態に対して当業者が思いつく各種変形を施して得られる形態、又は、本開示の趣旨を逸脱しない範囲で各実施の形態における構成要素及び機能を任意に組み合わせることで実現される形態も本開示に含まれる。

　なお、本開示における符号化された音情報は、音響再生システム１００によって再生される所定音についての情報である音信号及び、当該所定音の音像を三次元音場内において所定位置に定位させる際の定位位置に関する情報であるメタデータを含むビットストリームと言い換えることができる。例えばＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏ（ＩＳＯ／ＩＥＣ　２３００８－３）等の所定の形式で符号化されたビットストリームとして音情報が音響再生システム１００に取得されてもよい。一例として、符号化された音信号は、音響再生システム１００によって再生される所定音についての情報を含む。ここでいう所定音は、三次元音場に存在する音源オブジェクトが発する音又は自然環境音であって、例えば、機械音、又は人を含む動物の音声等を含み得る。なお、三次元音場に音源オブジェクトが複数存在する場合、音響再生システム１００は、複数の音源オブジェクトにそれぞれ対応する複数の音信号を取得することになる。

　一方、メタデータとは、例えば、音響再生システム１００において音信号に対する音響処理を制御するために用いられる情報である。メタデータは、仮想空間（三次元音場）で表現されるシーンを記述するために用いられる情報であってもよい。ここでシーンとは、メタデータを用いて、音響再生システム１００でモデリングされる、仮想空間における三次元映像及び音響イベントを表す全ての要素の集合体を指す用語である。つまり、ここでいうメタデータとは、音響処理を制御する情報だけでなく、映像処理を制御する情報も含んでいてもよい。もちろん、メタデータには、音響処理と映像処理とのいずれか一方だけを制御する情報が含まれていてもよいし、両方の制御に用いられる情報が含まれていてもよい。本開示において音響再生システム１００が取得するビットストリームには、このようなメタデータが含まれている場合がある。あるいは、音響再生システム１００は、後述するようにビットストリームとは別に、メタデータを単体で取得してもよい。

　音響再生システム１００は、ビットストリームに含まれるメタデータ、及び追加で取得されるインタラクティブなユーザ９９の位置情報等を用いて、音信号に音響処理を行うことで、仮想的な音響効果を生成する。例えば、初期反射音生成、後期残響音生成、回折音生成、距離減衰効果、ローカリゼーション、音像定位処理、又はドップラー効果等の音響効果が付加されることが考えられる。また、音響効果の全て又は一部のオンオフを切り替える情報がメタデータとして付加されてもよい。

　なお、全てのメタデータ又は一部のメタデータは、音情報のビットストリーム以外から取得されてもよい。例えば、音響を制御するメタデータと映像を制御するメタデータとのいずれかがビットストリーム以外から取得されてもよいし、両方のメタデータがビットストリーム以外から取得されてもよい。

　また、映像を制御するメタデータが音響再生システム１００で取得されるビットストリームに含まれる場合は、音響再生システム１００は映像の制御に用いることができるメタデータを、画像を表示する表示装置、又は立体映像を再生する立体映像再生装置に対して出力する機能を備えていてもよい。

　また、一例として、符号化されたメタデータは、音を発する音源オブジェクト、及び障害物オブジェクトを含む三次元音場に関する情報と、当該音の音像を三次元音場内において所定位置に定位させる（つまり、所定方向から到達する音として知覚させる）際の定位位置に関する情報、すなわち所定方向に関する情報とを含む。ここで、障害物オブジェクトは、音源オブジェクトが発する音がユーザ９９へと到達するまでの間において、例えば音を遮ったり、音を反射したりして、ユーザ９９が知覚する音に影響を及ぼし得るオブジェクトである。障害物オブジェクトは、静止物体の他に、人等の動物、又は機械等の動体を含み得る。また、三次元音場に複数の音源オブジェクトが存在する場合、任意の音源オブジェクトにとっては、他の音源オブジェクトは障害物オブジェクトとなり得る。また、建材又は無生物等の非発音源オブジェクトも、音を発する音源オブジェクトも、いずれも障害物オブジェクトとなり得る。

　メタデータを構成する空間情報として、三次元音場の形状だけでなく、三次元音場に存在する障害物オブジェクトの形状及び位置と、三次元音場に存在する音源オブジェクトの形状及び位置とをそれぞれ表す情報が含まれていてもよい。三次元音場は、閉空間又は開空間のいずれであってもよく、メタデータには、例えば床、壁、又は天井等の三次元音場において音を反射し得る構造物の反射率、及び三次元音場に存在する障害物オブジェクトの反射率を表す情報が含まれる。ここで、反射率は、入射音に対する反射音のエネルギーの比であって、音の周波数帯域ごとに設定されている。もちろん、反射率は、音の周波数帯域に依らず、一律に設定されていてもよい。また、三次元音場が開空間の場合は、例えば一律で設定された減衰率、回折音、又は初期反射音等のパラメータが用いられてもよい。

　上記説明では、メタデータに含まれる障害物オブジェクト又は音源オブジェクトに関するパラメータとして反射率が挙げられたが、メタデータは、反射率以外の情報を含んでいてもよい。例えば、音源オブジェクト及び非発音源オブジェクトの両方に関わるメタデータとして、オブジェクトの素材に関する情報が含まれていてもよい。具体的には、メタデータは、拡散率、透過率、又は吸音率等のパラメータを含んでいてもよい。

　音源オブジェクトに関する情報として、音量、放射特性（指向性）、再生条件、ひとつのオブジェクトから発せられる音源の数及び種類、又はオブジェクトにおける音源領域を指定する情報等が含まれてもよい。再生条件では、例えば、継続的に流れ続ける音なのかイベント発動する音なのかが定められてもよい。オブジェクトにおける音源領域は、ユーザ９９の位置とオブジェクトの位置との相対的な関係で定められてもよいし、オブジェクトを基準として定められてもよい。ユーザ９９の位置とオブジェクトの位置との相対的な関係で定められる場合、ユーザ９９がオブジェクトを見ている面を基準とし、ユーザ９９から見てオブジェクトの右側からは音Ｘ、左側からは音Ｙが発せられているようにユーザ９９に知覚させることができる。オブジェクトを基準として定められる場合、ユーザ９９の見ている方向に関わらず、オブジェクトのどの領域からどの音を出すかは固定にすることができる。例えばオブジェクトを正面から見たときの右側からは高い音、左側からは低い音が流れているようにユーザ９９に知覚させることができる。この場合、ユーザ９９がオブジェクトの背面に回り込むと、背面から見て右側からは低い音、左側からは高い音が流れているようにユーザ９９に知覚させることができる。

　空間に関するメタデータとして、初期反射音までの時間、残響時間、又は直接音と拡散音との比率等を含めることができる。直接音と拡散音との比率がゼロの場合、直接音のみをユーザ９９に知覚させることができる。

　また、三次元音場におけるユーザ９９の位置及び向きを示す情報が初期設定として予めメタデータとしてビットストリームに含まれていてもよいし、ビットストリームに含まれていなくてもよい。ユーザ９９の位置及び向きを示す情報がビットストリームに含まれていない場合、ユーザ９９の位置及び向きを示す情報はビットストリーム以外の情報から取得される。例えば、ＶＲ空間におけるユーザ９９の位置情報であれば、ＶＲコンテンツを提供するアプリから取得されてもよいし、ＡＲとして音を提示するためのユーザ９９の位置情報であれば、例えば携帯端末がＧＰＳ、カメラ、又はＬｉＤＡＲ（Ｌａｓｅｒ　Ｉｍａｇｉｎｇ　Ｄｅｔｅｃｔｉｏｎ　ａｎｄ　Ｒａｎｇｉｎｇ）等を用いて自己位置推定を実施して得られた位置情報が用いられてもよい。なお、音信号とメタデータとは、一つのビットストリームに格納されていてもよいし、複数のビットストリームに別々に格納されていてもよい。同様に、音信号とメタデータとは、一つのファイルに格納されていてもよいし、複数のファイルに別々に格納されていてもよい。

　音信号とメタデータとが複数のビットストリームに別々に格納されている場合、関連する他のビットストリームを示す情報が、音信号とメタデータとが格納された複数のビットストリームのうちの一つ又は一部のビットストリームに含まれていてもよい。また、関連する他のビットストリームを示す情報が、音信号とメタデータとが格納された複数のビットストリームの各ビットストリームのメタデータ又は制御情報に含まれていてもよい。音信号とメタデータとが複数のファイルに別々に格納されている場合、関連する他のビットストリーム又はファイルを示す情報が、音信号とメタデータとが格納された複数のファイルのうちの一つ又は一部のファイルに含まれていてもよい。また、関連する他のビットストリーム又はファイルを示す情報が、音信号とメタデータとが格納された複数のビットストリームの各ビットストリームのメタデータ又は制御情報に含まれていてもよい。

　ここで、関連するビットストリーム又はファイルはそれぞれ、例えば、音響処理の際に同時に用いられる可能性のあるビットストリーム又はファイルである。また、関連する他のビットストリームを示す情報は、音信号とメタデータとを格納した複数のビットストリームのうちの一つのビットストリームのメタデータ又は制御情報にまとめて記述されていてもよいし、音信号とメタデータとを格納した複数のビットストリームのうちの二以上のビットストリームのメタデータ又は制御情報に分割して記述されていてもよい。同様に、関連する他のビットストリーム又はファイルを示す情報は、音信号とメタデータとを格納した複数のファイルのうちの一つのファイルのメタデータ又は制御情報にまとめて記述されていてもよいし、音信号とメタデータとを格納した複数のファイルのうちの二以上のファイルのメタデータ又は制御情報に分割して記述されていてもよい。また、関連する他のビットストリーム又はファイルを示す情報を、まとめて記述した制御ファイルが音信号とメタデータとを格納した複数のファイルとは別に生成されてもよい。このとき、制御ファイルは音信号とメタデータとを格納していなくてもよい。

　ここで、関連する他のビットストリーム又はファイルを示す情報とは、例えば当該他のビットストリームを示す識別子、他のファイルを示すファイル名、ＵＲＬ（Ｕｎｉｆｏｒｍ　Ｒｅｓｏｕｒｃｅ　Ｌｏｃａｔｏｒ）、又はＵＲＩ（Ｕｎｉｆｏｒｍ　Ｒｅｓｏｕｒｃｅ　Ｉｄｅｎｔｉｆｉｅｒ）等である。この場合、取得部１１１は、関連する他のビットストリーム又はファイルを示す情報に基づいて、ビットストリーム又はファイルを特定又は取得する。また、関連する他のビットストリームを示す情報が音信号とメタデータとを格納した複数のビットストリームのうちの少なくとも一部のビットストリームのメタデータ又は制御情報に含まれていると共に、関連する他のファイルを示す情報が音信号とメタデータとを格納した複数のファイルのうちの少なくとも一部のファイルのメタデータ又は制御情報に含まれていてもよい。ここで、関連するビットストリーム又はファイルを示す情報を含むファイルとは、例えばコンテンツの配信に用いられるマニフェストファイル等の制御ファイルであってもよい。

　本開示は、立体的な音をユーザに知覚させる等の音響再生の際に有用である。

　　　９９　ユーザ
　　１００　音響再生システム
　　１０１　情報処理装置
　　１０２　通信モジュール
　　１０３　検知器
　　１０４　ドライバ
　　１１１　取得部
　　１１２　エンコード音情報入力部
　　１１３　デコード処理部
　　１１４　センシング情報入力部
　　１２１、１２１ａ　処理部
　　１２２　判定部
　　１２３　記憶部
　　１２４　実行部
　　１２５　算出部
　　１４１　信号出力部
　　２００　立体映像再生装置
　　６００　立体音響再生システム
　　６０１　情報処理装置
　　６０２　音声提示デバイス
　　７００、９００　符号化装置
　　７０１、８０３　入力データ
　　７０２　エンコーダ
　　７０３　符号化データ
　　７０４、８０４　メモリ
　　８００、１０００　複合装置
　　８０１　音声信号
　　８０２、１１００、１２００　デコーダ
　　９０１　送信部
　　９０２　送信信号
　１００１　受信部
　１００２　受信信号
　１１０１、１２０１　空間情報管理部
　１１０２　音声データデコーダ
　１１０３、１２０２　レンダリング部

Claims

　音源から発せられる音を、収音装置を用いて収音した音声信号を取得するステップと、
　前記音声信号に対して、前記収音装置と前記音源との相対位置を時間領域で繰り返し変化させる音響処理を実行するステップと、
　前記音響処理を実行済みの出力音声信号を出力するステップとを含む
　音響処理方法。
　前記音響処理を実行するステップでは、
　　前記音声信号における音圧の時間領域における変化が、当該変化に関する所定の条件を満たすか否かを判定し、
　　前記所定の条件を満たすと判定された場合に前記音響処理を実行し、
　　前記所定の条件を満たさないと判定された場合に前記音響処理を実行しない
　請求項１に記載の音響処理方法。
　前記音響処理を実行するステップでは、
　　前記音声信号を用いて前記収音装置と前記音源との位置関係を推定し、
　　推定した前記位置関係が、当該位置関係に関する所定の条件を満たすか否かを判定し、
　　前記所定の条件を満たすと判定された場合に前記音響処理を実行し、
　　前記所定の条件を満たさないと判定された場合に前記音響処理を実行しない
　請求項１に記載の音響処理方法。
　前記音声信号は、収音時の状況に関する収音状況情報を含み、
　前記音響処理を実行するステップでは、
　　前記音声信号に含まれる前記収音状況情報が、当該収音状況情報に関する所定の条件を満たすか否かを判定し、
　　前記所定の条件を満たすと判定された場合に前記音響処理を実行し、
　　前記所定の条件を満たさないと判定された場合に前記音響処理を実行しない
　請求項１に記載の音響処理方法。
　前記音響処理を実行するステップでは、
　　前記音声信号を用いて前記収音装置と前記音源との位置関係を推定し、
　　推定した前記位置関係に応じた処理条件で前記音響処理を実行する
　請求項１に記載の音響処理方法。
　仮想音空間内の音源オブジェクトから発せられる音を、前記仮想音空間内の受聴点において受聴したように知覚させる出力音声信号を出力するための音響処理方法であって、
　前記音源オブジェクトから発せられる音を含む音声信号を取得するステップと、
　前記受聴点と前記音源オブジェクトとの相対位置を変化させる指示であって、当該指示によって前記相対位置が変化する第１変化量を含む指示を受け付けるステップと、
　前記音声信号に対して、前記相対位置を前記第１変化量変化させ、かつ、前記相対位置を時間領域で第２変化量繰り返し変化させる音響処理を実行するステップと、
　前記音響処理を実行済みの前記出力音声信号を出力するステップとを含む
　音響処理方法。
　前記音源オブジェクトは、実空間のユーザを模しており、
　前記音響処理方法は、前記実空間に設けられた、前記ユーザを検知するセンサから検知結果を取得するステップをさらに含み、
　前記第２変化量は、前記検知結果に基づき算出される
　請求項６に記載の音響処理方法。
　前記音源オブジェクトは、実空間のユーザを模しており、
　前記音響処理方法は、前記実空間に設けられた、前記ユーザを検知するセンサから検知結果を取得するステップをさらに含み、
　前記第２変化量は、前記検知結果とは独立して算出される
　請求項６に記載の音響処理方法。
　前記第２変化量は、前記第１変化量とは独立して算出される
　請求項６に記載の音響処理方法。
　前記第２変化量は、前記第１変化量が大きいほど大きい数値として算出される
　請求項６に記載の音響処理方法。
　前記第２変化量は、前記第１変化量が小さいほど大きい数値として算出される
　請求項６に記載の音響処理方法。
　前記音声信号に対する制御情報を取得するステップをさらに含み、
　前記音響処理を実行するステップでは、
　前記制御情報が、前記音響処理を実行させることを示していた場合に、前記音響処理を実行する
　請求項１又は６に記載の音響処理方法。
　音源から発せられる音を、収音装置を用いて収音した音声信号を取得する取得部と、
　前記音声信号に対して、前記収音装置と前記音源との相対位置を時間領域で繰り返し変化させる音響処理を実行する処理部と、
　前記音響処理を実行済みの出力音声信号を出力する出力部とを備える
　音響処理装置。
　仮想音空間内の音源オブジェクトから発せられる音を、前記仮想音空間内の受聴点において受聴したように知覚させる出力音声信号を出力するための音響処理装置であって、
　前記音源オブジェクトから発せられる音を含む音声信号を取得する取得部と、
　前記受聴点と前記音源オブジェクトとの相対位置を変化させる指示であって、当該指示によって前記相対位置が変化する第１変化量を含む指示を受け付ける受付部と、
　前記音声信号に対して、前記相対位置を前記第１変化量変化させ、かつ、前記相対位置を時間領域で第２変化量繰り返し変化させる音響処理を実行する処理部と、
　前記音響処理を実行済みの前記出力音声信号を出力する出力部とを備える
　音響処理装置。
　請求項１又は６に記載の音響処理方法をコンピュータに実行させるための
　プログラム。