WO2024084950A1

WO2024084950A1 - 音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置

Info

Publication number: WO2024084950A1
Application number: PCT/JP2023/036007
Authority: WO
Inventors: 陽宇佐見; 智一石川; 宏幸江原; 康太中橋; 成悟榎本; 摩里子山田; 修二宮阪
Original assignee: パナソニックインテレクチュアルプロパティコーポレーションオブアメリカ
Priority date: 2022-10-19
Filing date: 2023-10-03
Publication date: 2024-04-25

Abstract

音響信号処理方法は、基準音の波形を示す音データを取得する取得ステップと、自然現象の変動が模擬された模擬情報に基づいて、波形の周波数成分、位相及び振幅値のうち少なくとも一つを変化させるように音データを処理する処理ステップと、処理された音データを出力する出力ステップと、を含む。

Description

音響信号処理方法、コンピュータプログラム、及び、音響信号処理装置

　本開示は、音響信号処理方法などに関する。

　また、特許文献１には、リアリティのある仮想空間を創出するために、映像及び音を出力する技術が開示されている。この特許文献１においては、当該仮想空間における風の強さの変化にあわせて、風の音も変化させる技術が開示されている。

特開１９９８－２１５１１６２号公報国際公開第２０２１／１８０９３８号

Ｙｏｓｈｉｎｏｒｉ　Ｄｏｂａｓｈｉ、他２名、Ｒｅａｌ－ｔｉｍｅ　ｒｅｎｄｅｒｉｎｇ　ｏｆ　ａｅｒｏｄｙｎａｍｉｃ　ｓｏｕｎｄ　ｕｓｉｎｇ　ｓｏｕｎｄ　ｔｅｘｔｕｒｅｓ　ｂａｓｅｄ　ｏｎ　ｃｏｍｐｕｔａｔｉｏｎａｌ　ｆｌｕｉｄ　ｄｙｎａｍｉｃｓ、ＡＣＭ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ｇｒａｐｈｉｃｓ、Ｖｏｌ．　２２、　Ｎｏ．　３、ｐ７３２－７４０

　ところで、特許文献１が示す技術では、受聴者に臨場感を与えることが困難な場合がある。

　そこで、本開示は、受聴者に臨場感を与えることができる音響信号処理方法などを提供することを目的とする。

　本開示の一態様に係る音響信号処理方法は、基準音の波形を示す音データを取得する取得ステップと、自然現象の変動が模擬された模擬情報に基づいて、前記波形の周波数成分、位相及び振幅値のうち少なくとも一つを変化させるように前記音データを処理する処理ステップと、処理された前記音データを出力する出力ステップと、を含む。

　また、本開示の一態様に係るコンピュータプログラムは、上記の音響信号処理方法をコンピュータに実行させる。

　また、本開示の一態様に係る音響信号処理装置は、基準音の波形を示す音データを取得する取得部と、自然現象の変動が模擬された模擬情報に基づいて、前記波形の周波数成分、位相及び振幅値のうち少なくとも一つを変化させるように前記音データを処理する処理部と、処理された前記音データを出力する出力部と、を備える。

　なお、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なＣＤ－ＲＯＭなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。

　本開示の一態様に係る音響信号処理方法によれば、受聴者に臨場感を与えることができる。

図１は、本開示の音響処理又は復号処理が適用可能なシステムの一例である立体音響（Ｉｍｍｅｒｓｉｖｅ　Ａｕｄｉｏ）再生システムを示す図である。図２は、本開示の符号化装置の一例である符号化装置の構成を示す機能ブロック図である。図３は、本開示の復号装置の一例である復号装置の構成を示す機能ブロック図である。図４は、本開示の符号化装置の別の一例である符号化装置の構成を示す機能ブロック図である。図５は、本開示の復号装置の別の一例である復号装置の構成を示す機能ブロック図である。図６は、図３又は図５におけるデコーダの一例であるデコーダの構成を示す機能ブロック図である。図７は、図３又は図５におけるデコーダの別の一例であるデコーダの構成を示す機能ブロック図である。図８は、音響信号処理装置の物理的構成の一例を示す図である。図９は、符号化装置の物理的構成の一例を示す図である。図１０は、実施の形態１に係る音響信号処理装置の機能構成を示すブロック図である。図１１は、実施の形態１に係るオブジェクトの一例である扇風機と受聴者とを示す図である。図１２は、実施の形態１に係る音データを示す図である。図１３は、実施の形態１に係る滑らかな関数の一例を示す図である。図１４は、実施の形態１に係る音響信号処理装置の動作例１のフローチャートである。図１５は、実施の形態１に係る処理部が行う処理を説明するための図である。図１６は、実施の形態１に係る処理部が行う処理を説明するための他の図である。図１７は、実施の形態１に係る音データ（空力音データ）を示す図である。図１８は、実施の形態１に係る滑らかな関数が示す値であるＲと空力音の音量の増幅率及び減衰率とを示す図である。図１９は、実施の形態１に係る分割された空力音データを示す図である。図２０は、実施の形態１に係る２つの滑らかな関数の他の一例を示す図である。図２１は、実施の形態１に係る滑らかな関数を特定するパラメータが変化した例を示す図である。図２２は、実施の形態１に係る２つの滑らかな関数の他の一例を示す図である。図２３は、変形例に係る音響信号処理装置の機能構成を示すブロック図である。図２４は、変形例に係る第２処理部の機能構成を示すブロック図である。図２５は、変形例に係る空力音データを示す図である。図２６は、変形例に係る第２処理部による処理の概念図である。図２７は、変形例に係るサンプリングレート変換部の機能構成を示すブロック図である。図２８は、変形例に係る滑らかな関数が示す値の状態遷移図である。図２９は、変形例に係る音響信号処理装置の他の機能構成を示すブロック図である。図３０は、実施の形態２に係る情報処理装置の機能構成を示すブロック図である。図３１は、従来技術に係る音データの読み出しと、実施の形態２に係る音データの読み出しとを説明するための図である。図３２は、実施の形態２に係る情報処理装置が行う処理を説明するための図である。図３３は、実施の形態２に係る情報処理装置が行う他の処理を説明するための図である。図３４は、図６及び図７のレンダリング部がパイプライン処理を行う場合を説明するための機能ブロック図及びステップの一例を示す図である。

　（本開示の基礎となった知見）
　特許文献１には、リアリティのある仮想空間を創出するために、映像及び音を出力する技術が開示されている。この特許文献１においては、当該仮想空間における風の強さの変化にあわせて、風の音も変化させる技術が開示されている。

　仮想空間とは、例えば、仮想現実（バーチャル・リアリティ：ＶＲ（Ｖｉｒｔｕａｌ　Ｒｅａｌｉｔｙ））、又は、拡張現実（オーグメンテッド・リアリティ：ＡＲ（Ａｕｇｍｅｎｔｅｄ　Ｒｅａｌｉｔｙ））などの、ユーザ（受聴者）が存在する空間である。特許文献１に開示される技術が用いられた風の音は、このような仮想空間において立体的な音を再生するためのアプリケーションで、利用されている。このような制御が行われた音は、特に、受聴者の６ＤｏＦ（Ｄｅｇｒｅｅｓ　ｏｆ　Ｆｒｅｅｄｏｍ）の情報がセンシングされるような仮想空間において、利用される。特許文献１の技術が利用されることで、風が吹くなどの自然現象が仮想空間において再現されている。

　ところで、現実空間においては、自然現象の変動には、揺らぎが含まれている。現実空間における自然現象とは、例えば、風が吹く、川の水が流れる、動物の行動などである。例えば、自然現象の変動とは、風の風速の変動又は風の向き（風向）の変動などであり、風の風速の変動又は風の向き（風向）の変動には揺らぎが含まれる。

　しかしながら、特許文献１に開示される技術では、受聴者に風の音を受聴させることはできるが、この風の音は現実空間における揺らぎを含む風の音を再現することはできない。従って、受聴者がこのような風の音を受聴すると、受聴者は違和感を覚えてしまい、受聴者は臨場感を得ることが難しい。このため、受聴者に臨場感を与えることができる音響信号処理方法などが求められている。

　そこで、本開示の第１態様に係る音響信号処理方法は、基準音の波形を示す音データを取得する取得ステップと、自然現象の変動が模擬された模擬情報に基づいて、前記波形の周波数成分、位相及び振幅値のうち少なくとも一つを変化させるように前記音データを処理する処理ステップと、処理された前記音データを出力する出力ステップと、を含む。

　これにより、揺らぎが含まれている自然現象の変動が模擬された模擬情報に基づいて、波形の周波数成分、位相及び振幅数のうち少なくとも一つを変化させるように音データが処理される。このため処理された音データにおいては、周波数成分、位相及び振幅数のうち少なくとも一つに揺らぎが生じることとなり、処理された音データが示す音にも周波数成分、位相及び振幅数のうち少なくとも一つに揺らぎが生じることとなる。従って、受聴者は、周波数成分、位相及び振幅数のうち少なくとも一つに揺らぎが生じた音を受聴することができ、受聴者は違和感を覚えにくく臨場感を得ることができる。つまりは、受聴者に臨場感を与えることができる音響信号処理方法が実現される。

　本開示の第２態様に係る音響信号処理方法は、前記基準音は、風によって生じる空力音であり、前記処理ステップでは、前記風の風速の変動が模擬された前記模擬情報に基づいて、前記波形の周波数成分、位相及び振幅値のうち前記少なくとも一つを変化させるように前記音データを処理する、第１態様に係る音響信号処理方法である。

　これにより、受聴者は、周波数成分、位相及び振幅数のうち少なくとも一つに揺らぎが生じた空力音を受聴することができ、受聴者は違和感を覚えにくく臨場感を得ることができる。つまりは、受聴者に臨場感を与えることができる音響信号処理方法が実現される。

　本開示の第３態様に係る音響信号処理方法は、前記処理ステップでは、前記模擬情報として、前記風の風速の変動が模擬された滑らかな関数を決定し、決定された前記滑らかな関数が示す値に基づいて、前記波形の周波数成分、位相及び振幅値のうち前記少なくとも一つを変化させるように前記音データを処理する、第２態様に係る音響信号処理方法である。

　これにより、滑らかな関数が示す値により、音データが処理されることができる。

　本開示の第４態様に係る音響信号処理方法は、前記滑らかな関数が示す値は、前記基準音である空力音の風速と、前記処理ステップで処理された後の前記音データが示す空力音の風速との比率を示す情報である第３態様に係る音響信号処理方法である。

　これにより、基準音である空力音の風速と処理された後の音データが示す空力音の風速との比率により、音データが処理されることができる。

　本開示の第５態様に係る音響信号処理方法は、前記処理ステップでは、前記滑らかな関数を特定するパラメータが不規則に変化するように前記滑らかな関数を決定する、第４態様に係る音響信号処理方法である。

　これにより、受聴者は、周波数成分、位相及び振幅数のうち少なくとも一つに、不規則に変化する揺らぎが生じた空力音を受聴することができ、受聴者は違和感をより覚えにくく臨場感をより得ることができる。つまりは、受聴者に臨場感をより与えることができる音響信号処理方法が実現される。

　本開示の第６態様に係る音響信号処理方法は、前記処理ステップでは、前記波形の周波数成分を、決定された前記滑らかな関数が示す値に比例した周波数にシフトさせるように前記音データを処理する、第３～５態様のいずれか１つの態様に係る音響信号処理方法である。

　これにより、受聴者は、周波数成分に揺らぎが生じた音を受聴することができ、受聴者は違和感を覚えにくく臨場感を得ることができる。つまりは、受聴者に臨場感を与えることができる音響信号処理方法が実現される。

　本開示の第７態様に係る音響信号処理方法は、前記処理ステップでは、前記波形の振幅値を、決定された前記滑らかな関数が示す値のα乗に比例して変化させるように前記音データを処理する、第３態様に係る音響信号処理方法である。

　これにより、受聴者は、振幅値に揺らぎが生じた音を受聴することができ、受聴者は違和感を覚えにくく臨場感を得ることができる。つまりは、受聴者に臨場感を与えることができる音響信号処理方法が実現される。

　本開示の第８態様に係る音響信号処理方法は、前記処理ステップでは、取得された前記音データを所定時間の処理フレームに分割し、分割した前記処理フレームごとに、前記音データを処理する、第４又は５態様に係る音響信号処理方法である。

　これにより、演算処理の負荷が低減された音響信号処理方法が実現される。

　本開示の第９態様に係る音響信号処理方法は、前記処理ステップでは、分割した前記処理フレームごとに、前記処理フレームの最初の時刻及び最後の時刻において、前記滑らかな関数の値が１．０になるように、前記滑らかな関数を決定する、第８態様に係る音響信号処理方法である。

　これにより、処理フレームと、当該処理フレームの次の処理フレームとの繋ぎ目にノイズ音が生じることが抑制される。

　本開示の第１０態様に係る音響信号処理方法は、前記処理ステップでは、前記滑らかな関数を特定するパラメータを、分割した前記処理フレームごとに決定する、第９態様に係る音響信号処理方法である。

　本開示の第１１態様に係る音響信号処理方法は、前記パラメータは、前記最初の時刻から前記最後の時刻までの時間である、第１０態様に係る音響信号処理方法である。

　これにより、パラメータを処理フレームの最初の時刻から当該処理フレームの最後の時刻までの時間とすることができる。

　本開示の第１２態様に係る音響信号処理方法は、前記パラメータは、前記滑らかな関数の最大値に係る値である、第１０態様に係る音響信号処理方法である。

　これにより、パラメータを滑らかな関数の最大値に係る値とすることができる。

　本開示の第１３態様に係る音響信号処理方法は、前記パラメータは、前記滑らかな関数が最大値に達する位置を変動させるパラメータである、第１０態様に係る音響信号処理方法である。

　これにより、パラメータを滑らかな関数が最大値に達する位置を変動させるパラメータとすることができる。

　本開示の第１４態様に係る音響信号処理方法は、パラメータは、前記滑らかな関数の変動の急峻さを変動させるパラメータである、第１０態様に係る音響信号処理方法である。

　これにより、パラメータを滑らかな関数の変動の急峻さを変動させるパラメータとすることができる。

　本開示の第１５態様に係る音響信号処理方法は、前記処理ステップでは、前記滑らかな関数を特定する第１パラメータ及び第２パラメータを決定し、決定された前記第１パラメータによって特定される前記滑らかな関数に基づいて、前記波形の周波数成分、位相及び振幅値のうち前記少なくとも一つを変化させるように取得された前記音データを処理し、決定された前記第２パラメータによって特定される前記滑らかな関数に基づいて、前記波形の周波数成分、位相及び振幅値のうち前記少なくとも一つを変化させるように取得された前記音データを処理し、前記出力ステップでは、決定された前記第１パラメータによって特定される前記滑らかな関数に基づいて処理された前記音データを、第１出力チャンネルに出力し、決定された前記第２パラメータによって特定される前記滑らかな関数に基づいて処理された前記音データを、第２出力チャンネルに出力する、第１０態様に係る音響信号処理方法である。

　これにより、出力チャンネルごとに、異なる音データを出力することができる。

　本開示の第１６態様に係る音響信号処理方法は、前記空力音は、前記風が物体と衝突することによって発生する音であり、前記処理ステップでは、前記風の風速の性質を模擬して前記パラメータを決定する、第１０～１５態様のいずれか１つの態様に係る音響信号処理方法である。

　これにより、揺らぎが含まれている風の風速の変動を模擬してパラメータが決定される。このパラメータにより特定される滑らかな関数に基づいて、波形の周波数成分、位相及び振幅数のうち少なくとも一つを変化させるように音データが処理されることができる。

　本開示の第１７態様に係る音響信号処理方法は、前記空力音は、前記風が、前記空力音を受聴する受聴者の耳と衝突することによって発生する音であり、前記処理ステップでは、前記風の風向の性質を模擬して前記パラメータを決定する、第１０～１５態様のいずれか１つの態様に係る音響信号処理方法である。

　これにより、揺らぎが含まれている風の向きの変動を模擬してパラメータが決定される。このパラメータにより特定される滑らかな関数に基づいて、波形の周波数成分、位相及び振幅数のうち少なくとも一つを変化させるように音データが処理されることができる。

　本開示の第１８態様に係る音響信号処理方法は、前記滑らかな関数の最大値は、３を超えない、第８態様に係る音響信号処理方法である。

　これにより、滑らかな関数の最大値を３以下とすることができる。

　本開示の第１９態様に係る音響信号処理方法は、前記滑らかな関数の最小値は、０を下回らない、第８態様に係る音響信号処理方法である。

　これにより、滑らかな関数の最小値を０以上とすることができる。

　本開示の第２０態様に係る音響信号処理方法は、前記風の前記風速であるＶａと前記風の瞬間風速であるＶｐとを指定する指示を受付ける受付ステップを含み、前記処理ステップでは、前記滑らかな関数の最大値がＶｐ／Ｖａとなるように前記滑らかな関数を決定する、第８態様に係る音響信号処理方法である。

　これにより、滑らかな関数の最大値とＶｐ／Ｖａとすることができる。

　本開示の第２１態様に係る音響信号処理方法は、前記所定時間の平均値は、３秒である、第８態様に係る音響信号処理方法である。

　これにより、処理フレームの時間長さである所定時間の平均値を３秒とすることができる。

　本開示の第２２態様に係る音響信号処理方法は、前記物体は、耳を模した形状を有する物体である、第１６態様に係る音響信号処理方法である。

　これにより、例えばダミーヘッドマイクなどを用いて空力音を収音することができる。

　本開示の第２３態様に係るコンピュータプログラムは、第１～２２態様のいずれか１つの態様に係る音響信号処理方法をコンピュータに実行させるためのコンピュータプログラムである。

　これにより、コンピュータが、コンピュータプログラムに従って、上記の音響信号処理方法を実行することができる。

　本開示の第２４態様に係る音響信号処理装置は、基準音の波形を示す音データを取得する取得部と、自然現象の変動が模擬された模擬情報に基づいて、前記波形の周波数成分、位相及び振幅値のうち少なくとも一つを変化させるように前記音データを処理する処理部と、処理された前記音データを出力する出力部と、を備える。

　これにより、揺らぎが含まれている自然現象の変動が模擬された模擬情報に基づいて、波形の周波数成分、位相及び振幅数のうち少なくとも一つを変化させるように音データが処理される。このため処理された音データにおいては、周波数成分、位相及び振幅数のうち少なくとも一つに揺らぎが生じることとなり、処理された音データが示す音にも周波数成分、位相及び振幅数のうち少なくとも一つに揺らぎが生じることとなる。従って、受聴者は、周波数成分、位相及び振幅数のうち少なくとも一つに揺らぎが生じた音を受聴することができ、受聴者は違和感を覚えにくく臨場感を得ることができる。つまりは、受聴者に臨場感を与えることができる音響信号処理装置が実現される。

　さらに、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なＣＤ－ＲＯＭなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。

　以下、実施の形態について図面を参照しながら具体的に説明する。

　なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、請求の範囲を限定する主旨ではない。

　また、以下の説明において、第１及び第２などの序数が要素に付けられている場合がある。これらの序数は、要素を識別するため、要素に付けられており、意味のある順序に必ずしも対応しない。これらの序数は、適宜、入れ替えられてもよいし、新たに付与されてもよいし、取り除かれてもよい。

　また、各図は、模式図であり、必ずしも厳密に図示されたものではない。したがって、各図において縮尺などは必ずしも一致していない。各図において、実質的に同一の構成に対しては同一の符号を付しており、重複する説明は省略又は簡略化する。

　本明細書において、垂直などの要素間の関係性を示す用語、数値範囲は、厳格な意味のみを表す表現ではなく、実質的に同等な範囲、例えば数％程度の差異をも含むことを意味する表現である。

　（実施の形態１）
　［本開示の音響処理技術又は符号化／復号技術を適用可能な装置例］
　＜立体音響再生システム＞
　図１は、本開示の音響処理又は復号処理が適用可能なシステムの一例である立体音響（Ｉｍｍｅｒｓｉｖｅ　Ａｕｄｉｏ）再生システムＡ００００を示す図である。立体音響再生システムＡ００００は、音響信号処理装置Ａ０００１と音声提示装置Ａ０００２とを含む。

　音響信号処理装置Ａ０００１は、仮想音源が発した音声信号に対して音響処理を施して、リスナ（つまりは受聴者）に対して提示される音響処理後の音声信号を生成する。音声信号は声に限らず可聴音であればよい。音響処理とは、例えば、音源から発生した音が、当該音が発せられてからリスナが聴くまでの間に受ける一又は複数の音に関する作用を再現するために音声信号に対して施される信号処理である。音響信号処理装置Ａ０００１は、上述した音に関する作用を引き起こす要因を記述した情報に基づいて音響処理を実施する。空間情報は、例えば、音源、リスナ、周囲のオブジェクトの位置を示す情報、空間の形状を示す情報、音の伝搬に関するパラメータなどを含む。音響信号処理装置Ａ０００１は、例えば、ＰＣ（Ｐｅｒｓｏｎａｌ　Ｃｏｍｐｕｔｅｒ）、スマートフォン、タブレット、又はゲームコンソールなどである。

　音響処理後の信号は、音声提示装置Ａ０００２からリスナ（ユーザ）に提示される。音声提示装置Ａ０００２は、無線又は有線の通信を介して音響信号処理装置Ａ０００１と接続されている。音響信号処理装置Ａ０００１で生成された音響処理後の音声信号は、無線又は有線の通信を介して音声提示装置Ａ０００２に伝送される。音声提示装置Ａ０００２が、例えば、右耳用のデバイス及び左耳用のデバイスなど複数のデバイスで構成されている場合、複数のデバイス間又は複数のデバイスのそれぞれと音響信号処理装置Ａ０００１とが通信することで、複数のデバイスは同期して音を提示する。音声提示装置Ａ０００２は、例えば、リスナの頭部に装着されるヘッドフォン、イヤホン、ヘッドマウントディスプレイ、又は固定された複数のスピーカで構成されたサラウンドスピーカーなどである。

　なお、立体音響再生システムＡ００００は、視覚的にＶＲ又はＡＲを含むＥＲ（Ｅｘｔｅｎｄｅｄ　Ｒｅａｌｉｔｙ）体験を提供する画像提示装置又は立体映像提示装置と組み合わせて用いられてもよい。

　なお、図１は、音響信号処理装置Ａ０００１と音声提示装置Ａ０００２とが別々の装置であるシステム構成例を示しているが、本開示の音響信号処理方法又は復号方法が適用可能な立体音響再生システムＡ００００は図１の構成に限定されない。例えば、音響信号処理装置Ａ０００１が音声提示装置Ａ０００２に含まれ、音声提示装置Ａ０００２が音響処理と音の提示との両方を行ってもよい。また、音響信号処理装置Ａ０００１と音声提示装置Ａ０００２とが本開示で説明する音響処理を分担して実施してもよいし、音響信号処理装置Ａ０００１又は音声提示装置Ａ０００２にネットワークを介して接続されたサーバが本開示で説明する音響処理の一部又は全体を実施してもよい。

　なお、上記説明では、音響信号処理装置Ａ０００１と呼んでいるが、音響信号処理装置Ａ０００１が音声信号又は音響処理に用いる空間情報の少なくとも一部のデータを符号化して生成されたビットストリームを復号して音響処理を実施する場合、音響信号処理装置Ａ０００１は復号装置と呼ばれてもよい。

　＜符号化装置の例＞
　図２は、本開示の符号化装置の一例である符号化装置Ａ０１００の構成を示す機能ブロック図である。

　入力データＡ０１０１はエンコーダＡ０１０２に入力される空間情報及び／又は音声信号を含む符号化対象となるデータである。空間情報の詳細については後で説明する。

　エンコーダＡ０１０２は、入力データＡ０１０１を符号化して、符号化データＡ０１０３を生成する。符号化データＡ０１０３は、例えば、符号化処理によって生成されたビットストリームである。

　メモリＡ０１０４は、符号化データＡ０１０３を格納する。メモリＡ０１０４は、例えば、ハードディスク又はＳＳＤ（Ｓｏｌｉｄ－Ｓｔａｔｅ　Ｄｒｉｖｅ）であってもよいし、その他のメモリであってもよい。

　なお、上記説明ではメモリＡ０１０４に記憶される符号化データＡ０１０３の一例として符号化処理によって生成されたビットストリームを挙げたが、ビットストリーム以外のデータであってもよい。例えば、符号化装置Ａ０１００は、ビットストリームを所定のデータフォーマットに変換して生成された変換後のデータをメモリＡ０１０４に記憶してもよい。変換後のデータは、例えば、一又は複数のビットストリームを格納したファイル又は多重化ストリームであってもよい。ここで、ファイルは、例えばＩＳＯＢＭＦＦ（ＩＳＯ　Ｂａｓｅ　Ｍｅｄｉａ　Ｆｉｌｅ　Ｆｏｒｍａｔ）などのファイルフォーマットを有するファイルである。また、符号化データＡ０１０３は、上記のビットストリーム又はファイルを分割して生成された複数のパケットの形式であってもよい。エンコーダＡ０１０２で生成されたビットストリームをビットストリームとは異なるデータに変換する場合、符号化装置Ａ０１００は、図示されていない変換部を備えていてもよいし、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）で変換処理を行ってもよい。

　＜復号装置の例＞
　図３は、本開示の復号装置の一例である復号装置Ａ０１１０の構成を示す機能ブロック図である。

　メモリＡ０１１４は、例えば、符号化装置Ａ０１００で生成された符号化データＡ０１０３と同じデータを格納している。メモリＡ０１１４は、保存されているデータを読み出し、デコーダＡ０１１２の入力データＡ０１１３として入力する。入力データＡ０１１３は、例えば、復号対象となるビットストリームである。メモリＡ０１１４は、例えば、ハードディスク又はＳＳＤであってもよいし、その他のメモリであってもよい。

　なお、復号装置Ａ０１１０は、メモリＡ０１１４が記憶しているデータをそのまま入力データＡ０１１３とするのではなく、読み出したデータを変換して生成された変換後のデータを入力データＡ０１１３としてもよい。変換前のデータは、例えば、一又は複数のビットストリームを格納した多重化データであってもよい。ここで、多重化データは、例えばＩＳＯＢＭＦＦなどのファイルフォーマットを有するファイルであってもよい。また、変換前のデータは、上記のビットストリーム又はファイルを分割して生成された複数のパケットの形式であってもよい。メモリＡ０１１４から読み出したビットストリームとは異なるデータをビットストリームに変換する場合、復号装置Ａ０１１０は、図示されていない変換部を備えていてもよいし、ＣＰＵで変換処理を行ってもよい。

　デコーダＡ０１１２は、入力データＡ０１１３を復号して、リスナに提示される音声信号Ａ０１１１を生成する。

　＜符号化装置の別の例＞
　図４は、本開示の符号化装置の別の一例である符号化装置Ａ０１２０の構成を示す機能ブロック図である。図４では、図２の構成と同じ機能を有する構成に図２の構成と同じ符号を付しており、これらの構成については説明を省略する。

　符号化装置Ａ０１００は符号化データＡ０１０３をメモリＡ０１０４に記憶していたのに対し、符号化装置Ａ０１２０は符号化データＡ０１０３を外部に対して送信する送信部Ａ０１２１を備える点で符号化装置Ａ０１００と異なる。

　送信部Ａ０１２１は、符号化データＡ０１０３又は符号化データＡ０１０３を変換して生成した別のデータ形式のデータに基づいて送信信号Ａ０１２２を別の装置又はサーバに対して送信する。送信信号Ａ０１２２の生成に用いられるデータは、例えば、符号化装置Ａ０１００で説明したビットストリーム、多重化データ、ファイル、又はパケットである。

　＜復号装置の別の例＞
　図５は、本開示の復号装置の別の一例である復号装置Ａ０１３０の構成を示す機能ブロック図である。図５では、図３の構成と同じ機能を有する構成に図３の構成と同じ符号を付しており、これらの構成については説明を省略する。

　復号装置Ａ０１１０は入力データＡ０１１３をメモリＡ０１１４から読み出していたのに対し、復号装置Ａ０１３０は入力データＡ０１１３を外部から受信する受信部Ａ０１３１を備える点で復号装置Ａ０１１０と異なる。

　受信部Ａ０１３１は、受信信号Ａ０１３２を受信して受信データを取得し、デコーダＡ０１１２に入力される入力データＡ０１１３を出力する。受信データは、デコーダＡ０１１２に入力される入力データＡ０１１３と同じであってもよいし、入力データＡ０１１３とは異なるデータ形式のデータであってもよい。受信データが、入力データＡ０１１３と異なるデータ形式のデータの場合、受信部Ａ０１３１が受信データを入力データＡ０１１３に変換してもよいし、復号装置Ａ０１３０が備える図示されていない変換部又はＣＰＵが受信データを入力データＡ０１１３に変換してもよい。受信データは、例えば、符号化装置Ａ０１２０で説明したビットストリーム、多重化データ、ファイル、又はパケットである。

　＜デコーダの機能説明＞
　図６は、図３又は図５におけるデコーダＡ０１１２の一例であるデコーダＡ０２００の構成を示す機能ブロック図である。

　入力データＡ０１１３は符号化されたビットストリームであり、符号化された音声信号である符号化音声データと音響処理に用いるメタデータとを含んでいる。

　空間情報管理部Ａ０２０１は、入力データＡ０１１３に含まれるメタデータを取得して、メタデータを解析する。メタデータは、音空間に配置された音に作用する要素を記述した情報を含む。空間情報管理部Ａ０２０１は、メタデータを解析して得られた音響処理に必要な空間情報を管理し、レンダリング部Ａ０２０３に対して空間情報を提供する。なお、本開示では音響処理に用いる情報が空間情報と呼ばれているが、それ以外の呼び方であってもよい。当該音響処理に用いる情報は、例えば、音空間情報と呼ばれてもよいし、シーン情報と呼ばれてもよい。また、音響処理に用いる情報が経時的に変化する場合、レンダリング部Ａ０２０３に入力される空間情報は、空間状態、音空間状態、シーン状態などと呼ばれてもよい。

　また、空間情報は音空間ごと又はシーンごとに管理されていてもよい。例えば、異なる部屋を仮想空間として表現する場合、それぞれの部屋が異なる音空間のシーンとして空間情報が管理されてもよいし、同じ空間であっても表現する場面に応じて異なるシーンとして空間情報が管理されてもよい。空間情報の管理において、それぞれの空間情報を識別する識別子が付与されておいてもよい。空間情報のデータは、入力データの一形態であるビットストリームに含まれていてもよいし、ビットストリームが空間情報の識別子を含み、空間情報のデータはビットストリーム以外から取得してもよい。ビットストリームに空間情報の識別子のみが含まれる場合、レンダリング時に空間情報の識別子を用いて、音響信号処理装置Ａ０００１のメモリ又は外部のサーバに記憶された空間情報のデータが入力データとして取得されてもよい。

　なお、空間情報管理部Ａ０２０１が管理する情報は、ビットストリームに含まれる情報に限定されない。例えば、入力データＡ０１１３は、ビットストリームには含まれないデータとして、ＶＲ又はＡＲを提供するソフトウェアアプリケーション又はサーバから取得された空間の特性又は構造を示すデータを含んでいてもよい。また、例えば、入力データＡ０１１３は、ビットストリームには含まれないデータとして、リスナ又はオブジェクトの特性又は位置などを示すデータを含んでいてもよい。また、入力データＡ０１１３は、リスナの位置を示す情報として復号装置を含む端末が備えるセンサで取得された情報、又は、センサで取得された情報に基づいて推定された端末の位置を示す情報を含んでいてもよい。つまり、空間情報管理部Ａ０２０１は外部のシステム又はサーバと通信し、空間情報及びリスナの位置を取得してもよい。また、空間情報管理部Ａ０２０１が外部のシステムからクロック同期情報を取得し、レンダリング部Ａ０２０３のクロックと同期する処理を実行してもよい。なお、上記の説明における空間は、仮想的に形成された空間、つまりＶＲ空間であってもよいし、実空間（つまりは現実空間）又は実空間に対応する仮想空間、つまりＡＲ又はＭＲ（Ｍｉｘｅｄ　Ｒｅａｌｉｔｙ）であってもよい。また、仮想空間は音場又は音空間と呼ばれてもよい。また、上記の説明における位置を示す情報は、空間内における位置を示す座標値などの情報であってもよいし、所定の基準位置に対する相対位置を示す情報であってもよいし、空間内の位置の動き又は加速度を示す情報であってもよい。

　音声データデコーダＡ０２０２は、入力データＡ０１１３に含まれる符号化音声データを復号して、音声信号を取得する。

　立体音響再生システムＡ００００が取得する符号化音声データは、例えば、ＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏ（ＩＳＯ／ＩＥＣ　２３００８－３）などの所定の形式で符号化されたビットストリームである。なお、ＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏはあくまでビットストリームに含まれる符号化音声データを生成する際に利用可能な符号化方式の一例であり、他の符号化方式で符号化されたビットストリームと符号化音声データとして含んでいてもよい。例えば、用いられる符号化方式は、ＭＰ３（ＭＰＥＧ－１　Ａｕｄｉｏ　Ｌａｙｅｒ－３）、ＡＡＣ（Ａｄｖａｎｃｅｄ　Ａｕｄｉｏ　Ｃｏｄｉｎｇ）、ＷＭＡ（Ｗｉｎｄｏｗｓ　Ｍｅｄｉａ　Ａｕｄｉｏ）、ＡＣ３（Ａｕｄｉｏ　Ｃｏｄｅｃ―３）、Ｖｏｒｂｉｓなどの非可逆コーデックであってもよいし、ＡＬＡＣ（Ａｐｐｌｅ　Ｌｏｓｓｌｅｓｓ　Ａｕｄｉｏ　Ｃｏｄｅｃ）、ＦＬＡＣ（Ｆｒｅｅ　Ｌｏｓｓｌｅｓｓ　Ａｕｄｉｏ　Ｃｏｄｅｃ）などの可逆コーデックであってもよいし、上記以外の任意の符号化方式が用いられてもよい。例えば、ＰＣＭ（ｐｕｌｓｅ　ｃｏｄｅ　ｍｏｄｕｌａｔｉｏｎ）データが符号化音声データの一種であるとしてもよい。この場合、復号処理は、例えば、当該ＰＣＭデータの量子化ビット数がＮである場合、Ｎビットの二進数を、レンダリング部Ａ０２０３が処理できる数形式（例えば浮動小数点形式）に変換する処理としてもよい。

　レンダリング部Ａ０２０３は、音声信号と空間情報とを入力とし、空間情報を用いて音声信号に音響処理を施して、音響処理後の音声信号Ａ０１１１を出力する。

　空間情報管理部Ａ０２０１は、レンダリングを開始する前に、入力信号のメタデータを読み込み、空間情報で規定されたオブジェクト又は音などのレンダリングアイテムを検出し、レンダリング部Ａ０２０３に送信する。レンダリング開始後、空間情報管理部Ａ０２０１は、空間情報及びリスナの位置の経時的な変化を把握し、空間情報を更新して管理する。そして、空間情報管理部Ａ０２０１は、更新された空間情報をレンダリング部Ａ０２０３に送信する。レンダリング部Ａ０２０３は入力データＡ０１１３に含まれる音声信号と、空間情報管理部Ａ０２０１から受信した空間情報とに基づいて音響処理を付加した音声信号を生成し出力する。

　空間情報の更新処理と、音響処理を付加した音声信号の出力処理とが同じスレッドで実行されてもよいし、空間情報管理部Ａ０２０１とレンダリング部Ａ０２０３とはそれぞれ独立したスレッドに配分してもよい。空間情報の更新処理と、音響処理を付加した音声信号の出力処理とが異なるスレッドで処理される場合、スレッドの起動頻度が個々に設定されてもよいし、平行して処理が実行されてもよい。

　空間情報管理部Ａ０２０１とレンダリング部Ａ０２０３とが異なる独立したスレッドで処理を実行することで、レンダリング部Ａ０２０３に優先的に演算資源を割り当てることができるので、僅かな遅延も許容できないような出音処理の場合、例えば、１サンプル（０．０２ｍｓｅｃ）でも遅延した場合にプチっというノイズが発生するような出音処理であっても安全に実施することができる。その際、空間情報管理部Ａ０２０１には演算資源の割り当てが制限される。しかし、空間情報の更新は、音声信号の出力処理と比較して、低頻度の処理（例えば、受聴者の顔の向きの更新のような処理）である。このため、音声信号の出力処理のように必ずしも瞬間的に応答しなければならないというものではないので、演算資源の割り当てを制限しても受聴者に与える音響的な品質に大きな影響はない。

　空間情報の更新は、予め設定された時間又は期間ごとに定期的に実行されてもよいし、予め設定された条件が満たされた場合に実行されてもよい。また、空間情報の更新は、リスナ又は音空間の管理者によって手動で実行されてもよいし、外部システムの変化をトリガとして実行されてもよい。例えば、受聴者がコントローラーを操作して、自身のアバターの立ち位置を瞬間的にワープしたり、時刻を瞬時に進めたり戻したり、或いは、仮想空間の管理者が、突如、場の環境を変更するような演出を施したりした場合、空間情報管理部Ａ０２０１が配置されたスレッドは、定期的な起動に加えて、単発的な割り込み処理として起動されてもよい。

　空間情報の更新処理を実行する情報更新スレッドが担う役割は、例えば、受聴者が装着しているＶＲゴーグルの位置又は向きに基づいて、仮想空間内に配置された受聴者のアバターの位置又は向きを更新する処理、及び、仮想空間内を移動している物体の位置の更新などであり、数１０Ｈｚ程度の比較的低頻度で起動する処理スレッド内で賄われるものである。そのような、発生頻度の低い処理スレッドで直接音の性質を反映させる処理が行われるようにしてもよい。それは、オーディオ出力のためのオーディオ処理フレームの発生頻度より直接音の性質が変動する頻度が低いためである。むしろそうすることで、当該処理の演算負荷を相対的に小さくすることができるし、不必要に速い頻度で情報を更新するとパルシブなノイズが発生するリスクが生じるので、そのリスクを回避することもできる。

　図７は、図３又は図５におけるデコーダＡ０１１２の別の一例であるデコーダＡ０２１０の構成を示す機能ブロック図である。

　図７が示すデコーダＡ０２１０は、入力データＡ０１１３が、符号化音声データではなく符号化されていない音声信号を含んでいる点で図６が示すデコーダＡ０２００と異なる。入力データＡ０１１３は、メタデータを含むビットストリームと音声信号を含む。

　空間情報管理部Ａ０２１１は、図６の空間情報管理部Ａ０２０１と同じであるため説明を省略する。

　レンダリング部Ａ０２１３は、図６のレンダリング部Ａ０２０３と同じであるため説明を省略する。

　なお、上記説明では図７の構成がデコーダＡ０２１０と呼ばれているが、音響処理を実施する音響処理部と呼ばれてもよい。また、音響処理部を含む装置が復号装置ではなく音響処理装置と呼ばれてもよい。また、音響信号処理装置Ａ０００１が音響処理装置と呼ばれてもよい。

　＜音響信号処理装置の物理的構成＞
　図８は、音響信号処理装置の物理的構成の一例を示す図である。なお、図８の音響信号処理装置は、復号装置であってもよい。また、ここで説明する構成の一部は音声提示装置Ａ０００２に備えられていてもよい。また、図８に示される音響信号処理装置は、上記の音響信号処理装置Ａ０００１の一例である。

　図８の音響信号処理装置は、プロセッサと、メモリと、通信ＩＦと、センサと、スピーカとを備える。

　プロセッサは、例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）又はＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）であり、当該ＣＰＵ、ＤＳＰ又はＧＰＵがメモリに記憶されたプログラム実行することで本開示の音響処理又はデコード処理を実施してもよい。また、プロセッサは、本開示の音響処理を含む音声信号に対する信号処理を行う専用回路であってもよい。

　メモリは、例えば、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）又はＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）で構成される。メモリは、ハードディスクなどの磁気記憶媒体又はＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）などの半導体メモリなどを含んでいてもよい。また、ＣＰＵ又はＧＰＵに組み込まれた内部メモリを含めてメモリと呼ばれてもよい。

　通信ＩＦ（Ｉｎｔｅｒ　Ｆａｃｅ）は、例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）又はＷＩＧＩＧ（登録商標）などの通信方式に対応した通信モジュールである。図８に示される音響信号処理装置は、通信ＩＦを介して他の通信装置と通信を行う機能を有し、復号対象のビットストリームを取得する。取得したビットストリームは、例えば、メモリに格納される。

　通信モジュールは、例えば、通信方式に対応した信号処理回路とアンテナとで構成される。上記の例では、通信方式としてＢｌｕｅｔｏｏｔｈ（登録商標）又はＷＩＧＩＧ（登録商標）を例に挙げたが、ＬＴＥ（Ｌｏｎｇ　Ｔｅｒｍ　Ｅｖｏｌｕｔｉｏｎ）、ＮＲ（Ｎｅｗ　Ｒａｄｉｏ）、又はＷｉ－Ｆｉ（登録商標）などの通信方式に対応していてもよい。また、通信ＩＦは、上記のような無線通信方式ではなく、Ｅｔｈｅｒｎｅｔ（登録商標）、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）、ＨＤＭＩ（登録商標）（Ｈｉｇｈ－Ｄｅｆｉｎｉｔｉｏｎ　Ｍｕｌｔｉｍｅｄｉａ　Ｉｎｔｅｒｆａｃｅ）などの有線の通信方式であってもよい。

　センサは、リスナの位置又は向きを推定するためのセンシングを行う。具体的には、センサは、リスナの頭部など身体の一部又は全体の位置、向き、動き、速度、角速度、又は加速度などのうちいずれか一つ又は複数の検出結果に基づいてリスナの位置及び／又は向きを推定し、リスナの位置及び／又は向きを示す位置情報を生成する。なお、位置情報は実空間におけるリスナの位置及び／又は向きを示す情報であってもよいし、所定の時点におけるリスナの位置及び／又は向きを基準としたリスナの位置及び／又は向きの変位を示す情報であってもよい。また、位置情報は、立体音響再生システムＡ００００又はセンサを備える外部装置との相対的な位置及び／又は向きを示す情報であってもよい。

　センサは、例えば、カメラなどの撮像装置又はＬｉＤＡＲ（Ｌｉｇｈｔ　Ｄｅｔｅｃｔｉｏｎ　Ａｎｄ　Ｒａｎｇｉｎｇ）などの測距装置であってもよく、リスナの頭部の動きを撮像し、撮像された画像を処理することでリスナの頭部の動きを検知してもよい。また、センサとして例えばミリ波などの任意の周波数帯域の無線を用いて位置推定を行う装置を用いてもよい。

　なお、図８に示される音響信号処理装置は、センサを備える外部の機器から通信ＩＦを介して位置情報を取得してもよい。この場合、音響信号処理装置はセンサを含んでいなくてもよい。ここで、外部の機器とは、例えば図１で説明した音声提示装置Ａ０００２又は、リスナの頭部に装着される立体映像再生装置などである。このときセンサは、例えば、ジャイロセンサ及び加速度センサなど各種のセンサを組み合わせて構成される。

　センサは、例えば、リスナの頭部の動きの速度として、音空間内で互いに直交する３軸の少なくとも１つを回転軸とする回転の角速度を検知してもよいし、上記３軸の少なくとも１つを変位方向とする変位の加速度を検知してもよい。

　センサは、例えば、リスナの頭部の動きの量として、音空間内で互いに直交する３軸の少なくとも１つを回転軸とする回転量を検知してもよいし、上記３軸の少なくとも１つを変位方向とする変位量を検知してもよい。具体的には、センサは、リスナの位置として６ＤｏＦ（位置（ｘ、ｙ、ｚ）及び角度（ｙａｗ、ｐｉｔｃｈ、ｒｏｌｌ））を検知する。センサは、ジャイロセンサ及び加速度センサなど動きの検知に使用される各種のセンサを組み合わせて構成される。

　なお、センサは、リスナの位置を検出できればよく、カメラ又はＧＰＳ（Ｇｌｏｂａｌ　Ｐｏｓｉｔｉｏｎｉｎｇ　Ｓｙｓｔｅｍ）受信機などにより実現されてもよい。ＬｉＤＡＲ（Ｌａｓｅｒ　Ｉｍａｇｉｎｇ　Ｄｅｔｅｃｔｉｏｎ　ａｎｄ　Ｒａｎｇｉｎｇ）などを用いて自己位置推定を実施して得られた位置情報を用いてもよい。例えば、センサは、音声信号再生システムがスマートフォンにより実現される場合には、スマートフォンに内蔵される。

　また、センサには、図８に示される音響信号処理装置の温度を検出する熱電対などの温度センサ、及び、音響信号処理装置が備える、又は音響信号処理装置と接続されたバッテリの残量を検出するセンサなどが含まれていてもよい。

　スピーカは、例えば、振動板と、マグネット又はボイスコイルなどの駆動機構とアンプとを有し、音響処理後の音声信号を音としてリスナに提示する。スピーカは、アンプを介して増幅させた音声信号（より具体的には、音の波形を示す波形信号）に応じて駆動機構を動作させ、駆動機構によって振動板を振動させる。このようにして、音声信号に応じて振動する振動板は、音波を発生させ、音波が空気を伝搬してリスナの耳に伝達し、リスナが音を知覚する。

　なお、ここでは図８に示される音響信号処理装置がスピーカを備え、当該スピーカを介して音響処理後の音声信号を提示する場合を例に挙げて説明したが、音声信号の提示手段は上記の構成に限定されない。例えば、通信モジュールで接続された外部の音声提示装置Ａ０００２に音響処理後の音声信号が出力されてもよい。通信モジュールで行う通信は有線でも無線でもよい。また別の例として、図８に示される音響信号処理装置が音声のアナログ信号を出力する端子を備え、端子にイヤホンなどのケーブルを接続してイヤホンなどから音声信号を提示してもよい。上記の場合、音声提示装置Ａ０００２であるリスナの頭部又は体の一部に装着されるヘッドフォン、イヤホン、ヘッドマウントディスプレイ、ネックスピーカー、ウェアラブルスピーカー、又は固定された複数のスピーカで構成されたサラウンドスピーカーなどが音声信号を再生する。

　＜符号化装置の物理的構成＞
　図９は、符号化装置の物理的構成の一例を示す図である。また、図９に示される符号化装置は、上記の符号化装置Ａ０１００及びＡ０１２０などの一例である。

　図９の符号化装置は、プロセッサと、メモリと、通信ＩＦとを備える。

　プロセッサは、例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）又はＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）であり、当該ＣＰＵ又はＧＰＵがメモリに記憶されたプログラム実行することで本開示の符号化処理を実施してもよい。また、プロセッサは、本開示の符号化処理を含む音声信号に対する信号処理を行う専用回路であってもよい。

　通信ＩＦ（Ｉｎｔｅｒ　Ｆａｃｅ）は、例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）又はＷＩＧＩＧ（登録商標）などの通信方式に対応した通信モジュールである。符号化装置は、通信ＩＦを介して他の通信装置と通信を行う機能を有し、符号化されたビットストリームを送信する。

　［構成］
　さらに、実施の形態１に係る音響信号処理装置１００の構成について説明する。図１０は、本実施の形態に係る音響信号処理装置１００の機能構成を示すブロック図である。

　本実施の形態に係る音響信号処理装置１００は、基準音の波形を示す音データを取得し、処理し、出力するための装置である。音データが出力されることで、受聴者は、当該音データが示す音を受聴することができる。本実施の形態に係る音響信号処理装置１００は、一例として仮想現実又は拡張現実（ＶＲ又はＡＲ）などの仮想空間における様々なアプリケーションに応用される装置である。

　基準音は、どのような音であってもよいが、例えば自然現象に関する音である。本実施の形態においては、自然現象は、自然界において起こる現象であれば特に限定されないが、例えば、風が吹く、川の水が流れる、動物の行動などの現象である。自然現象に関する音とは、例えば、風が吹くことにより生じる音、川の水が流れることによるせせらぎ音、動物の鳴き声などである。

　ここで、風が吹くことにより生じる音に着目すると、仮想空間内において、風が物体と衝突することで発生する空力音が挙げられる。この空力音は、風が、例えば受聴者の耳に到達して衝突することで生じる音である。このように、空力音は、仮想空間に吹く風に由来する音である。

　本実施の形態においては、基準音は、風Ｗによって生じる空力音である。なおこれに限られず、基準音は、川の水が流れることによるせせらぎ音又は動物の鳴き声などであってもよい。

　仮想空間における風は、一例として、当該仮想空間におけるオブジェクトに起因する風である。

　図１１は、本実施の形態に係るオブジェクトの一例である扇風機ＦＮと受聴者Ｌとを示す図である。オブジェクトが扇風機ＦＮなどの送風することができるオブジェクトである場合には、空力音は、扇風機ＦＮが発生させた風Ｗが受聴者Ｌに到達することによって生じる空力音である。より具体的には、空力音は、扇風機ＦＮから吹出された風Ｗが受聴者Ｌに達することで、例えば受聴者Ｌの耳の形状に応じて生じる音である。

　また例えば、オブジェクトが移動体（例えば車両）である場合には、空力音は、オブジェクトの位置の移動により発生した風Ｗが受聴者Ｌに到達することによって生じる空力音である。

　また、仮想空間における風Ｗは、一例として、現実空間において自然に発生した風が当該仮想空間で再現された風（以下、自然風）であり、その発生位置を仮想空間で特定されることができない風である。仮想空間における風Ｗが自然風である場合には、オブジェクトに起因しない風であるとも言える。

　なお、本実施の形態に係るオブジェクトは、扇風機ＦＮに限られない。仮想空間におけるオブジェクトは、当該仮想空間内で実行されるコンテンツ（ここでは一例として映像）を表示する表示部３００に表示される当該コンテンツに含まれるものであれば、特に限定されない。

　オブジェクトは、例えば、当該オブジェクトの位置の移動により風を発生させる移動体であってもよい。移動体は、例えば、動植物、人工物又は自然物などを示すオブジェクトを含む。人工物を示すオブジェクトの例として、車両、自転車及び航空機などが挙げられる。また、人工物を示すオブジェクトの例として、野球用のバット及びテニス用のラケットなどのスポーツ用品と、机、椅子及び柱時計などの家具と、などが挙げられる。なお、オブジェクトは、一例としては、当該コンテンツ内にて移動し得るもの、及び、移動され得るもののうち少なくとも一方であってもよい。

　また例えば、オブジェクトは、送風することができるオブジェクトであってもよい。このようなオブジェクトは、例えば、上記扇風機ＦＮ以外には、サーキュレータ、うちわ及びエアコンなどである。

　また、オブジェクトは、音を発生させるオブジェクトであってもよい。オブジェクトが発生させる音は、オブジェクトに対応付けられた音データ（以下オブジェクト音データと記載する場合がある）が示す音である。例えば、オブジェクトが扇風機ＦＮである場合には、オブジェクトが発生させる音は、扇風機ＦＮが有するモーターが発生させるモーター音である。また、例えば、オブジェクトが救急車である場合には、オブジェクトが発生させる音は、救急車から発されるサイレン音である。

　音響信号処理装置１００は、仮想空間における空力音である基準音の波形を示す音データ（空力音データ）を処理して、ヘッドフォン２００に出力する。なお、以下では、基準音（空力音）の波形を示す音データを空力音データと記載する場合がある。

　次に、ヘッドフォン２００について説明する。

　ヘッドフォン２００は、空力音を再生する装置であり、空力音を受聴者Ｌに提示する音声出力装置である。より具体的には、ヘッドフォン２００は、音響信号処理装置１００によって出力された空力音データに基づいて、空力音を再生する。これにより受聴者Ｌは、空力音を受聴することができる。なお、ヘッドフォン２００にかえて、スピーカなど他の出力チャンネルが用いられてもよい。

　図１０が示すように、ヘッドフォン２００は、頭部センサ部２０１と、出力部２０２とを備える。

　頭部センサ部２０１は、仮想空間における水平面の座標及び垂直方向の高さで定められる受聴者Ｌの位置をセンシングして、仮想空間における空力音の受聴者Ｌの位置を示す第２位置情報を音響信号処理装置１００に出力する。

　頭部センサ部２０１は、受聴者Ｌの頭部の６ＤｏＦの情報をセンシングするとよい。例えば、頭部センサ部２０１は、慣性測定ユニット（ＩＭＵ：Ｉｎｅｒｔｉａｌ　Ｍｅａｓｕｒｅｍｅｎｔ　Ｕｎｉｔ）、加速度計、ジャイロスコープ、磁気センサ又はこれらの組合せであるとよい。

　出力部２０２は、音再生空間において受聴者Ｌに到達する音を再生する装置である。より具体的には、出力部２０２は、音響信号処理装置１００から出力された上記空力音を示す空力音データに基づいて、上記空力音を再生する。

　続いて、表示部３００について説明する。

　表示部３００は、仮想空間におけるオブジェクトを含むコンテンツ（映像）を表示する表示装置である。表示部３００がコンテンツを表示するための処理については、後述する。表示部３００は、例えば、液晶パネル又は有機ＥＬ（Ｅｌｅｃｔｒｏ　Ｌｕｍｉｎｅｓｃｅｎｃｅ）パネルなどの表示パネルによって実現される。

　さらに、図１０が示す音響信号処理装置１００について説明する。本実施の形態においては、音響信号処理装置１００は、仮想空間における空力音である基準音の波形を示す音データ（空力音データ）を取得して、処理して、ヘッドフォン２００に出力する。

　図１０が示すように、音響信号処理装置１００は、取得部１１０と、処理部１２０と、出力部１３０と、記憶部１４０と、受付部１５０とを備える。

　取得部１１０は、基準音（空力音）の波形を示す音データを取得する。図１２は、本実施の形態に係る音データを示す図である。図１２が示すように、音データは、例えば時間と振幅とが示された波形を示すデータであり、ここでは空力音データである。

　記憶部１４０には当該音データ（空力音データ）が記憶されており、取得部１１０は記憶部１４０に記憶されている当該音データ（空力音データ）を取得する。

　取得部１１０は、オブジェクト（例えば扇風機ＦＮ）の位置を示す第１位置情報を取得する。また、オブジェクトが音を発生させるオブジェクトである場合には、取得部１１０は、当該音を示すオブジェクト音データを取得する。また、取得部１１０は、オブジェクトの形状を示す形状情報を取得する。

　取得部１１０は、第２位置情報を取得する。第２位置情報とは、上記の通り、仮想空間における受聴者Ｌの位置を示す情報である。

　取得部１１０は、例えば入力信号から、基準音の波形を示す音データ、第１位置情報、オブジェクト音データ、形状情報及び第２位置情報を取得してもよい。また、取得部１１０は、それ以外から、基準音の波形を示す音データ、第１位置情報、オブジェクト音データ、形状情報及び第２位置情報を取得してもよい。入力信号については、下記で説明する。また、以下では、基準音の波形を示す音データ（空力音データ）及びオブジェクト音データをまとめて音データと記載する場合がある。

　入力信号は、例えば、空間情報とセンサ情報と音データ（音声信号）とで構成される。また、上記の情報と音データとは１つの入力信号に含まれていてもよいし、複数の別々の信号に上述の情報と音データとが含まれていてもよい。入力信号は、音データとメタデータ（制御情報）とで構成されるビットストリームを含んでいてもよく、その場合メタデータに空間情報及び音データを識別する情報が含まれていてもよい。

　上記で説明した、基準音の波形を示す音データ、第１位置情報、オブジェクト音データ、形状情報及び第２位置情報は、入力信号に含まれていてもよい。より具体的には、第１位置情報及び形状情報は空間情報に含まれていてもよく、第２位置情報はセンサ情報から取得される情報に基づいて生成されてもよい。センサ情報は、頭部センサ部２０１から取得されてもよく、他の外部装置から取得されてもよい。

　空間情報は、立体音響再生システムＡ００００が作り出す音空間（三次元音場）に関する情報であって、音空間に含まれるオブジェクトに関する情報とリスナに関する情報とで構成される。オブジェクトには、音を発し音源となる音源オブジェクトと、音を発しない非発音オブジェクトとが存在する。非発音オブジェクトは、音源オブジェクトが発した音を反射する障害物オブジェクトとして機能するが、音源オブジェクトが別の音源オブジェクトが発した音を反射する障害物オブジェクトとして機能する場合もある。障害物オブジェクトは反射オブジェクトと呼ばれてもよい。

　音源オブジェクトと非発音オブジェクトとに共通して付与される情報として、位置情報、形状情報、及び、オブジェクトが音を反射する際の音量の減衰率などがある。

　位置情報は、ユークリッド空間の例えばＸ軸、Ｙ軸、Ｚ軸の３軸の座標値で表されるが、必ずしも三次元情報でなくてもよい。位置情報は、例えば、Ｘ軸、Ｙ軸の２軸の座標値で表される二次元情報であってもよい。オブジェクトの位置情報は、メッシュ又はボクセルで表現される形状の代表位置で定められる。

　形状情報は、表面の素材に関する情報を含んでいてもよい。

　減衰率は、１以下又は０以上の実数で表現してもよいし、マイナスのデシベル値で表現してもよい。実空間では反射によって音量が増幅することはないため、減衰率はマイナスのデシベル値が設定されるが、例えば、非現実空間の不気味さを演出するために、あえて１以上の減衰率、すなわち、プラスのデシベル値が設定されてもよい。また、減衰率は、複数の周波数帯域を構成する周波数帯域毎に異なる値が設定されてもよいし、周波数帯域毎に独立に値が設定されてもよい。また、減衰率がオブジェクト表面の素材の種類ごとに設定されている場合、表面の素材に関する情報に基づいて対応する減衰率の値が用いられてもよい。

　また、音源オブジェクトと非発音オブジェクトとに共通して付与される情報は、オブジェクトが生物に属するか否かを示す情報又は、オブジェクトが移動体であるか否かを示す情報などを含んでいてもよい。オブジェクトが移動体である場合、位置情報は時間とともに移動してもよく、変化した位置情報又は変化量がレンダリング部Ａ０２０３及びＡ０２１３に伝送される。

　音源オブジェクトに関する情報は、上述した音源オブジェクトと非発音オブジェクトとに共通して付与される情報に加えて、オブジェクト音データとオブジェクト音データを音空間内に放射するために必要な情報とを含む。オブジェクト音データは、音の周波数及び強弱に関する情報などを示す、リスナに知覚される音が表現されたデータである。オブジェクト音データは、典型的にはＰＣＭ信号であるが、ＭＰ３などの符号化方式を用いて圧縮されたデータであってもよい。その場合は、少なくとも当該信号が生成部（図３４で後述する生成部９０７）に到達するまでに復号化される必要があるため、レンダリング部Ａ０２０３及びＡ０２１３に図示しない復号部を含んでいてもよい。或いは、当該信号は、音声データデコーダＡ０２０２で復号化してもよい。

　１つの音源オブジェクトに対して少なくとも１つのオブジェクト音データが設定されていればよく、複数のオブジェクト音データが設定されていてもよい。また、それぞれのオブジェクト音データを識別する識別情報が付与され、音源オブジェクトに関する情報として、オブジェクト音データの識別情報がメタデータとして保持されてもよい。

　オブジェクト音データを音空間内に放射するために必要な情報として、例えば、オブジェクト音データを再生する際に基準となる基準音量の情報、音源オブジェクトの位置に関する情報、音源オブジェクトの向きに関する情報、及び、音源オブジェクトが発する音の指向性に関する情報などが含まれていてもよい。

　基準音量の情報は、例えば、オブジェクト音データを音空間に放射する際の音源位置におけるオブジェクト音データの振幅値の実効値であって、デシベル（ｄｂ）値として浮動小数点で表されてもよい。例えば基準音量が０ｄｂの場合、基準音量の情報は、オブジェクト音データが示す信号レベルの音量を増減させることなくそのままの音量で上記位置に関する情報が指し示す位置から音空間に対して音を放射することを示しているものとしてもよい。基準音量の情報は、－６ｄｂの場合、オブジェクト音データが示す信号レベルの音量を約半分にして上記位置に関する情報が指し示す位置から音空間に対して音を放射することを示しているものとしてもよい。基準音量の情報は、１つのオブジェクト音データに対して又は複数のオブジェクト音データに対してまとめて付与されてもよい。

　オブジェクト音データを音空間内に放射するために必要な情報に含まれる音量の情報として、例えば、音源の音量の時系列的な変動を示す情報が含まれていてもよい。例えば、音空間が仮想会議室であり、音源が話者である場合、音量は短い時間で断続的に遷移する。それをさらに単純に表現すれば、有音部分と無音部分とが交互に発生する、とも言える。また、音空間がコンサートホールであり、音源が演奏者である場合、音量は一定の時間長維持される。また、音空間が戦場であり、音源が爆発物である場合、爆発音の音量は一瞬だけ大となり以降は無音であり続ける。このように音源の音量の情報は、音の大きさの情報のみならず、音の大きさの遷移の情報を含むものであり、そのような情報をオブジェクト音データの性質を示す情報としてもよい。

　ここで、音の大きさの遷移の情報は、周波数特性を時系列に示したデータであってもよい。音の大きさの遷移の情報は、有音である区間の継続時間長を示したデータであってもよい。音の大きさの遷移の情報は、有音である区間の継続時間長と無音である区間の時間長との時系列を示したデータであってもよい。音の大きさの遷移の情報は、音信号の振幅が定常的であるとみなせる（概ね一定であるとみなせる）継続時間とその間の当該信号の振幅値のデータとを複数組時系列で列挙したデータなどであってもよい。音の大きさの遷移の情報は、音信号の周波数特性が定常的であるとみなせる継続時間のデータであってもよい。音の大きさの遷移の情報は、音信号の周波数特性が定常的であるとみなせる継続時間とその間の当該周波数特性のデータとを複数組時系列で列挙したデータなどであってもよい。音の大きさの遷移の情報は、データの形式として例えば、スペクトログラムの概形を示すデータであってもよい。また、上記周波数特性の基準となる音量を上記基準音量としてもよい。基準音量の情報とオブジェクト音データの性質とを示す情報は、リスナに知覚させる直接音又は反射音の音量を算出する他、リスナに知覚させるか否か選択をするための選択処理に用いられてもよい。

　向きに関する情報は、典型的には、ｙａｗ、ｐｉｔｃｈ、ｒｏｌｌで表現される。または、ｒｏｌｌの回転を省略し、アジマス（ｙａｗ）、エレベーション（ｐｉｔｃｈ）で表現してもよい。向き情報は時間とともに変化してもよく、変化した場合、レンダリング部Ａ０２０３及びＡ０２１３に伝送される。

　リスナに関する情報は、音空間におけるリスナの位置情報と向きとに関する情報である。位置情報はユークリッド空間のＸ軸、Ｙ軸及びＺ軸の位置で表されるが、必ずしも三次元情報でなくてもよく、二次元情報であってもよい。向きに関する情報は、典型的には、ｙａｗ、ｐｉｔｃｈ、ｒｏｌｌで表現される。または、向きに関する情報は、ｒｏｌｌの回転を省略し、アジマス（ｙａｗ）、エレベーション（ｐｉｔｃｈ）で表現してもよい。位置情報と向き情報とは時間とともに変化してもよく、変化した場合、レンダリング部Ａ０２０３及びＡ０２１３に伝送される。

　センサ情報は、リスナが装着するセンサで検知された回転量又は変位量などとリスナの位置及び向きとを含む情報である。センサ情報はレンダリング部Ａ０２０３及びＡ０２１３に伝送され、レンダリング部Ａ０２０３及びＡ０２１３はセンサ情報に基づいてリスナの位置及び向きの情報を更新する。センサ情報は、例えば携帯端末がＧＰＳ、カメラ、又はＬｉＤＡＲ（Ｌａｓｅｒ　Ｉｍａｇｉｎｇ　Ｄｅｔｅｃｔｉｏｎ　ａｎｄ　Ｒａｎｇｉｎｇ）などを用いて自己位置推定を実施して得られた位置情報が用いられてもよい。またセンサ以外から、通信モジュールを通じて外部から取得した情報がセンサ情報として検出されてもよい。センサから、音響信号処理装置１００の温度を示す情報、及び、バッテリの残量を示す情報が、センサ情報として、取得されてもよい。音響信号処理装置１００又は音声提示装置Ａ０００２の演算資源（ＣＰＵ能力、メモリ資源、ＰＣ性能）を示す情報などがセンサ情報として、リアルタイムで取得されてもよい。

　本実施の形態においては、取得部１１０は、基準音の波形を示す音データ、第１位置情報、オブジェクト音データ及び形状情報を記憶部１４０から取得するがこれに限られず、音響信号処理装置１００以外の装置（例えばクラウドサーバなどのサーバ装置５００）から取得してもよい。また、取得部１１０は、第２位置情報をヘッドフォン２００（より具体的には、頭部センサ部２０１）から取得するがこれに限られない。

　さらに、第１位置情報について説明する。

　上記の通り、仮想空間におけるオブジェクトは、表示部３００に表示されるコンテンツ（映像）に含まれるものであり、本実施の形態においては、例えば扇風機ＦＮである。

　第１位置情報は、仮想空間における扇風機ＦＮが、ある時点において、仮想空間内のどの位置にあるのかを示す情報である。なお、仮想空間においては、例えばユーザが扇風機ＦＮを手に取って移動することで、扇風機ＦＮが移動される可能性がある。このため、取得部１１０は、継続的に第１位置情報を取得する。取得部１１０は、例えば、空間情報管理部Ａ０２０１及びＡ０２１１で実行される空間情報の更新ごとに第１位置情報を取得する。

　さらに、基準音（空力音）の波形を示す音データ、及び、オブジェクトに対応付けられたオブジェクト音データを含む音データについて説明する。

　本明細書で説明されるオブジェクト音データ及び空力音データを含む音データは、ＰＣＭ（Ｐｕｌｓｅ　Ｃｏｄｅ　Ｍｏｄｕｌａｔｉｏｎ）データのような音信号であってもよく、また、これに限られず、音の性質を示すための情報であればよい。

　一例として仮に音信号が、音量がＸデシベルの雑音信号である場合に、当該音信号に係る音データは、当該音信号を示すＰＣＭデータそのものであってもよく、成分が雑音信号であることを示す情報及び音量がＸデシベルであることを示す情報からなるデータであってもよい。他の一例として仮に音信号が、周波数成分のＰｅａｋ／Ｄｉｐが所定の特性である雑音信号である場合に、当該音データに係る音データは、当該音信号を示すＰＣＭデータそのものであってもよく、成分が雑音信号であることを示す情報及び周波数成分のＰｅａｋ／Ｄｉｐを示す情報からなるデータであってもよい。

　なお、本明細書では、音データに基づく音信号とは、当該音データを示すＰＣＭデータであることを意味する。

　また、基準音の波形を示す音データである空力音データは、上記の通り、予め記憶部１４０に記憶されている。空力音は、風Ｗが物体と衝突することによって発生する音であり、ここでは、風Ｗが受聴者Ｌの耳と衝突することによって発生する音である。空力音データとは、風Ｗが人の耳又は人の耳を模した形状を有する物体（モデル）と衝突することで発生する音が収音されたデータである。本実施の形態においては、空力音データは、人の耳を模した物体（モデル）に風が到達することで生じる音が収音されたデータである。人の耳を模したモデルとしてダミーヘッドマイクなどが用いられ、空力音データが収音される。

　次に、形状情報について説明する。

　形状情報は、仮想空間におけるオブジェクトの形状を示す情報である。形状情報は、オブジェクトの形状を示し、より具体的には、オブジェクトの剛体として三次元形状を示す。オブジェクトの形状は、例えば、球体、直方体、立方体、多面体、円錐、角錐、円柱、角柱など、またこれらの組み合わせなどにより示される。なお、形状情報は、例えばメッシュデータ、又は、例えばボクセル、三次元点群もしくは三次元座標を持つ頂点からなる複数の面の集合として表現されてもよい。

　なお、第１位置情報にはオブジェクトを識別するためのオブジェクト識別情報が含まれている。また、オブジェクト音データにもオブジェクト識別情報が含まれ、形状情報にもオブジェクト識別情報が含まれている。

　このため、取得部１１０が第１位置情報、オブジェクト音データ、及び、形状情報を別個で取得したとしても、第１位置情報、オブジェクト音データ、及び、形状情報のそれぞれに含まれるオブジェクト識別情報が参照されることで、第１位置情報、オブジェクト音データ、及び、形状情報のそれぞれが示すオブジェクトが識別される。例えばここでは、第１位置情報、オブジェクト音データ、及び、形状情報のそれぞれが示すオブジェクトが、同一の扇風機ＦＮであることが容易に識別することができる。つまり、取得部１１０が取得した第１位置情報、オブジェクト音データ、及び、形状情報のそれぞれは、３つのオブジェクト識別情報が参照されることで当該第１位置情報、当該オブジェクト音データ、及び、当該形状情報が扇風機ＦＮに係る情報であることが明らかになる。従って、当該第１位置情報、当該オブジェクト音データ、及び、当該形状情報は当該扇風機ＦＮについて示す情報として紐づけられる。

　続いて、第２位置情報について説明する。

　受聴者Ｌは、仮想空間において移動し得る。第２位置情報は、仮想空間における受聴者Ｌが、ある時点において、仮想空間内のどの位置に居るのかを示す情報である。なお、受聴者Ｌは仮想空間において移動することができるため、取得部１１０は継続的に第２位置情報を取得する。取得部１１０は、例えば、空間情報管理部Ａ０２０１及びＡ０２１１で実行される空間情報の更新ごとに第２位置情報を取得する。

　なお、上記の基準音の波形を示す音データ、第１位置情報、オブジェクト音データ、形状情報及び第２位置情報などは、入力信号に含まれるメタデータ、制御情報又はヘッダ情報に含まれていてもよい。オブジェクト音データ及び空力音データを含む音データが音信号（ＰＣＭデータ）の場合、音信号を識別する情報がメタデータ、制御情報又はヘッダ情報に含まれていてもよく、音信号はメタデータ、制御情報又はヘッダ情報以外に含まれていてもよい。つまり、音響信号処理装置１００（より具体的には、取得部１１０）は、入力信号に含まれるメタデータ、制御情報又はヘッダ情報を取得し、メタデータ、制御情報又はヘッダ情報に基づいて音響処理を行ってもよい。なお、音響信号処理装置１００（より具体的には、取得部１１０）は、上記の基準音の波形を示す音データ、第１位置情報、オブジェクト音データ、形状情報及び第２位置情報を取得すればよく、取得先は入力信号に限定されない。オブジェクト音データ及び空力音データを含む音データとメタデータとは一つの入力信号に格納されていてもよいし、複数の入力信号に別々に格納されていてもよい。

　また、入力信号にオブジェクト音データ及び空力音データを含む音データ以外の音信号がオーディオコンテンツ情報として格納されていてもよい。オーディオコンテンツ情報は、ＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏ（ＩＳＯ／ＩＥＣ　２３００８－３）（以下、ＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏと記載）などの符号化処理が施されているとよい。また、符号化処理に用いる技術はＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏに限られず、公知の他の技術が用いられてもよい。また、上記の基準音の波形を示す音データ、第１位置情報、オブジェクト音データ、形状情報及び第２位置情報などの情報を符号化処理対象としてもよい。

　つまり、音響信号処理装置１００は、符号化されたビットストリームに含まれる音信号及びメタデータを取得する。音響信号処理装置１００においては、オーディオコンテンツ情報が取得されて復号される。本実施の形態においては、音響信号処理装置１００は、復号装置（例えば復号装置Ａ０１１０及びＡ０１３０）が備えるデコーダ（例えばデコーダＡ０２００及びＡ０２１０）として機能し、より具体的には、当該デコーダが有するレンダリング部Ａ０２０３及びＡ０２１３として機能する。なお、本開示におけるオーディオコンテンツ情報という用語は、技術内容に即して、音信号そのものや基準音の波形を示す音データ、第１位置情報、オブジェクト音データ、形状情報及び第２位置情報を含む情報として読み替えて解釈するものとする。

　取得部１１０は、取得した基準音の波形を示す音データ、第１位置情報、オブジェクト音データ、形状情報及び第２位置情報を処理部１２０及び出力部１３０に出力する。

　処理部１２０は、自然現象の変動が模擬された模擬情報に基づいて、基準音の波形を示す音データが示す波形の周波数成分、位相及び振幅値のうち少なくとも一つを変化させるように音データを処理する。本実施の形態においては、基準音が風Ｗによって生じる空力音であるため、模擬情報における自然現象は、風Ｗが吹くことである。自然現象の変動は、風Ｗの変動であり、より具体的には、風Ｗの風速の変動を意味する。なお、自然現象の変動は、風Ｗの向き（風向）の変動などであってもよい。

　現実空間においては、自然現象の変動には揺らぎ（例えば１／ｆ揺らぎなど）が含まれている。従って、模擬情報は、揺らぎが含まれている自然現象の変動が模擬された情報である。本実施の形態においては、模擬情報は、風Ｗの風速の変動が模擬された情報であり、より具体的には、風Ｗの風速の変動に含まれる揺らぎを表現した情報である。

　より具体的には、模擬情報は、風速の変動が模擬された滑らかな関数である。ここでは、処理部１２０が、模擬情報として、風速の変動が模擬された滑らかな関数を決定する。

　滑らかな関数は、微分可能でありかつ連続であることを意味する。換言すると、滑らかな関数は、尖った点を有していない関数である。

　図１３は、本実施の形態に係る滑らかな関数の一例を示す図である。図１３が示すように、滑らかな関数は、一例として正弦曲線であるが、これに限られず、余弦曲線などであってもよい。

　処理部１２０は、処理部１２０によって決定された滑らかな関数が示す値に基づいて、波形の周波数成分、位相及び振幅値のうち少なくとも一つを変化させるように音データを処理する。例えば、処理部１２０は、当該波形の周波数成分を、風速の変動が模擬された滑らかな関数が示す値に比例した周波数にシフトさせるように音データを処理する。

　滑らかな関数が示す値とは、図１３が示す縦軸の値であり、基準音である空力音の風速と、処理部１２０によって処理された後の音データが示す空力音の風速との比率を示す情報である。つまり、滑らかな関数が示す値とは、処理前の空力音の風速と、処理後の空力音の風速との比率を示す値である。

　処理部１２０は、音データを処理して、出力部１３０へ出力する。

　出力部１３０は、処理部１２０によって処理された音データを出力する。ここでは、出力部１３０は、処理された空力音データをヘッドフォン２００に出力する。これにより、ヘッドフォン２００は、出力された空力音データが示す空力音を再生することができる。つまり受聴者Ｌは、空力音を受聴することができる。

　記憶部１４０は、取得部１１０、処理部１２０、出力部１３０が実行するコンピュータプログラムなどと、空力音データとが記憶される記憶装置である。

　受付部１５０は、音響信号処理装置１００のユーザ（例えば、仮想空間内で実行されるコンテンツの作成者）からの操作を受付ける。受付部１５０は、具体的には、ハードウェアボタンで実現されるが、タッチパネルなどによって実現されてもよい。

　ここで、本実施の形態に係る形状情報について再度説明する。形状情報は、仮想空間におけるオブジェクトの映像の生成のために用いられる情報であってオブジェクト（扇風機ＦＮ）の形状を示す情報でもある。つまり、形状情報は、表示部３００に表示されるコンテンツ（映像）を生成するためにも用いられる情報である。

　取得部１１０は、取得した形状情報を表示部３００にも出力する。表示部３００は、取得部１１０によって出力された形状情報を取得する。表示部３００は、さらに、オブジェクト（扇風機ＦＮ）の仮想空間における形状以外の属性（色彩など）を示す属性情報を取得する。表示部３００は、属性情報を、音響信号処理装置１００以外の装置（サーバ装置５００）から直接取得してもよく、音響信号処理装置１００から取得してもよい。表示部３００は、取得した形状情報及び属性情報に基づいて、コンテンツ（映像）を生成して、表示する。

　以下、音響信号処理装置１００によって行われる音響信号処理方法の動作例１及び２について説明する。

　［動作例１］
　図１４は、本実施の形態に係る音響信号処理装置１００の動作例１のフローチャートである。

　図１４が示すように、はじめに、受付部１５０は、模擬情報が、風速の変動が模擬された滑らかな関数であることを指示する操作を受付ける（Ｓ１０）。受付部１５０は、例えば、音響信号処理装置１００のユーザから、当該操作を受付ける。

　続いて、取得部１１０は、基準音の波形を示す音データを取得する（Ｓ２０）。本動作例では、基準音は風によって生じる空力音であり、基準音の波形を示す音データは空力音データである。このステップＳ２０が取得ステップに相当する。

　処理部１２０は、自然現象の変動が模擬された模擬情報として、風速の変動が模擬された滑らかな関数を決定する（Ｓ３０）。処理部１２０は、ステップＳ１０で受付けられた操作に従って、模擬情報を決定するとよい。本動作例では、処理部１２０は、模擬情報として、図１３が示す滑らかな関数を決定する。

　さらに処理部１２０は、処理部１２０によって決定された滑らかな関数が示す値（比率）に基づいて、波形の周波数成分、位相及び振幅値のうち少なくとも一つを変化させるように音データ（空力音データ）を処理する（Ｓ４０）。

　なお、このステップＳ３０及びステップＳ４０が処理ステップに相当する。

　処理部１２０は、処理された音データ（空力音データ）を出力部１３０に出力する。

　出力部１３０は、処理部１２０によって処理された音データ（空力音データ）をヘッドフォン２００へ出力する（Ｓ５０）。なお、このステップＳ５０が出力ステップに相当する。

　これにより、受聴者Ｌは、ヘッドフォン２００から出力された空力音を受聴することができる。

　ここで、処理部１２０が行うステップＳ３０及びＳ４０における処理についてより詳細に説明する。

　図１５は、本実施の形態に係る処理部１２０が行う処理を説明するための図である。

　図１５の（ａ）は、図１２で示した音データ（処理前の空力音データＤ１）と図１３で示した滑らかな関数とを示す図である。図１５の（ａ）が示すように、処理前の空力音データＤ１と滑らかな関数とにおいて、時間軸である横軸が対応している。

　図１５の（ｂ）は、図１５の（ａ）における一点鎖線の矩形で囲まれた領域における処理を説明するための図である。図１５の（ｂ）には、処理前の空力音データＤ１と、滑らかな関数と、処理後の空力音データＤ１１とが拡大されて示されている。

　処理前の空力音データＤ１は、図１５の（ｂ）の複数の黒点で示されている。複数の黒点のそれぞれが、図１５の（ａ）で示される処理前の空力音データＤ１に対応している。また、複数の黒点のそれぞれは、処理前の空力音データＤ１のサンプル点であるとも言える。

　処理部１２０は、まず、第１処理を行う。この第１処理について以下説明する。

　処理部１２０は、１つの黒点と、当該１つの黒点に隣接する他の１つの黒点との間を補間する補間関数を決定する。補間関数は、例えば、スプライン関数であるが、これに限られず、公知の関数であってもよい。また処理部１２０は、１つの黒点と、当該１つの黒点に隣接する他の１つの黒点との間を線形補間（直線補間）してもよく、この場合、演算処理の負荷が低減される。図１５の（ｂ）が示すように、第１処理では、隣接する２つの黒点の間の全てが補間される。

　これにより、図１５の（ｂ）に示されるように、１つの黒点と、当該１つの黒点に隣接する他の１つの黒点との間が補間され、線が示されている。また、処理前の複数の黒点の間隔が「１」であると定義する。

　続いて、処理部１２０は、第２処理を行う。この第２処理について以下説明する。

　第２処理において、処理部１２０は、時刻ｔにおける処理前の空力音データＤ１である１つの黒点の値を読み取り、読み取った値を当該時刻ｔにおける処理後の空力音データＤ１１として決定する。なお、処理後の空力音データＤ１１は、図１５の（ｃ）の複数の白点（白抜きの点）で示されている。

　次に処理部１２０は、単位時間ごとに滑らかな関数の値を読み取る。例えば、処理部１２０は、滑らかな関数の値として、「０．５」、「０．５」、「０．４９９９」及び「０．４９９８」などを読み取る。

　処理部１２０は、当該時刻ｔにおいて読み取った滑らかな関数の値をストライドとして決定し、当該時刻ｔにおける処理前の空力音データＤ１の１つの黒点からの時刻がストライドだけ進んだ位置での補間関数の値を読み取る。

　さらに、処理部１２０は、読み取った補間関数の値を処理後の空力音データＤ１１の値として決定する。このとき、処理部１２０は、処理後の空力音データＤ１１（複数の白点）の間隔が、処理前の空力音データＤ１（複数の黒点）の間隔と同じ値となるように、つまりは、「１」となるように、処理後の空力音データＤ１１（複数の白点）の間隔を決定する。このように、第２処理が行われる。

　この第２処理について時刻ｔ１に着目して、具体例を説明する。

　処理部１２０は、時刻ｔ１における処理前の空力音データＤ１である黒点Ｂ１の値を読み取り、読み取った値を時刻ｔ１における処理後の空力音データＤ１１の白点Ｂ１１の値として決定する。つまり、処理部１２０は、読み取った黒点Ｂ１の値をそのまま白点Ｂ１１の値として利用する。

　さらに、処理部１２０は、時刻ｔ１における滑らかな関数の値である０．５を読み取り、これがストライドとして決定される。時刻ｔ１における処理前の空力音データＤ１は黒点Ｂ１で示されており、処理部１２０は、処理前の空力音データＤ１である黒点Ｂ１から時刻が０．５だけ進んだ位置での補間関数の値を読み取る。当該位置は、図１５の（ｂ）では、位置Ｐ１で示されている。

　そして、処理部１２０は、読み取った補間関数の値（位置Ｐ１で示される値）を処理後の空力音データＤ１１の値として決定する。処理部１２０は、処理後の空力音データＤ１１（複数の白点）の間隔が、処理前の空力音データＤ１（複数の黒点）の間隔と同じ値である「１」となるように、処理後の空力音データＤ１１（複数の白点）の間隔を決定する。

　この第１処理及び第２処理により、処理後の空力音データＤ１１は、処理前の空力音データＤ１が横方向に間延びした形状となっている。従って、処理後の空力音データＤ１１は、処理前の空力音データＤ１に比べて、周波数成分が低域にシフトした音データとなっている。

　図１６は、本実施の形態に係る処理部１２０が行う処理を説明するための他の図である。

　図１６の（ａ）は、図１５の（ａ）と同じく、図１２で示した音データ（空力音データ）と図１３で示した滑らかな関数とを示す図である。

　図１６の（ｂ）及び（ｃ）は、それぞれ図１６の（ａ）における一点鎖線の矩形で囲まれた領域における処理を説明するための図である。図１５の（ｂ）及び（ｃ）のそれぞれには、処理前の空力音データＤ１と、滑らかな関数と、処理後の空力音データＤ１１とが拡大されて示されている。

　図１６の（ｂ）及び（ｃ）に示される処理前の空力音データＤ１においても、図１５の（ｂ）を用いて説明された処理と同様の処理が行われる。すなわち、第１処理及び第２処理が行われる。

　図１６の（ｂ）においては、処理部１２０は、滑らかな関数の値として、「１」、「１」、「１．０００１」及び「１．０００２」などを読み取る。読み取られた滑らかな関数の値が１程度であるため、処理後の空力音データＤ１１は、処理前の空力音データＤ１と同等の形状である。従って、処理後の空力音データＤ１１は、処理前の空力音データＤ１に比べて、周波数成分がほとんどシフトしていない音データとなっている。

　図１６の（ｃ）においては、処理部１２０は、滑らかな関数の値として、「１．５」、「１．５」、「１．４９９９」及び「１．４９９８」などを読み取る。読み取られた滑らかな関数の値が１．５程度であるため、処理後の空力音データＤ１１は、処理前の空力音データＤ１が横方向に縮んだ形状となっている。従って、処理後の空力音データＤ１１は、処理前の空力音データＤ１に比べて、周波数成分が高域にシフトした音データとなっている。

　上記の通り模擬情報は、揺らぎが含まれている自然現象の変動が模擬された情報であり、より具体的には、風Ｗの風速の変動による揺らぎを表現した情報であり、本動作例においては、滑らかな関数で示される情報である。

　本動作例においては、揺らぎが含まれている自然現象の変動が模擬された模擬情報に基づいて波形の周波数成分が変化するように、基準音の波形を示す音データ（空力音データ）が処理される。このため、処理された空力音データにおいては周波数成分に揺らぎが生じることとなり、処理された空力音データが示す空力音にも周波数成分に揺らぎが生じることとなる。従って、受聴者Ｌは、このような周波数成分に揺らぎが生じた空力音を受聴することができ、違和感を覚えにくく臨場感を得ることができる。

　また、動作例１のステップＳ４０において、以下の処理が行われるとよい。

　上記の通りステップＳ４０では、ストライドは以下のように決定されるとよい。ここでは、処理部１２０によって処理される前の空力音データのサンプリング周波数をＦｓｃとし、出力部１３０によって出力される空力音データのサンプリング周波数をＦｓｏとし、ＦｓｃとＦｓｏとは異なる値であるとする。

　この場合、ストライドは、以下の式を満たすとよい。

　滑らかな関数の値　×　（Ｆｓｃ／Ｆｓｏ）

　ストライドが上記式を満たすことによる効果を以下に説明する。

　例えば、Ｆｓｏが４８ｋＨｚである場合に、Ｆｓｃを４８ｋＨｚから１６ｋＨｚにダウンサンプリングしておくとよい。これにより、例えば同じ時間長さの空力音データが記憶部１４０に記憶されている場合に、メモリサイズを１／３に低減させることができる。また、これにより、例えば同じメモリサイズが設けられる場合、出力される空力音データの時間長さが３倍になるので、空力音データ同士のつなぎ目部分の違和感を低減できる。

　さらに、折り返し歪の低減が可能であることについて説明する。図１７は、本実施の形態に係る音データを示す図である。より具体的には、図１７の（ａ）及び（ｂ）のそれぞれは処理前の空力音データ（例えば図１５が示す処理前の空力音データＤ１）の周波数特性を示す図であり、図１７の（ａ）では横軸が対数軸であり、図１７の（ｂ）では横軸がリニア軸である。また、図１７の（ｃ）は図１７の（ｂ）に示される空力音データの周波数成分が、高周波側へシフトされた周波数特性を示す図である。ここでは、図１７の（ｃ）における周波数成分は、図１７の（ｂ）における周波数成分が２倍の周波数へシフトされておいる。例えば、図１７の（ｂ）の２０００Ｈｚの周波数成分が、図１７（ｃ）の４０００ｋＨｚの周波数成分となるように、高周波数側へシフトされている。

　図１７の（ａ）及び（ｂ）において、実線は処理前の空力音データのサンプリング周波数が１６ｋＨｚである場合の周波数特性を示し、一点鎖線は処理前の空力音データのサンプリング周波数が４８ｋＨｚである場合の周波数特性を示している。なお、一点鎖線は、低周波数領域においては、実線と重なっているため、図示されていない。

　図１７が示すように、空力音データは、低周波数領域に特徴的な構造が現れ、高周波数領域ではその成分は単調に減少する、という場合が多い。

　図１７の（ｃ）において、実線はシフトされた空力音データのサンプリング周波数が１６ｋＨｚである場合の周波数特性を示し、一点鎖線はシフトされた空力音データのサンプリング周波数が４８ｋＨｚである場合の周波数特性を示している。なお、一点鎖線は、低周波数領域においては、実線と重なっているため、図示されていない。

　一点鎖線で示した空力音データのサンプリング周波数が４８ｋＨｚである場合、図１７の（ｂ）には１２ｋＨｚ以上の周波数領域に周波数成分があり、図１７の（ｃ）には破線で示される折り返し歪が出現する。

　実線で示した空力音データのサンプリング周波数が１６ｋＨｚである場合、図１７の（ｂ）には１２ｋＨｚ以上の周波数領域に周波数成分がないので、図１７の（ｃ）には折り返し歪が出現しない。

　このように、周波数シフトによる折り返し歪の出現を抑制することができる。

　また、上記の、メモリサイズの低減及び折り返し歪の出現の抑制に必要とされる演算資源の増加はほとんどない、という効果もある。

　以上が、ストライドが上記式を満たすことによる効果に相当する。

　また、本実施の形態の動作例１においては、空力音データは、予め記憶部１４０に記憶されていたがこれに限られない。例えば、処理部１２０が、空力音データを生成してもよい。例えば、処理部１２０は、雑音信号を取得して、取得された雑音信号を複数の帯域強調フィルタのそれぞれで処理することで、空力音データを生成してもよい。

　［動作例２］
　上記のように、動作例１では、波形の周波数成分を変化させるように音データ（空力音データ）が処理されたがこれに限られない。動作例２では、波形の振幅値を変化させるように音データ（空力音データ）が処理される。

　すなわち、動作例２においては、動作例１と同じく、ステップＳ１０～Ｓ３０が行われる。そして、ステップＳ４０で、処理部１２０は、処理部１２０によって決定された滑らかな関数が示す値（比率）に基づいて、波形の振幅値を変化させるように音データ（空力音データ）を処理する。

　波形の振幅値は、当該波形が示す空力音データが示す空力音の音量の程度を意味する。空力音と、この空力音を発生させる風Ｗの風速とは、以下の関係を有する。空力音の音量は、風Ｗの風速のα乗に比例する。従って、処理部１２０は、波形の振幅値を、決定された滑らかな関数が示す値のα乗に比例して変化させるように音データを処理する。αの値は空力音の種類によって異なる。

　例えば、棒状のオブジェクトが風を切ることによって発生する空力音がある。野球に用いられるバットなどがスイングされることで、この空力音が発生する。この種類の空力音の音量は風速の６乗に比例する（非特許文献１参照）。

　また例えば、オブジェクトと他のオブジェクトとの隙間に風が入り込む際に発生する空力音がある。この空力音はいわゆるＣａｖｉｔｙ音である。この種類の空力音の音量は、風速の４乗に比例する（非特許文献１参照）。

　ここで、風速の変動が模擬された滑らかな関数が示す値をＲとする。上記のいずれの種類の空力音の場合であっても、当該空力音の音量は、Ｒ＾αに応じた値で増幅又は減衰する。すなわち、Ｒが１より大きい場合は増幅となり、Ｒが１より小さい場合は減衰となる。ここで注意しなければならないことは、空力音の音量が風速のα乗に比例する場合には、空力音の音量が非常に急峻な変動となることである。この急峻な変動について図１８を用いて説明する。

　図１８は、本実施の形態に係る滑らかな関数が示す値であるＲと空力音の音量の増幅率及び減衰率とを示す図である。図１８における二点鎖線は、αが６である場合におけるＲと空力音の音量との関係を示している。なお、Ｒ＝１の近傍では、二点鎖線は実線と重なっている。

　図１８における二点鎖線が示すように、Ｒ＝２．０においては増幅率が３０ｄＢを超えており、Ｒ＝０．５においては減衰率が－３０ｄＢを下回っている。このような急峻な変動を忠実に再現させるためには非常にダイナミックレンジの広い高価な再生機材が必要となり、このような再生機材は、仮想空間の音響的演出としては過剰である。

　このような高価な再生機材が必要となることを回避するために、閾値ｒが用いられる。一例として図１８では、閾値ｒとして１．３が用いられている。例えば、（１／ｒ）＜Ｒ＜ｒの区間と、Ｒ＜（１／ｒ）及びｒ＜Ｒの区間とでは、増幅率（減衰率）Ｇが異なるとよい。図１８においては、（１／ｒ）＜Ｒ＜ｒの区間が破線の矩形で示されている。図１８においては、一点鎖線及び実線は、（１／ｒ）＜Ｒ＜ｒの区間と、Ｒ＜（１／ｒ）及びｒ＜Ｒの区間とでは増幅率（減衰率）Ｇが異なる場合の線である。

　一点鎖線及び実線は、（１／ｒ）＜Ｒ＜ｒの区間では、増幅率（減衰率）Ｇは、以下の式を満たす。

　Ｇ＝Ｒ＾α

　また、一点鎖線は、Ｒ＜（１／ｒ）及びｒ＜Ｒの区間では、増幅率（減衰率）Ｇは、以下の式を満たす。

　Ｇ＝｛ｒ×（Ｒ／ｒ）｝＾α　＝　（ｒ）＾α×（Ｒ／ｒ）＾ｂ

　なお、ｂをαより小さい値とすることで、Ｒ＝１．０近傍では、増幅率（減衰率）Ｇ＝Ｒ＾αに近い傾向つまりは正しい傾向を実現し、Ｒ＝１．０近傍以外では単調増幅（単調減衰）となり、かつ、急峻な変動を回避することができる。

　図１８における一点鎖線は、ｒ＝１．３、ｂ＝２．０の条件を満たす。しかしながらこの一点鎖線においては、Ｒ＝ｒ及びＲ＝１／ｒにおいて、増幅、減衰の傾向が不連続に変化する。このため、Ｒ＝ｒの近傍及びＲ＝１／ｒの近傍において違和感が生じる場合がある。

　そこで、ｂを定数とするのではなく、ｂの値が、Ｒ＝ｒの位置ではαと同じ値であり、Ｒが大きくなるにつれ徐々にαの値より小さな値としてもよい。図１８における実線は、Ｒ＜（１／ｒ）及びｒ＜Ｒの区間では、増幅率（減衰率）Ｇは、以下の式を満たす。

　Ｇ＝　（ｒ）＾α×（Ｒ／ｒ）＾ｂ　ただしｂ＝α＾（ｒ／Ｒ）

　図１８における実線に従って音量を増減させることによって、風速の微妙な変動（Ｒ＝１近傍の僅かな変動）に従って敏感に音量を変動させることができ、かつ、Ｒの増減によって音量が急峻に変動することを避けることができる。

　なお、αの値は、音響信号処理装置１００のユーザ（例えば、仮想空間内で実行されるコンテンツの作成者）が任意に設定できるとよい。すなわち、受付部１５０が、当該作成者から、αの値を指示する操作を受付け、処理部１２０が受付けられた操作が指示する値を、αの値として決定するとよい。αの値を、０．７、１．０、１．５又は２．０など、学術的に正しい値からは大きく異なるが、仮想空間において「それらしい」空力音の音量の増減を演出するための値とすることで、急峻な変動が回避されてもよい。また、上記ｒの値及びｂの値も同様に決定されるとよい。

　また、動作例１においては周波数成分が、動作例２においては振幅値が変化するように空力音データが処理されたが、これに限られない。例えば、波形の位相が変化するように空力音データが処理されてもよい。この場合、処理部１２０は、波形の位相を、決定された滑らかな関数が示す値に応じて変化させるように音データを処理する。

　また、波形の周波数成分、位相及び振幅数のうち少なくとも一つが変化すればよい。例えば、波形の周波数成分、位相及び振幅数のうち二つが変化してもよく、波形の周波数成分、位相及び振幅数の全てが変化してもよい。

　なお、動作例１及び２において、処理部１２０は、取得部１１０によって取得された基準音の波形を示す音データ（空力音データ）を所定時間の処理フレームＦに分割し、分割した処理フレームＦごとに、音データを処理してもよい。

　図１９は、本実施の形態に係る分割された空力音データを示す図である。図１９では、空力音データが複数の処理フレームＦに分割されている。また、複数の処理フレームＦのそれぞれの所定時間Ｔｓは、同じでもよく、図１９が示すように、互いに異なっていてもよい。つまり、図１９においては、処理フレームＦの一例である処理フレームＦ１～Ｆ６が図示され、所定時間Ｔｓの一例である所定時間Ｔｓ１～Ｔｓ６が図示されている。所定時間Ｔｓ１～Ｔｓ６のそれぞれは、互いに異なっている。

　また、動作例１及び２では、模擬情報として図１３が示す滑らかな関数が用いられたが、これとは異なる滑らかな関数が用いられてもよい。

　例えば動作例１及び２のステップＳ３０において、処理部１２０は、自然現象の変動が模擬された模擬情報として、風速の変動が模擬された滑らかな関数を決定する。このとき、処理部１２０は、滑らかな関数を特定するパラメータが不規則に変化するように滑らかな関数を決定するとよい。さらに、処理部１２０は、滑らかな関数を特定するパラメータを、分割した処理フレームＦごとに決定する。つまり例えば、処理部１２０は、図１９が示す処理フレームＦ１に対応する滑らかな関数を特定するパラメータを決定する。同様に、処理部１２０は、処理フレームＦ２に対応する滑らかな関数を特定するパラメータを、処理フレームＦ３に対応する滑らかな関数を特定するパラメータを、処理フレームＦ４に対応する滑らかな関数を特定するパラメータを、処理フレームＦ５に対応する滑らかな関数を特定するパラメータを、処理フレームＦ６に対応する滑らかな関数を特定するパラメータを、決定する。

　さらに、処理部１２０は、分割した処理フレームＦごとに、処理フレームＦの最初の時刻及び最後の時刻において、滑らかな関数の値が１．０になるように、滑らかな関数を決定する。例えば、所定時間Ｔｓ２の処理フレームＦ２に対応する滑らかな関数においては、時刻ｔ２と時刻ｔ３とにおいて、滑らかな関数が示す値は、１．０である。

　図１３が示す滑らかな関数をＦ（ｔ）とすると、Ｆ（ｔ）は、以下の式で表される。

　Ｆ（ｔ）＝Ｈ×｛ｓｉｎ［２π×（ｔ／Ｔ）＾（ｘ）］｝＾（ｙ）＋１．０　（０．０≦ｔ＜Ｔ）

　滑らかな関数を特定するパラメータの一例は、処理フレームＦの最初の時刻から当該処理フレームＦの最後の時刻までの時間であり、上記式におけるＴである。例えば、図１９が示す処理フレームＦ２に対応する滑らかな関数においては、時刻ｔ２から時刻ｔ３までの時間である。つまり、滑らかな関数が正弦曲線である場合には、当該パラメータは、１つの周期に相当する。

　また、滑らかな関数を特定するパラメータの他の一例は、当該滑らかな関数の最大値に係る値であり、上記式におけるＨである。本実施の形態が示すように、滑らかな関数が正弦曲線である場合には、当該パラメータの他の一例は、当該滑らかな関数の最大値を決定する値であるとも言える。

　また、滑らかな関数を特定するパラメータの他の一例は、当該滑らかな関数が最大値に達する位置を変動させるパラメータであり、上記式におけるｘである。

　また、滑らかな関数を特定するパラメータの他の一例は、当該滑らかな関数の変動の急峻さを変動させるパラメータであり、上記式におけるｙである。

　処理部１２０は、これらのパラメータが不規則に変化するように当該パラメータを決定することで、滑らかな関数を決定する。例えば、処理部１２０は、乱数に基づいて、パラメータを決定するとよい。

　例えば、処理部１２０が乱数列生成部を備え、処理部１２０は、その出力数列に応じてパラメータを変更するようにしてもよい。ここで、真の乱数列は本来、規則性も再現性もないものである。しかし、コンピュータ上でそれを実現することは困難であるので、上記乱数列生成部が生成する数列は、確定的な計算過程で生成する疑似乱数列でよい。例えば、Ｃ言語におけるｒａｎｄ（）関数が生成するような疑似乱数列が用いられてもよいし、その他、疑似乱数を生成する既知のどのようなアルゴリズムが用いられてもよい。また、有限長の乱数列、有限長の疑似乱数列、又は、不規則感を演出するために作成した有限長の数列が記憶部１４０に記憶され、それが繰り返し用いられることで、長時間の疑似乱数列として用いられてもよい。

　また、受付部１５０が、音響信号処理装置１００のユーザ（例えば、仮想空間内で実行されるコンテンツの作成者）から、パラメータの値を指示する操作を受付けてもよい。処理部１２０は、受付部１５０によって受付けられた操作が指示する値を当該パラメータとして決定してもよい。

　図２０は、本実施の形態に係る２つの滑らかな関数の他の一例を示す図である。図２０の（ａ）及び（ｂ）のそれぞれが示す滑らかな関数は、滑らかな関数を特定するパラメータが不規則に変化するように決定されている。

　なお、このとき、パラメータは、風Ｗの風速の性質を模擬して、決定されるとよい。上記の通り、風Ｗの風速の変動には揺らぎが含まれており、つまりは、現実空間においては、風速は、一定ではなく、揺らぎながら変動している。例えば、風Ｗは、受聴者Ｌに第１風速で吹いた後に、第１風速とは異なる第２風速で吹くこともある。このように、風速が揺らぎながら変動しているという性質を模擬して、パラメータが決定されるとよい。

　滑らかな関数の最大値は３を超えないとよく、また、滑らかな関数の最小値は０を下回らないとよい。つまり、滑らかな関数が示す値は、０以上３以下であるとよい。滑らかな関数が示す値が上記の通りとなるように、パラメータが決定されるとよい。

　滑らかな関数の最大値は３を超えないとよい理由は、以下の通りである。現実空間では、風Ｗの風速の変動には揺らぎが含まれており、瞬間的に強い風速（瞬間風速）の風Ｗが吹く場合がある。風速は例えば１０分間平均風速であり、瞬間風速は例えば３秒平均風速である。このような場合に、瞬間風速は、風速の１．５倍～３倍程度となることが知られている。滑らかな関数が示す値は、基準音である空力音の風速と、処理された後の音データが示す空力音の風速との比率である。滑らかな関数の最大値を３以下とすることで、瞬間的に吹く強い風速（瞬間風速）の風Ｗを、より具体的には当該風Ｗによる空力音を仮想空間において再現することができる。

　また、風Ｗの風速をＶａとし、風Ｗの瞬間風速をＶｐとする。この場合、処理部１２０は、滑らかな関数の最大値がＶｐ／Ｖａとなるように滑らかな関数を決定する。より具体的には、処理部１２０は、滑らかな関数の最大値がＶｐ／Ｖａとなるように、滑らかな関数を特定するパラメータを決定する。例えば、受付部１５０は、風Ｗの風速であるＶａと風Ｗの瞬間風速であるＶｐとを指定する指示を受付け、処理部１２０は、受付けられた指示に従って、滑らかな関数の最大値がＶｐ／Ｖａとなるように、滑らかな関数を特定するパラメータを決定する。

　なおこのときに、音響信号処理装置１００が備える表示部に、風Ｗの強さを表す言葉と、当該言葉で示される風Ｗの風速及び瞬間風速とが紐づけられた画像が表示されるとよい。当該画像においては、例えば当該言葉が「やや強い風」である場合に、風速は「１０以上１５未満（ｍ／ｓ）」かつ瞬間風速は「２０（ｍ／ｓ）」であることが紐づけられている。また、当該画像においては、例えば当該言葉が「強い風」である場合に、風速は「１５以上２０未満（ｍ／ｓ）」かつ瞬間風速は「３０（ｍ／ｓ）」であることが紐づけられている。

　音響信号処理装置１００のユーザ（例えば、仮想空間内で実行されるコンテンツの作成者）は、当該表示部に表示された当該画像を視認する。そして、受付部１５０は、ユーザから、風Ｗの強さを表す言葉を指定する指示を受付ける。処理部１２０は、受付けられた指示が指定する言葉に紐づけられた風速及び瞬間風速を、Ｖａ及びＶｐとして決定し、滑らかな関数の最大値がＶｐ／Ｖａとなるように、滑らかな関数を特定するパラメータを決定する。

　この場合でも、瞬間的に吹く強い風速（瞬間風速）の風Ｗを、より具体的には当該風Ｗによる空力音を仮想空間において再現することができる。

　また、処理部１２０は、空力音データを所定時間の処理フレームＦに分割したが、この所定時間の平均値は、３秒であるとよい。上記の通り、瞬間風速は、例えば３秒平均風速である。従って、所定時間の平均値が３秒であることで、所定時間を、瞬間風速を計測する時間（つまりは３秒）と対応させることができ、仮想空間において瞬間的に吹く強い風速（瞬間風速）の風Ｗを、現実空間で吹く風に近づけることができる。

　ここで、上記４つのパラメータが変化した場合の滑らかな関数について図２１を用いてより詳細に説明する。

　図２１は、本実施の形態に係る滑らかな関数を特定するパラメータが変化した例を示す図である。図２１の（ａ）には、図１３と同じ滑らかな関数が示されている。図２１の（ｂ）は、上記式のＴが変化した滑らかな関数を示す図である。図２１の（ｃ）は、上記式のＨが変化した滑らかな関数を示す図である。図２１の（ｄ）は、上記式のｘが変化した滑らかな関数を示す図である。図２１の（ｅ）は、上記式のｙが変化した滑らかな関数を示す図である。

　ところで、上記動作例１及び２においては、１つの出力チャンネルであるヘッドフォン２００に処理された空力音データが出力されたが、これに限られない、例えば、第１出力チャンネル及び第２出力チャンネルのそれぞれに、処理された空力音データが出力されてもよい。第１出力チャンネルは受聴者Ｌの一方の耳に空力音を出力し、第２出力チャンネルは受聴者Ｌの他方の耳に空力音を出力する。

　このような場合に、処理部１２０は、それぞれ滑らかな関数を特定する第１パラメータと第２パラメータとを決定する。処理部１２０は、処理部１２０によって決定された第１パラメータによって特定される滑らかな関数に基づいて、波形の周波数成分、位相及び振幅値のうち少なくとも一つを変化させるように取得された音データ（空力音データ）を処理する。この処理された空力音データを空力音データＡとする。処理部１２０は、処理部１２０によって決定された第２パラメータによって特定される滑らかな関数に基づいて、波形の周波数成分、位相及び振幅値のうち少なくとも一つを変化させるように取得された音データ（空力音データ）を処理する。この処理された空力音データを空力音データＢとする。

　出力部１３０は、決定された第１パラメータによって特定される滑らかな関数に基づいて処理された音データ（空力音データＡ）を、第１出力チャンネルに出力する。出力部１３０は、決定された第２パラメータによって特定される滑らかな関数に基づいて処理された音データ（空力音データＢ）を、第２出力チャンネルに出力する。

　図２２は、本実施の形態に係る２つの滑らかな関数の他の一例を示す図である。図２２の（ａ）は、第１パラメータによって特定される滑らかな関数を示し、図２２の（ｂ）は、第２パラメータによって特定される滑らかな関数を示す。ここでは、第１出力チャンネルは、右耳に出力するチャンネルであり、第２出力チャンネルは、左耳に出力するチャンネルである。

　これにより、出力チャンネルごとに、異なる空力音データを出力することができる。

　なお、このとき、第１パラメータ及び第２パラメータは、風Ｗの向き（風向）の性質を模擬して、決定されるとよい。上記の通り、風Ｗの向き（風向）の変動には揺らぎが含まれており、つまりは、現実空間においては、風向は、一定ではなく、揺らぎながら変動している。例えば、風Ｗは、受聴者Ｌの右側から吹いた後に、受聴者Ｌの正面から吹くこともある。このように、風向が揺らぎながら変動しているという性質を模擬して、第１パラメータ及び第２パラメータが決定されるとよい。

　（実施の形態１の変形例）
　以下、実施の形態１の変形例について説明する。以下では、実施の形態１との相違点を中心に説明し、共通点の説明を省略又は簡略化する。

　［構成］
　まずは、本変形例に係る音響信号処理装置１００ａの構成について説明する。図２３は、本変形例に係る音響信号処理装置１００ａの機能構成を示すブロック図である。

　本変形例に係る音響信号処理装置１００ａは、処理部１２０にかえて処理部１２０ａを備える点を除いて、実施の形態１に係る音響信号処理装置１００と同じ構成を有する。

　処理部１２０ａは、第１処理部１２１と第２処理部１２２とを有する。

　第１処理部１２１は、図１４で説明されたステップＳ３０の処理を行う。第２処理部１２２は、第１処理部１２１によって決定された滑らかな関数が示す値に基づいて、以下の処理を行う。

　図２４は、本変形例に係る第２処理部１２２の機能構成を示すブロック図である。第２処理部１２２は、サンプリングレート変換部１００１と、再配置部１００２と、接続部１００３とを有する。

　サンプリングレート変換部１００１は、基準音の波形を示す音データ（空力音データ）と第１処理部１２１によって決定された滑らかな関数が示す値とを取得する。

　サンプリングレート変換部１００１は、取得した滑らかな関数が示す値に基づいて、処理フレームＦごとに空力音データのサンプリングレートを変換する。空力音データのサンプリングレートがＦｓの場合、処理前の空力音データ（例えば図１５が示す処理前の空力音データＤ１）のサンプル点とサンプル点との間隔（サンプル間隔）は１／Ｆｓ秒となる。

　滑らかな関数が示す値が０．５となる場合、サンプリングレート変換部１００１は、サンプル間隔が０．５倍（１／（２・Ｆｓ））、つまりサンプリングレートが２・Ｆｓとなるように、空力音データをアップサンプリングする。また、滑らかな関数が示す値が２となる場合、サンプリングレート変換部１００１は、サンプル間隔が２倍（２／Ｆｓ）、つまりサンプリングレートがＦｓ／２となるように空力音データをダウンサンプリングする。サンプリングレート変換部は、サンプリングレート変換された空力音データを、再配置部１００２に出力する。

　再配置部１００２は、サンプリングレート変換後の空力音データとサンプリングレート変換後の空力音データとの間隔をＦｓに戻す処理を行う。この処理により、滑らかな関数が示す値が１より大きな値を取るときは、空力音データが早回しして再生されることとなる。また滑らかな関数が示す値が１より小さいときは、空力音データが遅回しして再生されることとなる。これにより、空力音データの周波数成分が高域側にシフトし又は低域側にシフトし、自然な揺らぎが感じられる空力音の生成が可能になる。次に、再配置部１００２は、サンプル点の位置が再配置された空力音データを接続部１００３に出力する。

　接続部１００３は、処理フレームＦ間の不連続の発生を抑えるための処理を行う。ここでは、２つの処理フレームＦを用いて当該処理の説明を行う。２つの処理フレームＦは、前処理フレームと現処理フレームとである。現処理フレームは当該時刻における処理部１２０の処理の対象となる処理フレームＦであり、前処理フレームは当該現処理フレームの１つ前の処理フレームＦである。

　接続部１００３は、前処理フレームの空力音データから生成された再配置後の空力音データの時間的に後ろに位置する複数のサンプル点と、現処理フレームの空力音データから生成された再配置後の空力音データの時間的に前に位置する複数のサンプル点とを窓掛け加算する処理を行う。この処理により、滑らかな関数が示す値が変動することによる生じる処理フレームＦ間の不連続を回避する。

　図２５は、本変形例に係る空力音データを示す図である。また、図２６は、本変形例に係る第２処理部１２２による処理の概念図である。空力音データは、処理フレームＦ単位で処理が行われる。また隣接する２つの処理フレームＦは、互いの一部がオーバーラップされるように設定される。これは、前処理フレームの再配置後の複数のサンプル点のうちの後ろに位置する１以上のサンプル点と、現処理フレームの再配置後の複数のサンプル点のうち前に位置する１以上のサンプル点とを窓掛け加算を行い、不連続の発生を回避するためである。例えば、図２５が示すように、隣接する２つの処理フレームＦｎ及びＦｎ＋１は、互いの一部がオーバーラップしている。より具体的には、時刻ｔ１４から時刻ｔ１３までの時間において、２つの処理フレームＦｎ及びＦｎ＋１は重なっている。なお、処理フレームＦｎが前処理フレームに相当し、処理フレームＦｎ＋１が現処理フレームに相当する。

　空力音データのサンプリングレートをＦｓ、処理フレームＦｎの滑らかな関数が示す値を０．５、処理フレームＦｎ＋１の滑らかな関数が示す値を０．７５としたときの例を説明する。処理フレームＦｎでは、滑らかな関数が示す値が０．５であるので、サンプリングレートが２・Ｆｓ（サンプル間隔が１／（２・Ｆｓ））となるようにサンプリングレート変換が行われる。再配置部１００２は、次に、サンプリングレート変換後のサンプル点の位置を、サンプル間隔が１／Ｆｓとなるように、つまりは元に戻るように再配置を行う。そのため、再配置後のサンプル点の時間長は、サンプリングレート変換部１００１によって変換された空力音データのサンプル点の時間長の２倍になる。

　そして、再配置後の複数のサンプル点のうち後ろに位置する１以上のサンプル点と、現処理フレームの再配置後の複数のサンプル点のうち前に位置する１以上のサンプル点とを窓掛け加算する処理を行い出力する。この例では、処理フレームｎ＋１における滑らかな関数が示す値は０．７５となっているので、再配置後のサンプル点の時間長は、サンプリングレート変換部１００１によって変換された空力音データのサンプル点の時間長の４／３倍になる。なお、窓掛け加算が行われない区間の再配置後のサンプル点は、そのまま音データとして出力される。

　ここで、サンプリングレート変換部１００１について、図２７を用いて、より詳細に説明する。

　図２７は、本変形例に係るサンプリングレート変換部１００１の機能構成を示すブロック図である。サンプリングレート変換部１００１は、アップサンプル部１０２１と、ローパスフィルタ部１０２２と、ダウンサンプル部１０２３と、ＸＹ設定部１０２４とを有する。

　アップサンプル部１０２１は、音データ（空力音データ）を取得し、ＸＹ設定部１０２４は、滑らかな関数が示す値を取得する。ＸＹ設定部１０２４は、アップサンプル部１０２１で用いられるアップサンプル値Ｘ、ダウンサンプル部１０２３で用いられるダウンサンプル値Ｙを設定する。ここで、アップサンプル値がＸの場合、アップサンプル部１０２１は、空力音データをＸ倍にアップサンプルする。ダウンサンプル値がＹの場合、ダウンサンプル部１０２３は、空力音データを１／Ｙ倍にダウンサンプルする。ＸＹ設定部１０２４におけるＸ及びＹの設定は、Ｙ／Ｘが滑らかな関数が示す値となるＸ及びＹの組み合わせの中で、Ｘ及びＹが最小の整数となるように決定される。例えば、滑らかな関数が示す値が０．５の場合に、（Ｘ，Ｙ）＝（２，１）、滑らかな関数が示す値が０．７５の場合に、（Ｘ，Ｙ）＝（４，３）、滑らかな関数が示す値が１．５の場合に、（Ｘ，Ｙ）＝（２，３）のように設定される。なお、Ｘ＝１の場合、アップサンプル部１０２１ではアップサンプル処理は行われず空力音データがそのまま出力され、Ｙ＝１の場合、ダウンサンプル部１０２３ではダウンサンプル処理は行われず空力音データがそのまま出力される。

　アップサンプル部１０２１では、Ｘ－１個のゼロ値をサンプル点とサンプル点との間に挿入する。ダウンサンプル部１０２３は、Ｙ個おきにサンプル点を間引いて出力する。ローパスフィルタ部１０２２は、折り返し歪の発生を防ぐため、以下の処理を行う。ここで、空力音データのサンプリングレートをＦｓ、サンプリングレート変換後の空力音データのサンプリングレートをＦｓ’とする。このとき、ローパスフィルタ部１０２２は、アップサンプル部１０２１から出力された空力音データを、遮断周波数がｍｉｎ（Ｆｓ，Ｆｓ’）／２となる特性のローパスフィルタで処理する。

　さらに、滑らかな関数が示す値の時間的な変動パターンを例示する。ここでは、滑らかな関数が示す値は５個の値のうちのいずれかで表される。ここでは変動パターン１及び変動パターン２について説明する。

　変動パターン１では、滑らかな関数が示す値は０．２５，０．５，１，２，４のうちいずれかの値となる。変動パターン２では、滑らかな関数が示す値は０．５，０．７５，１，１．５，２のうちいずれかの値となる。滑らかな関数が示す値が取り得る値、又は、取り得る個数はここで例示しているものに限らない。

　また、図２８は、本変形例に係る滑らかな関数が示す値の状態遷移図である。すなわち図２８は、滑らかな関数が示す値の時間的な遷移の様子を示している。それぞれの円は状態を表し、ｐ（０）の状態のときは滑らかな関数が示す値としてｐ（０）を出力する。また、ａ（ｅ，ｆ）は状態ｅから状態ｆへ遷移する確率を示す。自然な音の揺らぎを表すため、この例のように自分自身もしくは隣接する状態への遷移のみ認める設定が望ましいが、アプリケーションによっては激しい揺らぎが望ましい場合もあるので、この例に限らず、どのような遷移を規定しても良い。

　なお、本変形例においては、サンプリングレート変換部１００１によって取得された空力音データの振幅値に変動を与える処理が行われてもよい。

　図２９は、本変形例に係る音響信号処理装置１００ａの他の機能構成を示すブロック図である。ここでは、音響信号処理装置１００ａの処理部１２０ａは、第２処理部１２２にかえて、第２処理部１２２ｂを有する。第２処理部１２２ｂは、サンプリングレート変換部１００１と、振幅調整部１０３１と、再配置部１００２と、接続部１００３とを有する。

　図２９では、サンプリングレート変換部１００１の後段に振幅調整部１０３１が配置されている。この振幅調整部１０３１は、サンプリングレート変換部１００１より出力されるサンプリングレート変換後の空力音データの振幅値がゆらぐように振幅値を修正する。その修正方法としては、例えば、図２８の滑らかな関数が示す値の状態遷移図のように、時間的に変動させても良い。また、あらかじめ用意されている複数の振幅変動パターンのいずれかを用いて、当該空力音データに振幅変動パターンを乗じることで振幅値を修正する構成であっても良い。

　また、振幅調整部１０３１は、再配置部１００２の後段にあってもよいし、接続部１００３の後段にあってもよい。

　（実施の形態２）
　以下、実施の形態２について説明する。以下では、実施の形態１及び変形例との相違点を中心に説明し、共通点の説明を省略又は簡略化する。

　［構成］
　まずは、本実施の形態に係る情報処理装置６００の構成について説明する。図３０は、本実施の形態に係る情報処理装置６００の機能構成を示すブロック図である。

　情報処理装置６００は、巡回アドレス部６１０と、周波数シフト部６２０と、記憶部６３０と、区間指定部６４０と、クロスフェード部６５０と、読み出し制御部６６０とを備える。

　空力音データの時間長さが短い場合に、この空力音データが繰り返し用いられると、空力音データ同士の繋ぎ目でノイズが生じてしまうなどの課題も生じる。本実施の形態に係る情報処理装置６００は、これらの課題のうち少なくとも一方を解決するために用いられる。

　図３１は、従来技術に係る音データの読み出しと、本実施の形態に係る音データの読み出しとを説明するための図である。図３１の（ａ）は従来技術に係る音データの読み出しを説明するための図であり、図３１の（ｂ）は本実施の形態に係る音データの読み出しを説明するための図である。

　従来技術に係る音データ（空力音データ）の読み出しについて説明する。従来技術においては、空力音データが記憶されている記憶部が設けられており、巡回アドレス部は、当該記憶部の空力音データが記憶されている始点のアドレスから、当該空力音データが記憶されている終点のアドレスまでを巡回する。巡回アドレス部が、上記の記憶部から空力音データを読み出して、出力する。

　そして、次に、本実施の形態に係る音データ（空力音データ）の読み出しについて説明する。

　ここでは、空力音データ（例えば図１５が示す処理前の空力音データＤ１）は、複数のサンプル点で構成されており、より具体的には図３１の（ｂ）が示すようにＮ個のサンプル点で構成されている。ここで、当該空力音データの先頭のＭ個のサンプル点と末尾のＭ個のサンプル点とが予めクロスフェードされ、クロスフェードされたＭ個のサンプル点が作成される。また、当該空力音データの先頭のＭ個のサンプル点と末尾のＭ個のサンプル点とが除かれた中間部分の（Ｎ－２Ｍ）個のサンプルとが作成される。

　本実施の形態に係る記憶部６３０には、クロスフェードされたＭ個のサンプル点と、中間部分の（Ｎ－２Ｍ）個のサンプルとが結合された（Ｎ－Ｍ）個のサンプルで構成された空力音データが記憶されている。この記憶部６３０には、（Ｎ－Ｍ）個のサンプルで構成された空力音データに対応する（Ｎ－Ｍ）個の一連のアドレスが設定されている。

　本実施の形態においては、巡回アドレス部６１０が、記憶部６３０に記憶されている（Ｎ－Ｍ）個のサンプルで構成された空力音データの始点のアドレスから、終点のアドレスまでを巡回して、当該空力音データを読み出して、周波数シフト部６２０に出力する。周波数シフト部６２０は、出力された当該空力音データを取得して、その周波数をシフトさせ、例えば、実施の形態１に係るヘッドフォン２００などの出力チャンネルに出力する。

　本実施の形態に係る情報処理装置６００においては、先頭のＭ個のサンプル点と末尾のＭ個のサンプル点とがクロスフェードされていることから、空力音データ同士の繋ぎ目でノイズが生じてしまうなどの課題が生じ難い。

　さらに、本実施の形態に係る情報処理装置６００は、以下の処理を行うとよい。図３２は、本実施の形態に係る情報処理装置６００が行う処理を説明するための図である。

　図３２の（ａ）は、本実施の形態に係る記憶部６３０の構成を示す図である。ここでは、記憶部６３０には、空力音データ（例えば図１５が示す処理前の空力音データＤ１）が記憶されており、また、第１ポインタＰｔ１と第２ポインタＰｔ２とが設けられている。第１ポインタＰｔ１は、記憶されている空力音データを読み出す読み出し位置を示す。第２ポインタＰｔ２は、第１ポインタＰｔ１に連動して移動するポインタであって、記憶部６３０から空力音データを読み出す読み出し位置を示すポインタである。

　区間指定部６４０は、第１区間Ａ１及び第２区間Ａ２を指定する。第２区間Ａ２は、第１区間Ａ１に隣接する後続の区間である。第２ポインタＰｔ２は、第２区間Ａ２に隣接する後続の区間Ａ３を移動する。

　なお、第１区間Ａ１及び第２区間Ａ２は、情報処理装置６００のユーザが任意に設定できるとよい。すなわち、情報処理装置６００が備える受付部が、当該ユーザから、第１区間Ａ１及び第２区間Ａ２を指示する操作を受付け、区間指定部６４０が受付けられた操作が指示する区間を、第１区間Ａ１及び第２区間Ａ２として決定するとよい。

　クロスフェード部６５０は、第１ポインタＰｔ１が示す読み出し位置から読み出された空力音データをフェードイン処理して、フェードイン処理した空力音データを出力する。クロスフェード部６５０は、第２ポインタＰｔ２が示す読み出し位置から読み出された空力音データをフェードアウト処理して、フェードアウト処理した空力音データを出力する。

　読み出し制御部６６０は、第１ポインタＰｔ１が示す読み出し位置が第１区間Ａ１に含まれており、当該第１区間Ａ１から空力音データが読み出されている間は、クロスフェード部６５０にフェードイン処理した空力音データを出力させる。読み出し制御部６６０は、第１ポインタＰｔ１が示す読み出し位置が第１区間Ａ１に含まれておらず、当該第１区間Ａ１から空力音データが読み出されていない間は、巡回アドレス部６１０によって第２区間Ａ２から読み出された空力音データを出力する。

　そして、クロスフェード部６５０が出力したフェードイン処理された空力音データ、又は、巡回アドレス部６１０によって第２区間Ａ２から読み出された空力音データは、周波数シフト部６２０に出力される。周波数シフト部６２０は、出力されたフェードイン処理された空力音データ、又は、第２区間Ａ２から読み出された空力音データを取得して、その周波数をシフトさせ、例えば、実施の形態１に係るヘッドフォン２００などの出力チャンネルに出力する。

　続いて、図３２の（ｂ）及び（ｃ）で示される処理について説明する。

　図３２の（ｂ）は、本実施の形態に係る第１ポインタＰｔ１が第１区間Ａ１及び第２区間Ａ２を巡回する例を示す図である。この例においては、第１ポインタＰｔ１は、第１区間Ａ１と第２区間Ａ２とを巡回する。第１ポインタＰｔ１が示す読み出し位置が第１区間Ａ１に含まれる間には、第１ポインタＰｔ１が示す読み出し位置から空力音データが読み出され、第１ポインタＰｔ１と連動する第２ポインタＰｔ２が示す読み出し位置からも空力音データが読み出される。クロスフェード部６５０は、読み出された２つの空力音データに対して、クロスフェード処理を行う。なお、第１ポインタＰｔ１が示す読み出し位置が第１区間Ａ１に含まれている間は、第１ポインタＰｔ１と連動して第２ポインタＰｔ２が示す読み出し位置が、第１区間Ａ１に連動する区間Ａ３に含まれているとよく、区間Ａ３からも空力音データが読み出されるとよい。

　図３２の（ｃ）は、本実施の形態に係る第２ポインタＰｔ２が第２区間Ａ２及び区間Ａ３を巡回する例を示す図である。この例においては、第２ポインタＰｔ２は、第２区間Ａ２及び区間Ａ３を巡回する。第２ポインタＰｔ２が示す読み出し位置が区間Ａ３に含まれる間には、第２ポインタＰｔ２が示す読み出し位置から空力音データが読み出され、第１ポインタＰｔ１が示す読み出し位置からも空力音データが読み出される。クロスフェード部６５０は、読み出された２つの空力音データに対して、クロスフェード処理を行う。なお、第２ポインタＰｔ２が示す読み出し位置が第２区間Ａ２に含まれている間は、第２ポインタＰｔ２と連動して第１ポインタＰｔ１が示す読み出し位置が第１区間Ａ１に含まれているとよく、第１区間Ａ１からも空力音データが読み出されるとよい。

　さらに、本実施の形態に係る情報処理装置６００は、以下の処理を行うとよい。図３３は、本実施の形態に係る情報処理装置６００が行う他の処理を説明するための図である。

　この他の処理においては、区間指定部６４０は、第１区間Ａ１と第２区間Ａ２とを無作為に（ランダムに）更新する。区間指定部６４０は、第２区間Ａ２の終点の位置及び次の第１区間Ａ１の始点及び終点の位置を逐次更新する。

　図３３が示す他の処理においては、図３３の（ａ）、図３３の（ｂ）、図３３の（ｃ）、図３３の（ｄ）、図３３の（ｅ）、図３３の（ｆ）、図３３の（ｇ）の順に空力音データが読み出される状態が遷移する。

　図３３の（ａ）、（ｄ）及び（ｇ）のそれぞれは空力音データが読み出される状態１を示し、図３３の（ｂ）及び（ｅ）のそれぞれは空力音データが読み出される状態２を示し、図３３の（ｃ）及び（ｆ）のそれぞれは空力音データが読み出される状態３を示す。

　図３３においては、状態１、状態２、状態３がこの順で繰り返される。

　図３３の（ａ）が示す状態１においては、第２区間Ａ２から空力音データが読み出されている。なお、このときに、第２区間Ａ２の終点は、定まっていない。

　図３３の（ｂ）が示す状態２においては、第２区間Ａ２から空力音データが読み出されている。そして、区間指定部６４０は、所定のタイミングで、第２区間Ａ２の終点と次の第１区間Ａ１とを無作為に指定する。なお、次の第１区間Ａ１に連動する区間Ａ３は、第２区間Ａ２に隣接する後続の区間であるため、区間指定部６４０が指定する必要はなく、自動的に決定される。

　なお、所定のタイミングは、情報処理装置６００のユーザが任意に設定できるとよい。すなわち、情報処理装置６００が備える受付部が、当該ユーザから、所定のタイミングを指示する操作を受付け、区間指定部６４０が受付けられた操作が指示するタイミングを、所定のタイミングとして決定するとよい。

　図３３の（ｃ）が示す状態３においては、第２区間Ａ２からの空力音データの読み出しが終了している。そして、クロスフェード部６５０は、次の第１区間Ａ１から読み出された空力音データ、及び、次の第１区間Ａ１に連動する区間Ａ３から読み出された空力音データに対して、クロスフェード処理を行う。

　図３３の（ｄ）が示す状態１においては、次の第２区間Ａ２から空力音データが読み出されている。なお、この次の第２区間Ａ２は、図３３の（ｃ）で示される次の第１区間Ａ１に隣接する後続の区間であるため、区間指定部６４０は、この次の第２区間Ａ２の始点を指定する必要はなく、自動的に決定される。つまり、図３３の（ｃ）を用いて説明されたクロスフェード処理が終了すると、この次の第２区間Ａ２から空力音データの読み出しが行われる。なお、このときに、図３３の（ａ）が示す状態１と同じく、第２区間Ａ２の終点は定まっていない。

　図３３の（ｅ）が示す状態２においては、第２区間Ａ２（図３３の（ｄ）で示される次の第２区間Ａ２に相当）から空力音データが読み出されている。そして、区間指定部６４０は、所定のタイミングで、当該第２区間Ａ２の終点と次の第１区間Ａ１とを無作為に指定する。なお、次の第１区間Ａ１に連動する区間Ａ３は、第２区間Ａ２に隣接する後続の区間であるため、区間指定部６４０が指定する必要はなく、自動的に決定される。

　図３３の（ｆ）が示す状態３においては、第２区間Ａ２（図３３の（ｅ）で示される次の第２区間Ａ２に相当）からの空力音データの読み出しが終了している。そして、クロスフェード部６５０は、次の第１区間Ａ１から読み出された空力音データ、及び、次の第１区間Ａ１に連動する区間Ａ３から読み出された空力音データに対して、クロスフェード処理を行う。

　図３３の（ｇ）が示す状態１においては、次の第２区間Ａ２から空力音データが読み出されている。なお、この次の第２区間Ａ２は、図３３の（ｆ）で示される次の第１区間Ａ１に隣接する後続の区間であるため、区間指定部６４０は、この次の第２区間Ａ２の始点を指定する必要はなく、自動的に決定される。つまり、図３３の（ｃ）を用いて説明されたクロスフェード処理が終了すると、この次の第２区間Ａ２から空力音データの読み出しが行われる。なお、このときに、図３３の（ａ）が示す状態１と同じく、第２区間Ａ２の終点は定まっていない。

　図３３が示すように、状態１、状態２、状態３がこの順で繰り返され、状態２において無作為に、第２区間Ａ２の終点と次の第１区間Ａ１を指定することで、受聴者Ｌは、同じ空力音を繰り返して受聴することが回避される。従って、同じ空力音を繰り返すことによって生じる不自然な「リズム」が生成されない。

　続いて、パイプライン処理について説明する。

　上述の音響信号処理装置１００で行われる処理の一部又は全ては、例えば特許文献２で説明されているようなパイプライン処理の一部として行われてもよい。図３４は、図６及び図７のレンダリング部Ａ０２０３及びＡ０２１３がパイプライン処理を行う場合を説明するための機能ブロック図及びステップの一例を示す図である。図３４での説明においては、図６及び図７のレンダリング部Ａ０２０３及びＡ０２１３の一例であるレンダリング部９００を用いて説明する。

　パイプライン処理とは、音響効果を付与するための処理を複数の処理に分割し、各処理を１つずつ順番に実行することを指す。分割された処理のそれぞれでは、例えば、音声信号に対する信号処理、又は信号処理に用いるパラメータの生成などが実行される。

　本実施の形態におけるレンダリング部９００は、パイプライン処理として、例えば残響効果、初期反射処理、距離減衰効果、バイノーラル処理などを施す処理を含む。ただし、上記の処理は一例であり、それ以外の処理を含んでいてもよいし、一部の処理を含んでいなくてもよい。例えば、レンダリング部９００がパイプライン処理として、回折処理又はオクルージョン処理を含んでいてもよいし、例えば残響処理が不要な場合は省略されてもよい。また、それぞれの処理をステージと表現し、それぞれの処理の結果生成される反射音などの音声信号をレンダリングアイテムと表現してもよい。パイプライン処理における各ステージの順番と、パイプライン処理に含まれるステージとは図３４に示した例に限られない。

　なお、図３４で示すすべてのステージがレンダリング部９００に備わっていなくてもよく、一部のステージが省略されたり、レンダリング部９００以外に他のステージが存在したりしてもよい。

　パイプライン処理の一例として、残響処理、初期反射処理、距離減衰処理、選択処理、生成処理、バイノーラル処理のそれぞれで行われる処理について説明する。それぞれの処理では入力信号に含まれるメタデータを解析して、反射音の生成に必要なパラメータを算出する。

　なお、図３４においては、レンダリング部９００は、残響処理部９０１、初期反射処理部９０２、距離減衰処理部９０３、選択部９０４、算出部９０６、生成部９０７及びバイノーラル処理部９０５を備える。ここでは、残響処理部９０１が残響処理ステップを、初期反射処理部９０２が初期反射処理ステップを、距離減衰処理部９０３が距離減衰処理ステップを、選択部９０４が選択処理ステップを、バイノーラル処理部９０５がバイノーラル処理ステップを行う例について説明する。

　残響処理ステップでは、残響処理部９０１が残響音を示す音声信号又は音声信号の生成に必要なパラメータを生成する。残響音とは、直接音の後に残響としてリスナに到達する残響音を含む音である。一例として、残響音は、後述する初期反射音がリスナへ到達した後の比較的後期（例えば、直接音の到達時から百数十ｍｓ程度）の段階で、初期反射音よりも多くの回数（例えば、数十回）の反射を経てリスナへ到達する残響音である。残響処理部９０１は、入力信号に含まれる音声信号及び空間情報を参照し、事前に準備してある残響音を生成するための所定の関数を用いて計算する。

　残響処理部９０１は、当該音信号に、公知の残響生成方法を適用して、残響を生成してもよい。公知の残響生成方法とは、一例として、シュレーダー法であるが、これに限られない。また、残響処理部９０１は、公知の残響生成処理を適用する際に、空間情報が示す音再生空間の形状及び音響特性を用いる。これにより、残響処理部９０１は、残響を示す音声信号を生成するためのパラメータを算出することができる。

　初期反射処理ステップでは、初期反射処理部９０２が、空間情報に基づいて、初期反射音を生成するためのパラメータを算出する。初期反射音は、音源オブジェクトから直接音がリスナへ到達した後の比較的初期（例えば、直接音の到達時から数十ｍｓ程度）の段階で、１回以上の反射を経てリスナへ到達する反射音である。初期反射処理部９０２は、例えば音信号及びメタデータを参照し、三次元音場（空間）の形状、大きさ、構造物などのオブジェクトの位置、及びオブジェクトの反射率などを用いて、音源オブジェクトからオブジェクトで反射してリスナに到達する反射音の経路（経路の長さ）を計算する。また、初期反射処理部９０２が直接音の経路（経路の長さ）も算出してもよい。当該経路を示す情報が初期反射音を生成するためのパラメータとして用いられるとともに、選択部９０４における反射音の選択処理のためのパラメータとして用いられてもよい。

　距離減衰処理ステップでは、距離減衰処理部９０３が、初期反射処理部９０２が算出した直接音の経路の長さと反射音の経路の長さとの差に基づいて、リスナに到達する音量を算出する。リスナに到達する音量は、音源の音量に対して、リスナまでの距離に比例して減衰（距離に反比例）するので、直接音の音量は、音源の音量を直接音の経路の長さで除して得ることができ、反射音の音量は、音源の音量を反射音の経路の長さで除して算出することができる。

　選択処理ステップでは、選択部９０４が、生成する音を選択する。それ以前のステップで算出されたパラメータに基づいて、選択処理が実行されてもよい。

　選択処理がパイプライン処理の一部で実行される場合、選択処理において選択されなかった音については、パイプライン処理における選択処理以降の処理を実行する対象としなくてもよい。選択されなかった音について選択処理以降の処理を実行しないことで、選択されなかった音についてバイノーラル処理のみを実行しないことを決定する場合よりも、音響信号処理装置１００の演算負荷を低減することが可能になる。

　また、本実施の形態で説明した選択処理がパイプライン処理の一部で実行される場合、選択処理の順番が、パイプライン処理における複数の処理の順番のうちより早い順番で実行されるように設定すると、より多くの選択処理以降の処理を省略できるため、より多くの演算量を削減することができる。例えば算出部９０６及び生成部９０７が処理より前の順番で選択処理が実行されると、選択しないことが決定されたオブジェクトに係る空力音についての処理を省略することができ、より音響信号処理装置１００における演算量を削減することが出来る。

　また、レンダリングアイテムを生成するパイプライン処理の一部で算出されたパラメータが、選択部９０４又は算出部９０６で用いられてもよい。

　バイノーラル処理ステップでは、バイノーラル処理部９０５が、直接音の音声信号に対して音源オブジェクトの方向からリスナに到達する音として知覚されるように、信号処理を実行する。さらにバイノーラル処理部９０５は、反射音が反射に関わる障害物オブジェクトからリスナに到達する音として知覚されるように、信号処理を実行する。音空間におけるリスナの座標及び向き（つまり、受聴点の位置及び向き）に基づいて、音源オブジェクトの位置又は障害物オブジェクトの位置から音がリスナに到達するように、ＨＲＩＲ（Ｈｅａｄ―Ｒｅｌａｔｅｄ　Ｉｍｐｕｌｓｅ　Ｒｅｓｐｏｎｓｅｓ）　ＤＢ（Ｄａｔａ　ｂａｓｅ）を適用する処理を実行する。なお、受聴点は、例えば、リスナの頭部の動きに合わせてその位置及び方向が変化されてもよい。また、リスナの位置を示す情報がセンサから取得されてもよい。

　パイプライン処理及びバイノーラル処理に用いるプログラム、音響処理に必要な空間情報、ＨＲＩＲ　ＤＢ、及び、閾値データなどその他のパラメータは、音響信号処理装置１００に備わるメモリ又は外部から取得する。ＨＲＩＲ（Ｈｅａｄ―Ｒｅｌａｔｅｄ　Ｉｍｐｕｌｓｅ　Ｒｅｓｐｏｎｓｅｓ）とは、１個のインパルスを発生させたときの応答特性である。言い換えれば、ＨＲＩＲとは、耳殻、人頭及び肩まで含めた周辺物によって生じる音の変化を伝達関数として表現した頭部伝達関数をフーリエ変換することで、周波数領域における表現から時間領域における表現に変換された応答特性である。ＨＲＩＲ　ＤＢは、このような情報を含むデータベースである。

　また、パイプライン処理の一例として、レンダリング部９００は図示していない処理部を含んでいてもよい。例えば、回折処理部又はオクルージョン処理部を含んでいてもよい。

　回折処理部は、三次元音場（空間）におけるリスナと音源オブジェクトとの間にある障害物に起因する回折音を含む音を示す音声信号を生成する処理を実行する。回折音は、音源オブジェクトとリスナとの間に障害物がある場合に、当該障害物を回り込むようにして音源オブジェクトからリスナへ到達する音である。

　回折処理部は、例えば音信号及びメタデータを参照し、三次元音場（空間）における音源オブジェクトの位置、リスナの位置、並びに障害物の位置、形状、及び大きさなどを用いて、音源オブジェクトから障害物を迂回してリスナへと到達する経路を計算し、当該経路に基づいて回折音を生成する。

　オクルージョン処理部は、いずれかのステップで取得した空間情報及び障害物オブジェクトの材質などの情報に基づいて、障害物オブジェクトの向こう側に音源オブジェクトがある場合に漏れ聞こえる音声信号を生成する。

　なお、上記実施の形態１及び２では、音源オブジェクトに付与する位置情報は、仮想空間内における「点」として定義したものであり、所謂「点音源」であるとして発明の詳細を説明した。一方で、仮想空間における音源を定義する方法として、長さ、大きさ又は形状などを有する物体として、点音源でない、空間的に拡張された音源を定義する場合もある。そのような場合は、リスナと音源との距離又は音の到来方向が確定しないので、それに起因する反射音は解析が行われるまでもなく、或いは解析結果の如何にかかわらず、上記選択部９０４で「選択する」方の処理に限定してもよい。そうすることによって、反射音を選択しないことによって生じるかもしれない音質の劣化を避けることができるからである。又は、当該物体の重心など代表点が定められて、その代表点から音が発生しているとして本開示の処理を適用してもよいが、その場合は、音源の空間的な拡張の情報に応じて閾値を調整した上で本開示の処理を適用してもよい。

　続いて、ビットストリームの構造例について説明する。

　ビットストリームには、例えば、音声信号と、メタデータと、が含まれる。音声信号は、音の周波数及び強弱に関する情報などを示す、音が表現された音データである。メタデータに含まれる空間情報は、音声信号に基づく音を聞くリスナが位置する空間に関する情報である。具体的には、空間情報は、当該音の音像を、音空間（例えば、三次元音場内）における所定の位置に定位させる際の、つまり、リスナに所定方向から到達する音として知覚させる際の当該所定の位置（定位位置）に関する情報である。空間情報には、例えば、音源オブジェクト情報と、リスナの位置を示す位置情報とが含まれる。

　音源オブジェクト情報は、音声信号に基づく音を発生させる、つまり、音声信号を再生する物体を示すオブジェクトの情報であって、当該物体が配置される実空間に対応する仮想的な空間である音空間に配置される仮想的なオブジェクト（音源オブジェクト）に関する情報である。音源オブジェクト情報は、例えば、音空間に配置される音源オブジェクトの位置を示す情報、音源オブジェクトの向きに関する情報、音源オブジェクトが発する音の指向性に関する情報、音源オブジェクトが生物に属するか否かを示す情報、及び、音源オブジェクトが動体であるか否かを示す情報などを含む。例えば、音声信号は、音源オブジェクト情報が示す１以上の音源オブジェクトに対応している。

　ビットストリームのデータ構造の一例として、ビットストリームは、例えばメタデータ（制御情報）と音声信号とで構成される。

　音声信号とメタデータとは一つのビットストリームに格納されていてもよいし、複数のビットストリームに別々に格納されていてもよい。同様に音声信号とメタデータとは一つのファイルに格納されていてもよいし、複数のファイルに別々に格納されていてもよい。

　ビットストリームは音源ごとに存在してもよいし、再生時間ごとに存在してもよい。再生時間ごとにビットストリームが存在する場合、同時に複数のビットストリームが並列で処理されてもよい。

　メタデータは、ビットストリームごとに付与されてもよく、複数のビットストリームを制御する情報としてまとめて付与されてもよい。また、メタデータは、再生時間ごとに付与されてもよい。

　音声信号とメタデータとは、複数のビットストリーム又は複数のファイルに別々に格納されている場合、音声信号とメタデータとは、一つ又は一部のビットストリーム又はファイルに関連する他のビットストリーム又はファイルを示す情報に含まれていてもよいし、音声信号とメタデータとは、全てのビットストリーム又はファイルのそれぞれに関連する他のビットストリーム又はファイルを示す情報に含まれていてもよい。ここで、関連するビットストリーム又はファイルとは、例えば、音響処理の際に同時に用いられる可能性のあるビットストリーム又はファイルである。また、関連するビットストリーム又はファイルには、関連する他のビットストリーム又はファイルを示す情報をまとめて記述したビットストリーム又はファイルが含まれていてもよい。ここで、関連する他のビットストリーム又はファイルを示す情報とは、例えば当該他のビットストリームを示す識別子、他のファイルを示すファイル名、ＵＲＬ（Ｕｎｉｆｏｒｍ　Ｒｅｓｏｕｒｃｅ　Ｌｏｃａｔｏｒ）又はＵＲＩ（Ｕｎｉｆｏｒｍ　Ｒｅｓｏｕｒｃｅ　Ｉｄｅｎｔｉｆｉｅｒ）などである。この場合、取得部１１０は、関連する他のビットストリーム又はファイルを示す情報に基づいてビットストリーム又はファイルを特定又は取得する。また、ビットストリーム内に関連する他のビットストリームを示す情報が含まれていると共に、ビットストリーム内に別のビットストリーム又はファイルに関連するビットストリーム又はファイルを示す情報を含めていてもよい。ここで、関連するビットストリーム又はファイルを示す情報を含むファイルとは、例えばコンテンツの配信に用いられるマニフェストファイルなどの制御ファイルであってもよい。

　なお、全てのメタデータ又は一部のメタデータは音声信号のビットストリーム以外から取得されてもよい。例えば、音響を制御するメタデータと映像を制御するメタデータとのいずれかがビットストリーム以外から取得されてもよいし、両方のメタデータがビットストリーム以外から取得されてもよい。また、映像を制御するメタデータが音声信号再生システムで取得されるビットストリームに含まれる場合は、音声信号再生システムは映像の制御に用いることができるメタデータを、画像を表示する表示装置、又は立体映像を再生する立体映像再生装置に対して出力する機能を備えていてもよい。

　さらに、メタデータに含まれる情報の例について説明する。

　メタデータは、音空間で表現されるシーンを記述するために用いられる情報であってもよい。ここでシーンとは、メタデータを用いて、音声信号再生システムでモデリングされる、音空間における三次元映像及び音響イベントを表すすべての要素の集合体を指す用語である。つまり、ここでいうメタデータとは、音響処理を制御する情報だけでなく、映像処理を制御する情報も含んでいてもよい。勿論、メタデータには、音響処理と映像処理とのいずれか一方だけを制御する情報が含まれていてもよいし、両方の制御に用いられる情報が含まれていてもよい。

　音声信号再生システムは、ビットストリームに含まれるメタデータ及び、追加で取得されるインタラクティブなリスナの位置情報などを用いて、音声信号に音響処理を行うことで、仮想的な音響効果を生成する。ここでは、音響効果のうち、初期反射処理と、障害物処理と、回折処理と、遮断処理と、残響処理とを行う場合を説明するが、メタデータを用いてほかの音響処理を行ってもよい。例えば、音声信号再生システムは、距離減衰効果、ローカリゼーション、ドップラー効果などの音響効果を付加することが考えられる。また、音響効果の全て又は一部のオンオフを切り替える情報、優先度情報をメタデータとして付加してもよい。

　また、一例として、符号化されたメタデータは、音源オブジェクト及び障害物オブジェクトを含む音空間に関する情報と、当該音の音像を音空間内において所定位置に定位させる（つまり、所定方向から到達する音として知覚させる）際の定位位置に関する情報とを含む。ここで、障害物オブジェクトは、音源オブジェクトが発する音がリスナへと到達するまでの間において、例えば音を遮ったり、音を反射したりして、リスナが知覚する音に影響を及ぼし得るオブジェクトである。障害物オブジェクトは、静止物体の他に、人などの動物、又は機械などの動体を含み得る。また、音空間に複数の音源オブジェクトが存在する場合、任意の音源オブジェクトにとっては、他の音源オブジェクトは障害物オブジェクトとなり得る。建材又は無生物などの音を発しないオブジェクトである非発音オブジェクトも、音を発する音源オブジェクトも障害物オブジェクトとなり得る。

　メタデータには、音空間の形状、音空間に存在する障害物オブジェクトの形状情報及び位置情報、音空間に存在する音源オブジェクトの形状情報及び位置情報、並びに音空間におけるリスナの位置及び向きをそれぞれ表す情報のすべて又は一部が含まれる。

　音空間は、閉空間又は開空間のいずれであってもよい。また、メタデータには、例えば床、壁、又は天井などの音空間において音を反射し得る構造物の反射率、及び音空間に存在する障害物オブジェクトの反射率を表す情報が含まれる。ここで、反射率は、反射音と入射音とのエネルギーの比であって、音の周波数帯域ごとに設定されている。勿論、反射率は、音の周波数帯域に依らず、一律に設定されていてもよい。音空間が開空間の場合は、例えば一律で設定された減衰率、回折音、初期反射音などのパラメータが用いられてもよい。

　上記説明では、メタデータに含まれる障害物オブジェクト又は音源オブジェクトに関するパラメータとして、反射率を挙げたが反射率以外の情報を含んでいてもよい。例えば、反射率以外の情報は、音源オブジェクト及び非発音オブジェクトの両方に関わるメタデータとして、オブジェクトの素材に関する情報を含んでいてもよい。具体的には、反射率以外の情報は、拡散率、透過率、吸音率などのパラメータを含んでいてもよい。

　音源オブジェクトに関する情報として、音量、放射特性（指向性）、再生条件、ひとつのオブジェクトから発せられる音源の数及び種類、並びに、オブジェクトにおける音源領域を指定する情報などを含めてもよい。再生条件では例えば、継続的に流れ続ける音なのかイベントで発動する音なのかが定められてもよい。オブジェクトにおける音源領域は、リスナの位置とオブジェクトの位置との相対的な関係で定めてもよいし、オブジェクトを基準として定めてもよい。オブジェクトにおける音源領域がリスナの位置とオブジェクトの位置との相対的な関係で定められる場合、リスナが見ているオブジェクトの面を基準とし、リスナから見てオブジェクトの右側からは音Ｃ、左側からは音Ｅが発せられているようにリスナに知覚させることができる。オブジェクトにおける音源領域がオブジェクトを基準として定められる場合、リスナの見ている方向に関わらず、オブジェクトのどの領域からどの音を出すかは固定にすることができる。例えばオブジェクトを正面から見たときの右側からは高い音、左側からは低い音が流れているようにリスナに知覚させることができる。この場合、リスナがオブジェクトの背面に回り込んだ場合、背面から見て右側からは低い音、左側からは高い音が流れているようにリスナに知覚させることができる。

　空間に関するメタデータとして、初期反射音までの時間、残響時間、直接音と拡散音との比率などを含めることができる。直接音と拡散音との比率がゼロの場合、直接音のみをリスナに知覚させることができる。

　（効果など）
　実施の形態１に係る音響信号処理方法は、基準音の波形を示す音データを取得する取得ステップと、自然現象の変動が模擬された模擬情報に基づいて、波形の周波数成分、位相及び振幅値のうち少なくとも一つを変化させるように音データを処理する処理ステップと、処理された音データを出力する出力ステップと、を含む。

　これにより、揺らぎが含まれている自然現象の変動が模擬された模擬情報に基づいて、波形の周波数成分、位相及び振幅数のうち少なくとも一つを変化させるように音データが処理される。このため処理された音データにおいては、周波数成分、位相及び振幅数のうち少なくとも一つに揺らぎが生じることとなり、処理された音データが示す音にも周波数成分、位相及び振幅数のうち少なくとも一つに揺らぎが生じることとなる。従って、受聴者Ｌは、周波数成分、位相及び振幅数のうち少なくとも一つに揺らぎが生じた音を受聴することができ、受聴者Ｌは違和感を覚えにくく臨場感を得ることができる。つまりは、受聴者Ｌに臨場感を与えることができる音響信号処理方法が実現される。

　上記実施の形態１の動作例１では、自然現象として風Ｗが吹く例が用いられた。上記の通り模擬情報は、揺らぎが含まれている自然現象の変動が模擬された情報であり、より具体的には、風Ｗの風速の変動による揺らぎを表現した情報であり、動作例１においては、滑らかな関数で示される情報である。

　動作例１においては、揺らぎが含まれている自然現象の変動が模擬された模擬情報に基づいて波形の周波数成分が変化するように、基準音の波形を示す音データ（空力音データ）が処理される。このため、処理された空力音データにおいては周波数成分に揺らぎが生じることとなり、処理された空力音データが示す空力音にも周波数成分に揺らぎが生じることとなる。従って、受聴者Ｌは、このような周波数成分に揺らぎが生じた空力音を受聴することができ、違和感を覚えにくく臨場感を得ることができる。つまりは、受聴者Ｌに臨場感を与えることができる音響信号処理方法が実現される。

　なお、上記実施の形態１の動作例１では、自然現象として風Ｗが吹く例が用いられたがこれに限られず、川の水が流れる、動物の行動などの自然現象が用いられてもよい。

　自然現象として川の水が流れる例が用いられる場合、受聴者Ｌは、川の水が流れることによるせせらぎ音を受聴することとなる。この場合、模擬情報は、川の水の流速の変動、又は、川の水の流れの向きの変動による揺らぎを表現した情報である。

　自然現象として動物の行動の例が用いられる場合、受聴者Ｌは、動物の鳴き声などを受聴することとなる。この場合、模擬情報は、動物の鳴き声の大きさの変動などによる揺らぎを表現した情報である。

　すなわち、自然現象として、川の水が流れる、動物の行動などの現象が用いられた場合でも、模擬情報は、揺らぎが含まれている自然現象の変動が模擬された情報である。従って、動作例１で示したように、模擬情報が用いられることで、受聴者Ｌは、周波数成分、位相及び振幅数のうち少なくとも一つに揺らぎが生じた音を受聴することができ、受聴者Ｌは違和感を覚えにくく臨場感を得ることができる。つまりは、受聴者Ｌに臨場感を与えることができる音響信号処理方法が実現される。

　実施の形態１に係る音響信号処理方法は、基準音は、風Ｗによって生じる空力音であり、処理ステップでは、風Ｗの風速の変動が模擬された模擬情報に基づいて、波形の周波数成分、位相及び振幅値のうち少なくとも一つを変化させるように音データを処理する。

　これにより、受聴者Ｌは、周波数成分、位相及び振幅数のうち少なくとも一つに揺らぎが生じた空力音を受聴することができ、受聴者Ｌは違和感を覚えにくく臨場感を得ることができる。つまりは、受聴者Ｌに臨場感を与えることができる音響信号処理方法が実現される。

　実施の形態１に係る音響信号処理方法は、処理ステップでは、模擬情報として、風Ｗの風速の変動が模擬された滑らかな関数を決定し、決定された滑らかな関数が示す値に基づいて、波形の周波数成分、位相及び振幅値のうち少なくとも一つを変化させるように音データを処理する。

　実施の形態１に係る音響信号処理方法は、滑らかな関数が示す値は、基準音である空力音の風速と、処理ステップで処理された後の音データが示す空力音の風速との比率を示す情報である。

　実施の形態１に係る音響信号処理方法は、処理ステップでは、滑らかな関数を特定するパラメータが不規則に変化するように滑らかな関数を決定する。

　これにより、受聴者Ｌは、周波数成分、位相及び振幅数のうち少なくとも一つに、不規則に変化する揺らぎが生じた空力音を受聴することができ、受聴者Ｌは違和感をより覚えにくく臨場感をより得ることができる。つまりは、受聴者Ｌに臨場感をより与えることができる音響信号処理方法が実現される。

　実施の形態１に係る音響信号処理方法は、処理ステップでは、波形の周波数成分を、決定された滑らかな関数が示す値に比例した周波数にシフトさせるように音データを処理する。

　これにより、受聴者Ｌは、周波数成分に揺らぎが生じた音を受聴することができ、受聴者Ｌは違和感を覚えにくく臨場感を得ることができる。つまりは、受聴者Ｌに臨場感を与えることができる音響信号処理方法が実現される。

　すなわち、動作例１が示すように、揺らぎが含まれている風Ｗの風速の変動が模擬された模擬情報（滑らかな関数）に基づいて波形の周波数成分が変化するように、基準音の波形を示す音データ（空力音データ）が処理される。このため、処理された空力音データにおいては周波数成分に揺らぎが生じることとなり、処理された空力音データが示す空力音にも周波数成分に揺らぎが生じることとなる。従って、受聴者Ｌは、このような周波数成分に揺らぎが生じた空力音を受聴することができ、違和感を覚えにくく臨場感を得ることができる。

　実施の形態１に係る音響信号処理方法は、処理ステップでは、波形の振幅値を、決定された滑らかな関数が示す値のα乗に比例して変化させるように音データを処理する。

　これにより、受聴者Ｌは、振幅値に揺らぎが生じた音を受聴することができ、受聴者Ｌは違和感を覚えにくく臨場感を得ることができる。つまりは、受聴者Ｌに臨場感を与えることができる音響信号処理方法が実現される。

　すなわち、動作例２が示すように、揺らぎが含まれている風Ｗの風速の変動が模擬された模擬情報である滑らかな関数が示す値のα乗に比例して、波形の振幅値が変化するように、基準音の波形を示す音データ（空力音データ）が処理される。このため、処理された空力音データにおいては振幅値に揺らぎが生じることとなり、処理された空力音データが示す空力音にも振幅値に揺らぎが生じることとなる。従って、受聴者Ｌは、このような振幅値に揺らぎが生じた空力音を受聴することができ、違和感を覚えにくく臨場感を得ることができる。

　実施の形態１に係る音響信号処理方法は、処理ステップでは、取得された音データを所定時間の処理フレームＦに分割し、分割した処理フレームＦごとに、音データを処理する。

　実施の形態１に係る音響信号処理方法は、処理ステップでは、分割した処理フレームＦごとに、処理フレームＦの最初の時刻及び最後の時刻において、滑らかな関数の値が１．０になるように、滑らかな関数を決定する。

　これにより、処理フレームＦと、当該処理フレームＦの次の処理フレームＦとの繋ぎ目にノイズ音が生じることが抑制される。

　実施の形態１に係る音響信号処理方法は、処理ステップでは、滑らかな関数を特定するパラメータを、分割した処理フレームＦごとに決定する。

　実施の形態１に係る音響信号処理方法は、パラメータは、最初の時刻から最後の時刻までの時間である。

　これにより、パラメータを処理フレームＦの最初の時刻から当該処理フレームＦの最後の時刻までの時間とすることができる。

　実施の形態１に係る音響信号処理方法は、パラメータは、滑らかな関数の最大値に係る値である。

　実施の形態１に係る音響信号処理方法は、パラメータは、滑らかな関数が最大値に達する位置を変動させるパラメータである。

　実施の形態１に係る音響信号処理方法は、パラメータは、滑らかな関数の変動の急峻さを変動させるパラメータである。

　実施の形態１に係る音響信号処理方法は、処理ステップでは、滑らかな関数を特定する第１パラメータ及び第２パラメータを決定し、決定された第１パラメータによって特定される滑らかな関数に基づいて、波形の周波数成分、位相及び振幅値のうち少なくとも一つを変化させるように取得された音データを処理し、決定された第２パラメータによって特定される滑らかな関数に基づいて、波形の周波数成分、位相及び振幅値のうち少なくとも一つを変化させるように取得された音データを処理し、出力ステップでは、決定された第１パラメータによって特定される滑らかな関数に基づいて処理された音データを、第１出力チャンネルに出力し、決定された第２パラメータによって特定される滑らかな関数に基づいて処理された音データを、第２出力チャンネルに出力する。

　実施の形態１に係る音響信号処理方法は、空力音は、風Ｗが物体と衝突することによって発生する音であり、処理ステップでは、風Ｗの風速の性質を模擬してパラメータを決定する。

　これにより、揺らぎが含まれている風Ｗの風速の変動を模擬してパラメータが決定される。このパラメータにより特定される滑らかな関数に基づいて、波形の周波数成分、位相及び振幅数のうち少なくとも一つを変化させるように音データが処理されることができる。

　実施の形態１に係る音響信号処理方法は、空力音は、風Ｗが、空力音を受聴する受聴者Ｌの耳と衝突することによって発生する音であり、処理ステップでは、風Ｗの風向の性質を模擬してパラメータを決定する。

　これにより、揺らぎが含まれている風Ｗの向きの変動を模擬してパラメータが決定される。このパラメータにより特定される滑らかな関数に基づいて、波形の周波数成分、位相及び振幅数のうち少なくとも一つを変化させるように音データが処理されることができる。

　実施の形態１に係る音響信号処理方法は、滑らかな関数の最大値は、３を超えない。

　実施の形態１に係る音響信号処理方法は、滑らかな関数の最小値は、０を下回らない。

　実施の形態１に係る音響信号処理方法は、風Ｗの風速であるＶａと風Ｗの瞬間風速であるＶｐとを指定する指示を受付ける受付ステップを含み、処理ステップでは、滑らかな関数の最大値がＶｐ／Ｖａとなるように滑らかな関数を決定する。

　実施の形態１に係る音響信号処理方法は、所定時間の平均値は、３秒である。

　これにより、処理フレームＦの時間長さである所定時間の平均値を３秒とすることができる。

　実施の形態１に係る音響信号処理方法は、物体は、耳を模した形状を有する物体である。

　実施の形態１に係るコンピュータプログラムは、上記記載の音響信号処理方法をコンピュータに実行させる。

　実施の形態１に係る音響信号処理装置１００は、基準音の波形を示す音データを取得する取得部１１０と、自然現象の変動が模擬された模擬情報に基づいて、波形の周波数成分、位相及び振幅値のうち少なくとも一つを変化させるように音データを処理する処理部１２０と、処理された音データを出力する出力部１３０と、を備える。

　これにより、揺らぎが含まれている自然現象の変動が模擬された模擬情報に基づいて、波形の周波数成分、位相及び振幅数のうち少なくとも一つを変化させるように音データが処理される。このため処理された音データにおいては、周波数成分、位相及び振幅数のうち少なくとも一つに揺らぎが生じることとなり、処理された音データが示す音にも周波数成分、位相及び振幅数のうち少なくとも一つに揺らぎが生じることとなる。従って、受聴者Ｌは、周波数成分、位相及び振幅数のうち少なくとも一つに揺らぎが生じた音を受聴することができ、受聴者Ｌは違和感を覚えにくく臨場感を得ることができる。つまりは、受聴者Ｌに臨場感を与えることができる音響信号処理装置１００が実現される。

　（その他の実施の形態）
　以上、本開示の態様に係る音響信号処理方法及び音響信号処理装置について、実施の形態及び変形例に基づいて説明したが、本開示は、この実施の形態及び変形例に限定されるものではない。例えば、本明細書において記載した構成要素を任意に組み合わせて、また、構成要素のいくつかを除外して実現される別の実施の形態を本開示の実施の形態としてもよい。また、上記実施の形態及び変形例に対して本開示の主旨、すなわち、請求の範囲に記載される文言が示す意味を逸脱しない範囲で当業者が思いつく各種変形を施して得られる変形例も本開示に含まれる。

　また、以下に示す形態も、本開示の一つ又は複数の態様の範囲内に含まれてもよい。

　（１）上記の音響信号処理装置を構成する構成要素の一部は、マイクロプロセッサ、ＲＯＭ、ＲＡＭ、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムであってもよい。前記ＲＡＭ又はハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。

　（２）上記の音響信号処理装置を構成する構成要素の一部は、１個のシステムＬＳＩ（Ｌａｒｇｅ　Ｓｃａｌｅ　Ｉｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されているとしてもよい。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどを含んで構成されるコンピュータシステムである。前記ＲＡＭには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムＬＳＩは、その機能を達成する。

　（３）上記の音響信号処理装置を構成する構成要素の一部は、各装置に脱着可能なＩＣカード又は単体のモジュールから構成されているとしてもよい。前記ＩＣカード又は前記モジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどから構成されるコンピュータシステムである。前記ＩＣカード又は前記モジュールは、上記の超多機能ＬＳＩを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ＩＣカード又は前記モジュールは、その機能を達成する。このＩＣカード又はこのモジュールは、耐タンパ性を有するとしてもよい。

　（４）また、上記の音響信号処理装置を構成する構成要素の一部は、前記コンピュータプログラム又は前記デジタル信号をコンピュータで読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、ＣＤ－ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ－ＲＯＭ、ＤＶＤ－ＲＡＭ、ＢＤ（Ｂｌｕ－ｒａｙ（登録商標）　Ｄｉｓｃ）、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されているデジタル信号であるとしてもよい。

　また、上記の音響信号処理装置を構成する構成要素の一部は、前記コンピュータプログラム又は前記デジタル信号を、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク、データ放送などを経由して伝送するものとしてもよい。

　（５）本開示は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。

　（６）また、本開示は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。

　（７）また、前記プログラム又は前記デジタル信号を前記記録媒体に記録して移送することにより、又は前記プログラム又は前記デジタル信号を、前記ネットワークなどを経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。

　本開示は、音響信号処理方法及び音響信号処理装置に利用可能であり、特に、音響システムなどに適用可能である。

１００、１００ａ　音響信号処理装置
１１０　取得部
１２０、１２０ａ　処理部
１２１　第１処理部
１２２、１２２ｂ　第２処理部
１３０　出力部
１４０　記憶部
１５０　受付部
２００　ヘッドフォン
２０１　頭部センサ部
２０２　出力部
３００　表示部
５００　サーバ装置
６００　情報処理装置
６１０　巡回アドレス部
６２０　周波数シフト部
６３０　記憶部
６４０　区間指定部
６５０　クロスフェード部
６６０　読み出し制御部
９００　レンダリング部
９０１　残響処理部
９０２　初期反射処理部
９０３　距離減衰処理部
９０４　選択部
９０５　バイノーラル処理部
９０６　算出部
９０７　生成部
１００１　サンプリングレート変換部
１００２　再配置部
１００３　接続部
１０２１　アップサンプル部
１０２２　ローパスフィルタ部
１０２３　ダウンサンプル部
１０２４　ＸＹ設定部
１０３１　振幅調整部
Ａ１　第１区間
Ａ２　第２区間
Ａ３　区間
Ａ００００　立体音響再生システム
Ａ０００１　音響信号処理装置
Ａ０００２　音声提示装置
Ａ０１００　符号化装置
Ａ０１０１　入力データ
Ａ０１０２　エンコーダ
Ａ０１０３　符号化データ
Ａ０１０４　メモリ
Ａ０１１０　復号装置
Ａ０１１１　音声信号
Ａ０１１２　デコーダ
Ａ０１１３　入力データ
Ａ０１１４　メモリ
Ａ０１２０　符号化装置
Ａ０１２１　送信部
Ａ０１２２　送信信号
Ａ０１３０　復号装置
Ａ０１３１　受信部
Ａ０１３２　受信信号
Ａ０２００　デコーダ
Ａ０２０１　空間情報管理部
Ａ０２０２　音声データデコーダ
Ａ０２０３　レンダリング部
Ａ０２１０　デコーダ
Ａ０２１１　空間情報管理部
Ａ０２１３　レンダリング部
Ｄ１　処理前の空力音データ
Ｄ１１　処理後の空力音データ
ＦＮ　扇風機
Ｆ、Ｆ１、Ｆ２、Ｆ３、Ｆ４、Ｆ５、Ｆ６、Ｆｎ、Ｆｎ＋１　処理フレーム
Ｌ　受聴者
Ｐｔ１　第１ポインタ
Ｐｔ２　第２ポインタ

Claims

　基準音の波形を示す音データを取得する取得ステップと、
　自然現象の変動が模擬された模擬情報に基づいて、前記波形の周波数成分、位相及び振幅値のうち少なくとも一つを変化させるように前記音データを処理する処理ステップと、
　処理された前記音データを出力する出力ステップと、
　を含む、
　音響信号処理方法。
　前記基準音は、風によって生じる空力音であり、
　前記処理ステップでは、前記風の風速の変動が模擬された前記模擬情報に基づいて、前記波形の周波数成分、位相及び振幅値のうち前記少なくとも一つを変化させるように前記音データを処理する、
　請求項１に記載の音響信号処理方法。
　前記処理ステップでは、
　　前記模擬情報として、前記風の風速の変動が模擬された滑らかな関数を決定し、
　　決定された前記滑らかな関数が示す値に基づいて、前記波形の周波数成分、位相及び振幅値のうち前記少なくとも一つを変化させるように前記音データを処理する、
　請求項２に記載の音響信号処理方法。
　前記滑らかな関数が示す値は、前記基準音である空力音の風速と、前記処理ステップで処理された後の前記音データが示す空力音の風速との比率を示す情報である
　請求項３に記載の音響信号処理方法。
　前記処理ステップでは、前記滑らかな関数を特定するパラメータが不規則に変化するように前記滑らかな関数を決定する、
　請求項４に記載の音響信号処理方法。
　前記処理ステップでは、前記波形の周波数成分を、決定された前記滑らかな関数が示す値に比例した周波数にシフトさせるように前記音データを処理する、
　請求項３に記載の音響信号処理方法。
　前記処理ステップでは、前記波形の振幅値を、決定された前記滑らかな関数が示す値のα乗に比例して変化させるように前記音データを処理する、
　請求項３に記載の音響信号処理方法。
　前記処理ステップでは、取得された前記音データを所定時間の処理フレームに分割し、分割した前記処理フレームごとに、前記音データを処理する、
　請求項４に記載の音響信号処理方法。
　前記処理ステップでは、分割した前記処理フレームごとに、前記処理フレームの最初の時刻及び最後の時刻において、前記滑らかな関数の値が１．０になるように、前記滑らかな関数を決定する、
　請求項８に記載の音響信号処理方法。
　前記処理ステップでは、前記滑らかな関数を特定するパラメータを、分割した前記処理フレームごとに決定する、
　請求項９記載の音響信号処理方法。
　前記パラメータは、前記最初の時刻から前記最後の時刻までの時間である、
　請求項１０に記載の音響信号処理方法。
　前記パラメータは、前記滑らかな関数の最大値に係る値である、
　請求項１０に記載の音響信号処理方法。
　前記パラメータは、前記滑らかな関数が最大値に達する位置を変動させるパラメータである、
　請求項１０に記載の音響信号処理方法。
　パラメータは、前記滑らかな関数の変動の急峻さを変動させるパラメータである、
　請求項１０に記載の音響信号処理方法。
　前記処理ステップでは、
　　前記滑らかな関数を特定する第１パラメータ及び第２パラメータを決定し、
　　決定された前記第１パラメータによって特定される前記滑らかな関数に基づいて、前記波形の周波数成分、位相及び振幅値のうち前記少なくとも一つを変化させるように取得された前記音データを処理し、
　　決定された前記第２パラメータによって特定される前記滑らかな関数に基づいて、前記波形の周波数成分、位相及び振幅値のうち前記少なくとも一つを変化させるように取得された前記音データを処理し、
　前記出力ステップでは、
　　決定された前記第１パラメータによって特定される前記滑らかな関数に基づいて処理された前記音データを、第１出力チャンネルに出力し、
　　決定された前記第２パラメータによって特定される前記滑らかな関数に基づいて処理された前記音データを、第２出力チャンネルに出力する、
　請求項１０に記載の音響信号処理方法。
　前記空力音は、前記風が物体と衝突することによって発生する音であり、
　前記処理ステップでは、前記風の風速の性質を模擬して前記パラメータを決定する、
　請求項１０に記載の音響信号処理方法。
　前記空力音は、前記風が、前記空力音を受聴する受聴者の耳と衝突することによって発生する音であり、
　前記処理ステップでは、前記風の風向の性質を模擬して前記パラメータを決定する、
　請求項１０に記載の音響信号処理方法。
　前記滑らかな関数の最大値は、３を超えない、
　請求項８に記載の音響信号処理方法。
　前記滑らかな関数の最小値は、０を下回らない、
　請求項８に記載の音響信号処理方法。
　前記風の前記風速であるＶａと前記風の瞬間風速であるＶｐとを指定する指示を受付ける受付ステップを含み、
　前記処理ステップでは、前記滑らかな関数の最大値がＶｐ／Ｖａとなるように前記滑らかな関数を決定する、
　請求項８に記載の音響信号処理方法。
　前記所定時間の平均値は、３秒である、
　請求項８に記載の音響信号処理方法。
　前記物体は、耳を模した形状を有する物体である、
　請求項１６に記載の音響信号処理方法。
　請求項１～２２のいずれか１項に記載の音響信号処理方法をコンピュータに実行させるためのコンピュータプログラム。
　基準音の波形を示す音データを取得する取得部と、
　自然現象の変動が模擬された模擬情報に基づいて、前記波形の周波数成分、位相及び振幅値のうち少なくとも一つを変化させるように前記音データを処理する処理部と、
　処理された前記音データを出力する出力部と、
　を備える、
　音響信号処理装置。