WO2022038931A1

WO2022038931A1 - 情報処理方法、プログラム、及び、音響再生装置

Info

Publication number: WO2022038931A1
Application number: PCT/JP2021/026589
Authority: WO
Inventors: 耕水野; 智一石川; 成悟榎本
Original assignee: パナソニックインテレクチュアルプロパティコーポレーションオブアメリカ
Priority date: 2020-08-20
Filing date: 2021-07-15
Publication date: 2022-02-24
Also published as: JPWO2022038931A1; US20230199428A1; EP4203521A4; CN116018637A; EP4203521A1

Abstract

情報処理方法は、所定音の種別及び外部音の種別が一致しているか否かを判定する第１判定ステップと、所定音の到来方向と分析された外部音の到来方向とを比較することで、所定音の到来方向及び外部音の到来方向が重複するか否かを判定する第２判定ステップと、第１判定ステップ及び第２判定ステップの判定結果に基づいて、（ａ）所定音及び外部音の少なくとも一方の音圧を調整すること、及び、（ｂ）所定音の到来方向を調整することの少なくとも一方を行う調整ステップと、を含む。

Description

情報処理方法、プログラム、及び、音響再生装置

　本開示は、音響再生装置、ならびに、当該音響再生装置に係る情報処理方法及びプログラムに関する。

　従来、仮想的な三次元空間内で、感覚上の音源オブジェクトである音像の位置を制御することにより、立体的な音をユーザに知覚させるための音響再生に関する技術が知られている（例えば、特許文献１参照）。

特開２０２０－１８６２０号公報

　一方で、音を三次元音場内の立体的な音としてユーザに知覚させる際に、ユーザによって知覚されにくい音が発生する場合がある。従来の音響再生装置などにおける情報処理方法では、このような知覚されにくい音に対して、適切な処理がなされていない場合があった。

　上記に鑑みて、本開示は、より適切に立体的な音をユーザに知覚させる情報処理方法等を提供することを目的とする。

　本開示の一態様に係る情報処理方法は、所定音に関する情報及び所定方向に関する情報を含む音情報から、前記所定方向に対応する三次元音場上の到来方向から到来する音として前記所定音をユーザに知覚させるための出力音信号を生成する情報処理方法であって、前記所定音の種別を分析する第１分析ステップと、外部からの音として前記ユーザに聴取される外部音の種別を分析する第２分析ステップと、前記外部音の到来方向を分析する第３分析ステップと、分析された前記所定音の種別と分析された前記外部音の種別とを比較することで、前記所定音の種別及び前記外部音の種別が一致しているか否かを判定する第１判定ステップと、前記所定音の到来方向と分析された前記外部音の到来方向とを比較することで、前記所定音の到来方向及び前記外部音の到来方向が重複するか否かを判定する第２判定ステップと、前記第１判定ステップ及び前記第２判定ステップの判定結果に基づいて、（ａ）前記所定音及び前記外部音の少なくとも一方の音圧を調整すること、及び、（ｂ）前記所定音の到来方向を調整することの少なくとも一方を行う調整ステップと、を含む。

　また、本開示の一態様に係る音響再生装置は、所定音に関する情報及び所定方向に関する情報を含む音情報から、前記所定方向に対応する三次元音場上の到来方向から到来する音として前記所定音をユーザに知覚させるための出力音信号を生成して再生する音響再生装置であって、前記音情報を取得する取得部と、前記所定音の種別を分析する第１分析部と、外部からの音として前記ユーザに聴取される外部音の種別を分析する第２分析部と、前記外部音の到来方向を分析する第３分析部と、分析された前記所定音の種別と分析された前記外部音の種別とを比較することで、前記所定音の種別及び前記外部音の種別が一致しているか否かを判定する第１判定部と、前記所定音の到来方向と分析された前記外部音の到来方向とを比較することで、前記所定音の到来方向及び前記外部音の到来方向が重複するか否かを判定する第２判定部と、前記第１判定ステップ及び前記第２判定ステップの判定結果に基づいて、（ａ）前記所定音及び前記外部音の少なくとも一方の音圧を調整すること、及び、（ｂ）前記所定音の到来方向を調整することの少なくとも一方を行う調整部と、調整によって生成された前記出力音信号により音を出力する出力部と、を備える。

　また、本開示の一態様は、上記に記載の音響再生方法をコンピュータに実行させるためのプログラムとして実現することもできる。

　なお、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なＣＤ－ＲＯＭなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。

　本開示によれば、より適切に立体的な音をユーザに知覚させることが可能となる。

図１は、実施の形態に係る音響再生装置の使用事例を示す概略図である。図２は、実施の形態に係る音響再生装置の機能構成を示すブロック図である。図３は、実施の形態に係る取得部の機能構成を示すブロック図である。図４は、実施の形態に係るフィルタ選択部の機能構成を示すブロック図である。図５は、実施の形態に係る出力音生成部の機能構成を示すブロック図である。図６は、実施の形態に係る音響再生装置の動作を示すフローチャートである。図７は、実施の形態に係る第１分析部及び第２分析部の動作を示すフローチャートである。図８は、実施の形態に係る、選択された立体音響フィルタによる所定音の到来方向を説明する第１図である。図９は、実施の形態に係る、選択された立体音響フィルタによる所定音の到来方向を説明する第２図である。図１０は、実施の形態に係る、選択された立体音響フィルタによる所定音の到来方向を説明する第３図である。

　（開示の基礎となった知見）
　従来、仮想的な三次元空間内（以下、三次元音場という場合がある）で、ユーザの感覚上の音源オブジェクトである音像の位置を制御することにより、立体的な音をユーザに知覚させるための音響再生に関する技術が知られている（例えば、特許文献１参照）。仮想的な三次元空間内における所定位置に音像を定位させることで、ユーザは、当該所定位置とユーザとを結ぶ直線に平行な方向（すなわち所定方向）から到来する音であるかのごとく、この音を知覚することができる。このように仮想的な三次元空間内の所定位置に音像を定位させるには、例えば、収音された音に対して、立体的な音として知覚されるような両耳間での音の到来時間差、及び、両耳間での音のレベル差（又は音圧差）などを生じさせる計算処理が必要となる。

　このような計算処理の一例として、所定方向から到来する音として知覚させるための頭部伝達関数を目的の音の信号に対して畳み込む処理が知られている。この頭部伝達関数の畳み込みの処理を、より高解像度に実施することで、ユーザが体感する臨場感が向上される。一方で、このような音の聴取環境において、外部から到来してユーザ９９に聴取される外部音が重複することによって音が聞き取りにくくなる現象が知られている。特に、再生される所定音と、同じ種別かつ同じ方向から到来する外部音が存在する状況では、所定音及び外部音のいずれも識別することが困難になる場合がある。

　また、近年、仮想現実（VR：Virtual Reality）に関する技術の開発が盛んに行われている。仮想現実では、ユーザの動きに対して仮想的な三次元空間の位置が追従せず、あたかもユーザが仮想空間内を移動しているように体感できることが主眼に置かれている。特に、この仮想現実の技術において視覚的な要素に聴覚的な要素を取り入れることで、より臨場感を高めるといった試みが行われている。例えば、ユーザの正面に音像が定位しているときに、ユーザが右を向くと当該音像がユーザの左方向に移動し、ユーザが左を向くと当該音像がユーザの右方向に移動する。このように、ユーザの動きに対して、仮想空間内の音像の定位位置をユーザの動きとは逆方向に移動させる必要が生じる。このような処理は、元の音情報に対して立体音響フィルタを適用することで行われる。

　本開示では、上記に鑑みて、三次元音場内の所定方向からの音としてユーザに知覚させるための立体音響フィルタを利用しながら、再生される所定音及び外部から到来する外部音が重複する場合の識別性を改善するというより適切な計算処理を実施する。本開示では、この適切な計算処理により立体的な音をユーザに知覚させる情報処理方法等を提供することを目的とする。

　より具体的には、本開示の一態様に係る情報処理方法は、所定音に関する情報及び所定方向に関する情報を含む音情報から、所定方向に対応する三次元音場上の到来方向から到来する音として所定音をユーザに知覚させるための出力音信号を生成する情報処理方法であって、所定音の種別を分析する第１分析ステップと、外部からの音としてユーザに聴取される外部音の種別を分析する第２分析ステップと、外部音の到来方向を分析する第３分析ステップと、分析された所定音の種別と分析された外部音の種別とを比較することで、所定音の種別及び外部音の種別が一致しているか否かを判定する第１判定ステップと、所定音の到来方向と分析された外部音の到来方向とを比較することで、所定音の到来方向及び外部音の到来方向が重複するか否かを判定する第２判定ステップと、第１判定ステップ及び第２判定ステップの判定結果に基づいて、（ａ）所定音及び外部音の少なくとも一方の音圧を調整すること、及び、（ｂ）所定音の到来方向を調整することの少なくとも一方を行う調整ステップと、を含む。

　このような情報処理方法によれば、外部音と所定音との到来方向が重複すること、及び、外部音と所定音の種別が一致することの少なくとも一方により、外部音と所定音とが互いに影響しあい、このいずれもユーザによって聴取することが困難となる場合に、（ａ）及び（ｂ）の少なくとも一方の調整を行うことで、外部音と所定音との少なくともいずれかの聴取を容易にさせ、より適切に立体的な音をユーザに知覚させることができる。

　また、例えば、調整ステップでは、第１判定ステップでの判定において、所定音の種別及び外部音の種別が一致していると判定され、かつ、第２判定ステップでの判定において、所定音の到来方向及び外部音の到来方向が重複すると判定された場合に、（ａ）及び（ｂ）の少なくとも一方を行ってもよい。

　これによれば、外部音と所定音との到来方向が重複し、外部音と所定音の種別が一致することにより、外部音と所定音とが互いに影響しあい、このいずれもユーザによって聴取することが困難となる場合に、（ａ）及び（ｂ）の少なくとも一方の調整を行うことで、外部音と所定音との少なくともいずれかの聴取を容易にさせ、より適切に立体的な音をユーザに知覚させることができる。

　また、例えば、調整ステップでは、（ａ）として、外部音と逆位相の重畳音を生成して重畳することにより、外部音の音圧を減衰してもよい。

　これによれば、重畳音を外部音と重畳してユーザに聴取させることで、外部音の音圧を減衰させて、より適切に所定音をユーザに知覚させることができる。

　また、例えば、調整ステップでは、（ｂ）として、所定音の到来方向を外部音の到来方向から遠くなる方向にあらかじめ設定された角度だけ変動させてもよい。

　これによれば、所定音の到来方向及び外部音の到来方向が重複しないようにして、外部音と所定音との少なくともいずれかの聴取を容易にさせ、より適切に立体的な音をユーザに知覚させることができる。

　また、例えば、調整ステップでは、（ｂ）として、所定音の到来方向を外部音の到来方向から遠くなる方向にあらかじめ設定された角度だけ変動させるように、所定方向に関する情報を補正してもよい。

　これによれば、所定音の到来方向及び外部音の到来方向が重複しないようにして、外部音と所定音との少なくともいずれかの聴取を容易にさせ、より適切に立体的な音をユーザに知覚させることができる。このために、音情報に含まれる所定方向に関する情報を補正することで、その後に選択される立体音響フィルタを、所定音の到来方向及び外部音の到来方向が重複しないようするための立体音響フィルタにさせることができる。この結果、外部音と所定音との少なくともいずれかの聴取を容易にさせ、より適切に立体的な音をユーザに知覚させることができる。

　また、例えば、所定音の種別の分析及び外部音の種別の分析では、分析対象の音を時間領域における単位時間ごとに分割し、分割後の音を機械学習モデルに入力することで、あらかじめ設定された複数種別のそれぞれに対する尤度を算出し、入力された音の種別が、算出された尤度が最も高い種別に相当することを示す分析結果を出力してもよい。

　これによれば、機械学習モデルを用いて、分析対象の音をあらかじめ設定された複数種別の中で最も尤度の高い種別に相当することを分析結果として出力することができる。

　また、例えば、所定音の種別及び外部音の種別は、音声及び音声以外の２つからなってもよい。

　これによれば、外部音と所定音との種別が音声及び音声以外の２つのどちらかであるかに基づいて、外部音と所定音の種別が一致するか否かを判定できる。

　また、例えば、所定音の到来方向及び外部音の到来方向が重複するか否かの判定は、所定音の到来方向と外部音の到来方向との角度差が閾値よりも小さいか否かによって行われ、ユーザの頭部を前後に分ける仮想的な境界面に対して、所定音の到来方向及び外部音の到来方向が境界面の後面側にある場合の閾値である第１閾値は、所定音の到来方向及び外部音の到来方向が境界面の前面側にある場合の閾値である第２閾値よりも大きくてもよい。

　これによれば、到来方向の最小弁別角度が大きいことで到来方向が重複していると知覚しやすい境界面の後面側において、境界面の前面側よりも拡大された基準で外部音と所定音との到来方向が重複するか否かを判定することができる。

　また、本開示の一態様に係るプログラムは、上記に記載の情報処理方法をコンピュータに実行させるためのプログラムである。

　これによれば、コンピュータを用いて上記に記載の情報処理方法と同様の効果を奏することができる。

　また、本開示の一態様に係る音響再生装置は、所定音に関する情報及び所定方向に関する情報を含む音情報から、所定方向に対応する三次元音場上の到来方向から到来する音として所定音をユーザに知覚させるための出力音信号を生成して再生する音響再生装置であって、音情報を取得する取得部と、所定音の種別を分析する第１分析部と、外部からの音としてユーザに聴取される外部音の種別を分析する第２分析部と、外部音の到来方向を分析する第３分析部と、分析された所定音の種別と分析された外部音の種別とを比較することで、所定音の種別及び外部音の種別が一致しているか否かを判定する第１判定部と、所定音の到来方向と分析された外部音の到来方向とを比較することで、所定音の到来方向及び外部音の到来方向が重複するか否かを判定する第２判定部と、第１判定ステップ及び第２判定ステップの判定結果に基づいて、（ａ）所定音及び外部音の少なくとも一方の音圧を調整すること、及び、（ｂ）所定音の到来方向を調整することの少なくとも一方を行う調整部と、調整によって生成された出力音信号により音を出力する出力部と、を備える。

　これによれば、上記に記載の情報処理方法と同様の効果を奏することができる。

　さらに、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なＣＤ－ＲＯＭなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。

　以下、実施の形態について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。なお、各図は模式図であり、必ずしも厳密に図示されたものではない。また、各図において、実質的に同一の構成に対しては同一の符号を付し、重複する説明は省略又は簡略化される場合がある。

　また、以下の説明において、第１、第２及び第３等の序数が要素に付けられている場合がある。これらの序数は、要素を識別するため、要素に付けられており、意味のある順序に必ずしも対応しない。これらの序数は、適宜、入れ替えられてもよいし、新たに付与されてもよいし、取り除かれてもよい。

　（実施の形態）
　［概要］
　はじめに、実施の形態に係る音響再生装置の概要について説明する。図１は、実施の形態に係る音響再生装置の使用事例を示す概略図である。図１では、音響再生装置１００を使用するユーザ９９が示されている。

　図１に示す音響再生装置１００は、立体映像再生装置２００と同時に使用されている。立体的な画像及び立体的な音を同時に視聴することで、画像が聴覚的な臨場感を、音が視覚的な臨場感をそれぞれ高め合い、画像及び音が撮られた現場に居るかのように体感することができる。例えば、人が会話をする画像（動画像）が表示されている場合に、会話音の音像の定位が当該人の口元とずれている場合にも、ユーザ９９が、当該人の口から発せられた会話音として知覚することが知られている。このように視覚情報によって、音像の位置が補正されるなど、画像と音とが併せられることで臨場感が高められることがある。

　立体映像再生装置２００は、ユーザ９９の頭部に装着される画像表示デバイスである。したがって、立体映像再生装置２００は、ユーザ９９の頭部と一体的に移動する。例えば、立体映像再生装置２００は、図示するように、ユーザ９９の耳と鼻とで支持するメガネ型のデバイスである。

　立体映像再生装置２００は、ユーザ９９の頭部の動きに応じて表示する画像を変化させることで、ユーザ９９が三次元画像空間内で頭部を動かしているように知覚させる。つまり、ユーザ９９の正面に三次元画像空間内の物体が位置しているときに、ユーザ９９が右を向くと当該物体がユーザ９９の左方向に移動し、ユーザ９９が左を向くと当該物体がユーザの右方向に移動する。このように、立体映像再生装置２００は、ユーザ９９の動きに対して、三次元画像空間をユーザ９９の動きとは逆方向に移動させる。

　立体映像再生装置２００は、ユーザ９９の左右の目それぞれに視差分のずれが生じた２つの画像を表示する。ユーザ９９は、表示される画像の視差分のずれに基づき、画像上の物体の三次元的な位置を知覚することができる。なお、音響再生装置１００を睡眠誘導用のヒーリング音の再生に使用する等、ユーザ９９が目を閉じて使用する場合等には、立体映像再生装置２００が同時に使用される必要はない。つまり、立体映像再生装置２００は、本開示の必須の構成要素ではない。

　音響再生装置１００は、ユーザ９９の頭部に装着される音提示デバイスである。したがって、音響再生装置１００は、ユーザ９９の頭部と一体的に移動する。例えば、本実施の形態における音響再生装置１００は、いわゆるオーバーイヤーヘッドホン型のデバイスである。なお、音響再生装置１００の形態に特に限定はなく、例えば、ユーザ９９の左右の耳にそれぞれ独立して装着される２つの耳栓型のデバイスであってもよい。この２つのデバイスは、互いに通信することで、右耳用の音と左耳用の音とを同期して提示する。

　音響再生装置１００は、ユーザ９９の頭部の動きに応じて提示する音を変化させることで、ユーザ９９が三次元音場内で頭部を動かしているようにユーザ９９に知覚させる。このため、上記したように、音響再生装置１００は、ユーザ９９の動きに対して三次元音場をユーザの動きとは逆方向に移動させる。

　ここで、ユーザに提示される音像と外部から到来し、ユーザに聴取される外部音とが重複すると、ユーザ９９は、これらの音をいずれも識別することが難しくなることが知られている。本実施の形態に係る音響再生装置１００は、この現象を回避するように情報処理によって提示される音を補正することで音像及び外部音の少なくとも一方をユーザ９９に知覚させることができる。すなわち、音響再生装置１００は、音像と、外部音との重複を検知してこれを解消するように動作することで、音像及び外部音の少なくとも一方をユーザ９９に知覚させる。

　［構成］
　次に、図２を参照して、本実施の形態に係る音響再生装置１００の構成について説明する。図２は、実施の形態に係る音響再生装置の機能構成を示すブロック図である。

　図２に示すように、本実施の形態に係る音響再生装置１００は、処理モジュール１０１と、通信モジュール１０２と、検知器１０３と、ドライバ１０４と、を備える。

　処理モジュール１０１は、音響再生装置１００における各種の信号処理を行うための演算装置である、処理モジュール１０１は、例えば、プロセッサとメモリとを備え、メモリに記憶されたプログラムがプロセッサによって実行されることで、各種の機能を発揮する。

　処理モジュール１０１は、取得部１１１、フィルタ選択部１２１、出力音生成部１３１、及び、信号出力部１４１を有する。処理モジュール１０１が有する各機能部の詳細は、処理モジュール１０１以外の構成の詳細と併せて以下に説明する。

　通信モジュール１０２は、音響再生装置１００への音情報の入力を受け付けるためのインタフェース装置である。通信モジュール１０２は、例えば、アンテナと信号変換器とを備え、無線通信により外部の装置から音情報を受信する。より詳しくは、通信モジュール１０２は、無線通信のための形式に変換された音情報を示す無線信号を、アンテナを用いて受波し、信号変換器により無線信号から音情報への再変換を行う。これにより、音響再生装置１００は、外部の装置から無線通信により音情報を取得する。通信モジュール１０２によって取得された音情報は、取得部１１１によって取得される。このようにして音情報は、処理モジュール１０１に入力される。なお、音響再生装置１００と外部の装置との通信は、有線通信によって行われてもよい。

　音響再生装置１００が取得する音情報は、例えば、ＭＰＥＧ－Ｈ　３Ｄ　Ａｕｄｉｏ（ＩＳＯ／ＩＥＣ　２３００８－３）等の所定の形式で符号化されている。一例として、符号化された音情報には、音響再生装置１００によって再生される所定音についての情報と、当該音の音像を三次元音場内において所定位置に定位させる（つまり所定方向から到来する音として知覚させる）際の定位位置に関する情報、すなわち所定方向に関する情報とが含まれる。例えば、音情報には第１の所定音及び第２の所定音を含む複数の音に関する情報が含まれ、それぞれの音が再生された際の音像を三次元音場内における異なる方向から到来する音として知覚させるように音像を定位させる。

　この立体的な音によって、例えば、立体映像再生装置２００を用いて視認される画像と併せて、視聴されるコンテンツなどの臨場感を向上することができる。なお、音情報には、所定音についての情報のみが含まれていてもよい。この場合、所定方向に関する情報を別途取得してもよい。また、上記したように、音情報は、第１の所定音に関する第１音情報、及び、第２の所定音に関する第２音情報を含むが、これらを別個に含む複数の音情報をそれぞれ取得し、同時に再生することで三次元音場内における異なる位置に音像を定位させてもよい。このように、入力される音情報の形態に特に限定はなく、音響再生装置１００に各種の形態の音情報に応じた取得部１１１が備えられればよい。

　ここで、取得部１１１の一例を、図３を用いて説明する。図３は、実施の形態に係る取得部の機能構成を示すブロック図である。図３に示すように、本実施の形態における取得部１１１は、例えば、エンコード音情報入力部１１２、デコード処理部１１３、及び、センシング情報入力部１１４を備える。

　エンコード音情報入力部１１２は、取得部１１１が取得した、符号化された（言い換えるとエンコードされている）音情報が入力される処理部である。エンコード音情報入力部１１２は、入力された音情報をデコード処理部１１３へと出力する。デコード処理部１１３は、エンコード音情報入力部１１２から出力された音情報を復号する（言い換えるとデコードする）ことにより音情報に含まれる所定音に関する情報と、所定方向に関する情報とを、以降の処理に用いられる形式で生成する処理部である。センシング情報入力部１１４については、検知器１０３の機能とともに、以下に説明する。

　検知器１０３は、ユーザ９９の頭部の動き速度を検知するための装置である。検知器１０３は、ジャイロセンサ、加速度センサなど動きの検知に使用される各種のセンサを組み合わせて構成される。本実施の形態では、検知器１０３は、音響再生装置１００に内蔵されているが、例えば、音響再生装置１００と同様にユーザ９９の頭部の動きに応じて動作する立体映像再生装置２００等、外部の装置に内蔵されていてもよい。この場合、検知器１０３は、音響再生装置１００に含まれなくてもよい。また、検知器１０３として、外部の撮像装置などを用いて、ユーザ９９の頭部の動きを撮像し、撮像された画像を処理することでユーザ９９の動きを検知してもよい。

　検知器１０３は、例えば、音響再生装置１００の筐体に一体的に固定され、筐体の動きの速度を検知する。上記の筐体を含む音響再生装置１００は、ユーザ９９が装着した後、ユーザ９９の頭部と一体的に移動するため、検知器１０３は、結果としてユーザ９９の頭部の動きの速度を検知することができる。

　検知器１０３は、例えば、ユーザ９９の頭部の動きの量として、三次元空間内で互いに直交する３軸の少なくとも一つを回転軸とする回転量を検知してもよいし、上記３軸の少なくとも一つを変位方向とする変位量を検知してもよい。また、検知器１０３は、ユーザ９９の頭部の動きの量として、回転量及び変位量の両方を検知してもよい。

　センシング情報入力部１１４は、検知器１０３からユーザ９９の頭部の動き速度を取得する。より具体的には、センシング情報入力部１１４は、単位時間あたりに検知器１０３が検知したユーザ９９の頭部の動きの量を動きの速度として取得する。このようにしてセンシング情報入力部１１４は、検知器１０３から回転速度及び変位速度の少なくとも一方を取得する。ここで取得されるユーザ９９の頭部の動きの量は、三次元音場内のユーザ９９の座標及び向きを決定するために用いられる。音響再生装置１００では、決定されたユーザ９９の座標及び向きに基づいて、音像の相対的な位置を決定して音が再生される。具体的には、フィルタ選択部１２１、及び、出力音生成部１３１によって、上記の機能が実現されている。

　フィルタ選択部１２１は、決定されたユーザ９９の座標及び向きに基づいて、所定音について、三次元音場内のいずれの方向から到来する音としてユーザ９９に知覚させるかを決定し、所定音に対して適用される立体音響フィルタを選択する処理部である。立体音響フィルタは、入力された所定音に特定の頭部伝達関数を畳み込むことにより、当該特定の頭部伝達関数に基づく所定方向から到来する音として、上記の所定音をユーザ９９に知覚させる関数フィルタである。言い換えると、立体音響フィルタに所定音（又は、所定音に関する情報）が入力されることにより、所定音の左右の音信号に音圧差、時間差、及び、位相差などを発生させ、到来方向が制御された所定音を再生できる音信号を出力することができる。

　選択の候補となる複数の立体音響フィルタは、例えば、ユーザ９９ごとに調整されてあらかじめ準備されている。この複数の立体音響フィルタは、それぞれ到来方向ごとに計算して生成されており、複数の立体音響フィルタを記憶するための記憶装置（不図示）等に記憶されている。

　ここで、フィルタ選択部１２１の一例を、図４を用いて説明する。図４は、実施の形態に係るフィルタ選択部の機能構成を示すブロック図である。図４に示すように、本実施の形態におけるフィルタ選択部１２１は、例えば、第１分析部１２２、第２分析部１２３、第３分析部１２４、第１判定部１２５、第２判定部１２６、及び、調整部１２７を備える。

　第１分析部１２２は、音情報に含まれる所定音の種別を分析する処理部である。第１分析部１２２は、分析結果として、所定音があらかじめ設定された複数の種別うちのいずれに該当するかの情報を出力する。

　なお、所定音の種別とは、例えば、ヒトの声である音声か否か、すなわち、音声及び音声以外の２つの種別からなってもよいし、音の発生源等から周波数特性で分類される第１種別、第２種別・・・などの特定の対象物を必要としない種別であってもよい。また、種別の数に特に限定はなく、音情報に含まれる所定音、及び、音響再生装置１００を使用する環境から想定される外部音の種別によって、その数が設定されてもよい。この所定音の種別に関する記述は、外部音の種別についても同様に適用される。

　第２分析部１２３は、音響再生装置１００の外部から到来し、ユーザ９９によって聴取される外部音の種別を分析する処理部である。第２分析部１２３は、分析結果として、所定音があらかじめ設定された複数の種別うちのいずれに該当するかの情報を出力する。また、第２分析部１２３による外部音の種別の分析結果は、上記の所定音の種別との比較に用いられる。したがって、外部音としては、所定音と重複したときに所定音及び外部音の少なくとも一方の聴取が困難になることが想定される音が用いられ、その他は削除されてもよい。例えば、所定音の音圧は、あらかじめ音情報と、ユーザ９９による音響再生装置１００の設定音量とによって決められている。したがって、再生されている所定音と十分に干渉しうる音圧範囲内であるかによって外部音として用いるか否かの閾値が設けられていてもよい。

　第１分析部１２２による所定音の種別の分析の説明と、第２分析部１２３による外部音の種別の分析の説明とは、図７を用いてさらに後述する。

　第３分析部１２４は、外部音の到来方向を分析する処理部である。第３分析部１２４は、２以上の収音装置のそれぞれにおいて収音された外部音をそれぞれの外部音情報として取得し、これらの２以上の収音装置間で外部音情報による外部音と同じ１つの外部音を特定し、その到来時間差、音圧差、位相差等によって当該外部音の到来方向を計算によって分析する。第３分析部１２４は、分析結果として、外部音がユーザ９９に対してどの方向から到来したかの情報を出力する。

　第１判定部１２５は、所定音の種別及び外部音の種別が一致しているか否かを判定する処理部である。このため、第１判定部１２５は、第１分析部１２２及び第２分析部１２３の分析結果を取得する。これらの分析結果に基づいて、第１判定部１２５は、所定音と外部音との到来方向が一致しているか否かを判定する。第１判定部１２５は、判定結果として、所定音の種別と外部音の種別とが一致しているか否かを示す情報を出力する。なお、所定音及び外部音がそれぞれ複数存在する場合、第１判定部１２５は、全ての組み合わせの所定音と外部音とについて判定を行ってもよいし、ユーザ９９から見た所定範囲内だけで全ての組み合わせの所定音と外部音とについて判定を行ってもよい。

　第２判定部１２６は、所定音の到来方向と、第３分析部１２４の分析結果による外部音の到来方向とが重複するか否かを判定する処理部である。第２判定部１２６は、音情報に含まれる所定方向と、ユーザ９９の座標及び向きとに基づいて所定音の到来方向を計算し、計算後の所定音の到来方向と外部音の到来方向とを比較することでこれらが重複しているか否かを判定する。第２判定部１２６の判定においては、所定音の到来方向と外部音の到来方向とは、完全に一致している必要はない。例えば、所定音の到来方向と外部音の到来方向とが、ある角度範囲内であれば、互いに干渉してユーザ９９による識別を困難にさせることがわかる場合、このような角度範囲の閾値が設けられてもよい。この閾値は、所定音の音圧、外部音の音圧、ユーザ９９の最小弁別角度などが影響するため、ユーザ９９ごとに設定されてもよいし、複数のユーザ９９において平均的に定められた５度、１０度、１５度、２０度等の固定値として設定されてもよい。

　調整部１２７は、第１判定部１２５の判定結果及び第２判定部１２６の判定結果に基づいて、所定音及び外部音の少なくとも一方の識別性を向上させるための調整をして、立体音響フィルタを選択する処理部である。調整部１２７が所定音及び外部音のいずれの音の識別性を向上させるかについては、ユーザ９９があらかじめ設定しておくことができる。調整部１２７は、この設定値を読み込み、設定値に従って、所定音及び外部音の少なくとも一方の識別性を向上させるための調整を実行する。調整部１２７による調整については、音響再生装置１００の動作とともに後述する。

　調整部１２７による音の調整は、立体音響フィルタをもとの音情報上の所定方向に基づく立体音響フィルタから調整を実現するための音の到来方向の立体音響フィルタへの変更によって行われる。つまり、調整部１２７による音の調整は、変更後の立体音響フィルタの決定とみなすこともできる。この結果、フィルタ選択部１２１からは初期値としての立体音響フィルタを変更した、変更後の立体音響フィルタが選択されて出力される。このときの出力音信号における音の到来方向は、音情報上の所定方向と異なる方向である。

　なお、上記のような立体音響フィルタの初期値を設定することなく、直接的に立体音響フィルタを決定してもよい。つまり、立体音響フィルタの変更とは、説明のために便宜的に用いられる表現であり、初期値を用いることなく直接的に立体音響フィルタを選択して出力することも本開示に含まれる。

　出力音生成部１３１は、フィルタ選択部１２１において選択された立体音響フィルタを用いて、音情報に含まれる所定音に関する情報を当該選択された立体音響フィルタに入力することで、出力音信号を生成する処理部である。

　ここで、出力音生成部１３１の一例を、図５を用いて説明する。図５は、実施の形態に係る出力音生成部の機能構成を示すブロック図である。図５に示すように、本実施の形態における出力音生成部１３１は、例えば、フィルタ処理部１３２を備える。フィルタ処理部１３２は、フィルタ選択部１２１が連続的に選択するフィルタを逐次読み込み、時間軸上の対応する所定音に関する情報を入力することで、三次元音場上で所定音が到来する到来方向が制御された音信号を連続的に出力する。このようにして、時間軸上で処理単位の時間ごとに区切られた音情報が、時間軸上で連続的な音信号（出力音信号）として出力される。

　信号出力部１４１は、生成された出力音信号をドライバ１０４へと出力する機能部である。信号出力部１４１は、出力音信号に基づいてデジタル信号からアナログ信号への信号変換などを行うことで、波形信号を生成し、波形信号に基づいてドライバ１０４に音波を発生させ、ユーザ９９に音を提示する。ドライバ１０４は、例えば、振動板とマグネット及びボイスコイルなどの駆動機構とを有する。ドライバ１０４は、波形信号に応じて駆動機構を動作させ、駆動機構によって振動板を振動させる。このようにして、ドライバ１０４は、出力音信号に応じた振動板の振動により、音波を発生させ、音波が空気を伝播してユーザ９９の耳に伝達し、ユーザ９９が音を知覚する。

　［動作］
　次に、図６及び図７を参照して、上記に説明した音響再生装置１００の動作について説明する。図６は、実施の形態に係る音響再生装置の動作を示すフローチャートである。また、図７は、実施の形態に係る第１分析部及び第２分析部の動作を示すフローチャートである。まず、音響再生装置１００の動作が開始されると、取得部１１１が通信モジュール１０２を介して音情報を取得する。音情報は、デコード処理部１１３によって所定音に関する情報と、所定方向に関する情報とにデコードされ、フィルタ選択が開始される。

　フィルタ選択部１２１では、初期値として、コンテンツにあらかじめ設定された到来方向となるように所定音を再生させる立体音響フィルタが記憶装置等から読み出される。

　音響再生装置１００は、所定音が到来方向から到来するように立体音響フィルタを選択しては適用して音の再生を行う。音の再生と並行するように、第１分析部１２２は、再生している所定音の種別を分析し（Ｓ１０１）分析結果を連続的に出力する。第１分析部１２２による所定音の種別の分析は、図７のようにして行われる。まず、第１分析部１２２は、所定音を所定の処理単位時間に分割し、分割データを生成する（Ｓ２０１）。次に、第１分析部１２２は、分割データを、種別に対応付けられたクラスにクラスタリングするために構築されたニューラルネットワーク等の機械学習モデルに入力して、それぞれのクラスに対する尤度を算出させる（Ｓ２０２）。この結果、第１分析部１２２は、入力した分割データが、最も尤度が高いクラスに対応する種別であるとして、当該最も尤度が高い種別に相当することを示す分析結果を出力する（Ｓ２０３）。

　図６に戻り、外部音を収音するための収音装置は、音響再生装置１００の動作開始とともに外部音の収音を開始しており、外部音情報を逐次第２分析部１２３へと出力している。第２分析部１２３は、第１分析部１２２と同様にして、取得した外部音情報について、外部音の種別を分析し（Ｓ１０２）分析結果を連続的に出力する。

　また、第３分析部１２４は、取得した外部音情報について、外部音の到来方向を分析し分析結果を連続的に出力する。これらの第１分析部１２２、第２分析部１２３、及び、第３分析部１２４による分析は、並行して行われるので、図中のステップＳ１０１及びＳ１０２の順序が入れ替えられてもよい。

　次に、第１判定部１２５は、所定音の種別と外部音の種別とが一致しているか否かを判定する（Ｓ１０３）。所定音の種別と外部音の種別とが一致している場合（Ｓ１０３でＹｅｓ）、さらに、第２判定部１２６は、所定音の到来方向と外部音の到来方向とが重複しているか否かを判定する（Ｓ１０４）。所定音の到来方向と外部音の到来方向とが重複している場合（Ｓ１０４でＹｅｓ）、調整部１２７は、立体音響フィルタを、音の識別性が向上されるように調整する（Ｓ１０５）。例えば、調整部１２７は、所定方向と到来方向とが一致する初期値の立体音響フィルタから、所定方向と到来方向とが異なる立体音響フィルタへの変更を行うために、変更先の立体音響フィルタを決定する。一方で、所定音の種別と外部音の種別とが一致していない場合（Ｓ１０３でＮｏ）、及び、所定音の到来方向と外部音の到来方向とが重複していない場合（Ｓ１０４でＮｏ）、フィルタ選択部１２１は処理を終了し、初期値の立体音響フィルタを選択された立体音響フィルタとして出力する。

　以下、調整部１２７による立体音響フィルタの決定（言い換えると立体音響フィルタの変更）について、図８～図１０を参照して説明する。図８は、実施の形態に係る、選択された立体音響フィルタによる所定音の到来方向を説明する第１図である。また、図９は、実施の形態に係る、選択された立体音響フィルタによる所定音の到来方向を説明する第２図である。また、図１０は、実施の形態に係る、選択された立体音響フィルタによる所定音の到来方向を説明する第３図である。図８～図１０では、紙面上方向を正面とした姿勢のユーザ９９を「Ｕ」が付された円形で模式的に示しており、このユーザ９９は、紙面に垂直な方向に直立の姿勢でいる。

　さらに、図８～図１０では、所定音が定位されている位置を、黒丸印として示しており、音の種別に応じた仮想的な音の発生源のアイコンが併せて示されている。

　図７に示すように、ある時点の第１の所定音が定位されている位置は、第１位置Ｓ１である。同じ時点で、第１の外部音が第２位置Ｓ２から到来している。第１の所定音と第１の外部音とについては、同じスピーカのアイコンが付されており、同じ種別であることがわかる。したがって、第１判定部１２５による判定結果は種別の一致を示すものである。また、図中にドットハッチングを付した範囲（図中の前面側）は、第１の所定音の到来方向を中心に広がる、第１の所定音と重複する到来方向であると見なしうる範囲である。第１の外部音の到来方向は、この範囲内であることから、第１の所定音と第１の外部音とが重複していることがわかる。

　したがって、第２判定部１２６による判定結果は到来方向の重複を示すものである。この結果、図８の例では、第１の外部音の音圧を下げ、第１の所定音の識別性を向上させるように立体音響フィルタが変更されている。このために、調整部１２７は、第１の外部音の外部音情報から第１の外部音の逆位相の信号を生成してこれを重畳するように立体音響フィルタを変更している。これにより、立体音響フィルタに所定音に関する情報を入力して得られた出力音信号には、第１の外部音の逆位相の信号が付加された信号であり、到来する第１の外部音と相殺することにより第１の外部音の音圧を低下させる。

　また、図８において、ユーザ９９の左右に延びる１点鎖線は、ユーザ９９の頭部を前後に分ける仮想的な境界面を示している。この境界面は、ユーザ９９の外耳道に沿う面であってもよいし、ユーザ９９の耳殻の最後端の点を通る面であってもよいし、単にユーザ９９の頭部の重心を通る面であってもよい。このような境界面の前後において、つまり、ユーザ９９の前後で音の聞き取りやすさに差があることが知られる。したがって、境界面を境に、前面側と後面側とで、立体音響フィルタの変更の特性を異ならせることが有効である。

　図８では、上記と同じある時点の第２の所定音の定位されている位置は、第３位置Ｓ３である。同じ時点で、第２の外部音が第４位置Ｓ４から到来している。第２の所定音と第２の外部音とについては、同じスピーカのアイコンが付されており、同じ種別であることがわかる。したがって、第１判定部１２５による判定結果は種別の一致を示すものである。また、図中にドットハッチングを付した範囲（図中の後面側）は、第２の所定音の到来方向を中心に広がる、第２の所定音と重複する到来方向であると見なしうる範囲である。第２の外部音の到来方向は、この範囲内であることから、第２の所定音と第２の外部音とが重複していることがわかる。したがって、第２判定部１２６による判定結果は到来方向の重複を示すものである。この結果、図８の例では、第２の外部音の音圧を下げ、第２の所定音の識別性を向上させるように立体音響フィルタが変更されている。

　第１の所定音と第２の所定音とは、到来方向のみが異なる同じ音であり、第１の外部音と第２の外部音とは、到来方向のみが異なる同じ音であるとする。しかしながら、境界面よりも後面側における第２の所定音と第２の外部音との到来方向が重複すると見なしうる範囲は、境界面よりも前面側における第１の所定音と第１の外部音との到来方向が重複すると見なしうる範囲よりも大きく設定されている。このようにして、前面側に比べて、後面側（つまりユーザ９９の背後）から到達する音の到来方向に対する最小弁別角度の広さに対応する構成が備えられてもよい。

　また、調整部１２７による調整の別の例として、図９に示すように、第１の所定音の定位位置を第５位置Ｓ１ａとするように、到来方向を回転させる立体音響フィルタの変更を行ってもよい。ここでは、ドットハッチングを付した範囲が外部音の到来方向と重複しないようになるまで第１の外部音の到来方向から遠くなる方向に第１の所定音の到来方向を回転変動させている。この例では、第１の所定音及び第１の外部音のいずれも識別性が向上され、ユーザ９９によって聴取可能となる。また、調整部１２７は、単に第１の所定音の音圧を低下させて、第１の外部音の識別性を向上させて、聴取可能とすることもできる。

　また図１０に示すような場合には、調整部１２７は、特に立体音響フィルタの変更を行わなくてもよい。図１０に示すように、第１の所定音に対して、第３の外部音が第６位置Ｓ５から到来し、第４の外部音が第７位置Ｓ６から到来している。図中に示すように、第１の所定音と第３の外部音とは異なるアイコンが付された、異なる種別の音であるので到来方向が重複していても識別して聴取することが可能である。また、第１の所定音と第４の所定音とは、同じスピーカのアイコンが付された同じ種別の音であるものの、到来方向が十分に異なっているので、識別して聴取することが可能である。このように、識別部１２７は、第１判定部１２５の判定結果において異なる種別であることが示されている場合、及び、第２判定部１２６の判定結果において、到来方向が重複しないことが示されている場合には、立体音響フィルタの変更を行わなくてもよい。

　ただし、音の種別が異なっていても到来方向が完全に一致している場合や、到来方向が重複していなくても、音圧によって互いに影響が及ぶ場合などには、立体音響フィルタの変更を行ってもよい。

　このようにして、本実施の形態では、所定音及び外部音の種別が一致し、所定音及び外部音の到来方向が重複しているなどによって所定音と外部音とをそれぞれ識別することが困難な場合に、（ａ）所定音及び外部音の少なくとも一方の音圧を調整すること、及び、（ｂ）所定音の到来方向を調整することの少なくとも一方を行うこれにより、所定音及び外部音の少なくとも一方の識別性を向上させて、当該識別性が向上された一方の聴取を容易にすることができるので、より適切に立体的な音をユーザ９９に知覚させることが可能となる。

　（その他の実施の形態）
　以上、実施の形態について説明したが、本開示は、上記の実施の形態に限定されるものではない。

　例えば、上記の実施の形態では、ユーザの頭部の動きに音が追従しない例を説明したが、本開示の内容は、ユーザの頭部の動きに音が追従する場合においても有効である。つまり、ユーザの頭部の動きとともに相対的に移動する第１位置から到達する音として所定音をユーザに知覚させる動作の中で、所定音と外部音との種別が一致し、到来方向が重複するなどする場合に、立体音響フィルタを変更して、少なくとも一方の識別性を向上してもよい。

　また、例えば、上記の実施の形態に説明した音響再生装置は、構成要素をすべて備える一つの装置として実現されてもよいし、複数の装置に各機能が割り振られ、この複数の装置が連携することで実現されてもよい。後者の場合には、処理モジュールに該当する装置として、スマートフォン、タブレット端末、又は、ＰＣなどの情報処理装置が用いられてもよい。

　上記実施の形態の説明と異なる構成として例えば、デコード処理部によって、元の音情報を補正することにより、変更された立体音響フィルタを選択させることもできる。具体的には、本例におけるデコード処理部は、音情報に含まれる所定方向に関する情報を生成するとともに、元の音情報の補正を行う処理部である。デコード処理部は、第１分析部、第２分析部、第３分析部、第１判定部及び第２判定部と同様の動作を行った後、必要に応じて所定音の到来方向を前記外部音の到来方向から遠くなる方向にあらかじめ設定された角度だけ変動させるように、所定方向に関する情報を補正する。これにより、デコード処理部から出力された補正後の所定方向に関する情報に基づいて、所定音が到来する到来方向を規定する立体音響フィルタが選択されるだけで、上記の実施の形態における変更後の立体音響フィルタが適用されることとなる。

　このように、本願開示の情報処理方法等を、元の音情報における所定方向に関する情報を補正することによって実現してもよい。上記のようなデコード処理部は、例えば、従来の立体音響再生装置のデコード処理を行う処理部と入れ替えて挿入するだけで、本願開示と同様の効果を奏することができる音響再生装置を実現することができる。

　また、本開示の音響再生装置は、ドライバのみを備える再生装置に接続され、当該再生装置に対して、取得した音情報に基づいて選択が行われた立体音響フィルタを用いて出力音信号を出力するのみの音響処理装置として実現することもできる。この場合、音響処理装置は、専用の回路を備えるハードウェアとして実現してもよいし、汎用のプロセッサに特定の処理を実行させるためのソフトウェアとして実現してもよい。

　また、上記の実施の形態において、特定の処理部が実行する処理を別の処理部が実行してもよい。また、複数の処理の順序が変更されてもよいし、複数の処理が並行して実行されてもよい。

　また、上記の実施の形態において、各構成要素は、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵ又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

　また、各構成要素は、ハードウェアによって実現されてもよい。例えば、各構成要素は、回路（又は集積回路）でもよい。これらの回路は、全体として１つの回路を構成してもよいし、それぞれ別々の回路でもよい。また、これらの回路は、それぞれ、汎用的な回路でもよいし、専用の回路でもよい。

　また、本開示の全般的又は具体的な態様は、装置、装置、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよい。また、本開示の全般的又は具体的な態様は、装置、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

　例えば、本開示は、コンピュータによって実行される音声信号再生方法として実現されてもよいし、音声信号再生方法コンピュータに実行させるためのプログラムとして実現されてもよい。本開示は、このようなプログラムが記録されたコンピュータ読み取り可能な非一時的な記録媒体として実現されてもよい。

　その他、各実施の形態に対して当業者が思いつく各種変形を施して得られる形態、又は、本開示の趣旨を逸脱しない範囲で各実施の形態における構成要素及び機能を任意に組み合わせることで実現される形態も本開示に含まれる。

　本開示は、立体的な音をユーザに知覚させる等の音響再生の際に有用である。

　　　９９　ユーザ
　　１００　音響再生装置
　　１０１　処理モジュール
　　１０２　通信モジュール
　　１０３　検知器
　　１０４　ドライバ
　　１１１　取得部
　　１１２　エンコード音情報入力部
　　１１３　デコード処理部
　　１１４　センシング情報入力部
　　１２１　フィルタ選択部
　　１２２　第１分析部
　　１２３　第２分析部
　　１２４　第３分析部
　　１２５　第１判定部
　　１２６　第２判定部
　　１２７　調整部
　　１３１　出力音生成部
　　１３２　フィルタ処理部
　　１４１　信号出力部
　　２００　立体映像再生装置
　　　Ｓ１　第１位置
　　　Ｓ１ａ　第５位置
　　　Ｓ２　第２位置
　　　Ｓ３　第３位置
　　　Ｓ４　第４位置
　　　Ｓ５　第６位置
　　　Ｓ６　第７位置

Claims

　所定音に関する情報及び所定方向に関する情報を含む音情報から、前記所定方向に対応する三次元音場上の到来方向から到来する音として前記所定音をユーザに知覚させるための出力音信号を生成する情報処理方法であって、
　前記所定音の種別を分析する第１分析ステップと、
　外部からの音として前記ユーザに聴取される外部音の種別を分析する第２分析ステップと、
　前記外部音の到来方向を分析する第３分析ステップと、
　分析された前記所定音の種別と分析された前記外部音の種別とを比較することで、前記所定音の種別及び前記外部音の種別が一致しているか否かを判定する第１判定ステップと、
　前記所定音の到来方向と分析された前記外部音の到来方向とを比較することで、前記所定音の到来方向及び前記外部音の到来方向が重複するか否かを判定する第２判定ステップと、
　前記第１判定ステップ及び前記第２判定ステップの判定結果に基づいて、（ａ）前記所定音及び前記外部音の少なくとも一方の音圧を調整すること、及び、（ｂ）前記所定音の到来方向を調整することの少なくとも一方を行う調整ステップと、を含む
　情報処理方法。
　前記調整ステップでは、前記第１判定ステップでの判定において、前記所定音の種別及び前記外部音の種別が一致していると判定され、かつ、前記第２判定ステップでの判定において、前記所定音の到来方向及び前記外部音の到来方向が重複すると判定された場合に、前記（ａ）及び前記（ｂ）の少なくとも一方を行う
　請求項１に記載の情報処理方法。
　前記調整ステップでは、前記（ａ）として、前記外部音と逆位相の重畳音を生成して重畳することにより、前記外部音の音圧を減衰する
　請求項１又は２に記載の情報処理方法。
　前記調整ステップでは、前記（ｂ）として、前記所定音の到来方向を前記外部音の到来方向から遠くなる方向にあらかじめ設定された角度だけ変動させる
　請求項１～３のいずれか１項に記載の情報処理方法。
　前記調整ステップでは、前記（ｂ）として、前記所定音の到来方向を前記外部音の到来方向から遠くなる方向にあらかじめ設定された角度だけ変動させるように、前記所定方向に関する情報を補正する
　請求項４に記載の情報処理方法。
　前記所定音の種別の分析及び前記外部音の種別の分析では、
　　分析対象の音を時間領域における単位時間ごとに分割し、
　　分割後の音を機械学習モデルに入力することで、あらかじめ設定された複数種別のそれぞれに対する尤度を算出し、
　　入力された音の種別が、算出された前記尤度が最も高い種別に相当することを示す分析結果を出力する
　請求項１～５のいずれか１項に記載の情報処理方法。
　前記所定音の種別及び前記外部音の種別は、音声及び音声以外の２つからなる
　請求項１～６のいずれか１項に記載の情報処理方法。
　前記所定音の到来方向及び前記外部音の到来方向が重複するか否かの判定は、前記所定音の到来方向と前記外部音の到来方向との角度差が閾値よりも小さいか否かによって行われ、
　前記ユーザの頭部を前後に分ける仮想的な境界面に対して、前記所定音の到来方向及び前記外部音の到来方向が前記境界面の後面側にある場合の前記閾値である第１閾値は、前記所定音の到来方向及び前記外部音の到来方向が前記境界面の前面側にある場合の前記閾値である第２閾値よりも大きい
　請求項１～７のいずれか１項に記載の情報処理方法。
　請求項１～８のいずれか１項に記載の情報処理方法をコンピュータに実行させるための
　プログラム。
　所定音に関する情報及び所定方向に関する情報を含む音情報から、前記所定方向に対応する三次元音場上の到来方向から到来する音として前記所定音をユーザに知覚させるための出力音信号を生成して再生する音響再生装置であって、
　前記音情報を取得する取得部と、
　前記所定音の種別を分析する第１分析部と、
　外部からの音として前記ユーザに聴取される外部音の種別を分析する第２分析部と、
　前記外部音の到来方向を分析する第３分析部と、
　分析された前記所定音の種別と分析された前記外部音の種別とを比較することで、前記所定音の種別及び前記外部音の種別が一致しているか否かを判定する第１判定部と、
　前記所定音の到来方向と分析された前記外部音の到来方向とを比較することで、前記所定音の到来方向及び前記外部音の到来方向が重複するか否かを判定する第２判定部と、
　前記第１判定ステップ及び前記第２判定ステップの判定結果に基づいて、（ａ）前記所定音及び前記外部音の少なくとも一方の音圧を調整すること、及び、（ｂ）前記所定音の到来方向を調整することの少なくとも一方を行う調整部と、
　調整によって生成された前記出力音信号により音を出力する出力部と、を備える
　音響再生装置。