JP7177631B2

JP7177631B2 - 音響シーン再構成装置、音響シーン再構成方法、およびプログラム

Info

Publication number: JP7177631B2
Application number: JP2018157166A
Authority: JP
Inventors: 一博中臺
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2018-08-24
Filing date: 2018-08-24
Publication date: 2022-11-24
Anticipated expiration: 2038-08-24
Also published as: US20200066023A1; JP2020030376A; US11373355B2

Description

本発明は、音響シーン再構成装置、音響シーン再構成方法、およびプログラムに関する。

近年、ゴーグル等を用いて利用者に、ＡＲ（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ；拡張現実）体験や、ＶＲ（ＶｉｒｔｕａｌＲｅａｌｉｔｙ；仮想現実）体験を提供する装置が開発されている。ＡＲでは、現実に見ている視覚空間にコンピュータが生成した情報を、例えばゴーグルの表示部に重ねて表示させる。ＶＲでは、コンピュータが描き出した仮想世界をゴーグルの表示部に表示させる。

特許文献１には、発話者の発話内容を、音源の位置から発話が放射される方向に表示させる技術が開示されている。この特許文献１に記載の技術によれば、視聴者が発話状況を容易に確認することができる。

また、バードウォッチ等において、各鳥の鳴き声を分離して提供することが求められている。森林等の野外でマイクロホンアレイ（以下、マイクアレイという）を用いて野鳥の鳴き声を収音し、収音した音声信号から各野鳥の鳴き声を分離する場合、認識したい対象の鳥の鳴き声に他の鳥の鳴き声や風によって発生する音など、音源同士が近い他の音が分離音に混合してしまうことがあった。これに対して、特許文献２には、音源同士が近い場合であっても、音源定位、音源分離、および音源同定を精度良く行う手法が開示されている。

また、鳥の歌のシーン分析は、エゴロジーにおける重要な研究課題である。この分野の研究者は、「いつ、どこで」、「どんな種類の鳥」などの鳥の歌に関する情報を自分で聞いて手動で記録する。このように、鳥の歌のシーン分析では、野鳥が鳴いている場所、野鳥の種類を知るには経験が必要である。この作業は難しく、記録結果には再現性の悪さや必然的な人為的ミスなどの欠陥がある可能性がある。このため、欠落している鳥の歌の抽出情報を理解できるように、鳥の歌シーン分析の結果を自動的に視覚化することが求められている。例えば実時間で、野鳥が鳴いている場所、野鳥の種類を視覚化することが求められている。また、例えばＶＲでバードウォッチを体験できるシステムが求められている。

特開２０１３－００８０３１号公報特開２０１８－０４０８４８号公報

しかしながら、従来の技術では、鳥が鳴いているシーン解析して提供できるシステムを実現できなかった。このように、従来技術では、音を解析してその音のシーンを再構築して提供できるシステムを実現できなかった。

本発明は、上記の問題点に鑑みてなされたものであって、音を解析してその音のシーンを再構築して提供できる音響シーン再構成装置、音響シーン再構成方法、およびプログラムを提供することを目的とする。

（１）上記目的を達成するため、本発明の一態様に係る音響シーン再構成装置（１）は、収音した音声信号から音源定位と音源分離を行う音源定位分離部（３０，３０Ａ，３０Ｂ，３０Ｃ，３０Ｄ）と、前記音声信号に含まれる音源の種類を識別する識別部（鳥種別識別部４０，４０Ａ，４０Ｂ，４０Ｃ，４０Ｄ）と、前記音源定位分離部が音源定位と音源分離を行った結果と、前記識別部が識別した結果とに基づいて前記音源の位置の推定を行い、前記音源の位置を推定した結果に基づいて分離音を選択し、前記音源の位置の推定した結果と前記音源による音声信号の種類とを対応付けて可視化情報を生成する解析処理部（５０）と、前記可視化情報と前記分離音とを用いて、前記音源に対応する画像を推定された前記音源の位置に表示させる画像を生成し、推定された前記音源の位置に前記分離音を再生させる音声を生成する可視化処理部（６０）と、を備える。

（２）また、本発明の一態様に係る音響シーン再構成装置において、前記音源定位分離部は、前記音源の音源方向を音源定位し、音源分離して前記分離音を分離し、音源定位した結果に基づいて定位した音源毎に前記音源の識別情報を付与し、定位した前記音源毎に識別情報を付与した音源識別情報と前記音源方向の情報と音源分離した前記分離音とを前記解析処理部に出力し、前記分離音から音響特徴量を抽出し、前記定位した音源毎に前記音源の識別情報を付与した前記音響特徴量を前記識別部に出力し、前記識別部は、前記音源定位分離部が出力する定位された前記音源毎に前記音源識別情報が付与された前記音響特徴量と音源分離した前記分離音とを取得し、取得した前記音響特徴量に基づいて前記音源毎に前記音声信号に含まれる音源の種類を識別し、前記定位された音源毎に前記音源識別情報と識別した結果である識別結果とを前記解析処理部に出力するようにしてもよい。

（３）また、本発明の一態様に係る音響シーン再構成装置において、前記音声信号の収音は、Ｍ（Ｍは２以上の整数）個のマイクロホンを備えるマイクアレイによって行われ、前記マイクアレイはＮ（Ｎは２以上の整数）個であり、前記音源定位分離部は、前記マイクアレイ毎に設けられ、第１の前記マイクアレイが収音したＭチャネルの音声信号が第１の前記音源定位分離部に入力され、・・・、第Ｎの前記マイクアレイが収音したＭチャネルの音声信号が第Ｎの前記音源定位分離部に入力され、前記識別部は、前記音源定位分離部毎に設けられ、第１の前記音源定位分離部が第１の前記識別部に接続され、・・・、第Ｎの前記音源定位分離部が第Ｎの前記識別部に接続され、前記解析処理部は、第１～第Ｎの前記音源定位分離部それぞれが出力する定位された音源毎に識別情報が付与された音源識別情報と音源方向の情報と音源分離した前記分離音を取得し、取得した前記分離音ごとに前記分離音に対応する音源の位置を複数のマイクロホンの前記分離音に基づいて推定し、複数の前記音源定位分離部が同時に前記分離音を検出した場合、複数の前記分離音の中から前記分離音に最も距離が近い前記マイクアレイによる前記分離音を選択するようにしてもよい。

（４）また、本発明の一態様に係る音響シーン再構成装置において、前記音声信号は、鳥の鳴き声であり、前記音声信号に含まれる音源の種類は、前記鳥の名前と前記鳥の鳴き方であるようにしてもよい。

（５）また、本発明の一態様に係る音響シーン再構成装置において、前記可視化処理部が生成する画像と音声の設定を行うコントローラを備え、前記コントローラを操作することで、前記音声信号に含まれる音源の種類の表示と非表示を切り替える操作と、および前記音声信号に含まれる音源の種類の表示倍率を切り替える操作のうち少なくとも１つを行い、操作された操作結果を前記可視化処理部に出力するようにしてもよい。

（６）上記目的を達成するため、本発明の一態様に係る音響シーン再構成方法は、音源定位分離部が、収音した音声信号から音源定位と音源分離を行う音源定位分離ステップと、識別部が、前記音声信号に含まれる音源の種類を識別する識別ステップと、解析処理部が、前記音源定位分離ステップによって音源定位と音源分離が行われた結果と、前記識別ステップによって識別された結果とに基づいて前記音源の位置の推定を行い、前記音源の位置を推定した結果に基づいて分離音を選択し、前記音源の位置の推定した結果と前記音源による音声信号の種類とを対応付けて可視化情報を生成するステップと、可視化処理部が、前記可視化情報と前記分離音とを用いて、前記音源に対応する画像を推定された前記音源の位置に表示させる画像を生成し、推定された前記音源の位置に前記分離音を再生させる音声を生成するステップと、を含む。

（７）上記目的を達成するため、本発明の一態様に係るプログラムは、音響シーン再構成装置のコンピュータに、収音した音声信号から音源定位と音源分離を行う音源定位分離ステップと、前記音声信号に含まれる音源の種類を識別する識別ステップと、前記音源定位分離ステップによって音源定位と音源分離が行われた結果と、前記識別ステップによって識別された結果とに基づいて前記音源の位置の推定を行い、前記音源の位置を推定した結果に基づいて分離音を選択し、前記音源の位置の推定した結果と前記音源による音声信号の種類とを対応付けて可視化情報を生成するステップと、前記可視化情報と前記分離音とを用いて、前記音源に対応する画像を推定された前記音源の位置に表示させる画像を生成し、推定された前記音源の位置に前記分離音を再生させる音声を生成するステップと、を実行させる。

上述した（１）または（６）あるいは（７）によれば、音を解析してその音のシーンを再構築して提供できる。

上述した（２）によれば、各機能部に必要な情報を出力するようにしたので、処理量を削減でき精度良く処理することができる。
上述した（３）によれば、複数のマイクアレイで収音され分離された分離音のうち、マイクアレイと音源の距離が近い分離音を選択するようにノイズの少ない明瞭な音声信号を分離信号に用いることができる。

上述した（４）によれば、鳥の種類や鳴き方を視覚化して表示させることができる。また、上述した（４）によれば、ＶＲ再生することで、以前に収録したデータを、利用者がもう一度体験できる。
上述した（５）によれば、表示させるＶＲ画像を利用者または操作者が簡便に操作することができる。

第１実施形態に係る音響シーン再構成装置の構成例を示すブロック図である。第１実施形態に係るマイクアレイの構成例を示す図である。第１実施形態に係る鳥種別識別部の構成例を示すブロック図である。第１実施形態に係る解析処理部の構成例を示すブロック図である。第１実施形態に係る可視化処理部の構成例を示す図である。第１実施形態に係るＶＲゴーグルの構成例を示す図である。マイクアレイの配置例を示す図である。図７におけるマイクアレイの各座標を示す図である。マイクアレイと音源位置と選択される分離音の関係を示す図である。第１実施形態における分離音の決定ルールを説明するための図である。入力音声信号と発話区間を示す図である。第１実施形態に係る処理手順例と処理タイミング例を示す図である。第１実施形態に係るＶＲゴーグルの画像再生部に表示される画像例を示す図である。第１実施形態に係るＶＲゴーグルの画像再生部に表示される画像例を示す図である。第１実施形態に係る植物オブジェクトが表示状態の画像例と非表示状態の画像例を示す図である。第１実施形態に係る鳥種別（鳥の名前）が表示状態の画像例と非表示状態の画像例を示す図である。第１実施形態に係る鳥オブジェクトの実サイズ表示と拡大表示の例を示す図である。第１実施形態に係るマイクアレイが出力するデータ構成例を示す図である。第１実施形態に係る音源定位分離部が出力するイベントデータ構成例を示す図である。第１実施形態に係る鳥種別のデータ例を示す図である。第１実施形態に係る鳥の鳴き方のデータ例を示す図である。第１実施形態に係るオブジェクトの表示と非表示等の設定時に表示装置に表示される画像例を示す図である。第１実施形態に係る鳥種別識別部によって、鳥の鳴き方、種別、ノイズを識別した結果例を示す図である。第２実施形態に係るＡＲ表示時にコントローラ（表示装置）に表示される画面例を示す図である。実施形態に係る野鳥のリストの画像例を示す図である。畳み込みニューラルネットワークの処理例を示す図である。

以下、本発明の実施の形態について図面を参照しながら説明する。なお、以下の説明に用いる図面では、各部材を認識可能な大きさとするため、各部材の縮尺を適宜変更している。

＜第１実施形態＞
［音響シーン再構成装置１の構成］
図１は、本実施形態に係る音響シーン再構成装置１の構成例を示すブロック図である。図１に示すように音響シーン再構成装置１は、マイクアレイ１０（１０Ａ，１０Ｂ，１０Ｃ，１０Ｄ）、取得部２０（２０Ａ，２０Ｂ，２０Ｃ，２０Ｄ）、音源定位分離部３０（３０Ａ，３０Ｂ，３０Ｃ，３０Ｄ）、鳥種別識別部４０（４０Ａ，４０Ｂ，４０Ｃ，４０Ｄ）、解析処理部５０、可視化処理部６０、およびＶＲゴーグル７０を備える。

以下の説明において、マイクアレイ１０Ａ，１０Ｂ，１０Ｃ，１０Ｄのうち１つを特定しない場合は、マイクアレイ１０という。取得部２０Ａ，２０Ｂ，２０Ｃ，２０Ｄのうち１つを特定しない場合は、取得部２０という。音源定位分離部３０Ａ，３０Ｂ，３０Ｃ，３０Ｄのうち１つを特定しない場合は、音源定位分離部３０という。鳥種別識別部４０Ａ，４０Ｂ，４０Ｃ，４０Ｄのうち１つを特定しない場合は、鳥種別識別部４０という。

音源定位分離部３０の構成については後述する。マイクアレイ１０の構成については、図２を用いて後述する。鳥種別識別部４０の構成については、図３を用いて後述する。解析処理部５０の構成については、図４を用いて後述する。可視化処理部６０の構成については、図５を用いて後述する。

なお、図１に示した例では、マイクアレイ１０を４つ用いる例を示したが、マイクアレイ１０は１つ以上であればよい。音響シーン再構成装置１は、マイクアレイ１０の個数に対応する個数の取得部２０、音源定位分離部３０および鳥種別識別部４０それぞれを備える。例えば、マイクアレイ１０が２個の場合、取得部２０、音源定位分離部３０および鳥種別識別部４０それぞれの個数は２個ずつである。

マイクアレイ１０は、後述するようにＭ（Ｍは２以上の整数）個のマイクロホン等を備えている。マイクアレイ１０は、Ｍ個のマイクロホンが収音した音声信号をデジタル信号に変換し、デジタル信号に変換した音声信号にマイクアレイ番号を付与して、取得部２０に出力する。なお、マイクアレイ１０Ａは取得部２０Ａに出力し、マイクアレイ１０Ｂは取得部２０Ｂに出力し、マイクアレイ１０Ｃは取得部２０Ｃに出力し、マイクアレイ１０Ｄは取得部２０Ｄに出力する。なお、マイクアレイ１０は、収音したＭチャネルの音声信号を取得部２０に無線で送信してもよいし、有線で送信してもよい。送信の際にチャネル間で音声信号が同期していればよい。なお、マイクアレイ番号には、マイクアレイ１０の識別情報と、マイクアレイ１０が設置された位置（図７等を用いて後述するｘｙｚ空間における座標）が含まれている。

取得部２０は、マイクアレイ１０のＭ個のマイクロホンによって収音されマイクアレイ番号が付与されたＭ個の音声信号を取得する。取得部２０は、取得したＭ個の音声信号に対し、時間領域において、フレーム毎にフーリエ変換を行うことで周波数領域の入力信号を生成する。取得部２０は、フーリエ変換したＭ個の音声信号にマイクアレイ番号を付与して、音源定位分離部３０に出力する。なお、取得部２０Ａは音源定位分離部３０Ａに出力し、取得部２０Ｂは音源定位分離部３０Ｂに出力し、取得部２０Ｃは音源定位分離部３０Ｃに出力し、取得部２０Ｄは音源定位分離部３０Ｄに出力する。なお、取得部２０と音源定位分離部３０は、有線または無線によって接続されている。

音源定位分離部３０は、取得部２０から入力されたマイクアレイ番号が付与されたＭ個の音声信号に基づいて、音源の方位角の推定（音源定位）と、方位方向毎に分離された音声信号の分離（音源分離）と、分離された音声信号の特徴量抽出を行う。音源定位分離部３０は、分離した音源毎に識別情報（ＩＤ）を付与し、ＩＤを付与した音源ＩＤ（音源識別情報と）と特徴量を鳥種別識別部４０に出力する。音源定位分離部３０は、ＩＤを付与した音源ＩＤと、音源方位角・仰角と、分離した分離音とマイクアレイ番号とを解析処理部５０に出力する。なお、音源定位分離部３０は、音源定位できた音源毎に、音源ＩＤと、音源方位角・仰角と分離音とマイクアレイ番号とを解析処理部５０に出力する。このため、音源定位分離部３０は、複数の音源について音源ＩＤと、音源方位角・仰角と、分離音とマイクアレイ番号とを解析処理部５０に出力する場合もある。音源定位分離部３０の構成と各部が行う処理については、後述する。なお、音源定位分離部３０と鳥種別識別部４０と解析処理部５０は、有線または無線によって接続されている。なお、北を０度とし、北に対する水平方向の角度を方位角とする。また、地面に対して水平面を０度とし、水平面に対する垂直方向の角度を仰角とする。なお、音源定位分離部３０は、ＨＡＲＫ（ＨｏｎｄａＲｅｓｅａｒｃｈＩｎｓｔｉｔｕｔｅＪａｐａｎＡｕｄｉｔｉｏｎｆｏｒＲｏｂｏｔｓｗｉｔｈＫｙｏｔｏＵｎｉｖｅｒｓｉｔｙ）（参考文献１）によって構成するようにしてもよい。

参考文献１；K. Nakadai, H. G. Okuno, and T. Mizumoto, “Development, deployment and applications of robot audition open source software HARK,” Journal of Robotics and Mechatronics, vol. 29, no. 1, pp. 16-25, 2017.

鳥種別識別部４０（識別部）は、音源定位分離部３０が出力する音源ＩＤと特徴量を取得し、取得した特徴量に基づいて鳥の種別と鳴き方を識別する。なお、鳴き方とは、地鳴き（ｃａｌｌ）、さえずり（Ｓｏｎｇ）、谷渡り（ＶａｌｌｅｙｔｏＶａｌｌｅｙ）、警戒声（Ａｌａｒｍｃａｌｌ）、およびドラミング（Ｄｒｕｍｍｉｎｇ）等である。鳥種別識別部４０は、音源ＩＤと鳥種別と鳴き方を解析処理部５０に出力する。鳥種別識別部４０の構成と各部（図２）が行う処理については、後述する。なお、鳥種別識別部４０と解析処理部５０は、有線または無線によって接続されている。

解析処理部５０は、音源定位分離部３０それぞれが出力する音源ＩＤと音源方位角・仰角と分離音とマイクアレイ番号と、鳥種別識別部４０それぞれが出力する音源ＩＤと鳥種別と鳴き方を取得する。なお、鳥種別は、鳥の名称であってもよく、鳥の名称に対応する識別番号であってもよい。解析処理部５０は、取得した情報を用いて可視化情報と分離音情報を生成し、生成した可視化情報と分離音情報を可視化処理部６０に出力する。解析処理部５０の構成と各部（図３）が行う処理については、後述する。なお、解析処理部５０と可視化処理部６０は、有線または無線によって接続されている。

可視化処理部６０は、解析処理部５０が出力する可視化情報と分離音情報を取得する。可視化処理部６０は、取得した可視化情報と分離音情報に基づいて３Ｄ（三次元）ＶＲ画像と、３ＤＶＲ音声を生成し、生成した３ＤＶＲ画像と３ＤＶＲ音声をＶＲゴーグル７０に出力する。可視化処理部６０の構成と各部（図３）が行う処理については、後述する。なお、可視化処理部６０とＶＲゴーグル７０は、有線または無線によって接続されている。

ＶＲゴーグル７０は、可視化処理部６０が出力する３ＤＶＲ画像を表示し、可視化処理部６０が出力する３ＤＶＲ音声を再生する。ＶＲゴーグル７０の構成（図６）については、後述する。

［マイクアレイ１０の構成］
次に、マイクアレイ１０の構成例を説明する。
図２は、本実施形態に係るマイクアレイ１０の構成例を示す図である。図２に示すようにマイクアレイ１０それぞれは、Ｍ（Ｍは、２以上の整数、例えば８）個のマイクロホン１０１Ｎ（Ｎは２以上の整数）Ａ，１０１ＮＢ，・・・，１０１ＮＭ、サンプリング信号生成部１０２Ｎ、ＡＤ変換器１０３ＮＡ，１０３ＮＢ，・・・，１０３ＮＭ、記憶部１０４Ｎ、出力データ生成部１０５Ｎ、および出力部１０６Ｎを備えている。

マイクロホン１０１ＮＡ，１０１ＮＢ，・・・，１０１ＮＭは、それぞれ異なる位置に配置されている。マイクロホン１０１Ｎは、ＡＤ（アナログーデジタル）変換器１０３Ｎに接続されている。マイクロホン１０１ＮＡはＡＤ変換器１０３ＮＡに接続されている。マイクロホン１０１ＮＢはＡＤ変換器１０３ＮＢに接続されている。マイクロホン１０１ＮＭはＡＤ変換器１０３ＮＭに接続されている。なお、例えばマイクアレイ１０の形状が球状の場合、マイクロホンは水平方向と垂直方向とに配置されている。このように配置された複数のマイクロホンが収音した音声信号を用いて、音源定位分離部３０は、水平方向の方位角と、垂直方向の仰角を検出することができる。
サンプリング信号生成部１０２Ｎは、ＡＤ変換器１０３ＮＡ，１０３ＮＢ，・・・，１０３ＮＭが使用するサンプリング信号を生成し、生成したサンプリング信号をＡＤ変換器１０３ＮＡ，１０３ＮＢ，・・・，１０３ＮＭに出力する。サンプリング信号の周波数は、例えば１６ｋＨｚである。

ＡＤ変換器１０３ＮＡ，１０３ＮＢ，・・・，１０３ＮＭそれぞれは、対応するマイクロホン１０１ＮＡ，１０１ＮＢ，・・・，１０１ＮＭが収音したアナログ信号をデジタル信号に変換して出力データ生成部１０５Ｎに出力する。
記憶部１０４Ｎは、マイクアレイ番号を記憶する。

出力データ生成部１０５Ｎは、ＡＤ変換器１０３ＮＡ，１０３ＮＢ，・・・，１０３ＮＭが出力するＭ個の音声信号を用いてＭチャネルの音声信号を生成する。出力データ生成部１０５Ｎは、生成したＭチャネルの音声信号にマイクアレイ番号を付与して、出力部１０６Ｎに出力する。
出力部１０６Ｎは、出力データ生成部１０５Ｎが出力するマイクアレイ番号が付与されたＭチャネルの音声信号を、取得部２０Ｎに出力する。なお、マイクアレイ１０が出力するデジタル信号のファーマットについては後述する。なお、出力部１０６Ｎが出力するデータには、後述するように、収録日時、収録開始時刻等の情報が含まれていてもよい。

また、複数のマイクアレイ１０それぞれは、鳥の鳴き声を含む音声信号を同時間に非同期で取得する。なお、マイクアレイ１０それぞれは、録音部を備え、録音したデータを取得部２０に出力するようにしてもよい。

［音源定位分離部３０の構成と各部の処理］
次に、音源定位分離部３０の構成と各部の処理について説明する。
音源定位分離部３０Ｎ（ＮはＡ～Ｄ）は、音源定位部３０１Ｎ、音源分離部３０２Ｎ、特徴量抽出部３０３Ｎ、第１出力部３０４Ｎ、および第２出力部３０５Ｎを備える。

音源定位部３０１Ｎ（ＮはＡ～Ｄ）は、取得部２０が出力するマイクアレイ番号が付与されたＭチャネルの音声信号に基づいて各音源の方向を予め定めた長さのフレーム（例えば、２０ｍｓ）毎に定める（音源定位）。音源定位部３０１Ｎは、音源定位において、例えば、ＭＵＳＩＣ（ＭｕｌｔｉｐｌｅＳｉｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ；多重信号分類）法を用いて方向毎のパワーを示す空間スペクトルを算出する。音源定位部３０１Ｎは、空間スペクトルに基づいて音源毎の音源方向を定める。音源定位部３０１Ｎは、音源方向を示す音源方向情報（音源方位角・仰角）に音源ＩＤを付与して、音源分離部３０２Ｎに出力する。音源定位部３０１Ｎは、音源方向を示す音源方向情報（音源方位角・仰角）に音源ＩＤとマイクアレイ番号を付与して、第１出力部３０４Ｎに出力する。なお、音源定位部３０１Ｎは、ＭＵＳＩＣ法に代えて、その他の手法、例えば、重み付き遅延和ビームフォーミング（ＷＤＳ－ＢＦ：ＷｅｉｇｈｔｅｄＤｅｌａｙａｎｄＳｕｍＢｅａｍＦｏｒｍｉｎｇ）法を用いて音源定位を算出してもよい。

音源分離部３０２Ｎ（ＮはＡ～Ｄ）は、音源定位部３０１Ｎが出力する音源ＩＤが付与された音源方向情報と、取得部２０が出力するＭチャネルの音声信号を取得する。音源分離部３０２Ｎは、Ｍチャネルの音声信号を音源方向情報が示す音源方向に基づいて、音源毎の成分を示す音声信号である音源別音声信号（分離音）に分離する。音源分離部３０２Ｎは、音源別音声信号に分離する際、例えば、ＧＨＤＳＳ（Ｇｅｏｍｅｔｒｉｃ－ｃｏｎｓｔｒａｉｎｅｄＨｉｇｈ－ｏｒｄｅｒＤｅｃｏｒｒｅｌａｔｉｏｎ－ｂａｓｅｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ）法を用いる。音源分離部３０２Ｎは、分離した音声信号のスペクトルを求めて、求めた音声信号のスペクトルを特徴量抽出部３０３Ｎに出力する。また、音源分離部３０２Ｎは、分離できた全ての分離音を第１出力部３０４Ｎに出力する。
なお、音源定位分離部３０は、発話区間検出部（不図示）を備えていてもよい。音源定位分離部３０が発話区間検出部を備える場合、発話区間検出部は、音源定位部３０１Ｎが出力する音源方向情報と、取得部２０が出力するＭチャネルの音声信号に基づいて発話区間（発話の開始時刻と発話の終了時刻）を検出するようにしてもよい。そして、音源分離部３０２Ｎは、発話区間検出部が検出した発話区間（発話の開始時刻と発話の終了時刻）も用いて、音源を分離するようにしてもよい。なお、音源分離部３０２Ｎは、音声信号の大きさが所定値以上の区間を発話区間とみなすようにしてもよい。

特徴量抽出部３０３Ｎ（ＮはＡ～Ｄ）は、音源分離部３０２Ｎが出力するスペクトルから音響特徴量を音源毎に計算する。特徴量抽出部３０３Ｎは、例えば、静的メル尺度対数スペクトル（ＭＳＬＳ：Ｍｅｌ－ＳｃａｌｅＬｏｇＳｐｅｃｔｒｕｍ）、デルタＭＳＬＳ及び１個のデルタパワーを、所定時間（例えば、１０ｍｓ）毎に算出することで音響特徴量を算出する。なお、ＭＳＬＳは、音響認識の特徴量としてスペクトル特徴量を用い、ＭＦＣＣ（メル周波数ケプストラム係数；ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）を逆離散コサイン変換することによって得られる。特徴量抽出部３０３Ｎは、求めた音響特徴量を第２出力部３０５Ｎに出力する。

第１出力部３０４Ｎ（ＮはＡ～Ｄ）は、音源定位部３０１Ｎが出力する音源ＩＤとマイクアレイ番号が付与された音源方位角・仰角と分離音を、解析処理部５０に出力する。なお、第１出力部３０４Ｎが出力するデータには、複数の音源毎のデータが含まれる場合もある。

第２出力部３０５Ｎ（ＮはＡ～Ｄ）は、特徴量抽出部３０３Ｎが出力する音源ＩＤが付与された音響特徴量を、鳥種別識別部４０に出力する。なお、音源定位分離部３０Ａは鳥種別識別部４０Ａに出力し、音源定位分離部３０Ｂは鳥種別識別部４０Ｂに出力し、音源定位分離部３０Ｃは鳥種別識別部４０Ｃに出力し、音源定位分離部３０Ｄは鳥種別識別部４０Ｄに出力する。なお、第２出力部３０５Ｎが出力するデータには、複数の音源毎のデータが含まれる場合もある。

［鳥種別識別部４０の構成と各部の処理］
次に、鳥種別識別部４０の構成と各部の処理について説明する。
図３は、本実施形態に係る鳥種別識別部４０の構成例を示すブロック図である。図３に示すように鳥種別識別部４０は、取得部４０１Ｎ、音響モデル記憶部４０２Ｎ、識別部４０３Ｎ、シリアライズ部４０４Ｎ、および出力部４０５Ｎを備える。

取得部４０１Ｎは、音源定位分離部３０が出力する音源ＩＤが付与された音響特徴量を取得し、取得した音源ＩＤが付与された音響特徴量を識別部４０３Ｎに出力する。

音響モデル記憶部４０２Ｎは、鳥種別（鳥の名称）毎に、鳥種別に、鳥の鳴き方毎の鳴き声の特徴量関連付けて記憶する。例えば、音響モデル記憶部４０２Ｎは、鳥種別がウグイスに、ウグイスの地鳴きの特徴量と、ウグイスのさえずりの特徴量と、ウグイスの威嚇の特徴量と、ウグイスの谷渡りの特徴量と、ウグイスの警戒声の特徴量とを関連付けて記憶する。

識別部４０３Ｎは、取得部４０１Ｎが出力する音源ＩＤが付与された音響特徴量を、音響モデル記憶部４０２Ｎを参照して鳥種別と鳴き方を識別する。識別部４０３Ｎは、識別した音源ＩＤと鳥種別と鳴き方をシリアライズ部４０４Ｎに出力する。なお、識別部４０３Ｎは、例えば特許文献２（特開２０１８－０４０８４８号公報）に記載の技術を用いて、音源同士の近さ情報を有効に利用することによって、精度良く音源の識別を行う。また、識別部４０３Ｎは、例えば畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ；ＣＮＮ）に基づいて分離音に最も近い鳥の鳴き声に分類を行う。なお、識別部４０３Ｎは、音源定位分離部３０が定位できた全ての音声（分離音）毎に、識別を行う。なお、識別部４０３Ｎは、鳴き声の分類を、ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ；ディープニューラルネットワーク）等で行ってもよい。または、識別部４０３Ｎは、ＧＭＭやＳＶＭなど「一般的な機械学習分野の識別手法を用いて鳥種別と鳴き方を識別するようにしてもよい。

シリアライズ部４０４Ｎは、識別部４０３Ｎが出力する音源ＩＤと鳥種別と鳴き方をバイト単位で読み書きできるバイト配列に変換（以下、シリアル化するという）し、変換したデータ（音源ＩＤと鳥種別と鳴き方）を出力部４０５Ｎに出力する。変換したデータには、音源定位分離部３０が定位できた全ての音声（分離音）毎に識別されたデータ（音源ＩＤと鳥種別と鳴き方）が含まれている。

出力部４０５Ｎは、シリアライズ部４０４Ｎはシリアル化された音源ＩＤと鳥種別と鳴き方を解析処理部５０に出力する。なお、出力部４０５Ｎが出力する情報のファーマットについては後述する。

［解析処理部５０の構成と各部の処理］
次に、解析処理部５０の構成と各部の処理について説明する。
図４は、本実施形態に係る解析処理部５０の構成例を示すブロック図である。図４に示すように解析処理部５０は、取得部５０１Ａ，５０１Ｂ，５０１Ｃ，５０１Ｄ、デシリアライズ部５０２、取得部５０３Ａ，５０３Ｂ，５０３Ｃ，５０３Ｄ、データ分離部５０４、鳥位置推定部５０５、位置・種別対応付け部５０６、シリアライズ部５０７、出力部５０８、分離音決定部５０９、分離音選択・位置推定音源ＩＤ付与部５１０、シリアライズ部５１１、および出力部５１２を備える。

取得部５０１Ａは、鳥種別識別部４０Ａが出力するシリアル化された音源ＩＤと鳥種別と鳴き方を取得し、取得したシリアル化された音源ＩＤと鳥種別と鳴き方をデシリアライズ部５０２に出力する。
取得部５０１Ｂは、鳥種別識別部４０Ｂが出力するシリアル化された音源ＩＤと鳥種別と鳴き方を取得し、取得したシリアル化された音源ＩＤと鳥種別と鳴き方をデシリアライズ部５０２に出力する。
取得部５０１Ｃは、鳥種別識別部４０Ｃが出力するシリアル化された音源ＩＤと鳥種別と鳴き方を取得し、取得したシリアル化された音源ＩＤと鳥種別と鳴き方をデシリアライズ部５０２に出力する。
取得部５０１Ｄは、鳥種別識別部４０Ｄが出力するシリアル化された音源ＩＤと鳥種別と鳴き方を取得し、取得したシリアル化された音源ＩＤと鳥種別と鳴き方をデシリアライズ部５０２に出力する。
なお、取得部５０１Ａ，５０１Ｂ，５０１Ｃおよび５０１Ｄそれぞれが取得するシリアル化されたデータには、音源定位分離部３０が定位できた全ての音声（分離音）毎に鳥種別識別部４０Ａ，４０Ｂ，４０Ｃ，４０Ｄによって識別されたデータ（音源ＩＤと鳥種別と鳴き方）が含まれている。

デシリアライズ部５０２は、取得部５０１Ａ，５０１Ｂ，５０１Ｃおよび５０１Ｄそれぞれが出力するシリアル化された音源ＩＤと鳥種別と鳴き方に対して、シリアル化されたバイト列を元のデータに戻し、且つデータを統合する。デシリアライズ部５０２は、取得部５０１Ａ，５０１Ｂ，５０１Ｃおよび５０１Ｄのデータを統合した音源ＩＤと鳥種別と鳴き方を位置・種別対応付け部５０６に出力する。なお、デシリアライズ部５０２が出力するデータには、音源定位分離部３０Ａ，３０Ｂ，３０Ｃおよび３０Ｄが定位できた全ての音声（分離音）毎に鳥種別識別部４０Ａ，４０Ｂ，４０Ｃ，４０Ｄによって識別されたデータ（音源ＩＤと鳥種別と鳴き方）が含まれている。

取得部５０３Ａは、音源定位分離部３０Ａが出力する音源ＩＤとマイクロホン番号が付与された音源方位角・仰角と分離音を取得し、取得した音源ＩＤとマイクロホン番号が付与された音源方位角・仰角と分離音をデータ分離部５０４に出力する。
取得部５０３Ｂは、音源定位分離部３０Ｂが出力する音源ＩＤとマイクロホン番号が付与された音源方位角・仰角と分離音を取得し、取得した音源ＩＤとマイクロホン番号が付与された音源方位角・仰角と分離音をデータ分離部５０４に出力する。
取得部５０３Ｃは、音源定位分離部３０Ｃが出力する音源ＩＤとマイクロホン番号が付与された音源方位角・仰角と分離音を取得し、取得した音源ＩＤとマイクロホン番号が付与された音源方位角・仰角と分離音をデータ分離部５０４に出力する。
取得部５０３Ｄは、音源定位分離部３０Ｄが出力する音源ＩＤとマイクロホン番号が付与された音源方位角・仰角と分離音を取得し、取得した音源ＩＤとマイクロホン番号が付与された音源方位角・仰角と分離音をデータ分離部５０４に出力する。
なお、取得部５０３Ａ，５０３Ｂ，５０３Ｃおよび５０３Ｄそれぞれが取得するデータ（マイクロホン番号が付与された音源方位角・仰角と分離音）には、音源定位分離部３０が定位できた全ての音声（分離音）毎のデータ（マイクロホン番号が付与された音源方位角・仰角と分離音）が含まれている。

データ分離部５０４は、取得部５０３Ａ，５０３Ｂ，５０３Ｃおよび５０３Ｄそれぞれが出力する音源ＩＤとマイクロホン番号が付与された音源方位角・仰角と分離音を、音源ＩＤとマイクロホン番号が付与された音源方位角・仰角と、分離音と音源ＩＤとに分離する。データ分離部５０４は、音源ＩＤとマイクロホン番号が付与された音源方位角・仰角を鳥位置推定部５０５に出力する。なお、データ分離部５０４が鳥位置推定部５０５に出力するデータ（音源ＩＤとマイクロホン番号が付与された音源方位角・仰角）は、音源定位分離部３０が定位できた全ての音声（分離音）に対するデータ（音源ＩＤとマイクロホン番号が付与された音源方位角・仰角）である。データ分離部５０４は、分離音と音源ＩＤを分離音選択・位置推定音源ＩＤ付与部５１０に出力する。なお、データ分離部５０４が分離音選択・位置推定音源ＩＤ付与部５１０に出力する分離音は、音源定位分離部３０が定位できた全ての音声（分離音）が含まれている。

鳥位置推定部５０５は、データ分離部５０４が出力する音源ＩＤとマイクロホン番号が付与された音源方位角・仰角毎のデータに基づいて、音源ＩＤ毎の鳴き声の鳥の位置を推定し、推定した音源ＩＤの鳥の位置を鳥座標とする。鳥位置推定部５０５は、鳥座標を推定した分離音に識別情報を付与して位置推定音源ＩＤとする。同じ時間にマイクアレイ１０Ａと１０Ｂと１０Ｃによって音源が定位と分離された場合、例えば、鳥位置推定部５０５は、マイクアレイ１０Ａによる音源ＩＤ＝１０、マイクアレイ１０Ｂによる音源ＩＤ＝５、およびマイクアレイ１０Ｃによる音源ＩＤ＝１２に対して位置推定音源ＩＤ＝６を付与する。鳥位置推定部５０５は、位置推定音源ＩＤと、推定した鳥座標とを位置・種別対応付け部５０６に出力する。鳥位置推定部５０５は、位置推定音源ＩＤと、鳥座標を推定した音源ＩＤと、音源ＩＤに対応するマイクアレイ番号を分離音決定部５０９に出力する。なお、鳥位置推定部５０５は、後述するように同じ時間に検出された複数の分離音それぞれを収音した複数のマイクアレイ１０を用いて三角測量の手法（例えば、特願２０１７－１７２４５２号参照）によって鳥座標を推定する。また、鳥位置推定部５０５は、音源定位分離部３０が定位できた全ての音声（分離音）毎に座標を推定する。

位置・種別対応付け部５０６は、デシリアライズ部５０２が出力する音源ＩＤと鳥種別と鳴き方と、鳥位置推定部５０５が出力する位置推定音源ＩＤと鳥座標を取得する。位置・種別対応付け部５０６は、音源ＩＤと鳥種別と鳴き方と位置推定音源ＩＤと鳥座標とに基づいて、鳴き声の主の鳥座標と鳥種別と鳴き方を対応付ける。位置・種別対応付け部５０６は、対応付けた位置推定音源ＩＤと鳥座標と鳥種別と鳴き方をシリアライズ部５０７に出力する。なお、位置・種別対応付け部５０６は、音源定位分離部３０Ａ，３０Ｂ，３０Ｃおよび３０Ｄが定位できた全ての音声（分離音）毎に鳥種別識別部４０Ａ，４０Ｂ，４０Ｃ，４０Ｄによって識別されたデータ（音源ＩＤと鳥種別と鳴き方）と鳥座標を対応付けする。すなわち、本実施形態では、マイクアレイ１０によって取得された音声信号から、音源定位分離部３０と鳥種別識別部４０と解析処理部５０が、位置（鳥座標）、種に関する鳥の鳴き声の情報を抽出し、鳥の鳴き声イベントに統合する。なお、音源定位分離部３０が発話区間検出部を備えている場合、統合される鳥の鳴き声イベントには、時間情報（発話開始時刻、発話終了時刻）も含まれる。この場合、時間情報（発話開始時刻、発話終了時刻）は、音源定位分離部３０の第２出力部３０５Ｎが出力するデータに含まれる。

シリアライズ部５０７は、位置・種別対応付け部５０６が出力する位置推定音源ＩＤと鳥座標と鳥種別と鳴き方をシリアル化する。シリアライズ部５０７は、シリアル化した位置推定音源ＩＤと鳥座標と鳥種別と鳴き方を可視化情報として出力部５０８に出力する。なお、シリアライズ部５０７が出力するデータは、音源定位分離部３０Ａ，３０Ｂ，３０Ｃおよび３０Ｄが定位できた全ての音声（分離音）毎に鳥種別識別部４０Ａ，４０Ｂ，４０Ｃ，４０Ｄによって識別されたデータ（音源ＩＤと鳥種別と鳴き方）に鳥座標が対応付けられたデータ（鳥座標と鳥種別と鳴き方）である。なお、可視化情報は、例えばＪＳＯＮ（ＪａｖａＳｃｒｉｐｔ（登録商標）ＯｂｊｅｃｔＮｏｔａｔｉｏｎ）形式である。また、可視化情報は、後述するメタデータ（マイクアレイに関する情報、収音に関する情報）とイベントデータ（フレーム情報、鳥毎の情報）の２種類から構成されていてもよい。

出力部５０８は、シリアライズ部５０７が出力する可視化情報を可視化処理部６０に出力する。

分離音決定部５０９は、鳥位置推定部５０５が出力する位置推定音源ＩＤに基づいて分離音を決定し、決定した決定結果を分離音選択・位置推定音源ＩＤ付与部５１０に出力する。分離音決定部５０９が分離音選択・位置推定音源ＩＤ付与部５１０に出力する情報には、マイクアレイ番号と音源ＩＤと位置推定音源ＩＤが含まれている。なお、分離音決定部５０９は、推定した鳥の位置（音源位置）と、マイクアレイ番号に含まれるマイクアレイ１０が設置された位置とに基づいて、音源に最も近いマイクアレイ１０が収音した分離音を選択して決定する。例えば、マイクアレイ１０Ａによる音源ＩＤ＝１０、マイクアレイ１０Ｂによる音源ＩＤ＝５、およびマイクアレイ１０Ｃによる音源ＩＤ＝１２に対して位置推定音源ＩＤ＝６を付与されている場合、分離音決定部５０９は、音源に最も近いマイクアレイ１０Ａによる音源ＩＤ＝１０の分離音を選択する。なお、鳥が鳴きながら移動し座標が変化する場合も、切換による音質変化を防ぐために、分離音決定部５０９は、マイクアレイ選択は固定し追従させない。なお、分離音決定については、後述する。

分離音選択・位置推定音源ＩＤ付与部５１０は、分離音決定部５０９が出力する決定結果に応じて、データ分離部５０４が出力する分離音に位置推定音源ＩＤを付与する。例えば、分離音としてマイクアレイ１０Ａによる音源ＩＤ＝１０が決定結果の場合、分離音選択・位置推定音源ＩＤ付与部５１０は、音源ＩＤ＝１０に対応する分離音を選択し、選択した分離音に位置推定音源ＩＤ＝６を付与する。分離音選択・位置推定音源ＩＤ付与部５１０は、選択した分離音（位置推定分）と、位置推定音源ＩＤをシリアライズ部５１１に出力する。位置推定音源ＩＤの付与の仕方については、図１０を用いて後述する。

シリアライズ部５１１は、分離音選択・位置推定音源ＩＤ付与部５１０が出力する分離音（位置推定分）と位置推定音源ＩＤをシリアル化する。シリアライズ部５１１は、シリアル化した分離音（位置推定分）と位置推定音源ＩＤを分離音情報として出力部５１２に出力する。

出力部５１２は、シリアライズ部５１１が出力する分離音情報を可視化処理部６０に出力する。なお、出力部５１２は、分離音情報を分離音毎に出力する。

［可視化処理部６０の構成と各部の処理］
次に、可視化処理部６０の構成と各部の処理について説明する。
図５は、本実施形態に係る可視化処理部６０の構成例を示す図である。図５に示すように可視化処理部６０は、取得部６０１、デシリアライズ部６０２、取得部６０３、デシリアライズ部６０４、座標対応付け部６０５、画像モデル記憶部６０６、画像合成部６０７、音声合成部６０８、通信部６０９、操作部６１０、および制御部６１１を備える。

取得部６０１は、解析処理部５０が出力する可視化情報を取得し、取得した可視化情報をデシリアライズ部６０２に出力する。

デシリアライズ部６０２は、取得部６０１が出力するシリアル化された可視化情報に対してシリアル化されたバイト列を元のデータに戻して、元に戻した可視化情報を座標対応付け部６０５と画像合成部６０７に出力する。

取得部６０３は、解析処理部５０が出力する分離音情報を取得し、取得した分離音情報をデシリアライズ部６０４に出力する。

デシリアライズ部６０４は、取得部６０３が出力するシリアル化された分離音情報に対してシリアル化されたバイト列を元のデータに戻して、元に戻した分離音情報を座標対応付け部６０５に出力する。

座標対応付け部６０５は、デシリアライズ部６０２が出力する可視化情報と、デシリアライズ部６０４が出力する分離音情報を取得する。座標対応付け部６０５は、可視化情報に含まれる鳥座標を抽出し、抽出した鳥座標を分離音と位置推定音源ＩＤに対応付ける。座標対応付け部６０５は、鳥座標を対応付けた分離音と位置推定音源ＩＤを音声合成部６０８に出力する。

画像モデル記憶部６０６は、鳥の３Ｄ（三次元）画像モデルのデータを記憶する。なお、画像モデル記憶部６０６は、１種類の鳥について、木に止まっている画像モデルのデータ、飛んでいる画像モデルのデータ等、複数の画像モデルのデータを記憶するようにしてもよい。また、画像モデル記憶部６０６は、ＶＲ空間内の植物オブジェクトの画像モデルのデータ、ＶＲ空間内の岩や木のオブジェクトの画像モデルのデータ、ＶＲ空間内の地形の画像モデルのデータ等を記憶する。

画像合成部６０７は、デシリアライズ部６０２が出力する可視化情報に含まれる鳥種別に基づいて、画像モデル記憶部６０６が記憶する情報を用いて、鳥の３Ｄ画像を作成する。画像合成部６０７は、制御部６１１が出力するＶＲゴーグル７０の利用者位置情報に基づいて、画像モデル記憶部６０６が記憶する画像モデルのデータを用いて、ＶＲ空間内の画像を生成し、ＶＲ空間内において可視化情報に含まれる鳥座標の位置に鳥の３Ｄ画像を合成し、合成した画像を３ＤＶＲ画像としてＶＲゴーグル７０に出力する。なお、３ＤＶＲ画像には、鳥の３ＤＶＲ画像に加えて、鳥の方を示す画像、鳥種別（鳥の名称）を示す画像が含まれる。また、鳥の３ＤＶＲ画像はアニメーション画像である。

音声合成部６０８は、制御部６１１が出力するＶＲゴーグル７０の利用者位置情報と、座標対応付け部６０５が出力する鳥座標を対応付けた分離音と位置推定音源ＩＤとに基づいて、ＶＲ空間内において鳥座標に位置に分離音が定位するように音声情報を生成する。なお、音声合成部６０８は、風の音や川の流れる音、風によって木の葉が発する音等を記憶し、これらの音声と分離音とを合成するようにしてもよい。なお、音声合成部６０８は、鳥の鳴き声を、鳥の位置から３Ｄオーディオ化された音声が再生されるように合成する。

通信部６０９は、有線または無線でＶＲゴーグル７０と通信を行う。通信部６０９は、ＶＲゴーグル７０が出力する利用者位置情報と設定指示を受信し、受信した利用者位置情報と設定指示を制御部６１１に出力する。

操作部６１０は利用者が操作した操作結果を検出し、検出した操作結果を制御部６１１に出力する。操作結果には、ＶＲ画像の設定指示等が含まれている。

制御部６１１は、通信部６０９が出力した利用者位置情報を画像合成部６０７と音声合成部６０８に出力する。制御部６１１は、設定画面の画像を生成し、生成した設定画面の画像を表示装置６２に表示させる。制御部６１１は、操作部６１０が出力する操作結果、または通信部６０９が出力する設定指示に基づいて表示させる画像の表示設定指示を生成し、生成した表示指示を画像合成部６０７に出力する。表示指示には、後述する拡大表示、鳥種別の表示有り無し等が含まれている。なお、表示装置６２は、タブレット端末等であってもよい。表示装置６２がタブレット端末の場合、表示装置６２は操作部６１０を備えていてもよい。この場合、操作部６１０は、表示装置６２の表示部上に設けられているタッチパネルセンサである。

［ＶＲゴーグル７０の構成と各部の処理］
次に、ＶＲゴーグル７０の構成と各部の処理について説明する。
図６は、本実施形態に係るＶＲゴーグル７０の構成例を示す図である。図６に示すようにＶＲゴーグル７０は、取得部７０１、画像再生部７０２、取得部７０３、音声再生部７０４、センサ７０５、通信部７０６、および操作部７０７を備える。

取得部７０１は、可視化処理部６０が出力する３ＤＶＲ画像を取得し、取得した３ＤＶＲ画像を画像再生部７０２に出力する。

画像再生部７０２は、左右の有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ装置または液晶表示装置、投影光学系、画像表示駆動部等を備える。画像再生部７０２は、取得部７０１が出力する３ＤＶＲ画像を表示する。

取得部７０３は、可視化処理部６０が出力する３ＤＶＲ音声を取得し、取得した３ＤＶＲ音声を音声再生部７０４に出力する。

音声再生部７０４は、左右のスピーカー、音声駆動部等を備える。音声再生部７０４は、取得部７０３が出力する３ＤＶＲ音声を表示する。

センサ７０５は、加速度を検出する加速度センサ、角速度を検出するジャイロセンサ、大気圧を検出する気圧センサ、位置情報を検出するＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ；全地球測位システム）受信器のうち少なくとも１つである。センサ７０５は、各センサが検出した結果に基づいてＶＲゴーグル７０の使用者位置情報（含む使用者の向き）を通信部７０６に出力する。

通信部７０６は、センサ７０５が出力する使用者位置情報を可視化処理部６０に送信する。通信部７０６は、操作部７０７が出力する操作結果を可視化処理部６０に送信する。

操作部７０７は、利用者によって操作された操作結果を検出し、検出された操作結果を通信部７０６に出力する。操作結果には、例えば、画像再生部７０２に表示される画像の設定（植物オブジェクトの表示または非表示等）の指示が含まれている。

［マイクアレイの配置例］
次に、マイクアレイの配置例を説明する。
図７は、マイクアレイ１０の配置例を示す図である。図７において、符号Ｔ１，Ｔ２，Ｔ３，Ｈ１それぞれがマイクアレイ１０（図１）である。
また、符号ｇ１１が示す画像は、実空間におけるマイクアレイＴ１，Ｔ２，Ｔ３，Ｈ１の配置を示す図である。また、符号ｇ１２は、ｘｙ平面におけるマイクアレイ設置座標を示す図である。なお、図７において、水平方向・北向きにｘ軸、垂直方向・西向きにｙ軸、鉛直方向上向きにｚ軸を取る。また、原点はＴ１とする。高さｚについて、ｘ，ｙにかかわらず常にＴ１の位置の地表面を基準（ｚ＝０）とする。また、北をｘｙ平面における方位の０度方向とする。また、各マイクアレイの地上高さは１．３ｍである。

図８は、図７におけるマイクアレイの各座標を示す図である。
マイクアレイＴ３，Ｈ１，Ｔ２，Ｔ１それぞれをマイクアレイＮｏ．１，２，３，４とする。図８に示す例において、マイクアレイＴ１（マイクアレイＮｏ．４）を基準としている。この場合、例えば、マイクアレイＴ３（マイクアレイＮｏ．１）の座標は、ｘが－７．３７９９（ｍ）、ｙが７．７６５２１８（ｍ）、ｚが３．０１６２１（ｍ）である。

［分離音の決定ルール］
次に、分離音の決定ルールについて説明する。
図９は、マイクアレイと音源位置と選択される分離音の関係を示す図である。図９の座標、マイクアレイの位置は、図７と同じである。符号ｇ２１は、音源位置を示している。符号２１の音源位置の座標（ｘ，ｙ，ｚ）は、（－１０，１０，２）であるとする。この場合、マイクアレイＴ１，Ｔ２，Ｔ３，Ｈ１のうち、音源との距離が最も近いマイクアレイＴ３が収音した分離音を分離音決定部５０９が選択する。

図１０は、本実施形態における分離音の決定ルールを説明するための図である。図１０において、横軸は時刻であり、符号ｇ３１は、音源定位の区間と分離音を模式的に表している。
図１０に示す例では、マイクアレイＮｏ．１（Ｔ３）が音源ＩＤ＝１０，１１および１２を定位し、マイクアレイＮｏ．２（Ｈ１）が音源ＩＤ＝５および６を定位し、マイクアレイＮｏ．３（Ｔ２）が音源ＩＤ＝１２，１３および１４を定位し、マイクアレイＮｏ．４（Ｔ１）が音源ＩＤ＝２０および２１を定位した例である。

図１０において、時刻ｔ１～ｔ２の区間、マイクアレイＮｏ．１（Ｔ３）が音源ＩＤ＝１０を定位し、マイクアレイＮｏ．２（Ｈ１）が音源ＩＤ＝５を定位し、マイクアレイＮｏ．３（Ｔ２）が音源ＩＤ＝１２を定位している。
解析処理部５０の鳥位置推定部５０５は、各音源ＩＤ＝１０，５および１２の音源位置（ｚ１，ｙ１，ｚ１）を推定する。同じ区間で検出されたため、これらの音源は１つの音源であると推定される。

解析処理部５０の分離音決定部５０９は、音源位置とマイクアレイＮｏ．１（Ｔ３）、Ｎｏ．２（Ｈ１）、Ｎｏ．３（Ｔ２）との距離を求める。そして、分離音決定部５０９は、音源位置と最も近いマイクアレイＮｏ１（Ｔ３）の音源ＩＤ＝６を分離音に決定する。
解析処理部５０の分離音選択・位置推定音源ＩＤ付与部５１０は、分離音に決定した音源ＩＤ＝６に対して位置推定音源ＩＤ＝６を付与する。

時刻ｔ３～ｔ４の期間、同様の処理によって、分離音決定部５０９が音源位置と最も近いマイクアレイＮｏ．３（Ｔ２）の音源ＩＤ＝１３を分離音に決定し、分離音選択・位置推定音源ＩＤ付与部５１０が分離音に決定した音源ＩＤ＝１３に対して位置推定音源ＩＤ＝７を付与する。
時刻ｔ５～ｔ６の期間、同様の処理によって、分離音決定部５０９が音源位置と最も近いマイクアレイＮｏ．４（Ｔ１）の音源ＩＤ＝２１を分離音に決定し、分離音選択・位置推定音源ＩＤ付与部５１０が分離音に決定した音源ＩＤ＝２１に対して位置推定音源ＩＤ＝８を付与する。

［処理手順例］
次に、処理手順例と処理タイミング例を説明する。
図１１は、入力音声信号と発話区間を示す図である。図１１において、横軸は時刻であり、縦軸は音声信号の大きさである。また、音響シーン再構成装置１に入力される入力音声信号は、野鳥の鳴き声である。以下の説明において、時刻ｔ１１～ｔ１２の区間を野鳥の発話区間として検出できたとする。

図１２は、本実施形態に係る処理手順例と処理タイミング例を示す図である。

（ステップＳ１）時刻ｔ１１～ｔ１２の区間、音源定位分離部３０は、音源定位処理と音源分離処理を行い、処理結果である定位情報と分離音等をフレーム毎に解析処理部５０へ送信する。フレームは、例えば１０［ｍｓ］である。

（ステップＳ２）時刻ｔ１２～ｔ１３の区間、解析処理部５０のデータ分離部５０４は、データを分離する。

（ステップＳ３）時刻ｔ１２～ｔ１４の区間、音源定位分離部３０は、特徴量等をフレーム毎に鳥種別識別部４０に送信する。

（ステップＳ４）時刻ｔ１３～ｔ１８の区間、解析処理部５０の鳥位置推定部５０５は、鳥位置推定処理を行う。

（ステップＳ５）時刻ｔ１４～ｔ１５の区間、鳥種別識別部４０の識別部４０３Ｎは、鳥種別処理を行う。

（ステップＳ６）時刻ｔ１５～ｔ１６の区間、鳥種別識別部４０のシリアライズ部４０４Ｎは、シリアル化処理を行う。

（ステップＳ７）時刻ｔ１６～ｔ１７の区間、解析処理部５０のデシリアライズ部５０２は、シリアル化されたデータを元に戻す（デシリアライズ）。

（ステップＳ８）時刻ｔ１８～ｔ１９の区間、解析処理部５０の位置・種別対応付け部５０６は、鳥位置と種別の対応付けを行う。

（ステップＳ９）時刻ｔ１９～ｔ１９の区間、解析処理部５０の分離音決定部５０９は、分離音を決定する。

（ステップＳ１０）時刻ｔ１９～ｔ２０の区間、解析処理部５０のシリアライズ部５０７は、可視化情報のシリアル化を行う。

（ステップＳ１１）時刻ｔ１９～ｔ２０の区間、解析処理部５０の分離音選択・位置推定音源ＩＤ付与部５１０は、分離音選択と位置推定音源ＩＤ付与を行う。

（ステップＳ１２）時刻ｔ２０～ｔ２１の区間、解析処理部５０のシリアライズ部５１１は、分離音情報のシリアル化を行う。

（ステップＳ１３）時刻ｔ２１以降、可視化処理部６０は、ＶＲ可視化処理と分離音の３Ｄ化を行う。また、ＶＲゴーグル７０は、可視化された３ＤＶＲ画像を表示し、３ＤＶＲ音声を再生する。

なお、図１２に示した処理手順やタイミングは一例であり、これに限らない。

［ＶＲゴーグル７０に表示される画像例］
次に、ＶＲゴーグル７０の画像再生部７０２（図６）に表示される画像例を説明する。
図１３と図１４は、本実施形態に係るＶＲゴーグル７０の画像再生部７０２に表示される画像例を示す図である。
図１３と図１４において、符号ｇ５１はＶＲ空間のＶＲ画像であり、符号ｇ５２は植物オブジェクトの画像であり、符号ｇ５３は鳥オブジェクトの画像であり、符号ｇ５４は鳥の鳴き方を表す画像である。なお、符号ｇ５４の画像において、「？」の画像は、鳴き方を判別できなかったことを示している。
なお、図１３は野鳥が木に止まっている画像の例である。また、図１４は野鳥が飛んでいる画像の例である。なお、鳥種別識別部４０と解析処理部５０は、鳥の声の識別と音源定位によって位置と鳥の種類を推定する。そして、解析処理部５０は、推定した次の推定タイミングの推定結果と照らし合わせて、近いところに同じ種類の鳥を同じ鳥であるとします。このように、解析処理部５０は、鳥が止まっているのか動いているのかを識別する。そして、解析処理部５０は、鳥が動いている（飛んでいる）場合、例えば鳥が羽ばたいている画像を可視化情報として生成する。また、解析処理部５０は、鳥が止まっている場合、例えば鳥が木にとまっている画像を可視化情報として生成する。

図１５は、本実施形態に係る植物オブジェクトが表示状態の画像例と非表示状態の画像例を示す図である。
図１５において、符号ｇ６１Ａの画像は植物オブジェクトが表示状態の画像であり、符号ｇ６１Ｂの画像は植物オブジェクトが非表示状態の画像である。符号ｇ６２はＶＲ空間のＶＲ画像であり、符号ｇ６３は植物オブジェクトの画像である。音響シーン再構成装置１では、このように植物オブジェクトの表示と非表示とを切り替えることができる。切替は、ＶＲゴーグル７０が有する操作部７０７（図６）または、可視化処理部６０が有する操作部６１０（図５）をＶＲゴーグル７０の利用者または音響シーン再構成装置１の操作者が切り替えるようにしてもよい。

図１６は、本実施形態に係る鳥種別（鳥の名前）が表示状態の画像例と非表示状態の画像例を示す図である。
図１６において、符号ｇ７１Ａの画像は鳥種別（鳥の名前）が表示状態の画像であり、符号ｇ７１Ｂの画像は鳥種別（鳥の名前）が非表示状態の画像である。符号ｇ７２は野鳥の３ＤＶＲ画像であり、符号ｇ７３は鳥種別（鳥の名前）の画像であり、符号ｇ７４が鳥の鳴き方を表す画像である。なお、符号ｇ７４のハート印の画像は、鳴き方が「さえずり」であることを表している。このように、本実施形態では、鳴き方に応じて、鳥の３ＤＶＲ画像の近くに、鳴き方を表す画像も表示させるようにしてもよい。これにより、利用者は、鳥の鳴き方の種類を知ることができる。音響シーン再構成装置１では、このように鳥種別（鳥の名前）の表示と非表示とを切り替えることができる。切替は、ＶＲゴーグル７０が有する操作部７０７（図６）または、可視化処理部６０が有する操作部６１０（図５）をＶＲゴーグル７０の利用者または音響シーン再構成装置１の操作者が切り替えるようにしてもよい。
なお、画像合成部６０７は、鳥座標に基づいて、鳥の３ＤＶＲ画像の近くに、鳥の３ＤＶＤ画像に重ならないように鳥種別（鳥の名前）の画像を合成する。また、表示位置は、鳥オブジェクト（鳥の３ＤＶＲ画像）の例えば下である。なお、鳥種別（鳥の名前）は、画像モデル記憶部６０６が記憶している。

図１７は、本実施形態に係る鳥オブジェクトの実サイズ表示と拡大表示の例を示す図である。
図１７において、符号ｇ８１Ａの画像は野鳥の画像を実サイズで表示した状態の画像であり、符号ｇ８１Ｂの画像は野鳥の画像を拡大して表示した状態の画像である。符号ｇ８２Ａは実サイズの３ＤＶＲ画像であり、符号ｇ８２Ｂは５倍に拡大表した３ＤＶＲ画像である。音響シーン再構成装置１では、このように鳥の表示の大きさを切り替えることができる。切替は、ＶＲゴーグル７０が有する操作部７０７（図６）または、可視化処理部６０が有する操作部６１０（図５）をＶＲゴーグル７０の利用者または音響シーン再構成装置１の操作者が切り替えるようにしてもよい。
これにより、ＶＲ空間上の野鳥の視認性を高めることができる。なお拡大サイズは、例えば最大５倍程度（野鳥の実サイズの大きさに依る）である。

なお、上述した植物オブジェクトや岩のオブジェクト等の後方に野鳥が隠れて表示される位置に検出された場合、野鳥の画像をこれらのオブジェクトより前のレイヤーに配置して合成させるようにしてもよい。切替は、ＶＲゴーグル７０が有する操作部７０７（図６）または、可視化処理部６０が有する操作部６１０（図５）をＶＲゴーグル７０の利用者または音響シーン再構成装置１の操作者が切り替えるようにしてもよい。
これにより、利用者と野鳥との間にオブジェクトがあって野鳥の画像が隠れて見えない可能性がある場合でも、野鳥の画像を表示させることができる。

［マイクアレイ１０が出力するデータ構成例］
次に、マイクアレイ１０が出力するデータ構成例を説明する。
図１８は、本実施形態に係るマイクアレイ１０が出力するデータ構成例を示す図である。図１８に示すようにマイクアレイ１０が出力するデータの要素には、フォーマットバージョン、収録開始日、収録開始時刻、収録場所、マイクアレイ（マイクアレイ）機種名、マイクアレイ毎の情報（マイクアレイ毎の通し番号（マイクアレイ番号）、名称、設置位置）、収録音声データのサンプリング周波数、収録音声データのビット数、イベントデータ更新頻度等が含まれている。収録開始日は、年月日であってもよく季節であってもよい。イベントデータ更新頻度とは、図１２においてステップＳ１、Ｓ２で送信する間隔（フレーム時間）である。また、データは、例えばマークアップ言語の一種であるＸＭＬ（ＥｘｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）で記述する。
なお、図１８に示したデータの構成要素は一例であり、これに限らない。

［音源定位分離部３０が出力するイベントデータ構成例］
次に、音源定位分離部３０が出力するイベントデータ構成例を説明する。
図１９は、本実施形態に係る音源定位分離部３０が出力するイベントデータ構成例を示す図である。図１９に示すようにイベントデータには、フレーム番号、鳥毎の情報（位置推定音源ＩＤ、鳥種別、鳥の鳴き方、鳥座標（ｘ、ｙ、ｚ）、鳥ロール角（ｄｅｇ）、鳥ピッチ角（ｄｅｇ）、鳥ヨー角（ｄｅｇ）、鳥鳴き声の有り無し、鳥の羽ばたき有り無し）等が含まれている。フレーム数は、先頭からのフレーム数である。鳥の情報は、鳥毎に記述する。鳥ロール角は、左右の傾きであり、０で水平、範囲が－３６０～０～３６０、時計回りを正とする。鳥ピッチ角は、前後の傾きであり、０で水平、範囲が－３６０～０～３６０、時計回りを正とする。鳥ヨー角は、ＶＲ空間を上から見た鳥の回転角であり、０で北向き、範囲が－３６０～０～３６０、時計回りを正とする。鳴き声無しは、鳥に対応する分離音が無い場合である。羽ばたき有りは、羽根を動かすアニメーションを表示する。羽ばたき無しは、羽根を動かすアニメーションを表示しない。なお、鳥ロール角、鳥ピッチ角、鳥ヨー角は、例えば鳥が飛んでいると判断された場合、飛んでいる方向に頭を向ける角度に設定する。
なお、鳥の羽ばたき有り無しは、例えば鳥の鳴き方が、例えば谷渡りの場合に飛びながら鳴いていると判断して羽ばたき有りと音源定位分離部３０が判断するようにしてもよい。
また、データは、例えばマークアップ言語の一種であるＸＭＬ（ＥｘｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）で記述する。なお、鳥種別識別部４０が出力するデータは、ＪＳＯＮ（ＪａｖａＳｃｒｉｐｔ（登録商標）ＯｂｊｅｃｔＮｏｔａｔｉｏｎ）形式であってもよい。

［鳥種別のデータ例］
次に、鳥種別のデータ例を説明する。
図２０は、本実施形態に係る鳥種別のデータ例を示す図である。
鳥種別識別部４０の音響モデル記憶部４０２Ｎは、図２０に示すような鳥種別を記憶する。音響モデル記憶部４０２Ｎは、例えば、番号と野鳥名（日本名）と野鳥名（英名）を対応付けて記憶する。例えば、音響モデル記憶部４０２Ｎは、番号が１に、野鳥名（日本名）をウグイスと、野鳥名（英名）がＪａｐａｎｅｓｅＢｕｓｈＷａｒｂｌｅｒを対応付けて記憶する。鳥種別識別部４０が出力する鳥種別は、番号と野鳥名（日本名）と野鳥名（英名）のうち少なくとも１つであればよい。
また、データは、例えばマークアップ言語の一種であるＸＭＬ（ＥｘｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）で記述する。なお、鳥種別識別部４０が出力するデータは、ＪＳＯＮ（ＪａｖａＳｃｒｉｐｔ（登録商標）ＯｂｊｅｃｔＮｏｔａｔｉｏｎ）形式であってもよい。

［鳥の鳴き方のデータ例］
次に、鳥の鳴き方のデータ例を説明する。
図２１は、本実施形態に係る鳥の鳴き方のデータ例を示す図である。
鳥種別識別部４０の音響モデル記憶部４０２Ｎは、図２１に示すように鳥の鳴き方を記憶する。音響モデル記憶部４０２Ｎは、番号と鳴き方（日本名）と鳴き方（英名）を対応付けて記憶する。例えば、音響モデル記憶部４０２Ｎは、番号が１に、鳴き方（日本名）を地鳴きと、鳴き方（英名）がＣａｌｌを対応付けて記憶する。鳥種別識別部４０が出力する鳴き方は、番号と鳴き方（日本名）と鳴き方（英名）のうち少なくとも１つであればよい。
また、データは、例えばマークアップ言語の一種であるＸＭＬ（ＥｘｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）で記述する。

［表示装置に表示される画像例］
次に、オブジェクトの表示と非表示等の設定時に表示装置６２（図５）に表示される画像例を説明する。
図２２は、本実施形態に係るオブジェクトの表示と非表示等の設定時に表示装置６２に表示される画像例を示す図である。
図２２において、画像ｇ１０１は、ＶＲゴーグル７０に表示される画像である、画像ｇ１１１は、上述した植物オブジェクトの表示と非表示を切り替える操作ボタンの画像である。画像ｇ１１２は、上述した鳥種別の表示と非表示を切り替える操作ボタンの画像である。画像ｇ１１３は、設定のホーム画面（初期画面）に戻すための操作ボタンの画像である。また、画像ｇ１２１は、音響シーン再構成装置１が、認識した鳥の種別と鳴き声の結果の表示画像である。画像ｇ１２２は、ＶＲ画像（含む音声）の再生の操作画面の例である。
なお、図２２に示した表示画像は一例であり、これに限らない。

［ＣＮＮによる鳥の鳴き方、種別、ノイズの識別結果例］
次に、本実施形態の音響シーン再構成装置１の鳥種別識別部４０によって、鳥の鳴き方、種別、ノイズを識別した結果例を説明する。
図２３は、本実施形態に係る鳥種別識別部４０によって、鳥の鳴き方、種別、ノイズを識別した結果例を示す図である。
図２３において、横方向はフレームごとの認識結果を表し、縦方向はフレームごとの正解ラベルを表している。なお、検証は、５－分割交差検証（５－ｆｏｌｄｃｒｏｓｓ－ｖａｌｉｄａｔｉｏｎ）でおこなった。なお、車などのノイズ成分も音響モデル記憶部４０２Ｎが記憶している。図２３に示すように、平均フレーム正解率は、８１．５２％であった。

以上のように、本実施形態では、鳥の鳴き声を収音し、音源定位や音源分離するとともに、鳥の種類の識別情報、フレーズ情報、位置情報、動きを音データから再構成した。そして、本実施形態では、このように再構築したデータに基づいて、可視化と立体音響を生成してＶＲゴーグル７０で再生するようにした。
なお、ＶＲ表示の場合、利用者は、例えば部屋の中を歩き回ったり、上を見上げたりすることで、ＶＲゴーグル７０に、３ＤＶＲ画像が表示され、３ＤＶＲ音声が再生される。これにより、利用者は、例えば森の中で野鳥を加増的に観察し、鳴き声を仮想的に体験することができる。

これにより，本実施形態によれば、鳥の種類や鳴き方を視覚化して表示させることができる。また、本実施形態によれば、ＶＲ再生することで、以前に収録したデータを、利用者がもう一度体験できる。

なお、上述した例では、鳥の鳴き声を含む音声信号を収音し、音源定位、音源分離、鳥の種別や鳴き方の識別を行う例を説明したが、これに限らない。識別する対象は他であっても良い。この場合は、識別対象を音響モデル記憶部４０２Ｎに記憶させ、表示させる画像を画像モデル記憶部６０６に記憶させるようにしてもよい。

また、上述した例において、鳥は飛び回るため音源位置が移動する。このため、音響シーン再構成装置１は、移動する音源を追跡する必要がある。音源の追跡手法には、例えば特許第５１７０４４０号公報や特開２０１７－０６７８７９号公報に記載されている手法を用いる。

また、可視化処理部６０は、収音された収録開始日（図１８）に基づいて、背景の画像を季節に応じた画像に切り替えるようにしてもよい。または、利用者は、ＶＲゴーグル７０の操作部７０７を操作、またはコントローラ（表示装置６２）を介して操作して背景の画像を季節に応じた画像に切り替えるようにしてもよい。

＜第２実施形態＞
第１実施形態では、ＶＲゴーグル７０でＶＲ画像（含む音声）を再生する例を説明したが、本実施形態では、ＶＲゴーグル７０でＡＲ画像（含む音声）を再生する例を説明する。ＡＲ画像を再生することで、実時間で鳥のいる場所に鳥の種類や鳴き方を表示できる。

ＡＲで表示する音響シーン再構成装置１の構成は、第１実施形態と同様である。差異は、各機能部の処理である。
ＡＲ表示の場合、マイクアレイ１０（図１）が収音した音声信号は、音源定位分離部３０、鳥種別識別部４０、解析処理部５０、および可視化処理部６０によってリアルタイムで処理される。

可視化処理部６０は、ＶＲゴーグル７０を介してＶＲ空間上に、鳥オブジェクトの３ＤＶＲ画像を表示させるように制御する。
可視化処理部６０は、ＣＧで作成した鳥を例えばＸＭＬデータに基づきアニメーション付きで表示さる３ＤＶＲ画像を生成し、鳥の位置から３Ｄオーディオ化された鳴き声を再生させる３ＤＶＲ音声を生成する。ＡＲ表示においても、例えば、鳥の上部に鳴き声の種類が表示され、下部に鳥の名前が表示される。

利用者は、空間内の地形に沿って自由に歩く（ただしルームスケール内）。利用者が歩いている状態や位置は、ＶＲゴーグル７０が備えるセンサ７０５（図６）の検出値に基づいて、利用者の位置や状態を可視化処理部６０が判断して３ＤＶＲ画像と３ＤＶＲ音声を生成する。
または、利用者は、可視化処理部６０の制御部６１１に接続されるコントローラ（表示装置６２）を使用して空間内を移動するようにしてもよい。

図２４は、本実施形態に係るＡＲ表示時にコントローラ（表示装置６２）に表示される画面例を示す図である。
符号ｇ２０２の領域は、地図上に現在地と方向、鳴いている野鳥が表示される領域である。これにより、利用者が向いている方向がリアルタイムに矢印に反映され、現在時間に発声している野鳥が表示される。

符号ｇ２０３は、ワープの設定画像である。地図の範囲内を利用者がコントローラで指すことで、利用者が見ている画像は、その場所にワープする。なお、ワープ可能範囲は、移動可能範囲内である。また、またワープ先での方向は、現在向いている方向を維持している。

符号ｇ２０４の領域は、タイムラインで現在の時間、鳴き声が表示される領域である。可視化処理部６０は、リアルタイムでの表示を巻き戻し・早送り機能を削除する。なお、横軸は時刻であり、縦軸は角度（－１８０～０～１８０度）である。

符号ｇ２０５は、鳴き声の再生のオン状態とオフ状態の切り替えボタンの画像である。オン状態のときには、例えばグラフ右側に野鳥のリストが表示され、リストから特定の野鳥およびその鳴き声の種類をフィルタリングできる。図２５は、実施形態に係る野鳥のリストの画像例を示す図である。図２５に示すようにリストの画像には、鳥の種別（名前）と、鳥種別毎に鳴き声の選択ボタンの画像が表示される。

図２５において、符号ｇ２５１は、鳴き声の再生のオン状態とオフ状態の切り替えボタンの画像である。符号ｇ２５２は、鳥の画像である。符号ｇ２５３は、鳥種別（名前）の画像である。
符号ｇ２６０は、鳴き声の選択画像である。なお、選択可能な鳴き声の選択ボタンの画像が、例えば色を変えて表示される。符号ｇ２６１は、鳴き声が「不明」の選択ボタンの画像である。符号ｇ２６２は、鳴き声が「地鳴き」の選択ボタンの画像である。符号ｇ２６３は、鳴き声が「さえずり」の選択ボタンの画像である。符号ｇ２６４は、鳴き声が「谷渡り」の選択ボタンの画像である。符号ｇ２６５は、鳴き声が「威嚇」の選択ボタンの画像である。符号ｇ２６６は、鳴き声が「警戒声」の選択ボタンの画像である。符号ｇ２６７は、鳴き声が「ドラミング」の選択ボタンの画像である。

図２４に戻って説明を続ける。
符号ｇ２０６は、植物オブジェクトの表示と非表示を切り替えるボタンの画像である。
符号ｇ２０７は、鳥種別（名前）の表示と非表示を切り替えるボタンの画像である。
符号ｇ２０８は、マイクアレイ１０の表示と非表示を切り替えるボタンの画像である。なお、複数のマイクアレイ１０が空間内に設置されている場合は、マイクアレイ１０毎に表示を切り替えることができる。

符号ｇ２０９は、野鳥がオブジェクトに隠れた際の表示方法の切り替えボタンの画像である。
符号ｇ２１０は、野鳥の拡大表示を行うボタンの画像である。
符号ｇ２１０は、符号ｇ２０４のグラフ角度表示を切り替えるボタンの画像である。符号ｇ２１０は、グラフ上において、各マイクアレイ１０および利用者のそれぞれの位置を中心とした角度表示を切り替えるボタンである。
符号ｇ２１１は、時間表示・表示切り替えボタンの画像である。時計部分をクリックすることで、実際に記録された時間（ＪＳＴ）とファイル再生時からの時間に切り替わる。

なお、図２４と図２５に示した画像は、一例であり、これに限らない。また、図２４と図２５に示した設定画像は、ＶＲ表示の際も使用する。

以上のように、実施形態では、図２４と図２５に示したような設定画面と操作系を備えている。
これにより、実施形態によれば、ＶＲゴーグル７０に表示させる３ＤＶＲ画像を利用者または操作者が簡便に操作することができる。

ここで、鳥の鳴き声に分類に用いる畳み込みニューラルネットワーク（ＣＮＮ）について説明する。
図２６は、畳み込みニューラルネットワークの処理例を示す図である。
図２６に示すように、中間層は主に畳み込み層とプーリング層を交互に繰り返すことでデータの特徴を抽出し、最後に全結合層で認識を行う。ここでのプーリングとは、局所的に最大値や平均値をとる処理のことで、局所的なデータの不変性を獲得することを目的としている。
このような処理によって、鳥の鳴き声に分類する。

なお、実施形態では、可視化画像として、３ＤＶＲの背景画像、鳥の３ＤＶＲ画像、鳥種別、鳥の鳴き方をＶＲゴーグルに表示させる例を説明したが、これに限らない。例えば、実空間において、音響シーン再構成装置１は、音声信号の収音と解析をリアルタイムで行い、ＶＲゴーグルに表示を通して見える実空間のリアル画像に鳥種別、鳥の鳴き方を合成して表示するようにしてもよい。

なお、本発明における音響シーン再構成装置１の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音響シーン再構成装置１が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ－ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。

１…音響シーン再構成装置、１０，１０Ａ，１０Ｂ，１０Ｃ，１０Ｄ…マイクアレイ、２０，２０Ａ，２０Ｂ，２０Ｃ，２０Ｄ…取得部、３０，３０Ａ，３０Ｂ，３０Ｃ，３０Ｄ…音源定位分離部、４０，４０Ａ，４０Ｂ，４０Ｃ，４０Ｄ…鳥種別識別部、５０…解析処理部、６０…可視化処理部、６２…表示装置、７０…ＶＲゴーグル、
１０１ＮＡ，１０１ＮＢ，・・・，１０１ＮＭ…マイクロホン、１０２Ｎ…サンプリング信号生成部、１０３ＮＡ，１０３ＮＢ，・・・，１０３ＮＭ…ＡＤ変換器、１０４Ｎ…記憶部、１０５Ｎ…出力データ生成部、１０６Ｎ…出力部、
３０１Ｎ…音源定位部、３０２Ｎ…音源分離部、３０３Ｎ…特徴量抽出部、３０４Ｎ…第１出力部、３０５Ｎ…第２出力部、
４０１Ｎ…取得部、４０２Ｎ…音響モデル記憶部、４０３Ｎ…識別部、４０４Ｎ…シリアライズ部、４０５Ｎ…出力部、
５０１Ａ，５０１Ｂ，５０１Ｃ，５０１Ｄ…取得部、５０２…デシリアライズ部、５０３Ａ，５０３Ｂ，５０３Ｃ，５０３Ｄ…取得部、５０４…データ分離部、５０５…鳥位置推定部、５０６…位置・種別対応付け部、５０７…シリアライズ部、５０８…出力部、５０９…分離音決定部、５１０…分離音選択・位置推定音源ＩＤ付与部、５１１…シリアライズ部、５１２…出力部、
６０１…取得部、６０２…デシリアライズ部、６０３…取得部、６０４…デシリアライズ部、６０５…座標対応付け部、６０６…画像モデル記憶部、６０７…画像合成部、６０８…音声合成部、６０９…通信部、６１０…操作部６１０、６１１…制御部、
７０１…取得部、７０２…画像再生部、７０３…取得部、７０４…音声再生部、７０５…センサ、７０６…通信部７０６、７０７…操作部

Claims

収音した音声信号から音源定位と音源分離を行う音源定位分離部と、
前記音声信号に含まれる音源の種類を識別する識別部と、
前記音源定位分離部が音源定位と音源分離を行った結果と、前記識別部が識別した結果とに基づいて前記音源の位置の推定を行い、前記音源の位置を推定した結果に基づいて分離音を選択し、前記音源の位置の推定した結果と前記音源による音声信号の種類とを対応付けて可視化情報を生成する解析処理部と、
前記可視化情報と前記分離音とを用いて、前記音源に対応する画像を推定された前記音源の位置に表示させる画像を生成し、推定された前記音源の位置に前記分離音を再生させる音声を生成する可視化処理部と、
を備える音響シーン再構成装置。
前記音源定位分離部は、
前記音源の音源方向を音源定位し、音源分離して前記分離音を分離し、音源定位した結果に基づいて定位した音源毎に前記音源の識別情報を付与し、定位した前記音源毎に識別情報を付与した音源識別情報と前記音源方向の情報と音源分離した前記分離音とを前記解析処理部に出力し、前記分離音から音響特徴量を抽出し、前記定位した音源毎に前記音源の識別情報を付与した前記音響特徴量を前記識別部に出力し、
前記識別部は、
前記音源定位分離部が出力する定位された前記音源毎に前記音源識別情報と前記音源方向の情報を取得し、取得した前記音源毎に前記音響特徴量に基づいて音源の種類を識別し、前記定位された音源毎に前記音源識別情報と識別した結果である識別結果と前記解析処理部に出力する、請求項１に記載の音響シーン再構成装置。
前記音声信号の収音は、Ｍ（Ｍは２以上の整数）個のマイクロホンを備えるマイクアレイによって行われ、前記マイクアレイはＮ（Ｎは２以上の整数）個であり、
前記音源定位分離部は、前記マイクアレイ毎に設けられ、第１の前記マイクアレイが収音したＭチャネルの音声信号が第１の前記音源定位分離部に入力され、・・・、第Ｎの前記マイクアレイが収音したＭチャネルの音声信号が第Ｎの前記音源定位分離部に入力され、
前記識別部は、前記音源定位分離部毎に設けられ、第１の前記音源定位分離部が第１の前記識別部に接続され、・・・、第Ｎの前記音源定位分離部が第Ｎの前記識別部に接続され、
前記解析処理部は、
第１～第Ｎの前記音源定位分離部それぞれが出力する定位された音源毎に識別情報が付与された音源識別情報と音源方向の情報と音源分離した前記分離音を取得し、取得した前記分離音ごとに前記分離音に対応する音源の位置を複数のマイクロホンの前記分離音に基づいて推定し、複数の前記音源定位分離部が同時に前記分離音を検出した場合、複数の前記分離音の中から前記分離音に最も距離が近い前記マイクアレイによる前記分離音を選択する、請求項１または請求項２に記載の音響シーン再構成装置。
前記音声信号は、鳥の鳴き声であり、
前記音声信号に含まれる音源の種類は、前記鳥の名前と前記鳥の鳴き方である、請求項１から請求項３のいずれか１項に記載の音響シーン再構成装置。
前記可視化処理部が生成す画像と音声の設定を行うコントローラを備え、
前記コントローラを操作することで、前記音声信号に含まれる音源の種類の表示と非表示を切り替える操作と、および前記音声信号に含まれる音源の種類の表示倍率を切り替える操作のうち少なくとも１つを行い、操作された操作結果を前記可視化処理部に出力する、請求項１から請求項４のいずれか１項に記載の音響シーン再構成装置。
音源定位分離部が、収音した音声信号から音源定位と音源分離を行う音源定位分離ステップと、
識別部が、前記音声信号に含まれる音源の種類を識別する識別ステップと、
解析処理部が、前記音源定位分離ステップによって音源定位と音源分離が行われた結果と、前記識別ステップによって識別された結果とに基づいて前記音源の位置の推定を行い、前記音源の位置を推定した結果に基づいて分離音を選択し、前記音源の位置の推定した結果と前記音源による音声信号の種類とを対応付けて可視化情報を生成するステップと、
可視化処理部が、前記可視化情報と前記分離音とを用いて、前記音源に対応する画像を推定された前記音源の位置に表示させる画像を生成し、推定された前記音源の位置に前記分離音を再生させる音声を生成するステップと、
を含む音響シーン再構成方法。
音響シーン再構成装置のコンピュータに、
収音した音声信号から音源定位と音源分離を行う音源定位分離ステップと、
前記音声信号に含まれる音源の種類を識別する識別ステップと、
前記音源定位分離ステップによって音源定位と音源分離が行われた結果と、前記識別ステップによって識別された結果とに基づいて前記音源の位置の推定を行い、前記音源の位置を推定した結果に基づいて分離音を選択し、前記音源の位置の推定した結果と前記音源による音声信号の種類とを対応付けて可視化情報を生成するステップと、
前記可視化情報と前記分離音とを用いて、前記音源に対応する画像を推定された前記音源の位置に表示させる画像を生成し、推定された前記音源の位置に前記分離音を再生させる音声を生成するステップと、
を実行させるプログラム。