JP7177631B2 - 音響シーン再構成装置、音響シーン再構成方法、およびプログラム - Google Patents

音響シーン再構成装置、音響シーン再構成方法、およびプログラム Download PDF

Info

Publication number
JP7177631B2
JP7177631B2 JP2018157166A JP2018157166A JP7177631B2 JP 7177631 B2 JP7177631 B2 JP 7177631B2 JP 2018157166 A JP2018157166 A JP 2018157166A JP 2018157166 A JP2018157166 A JP 2018157166A JP 7177631 B2 JP7177631 B2 JP 7177631B2
Authority
JP
Japan
Prior art keywords
sound source
unit
sound
bird
separation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018157166A
Other languages
English (en)
Other versions
JP2020030376A (ja
Inventor
一博 中臺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2018157166A priority Critical patent/JP7177631B2/ja
Priority to US16/536,570 priority patent/US11373355B2/en
Publication of JP2020030376A publication Critical patent/JP2020030376A/ja
Application granted granted Critical
Publication of JP7177631B2 publication Critical patent/JP7177631B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/40Visual indication of stereophonic sound image
    • AHUMAN NECESSITIES
    • A01AGRICULTURE; FORESTRY; ANIMAL HUSBANDRY; HUNTING; TRAPPING; FISHING
    • A01KANIMAL HUSBANDRY; AVICULTURE; APICULTURE; PISCICULTURE; FISHING; REARING OR BREEDING ANIMALS, NOT OTHERWISE PROVIDED FOR; NEW BREEDS OF ANIMALS
    • A01K45/00Other aviculture appliances, e.g. devices for determining whether a bird is about to lay
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/24Indexing scheme for image data processing or generation, in general involving graphical user interfaces [GUIs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Computer Graphics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Description

本発明は、音響シーン再構成装置、音響シーン再構成方法、およびプログラムに関する。
近年、ゴーグル等を用いて利用者に、AR(Augmented Reality;拡張現実)体験や、VR(Virtual Reality;仮想現実)体験を提供する装置が開発されている。ARでは、現実に見ている視覚空間にコンピュータが生成した情報を、例えばゴーグルの表示部に重ねて表示させる。VRでは、コンピュータが描き出した仮想世界をゴーグルの表示部に表示させる。
特許文献1には、発話者の発話内容を、音源の位置から発話が放射される方向に表示させる技術が開示されている。この特許文献1に記載の技術によれば、視聴者が発話状況を容易に確認することができる。
また、バードウォッチ等において、各鳥の鳴き声を分離して提供することが求められている。森林等の野外でマイクロホンアレイ(以下、マイクアレイという)を用いて野鳥の鳴き声を収音し、収音した音声信号から各野鳥の鳴き声を分離する場合、認識したい対象の鳥の鳴き声に他の鳥の鳴き声や風によって発生する音など、音源同士が近い他の音が分離音に混合してしまうことがあった。これに対して、特許文献2には、音源同士が近い場合であっても、音源定位、音源分離、および音源同定を精度良く行う手法が開示されている。
また、鳥の歌のシーン分析は、エゴロジーにおける重要な研究課題である。この分野の研究者は、「いつ、どこで」、「どんな種類の鳥」などの鳥の歌に関する情報を自分で聞いて手動で記録する。このように、鳥の歌のシーン分析では、野鳥が鳴いている場所、野鳥の種類を知るには経験が必要である。この作業は難しく、記録結果には再現性の悪さや必然的な人為的ミスなどの欠陥がある可能性がある。このため、欠落している鳥の歌の抽出情報を理解できるように、鳥の歌シーン分析の結果を自動的に視覚化することが求められている。例えば実時間で、野鳥が鳴いている場所、野鳥の種類を視覚化することが求められている。また、例えばVRでバードウォッチを体験できるシステムが求められている。
特開2013-008031号公報 特開2018-040848号公報
しかしながら、従来の技術では、鳥が鳴いているシーン解析して提供できるシステムを実現できなかった。このように、従来技術では、音を解析してその音のシーンを再構築して提供できるシステムを実現できなかった。
本発明は、上記の問題点に鑑みてなされたものであって、音を解析してその音のシーンを再構築して提供できる音響シーン再構成装置、音響シーン再構成方法、およびプログラムを提供することを目的とする。
(1)上記目的を達成するため、本発明の一態様に係る音響シーン再構成装置(1)は、収音した音声信号から音源定位と音源分離を行う音源定位分離部(30,30A,30B,30C,30D)と、前記音声信号に含まれる音源の種類を識別する識別部(鳥種別識別部40,40A,40B,40C,40D)と、前記音源定位分離部が音源定位と音源分離を行った結果と、前記識別部が識別した結果とに基づいて前記音源の位置の推定を行い、前記音源の位置を推定した結果に基づいて分離音を選択し、前記音源の位置の推定した結果と前記音源による音声信号の種類とを対応付けて可視化情報を生成する解析処理部(50)と、前記可視化情報と前記分離音とを用いて、前記音源に対応する画像を推定された前記音源の位置に表示させる画像を生成し、推定された前記音源の位置に前記分離音を再生させる音声を生成する可視化処理部(60)と、を備える。
(2)また、本発明の一態様に係る音響シーン再構成装置において、前記音源定位分離部は、前記音源の音源方向を音源定位し、音源分離して前記分離音を分離し、音源定位した結果に基づいて定位した音源毎に前記音源の識別情報を付与し、定位した前記音源毎に識別情報を付与した音源識別情報と前記音源方向の情報と音源分離した前記分離音とを前記解析処理部に出力し、前記分離音から音響特徴量を抽出し、前記定位した音源毎に前記音源の識別情報を付与した前記音響特徴量を前記識別部に出力し、前記識別部は、前記音源定位分離部が出力する定位された前記音源毎に前記音源識別情報が付与された前記音響特徴量と音源分離した前記分離音を取得し、取得した前記音響特徴量に基づいて前記音源毎に前記音声信号に含まれる音源の種類を識別し、前記定位された音源毎に前記音源識別情報と識別した結果である識別結果とを前記解析処理部に出力するようにしてもよい。
(3)また、本発明の一態様に係る音響シーン再構成装置において、前記音声信号の収音は、M(Mは2以上の整数)個のマイクロホンを備えるマイクアレイによって行われ、前記マイクアレイはN(Nは2以上の整数)個であり、前記音源定位分離部は、前記マイクアレイ毎に設けられ、第1の前記マイクアレイが収音したMチャネルの音声信号が第1の前記音源定位分離部に入力され、・・・、第Nの前記マイクアレイが収音したMチャネルの音声信号が第Nの前記音源定位分離部に入力され、前記識別部は、前記音源定位分離部毎に設けられ、第1の前記音源定位分離部が第1の前記識別部に接続され、・・・、第Nの前記音源定位分離部が第Nの前記識別部に接続され、前記解析処理部は、第1~第Nの前記音源定位分離部それぞれが出力する定位された音源毎に識別情報が付与された音源識別情報と音源方向の情報と音源分離した前記分離音を取得し、取得した前記分離音ごとに前記分離音に対応する音源の位置を複数のマイクロホンの前記分離音に基づいて推定し、複数の前記音源定位分離部が同時に前記分離音を検出した場合、複数の前記分離音の中から前記分離音に最も距離が近い前記マイクアレイによる前記分離音を選択するようにしてもよい。
(4)また、本発明の一態様に係る音響シーン再構成装置において、前記音声信号は、鳥の鳴き声であり、前記音声信号に含まれる音源の種類は、前記鳥の名前と前記鳥の鳴き方であるようにしてもよい。
(5)また、本発明の一態様に係る音響シーン再構成装置において、前記可視化処理部が生成する画像と音声の設定を行うコントローラを備え、前記コントローラを操作することで、前記音声信号に含まれる音源の種類の表示と非表示を切り替える操作と、および前記音声信号に含まれる音源の種類の表示倍率を切り替える操作のうち少なくとも1つを行い、操作された操作結果を前記可視化処理部に出力するようにしてもよい。
(6)上記目的を達成するため、本発明の一態様に係る音響シーン再構成方法は、音源定位分離部が、収音した音声信号から音源定位と音源分離を行う音源定位分離ステップと、識別部が、前記音声信号に含まれる音源の種類を識別する識別ステップと、解析処理部が、前記音源定位分離ステップによって音源定位と音源分離が行われた結果と、前記識別ステップによって識別された結果とに基づいて前記音源の位置の推定を行い、前記音源の位置を推定した結果に基づいて分離音を選択し、前記音源の位置の推定した結果と前記音源による音声信号の種類とを対応付けて可視化情報を生成するステップと、可視化処理部が、前記可視化情報と前記分離音とを用いて、前記音源に対応する画像を推定された前記音源の位置に表示させる画像を生成し、推定された前記音源の位置に前記分離音を再生させる音声を生成するステップと、を含む。
(7)上記目的を達成するため、本発明の一態様に係るプログラムは、音響シーン再構成装置のコンピュータに、収音した音声信号から音源定位と音源分離を行う音源定位分離ステップと、前記音声信号に含まれる音源の種類を識別する識別ステップと、前記音源定位分離ステップによって音源定位と音源分離が行われた結果と、前記識別ステップによって識別された結果とに基づいて前記音源の位置の推定を行い、前記音源の位置を推定した結果に基づいて分離音を選択し、前記音源の位置の推定した結果と前記音源による音声信号の種類とを対応付けて可視化情報を生成するステップと、前記可視化情報と前記分離音とを用いて、前記音源に対応する画像を推定された前記音源の位置に表示させる画像を生成し、推定された前記音源の位置に前記分離音を再生させる音声を生成するステップと、を実行させる。
上述した(1)または(6)あるいは(7)によれば、音を解析してその音のシーンを再構築して提供できる。
上述した(2)によれば、各機能部に必要な情報を出力するようにしたので、処理量を削減でき精度良く処理することができる。
上述した(3)によれば、複数のマイクアレイで収音され分離された分離音のうち、マイクアレイと音源の距離が近い分離音を選択するようにノイズの少ない明瞭な音声信号を分離信号に用いることができる。
上述した(4)によれば、鳥の種類や鳴き方を視覚化して表示させることができる。また、上述した(4)によれば、VR再生することで、以前に収録したデータを、利用者がもう一度体験できる。
上述した(5)によれば、表示させるVR画像を利用者または操作者が簡便に操作することができる。
第1実施形態に係る音響シーン再構成装置の構成例を示すブロック図である。 第1実施形態に係るマイクアレイの構成例を示す図である。 第1実施形態に係る鳥種別識別部の構成例を示すブロック図である。 第1実施形態に係る解析処理部の構成例を示すブロック図である。 第1実施形態に係る可視化処理部の構成例を示す図である。 第1実施形態に係るVRゴーグルの構成例を示す図である。 マイクアレイの配置例を示す図である。 図7におけるマイクアレイの各座標を示す図である。 マイクアレイと音源位置と選択される分離音の関係を示す図である。 第1実施形態における分離音の決定ルールを説明するための図である。 入力音声信号と発話区間を示す図である。 第1実施形態に係る処理手順例と処理タイミング例を示す図である。 第1実施形態に係るVRゴーグルの画像再生部に表示される画像例を示す図である。 第1実施形態に係るVRゴーグルの画像再生部に表示される画像例を示す図である。 第1実施形態に係る植物オブジェクトが表示状態の画像例と非表示状態の画像例を示す図である。 第1実施形態に係る鳥種別(鳥の名前)が表示状態の画像例と非表示状態の画像例を示す図である。 第1実施形態に係る鳥オブジェクトの実サイズ表示と拡大表示の例を示す図である。 第1実施形態に係るマイクアレイが出力するデータ構成例を示す図である。 第1実施形態に係る音源定位分離部が出力するイベントデータ構成例を示す図である。 第1実施形態に係る鳥種別のデータ例を示す図である。 第1実施形態に係る鳥の鳴き方のデータ例を示す図である。 第1実施形態に係るオブジェクトの表示と非表示等の設定時に表示装置に表示される画像例を示す図である。 第1実施形態に係る鳥種別識別部によって、鳥の鳴き方、種別、ノイズを識別した結果例を示す図である。 第2実施形態に係るAR表示時にコントローラ(表示装置)に表示される画面例を示す図である。 実施形態に係る野鳥のリストの画像例を示す図である。 畳み込みニューラルネットワークの処理例を示す図である。
以下、本発明の実施の形態について図面を参照しながら説明する。なお、以下の説明に用いる図面では、各部材を認識可能な大きさとするため、各部材の縮尺を適宜変更している。
<第1実施形態>
[音響シーン再構成装置1の構成]
図1は、本実施形態に係る音響シーン再構成装置1の構成例を示すブロック図である。図1に示すように音響シーン再構成装置1は、マイクアレイ10(10A,10B,10C,10D)、取得部20(20A,20B,20C,20D)、音源定位分離部30(30A,30B,30C,30D)、鳥種別識別部40(40A,40B,40C,40D)、解析処理部50、可視化処理部60、およびVRゴーグル70を備える。
以下の説明において、マイクアレイ10A,10B,10C,10Dのうち1つを特定しない場合は、マイクアレイ10という。取得部20A,20B,20C,20Dのうち1つを特定しない場合は、取得部20という。音源定位分離部30A,30B,30C,30Dのうち1つを特定しない場合は、音源定位分離部30という。鳥種別識別部40A,40B,40C,40Dのうち1つを特定しない場合は、鳥種別識別部40という。
音源定位分離部30の構成については後述する。マイクアレイ10の構成については、図2を用いて後述する。鳥種別識別部40の構成については、図3を用いて後述する。解析処理部50の構成については、図4を用いて後述する。可視化処理部60の構成については、図5を用いて後述する。
なお、図1に示した例では、マイクアレイ10を4つ用いる例を示したが、マイクアレイ10は1つ以上であればよい。音響シーン再構成装置1は、マイクアレイ10の個数に対応する個数の取得部20、音源定位分離部30および鳥種別識別部40それぞれを備える。例えば、マイクアレイ10が2個の場合、取得部20、音源定位分離部30および鳥種別識別部40それぞれの個数は2個ずつである。
マイクアレイ10は、後述するようにM(Mは2以上の整数)個のマイクロホン等を備えている。マイクアレイ10は、M個のマイクロホンが収音した音声信号をデジタル信号に変換し、デジタル信号に変換した音声信号にマイクアレイ番号を付与して、取得部20に出力する。なお、マイクアレイ10Aは取得部20Aに出力し、マイクアレイ10Bは取得部20Bに出力し、マイクアレイ10Cは取得部20Cに出力し、マイクアレイ10Dは取得部20Dに出力する。なお、マイクアレイ10は、収音したMチャネルの音声信号を取得部20に無線で送信してもよいし、有線で送信してもよい。送信の際にチャネル間で音声信号が同期していればよい。なお、マイクアレイ番号には、マイクアレイ10の識別情報と、マイクアレイ10が設置された位置(図7等を用いて後述するxyz空間における座標)が含まれている。
取得部20は、マイクアレイ10のM個のマイクロホンによって収音されマイクアレイ番号が付与されたM個の音声信号を取得する。取得部20は、取得したM個の音声信号に対し、時間領域において、フレーム毎にフーリエ変換を行うことで周波数領域の入力信号を生成する。取得部20は、フーリエ変換したM個の音声信号にマイクアレイ番号を付与して、音源定位分離部30に出力する。なお、取得部20Aは音源定位分離部30Aに出力し、取得部20Bは音源定位分離部30Bに出力し、取得部20Cは音源定位分離部30Cに出力し、取得部20Dは音源定位分離部30Dに出力する。なお、取得部20と音源定位分離部30は、有線または無線によって接続されている。
音源定位分離部30は、取得部20から入力されたマイクアレイ番号が付与されたM個の音声信号に基づいて、音源の方位角の推定(音源定位)と、方位方向毎に分離された音声信号の分離(音源分離)と、分離された音声信号の特徴量抽出を行う。音源定位分離部30は、分離した音源毎に識別情報(ID)を付与し、IDを付与した音源ID(音源識別情報と)と特徴量を鳥種別識別部40に出力する。音源定位分離部30は、IDを付与した音源IDと、音源方位角・仰角と、分離した分離音とマイクアレイ番号とを解析処理部50に出力する。なお、音源定位分離部30は、音源定位できた音源毎に、音源IDと、音源方位角・仰角と分離音とマイクアレイ番号とを解析処理部50に出力する。このため、音源定位分離部30は、複数の音源について音源IDと、音源方位角・仰角と、分離音とマイクアレイ番号とを解析処理部50に出力する場合もある。音源定位分離部30の構成と各部が行う処理については、後述する。なお、音源定位分離部30と鳥種別識別部40と解析処理部50は、有線または無線によって接続されている。なお、北を0度とし、北に対する水平方向の角度を方位角とする。また、地面に対して水平面を0度とし、水平面に対する垂直方向の角度を仰角とする。なお、音源定位分離部30は、HARK(Honda Research Institute Japan Audition for Robots with Kyoto University)(参考文献1)によって構成するようにしてもよい。
参考文献1;K. Nakadai, H. G. Okuno, and T. Mizumoto, “Development, deployment and applications of robot audition open source software HARK,” Journal of Robotics and Mechatronics, vol. 29, no. 1, pp. 16-25, 2017.
鳥種別識別部40(識別部)は、音源定位分離部30が出力する音源IDと特徴量を取得し、取得した特徴量に基づいて鳥の種別と鳴き方を識別する。なお、鳴き方とは、地鳴き(call)、さえずり(Song)、谷渡り(Valley to Valley)、警戒声(Alarm call)、およびドラミング(Drumming)等である。鳥種別識別部40は、音源IDと鳥種別と鳴き方を解析処理部50に出力する。鳥種別識別部40の構成と各部(図2)が行う処理については、後述する。なお、鳥種別識別部40と解析処理部50は、有線または無線によって接続されている。
解析処理部50は、音源定位分離部30それぞれが出力する音源IDと音源方位角・仰角と分離音とマイクアレイ番号と、鳥種別識別部40それぞれが出力する音源IDと鳥種別と鳴き方を取得する。なお、鳥種別は、鳥の名称であってもよく、鳥の名称に対応する識別番号であってもよい。解析処理部50は、取得した情報を用いて可視化情報と分離音情報を生成し、生成した可視化情報と分離音情報を可視化処理部60に出力する。解析処理部50の構成と各部(図3)が行う処理については、後述する。なお、解析処理部50と可視化処理部60は、有線または無線によって接続されている。
可視化処理部60は、解析処理部50が出力する可視化情報と分離音情報を取得する。可視化処理部60は、取得した可視化情報と分離音情報に基づいて3D(三次元) VR画像と、3D VR音声を生成し、生成した3D VR画像と3D VR音声をVRゴーグル70に出力する。可視化処理部60の構成と各部(図3)が行う処理については、後述する。なお、可視化処理部60とVRゴーグル70は、有線または無線によって接続されている。
VRゴーグル70は、可視化処理部60が出力する3D VR画像を表示し、可視化処理部60が出力する3D VR音声を再生する。VRゴーグル70の構成(図6)については、後述する。
[マイクアレイ10の構成]
次に、マイクアレイ10の構成例を説明する。
図2は、本実施形態に係るマイクアレイ10の構成例を示す図である。図2に示すようにマイクアレイ10それぞれは、M(Mは、2以上の整数、例えば8)個のマイクロホン101N(Nは2以上の整数)A,101NB,・・・,101NM、サンプリング信号生成部102N、AD変換器103NA,103NB,・・・,103NM、記憶部104N、出力データ生成部105N、および出力部106Nを備えている。
マイクロホン101NA,101NB,・・・,101NMは、それぞれ異なる位置に配置されている。マイクロホン101Nは、AD(アナログーデジタル)変換器103Nに接続されている。マイクロホン101NAはAD変換器103NAに接続されている。マイクロホン101NBはAD変換器103NBに接続されている。マイクロホン101NMはAD変換器103NMに接続されている。なお、例えばマイクアレイ10の形状が球状の場合、マイクロホンは水平方向と垂直方向とに配置されている。このように配置された複数のマイクロホンが収音した音声信号を用いて、音源定位分離部30は、水平方向の方位角と、垂直方向の仰角を検出することができる。
サンプリング信号生成部102Nは、AD変換器103NA,103NB,・・・,103NMが使用するサンプリング信号を生成し、生成したサンプリング信号をAD変換器103NA,103NB,・・・,103NMに出力する。サンプリング信号の周波数は、例えば16kHzである。
AD変換器103NA,103NB,・・・,103NMそれぞれは、対応するマイクロホン101NA,101NB,・・・,101NMが収音したアナログ信号をデジタル信号に変換して出力データ生成部105Nに出力する。
記憶部104Nは、マイクアレイ番号を記憶する。
出力データ生成部105Nは、AD変換器103NA,103NB,・・・,103NMが出力するM個の音声信号を用いてMチャネルの音声信号を生成する。出力データ生成部105Nは、生成したMチャネルの音声信号にマイクアレイ番号を付与して、出力部106Nに出力する。
出力部106Nは、出力データ生成部105Nが出力するマイクアレイ番号が付与されたMチャネルの音声信号を、取得部20Nに出力する。なお、マイクアレイ10が出力するデジタル信号のファーマットについては後述する。なお、出力部106Nが出力するデータには、後述するように、収録日時、収録開始時刻等の情報が含まれていてもよい。
また、複数のマイクアレイ10それぞれは、鳥の鳴き声を含む音声信号を同時間に非同期で取得する。なお、マイクアレイ10それぞれは、録音部を備え、録音したデータを取得部20に出力するようにしてもよい。
[音源定位分離部30の構成と各部の処理]
次に、音源定位分離部30の構成と各部の処理について説明する。
音源定位分離部30N(NはA~D)は、音源定位部301N、音源分離部302N、特徴量抽出部303N、第1出力部304N、および第2出力部305Nを備える。
音源定位部301N(NはA~D)は、取得部20が出力するマイクアレイ番号が付与されたMチャネルの音声信号に基づいて各音源の方向を予め定めた長さのフレーム(例えば、20ms)毎に定める(音源定位)。音源定位部301Nは、音源定位において、例えば、MUSIC(Multiple Signal Classification;多重信号分類)法を用いて方向毎のパワーを示す空間スペクトルを算出する。音源定位部301Nは、空間スペクトルに基づいて音源毎の音源方向を定める。音源定位部301Nは、音源方向を示す音源方向情報(音源方位角・仰角)に音源IDを付与して、音源分離部302Nに出力する。音源定位部301Nは、音源方向を示す音源方向情報(音源方位角・仰角)に音源IDとマイクアレイ番号を付与して、第1出力部304Nに出力する。なお、音源定位部301Nは、MUSIC法に代えて、その他の手法、例えば、重み付き遅延和ビームフォーミング(WDS-BF:Weighted Delay and Sum Beam Forming)法を用いて音源定位を算出してもよい。
音源分離部302N(NはA~D)は、音源定位部301Nが出力する音源IDが付与された音源方向情報と、取得部20が出力するMチャネルの音声信号を取得する。音源分離部302Nは、Mチャネルの音声信号を音源方向情報が示す音源方向に基づいて、音源毎の成分を示す音声信号である音源別音声信号(分離音)に分離する。音源分離部302Nは、音源別音声信号に分離する際、例えば、GHDSS(Geometric-constrained High-order Decorrelation-based Source Separation)法を用いる。音源分離部302Nは、分離した音声信号のスペクトルを求めて、求めた音声信号のスペクトルを特徴量抽出部303Nに出力する。また、音源分離部302Nは、分離できた全ての分離音を第1出力部304Nに出力する。
なお、音源定位分離部30は、発話区間検出部(不図示)を備えていてもよい。音源定位分離部30が発話区間検出部を備える場合、発話区間検出部は、音源定位部301Nが出力する音源方向情報と、取得部20が出力するMチャネルの音声信号に基づいて発話区間(発話の開始時刻と発話の終了時刻)を検出するようにしてもよい。そして、音源分離部302Nは、発話区間検出部が検出した発話区間(発話の開始時刻と発話の終了時刻)も用いて、音源を分離するようにしてもよい。なお、音源分離部302Nは、音声信号の大きさが所定値以上の区間を発話区間とみなすようにしてもよい。
特徴量抽出部303N(NはA~D)は、音源分離部302Nが出力するスペクトルから音響特徴量を音源毎に計算する。特徴量抽出部303Nは、例えば、静的メル尺度対数スペクトル(MSLS:Mel-Scale Log Spectrum)、デルタMSLS及び1個のデルタパワーを、所定時間(例えば、10ms)毎に算出することで音響特徴量を算出する。なお、MSLSは、音響認識の特徴量としてスペクトル特徴量を用い、MFCC(メル周波数ケプストラム係数;Mel Frequency Cepstrum Coefficient)を逆離散コサイン変換することによって得られる。特徴量抽出部303Nは、求めた音響特徴量を第2出力部305Nに出力する。
第1出力部304N(NはA~D)は、音源定位部301Nが出力する音源IDとマイクアレイ番号が付与された音源方位角・仰角と分離音を、解析処理部50に出力する。なお、第1出力部304Nが出力するデータには、複数の音源毎のデータが含まれる場合もある。
第2出力部305N(NはA~D)は、特徴量抽出部303Nが出力する音源IDが付与された音響特徴量を、鳥種別識別部40に出力する。なお、音源定位分離部30Aは鳥種別識別部40Aに出力し、音源定位分離部30Bは鳥種別識別部40Bに出力し、音源定位分離部30Cは鳥種別識別部40Cに出力し、音源定位分離部30Dは鳥種別識別部40Dに出力する。なお、第2出力部305Nが出力するデータには、複数の音源毎のデータが含まれる場合もある。
[鳥種別識別部40の構成と各部の処理]
次に、鳥種別識別部40の構成と各部の処理について説明する。
図3は、本実施形態に係る鳥種別識別部40の構成例を示すブロック図である。図3に示すように鳥種別識別部40は、取得部401N、音響モデル記憶部402N、識別部403N、シリアライズ部404N、および出力部405Nを備える。
取得部401Nは、音源定位分離部30が出力する音源IDが付与された音響特徴量を取得し、取得した音源IDが付与された音響特徴量を識別部403Nに出力する。
音響モデル記憶部402Nは、鳥種別(鳥の名称)毎に、鳥種別に、鳥の鳴き方毎の鳴き声の特徴量関連付けて記憶する。例えば、音響モデル記憶部402Nは、鳥種別がウグイスに、ウグイスの地鳴きの特徴量と、ウグイスのさえずりの特徴量と、ウグイスの威嚇の特徴量と、ウグイスの谷渡りの特徴量と、ウグイスの警戒声の特徴量とを関連付けて記憶する。
識別部403Nは、取得部401Nが出力する音源IDが付与された音響特徴量を、音響モデル記憶部402Nを参照して鳥種別と鳴き方を識別する。識別部403Nは、識別した音源IDと鳥種別と鳴き方をシリアライズ部404Nに出力する。なお、識別部403Nは、例えば特許文献2(特開2018-040848号公報)に記載の技術を用いて、音源同士の近さ情報を有効に利用することによって、精度良く音源の識別を行う。また、識別部403Nは、例えば畳み込みニューラルネットワーク(Convolutional Neural Network;CNN)に基づいて分離音に最も近い鳥の鳴き声に分類を行う。なお、識別部403Nは、音源定位分離部30が定位できた全ての音声(分離音)毎に、識別を行う。なお、識別部403Nは、鳴き声の分類を、DNN(Deep Neural Network;ディープニューラルネットワーク)等で行ってもよい。または、識別部403Nは、GMMやSVMなど「一般的な機械学習分野の識別手法を用いて鳥種別と鳴き方を識別するようにしてもよい。
シリアライズ部404Nは、識別部403Nが出力する音源IDと鳥種別と鳴き方をバイト単位で読み書きできるバイト配列に変換(以下、シリアル化するという)し、変換したデータ(音源IDと鳥種別と鳴き方)を出力部405Nに出力する。変換したデータには、音源定位分離部30が定位できた全ての音声(分離音)毎に識別されたデータ(音源IDと鳥種別と鳴き方)が含まれている。
出力部405Nは、シリアライズ部404Nはシリアル化された音源IDと鳥種別と鳴き方を解析処理部50に出力する。なお、出力部405Nが出力する情報のファーマットについては後述する。
[解析処理部50の構成と各部の処理]
次に、解析処理部50の構成と各部の処理について説明する。
図4は、本実施形態に係る解析処理部50の構成例を示すブロック図である。図4に示すように解析処理部50は、取得部501A,501B,501C,501D、デシリアライズ部502、取得部503A,503B,503C,503D、データ分離部504、鳥位置推定部505、位置・種別対応付け部506、シリアライズ部507、出力部508、分離音決定部509、分離音選択・位置推定音源ID付与部510、シリアライズ部511、および出力部512を備える。
取得部501Aは、鳥種別識別部40Aが出力するシリアル化された音源IDと鳥種別と鳴き方を取得し、取得したシリアル化された音源IDと鳥種別と鳴き方をデシリアライズ部502に出力する。
取得部501Bは、鳥種別識別部40Bが出力するシリアル化された音源IDと鳥種別と鳴き方を取得し、取得したシリアル化された音源IDと鳥種別と鳴き方をデシリアライズ部502に出力する。
取得部501Cは、鳥種別識別部40Cが出力するシリアル化された音源IDと鳥種別と鳴き方を取得し、取得したシリアル化された音源IDと鳥種別と鳴き方をデシリアライズ部502に出力する。
取得部501Dは、鳥種別識別部40Dが出力するシリアル化された音源IDと鳥種別と鳴き方を取得し、取得したシリアル化された音源IDと鳥種別と鳴き方をデシリアライズ部502に出力する。
なお、取得部501A,501B,501Cおよび501Dそれぞれが取得するシリアル化されたデータには、音源定位分離部30が定位できた全ての音声(分離音)毎に鳥種別識別部40A,40B,40C,40Dによって識別されたデータ(音源IDと鳥種別と鳴き方)が含まれている。
デシリアライズ部502は、取得部501A,501B,501Cおよび501Dそれぞれが出力するシリアル化された音源IDと鳥種別と鳴き方に対して、シリアル化されたバイト列を元のデータに戻し、且つデータを統合する。デシリアライズ部502は、取得部501A,501B,501Cおよび501Dのデータを統合した音源IDと鳥種別と鳴き方を位置・種別対応付け部506に出力する。なお、デシリアライズ部502が出力するデータには、音源定位分離部30A,30B,30Cおよび30Dが定位できた全ての音声(分離音)毎に鳥種別識別部40A,40B,40C,40Dによって識別されたデータ(音源IDと鳥種別と鳴き方)が含まれている。
取得部503Aは、音源定位分離部30Aが出力する音源IDとマイクロホン番号が付与された音源方位角・仰角と分離音を取得し、取得した音源IDとマイクロホン番号が付与された音源方位角・仰角と分離音をデータ分離部504に出力する。
取得部503Bは、音源定位分離部30Bが出力する音源IDとマイクロホン番号が付与された音源方位角・仰角と分離音を取得し、取得した音源IDとマイクロホン番号が付与された音源方位角・仰角と分離音をデータ分離部504に出力する。
取得部503Cは、音源定位分離部30Cが出力する音源IDとマイクロホン番号が付与された音源方位角・仰角と分離音を取得し、取得した音源IDとマイクロホン番号が付与された音源方位角・仰角と分離音をデータ分離部504に出力する。
取得部503Dは、音源定位分離部30Dが出力する音源IDとマイクロホン番号が付与された音源方位角・仰角と分離音を取得し、取得した音源IDとマイクロホン番号が付与された音源方位角・仰角と分離音をデータ分離部504に出力する。
なお、取得部503A,503B,503Cおよび503Dそれぞれが取得するデータ(マイクロホン番号が付与された音源方位角・仰角と分離音)には、音源定位分離部30が定位できた全ての音声(分離音)毎のデータ(マイクロホン番号が付与された音源方位角・仰角と分離音)が含まれている。
データ分離部504は、取得部503A,503B,503Cおよび503Dそれぞれが出力する音源IDとマイクロホン番号が付与された音源方位角・仰角と分離音を、音源IDとマイクロホン番号が付与された音源方位角・仰角と、分離音と音源IDとに分離する。データ分離部504は、音源IDとマイクロホン番号が付与された音源方位角・仰角を鳥位置推定部505に出力する。なお、データ分離部504が鳥位置推定部505に出力するデータ(音源IDとマイクロホン番号が付与された音源方位角・仰角)は、音源定位分離部30が定位できた全ての音声(分離音)に対するデータ(音源IDとマイクロホン番号が付与された音源方位角・仰角)である。データ分離部504は、分離音と音源IDを分離音選択・位置推定音源ID付与部510に出力する。なお、データ分離部504が分離音選択・位置推定音源ID付与部510に出力する分離音は、音源定位分離部30が定位できた全ての音声(分離音)が含まれている。
鳥位置推定部505は、データ分離部504が出力する音源IDとマイクロホン番号が付与された音源方位角・仰角毎のデータに基づいて、音源ID毎の鳴き声の鳥の位置を推定し、推定した音源IDの鳥の位置を鳥座標とする。鳥位置推定部505は、鳥座標を推定した分離音に識別情報を付与して位置推定音源IDとする。同じ時間にマイクアレイ10Aと10Bと10Cによって音源が定位と分離された場合、例えば、鳥位置推定部505は、マイクアレイ10Aによる音源ID=10、マイクアレイ10Bによる音源ID=5、およびマイクアレイ10Cによる音源ID=12に対して位置推定音源ID=6を付与する。鳥位置推定部505は、位置推定音源IDと、推定した鳥座標とを位置・種別対応付け部506に出力する。鳥位置推定部505は、位置推定音源IDと、鳥座標を推定した音源IDと、音源IDに対応するマイクアレイ番号を分離音決定部509に出力する。なお、鳥位置推定部505は、後述するように同じ時間に検出された複数の分離音それぞれを収音した複数のマイクアレイ10を用いて三角測量の手法(例えば、特願2017-172452号参照)によって鳥座標を推定する。また、鳥位置推定部505は、音源定位分離部30が定位できた全ての音声(分離音)毎に座標を推定する。
位置・種別対応付け部506は、デシリアライズ部502が出力する音源IDと鳥種別と鳴き方と、鳥位置推定部505が出力する位置推定音源IDと鳥座標を取得する。位置・種別対応付け部506は、音源IDと鳥種別と鳴き方と位置推定音源IDと鳥座標とに基づいて、鳴き声の主の鳥座標と鳥種別と鳴き方を対応付ける。位置・種別対応付け部506は、対応付けた位置推定音源IDと鳥座標と鳥種別と鳴き方をシリアライズ部507に出力する。なお、位置・種別対応付け部506は、音源定位分離部30A,30B,30Cおよび30Dが定位できた全ての音声(分離音)毎に鳥種別識別部40A,40B,40C,40Dによって識別されたデータ(音源IDと鳥種別と鳴き方)と鳥座標を対応付けする。すなわち、本実施形態では、マイクアレイ10によって取得された音声信号から、音源定位分離部30と鳥種別識別部40と解析処理部50が、位置(鳥座標)、種に関する鳥の鳴き声の情報を抽出し、鳥の鳴き声イベントに統合する。なお、音源定位分離部30が発話区間検出部を備えている場合、統合される鳥の鳴き声イベントには、時間情報(発話開始時刻、発話終了時刻)も含まれる。この場合、時間情報(発話開始時刻、発話終了時刻)は、音源定位分離部30の第2出力部305Nが出力するデータに含まれる。
シリアライズ部507は、位置・種別対応付け部506が出力する位置推定音源IDと鳥座標と鳥種別と鳴き方をシリアル化する。シリアライズ部507は、シリアル化した位置推定音源IDと鳥座標と鳥種別と鳴き方を可視化情報として出力部508に出力する。なお、シリアライズ部507が出力するデータは、音源定位分離部30A,30B,30Cおよび30Dが定位できた全ての音声(分離音)毎に鳥種別識別部40A,40B,40C,40Dによって識別されたデータ(音源IDと鳥種別と鳴き方)に鳥座標が対応付けられたデータ(鳥座標と鳥種別と鳴き方)である。なお、可視化情報は、例えばJSON(JavaScript(登録商標) Object Notation)形式である。また、可視化情報は、後述するメタデータ(マイクアレイに関する情報、収音に関する情報)とイベントデータ(フレーム情報、鳥毎の情報)の2種類から構成されていてもよい。
出力部508は、シリアライズ部507が出力する可視化情報を可視化処理部60に出力する。
分離音決定部509は、鳥位置推定部505が出力する位置推定音源IDに基づいて分離音を決定し、決定した決定結果を分離音選択・位置推定音源ID付与部510に出力する。分離音決定部509が分離音選択・位置推定音源ID付与部510に出力する情報には、マイクアレイ番号と音源IDと位置推定音源IDが含まれている。なお、分離音決定部509は、推定した鳥の位置(音源位置)と、マイクアレイ番号に含まれるマイクアレイ10が設置された位置とに基づいて、音源に最も近いマイクアレイ10が収音した分離音を選択して決定する。例えば、マイクアレイ10Aによる音源ID=10、マイクアレイ10Bによる音源ID=5、およびマイクアレイ10Cによる音源ID=12に対して位置推定音源ID=6を付与されている場合、分離音決定部509は、音源に最も近いマイクアレイ10Aによる音源ID=10の分離音を選択する。なお、鳥が鳴きながら移動し座標が変化する場合も、切換による音質変化を防ぐために、分離音決定部509は、マイクアレイ選択は固定し追従させない。なお、分離音決定については、後述する。
分離音選択・位置推定音源ID付与部510は、分離音決定部509が出力する決定結果に応じて、データ分離部504が出力する分離音に位置推定音源IDを付与する。例えば、分離音としてマイクアレイ10Aによる音源ID=10が決定結果の場合、分離音選択・位置推定音源ID付与部510は、音源ID=10に対応する分離音を選択し、選択した分離音に位置推定音源ID=6を付与する。分離音選択・位置推定音源ID付与部510は、選択した分離音(位置推定分)と、位置推定音源IDをシリアライズ部511に出力する。位置推定音源IDの付与の仕方については、図10を用いて後述する。
シリアライズ部511は、分離音選択・位置推定音源ID付与部510が出力する分離音(位置推定分)と位置推定音源IDをシリアル化する。シリアライズ部511は、シリアル化した分離音(位置推定分)と位置推定音源IDを分離音情報として出力部512に出力する。
出力部512は、シリアライズ部511が出力する分離音情報を可視化処理部60に出力する。なお、出力部512は、分離音情報を分離音毎に出力する。
[可視化処理部60の構成と各部の処理]
次に、可視化処理部60の構成と各部の処理について説明する。
図5は、本実施形態に係る可視化処理部60の構成例を示す図である。図5に示すように可視化処理部60は、取得部601、デシリアライズ部602、取得部603、デシリアライズ部604、座標対応付け部605、画像モデル記憶部606、画像合成部607、音声合成部608、通信部609、操作部610、および制御部611を備える。
取得部601は、解析処理部50が出力する可視化情報を取得し、取得した可視化情報をデシリアライズ部602に出力する。
デシリアライズ部602は、取得部601が出力するシリアル化された可視化情報に対してシリアル化されたバイト列を元のデータに戻して、元に戻した可視化情報を座標対応付け部605と画像合成部607に出力する。
取得部603は、解析処理部50が出力する分離音情報を取得し、取得した分離音情報をデシリアライズ部604に出力する。
デシリアライズ部604は、取得部603が出力するシリアル化された分離音情報に対してシリアル化されたバイト列を元のデータに戻して、元に戻した分離音情報を座標対応付け部605に出力する。
座標対応付け部605は、デシリアライズ部602が出力する可視化情報と、デシリアライズ部604が出力する分離音情報を取得する。座標対応付け部605は、可視化情報に含まれる鳥座標を抽出し、抽出した鳥座標を分離音と位置推定音源IDに対応付ける。座標対応付け部605は、鳥座標を対応付けた分離音と位置推定音源IDを音声合成部608に出力する。
画像モデル記憶部606は、鳥の3D(三次元)画像モデルのデータを記憶する。なお、画像モデル記憶部606は、1種類の鳥について、木に止まっている画像モデルのデータ、飛んでいる画像モデルのデータ等、複数の画像モデルのデータを記憶するようにしてもよい。また、画像モデル記憶部606は、VR空間内の植物オブジェクトの画像モデルのデータ、VR空間内の岩や木のオブジェクトの画像モデルのデータ、VR空間内の地形の画像モデルのデータ等を記憶する。
画像合成部607は、デシリアライズ部602が出力する可視化情報に含まれる鳥種別に基づいて、画像モデル記憶部606が記憶する情報を用いて、鳥の3D画像を作成する。画像合成部607は、制御部611が出力するVRゴーグル70の利用者位置情報に基づいて、画像モデル記憶部606が記憶する画像モデルのデータを用いて、VR空間内の画像を生成し、VR空間内において可視化情報に含まれる鳥座標の位置に鳥の3D画像を合成し、合成した画像を3D VR画像としてVRゴーグル70に出力する。なお、3D VR画像には、鳥の3D VR画像に加えて、鳥の方を示す画像、鳥種別(鳥の名称)を示す画像が含まれる。また、鳥の3D VR画像はアニメーション画像である。
音声合成部608は、制御部611が出力するVRゴーグル70の利用者位置情報と、座標対応付け部605が出力する鳥座標を対応付けた分離音と位置推定音源IDとに基づいて、VR空間内において鳥座標に位置に分離音が定位するように音声情報を生成する。なお、音声合成部608は、風の音や川の流れる音、風によって木の葉が発する音等を記憶し、これらの音声と分離音とを合成するようにしてもよい。なお、音声合成部608は、鳥の鳴き声を、鳥の位置から3Dオーディオ化された音声が再生されるように合成する。
通信部609は、有線または無線でVRゴーグル70と通信を行う。通信部609は、VRゴーグル70が出力する利用者位置情報と設定指示を受信し、受信した利用者位置情報と設定指示を制御部611に出力する。
操作部610は利用者が操作した操作結果を検出し、検出した操作結果を制御部611に出力する。操作結果には、VR画像の設定指示等が含まれている。
制御部611は、通信部609が出力した利用者位置情報を画像合成部607と音声合成部608に出力する。制御部611は、設定画面の画像を生成し、生成した設定画面の画像を表示装置62に表示させる。制御部611は、操作部610が出力する操作結果、または通信部609が出力する設定指示に基づいて表示させる画像の表示設定指示を生成し、生成した表示指示を画像合成部607に出力する。表示指示には、後述する拡大表示、鳥種別の表示有り無し等が含まれている。なお、表示装置62は、タブレット端末等であってもよい。表示装置62がタブレット端末の場合、表示装置62は操作部610を備えていてもよい。この場合、操作部610は、表示装置62の表示部上に設けられているタッチパネルセンサである。
[VRゴーグル70の構成と各部の処理]
次に、VRゴーグル70の構成と各部の処理について説明する。
図6は、本実施形態に係るVRゴーグル70の構成例を示す図である。図6に示すようにVRゴーグル70は、取得部701、画像再生部702、取得部703、音声再生部704、センサ705、通信部706、および操作部707を備える。
取得部701は、可視化処理部60が出力する3D VR画像を取得し、取得した3D VR画像を画像再生部702に出力する。
画像再生部702は、左右の有機EL(Electro- Luminescence)ディスプレイ装置または液晶表示装置、投影光学系、画像表示駆動部等を備える。画像再生部702は、取得部701が出力する3D VR画像を表示する。
取得部703は、可視化処理部60が出力する3D VR音声を取得し、取得した3D VR音声を音声再生部704に出力する。
音声再生部704は、左右のスピーカー、音声駆動部等を備える。音声再生部704は、取得部703が出力する3D VR音声を表示する。
センサ705は、加速度を検出する加速度センサ、角速度を検出するジャイロセンサ、大気圧を検出する気圧センサ、位置情報を検出するGPS(Global Positioning System;全地球測位システム)受信器のうち少なくとも1つである。センサ705は、各センサが検出した結果に基づいてVRゴーグル70の使用者位置情報(含む使用者の向き)を通信部706に出力する。
通信部706は、センサ705が出力する使用者位置情報を可視化処理部60に送信する。通信部706は、操作部707が出力する操作結果を可視化処理部60に送信する。
操作部707は、利用者によって操作された操作結果を検出し、検出された操作結果を通信部706に出力する。操作結果には、例えば、画像再生部702に表示される画像の設定(植物オブジェクトの表示または非表示等)の指示が含まれている。
[マイクアレイの配置例]
次に、マイクアレイの配置例を説明する。
図7は、マイクアレイ10の配置例を示す図である。図7において、符号T1,T2,T3,H1それぞれがマイクアレイ10(図1)である。
また、符号g11が示す画像は、実空間におけるマイクアレイT1,T2,T3,H1の配置を示す図である。また、符号g12は、xy平面におけるマイクアレイ設置座標を示す図である。なお、図7において、水平方向・北向きにx軸、垂直方向・西向きにy軸、鉛直方向上向きにz軸を取る。また、原点はT1とする。高さzについて、x,yにかかわらず常にT1の位置の地表面を基準(z=0)とする。また、北をxy平面における方位の0度方向とする。また、各マイクアレイの地上高さは1.3mである。
図8は、図7におけるマイクアレイの各座標を示す図である。
マイクアレイT3,H1,T2,T1それぞれをマイクアレイNo.1,2,3,4とする。図8に示す例において、マイクアレイT1(マイクアレイNo.4)を基準としている。この場合、例えば、マイクアレイT3(マイクアレイNo.1)の座標は、xが-7.3799(m)、yが7.765218(m)、zが3.01621(m)である。
[分離音の決定ルール]
次に、分離音の決定ルールについて説明する。
図9は、マイクアレイと音源位置と選択される分離音の関係を示す図である。図9の座標、マイクアレイの位置は、図7と同じである。符号g21は、音源位置を示している。符号21の音源位置の座標(x,y,z)は、(-10,10,2)であるとする。この場合、マイクアレイT1,T2,T3,H1のうち、音源との距離が最も近いマイクアレイT3が収音した分離音を分離音決定部509が選択する。
図10は、本実施形態における分離音の決定ルールを説明するための図である。図10において、横軸は時刻であり、符号g31は、音源定位の区間と分離音を模式的に表している。
図10に示す例では、マイクアレイNo.1(T3)が音源ID=10,11および12を定位し、マイクアレイNo.2(H1)が音源ID=5および6を定位し、マイクアレイNo.3(T2)が音源ID=12,13および14を定位し、マイクアレイNo.4(T1)が音源ID=20および21を定位した例である。
図10において、時刻t1~t2の区間、マイクアレイNo.1(T3)が音源ID=10を定位し、マイクアレイNo.2(H1)が音源ID=5を定位し、マイクアレイNo.3(T2)が音源ID=12を定位している。
解析処理部50の鳥位置推定部505は、各音源ID=10,5および12の音源位置(z1,y1,z1)を推定する。同じ区間で検出されたため、これらの音源は1つの音源であると推定される。
解析処理部50の分離音決定部509は、音源位置とマイクアレイNo.1(T3)、No.2(H1)、No.3(T2)との距離を求める。そして、分離音決定部509は、音源位置と最も近いマイクアレイNo1(T3)の音源ID=6を分離音に決定する。
解析処理部50の分離音選択・位置推定音源ID付与部510は、分離音に決定した音源ID=6に対して位置推定音源ID=6を付与する。
時刻t3~t4の期間、同様の処理によって、分離音決定部509が音源位置と最も近いマイクアレイNo.3(T2)の音源ID=13を分離音に決定し、分離音選択・位置推定音源ID付与部510が分離音に決定した音源ID=13に対して位置推定音源ID=7を付与する。
時刻t5~t6の期間、同様の処理によって、分離音決定部509が音源位置と最も近いマイクアレイNo.4(T1)の音源ID=21を分離音に決定し、分離音選択・位置推定音源ID付与部510が分離音に決定した音源ID=21に対して位置推定音源ID=8を付与する。
[処理手順例]
次に、処理手順例と処理タイミング例を説明する。
図11は、入力音声信号と発話区間を示す図である。図11において、横軸は時刻であり、縦軸は音声信号の大きさである。また、音響シーン再構成装置1に入力される入力音声信号は、野鳥の鳴き声である。以下の説明において、時刻t11~t12の区間を野鳥の発話区間として検出できたとする。
図12は、本実施形態に係る処理手順例と処理タイミング例を示す図である。
(ステップS1)時刻t11~t12の区間、音源定位分離部30は、音源定位処理と音源分離処理を行い、処理結果である定位情報と分離音等をフレーム毎に解析処理部50へ送信する。フレームは、例えば10[ms]である。
(ステップS2)時刻t12~t13の区間、解析処理部50のデータ分離部504は、データを分離する。
(ステップS3)時刻t12~t14の区間、音源定位分離部30は、特徴量等をフレーム毎に鳥種別識別部40に送信する。
(ステップS4)時刻t13~t18の区間、解析処理部50の鳥位置推定部505は、鳥位置推定処理を行う。
(ステップS5)時刻t14~t15の区間、鳥種別識別部40の識別部403Nは、鳥種別処理を行う。
(ステップS6)時刻t15~t16の区間、鳥種別識別部40のシリアライズ部404Nは、シリアル化処理を行う。
(ステップS7)時刻t16~t17の区間、解析処理部50のデシリアライズ部502は、シリアル化されたデータを元に戻す(デシリアライズ)。
(ステップS8)時刻t18~t19の区間、解析処理部50の位置・種別対応付け部506は、鳥位置と種別の対応付けを行う。
(ステップS9)時刻t19~t19の区間、解析処理部50の分離音決定部509は、分離音を決定する。
(ステップS10)時刻t19~t20の区間、解析処理部50のシリアライズ部507は、可視化情報のシリアル化を行う。
(ステップS11)時刻t19~t20の区間、解析処理部50の分離音選択・位置推定音源ID付与部510は、分離音選択と位置推定音源ID付与を行う。
(ステップS12)時刻t20~t21の区間、解析処理部50のシリアライズ部511は、分離音情報のシリアル化を行う。
(ステップS13)時刻t21以降、可視化処理部60は、VR可視化処理と分離音の3D化を行う。また、VRゴーグル70は、可視化された3D VR画像を表示し、3D VR音声を再生する。
なお、図12に示した処理手順やタイミングは一例であり、これに限らない。
[VRゴーグル70に表示される画像例]
次に、VRゴーグル70の画像再生部702(図6)に表示される画像例を説明する。
図13と図14は、本実施形態に係るVRゴーグル70の画像再生部702に表示される画像例を示す図である。
図13と図14において、符号g51はVR空間のVR画像であり、符号g52は植物オブジェクトの画像であり、符号g53は鳥オブジェクトの画像であり、符号g54は鳥の鳴き方を表す画像である。なお、符号g54の画像において、「?」の画像は、鳴き方を判別できなかったことを示している。
なお、図13は野鳥が木に止まっている画像の例である。また、図14は野鳥が飛んでいる画像の例である。なお、鳥種別識別部40と解析処理部50は、鳥の声の識別と音源定位によって位置と鳥の種類を推定する。そして、解析処理部50は、推定した次の推定タイミングの推定結果と照らし合わせて、近いところに同じ種類の鳥を同じ鳥であるとします。このように、解析処理部50は、鳥が止まっているのか動いているのかを識別する。そして、解析処理部50は、鳥が動いている(飛んでいる)場合、例えば鳥が羽ばたいている画像を可視化情報として生成する。また、解析処理部50は、鳥が止まっている場合、例えば鳥が木にとまっている画像を可視化情報として生成する。
図15は、本実施形態に係る植物オブジェクトが表示状態の画像例と非表示状態の画像例を示す図である。
図15において、符号g61Aの画像は植物オブジェクトが表示状態の画像であり、符号g61Bの画像は植物オブジェクトが非表示状態の画像である。符号g62はVR空間のVR画像であり、符号g63は植物オブジェクトの画像である。音響シーン再構成装置1では、このように植物オブジェクトの表示と非表示とを切り替えることができる。切替は、VRゴーグル70が有する操作部707(図6)または、可視化処理部60が有する操作部610(図5)をVRゴーグル70の利用者または音響シーン再構成装置1の操作者が切り替えるようにしてもよい。
図16は、本実施形態に係る鳥種別(鳥の名前)が表示状態の画像例と非表示状態の画像例を示す図である。
図16において、符号g71Aの画像は鳥種別(鳥の名前)が表示状態の画像であり、符号g71Bの画像は鳥種別(鳥の名前)が非表示状態の画像である。符号g72は野鳥の3D VR画像であり、符号g73は鳥種別(鳥の名前)の画像であり、符号g74が鳥の鳴き方を表す画像である。なお、符号g74のハート印の画像は、鳴き方が「さえずり」であることを表している。このように、本実施形態では、鳴き方に応じて、鳥の3D VR画像の近くに、鳴き方を表す画像も表示させるようにしてもよい。これにより、利用者は、鳥の鳴き方の種類を知ることができる。音響シーン再構成装置1では、このように鳥種別(鳥の名前)の表示と非表示とを切り替えることができる。切替は、VRゴーグル70が有する操作部707(図6)または、可視化処理部60が有する操作部610(図5)をVRゴーグル70の利用者または音響シーン再構成装置1の操作者が切り替えるようにしてもよい。
なお、画像合成部607は、鳥座標に基づいて、鳥の3D VR画像の近くに、鳥の3D VD画像に重ならないように鳥種別(鳥の名前)の画像を合成する。また、表示位置は、鳥オブジェクト(鳥の3D VR画像)の例えば下である。なお、鳥種別(鳥の名前)は、画像モデル記憶部606が記憶している。
図17は、本実施形態に係る鳥オブジェクトの実サイズ表示と拡大表示の例を示す図である。
図17において、符号g81Aの画像は野鳥の画像を実サイズで表示した状態の画像であり、符号g81Bの画像は野鳥の画像を拡大して表示した状態の画像である。符号g82Aは実サイズの3D VR画像であり、符号g82Bは5倍に拡大表した3D VR画像である。音響シーン再構成装置1では、このように鳥の表示の大きさを切り替えることができる。切替は、VRゴーグル70が有する操作部707(図6)または、可視化処理部60が有する操作部610(図5)をVRゴーグル70の利用者または音響シーン再構成装置1の操作者が切り替えるようにしてもよい。
これにより、VR空間上の野鳥の視認性を高めることができる。なお拡大サイズは、例えば最大5倍程度(野鳥の実サイズの大きさに依る)である。
なお、上述した植物オブジェクトや岩のオブジェクト等の後方に野鳥が隠れて表示される位置に検出された場合、野鳥の画像をこれらのオブジェクトより前のレイヤーに配置して合成させるようにしてもよい。切替は、VRゴーグル70が有する操作部707(図6)または、可視化処理部60が有する操作部610(図5)をVRゴーグル70の利用者または音響シーン再構成装置1の操作者が切り替えるようにしてもよい。
これにより、利用者と野鳥との間にオブジェクトがあって野鳥の画像が隠れて見えない可能性がある場合でも、野鳥の画像を表示させることができる。
[マイクアレイ10が出力するデータ構成例]
次に、マイクアレイ10が出力するデータ構成例を説明する。
図18は、本実施形態に係るマイクアレイ10が出力するデータ構成例を示す図である。図18に示すようにマイクアレイ10が出力するデータの要素には、フォーマットバージョン、収録開始日、収録開始時刻、収録場所、マイクアレイ(マイクアレイ)機種名、マイクアレイ毎の情報(マイクアレイ毎の通し番号(マイクアレイ番号)、名称、設置位置)、収録音声データのサンプリング周波数、収録音声データのビット数、イベントデータ更新頻度等が含まれている。収録開始日は、年月日であってもよく季節であってもよい。イベントデータ更新頻度とは、図12においてステップS1、S2で送信する間隔(フレーム時間)である。また、データは、例えばマークアップ言語の一種であるXML(Extensible Markup Language)で記述する。
なお、図18に示したデータの構成要素は一例であり、これに限らない。
[音源定位分離部30が出力するイベントデータ構成例]
次に、音源定位分離部30が出力するイベントデータ構成例を説明する。
図19は、本実施形態に係る音源定位分離部30が出力するイベントデータ構成例を示す図である。図19に示すようにイベントデータには、フレーム番号、鳥毎の情報(位置推定音源ID、鳥種別、鳥の鳴き方、鳥座標(x、y、z)、鳥ロール角(deg)、鳥ピッチ角(deg)、鳥ヨー角(deg)、鳥鳴き声の有り無し、鳥の羽ばたき有り無し)等が含まれている。フレーム数は、先頭からのフレーム数である。鳥の情報は、鳥毎に記述する。鳥ロール角は、左右の傾きであり、0で水平、範囲が-360~0~360、時計回りを正とする。鳥ピッチ角は、前後の傾きであり、0で水平、範囲が-360~0~360、時計回りを正とする。鳥ヨー角は、VR空間を上から見た鳥の回転角であり、0で北向き、範囲が-360~0~360、時計回りを正とする。鳴き声無しは、鳥に対応する分離音が無い場合である。羽ばたき有りは、羽根を動かすアニメーションを表示する。羽ばたき無しは、羽根を動かすアニメーションを表示しない。なお、鳥ロール角、鳥ピッチ角、鳥ヨー角は、例えば鳥が飛んでいると判断された場合、飛んでいる方向に頭を向ける角度に設定する。
なお、鳥の羽ばたき有り無しは、例えば鳥の鳴き方が、例えば谷渡りの場合に飛びながら鳴いていると判断して羽ばたき有りと音源定位分離部30が判断するようにしてもよい。
また、データは、例えばマークアップ言語の一種であるXML(Extensible Markup Language)で記述する。なお、鳥種別識別部40が出力するデータは、JSON(JavaScript(登録商標) Object Notation)形式であってもよい。
[鳥種別のデータ例]
次に、鳥種別のデータ例を説明する。
図20は、本実施形態に係る鳥種別のデータ例を示す図である。
鳥種別識別部40の音響モデル記憶部402Nは、図20に示すような鳥種別を記憶する。音響モデル記憶部402Nは、例えば、番号と野鳥名(日本名)と野鳥名(英名)を対応付けて記憶する。例えば、音響モデル記憶部402Nは、番号が1に、野鳥名(日本名)をウグイスと、野鳥名(英名)がJapanese Bush Warblerを対応付けて記憶する。鳥種別識別部40が出力する鳥種別は、番号と野鳥名(日本名)と野鳥名(英名)のうち少なくとも1つであればよい。
また、データは、例えばマークアップ言語の一種であるXML(Extensible Markup Language)で記述する。なお、鳥種別識別部40が出力するデータは、JSON(JavaScript(登録商標) Object Notation)形式であってもよい。
[鳥の鳴き方のデータ例]
次に、鳥の鳴き方のデータ例を説明する。
図21は、本実施形態に係る鳥の鳴き方のデータ例を示す図である。
鳥種別識別部40の音響モデル記憶部402Nは、図21に示すように鳥の鳴き方を記憶する。音響モデル記憶部402Nは、番号と鳴き方(日本名)と鳴き方(英名)を対応付けて記憶する。例えば、音響モデル記憶部402Nは、番号が1に、鳴き方(日本名)を地鳴きと、鳴き方(英名)がCallを対応付けて記憶する。鳥種別識別部40が出力する鳴き方は、番号と鳴き方(日本名)と鳴き方(英名)のうち少なくとも1つであればよい。
また、データは、例えばマークアップ言語の一種であるXML(Extensible Markup Language)で記述する。
[表示装置に表示される画像例]
次に、オブジェクトの表示と非表示等の設定時に表示装置62(図5)に表示される画像例を説明する。
図22は、本実施形態に係るオブジェクトの表示と非表示等の設定時に表示装置62に表示される画像例を示す図である。
図22において、画像g101は、VRゴーグル70に表示される画像である、画像g111は、上述した植物オブジェクトの表示と非表示を切り替える操作ボタンの画像である。画像g112は、上述した鳥種別の表示と非表示を切り替える操作ボタンの画像である。画像g113は、設定のホーム画面(初期画面)に戻すための操作ボタンの画像である。また、画像g121は、音響シーン再構成装置1が、認識した鳥の種別と鳴き声の結果の表示画像である。画像g122は、VR画像(含む音声)の再生の操作画面の例である。
なお、図22に示した表示画像は一例であり、これに限らない。
[CNNによる鳥の鳴き方、種別、ノイズの識別結果例]
次に、本実施形態の音響シーン再構成装置1の鳥種別識別部40によって、鳥の鳴き方、種別、ノイズを識別した結果例を説明する。
図23は、本実施形態に係る鳥種別識別部40によって、鳥の鳴き方、種別、ノイズを識別した結果例を示す図である。
図23において、横方向はフレームごとの認識結果を表し、縦方向はフレームごとの正解ラベルを表している。なお、検証は、5-分割交差検証(5-fold cross-validation)でおこなった。なお、車などのノイズ成分も音響モデル記憶部402Nが記憶している。図23に示すように、平均フレーム正解率は、81.52%であった。
以上のように、本実施形態では、鳥の鳴き声を収音し、音源定位や音源分離するとともに、鳥の種類の識別情報、フレーズ情報、位置情報、動きを音データから再構成した。そして、本実施形態では、このように再構築したデータに基づいて、可視化と立体音響を生成してVRゴーグル70で再生するようにした。
なお、VR表示の場合、利用者は、例えば部屋の中を歩き回ったり、上を見上げたりすることで、VRゴーグル70に、3D VR画像が表示され、3D VR音声が再生される。これにより、利用者は、例えば森の中で野鳥を加増的に観察し、鳴き声を仮想的に体験することができる。
これにより,本実施形態によれば、鳥の種類や鳴き方を視覚化して表示させることができる。また、本実施形態によれば、VR再生することで、以前に収録したデータを、利用者がもう一度体験できる。
なお、上述した例では、鳥の鳴き声を含む音声信号を収音し、音源定位、音源分離、鳥の種別や鳴き方の識別を行う例を説明したが、これに限らない。識別する対象は他であっても良い。この場合は、識別対象を音響モデル記憶部402Nに記憶させ、表示させる画像を画像モデル記憶部606に記憶させるようにしてもよい。
また、上述した例において、鳥は飛び回るため音源位置が移動する。このため、音響シーン再構成装置1は、移動する音源を追跡する必要がある。音源の追跡手法には、例えば特許第5170440号公報や特開2017-067879号公報に記載されている手法を用いる。
また、可視化処理部60は、収音された収録開始日(図18)に基づいて、背景の画像を季節に応じた画像に切り替えるようにしてもよい。または、利用者は、VRゴーグル70の操作部707を操作、またはコントローラ(表示装置62)を介して操作して背景の画像を季節に応じた画像に切り替えるようにしてもよい。
<第2実施形態>
第1実施形態では、VRゴーグル70でVR画像(含む音声)を再生する例を説明したが、本実施形態では、VRゴーグル70でAR画像(含む音声)を再生する例を説明する。AR画像を再生することで、実時間で鳥のいる場所に鳥の種類や鳴き方を表示できる。
ARで表示する音響シーン再構成装置1の構成は、第1実施形態と同様である。差異は、各機能部の処理である。
AR表示の場合、マイクアレイ10(図1)が収音した音声信号は、音源定位分離部30、鳥種別識別部40、解析処理部50、および可視化処理部60によってリアルタイムで処理される。
可視化処理部60は、VRゴーグル70を介してVR空間上に、鳥オブジェクトの3D VR画像を表示させるように制御する。
可視化処理部60は、CGで作成した鳥を例えばXMLデータに基づきアニメーション付きで表示さる3D VR画像を生成し、鳥の位置から3Dオーディオ化された鳴き声を再生させる3D VR音声を生成する。AR表示においても、例えば、鳥の上部に鳴き声の種類が表示され、下部に鳥の名前が表示される。
利用者は、空間内の地形に沿って自由に歩く(ただしルームスケール内)。利用者が歩いている状態や位置は、VRゴーグル70が備えるセンサ705(図6)の検出値に基づいて、利用者の位置や状態を可視化処理部60が判断して3D VR画像と3D VR音声を生成する。
または、利用者は、可視化処理部60の制御部611に接続されるコントローラ(表示装置62)を使用して空間内を移動するようにしてもよい。
図24は、本実施形態に係るAR表示時にコントローラ(表示装置62)に表示される画面例を示す図である。
符号g202の領域は、地図上に現在地と方向、鳴いている野鳥が表示される領域である。これにより、利用者が向いている方向がリアルタイムに矢印に反映され、現在時間に発声している野鳥が表示される。
符号g203は、ワープの設定画像である。地図の範囲内を利用者がコントローラで指すことで、利用者が見ている画像は、その場所にワープする。なお、ワープ可能範囲は、移動可能範囲内である。また、またワープ先での方向は、現在向いている方向を維持している。
符号g204の領域は、タイムラインで現在の時間、鳴き声が表示される領域である。可視化処理部60は、リアルタイムでの表示を巻き戻し・早送り機能を削除する。なお、横軸は時刻であり、縦軸は角度(-180~0~180度)である。
符号g205は、鳴き声の再生のオン状態とオフ状態の切り替えボタンの画像である。オン状態のときには、例えばグラフ右側に野鳥のリストが表示され、リストから特定の野鳥およびその鳴き声の種類をフィルタリングできる。図25は、実施形態に係る野鳥のリストの画像例を示す図である。図25に示すようにリストの画像には、鳥の種別(名前)と、鳥種別毎に鳴き声の選択ボタンの画像が表示される。
図25において、符号g251は、鳴き声の再生のオン状態とオフ状態の切り替えボタンの画像である。符号g252は、鳥の画像である。符号g253は、鳥種別(名前)の画像である。
符号g260は、鳴き声の選択画像である。なお、選択可能な鳴き声の選択ボタンの画像が、例えば色を変えて表示される。符号g261は、鳴き声が「不明」の選択ボタンの画像である。符号g262は、鳴き声が「地鳴き」の選択ボタンの画像である。符号g263は、鳴き声が「さえずり」の選択ボタンの画像である。符号g264は、鳴き声が「谷渡り」の選択ボタンの画像である。符号g265は、鳴き声が「威嚇」の選択ボタンの画像である。符号g266は、鳴き声が「警戒声」の選択ボタンの画像である。符号g267は、鳴き声が「ドラミング」の選択ボタンの画像である。
図24に戻って説明を続ける。
符号g206は、植物オブジェクトの表示と非表示を切り替えるボタンの画像である。
符号g207は、鳥種別(名前)の表示と非表示を切り替えるボタンの画像である。
符号g208は、マイクアレイ10の表示と非表示を切り替えるボタンの画像である。なお、複数のマイクアレイ10が空間内に設置されている場合は、マイクアレイ10毎に表示を切り替えることができる。
符号g209は、野鳥がオブジェクトに隠れた際の表示方法の切り替えボタンの画像である。
符号g210は、野鳥の拡大表示を行うボタンの画像である。
符号g210は、符号g204のグラフ角度表示を切り替えるボタンの画像である。符号g210は、グラフ上において、各マイクアレイ10および利用者のそれぞれの位置を中心とした角度表示を切り替えるボタンである。
符号g211は、時間表示・表示切り替えボタンの画像である。時計部分をクリックすることで、実際に記録された時間(JST)とファイル再生時からの時間に切り替わる。
なお、図24と図25に示した画像は、一例であり、これに限らない。また、図24と図25に示した設定画像は、VR表示の際も使用する。
以上のように、実施形態では、図24と図25に示したような設定画面と操作系を備えている。
これにより、実施形態によれば、VRゴーグル70に表示させる3D VR画像を利用者または操作者が簡便に操作することができる。
ここで、鳥の鳴き声に分類に用いる畳み込みニューラルネットワーク(CNN)について説明する。
図26は、畳み込みニューラルネットワークの処理例を示す図である。
図26に示すように、中間層は主に畳み込み層とプーリング層を交互に繰り返すことでデータの特徴を抽出し、最後に全結合層で認識を行う。ここでのプーリングとは、局所的に最大値や平均値をとる処理のことで、局所的なデータの不変性を獲得することを目的としている。
このような処理によって、鳥の鳴き声に分類する。
なお、実施形態では、可視化画像として、3D VRの背景画像、鳥の3D VR画像、鳥種別、鳥の鳴き方をVRゴーグルに表示させる例を説明したが、これに限らない。例えば、実空間において、音響シーン再構成装置1は、音声信号の収音と解析をリアルタイムで行い、VRゴーグルに表示を通して見える実空間のリアル画像に鳥種別、鳥の鳴き方を合成して表示するようにしてもよい。
なお、本発明における音響シーン再構成装置1の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音響シーン再構成装置1が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。
1…音響シーン再構成装置、10,10A,10B,10C,10D…マイクアレイ、20,20A,20B,20C,20D…取得部、30,30A,30B,30C,30D…音源定位分離部、40,40A,40B,40C,40D…鳥種別識別部、50…解析処理部、60…可視化処理部、62…表示装置、70…VRゴーグル、
101NA,101NB,・・・,101NM…マイクロホン、102N…サンプリング信号生成部、103NA,103NB,・・・,103NM…AD変換器、104N…記憶部、105N…出力データ生成部、106N…出力部、
301N…音源定位部、302N…音源分離部、303N…特徴量抽出部、304N…第1出力部、305N…第2出力部、
401N…取得部、402N…音響モデル記憶部、403N…識別部、404N…シリアライズ部、405N…出力部、
501A,501B,501C,501D…取得部、502…デシリアライズ部、503A,503B,503C,503D…取得部、504…データ分離部、505…鳥位置推定部、506…位置・種別対応付け部、507…シリアライズ部、508…出力部、509…分離音決定部、510…分離音選択・位置推定音源ID付与部、511…シリアライズ部、512…出力部、
601…取得部、602…デシリアライズ部、603…取得部、604…デシリアライズ部、605…座標対応付け部、606…画像モデル記憶部、607…画像合成部、608…音声合成部、609…通信部、610…操作部610、611…制御部、
701…取得部、702…画像再生部、703…取得部、704…音声再生部、705…センサ、706…通信部706、707…操作部

Claims (7)

  1. 収音した音声信号から音源定位と音源分離を行う音源定位分離部と、
    前記音声信号に含まれる音源の種類を識別する識別部と、
    前記音源定位分離部が音源定位と音源分離を行った結果と、前記識別部が識別した結果とに基づいて前記音源の位置の推定を行い、前記音源の位置を推定した結果に基づいて分離音を選択し、前記音源の位置の推定した結果と前記音源による音声信号の種類とを対応付けて可視化情報を生成する解析処理部と、
    前記可視化情報と前記分離音とを用いて、前記音源に対応する画像を推定された前記音源の位置に表示させる画像を生成し、推定された前記音源の位置に前記分離音を再生させる音声を生成する可視化処理部と、
    を備える音響シーン再構成装置。
  2. 前記音源定位分離部は、
    前記音源の音源方向を音源定位し、音源分離して前記分離音を分離し、音源定位した結果に基づいて定位した音源毎に前記音源の識別情報を付与し、定位した前記音源毎に識別情報を付与した音源識別情報と前記音源方向の情報と音源分離した前記分離音とを前記解析処理部に出力し、前記分離音から音響特徴量を抽出し、前記定位した音源毎に前記音源の識別情報を付与した前記音響特徴量を前記識別部に出力し、
    前記識別部は、
    前記音源定位分離部が出力する定位された前記音源毎に前記音源識別情報と前記音源方向の情報を取得し、取得した前記音源毎に前記音響特徴量に基づいて音源の種類を識別し、前記定位された音源毎に前記音源識別情報と識別した結果である識別結果と前記解析処理部に出力する、請求項1に記載の音響シーン再構成装置。
  3. 前記音声信号の収音は、M(Mは2以上の整数)個のマイクロホンを備えるマイクアレイによって行われ、前記マイクアレイはN(Nは2以上の整数)個であり、
    前記音源定位分離部は、前記マイクアレイ毎に設けられ、第1の前記マイクアレイが収音したMチャネルの音声信号が第1の前記音源定位分離部に入力され、・・・、第Nの前記マイクアレイが収音したMチャネルの音声信号が第Nの前記音源定位分離部に入力され、
    前記識別部は、前記音源定位分離部毎に設けられ、第1の前記音源定位分離部が第1の前記識別部に接続され、・・・、第Nの前記音源定位分離部が第Nの前記識別部に接続され、
    前記解析処理部は、
    第1~第Nの前記音源定位分離部それぞれが出力する定位された音源毎に識別情報が付与された音源識別情報と音源方向の情報と音源分離した前記分離音を取得し、取得した前記分離音ごとに前記分離音に対応する音源の位置を複数のマイクロホンの前記分離音に基づいて推定し、複数の前記音源定位分離部が同時に前記分離音を検出した場合、複数の前記分離音の中から前記分離音に最も距離が近い前記マイクアレイによる前記分離音を選択する、請求項1または請求項2に記載の音響シーン再構成装置。
  4. 前記音声信号は、鳥の鳴き声であり、
    前記音声信号に含まれる音源の種類は、前記鳥の名前と前記鳥の鳴き方である、請求項1から請求項3のいずれか1項に記載の音響シーン再構成装置。
  5. 前記可視化処理部が生成す画像と音声の設定を行うコントローラを備え、
    前記コントローラを操作することで、前記音声信号に含まれる音源の種類の表示と非表示を切り替える操作と、および前記音声信号に含まれる音源の種類の表示倍率を切り替える操作のうち少なくとも1つを行い、操作された操作結果を前記可視化処理部に出力する、請求項1から請求項4のいずれか1項に記載の音響シーン再構成装置。
  6. 音源定位分離部が、収音した音声信号から音源定位と音源分離を行う音源定位分離ステップと、
    識別部が、前記音声信号に含まれる音源の種類を識別する識別ステップと、
    解析処理部が、前記音源定位分離ステップによって音源定位と音源分離が行われた結果と、前記識別ステップによって識別された結果とに基づいて前記音源の位置の推定を行い、前記音源の位置を推定した結果に基づいて分離音を選択し、前記音源の位置の推定した結果と前記音源による音声信号の種類とを対応付けて可視化情報を生成するステップと、
    可視化処理部が、前記可視化情報と前記分離音とを用いて、前記音源に対応する画像を推定された前記音源の位置に表示させる画像を生成し、推定された前記音源の位置に前記分離音を再生させる音声を生成するステップと、
    を含む音響シーン再構成方法。
  7. 音響シーン再構成装置のコンピュータに、
    収音した音声信号から音源定位と音源分離を行う音源定位分離ステップと、
    前記音声信号に含まれる音源の種類を識別する識別ステップと、
    前記音源定位分離ステップによって音源定位と音源分離が行われた結果と、前記識別ステップによって識別された結果とに基づいて前記音源の位置の推定を行い、前記音源の位置を推定した結果に基づいて分離音を選択し、前記音源の位置の推定した結果と前記音源による音声信号の種類とを対応付けて可視化情報を生成するステップと、
    前記可視化情報と前記分離音とを用いて、前記音源に対応する画像を推定された前記音源の位置に表示させる画像を生成し、推定された前記音源の位置に前記分離音を再生させる音声を生成するステップと、
    を実行させるプログラム。
JP2018157166A 2018-08-24 2018-08-24 音響シーン再構成装置、音響シーン再構成方法、およびプログラム Active JP7177631B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018157166A JP7177631B2 (ja) 2018-08-24 2018-08-24 音響シーン再構成装置、音響シーン再構成方法、およびプログラム
US16/536,570 US11373355B2 (en) 2018-08-24 2019-08-09 Acoustic scene reconstruction device, acoustic scene reconstruction method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018157166A JP7177631B2 (ja) 2018-08-24 2018-08-24 音響シーン再構成装置、音響シーン再構成方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2020030376A JP2020030376A (ja) 2020-02-27
JP7177631B2 true JP7177631B2 (ja) 2022-11-24

Family

ID=69587277

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018157166A Active JP7177631B2 (ja) 2018-08-24 2018-08-24 音響シーン再構成装置、音響シーン再構成方法、およびプログラム

Country Status (2)

Country Link
US (1) US11373355B2 (ja)
JP (1) JP7177631B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111554318B (zh) * 2020-04-27 2023-12-05 天津大学 一种手机端发音可视化***的实现方法
US11425496B2 (en) * 2020-05-01 2022-08-23 International Business Machines Corporation Two-dimensional sound localization with transformation layer
JP7349410B2 (ja) * 2020-06-11 2023-09-22 Kddi株式会社 音響信号を所定の到来方向から再生するシステム及び方法
CN112686293A (zh) * 2020-12-25 2021-04-20 广东电网有限责任公司中山供电局 一种基于gmm识别模型的鸟类智能识别方法及***
CN117044242A (zh) * 2021-03-29 2023-11-10 索尼集团公司 信息处理装置、信息处理***、信息处理方法和程序
CN114036325A (zh) * 2021-10-28 2022-02-11 浙江工业大学 一种基于移动定位和深度学习的户外观鸟记录可视化交互***
CN114630260B (zh) * 2022-02-17 2023-11-10 安徽建筑大学 一种半空间均匀流中声场重建方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002304191A (ja) 2001-04-05 2002-10-18 Japan Science & Technology Corp 鳴き声による音声ガイドシステム
JP2004007211A (ja) 2002-05-31 2004-01-08 Victor Co Of Japan Ltd 臨場感信号の送受信システム、臨場感信号伝送装置、臨場感信号受信装置、及び臨場感信号受信用プログラム
JP2010152149A (ja) 2008-12-25 2010-07-08 Chubu Electric Power Co Inc 動物観察装置
JP2012211768A (ja) 2011-03-30 2012-11-01 Advanced Telecommunication Research Institute International 音源定位装置
JP2013106298A (ja) 2011-11-16 2013-05-30 Sony Corp 撮像制御装置、撮像制御方法、撮像制御方法のプログラムおよび撮像装置
JP2016050872A (ja) 2014-09-01 2016-04-11 株式会社国際電気通信基礎技術研究所 音源位置推定装置、音源位置推定方法および音源位置推定プログラム
WO2017098772A1 (ja) 2015-12-11 2017-06-15 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2017147504A (ja) 2016-02-15 2017-08-24 株式会社リコー 音源表示装置及び音源表示方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8886530B2 (en) 2011-06-24 2014-11-11 Honda Motor Co., Ltd. Displaying text and direction of an utterance combined with an image of a sound source
US8183997B1 (en) * 2011-11-14 2012-05-22 Google Inc. Displaying sound indications on a wearable computing system
US9460732B2 (en) * 2013-02-13 2016-10-04 Analog Devices, Inc. Signal source separation
US10204614B2 (en) * 2013-05-31 2019-02-12 Nokia Technologies Oy Audio scene apparatus
JP6501260B2 (ja) * 2015-08-20 2019-04-17 本田技研工業株式会社 音響処理装置及び音響処理方法
JP6723120B2 (ja) 2016-09-05 2020-07-15 本田技研工業株式会社 音響処理装置および音響処理方法
US10770091B2 (en) * 2016-12-28 2020-09-08 Google Llc Blind source separation using similarity measure

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002304191A (ja) 2001-04-05 2002-10-18 Japan Science & Technology Corp 鳴き声による音声ガイドシステム
JP2004007211A (ja) 2002-05-31 2004-01-08 Victor Co Of Japan Ltd 臨場感信号の送受信システム、臨場感信号伝送装置、臨場感信号受信装置、及び臨場感信号受信用プログラム
JP2010152149A (ja) 2008-12-25 2010-07-08 Chubu Electric Power Co Inc 動物観察装置
JP2012211768A (ja) 2011-03-30 2012-11-01 Advanced Telecommunication Research Institute International 音源定位装置
JP2013106298A (ja) 2011-11-16 2013-05-30 Sony Corp 撮像制御装置、撮像制御方法、撮像制御方法のプログラムおよび撮像装置
JP2016050872A (ja) 2014-09-01 2016-04-11 株式会社国際電気通信基礎技術研究所 音源位置推定装置、音源位置推定方法および音源位置推定プログラム
WO2017098772A1 (ja) 2015-12-11 2017-06-15 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2017147504A (ja) 2016-02-15 2017-08-24 株式会社リコー 音源表示装置及び音源表示方法

Also Published As

Publication number Publication date
US20200066023A1 (en) 2020-02-27
JP2020030376A (ja) 2020-02-27
US11373355B2 (en) 2022-06-28

Similar Documents

Publication Publication Date Title
JP7177631B2 (ja) 音響シーン再構成装置、音響シーン再構成方法、およびプログラム
JP7408048B2 (ja) 人工知能に基づくアニメキャラクター駆動方法及び関連装置
US11514923B2 (en) Method and device for processing music file, terminal and storage medium
US20190335288A1 (en) Method of Providing to User 3D Sound in Virtual Environment
US20150025662A1 (en) System and method for audio augmented reality
US11557269B2 (en) Information processing method
JP2019211747A (ja) 音声接続合成の処理方法及び装置、コンピュータ設備及び読取り可能な媒体
CN112005556B (zh) 确定声源的位置的方法、声源定位***以及存储介质
WO2021241431A1 (ja) 情報処理装置、情報処理方法、及びコンピュータが読み取り可能な記録媒体
Pressing Some perspectives on performed sound and music in virtual environments
JP5383056B2 (ja) 音データ記録再生装置および音データ記録再生方法
KR20100039613A (ko) 음악 인식을 통한 로봇의 동작제어장치
WO2020054409A1 (ja) 音響イベント認識装置および方法、並びにプログラム
Torre The design of a new musical glove: a live performance approach
WO2018211750A1 (ja) 情報処理装置および情報処理方法
US10553199B2 (en) Low-dimensional real-time concatenative speech synthesizer
Beller Gestural control of real time speech synthesis in lunapark
WO2023170757A1 (ja) 再生制御方法、情報処理方法、再生制御システムおよびプログラム
Lionello et al. Interactive soundscapes: Developing a physical space augmented through dynamic sound rendering and granular synthesis
JP3298076B2 (ja) 画像作成装置
Beller Spatial Sampling in Mixed Reality
Brumley Spatially Immersive Sound in the Bird Song Diamond Project
Singer et al. Improv: Interactive improvisational animation and music
Frisson et al. MashtaCycle: On-Stage Improvised Audio Collage by Content-Based Similarity and Gesture Recognition
Okuno et al. Robot audition from the viewpoint of computational auditory scene analysis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201130

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210914

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210928

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220419

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220620

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221101

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221111

R150 Certificate of patent or registration of utility model

Ref document number: 7177631

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150