WO2023095470A1

WO2023095470A1 - 信号処理装置、信号処理方法及び信号処理プログラム

Info

Publication number: WO2023095470A1
Application number: PCT/JP2022/037913
Authority: WO
Inventors: 萌絵高田; 慎一杠
Original assignee: パナソニックインテレクチュアルプロパティコーポレーションオブアメリカ
Priority date: 2021-11-25
Filing date: 2022-10-11
Publication date: 2023-06-01

Abstract

信号処理装置（１）は、複数の音響信号を含む混合音響信号を取得する混合音響信号取得部（１１）と、混合音響信号を混合特徴量に変換する混合特徴量変換部（１２）と、混合特徴量に基づいて複数のマスクを推定するマスク推定部（１５）と、複数のマスクを用いて算出した複数の分離特徴量を複数の分離音響信号に変換する音響信号変換部（１６）と、複数の分離音響信号に基づいて、環境音のみが含まれる環境音区間を推定する環境音区間推定部（１８）と、混合音響信号から、環境音区間の混合音響信号を環境音響信号として抽出する環境音響信号抽出部（１９）と、環境音響信号を環境音特徴量に変換する環境音特徴量変換部（１４）とを備え、マスク推定部（１５）は、環境音特徴量を用いて重み付けした混合特徴量に基づいて複数のマスクを推定する。

Description

信号処理装置、信号処理方法及び信号処理プログラム

　本開示は、混合音響信号から複数の音響信号を分離する技術に関する。

　例えば、特許文献１には、入力された混合音響信号を複数の第１内部状態に変換する変換部と、目的音源の音響信号に関する補助情報が入力された場合、補助情報に基づいて複数の第１内部状態の重み付け和である第２内部状態を生成し、補助情報が入力されない場合、複数の第１内部状態のいずれかを選択することによって第２内部状態を生成する重み付け部と、第２内部状態に基づいてマスクを推定するマスク推定部とを有する信号処理装置が開示されている。

　しかしながら、上記従来の技術では、目的音源の音響信号に関する補助情報を事前に作成するための煩雑な準備処理が必要になるおそれがあるとともに、混合音響信号から複数の音響信号を分離する性能が低下するおそれがあり、更なる改善が必要とされていた。

特開２０２０－１３４６５７号公報

　本開示は、上記の問題を解決するためになされたもので、目的音源の音響信号に関する補助情報を事前に作成するための煩雑な準備処理が不要になるとともに、混合音響信号から複数の音響信号を分離する性能の低下を防止することができる技術を提供することを目的とするものである。

　本開示に係る信号処理装置は、複数の音響信号を含む混合音響信号を取得する混合音響信号取得部と、前記混合音響信号を、前記混合音響信号の特徴を示す混合特徴量に変換する混合特徴量変換部と、前記混合特徴量に基づいて、前記複数の音響信号それぞれに対応する複数のマスクを推定するマスク推定部と、前記複数のマスクを用いて前記混合特徴量から前記複数の音響信号それぞれに対応する複数の分離特徴量を算出し、算出した前記複数の分離特徴量を複数の分離音響信号に変換する音響信号変換部と、前記複数の分離音響信号に基づいて、前記混合音響信号の全入力区間における環境音を示す音響信号のみが含まれる環境音区間を推定する環境音区間推定部と、前記混合音響信号から、推定された前記環境音区間の前記混合音響信号を環境音響信号として抽出する環境音響信号抽出部と、前記環境音響信号を、前記環境音響信号の特徴を示す環境音特徴量に変換する環境音特徴量変換部と、を備え、前記マスク推定部は、前記環境音特徴量を用いて前記混合特徴量を重み付けし、重み付けした前記混合特徴量に基づいて、前記複数のマスクを推定する。

　本開示によれば、目的音源の音響信号に関する補助情報を事前に作成するための煩雑な準備処理が不要になるとともに、混合音響信号から複数の音響信号を分離する性能の低下を防止することができる。

本開示の実施の形態における信号処理装置の構成を示すブロック図である。本開示の実施の形態における学習装置の構成を示すブロック図である。本実施の形態における信号処理装置の音源分離処理について説明するためのフローチャートである。本実施の形態における学習装置の学習処理について説明するためのフローチャートである。

　（本開示の基礎となった知見）
　上記の従来技術において、目的音源の補助情報を用いて音源分離が行われる場合、事前に目的音源の音声を収音し、収音した目的音源の音声から補助情報を生成する必要があり、目的音源の音響信号に関する補助情報を事前に作成するための煩雑な準備処理が必要になるおそれがある。

　また、上記の従来技術において、ブラインド音源分離が行われる場合、ニューラルネットワークモデルの学習に用いなかった雑音（環境音）が混合音響信号に含まれると、混合音響信号から複数の音響信号を分離する性能が低下するおそれがある。

　以上の課題を解決するために、下記の技術が開示される。

　（１）本開示の一態様に係る信号処理装置は、複数の音響信号を含む混合音響信号を取得する混合音響信号取得部と、前記混合音響信号を、前記混合音響信号の特徴を示す混合特徴量に変換する混合特徴量変換部と、前記混合特徴量に基づいて、前記複数の音響信号それぞれに対応する複数のマスクを推定するマスク推定部と、前記複数のマスクを用いて前記混合特徴量から前記複数の音響信号それぞれに対応する複数の分離特徴量を算出し、算出した前記複数の分離特徴量を複数の分離音響信号に変換する音響信号変換部と、前記複数の分離音響信号に基づいて、前記混合音響信号の全入力区間における環境音を示す音響信号のみが含まれる環境音区間を推定する環境音区間推定部と、前記混合音響信号から、推定された前記環境音区間の前記混合音響信号を環境音響信号として抽出する環境音響信号抽出部と、前記環境音響信号を、前記環境音響信号の特徴を示す環境音特徴量に変換する環境音特徴量変換部と、を備え、前記マスク推定部は、前記環境音特徴量を用いて前記混合特徴量を重み付けし、重み付けした前記混合特徴量に基づいて、前記複数のマスクを推定する。

　この構成によれば、混合音響信号から、環境音を示す音響信号のみが含まれる環境音区間の混合音響信号が環境音響信号として抽出され、環境音響信号の特徴を示す環境音特徴量を用いて混合特徴量が重み付けされ、重み付けされた混合特徴量に基づいて、複数のマスクが推定される。したがって、リアルタイムに混合音響信号から抽出された環境音響信号を用いて複数のマスクが推定され、推定された複数のマスクを用いて混合音響信号が複数の分離音響信号に分離されるので、従来技術のような目的音源の音響信号に関する補助情報を事前に作成するための煩雑な準備処理が不要になるとともに、混合音響信号から複数の音響信号を分離する性能の低下を防止することができる。

　（２）上記（１）記載の信号処理装置において、前記混合特徴量変換部は、前記混合音響信号が入力されると前記混合特徴量を出力する第１音響モデルを含み、前記マスク推定部は、前記混合特徴量が入力されると前記複数のマスクを出力する第２音響モデルを含み、前記音響信号変換部は、算出した前記複数の分離特徴量が入力されると前記複数の分離音響信号を出力する第３音響モデルを含み、前記環境音特徴量変換部は、前記環境音響信号が入力されると前記環境音特徴量を出力する第４音響モデルを含んでもよい。

　この構成によれば、混合音響信号が第１音響モデルに入力され、混合特徴量が第１音響モデルから出力される。また、混合特徴量が第２音響モデルに入力され、複数のマスクが第２音響モデルから出力される。また、算出した複数の分離特徴量が第３音響モデルに入力され、複数の分離音響信号が第３音響モデルから出力される。また、環境音響信号が第４音響モデルに入力され、環境音特徴量が第４音響モデルから出力される。

　したがって、混合特徴量を第１音響モデルにより容易に推定することができ、複数のマスクを第２音響モデルにより容易に推定することができ、複数の分離音響信号を第３音響モデルにより容易に推定することができ、環境音特徴量を第４音響モデルにより容易に推定することができる。

　（３）上記（２）記載の信号処理装置において、学習用混合音響信号と、前記学習用混合音響信号に含まれる複数の音響信号の正解に相当する複数の正解音響信号とを取得する学習用音響信号取得部と、前記第１音響モデル、前記第２音響モデル、前記第３音響モデル及び前記第４音響モデルの各パラメータを更新するパラメータ更新部と、をさらに備え、前記混合特徴量変換部は、前記学習用混合音響信号を前記第１音響モデルに入力し、前記第１音響モデルから出力される前記混合特徴量を取得し、前記環境音特徴量変換部は、前記複数の正解音響信号のうちの正解に相当する環境音を示す正解環境音響信号を前記第４音響モデルに入力し、前記第４音響モデルから出力される前記環境音特徴量を取得し、前記マスク推定部は、前記第４音響モデルから出力された前記環境音特徴量を用いて前記第１音響モデルから出力された前記混合特徴量を重み付けし、重み付けした前記混合特徴量を前記第２音響モデルに入力し、前記第２音響モデルから出力される前記複数のマスクを取得し、前記音響信号変換部は、前記第２音響モデルから出力された前記複数のマスクを用いて前記混合特徴量から前記複数の正解音響信号それぞれに対応する複数の分離特徴量を算出し、算出した複数の分離特徴量を前記第３音響モデルに入力し、前記第３音響モデルから出力される前記複数の分離音響信号を取得し、前記パラメータ更新部は、前記第３音響モデルから出力された前記複数の音響信号の各々と、前記複数の正解音響信号の各々との誤差を算出し、算出した複数の誤差に基づいて、前記第１音響モデル、前記第２音響モデル、前記第３音響モデル及び前記第４音響モデルの各パラメータを更新してもよい。

　この構成によれば、学習用混合音響信号と、学習用混合音響信号に含まれる複数の音響信号の正解に相当する複数の正解音響信号とが取得される。学習用混合音響信号が第１音響モデルに入力され、第１音響モデルから混合特徴量が出力される。複数の正解音響信号のうちの正解に相当する環境音を示す正解環境音響信号が第４音響モデルに入力され、第４音響モデルから環境音特徴量が出力される。第４音響モデルから出力された環境音特徴量を用いて第１音響モデルから出力された混合特徴量が重み付けされる。重み付けされた混合特徴量が第２音響モデルに入力され、第２音響モデルから複数のマスクが出力される。第２音響モデルから出力された複数のマスクを用いて混合特徴量から複数の正解音響信号それぞれに対応する複数の分離特徴量が算出される。算出された複数の分離特徴量が第３音響モデルに入力され、第３音響モデルから複数の分離音響信号が出力される。第３音響モデルから出力された複数の音響信号の各々と、複数の正解音響信号の各々との誤差が算出される。算出された複数の誤差に基づいて、第１音響モデル、第２音響モデル、第３音響モデル及び第４音響モデルの各パラメータが更新される。

　したがって、学習用混合音響信号と、学習用混合音響信号に含まれる複数の音響信号の正解に相当する複数の正解音響信号とを用いて、第１音響モデル、第２音響モデル、第３音響モデル及び第４音響モデルを学習することができ、第１音響モデル、第２音響モデル、第３音響モデル及び第４音響モデルの推定精度を向上させることができる。

　（４）上記（１）～（３）のいずれか１つに記載の信号処理装置において、前記複数の音響信号は、前記環境音を示す音響信号と、前記環境音以外の音声を示す音響信号とを含んでもよい。

　この構成によれば、混合音響信号から、環境音を示す音響信号と、環境音以外の音声を示す音響信号とを分離することができる。

　（５）上記（４）記載の信号処理装置において、前記環境音以外の前記音声は、人が発話した声であってもよい。

　この構成によれば、混合音響信号から、環境音を示す音響信号と、人が発話した声を示す音響信号とを分離することができる。

　（６）上記（４）記載の信号処理装置において、前記環境音以外の前記音声は、特定の物体が発した音であってもよい。

　この構成によれば、混合音響信号から、環境音を示す音響信号と、特定の物体が発した音を示す音響信号とを分離することができる。

　（７）上記（１）～（６）のいずれか１つに記載の信号処理装置において、前記環境音響信号抽出部は、抽出した前記環境音響信号をメモリに記憶し、前記環境音特徴量変換部は、前記メモリから前記環境音響信号を読み出し、読み出した前記環境音響信号を環境音特徴量に変換してもよい。

　この構成によれば、混合音響信号が取得される毎に、抽出された環境音響信号がメモリに記憶され、メモリに記憶された環境音響信号を用いて環境音特徴量が生成されるので、混合音響信号が取得される毎に、環境音特徴量を用いてリアルタイムに複数のマスクを推定することができ、複数のマスクを用いて混合音響信号から複数の分離音響信号を精度良く分離することができる。

　（８）上記（１）～（７）のいずれか１つに記載の信号処理装置において、前記音響信号変換部によって変換された前記複数の分離音響信号を出力する音響信号出力部をさらに備えてもよい。

　この構成によれば、変換された複数の分離音響信号が出力されるので、出力された複数の分離音響信号を用いて音声認識処理などの信号処理を行うことができる。

　また、本開示は、以上のような特徴的な構成を備える信号処理装置として実現することができるだけでなく、信号処理装置が備える特徴的な構成に対応する特徴的な処理を実行する信号処理方法などとして実現することもできる。また、このような信号処理方法に含まれる特徴的な処理をコンピュータに実行させるコンピュータプログラムとして実現することもできる。したがって、以下の他の態様でも、上記の信号処理装置と同様の効果を奏することができる。

　（９）本開示の他の態様に係る信号処理方法は、コンピュータが、複数の音響信号を含む混合音響信号を取得し、前記混合音響信号を、前記混合音響信号の特徴を示す混合特徴量に変換し、前記混合特徴量に基づいて、前記複数の音響信号それぞれに対応する複数のマスクを推定し、前記複数のマスクを用いて前記混合特徴量から前記複数の音響信号それぞれに対応する複数の分離特徴量を算出し、算出した前記複数の分離特徴量を複数の分離音響信号に変換し、前記複数の分離音響信号に基づいて、前記混合音響信号の全入力区間における環境音を示す音響信号のみが含まれる環境音区間を推定し、前記混合音響信号から、推定された前記環境音区間の前記混合音響信号を環境音響信号として抽出し、前記環境音響信号を、前記環境音響信号の特徴を示す環境音特徴量に変換し、前記複数のマスクの推定において、前記環境音特徴量を用いて前記混合特徴量を重み付けし、重み付けした前記混合特徴量に基づいて、前記複数のマスクを推定する。

　（１０）本開示の他の態様に係る信号処理プログラムは、複数の音響信号を含む混合音響信号を取得する混合音響信号取得部と、前記混合音響信号を、前記混合音響信号の特徴を示す混合特徴量に変換する混合特徴量変換部と、前記混合特徴量に基づいて、前記複数の音響信号それぞれに対応する複数のマスクを推定するマスク推定部と、前記複数のマスクを用いて前記混合特徴量から前記複数の音響信号それぞれに対応する複数の分離特徴量を算出し、算出した前記複数の分離特徴量を複数の分離音響信号に変換する音響信号変換部と、前記複数の分離音響信号に基づいて、前記混合音響信号の全入力区間における環境音を示す音響信号のみが含まれる環境音区間を推定する環境音区間推定部と、前記混合音響信号から、推定された前記環境音区間の前記混合音響信号を環境音響信号として抽出する環境音響信号抽出部と、前記環境音響信号を、前記環境音響信号の特徴を示す環境音特徴量に変換する環境音特徴量変換部としてコンピュータを機能させ、前記マスク推定部は、前記環境音特徴量を用いて前記混合特徴量を重み付けし、重み付けした前記混合特徴量に基づいて、前記複数のマスクを推定する。

　（１１）本開示の他の態様に係る信号処理プログラムを記録した非一時的なコンピュータ読み取り可能な記録媒体は、複数の音響信号を含む混合音響信号を取得する混合音響信号取得部と、前記混合音響信号を、前記混合音響信号の特徴を示す混合特徴量に変換する混合特徴量変換部と、前記混合特徴量に基づいて、前記複数の音響信号それぞれに対応する複数のマスクを推定するマスク推定部と、前記複数のマスクを用いて前記混合特徴量から前記複数の音響信号それぞれに対応する複数の分離特徴量を算出し、算出した前記複数の分離特徴量を複数の分離音響信号に変換する音響信号変換部と、前記複数の分離音響信号に基づいて、前記混合音響信号の全入力区間における環境音を示す音響信号のみが含まれる環境音区間を推定する環境音区間推定部と、前記混合音響信号から、推定された前記環境音区間の前記混合音響信号を環境音響信号として抽出する環境音響信号抽出部と、前記環境音響信号を、前記環境音響信号の特徴を示す環境音特徴量に変換する環境音特徴量変換部としてコンピュータを機能させ、前記マスク推定部は、前記環境音特徴量を用いて前記混合特徴量を重み付けし、重み付けした前記混合特徴量に基づいて、前記複数のマスクを推定する。

　以下添付図面を参照しながら、本開示の実施の形態について説明する。なお、以下の実施の形態は、本開示を具体化した一例であって、本開示の技術的範囲を限定するものではない。

　（実施の形態）
　図１は、本開示の実施の形態における信号処理装置１の構成を示すブロック図である。

　信号処理装置１は、混合音響信号から複数の音響信号を分離する。混合音響信号は、複数の音響信号を含んでいる。複数の音響信号は、例えば、環境音を示す音響信号と、環境音以外の音声を示す音響信号とを含む。環境音以外の音声は、例えば、人が発話した声である。

　図１に示す信号処理装置１は、混合音響信号取得部１１、混合特徴量変換部１２、環境音響信号記憶部１３、環境音特徴量変換部１４、マスク推定部１５、音響信号変換部１６、音響信号出力部１７、環境音区間推定部１８及び環境音響信号抽出部１９を備える。

　混合音響信号取得部１１、混合特徴量変換部１２、環境音特徴量変換部１４、マスク推定部１５、音響信号変換部１６、音響信号出力部１７、環境音区間推定部１８及び環境音響信号抽出部１９は、プロセッサにより実現される。プロセッサは、例えば、ＣＰＵ（中央演算処理装置）などから構成される。

　環境音響信号記憶部１３は、メモリにより実現される。メモリは、例えば、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）又はＥＥＰＲＯＭ（Ｅｌｅｃｔｒｉｃａｌｌｙ　Ｅｒａｓａｂｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）などから構成される。

　なお、信号処理装置１は、例えば、コンピュータ、スマートフォン、タブレット型コンピュータ又はサーバであってもよい。また、信号処理装置１は、カーナビゲーション装置又は家電機器などの他の装置に組み込まれていてもよい。

　混合音響信号取得部１１は、複数の音響信号を含む混合音響信号を取得する。例えば、混合音響信号は、人の周囲の環境音を示す第１音響信号と、人の声を示す第２音響信号とを含む。混合音響信号取得部１１は、不図示のマイクロホンと接続されてもよい。マイクロホンは、複数の音源からの音を収音し、音響信号に変換し、変換した音響信号を混合音響信号として信号処理装置１へ出力する。例えば、マイクロホンは、人が発話した声及び人の周囲の環境音を収音する。混合音響信号取得部１１は、マイクロホンから混合音響信号を取得する。

　また、混合音響信号取得部１１は、所定の期間の混合音響信号を所定の期間毎に取得する。例えば、混合音響信号取得部１１は、１０秒間の混合音響信号を１０秒毎に取得してもよい。

　なお、本実施の形態では、混合音響信号取得部１１は、マイクロホンによって収音された混合音響信号を直接マイクロホンから取得しているが、本開示は特にこれに限定されない。例えば、マイクロホン等により収音された混合音響信号がコンピュータ読み取り可能な記録媒体に記録されていてもよい。混合音響信号取得部１１は、コンピュータ読み取り可能な記録媒体から混合音響信号を取得してもよい。コンピュータ読み取り可能な記録媒体は、例えば、半導体メモリ、ハードディスクドライブ、光ディスク、又はＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）メモリである。また、混合音響信号取得部１１は、インターネットなどのネットワークを介して他の装置から混合音響信号を取得してもよい。

　混合特徴量変換部１２は、混合音響信号取得部１１によって取得された混合音響信号を、混合音響信号の特徴を示す混合特徴量に変換する。混合特徴量は、混合音響信号をベクトル又は行列で表現した特徴量であり、例えば、埋め込みベクトルである。混合特徴量変換部１２は、混合音響信号が入力されると混合特徴量を出力する第１音響モデルを含む。第１音響モデルは、例えば、畳み込みニューラルネットワーク（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）、再帰型ニューラルネットワーク（Ｒｅｃｕｒｒｅｎｔ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）、長短期記憶（Ｌｏｎｇ　Ｓｈｏｒｔ－Ｔｅｒｍ　Ｍｅｍｏｒｙ）ネットワーク、又はディープニューラルネットワークである。第１音響モデルは、入力された混合音響信号を混合特徴量に変換して出力する。第１音響モデルは、後述する学習装置２によって機械学習される。

　混合特徴量変換部１２は、混合音響信号を第１音響モデルに入力し、第１音響モデルから出力される混合特徴量を取得する。混合特徴量変換部１２は、混合音響信号から変換した混合特徴量をマスク推定部１５及び音響信号変換部１６へ出力する。

　環境音響信号記憶部１３は、混合音響信号の全入力区間における環境音を示す音響信号のみが含まれる環境音区間の混合音響信号を環境音響信号として記憶する。環境音響信号記憶部１３は、環境音響信号を一時的に記憶する。環境音響信号記憶部１３に記憶される環境音響信号は、所定の期間毎に新たに更新される。

　環境音特徴量変換部１４は、環境音響信号を、環境音響信号の特徴を示す環境音特徴量に変換する。環境音特徴量変換部１４は、環境音響信号記憶部１３から環境音響信号を読み出し、読み出した環境音響信号を環境音特徴量に変換する。環境音特徴量は、環境音響信号をベクトル又は行列で表現した特徴量であり、例えば、埋め込みベクトルである。環境音特徴量変換部１４は、環境音響信号が入力されると環境音特徴量を出力する第４音響モデルを含む。第４音響モデルは、例えば、畳み込みニューラルネットワーク、再帰型ニューラルネットワーク、長短期記憶ネットワーク、又はディープニューラルネットワークである。第４音響モデルは、後述する学習装置２によって機械学習される。

　環境音特徴量変換部１４は、環境音響信号を第４音響モデルに入力し、第４音響モデルから出力される環境音特徴量を取得する。環境音特徴量が補助情報に相当する。環境音特徴量変換部１４は、環境音響信号から変換した環境音特徴量をマスク推定部１５へ出力する。

　マスク推定部１５は、混合特徴量変換部１２によって変換された混合特徴量に基づいて、複数の音響信号それぞれに対応する複数のマスクを推定する。マスク推定部１５は、混合特徴量が入力されると複数のマスクを出力する第２音響モデルを含む。第２音響モデルは、例えば、畳み込みニューラルネットワーク、再帰型ニューラルネットワーク、長短期記憶ネットワーク、又はディープニューラルネットワークである。第２音響モデルは、後述する学習装置２によって機械学習される。また、マスク推定部１５は、環境音特徴量変換部１４によって変換された環境音特徴量を用いて混合特徴量を重み付けし、重み付けした混合特徴量に基づいて、複数のマスクを推定する。複数のマスクは、例えば、時間周波数マスクである。

　マスク推定部１５は、環境音特徴量を用いて重み付けした混合特徴量を第２音響モデルに入力し、第２音響モデルから出力される複数の音響信号それぞれに対応する複数のマスクを取得する。マスク推定部１５は、混合特徴量から推定した複数のマスクを音響信号変換部１６へ出力する。

　混合特徴量が環境音特徴量で重み付けされることにより、環境音を示す音響信号を抽出するためのマスクと、環境音以外の音声を示す音響信号を抽出するためのマスクとを精度良く推定することができる。

　例えば、混合音響信号が、人の周囲の環境音を示す第１音響信号と、人の声を示す第２音響信号とを含む場合、マスク推定部１５は、混合特徴量変換部１２によって変換された混合特徴量に基づいて、環境音を示す第１音響信号を抽出するための第１マスクを推定するとともに、人の声を示す第２音響信号を抽出するための第２マスクを推定する。

　音響信号変換部１６は、マスク推定部１５によって推定された複数のマスクを用いて、混合特徴量変換部１２によって変換された混合特徴量から複数の音響信号それぞれに対応する複数の分離特徴量を算出する。分離特徴量は、混合音響信号に含まれる音響信号をベクトル又は行列で表現した特徴量であり、例えば、埋め込みベクトルである。

　音響信号変換部１６は、マスク推定部１５によって推定された複数のマスクを用いて混合特徴量をマスキングし、複数の音響信号それぞれに対応する複数の分離特徴量を算出する。

　また、音響信号変換部１６は、算出した複数の分離特徴量を複数の分離音響信号に変換する。音響信号変換部１６は、算出した複数の分離特徴量が入力されると複数の分離音響信号を出力する第３音響モデルを含む。第３音響モデルは、例えば、畳み込みニューラルネットワーク、再帰型ニューラルネットワーク、長短期記憶ネットワーク、又はディープニューラルネットワークである。第３音響モデルは、後述する学習装置２によって機械学習される。

　音響信号変換部１６は、算出した複数の分離特徴量を第３音響モデルに入力し、第３音響モデルから出力される複数の分離音響信号を取得する。音響信号変換部１６は、複数の分離特徴量から変換した複数の分離音響信号を音響信号出力部１７及び環境音区間推定部１８へ出力する。

　例えば、音響信号変換部１６は、マスク推定部１５によって推定された第１マスクを用いて、混合特徴量から第１音響信号に対応する第１分離特徴量を算出するとともに、マスク推定部１５によって推定された第２マスクを用いて、混合特徴量から第２音響信号に対応する第２分離特徴量を算出する。音響信号変換部１６は、混合特徴量と第１マスクとを各時間周波数成分において掛け合わせることにより、第１音響信号に対応する第１分離特徴量を算出するとともに、混合特徴量と第２マスクとを各時間周波数成分において掛け合わせることにより、第２音響信号に対応する第２分離特徴量を算出する。また、音響信号変換部１６は、算出した第１分離特徴量を第１分離音響信号に変換するとともに、算出した第２分離特徴量を第２分離音響信号に変換する。

　音響信号出力部１７は、音響信号変換部１６によって変換された複数の分離音響信号を出力する。音響信号出力部１７は、混合音響信号から分離された複数の分離音響信号を出力する。音響信号出力部１７は、複数の分離音響信号を全て出力してもよいし、複数の分離音響信号の一部を出力してもよい。

　例えば、音響信号出力部１７は、音響信号変換部１６によって変換された、環境音を示す第１分離音響信号及び人の声を示す第２分離音響信号を出力する。環境音と人の声とが分離されることにより、入力された混合音響信号から、工場騒音、車内の騒音又は車外の騒音などの環境音を取り除き、人の声のみを取り出すことができる。そして、人の声を示す第２分離音響信号は、例えば、音声認識に用いられる。また、環境音を示す第１分離音響信号は、例えば、人の周囲で発生するイベントを検出するために用いられる。音響信号出力部１７は、第１分離音響信号及び第２分離音響信号の両方を出力してもよいし、第１分離音響信号及び第２分離音響信号のいずれか一方を出力してもよい。

　環境音区間推定部１８は、音響信号変換部１６によって変換された複数の分離音響信号に基づいて、混合音響信号の全入力区間における環境音を示す音響信号のみが含まれる環境音区間を推定する。例えば、環境音区間推定部１８は、環境音を示す第１分離音響信号の区間から、人の声を示す第２分離音響信号の区間を減算することにより、混合音響信号の全入力区間における環境音を示す音響信号のみが含まれる環境音区間を推定する。

　また、環境音区間推定部１８は、音声区間検出（ＶＡＤ：Ｖｏｉｃｅ　Ａｃｔｉｖｉｔｙ　Ｄｅｔｅｃｔｉｏｎ）処理により、複数の音響信号それぞれの全入力区間から、人の声が含まれる音声区間と、人の声以外の音が含まれる非音声区間とを識別し、音声区間と重複しない非音声区間のみの区間を環境音区間として推定してもよい。例えば、環境音区間推定部１８は、ＶＡＤ処理により、環境音を示す第１分離音響信号の全入力区間から音声区間と非音声区間とを識別するとともに、人の声を示す第２分離音響信号の全入力区間から音声区間と非音声区間とを識別する。そして、環境音区間推定部１８は、混合音響信号の全入力区間のうち、音声区間と重複しない非音声区間のみの区間を環境音区間として推定してもよい。

　環境音響信号抽出部１９は、混合音響信号から、環境音区間推定部１８によって推定された環境音区間の混合音響信号を環境音響信号として抽出する。環境音響信号抽出部１９は、抽出した環境音響信号を環境音響信号記憶部１３に記憶する。環境音響信号抽出部１９は、所定の期間毎に環境音響信号を環境音響信号記憶部１３に記憶し、環境音響信号記憶部１３内の環境音響信号を更新する。所定の期間は、混合音響信号が取得される間隔である。

　このように、所定の期間毎に環境音響信号が環境音響信号記憶部１３に記憶され、環境音響信号記憶部１３に記憶された環境音響信号が、環境音響信号の特徴を示す環境音特徴量に変換され、変換された環境音特徴量が、複数のマスクの推定に用いられる。したがって、リアルタイムに変化する環境音を用いて、混合音響信号から複数の音響信号を分離することができる。

　続いて、本開示の実施の形態における学習装置２の構成について説明する。

　図２は、本開示の実施の形態における学習装置２の構成を示すブロック図である。

　学習装置２は、混合特徴量変換部１２、環境音特徴量変換部１４、マスク推定部１５及び音響信号変換部１６の各音響モデル（例えば、ニューラルネットワーク）のパラメータを学習する。

　図２に示す学習装置２は、学習用音響信号取得部２１、混合特徴量変換部１２、環境音特徴量変換部１４、マスク推定部１５、音響信号変換部１６及びパラメータ更新部２２を備える。なお、学習装置２において、信号処理装置１と同じ構成については同じ符号を付し、説明を省略する。

　学習用音響信号取得部２１、混合特徴量変換部１２、環境音特徴量変換部１４、マスク推定部１５、音響信号変換部１６及びパラメータ更新部２２は、プロセッサにより実現される。プロセッサは、例えば、ＣＰＵなどから構成される。

　なお、学習装置２は、例えば、コンピュータ又はサーバであってもよい。また、本実施の形態において、信号処理装置１と学習装置２とは、互いに異なる装置であるが、信号処理装置１が学習装置２の学習用音響信号取得部２１及びパラメータ更新部２２を備えてもよい。すなわち、信号処理装置１は、学習装置２の機能を備えてもよい。

　学習用音響信号取得部２１は、学習用混合音響信号と、学習用混合音響信号に含まれる複数の音響信号の正解に相当する複数の正解音響信号とを取得する。学習用音響信号取得部２１は、複数の正解音響信号をパラメータ更新部２２へ出力し、学習用混合音響信号を混合特徴量変換部１２へ出力し、複数の正解音響信号のうちの正解に相当する環境音を示す正解環境音響信号を環境音特徴量変換部１４へ出力する。

　学習用音響信号取得部２１は、不図示のマイクロホンと接続されてもよい。マイクロホンは、複数の音源からの音をそれぞれ個別に収音し、それぞれ音響信号に変換し、変換した各音響信号を正解音響信号として信号処理装置１へ出力する。例えば、マイクロホンは、人が発話した声及び周囲の環境音をそれぞれ個別に収音する。また、マイクロホンは、複数の正解音響信号と同一の複数の音を混合した音を収音し、音響信号に変換し、変換した音響信号を学習用混合音響信号として信号処理装置１へ出力する。学習用音響信号取得部２１は、マイクロホンから学習用混合音響信号及び複数の正解音響信号を取得する。また、学習用音響信号取得部２１は、学習用混合音響信号及び複数の正解音響信号を１つの教師データとし、複数の教師データを取得する。

　なお、本実施の形態では、学習用音響信号取得部２１は、マイクロホンによって収音された学習用混合音響信号及び複数の正解音響信号を直接マイクロホンから取得しているが、本開示は特にこれに限定されない。例えば、マイクロホン等により収音された学習用混合音響信号及び複数の正解音響信号がコンピュータ読み取り可能な記録媒体に記録されていてもよい。学習用音響信号取得部２１は、コンピュータ読み取り可能な記録媒体から学習用混合音響信号及び複数の正解音響信号を取得してもよい。また、学習用音響信号取得部２１は、インターネットなどのネットワークを介して他の装置から学習用混合音響信号及び複数の正解音響信号を取得してもよい。

　パラメータ更新部２２は、第１音響モデル、第２音響モデル、第３音響モデル及び第４音響モデルの各パラメータを更新する。

　混合特徴量変換部１２は、学習用音響信号取得部２１によって取得された学習用混合音響信号を、学習用混合音響信号の特徴を示す混合特徴量に変換する。混合特徴量変換部１２は、学習用音響信号取得部２１によって取得された学習用混合音響信号を第１音響モデルに入力し、第１音響モデルから出力される混合特徴量を取得する。

　環境音特徴量変換部１４は、学習用音響信号取得部２１によって取得された複数の正解音響信号のうちの正解に相当する環境音を示す正解環境音響信号を、正解環境音響信号の特徴を示す環境音特徴量に変換する。環境音特徴量変換部１４は、学習用音響信号取得部２１によって取得された複数の正解音響信号のうちの正解に相当する環境音を示す正解環境音響信号を第４音響モデルに入力し、第４音響モデルから出力される環境音特徴量を取得する。

　マスク推定部１５は、環境音特徴量変換部１４によって変換された環境音特徴量を用いて混合特徴量を重み付けし、重み付けした混合特徴量に基づいて、複数の正解音響信号それぞれに対応する複数のマスクを推定する。マスク推定部１５は、第４音響モデルから出力された環境音特徴量を用いて第１音響モデルから出力された混合特徴量を重み付けし、重み付けした混合特徴量を第２音響モデルに入力し、第２音響モデルから出力される複数のマスクを取得する。

　音響信号変換部１６は、第２音響モデルから出力された複数のマスクを用いて混合特徴量から複数の正解音響信号それぞれに対応する複数の分離特徴量を算出する。音響信号変換部１６は、マスク推定部１５によって推定された複数のマスクを用いて混合特徴量をマスキングし、複数の正解音響信号それぞれに対応する複数の分離特徴量を算出する。また、音響信号変換部１６は、算出した複数の分離特徴量を複数の分離音響信号に変換する。音響信号変換部１６は、算出した複数の分離特徴量を第３音響モデルに入力し、第３音響モデルから出力される複数の分離音響信号を取得する。

　パラメータ更新部２２は、第３音響モデルから出力された複数の分離音響信号の各々と、学習用音響信号取得部２１によって取得された複数の正解音響信号の各々との誤差を算出し、算出した複数の誤差に基づいて、混合特徴量変換部１２の第１音響モデル、マスク推定部１５の第２音響モデル、音響信号変換部１６の第３音響モデル及び環境音特徴量変換部１４の第４音響モデルの各パラメータを更新する。パラメータ更新部２２は、誤差逆伝播法により第１音響モデル、第２音響モデル、第３音響モデル及び第４音響モデルの各パラメータを更新する。より具体的に、パラメータ更新部２２は、第３音響モデルから出力された複数の分離音響信号の各々と、複数の正解音響信号の各々との誤差の平均を算出し、算出した複数の誤差の平均が最小になるように、第１音響モデル、第２音響モデル、第３音響モデル及び第４音響モデルの各パラメータを更新する。

　学習装置２の各部が複数の教師データに対して処理を行うことにより、第１音響モデル、第２音響モデル、第３音響モデル及び第４音響モデルのパラメータが繰り返し更新され、第１音響モデル、第２音響モデル、第３音響モデル及び第４音響モデルが学習される。

　学習済みの第１音響モデルを含む混合特徴量変換部１２、学習済みの第２音響モデルを含むマスク推定部１５、学習済みの第３音響モデルを含む音響信号変換部１６及び学習済みの第４音響モデルを含む環境音特徴量変換部１４は、信号処理装置１に搭載される。

　続いて、本実施の形態における信号処理装置１の音源分離処理について説明する。

　図３は、本実施の形態における信号処理装置１の音源分離処理について説明するためのフローチャートである。

　まず、ステップＳ１において、混合音響信号取得部１１は、複数の音響信号を含む混合音響信号を取得する。例えば、混合音響信号は、人の周囲の環境音を示す第１音響信号と、人の声を示す第２音響信号とを含む。なお、第２音響信号は、１人の人物の声だけでなく、複数の人物の声を示してもよい。

　次に、ステップＳ２において、混合特徴量変換部１２は、混合音響信号取得部１１によって取得された混合音響信号を、混合音響信号の特徴を示す混合特徴量に変換する。このとき、混合特徴量変換部１２は、混合音響信号を学習済みの第１音響モデルに入力し、第１音響モデルから出力される混合特徴量を取得する。

　次に、ステップＳ３において、環境音特徴量変換部１４は、環境音響信号記憶部１３から、環境音のみを示す環境音響信号を読み出す。

　次に、ステップＳ４において、環境音特徴量変換部１４は、環境音響信号記憶部１３から読み出した環境音響信号を、環境音響信号の特徴を示す環境音特徴量に変換する。このとき、環境音特徴量変換部１４は、環境音響信号を学習済みの第４音響モデルに入力し、第４音響モデルから出力される環境音特徴量を取得する。

　次に、ステップＳ５において、マスク推定部１５は、環境音特徴量変換部１４によって変換された環境音特徴量を用いて混合特徴量を重み付けする。

　次に、ステップＳ６において、マスク推定部１５は、環境音特徴量を用いて重み付けした混合特徴量に基づいて、複数の音響信号それぞれに対応する複数のマスクを推定する。このとき、マスク推定部１５は、環境音特徴量を用いて重み付けした混合特徴量を学習済みの第２音響モデルに入力し、第２音響モデルから出力される複数の音響信号それぞれに対応する複数のマスクを取得する。例えば、マスク推定部１５は、環境音特徴量を用いて重み付けした混合特徴量を学習済みの第２音響モデルに入力し、第２音響モデルから出力される第１音響信号に対応する第１マスク及び第２音響信号に対応する第２マスクを取得する。

　なお、最初の音源分離処理では、環境音響信号が環境音響信号記憶部１３に記憶されておらず、マスク推定部１５は、環境音特徴量を用いて混合特徴量を重み付けすることができない。そのため、最初の音源分離処理では、マスク推定部１５は、環境音特徴量を用いて重み付けせずに、混合特徴量変換部１２によって変換された混合特徴量に基づいて、複数の音響信号それぞれに対応する複数のマスクを推定してもよい。そして、２回目以降の音源分離処理において、マスク推定部１５は、環境音特徴量を用いて重み付けした混合特徴量に基づいて、複数の音響信号それぞれに対応する複数のマスクを推定してもよい。

　次に、ステップＳ７において、音響信号変換部１６は、マスク推定部１５によって推定された複数のマスクを用いて、混合特徴量変換部１２によって変換された混合特徴量から複数の音響信号それぞれに対応する複数の分離特徴量を算出する。このとき、音響信号変換部１６は、混合特徴量変換部１２によって変換された混合特徴量と、マスク推定部１５によって推定された複数のマスクそれぞれとを各時間周波数成分において掛け合わせることにより、複数の音響信号それぞれに対応する複数の分離特徴量を算出する。例えば、音響信号変換部１６は、混合特徴量変換部１２によって変換された混合特徴量と、マスク推定部１５によって推定された第１マスクとを各時間周波数成分において掛け合わせることにより、第１音響信号に対応する第１分離特徴量を算出するとともに、混合特徴量変換部１２によって変換された混合特徴量と、マスク推定部１５によって推定された第２マスクとを各時間周波数成分において掛け合わせることにより、第２音響信号に対応する第２分離特徴量を算出する。

　次に、ステップＳ８において、音響信号変換部１６は、算出した複数の分離特徴量を複数の分離音響信号に変換する。このとき、音響信号変換部１６は、算出した複数の分離特徴量を学習済みの第３音響モデルに入力し、第３音響モデルから出力される複数の分離音響信号を取得する。例えば、音響信号変換部１６は、算出した第１分離特徴量を学習済みの第３音響モデルに入力し、第３音響モデルから出力される第１分離音響信号を取得するとともに、算出した第２分離特徴量を学習済みの第３音響モデルに入力し、第３音響モデルから出力される第２分離音響信号を取得する。

　次に、ステップＳ９において、音響信号出力部１７は、音響信号変換部１６によって変換された複数の分離音響信号を出力する。例えば、音響信号出力部１７は、音響信号変換部１６によって変換された第１分離音響信号及び第２分離音響信号を出力する。

　次に、ステップＳ１０において、環境音区間推定部１８は、音響信号変換部１６によって変換された複数の分離音響信号に基づいて、混合音響信号の全入力区間における環境音を示す音響信号のみが含まれる環境音区間を推定する。例えば、環境音区間推定部１８は、音響信号変換部１６によって変換された第１分離音響信号及び第２分離音響信号に基づいて、混合音響信号の全入力区間における環境音を示す音響信号のみが含まれる環境音区間を推定する。

　次に、ステップＳ１１において、環境音響信号抽出部１９は、混合音響信号取得部１１によって取得された混合音響信号から、環境音区間推定部１８によって推定された環境音区間の混合音響信号を環境音響信号として抽出する。

　次に、ステップＳ１２において、環境音響信号抽出部１９は、抽出した環境音響信号を環境音響信号記憶部１３に記憶する。ステップＳ１２の処理が終了すると、ステップＳ１に処理が戻る。

　このように、混合音響信号から、環境音を示す音響信号のみが含まれる環境音区間の混合音響信号が環境音響信号として抽出され、環境音響信号の特徴を示す環境音特徴量を用いて混合特徴量が重み付けされ、重み付けされた混合特徴量に基づいて、複数のマスクが推定される。したがって、リアルタイムに混合音響信号から抽出された環境音響信号を用いて複数のマスクが推定され、推定された複数のマスクを用いて混合音響信号が複数の分離音響信号に分離されるので、従来技術のような目的音源の音響信号に関する補助情報を事前に作成するための煩雑な準備処理が不要になるとともに、混合音響信号から複数の音響信号を分離する性能の低下を防止することができる。

　また、周囲の環境音を推定しながら環境音の特徴を示す環境音特徴量を補助情報として用いることで、各音響モデルをリアルタイムに利用環境に適応させながら、精度良く音源分離を行うことができる。

　続いて、本実施の形態における学習装置２の学習処理について説明する。

　図４は、本実施の形態における学習装置２の学習処理について説明するためのフローチャートである。

　まず、ステップＳ２１において、学習用音響信号取得部２１は、学習用混合音響信号及び複数の正解音響信号を取得する。例えば、複数の正解音響信号は、人の周囲の環境音を示す第１正解音響信号と、人の声を示す第２正解音響信号とを含む。

　次に、ステップＳ２２において、混合特徴量変換部１２は、学習用音響信号取得部２１によって取得された学習用混合音響信号を、学習用混合音響信号の特徴を示す混合特徴量に変換する。このとき、混合特徴量変換部１２は、学習用音響信号取得部２１によって取得された学習用混合音響信号を未学習の第１音響モデルに入力し、第１音響モデルから出力される混合特徴量を取得する。

　次に、ステップＳ２３において、環境音特徴量変換部１４は、学習用音響信号取得部２１によって取得された複数の正解音響信号のうちの正解に相当する環境音を示す正解環境音響信号を、正解環境音響信号の特徴を示す環境音特徴量に変換する。このとき、環境音特徴量変換部１４は、学習用音響信号取得部２１によって取得された複数の正解音響信号のうちの正解環境音響信号を未学習の第４音響モデルに入力し、第４音響モデルから出力される環境音特徴量を取得する。

　次に、ステップＳ２４において、マスク推定部１５は、環境音特徴量変換部１４によって変換された環境音特徴量を用いて混合特徴量を重み付けする。

　次に、ステップＳ２５において、マスク推定部１５は、環境音特徴量を用いて重み付けした混合特徴量に基づいて、複数の正解音響信号それぞれに対応する複数のマスクを推定する。このとき、マスク推定部１５は、環境音特徴量を用いて重み付けした混合特徴量を未学習の第２音響モデルに入力し、第２音響モデルから出力される複数の正解音響信号それぞれに対応する複数のマスクを取得する。例えば、マスク推定部１５は、環境音特徴量を用いて重み付けした混合特徴量を未学習の第２音響モデルに入力し、第２音響モデルから出力される第１正解音響信号に対応する第１マスク及び第２正解音響信号に対応する第２マスクを取得する。

　次に、ステップＳ２６において、音響信号変換部１６は、マスク推定部１５によって推定された複数のマスクを用いて、混合特徴量変換部１２によって変換された混合特徴量から複数の正解音響信号それぞれに対応する複数の分離特徴量を算出する。このとき、音響信号変換部１６は、混合特徴量変換部１２によって変換された混合特徴量と、マスク推定部１５によって推定された複数のマスクそれぞれとを各時間周波数成分において掛け合わせることにより、複数の正解音響信号それぞれに対応する複数の分離特徴量を算出する。例えば、音響信号変換部１６は、混合特徴量変換部１２によって変換された混合特徴量と、マスク推定部１５によって推定された第１マスクとを各時間周波数成分において掛け合わせることにより、第１正解音響信号に対応する第１分離特徴量を算出するとともに、混合特徴量変換部１２によって変換された混合特徴量と、マスク推定部１５によって推定された第２マスクとを各時間周波数成分において掛け合わせることにより、第２正解音響信号に対応する第２分離特徴量を算出する。

　次に、ステップＳ２７において、音響信号変換部１６は、算出した複数の分離特徴量を複数の分離音響信号に変換する。このとき、音響信号変換部１６は、算出した複数の分離特徴量を未学習の第３音響モデルに入力し、第３音響モデルから出力される複数の分離音響信号を取得する。例えば、音響信号変換部１６は、算出した第１分離特徴量を未学習の第３音響モデルに入力し、第３音響モデルから出力される第１分離音響信号を取得するとともに、算出した第２分離特徴量を未学習の第３音響モデルに入力し、第３音響モデルから出力される第２分離音響信号を取得する。

　次に、ステップＳ２８において、パラメータ更新部２２は、第３音響モデルから出力された複数の分離音響信号の各々と、学習用音響信号取得部２１によって取得された複数の正解音響信号の各々との誤差を算出する。例えば、パラメータ更新部２２は、第３音響モデルから出力された第１分離音響信号と第１正解音響信号との誤差を算出するとともに、第３音響モデルから出力された第２分離音響信号と第２正解音響信号との誤差を算出する。

　次に、ステップＳ２９において、パラメータ更新部２２は、算出した複数の誤差の平均を算出する。例えば、パラメータ更新部２２は、第１分離音響信号と第１正解音響信号との誤差と、第２分離音響信号と第２正解音響信号との誤差との平均を算出する。

　次に、ステップＳ３０において、パラメータ更新部２２は、算出した複数の誤差の平均が最小になるように、混合特徴量変換部１２の第１音響モデル、マスク推定部１５の第２音響モデル、音響信号変換部１６の第３音響モデル及び環境音特徴量変換部１４の第４音響モデルの各パラメータを更新する。

　なお、１つの教師データは、学習用混合音響信号及び複数の正解音響信号を含み、学習用音響信号取得部２１は、複数の教師データのうちの１つの教師データを取得する。そして、複数の教師データの全てについて、ステップＳ２１～ステップＳ３０の処理が行われ、第１音響モデル、第２音響モデル、第３音響モデル及び第４音響モデルが学習される。

　このように、学習用混合音響信号と、学習用混合音響信号に含まれる複数の音響信号の正解に相当する複数の正解音響信号とが取得される。学習用混合音響信号が第１音響モデルに入力され、第１音響モデルから混合特徴量が出力される。複数の正解音響信号のうちの正解に相当する環境音を示す正解環境音響信号が第４音響モデルに入力され、第４音響モデルから環境音特徴量が出力される。第４音響モデルから出力された環境音特徴量を用いて第１音響モデルから出力された混合特徴量が重み付けされる。重み付けされた混合特徴量が第２音響モデルに入力され、第２音響モデルから複数のマスクが出力される。第２音響モデルから出力された複数のマスクを用いて混合特徴量から複数の音響信号それぞれに対応する分離特徴量が算出される。算出された複数の分離特徴量が第３音響モデルに入力され、第３音響モデルから複数の分離音響信号が出力される。第３音響モデルから出力された複数の音響信号の各々と、複数の正解音響信号の各々との誤差が算出される。算出された複数の誤差に基づいて、第１音響モデル、第２音響モデル、第３音響モデル及び第４音響モデルの各パラメータが更新される。

　なお、本実施の形態において、環境音以外の音声は、特定の物体が発した音であってもよい。特定の物体が発した音は、例えば、警察車両、消防車又は救急車などのサイレンの音であっってもよい。学習装置２は、サイレンの音を示す音響信号と、サイレンの音以外の環境音を示す音響信号とを混合した学習用混合音響信号を用いて、第１～第４音響モデルを学習することにより、信号処理装置１は、サイレンの音と、サイレンの音以外の環境音とを分離して出力することができる。

　なお、上記各実施の形態において、複数のマスクは時間周波数マスクである事例で説明しているが、本開示はこれに限定されない。例えば、複数のマスクは混合特徴量の各要素における各音響信号に対する寄与度を示すベクトルであってもよい。

　なお、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。また、プログラムを記録媒体に記録して移送することにより、又はプログラムをネットワークを経由して移送することにより、独立した他のコンピュータシステムによりプログラムが実施されてもよい。

　本開示の実施の形態に係る装置の機能の一部又は全ては典型的には集積回路であるＬＳＩ（Ｌａｒｇｅ　Ｓｃａｌｅ　Ｉｎｔｅｇｒａｔｉｏｎ）として実現される。これらは個別に１チップ化されてもよいし、一部又は全てを含むように１チップ化されてもよい。また、集積回路化はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。ＬＳＩ製造後にプログラムすることが可能なＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）、又はＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

　また、本開示の実施の形態に係る装置の機能の一部又は全てを、ＣＰＵ等のプロセッサがプログラムを実行することにより実現してもよい。

　また、上記で用いた数字は、全て本開示を具体的に説明するために例示するものであり、本開示は例示された数字に制限されない。

　また、上記フローチャートに示す各ステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、同様の効果が得られる範囲で上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時（並列）に実行されてもよい。

　本開示に係る技術は、目的音源の音響信号に関する補助情報を事前に作成するための煩雑な準備処理が不要になるとともに、混合音響信号から複数の音響信号を分離する性能の低下を防止することができるので、混合音響信号から複数の音響信号を分離する技術として有用である。

Claims

　複数の音響信号を含む混合音響信号を取得する混合音響信号取得部と、
　前記混合音響信号を、前記混合音響信号の特徴を示す混合特徴量に変換する混合特徴量変換部と、
　前記混合特徴量に基づいて、前記複数の音響信号それぞれに対応する複数のマスクを推定するマスク推定部と、
　前記複数のマスクを用いて前記混合特徴量から前記複数の音響信号それぞれに対応する複数の分離特徴量を算出し、算出した前記複数の分離特徴量を複数の分離音響信号に変換する音響信号変換部と、
　前記複数の分離音響信号に基づいて、前記混合音響信号の全入力区間における環境音を示す音響信号のみが含まれる環境音区間を推定する環境音区間推定部と、
　前記混合音響信号から、推定された前記環境音区間の前記混合音響信号を環境音響信号として抽出する環境音響信号抽出部と、
　前記環境音響信号を、前記環境音響信号の特徴を示す環境音特徴量に変換する環境音特徴量変換部と、
　を備え、
　前記マスク推定部は、前記環境音特徴量を用いて前記混合特徴量を重み付けし、重み付けした前記混合特徴量に基づいて、前記複数のマスクを推定する、
　信号処理装置。
　前記混合特徴量変換部は、前記混合音響信号が入力されると前記混合特徴量を出力する第１音響モデルを含み、
　前記マスク推定部は、前記混合特徴量が入力されると前記複数のマスクを出力する第２音響モデルを含み、
　前記音響信号変換部は、算出した前記複数の分離特徴量が入力されると前記複数の分離音響信号を出力する第３音響モデルを含み、
　前記環境音特徴量変換部は、前記環境音響信号が入力されると前記環境音特徴量を出力する第４音響モデルを含む、
　請求項１記載の信号処理装置。
　学習用混合音響信号と、前記学習用混合音響信号に含まれる複数の音響信号の正解に相当する複数の正解音響信号とを取得する学習用音響信号取得部と、
　前記第１音響モデル、前記第２音響モデル、前記第３音響モデル及び前記第４音響モデルの各パラメータを更新するパラメータ更新部と、
　をさらに備え、
　前記混合特徴量変換部は、前記学習用混合音響信号を前記第１音響モデルに入力し、前記第１音響モデルから出力される前記混合特徴量を取得し、
　前記環境音特徴量変換部は、前記複数の正解音響信号のうちの正解に相当する環境音を示す正解環境音響信号を前記第４音響モデルに入力し、前記第４音響モデルから出力される前記環境音特徴量を取得し、
　前記マスク推定部は、前記第４音響モデルから出力された前記環境音特徴量を用いて前記第１音響モデルから出力された前記混合特徴量を重み付けし、重み付けした前記混合特徴量を前記第２音響モデルに入力し、前記第２音響モデルから出力される前記複数のマスクを取得し、
　前記音響信号変換部は、前記第２音響モデルから出力された前記複数のマスクを用いて前記混合特徴量から前記複数の正解音響信号それぞれに対応する複数の分離特徴量を算出し、算出した複数の分離特徴量を前記第３音響モデルに入力し、前記第３音響モデルから出力される前記複数の分離音響信号を取得し、
　前記パラメータ更新部は、前記第３音響モデルから出力された前記複数の音響信号の各々と、前記複数の正解音響信号の各々との誤差を算出し、算出した複数の誤差に基づいて、前記第１音響モデル、前記第２音響モデル、前記第３音響モデル及び前記第４音響モデルの各パラメータを更新する、
　請求項２記載の信号処理装置。
　前記複数の音響信号は、前記環境音を示す音響信号と、前記環境音以外の音声を示す音響信号とを含む、
　請求項１～３のいずれか１項に記載の信号処理装置。
　前記環境音以外の前記音声は、人が発話した声である、
　請求項４記載の信号処理装置。
　前記環境音以外の前記音声は、特定の物体が発した音である、
　請求項４記載の信号処理装置。
　前記環境音響信号抽出部は、抽出した前記環境音響信号をメモリに記憶し、
　前記環境音特徴量変換部は、前記メモリから前記環境音響信号を読み出し、読み出した前記環境音響信号を環境音特徴量に変換する、
　請求項１～３のいずれか１項に記載の信号処理装置。
　前記音響信号変換部によって変換された前記複数の分離音響信号を出力する音響信号出力部をさらに備える、
　請求項１～３のいずれか１項に記載の信号処理装置。
　コンピュータが、
　複数の音響信号を含む混合音響信号を取得し、
　前記混合音響信号を、前記混合音響信号の特徴を示す混合特徴量に変換し、
　前記混合特徴量に基づいて、前記複数の音響信号それぞれに対応する複数のマスクを推定し、
　前記複数のマスクを用いて前記混合特徴量から前記複数の音響信号それぞれに対応する複数の分離特徴量を算出し、算出した前記複数の分離特徴量を複数の分離音響信号に変換し、
　前記複数の分離音響信号に基づいて、前記混合音響信号の全入力区間における環境音を示す音響信号のみが含まれる環境音区間を推定し、
　前記混合音響信号から、推定された前記環境音区間の前記混合音響信号を環境音響信号として抽出し、
　前記環境音響信号を、前記環境音響信号の特徴を示す環境音特徴量に変換し、
　前記複数のマスクの推定において、前記環境音特徴量を用いて前記混合特徴量を重み付けし、重み付けした前記混合特徴量に基づいて、前記複数のマスクを推定する、
　信号処理方法。
　複数の音響信号を含む混合音響信号を取得する混合音響信号取得部と、
　前記混合音響信号を、前記混合音響信号の特徴を示す混合特徴量に変換する混合特徴量変換部と、
　前記混合特徴量に基づいて、前記複数の音響信号それぞれに対応する複数のマスクを推定するマスク推定部と、
　前記複数のマスクを用いて前記混合特徴量から前記複数の音響信号それぞれに対応する複数の分離特徴量を算出し、算出した前記複数の分離特徴量を複数の分離音響信号に変換する音響信号変換部と、
　前記複数の分離音響信号に基づいて、前記混合音響信号の全入力区間における環境音を示す音響信号のみが含まれる環境音区間を推定する環境音区間推定部と、
　前記混合音響信号から、推定された前記環境音区間の前記混合音響信号を環境音響信号として抽出する環境音響信号抽出部と、
　前記環境音響信号を、前記環境音響信号の特徴を示す環境音特徴量に変換する環境音特徴量変換部としてコンピュータを機能させ、
　前記マスク推定部は、前記環境音特徴量を用いて前記混合特徴量を重み付けし、重み付けした前記混合特徴量に基づいて、前記複数のマスクを推定する、
　信号処理プログラム。