JP7138824B2

JP7138824B2 - 音源分離モデル学習装置、音源分離装置、プログラム、音源分離モデル学習方法及び音源分離方法

Info

Publication number: JP7138824B2
Application number: JP2022532167A
Authority: JP
Inventors: 祥幹三井
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2020-06-25
Filing date: 2020-06-25
Publication date: 2022-09-16
Anticipated expiration: 2040-06-25
Also published as: WO2021260868A1; JPWO2021260868A1

Description

本開示は、音源分離モデル学習装置、音源分離装置、プログラム、音源分離モデル学習方法及び音源分離方法に関する。

近年では、複数の音源からなる混合信号より、所望の音源信号のみを分離する手法として、ニューラルネットワーク（以下、ＮＮという）に基づく手法が使用されている。非特許文献１では、複数の音が混ざっている混合信号から、ＮＮを用いた音源分離装置を通過させることで、音源分離が達成される。

Ｚ．Ｑ．Ｗａｎｇｅｔａｌ．，ＡｌｔｅｒｎａｔｉｖｅＯｂｊｅｃｔｉｖｅＦｕｎｃｔｉｏｎｓｆｏｒＤｅｅｐＣｌｕｓｔｅｒｉｎｇ，ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ），２０１８年

従来の技術のように、ＮＮに基づく音源分離手法においては、取得された音源信号からＮＮへの入力特徴量を生成して、ＮＮに適用している。

一方、所望の音源を分離したり、不要な音源から到来する信号を抑圧したりといった処理として、他の信号処理が存在する。例えば、マイクロホンアレイを用いたビームフォーミング処理、騒音を抑圧するスペクトルサブトラクション処理、又は、ノイズキャンセリング等を行う適応フィルタリング処理等の信号処理がある。

非特許文献１の学習段階においては、音源信号の取得から入力特徴量の生成までの間に上記のような信号処理が行われることを想定していない。このため、音源分離時に、信号処理を経た後の混合信号をＮＮへと入力しても、信号処理に伴って生じる音響的特性の変動にＮＮが対応できず、十分な音源分離性能を得ることができない。ここで、音響的特性の変動は、例えば、信号のスケール、遅延、残響又は周波数特性等が変化すること等を想定している。

そこで、本開示の一又は複数の態様は、音響的特性が変動した場合であっても、機械学習による音源分離が有効に機能できるようにすることを目的とする。

本開示の第１の態様に係る音源分離モデル学習装置は、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成する学習側信号処理部と、前記複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成する学習側モデル推論部と、前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成する信号変形部と、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新するモデル更新部と、を備えることを特徴とする。

本開示の第２の態様に係る音源分離モデル学習装置は、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成する学習側信号処理部と、前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成する学習側特徴量抽出部と、前記複数の処理済目的音を抽出するために前記複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成する学習側モデル推論部と、前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成する学習側信号抽出部と、前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成する信号変形部と、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新するモデル更新部と、を備えることを特徴とする。

本開示の第１の態様に係る音源分離装置は、複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成する活用側信号処理部と、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するための活用側音源分離モデルを用いて、前記処理済対象混合信号から音を抽出することで、前記処理済対象混合信号から抽出された音を示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成する活用側モデル推論部と、を備えることを特徴とする。

本開示の第２の態様に係る音源分離装置は、複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成する活用側信号処理部と、前記処理済対象混合信号から、予め定められた音響特徴量である活用音響特徴量を複数の成分において抽出することで、前記抽出された活用音響特徴量の時系列データである活用特徴データを生成する活用側特徴量抽出部と、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するために前記学習用特徴データにおける複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記処理済学習用混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成し、前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するために前記活用特徴データにおける複数の成分の各々に対する重みを示す活用側音源分離モデルを用いて、前記活用特徴データから前記処理済対象混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の活用マスクを生成する活用側モデル推論部と、前記複数の活用マスクを用いて、前記活用特徴データから音を抽出することで、前記活用特徴データから抽出された音を少なくとも示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成する活用側信号抽出部と、を備えることを特徴とする。

本開示の第１の態様に係るプログラムは、コンピュータを、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成する学習側信号処理部、前記複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成する学習側モデル推論部、前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成する信号変形部、及び、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新するモデル更新部、として機能させることを特徴とする。

本開示の第２の態様に係るプログラムは、コンピュータを、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成する学習側信号処理部、前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成する学習側特徴量抽出部、前記複数の処理済目的音を抽出するために前記複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成する学習側モデル推論部、
前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成する学習側信号抽出部、
前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成する信号変形部、及び、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新するモデル更新部、として機能させることを特徴とする。

本開示の第３の態様に係るプログラムは、コンピュータを、複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成する活用側信号処理部、及び、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するための活用側音源分離モデルを用いて、前記処理済対象混合信号から音を抽出することで、前記処理済対象混合信号から抽出された音を示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成する活用側モデル推論部、として機能させることを特徴とする。

本開示の第４の態様に係るプログラムは、コンピュータを、複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成する活用側信号処理部、前記処理済対象混合信号から、予め定められた音響特徴量である活用音響特徴量を複数の成分において抽出することで、前記抽出された活用音響特徴量の時系列データである活用特徴データを生成する活用側特徴量抽出部、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するために前記学習用特徴データにおける複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記処理済学習用混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成し、前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するために前記活用特徴データにおける複数の成分の各々に対する重みを示す活用側音源分離モデルを用いて、前記活用特徴データから前記処理済対象混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の活用マスクを生成する活用側モデル推論部、及び、前記複数の活用マスクを用いて、前記活用特徴データから音を抽出することで、前記活用特徴データから抽出された音を少なくとも示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成する活用側信号抽出部、として機能させることを特徴とする。

本開示の第１の態様に係る音源分離モデル学習方法は、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することを特徴とする。

本開示の第２の態様に係る音源分離モデル学習方法は、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成し、前記複数の処理済目的音を抽出するために前記複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成し、前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することを特徴とする。

本開示の第１の態様に係る音源分離方法は、複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成し、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するための活用側音源分離モデルを用いて、前記処理済対象混合信号から音を抽出することで、前記処理済対象混合信号から抽出された音を示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成することを特徴とする。

本開示の第２の態様に係る音源分離方法は、複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成し、前記処理済対象混合信号から、予め定められた音響特徴量である活用音響特徴量を複数の成分において抽出することで、前記抽出された活用音響特徴量の時系列データである活用特徴データを生成し、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するために前記学習用特徴データにおける複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記処理済学習用混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成し、前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するために前記活用特徴データにおける複数の成分の各々に対する重みを示す活用側音源分離モデルを用いて、前記活用特徴データから前記処理済対象混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の活用マスクを生成し、前記複数の活用マスクを用いて、前記活用特徴データから音を抽出することで、前記活用特徴データから抽出された音を少なくとも示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成することを特徴とする。

本開示の一又は複数の態様によれば、音響的特性が変動した場合であっても、機械学習による音源分離が有効に機能することができる。

音源分離システムの構成を概略的に示すブロック図である。音源分離モデル学習装置の構成を概略的に示すブロック図である。実施の形態１における信号変形部の構成を概略的に示すブロック図である。音源分離モデル学習装置のハードウェア構成を概略的に示すブロック図である。音源分離装置の構成を概略的に示すブロック図である。音源分離装置のハードウェア構成を概略的に示すブロック図である。音源分離モデル学習装置の動作を示すフローチャートである。実施の形態１における信号変形部の動作を示すフローチャートである。音源分離装置の動作を示すフローチャートである。音源分離モデル学習装置の動作を示す概念図である。（Ａ）及び（Ｂ）は、音源分離装置の動作例を説明するための概略図である。音源分離装置の利用例を示す概略図である。実施の形態２における信号変形部の構成を概略的に示すブロック図である。実施の形態２における信号変形部の動作を示すフローチャートである。

実施の形態１．
図１は、実施の形態１に係る音源分離システム１００の構成を概略的に示すブロック図である。
音源分離システム１００は、学習用信号から音源分離モデルを生成する音源分離モデル学習装置１１０と、対象混合信号の中に含まれる、各音源から発せられた目的音を、音源分離モデルを用いて分離し、その目的音を出力する音源分離装置１３０とを備える。

ここで、目的音は、音源分離装置１３０を用いて分離して、取り出したい音を指し、非目的音は、音源分離装置１３０を用いて取り出す必要のない音を指すものとする。言い換えると、目的音は、音源分離装置１３０で抽出すべき音を指し、非目的音は、音源分離装置１３０で抽出すべきではない音を指す。

音源分離モデル学習装置１１０と、音源分離装置１３０とは、データを受け渡すことができるようになっている。例えば、図示してはいないが、音源分離モデル学習装置１１０と、音源分離装置１３０とは、ネットワークに接続されている。

音源分離モデル学習装置１１０は、学習用信号に基づいて、音源分離モデルを生成する。生成された音源分離モデルは、音源分離装置１３０に与えられる。
音源分離装置１３０は、その音源分離モデルを用いて、複数の音源から発せられた複数の目的音を含む混合信号から、複数の目的音を抽出する。

音源分離モデルは、音源分離装置１３０にて音源の分離を実施する際に用いられる、ＮＮにおける学習モデルである。音源分離モデルは、例えば、ＮＮの配線構造を定義するための情報及びＮＮの各配線における重みを格納したパラメタを含む。音源分離モデルの配線構造は、例えば、全結合型ＮＮ、畳み込みＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮＮ：ＣＮＮ）、回帰型ＮＮ（ＲｅｃｕｒｒｅｎｔＮＮ：ＲＮＮ）、長短期記憶（Ｌｏｎｇｓｈｏｒｔ－ｔｅｒｍｍｅｍｏｒｙ：ＬＳＴＭ）、ゲート付き回帰型ユニット（Ｇａｔｅｄｒｅｃｕｒｒｅｎｔｕｎｉｔ：ＧＲＵ）、又は、これらの組み合わせであってもよい。

図２は、音源分離モデル学習装置１１０の構成を概略的に示すブロック図である。
音源分離モデル学習装置１１０は、学習側入力部１１１と、混合信号生成部１１２と、学習側信号処理部１１３と、学習側特徴量抽出部１１４と、学習側音源分離モデル記憶部１１５と、学習側モデル推論部１１６と、学習側信号抽出部１１７と、信号変形部１１８と、モデル更新部１１９と、学習側通信部１２０とを備える。

学習側入力部１１１は、学習用信号の入力を受け付ける。入力された学習用信号は、混合信号生成部１１２及び信号変形部１１８に与えられる。
学習用信号は、例えば、複数の話者からそれぞれ個別に発せられた音声、複数の楽器からそれぞれ個別に演奏された楽曲、又は、複数の騒音原からそれぞれ個別に発せられた騒音等の目的音及び非目的音を録音したデータの信号を含む。

混合信号生成部１１２は、学習用信号として目的音及び非目的音の信号を取得し、例えば、これらを加算することによって、複数の目的音と、非目的音とが混ざっている混合信号である学習用混合信号を生成する。学習用混合信号は、学習側信号処理部１１３に与えられる。
ここで、学習用混合信号には、２つ以上の目的音が含まれる。また、学習用混合信号には、１つ以上の非目的音が含まれてもよいし、含まれなくてもよい。学習用混合信号は、例えば、学習用信号として取得された２つ以上の信号を単純に加算して得られる信号であってもよい。言い換えると、学習用混合信号は複数の目的音を少なくとも示す信号である。

混合信号生成部１１２は、例えば、音源分離装置１３０に入力される混合信号である対象混合信号を模擬する処理を含んでもよい。例えば、対象混合信号がマイクロホンアレイにより収録されたマルチチャネル信号である場合、混合信号生成部１１２は、マイクロホンアレイのインパルス応答を畳み込むことで、マイクロホンアレイによる観測を模擬する処理を含んでもよい。

学習側信号処理部１１３は、学習用混合信号に対して予め定められた処理を行うことで、複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成する。処理済学習用混合信号は、学習側特徴量抽出部１１４及び信号変形部１１８に与えられる。
例えば、学習側信号処理部１１３は、混合信号生成部１１２から与えられる学習用混合信号に対して、目的音を取り出しやすくするため、種々の信号処理を適用した結果得られる処理済学習用混合信号を生成する。
具体的には、予め定められた処理は、機械学習以外の処理であってもよいし、機械学習を用いた処理であってもよい。
また、予め定められた処理は、複数の目的音を抽出しやすくする処理であることが望ましい。
さらに、予め定められた処理は、複数の目的音を強調する処理であることが望ましい。

学習側信号処理部１１３は、音源分離装置１３０において行われる処理と同じ処理を行う。例えば、古典的な信号処理、機械学習を用いた処理又は未知の信号処理等が行われる。未知の信号処理には、古典的な信号処理又は機械学習を用いた処理が含まれてもよい。

具体的には、学習側信号処理部１１３が行う処理には、入力された学習用混合信号の中から、雑音信号又は目的音ではない音を示す信号等を抑圧するビームフォーミング処理が含まれてもよい。また、学習側信号処理部１１３が行う処理には、残響を抑圧するための処理が含まれていてもよい。さらに、学習側信号処理部１１３が行う処理には、学習用混合信号の中に存在する非目的音の参照信号が与えられている場合において、エコーキャンセラ等に代表される、非目的音の参照信号を学習用混合信号に含まれる形へと適応変形し、それを学習用混合信号から差し引くことで、学習用混合信号から非目的音に由来する成分を取り除く処理が含まれてもよい。

なお、学習側信号処理部１１３が行う処理の内容は、時間の経過に伴って変化してもよい。学習側信号処理部１１３に入力される学習用混合信号は、例えば、マイクロホンアレイで収録された複数チャネルの信号であり、出力される処理済学習用混合信号は、例えば、単一チャネルの信号であるが、チャネル数に対する要件はこれに限定されるものではない。

学習側特徴量抽出部１１４は、学習側信号処理部１１３から与えられる処理済学習用混合信号から、音響特徴量を抽出して、抽出された音響特徴量の時系列データである学習用特徴データを生成する。
例えば、学習側特徴量抽出部１１４は、処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、抽出された学習用音響特徴量の時系列データである学習用特徴データを生成する。
ここで、音響特徴量は、例えば、処理済学習用混合信号に高速フーリエ変換（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ：ＦＦＴ）の処理を施すことによって得られる複素スペクトルである。学習用特徴データは、学習側モデル推論部１１６及び学習側信号抽出部１１７に与えられる。

学習側音源分離モデル記憶部１１５は、音源分離モデル学習装置１１０で使用される音源分離モデルである学習側音源分離モデルを記憶する。学習側音源分離モデルは、例えば、学習用特徴データにおける各成分に対する重みパラメタを示す。

学習側モデル推論部１１６は、学習側特徴量抽出部１１４から与えられる学習用特徴データから、音源分離を行うために必要となる分離用特徴量である学習分離用特徴量を、学習側音源分離モデルを用いて抽出する。学習側モデル推論部１１６で抽出される学習分離用特徴量の時系列データは、例えば、「マスク」と呼ばれる時系列データである。マスクとは、学習側特徴量抽出部１１４で抽出された音響特徴量から、各音源の成分のみを取り出すためのフィルタである。マスクは、例えば、学習側特徴量抽出部１１４で抽出された音響特徴量の各成分において、分離し取り出したい音源からの成分が含まれている割合を求めることにより与えられる。ここで生成されたマスクは、学習用マスクとして学習側信号抽出部１１７に与えられる。
即ち、学習側モデル推論部１１６は、複数の処理済目的音を抽出するために、学習用特徴データを構成する複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、学習用特徴データから一つの処理済目的音を抽出するための学習用マスクを、目的音毎に生成する。ここでは、学習用混合信号に、複数の目的音が含まれているため、複数の学習用マスクが生成される。

学習側信号抽出部１１７は、学習側特徴量抽出部１１４で抽出された音響特徴量の時系列データである学習用特徴データと、学習側モデル推論部１１６で推定された学習分離用特徴量の時系列データである学習用マスクとを用いて、取り出したい音響信号を抽出する。
例えば、学習側信号抽出部１１７は、学習側モデル推論部１１６から与えられる複数の学習用マスクの各々を用いて、学習用特徴データから音を抽出することで、抽出された音を少なくとも示す学習用抽出信号を生成する。

具体的には、学習側信号抽出部１１７は、学習分離用特徴量と、学習用音響特徴量とを成分毎に積演算した後に、逆フーリエ変換（ＩｎｖｅｒｓｅＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ：ＩＦＦＴ）の処理を施すことによって、取り出したい目的音を抽出した信号である学習用抽出信号を復元する。ここでは、複数の学習用マスクが使用されるため、複数の学習用マスクの各々に各々が対応する複数の学習用抽出信号が復元される。

信号変形部１１８は、学習側入力部１１１から与えられる学習用信号と、学習側信号処理部１１３から与えられる処理済学習用混合信号とにより、学習用信号に含まれる複数の目的音のそれぞれを、処理済学習用混合信号に含まれるそれぞれの目的音に対応する音に近づけるための変形処理を行うことで変形目的音信号を生成する。生成された変形目的音信号は、モデル更新部１１９に与えられる。
例えば、信号変形部１１８は、複数の目的音の内、一つの目的音を示す信号に対して、その一つの目的音を、対応する一つの処理済目的音に近づけるための変形処理を行うことで、その一つの目的音に由来する一つの変形目的音を示す変形目的音信号を、目的音毎に生成する。ここでは、複数の目的音が存在するため、複数の目的音の各々に各々が対応する複数の変形目的音信号が生成される。

具体的には、学習用信号に、第１の目的音、第２の目的音及び非目的音という３つの成分が含まれる場合、信号変形部１１８は、第１の目的音を示す信号を変形するための変換ｆ１と、第２の目的音を示す信号を変形するための変換ｆ２を設定する。そして、信号変形部１１８は、学習側信号処理部１１３から与えられる処理済学習用混合信号と、第１の目的音を示す信号及び第２の目的音を示す信号を加算した信号との差分が最も小さくなるように変換ｆ１及び変換ｆ２を決定することで、第１の目的音及び第２の目的音のそれぞれを、処理済学習用混合信号に含まれるそれぞれの目的音に由来する音に近づけることができる。これにより、第１の目的音を示す信号に変換ｆ１を適用することで、第１の目的音に対応する変形目的音信号を生成することができ、第２の目的音を示す信号に変換ｆ２を適用することで、第２の目的音に対応する変形目的音信号を生成することができる。

ここでは、第１の目的音、第２の目的音及び非目的音が、それぞれ統計的に異なる性質を持っている、言い換えると、相関がないものとしている。このため、例えば、学習側信号処理部１１３から与えられる処理済学習用混合信号と、第１の目的音を示す信号と第２の目的音を示す信号を加算した信号との差分として、二乗誤差を算出することで、第１の目的音及び第２の目的音のそれぞれを、処理済学習用混合信号に含まれるそれぞれの目的音に由来する音に近づけることができる。なお、信号変形部１１８の具体的な構造については、後述する。

モデル更新部１１９は、学習側信号抽出部１１７から与えられる複数の学習用抽出信号と、信号変形部１１８から与えられる複数の変形目的音信号とを用いて、学習側音源分離モデル記憶部１１５に記憶されている学習用音源分離モデルに含まれている重みパラメタを更新する。
例えば、モデル更新部１１９は、複数の学習用抽出信号及び複数の変形目的音信号を用いて、学習側信号抽出部１１７で抽出された音が、抽出すべき一つの目的音に対応する一つの変形目的音に近づくように、学習側音源分離モデルを更新する。
具体的には、モデル更新部１１９は、複数の学習用抽出信号と、複数の変形目的音信号との差分が小さくなるように、学習側音源分離モデルを更新する。

重みパラメタの更新には、例えば、信号変形部１１８の出力と、学習側信号抽出部１１７の出力との差分を計算した結果と、例えば、確率的勾配降下法（ＳｔｏｃｈａｓｔｉｃＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ：ＳＧＤ）又はＡｄａｍ法等の公知の最適化手法が使用される。

学習側通信部１２０は、学習側音源分離モデル記憶部１１５に記憶されている学習用音源分離モデルを、音源分離装置１３０で使用する音源分離モデルである活用側音源分離モデルとして、音源分離装置１３０に送る。

なお、学習側特徴量抽出部１１４と、学習側信号抽出部１１７とについては、その両方を備えない構成とすることができる。
この場合、学習側モデル推論部１１６は、学習側信号処理部１１３から与えられた処理済学習用混合信号に含まれている複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、処理済学習用混合信号から音を抽出することで、その抽出された音を示す学習用抽出信号を生成する。
また、信号変形部１１８は、学習用信号で示される複数の目的音の内、一つの処理済目的音に対応する一つの目的音を示す信号に対して、その一つの目的音をその一つの処理済目的音に近づけるための変形処理を行うことで、その一つの目的音に由来する一つの変形目的音を示す変形目的音信号を、目的音毎に生成する。
そして、モデル更新部１１９は、複数の学習用抽出信号及び複数の変形目的音信号を用いて、学習側モデル推論部１１６で抽出された複数の音の各々が、複数の変形目的音の内の対応する変形目的音に近づくように、学習側音源分離モデルを更新する。

図３は、実施の形態１における信号変形部１１８の構成を概略的に示すブロック図である。
信号変形部１１８は、混合信号ブロック分割部１１８ａと、学習用信号ブロック分割部１１８ｂと、フィルタ推定部１１８ｃと、フィルタ適用部１１８ｄと、ブロック結合部１１８ｅとを備える。

混合信号ブロック分割部１１８ａは、学習側信号処理部１１３から与えられた処理済学習用混合信号を適当な区間であるブロック毎に分割して得られる信号である混合ブロック信号を生成する第１のブロック分割部である。
例えば、混合信号ブロック分割部１１８ａは、処理済学習用混合信号を複数のブロックに分割することで、複数の混合ブロック信号を生成する。
混合ブロック信号は、フィルタ推定部１１８ｃに与えられる。

ブロックへの分割は、例えば、一定の時間間隔毎に実施されればよい。
また、複数のブロック間で重複する区間が生じるようにブロックに分割されてもよい。
但し、サンプル数に対応する各ブロックの長さは、フィルタ推定部１１８ｃにおけるフィルタの導出に必要な長さを上回るよう設定する必要がある。

学習用信号ブロック分割部１１８ｂは、学習側入力部１１１より与えられた学習用信号から目的音の信号を取り出し、その目的音の信号を適当な区間毎に分割することで得られる信号である目的音ブロック信号を生成する第２のブロック分割部である。
例えば、学習用信号ブロック分割部１１８ｂは、一つの目的音を示す信号を複数のブロックに分割することで、複数の目的音ブロック信号を生成する。
目的音ブロック信号は、フィルタ推定部１１８ｃ及びフィルタ適用部１１８ｄに与えられる。ブロックへの分割方法は、混合信号ブロック分割部１１８ａにおける分割方法と同一である。

フィルタ推定部１１８ｃは、複数の目的音ブロック信号の各々で示される音を、複数の混合ブロック信号で示される音の内、抽出すべき一つの目的音に対応する音に近づけるためのフィルタを推定することで、複数のフィルタを推定する。
例えば、フィルタ推定部１１８ｃは、混合信号ブロック分割部１１８ａによってブロック単位に分割された混合ブロック信号と、学習用信号ブロック分割部１１８ｂによってブロック単位に分割された目的音ブロック信号とを、ブロック毎に、かつ、目的音毎に、目的音ブロック信号で示される音の、混合ブロック信号で示される音への変換を近似するフィルタのパラメタである変形パラメタを生成する。フィルタは、例えば、ＦＩＲ（ＦｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）フィルタ、ＩＩＲ（ＩｎｆｉｎｉｔｉｅＩｎｐｕｌｓｅＲｅｓｐｏｎｓｅ）フィルタ、又は、ＦＦＴを用いた周波数領域上におけるフィルタ等が使用されればよい。
なお、変形パラメタは、例えば、ブロック毎に異なっていてもよい。

フィルタ適用部１１８ｄは、複数の目的音ブロック信号の各々に、フィルタ推定部１１８ｃで推定された複数のフィルタの各々を適用することで、複数の変形ブロック信号を生成する。
例えば、フィルタ適用部１１８ｄは、学習用信号ブロック分割部１１８ｂから与えられる目的音ブロック信号に、フィルタ推定部１１８ｃで推定された、その目的音ブロック信号に対応する変形パラメタを適用した信号を変形ブロック信号として生成する。変形ブロック信号は、ブロック結合部１１８ｅに与えられる。

ブロック結合部１１８ｅは、フィルタ適用部１１８ｄから与えられる変形ブロック信号を結合して得られる信号である変形目的音信号を生成する。変形目的音信号は、図２に示されているモデル更新部１１９に与えられる。
なお、混合信号ブロック分割部１１８ａと、学習用信号ブロック分割部１１８ｂとにおいて、複数のブロック間で重複する区間が生じるように分割が行われた場合には、ブロック結合部１１８ｅは、例えば、重み付け和を計算することで重複を解消してもよい。

混合信号ブロック分割部１１８ａ及び学習用信号ブロック分割部１１８ｂと、ブロック結合部１１８ｅとについては、これらを備えない構成としてもよい。すなわち、信号全体が単一のブロックとして扱われてもよい。
このような場合には、フィルタ推定部１１８ｃは、学習用信号で示される一つの目的音を、処理済学習用混合信号で示される複数の処理済目的音の内、その一つの目的音に対応する一つの処理済目的音に近づけるためのフィルタを推定する。
そして、フィルタ適用部は、学習用信号の内のその一つの目的音を示す信号に、フィルタ推定部１１８ｃで推定されたフィルタを適用することで、変形目的音信号を生成する。

図４は、音源分離モデル学習装置１１０のハードウェア構成を概略的に示すブロック図である。
音源分離モデル学習装置１１０は、記憶装置１５１と、メモリ１５２と、プロセッサ１５３と、通信インタフェース（以下、通信Ｉ／Ｆという）１５４とを備えるコンピュータ１５０により構成することができる。

記憶装置１５１は、音源分離モデル学習装置１１０で行う処理に必要なプログラム及びデータを記憶する。
メモリ１５２は、プロセッサ１５３が作業を行う作業領域を提供する。
プロセッサ１５３は、記憶装置１５１に記憶されたプログラム及びデータを、メモリ１５２に展開して、処理を実行する。
通信Ｉ／Ｆ１５４は、音源分離装置１３０と通信を行う。

例えば、混合信号生成部１１２、学習側信号処理部１１３、学習側特徴量抽出部１１４、学習側モデル推論部１１６、学習側信号抽出部１１７、信号変形部１１８及びモデル更新部１１９は、プロセッサ１５３が記憶装置１５１に記憶されたプログラム及びデータをメモリ１５２に展開して、そのプログラムを実行することで、実現することができる。
学習側音源分離モデル記憶部１１５は、記憶装置１５１により実現することができる。
学習側入力部１１１及び学習側通信部１２０は、通信Ｉ／Ｆ１５４により実現することができる。

以上のようなプログラムは、ネットワークを通じて提供されてもよく、また、記録媒体に記録されて提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。
なお、音源分離モデル学習装置１１０は、上記のようにプログラムで実現されてもよいし、音源分離モデル学習装置１１０で実行される機能毎に回路を構成して、それら回路を結合して実現されてもよい。
言い換えると、音源分離モデル学習装置１１０は、処理回路網により実現することもできる。

図５は、音源分離装置１３０の構成を概略的に示すブロック図である。
音源分離装置１３０は、活用側通信部１３１と、活用側音源分離モデル記憶部１３２と、活用側入力部１３３と、活用側信号処理部１３４と、活用側特徴量抽出部１３５と、活用側モデル推論部１３６と、活用側信号抽出部１３７と、活用側出力部１３８とを備える。

活用側通信部１３１は、音源分離モデル学習装置１１０と通信を行う。例えば、活用側通信部１３１は、音源分離モデル学習装置１１０から活用側音源分離モデルを受け取り、その活用側音源分離モデルを活用側音源分離モデル記憶部１３２に記憶させる。

活用側音源分離モデル記憶部１３２は、活用側音源分離モデルを記憶する。
活用側入力部１３３は、対象混合信号の入力を受け付ける。入力された対象混合信号は、活用側信号処理部１３４に与えられる。
対象混合信号は、音源分離装置１３０に予め記憶されていてもよく、後述するマイク等の音響装置で取得されてもよいし、通信Ｉ／Ｆを介して電話回線等から取得されてもよい。このような場合には、活用側入力部１３３を省略することもできる。

活用側信号処理部１３４は、複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成する。
例えば、活用側信号処理部１３４は、活用側入力部１３３から与えられる対象混合信号に対して、目的音を取り出しやすくするため、種々の信号処理を適用した結果得られる処理済対象混合信号を生成する。ここで行われる処理は、音源分離モデル学習装置１１０の学習側信号処理部１１３で行われる処理と同じである。処理済対象混合信号は、活用側特徴量抽出部１３５に与えられる。

活用側特徴量抽出部１３５は、活用側信号処理部１３４から与えられる処理済対象混合信号から、音響特徴量を抽出して、抽出された音響特徴量の時系列データである活用特徴データを生成する。
例えば、活用側特徴量抽出部１３５は、処理済対象混合信号から、予め定められた音響特徴量である活用音響特徴量を複数の成分において抽出することで、その抽出された活用音響特徴量の時系列データである活用特徴データを生成する。
ここで行われる処理は、音源分離モデル学習装置１１０の学習側特徴量抽出部１１４で行われる処理と同じである。活用特徴データは、活用側モデル推論部１３６に与えられる。

活用側モデル推論部１３６は、活用側特徴量抽出部１３５から与えられる活用特徴データから、音源分離を行うために必要となる分離用特徴量である活用分離用特徴量を、活用側音源分離モデルを用いて抽出する。ここで行われる処理は、音源分離モデル学習装置１１０の学習側モデル推論部１１６で行われる処理と同じである。
そして、活用側モデル推論部１３６は、抽出された活用分離用特徴量の時系列データであるマスクを、活用マスクとして活用側信号抽出部１３７に与える。
言い換えると、活用側モデル推論部１３６は、複数の処理済目的音を抽出するために、活用特徴データの複数の成分の各々に対する重みを示す活用側音源分離モデルを用いて、活用特徴データから一つの処理済目的音を抽出するための活用マスクを、目的音毎に生成する。このため、複数の目的音の各々に各々が対応する複数の活用マスクが生成される。

活用側信号抽出部１３７は、活用側特徴量抽出部１３５で抽出された音響特徴量の時系列データである活用特徴データと、活用側モデル推論部１３６で推定された活用分離用特徴量の時系列データである活用マスクとを用いて、取り出したい音響信号を抽出する。
例えば、活用側信号抽出部１３７は、活用マスクを用いて、活用特徴データから音を抽出することで、抽出された音を少なくとも示す活用抽出信号を生成する。
ここで行われる処理は、音源分離モデル学習装置１１０の学習側信号抽出部１１７で行われる処理と同じである。そして、活用側信号抽出部１３７は、抽出された音響信号である活用抽出信号を出力信号として活用側出力部１３８に与える。

活用側出力部１３８は、活用側信号抽出部１３７から与えられた出力信号を出力する。
なお、活用側特徴量抽出部１３５と、活用側信号抽出部１３７とについては、例えば、その一方又は両方を備えない構成としてもよい。例えば、活用側特徴量抽出部１３５及び活用側信号抽出部１３７の両方を含まない場合、活用側モデル推論部１３６は、活用側信号処理部１３４から出力された処理済対象混合信号を処理して、分離音の信号を直接出力するように機能する。言い換えると、活用側モデル推論部１３６は、活用側信号処理部１３４から与えられる処理済対象混合信号で示される複数の処理済目的音を抽出するための活用側音源分離モデルを用いて、処理済対象混合信号から音を抽出することで、抽出された音を示す活用抽出信号を生成する。

図６は、音源分離装置１３０のハードウェア構成を概略的に示すブロック図である。
音源分離装置１３０は、記憶装置１６１と、メモリ１６２と、プロセッサ１６３と、通信Ｉ／Ｆ１６４と、音響インタフェース（以下、音響Ｉ／Ｆという）１６５とを備えるコンピュータ１６０により構成することができる。

記憶装置１６１は、音源分離装置１３０で行う処理に必要なプログラム及びデータを記憶する。
メモリ１６２は、プロセッサ１６３が作業を行う作業領域を提供する。
プロセッサ１６３は、記憶装置１６１に記憶されたプログラム及びデータを、メモリ１６２に展開して、処理を実行する。
通信Ｉ／Ｆ１６４は、音源分離モデル学習装置１１０と通信を行う。
音響Ｉ／Ｆ１６５は、対象混合信号の入力を受け付ける。対象混合信号は、目的音を含む音を集音して対象音号信号を生成する音響装置で生成されればよい。

例えば、活用側信号処理部１３４、活用側特徴量抽出部１３５、活用側モデル推論部１３６、活用側信号抽出部１３７及び活用側出力部１３８は、プロセッサ１６３が記憶装置１６１に記憶されたプログラム及びデータをメモリ１６２に展開して、そのプログラムを実行することで、実現することができる。
活用側音源分離モデル記憶部１３２は、記憶装置１６１により実現することができる。
活用側入力部１３３は、音響Ｉ／Ｆ１６５により実現することができる。
活用側通信部１３１は、通信Ｉ／Ｆ１５４により実現することができる。

以上のようなプログラムは、ネットワークを通じて提供されてもよく、また、記録媒体に記録されて提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。
なお、音源分離装置１３０は、上記のようにプログラムで実現してもよいし、音源分離装置１３０で実行される機能毎に回路を構成して、それら回路を結合して実現されてもよい。
言い換えると、音源分離装置１３０は、処理回路網により実現することもできる。

次に、動作について説明する。最初に、音源分離モデル学習装置１１０の動作について説明する。
図７は、音源分離モデル学習装置１１０の動作を示すフローチャートである。

まず、混合信号生成部１１２が、学習用信号から学習に用いる混合信号である学習用混合信号を作成する（Ｓ１０）。学習用混合信号は、音源分離装置１３０の活用側信号処理部１３４へ入力される活用混合信号を模擬して作成される。学習用混合信号は、例えば、学習用信号としての複数の目的音の信号及び非目的音の信号を単純に加算することで生成されてもよい。また、学習用混合信号は、マイクロホンアレイによる収録を模擬するため、学習用信号から取得された信号のそれぞれに対して、マイクロホンアレイのインパルス応答を畳み込む処理を実施した後、出力された信号を加算することで生成されてもよい。

次に、学習側信号処理部１１３は、混合信号生成部１１２から与えられた学習用混合信号に対して、各種の信号処理を適用する（Ｓ１１）。ここでの処理内容は、音源分離装置１３０の活用側信号処理部１３４での処理内容と同一である。

次に、信号変形部１１８は、学習用信号から得られた目的音を、学習側信号処理部１１３から与えられる処理済学習用混合信号に含まれている目的音を模した形へと変換することで、目的音毎に変形目的音信号を生成する（Ｓ１２）。ステップＳ１２での処理の詳細は、後述する。

次に、学習側特徴量抽出部１１４は、学習側信号処理部１１３より与えられる処理済学習用混合信号から音響特徴量である学習用音響特徴量を抽出して、時系列データとすることで学習用特徴データを生成する（Ｓ１３）。音響特徴量として、例えば、活用側信号処理部１３４からの処理済学習用混合信号に対してＦＦＴを適用することによって得られる複素スペクトルが用いられる。ここでの処理内容は、音源分離装置１３０の活用側特徴量抽出部１３５での処理内容と同一である。

次に、学習側モデル推論部１１６は、学習用音源分離モデルを用いて、学習側特徴量抽出部１１４にて抽出された音響特徴量から、各音源信号を分離合成するために必要となる分離用特徴量である学習分離用特徴量を抽出し、その学習分離用特徴量の時系列データであるマスクを生成する（Ｓ１５）。マスクは、音源信号毎、言い換えると、目的音毎に生成される。ここでの処理内容は、音源分離装置１３０の活用側モデル推論部１３６での処理内容と同一である。

次に、学習側信号抽出部１１７は、学習側特徴量抽出部１１４にて抽出された音響特徴量と、学習側モデル推論部１１６にて抽出された学習用分離用特徴量とを用いて、学習用混合信号の中に含まれる目的音を処理した音の信号である学習用抽出信号を抽出する（Ｓ１５）。例えば、学習側信号抽出部１１７は、学習分離用特徴量と、学習用音響特徴量とを成分毎に積演算した後に、逆フーリエ変換の処理を施すことによって、取り出したい目的音に由来する音を抽出した信号である学習用抽出信号を、目的音毎に復元する。ここでの処理内容は、音源分離装置１３０の学習側信号抽出部１１７での処理内容と同一である。

次に、モデル更新部１１９は、信号変形部１１８より与えられる複数の変形目的音信号と、学習側信号抽出部１１７より与えられる複数の学習用抽出信号との誤差を計算した後、その誤差を修正するように、学習用音源分離モデルの備える重みパラメタを更新する（Ｓ１６）。

続けて、信号変形部１１８の動作について説明する。
図８は、実施の形態１における信号変形部１１８の動作を示すフローチャートである。
まず、混合信号ブロック分割部１１８ａが、学習側信号処理部１１３から与えられた処理済学習用混合信号を、時間軸上で１つ以上のブロックに分割することで混合ブロック信号を生成する（Ｓ２０）。

次に、学習用信号ブロック分割部１１８ｂは、学習側入力部１１１から与えられた学習用信号を、時間軸上で１つ以上のブロックに分割することで、目的音ブロック信号を生成する（Ｓ２１）。学習用信号ブロック分割部１１８ｂにおける信号の分割方法は、ステップＳ２０において混合信号ブロック分割部１１８ａが行う分割方法と同一である。

次に、フィルタ推定部１１８ｃは、フィルタを推定する（Ｓ２２）。
ここでは、処理済学習用混合信号及び学習用信号が全て単一チャネルの音響信号であり、混合信号生成部１１２が学習用信号としてｎ個の目的音を示す信号を取得して混合信号を作成した場合を例に説明する。ここで、ｎは、１以上の整数である。

混合信号ブロック分割部１１８ａから取得した混合ブロック信号をｙ（ｔ）とする。ここで、ｔは、ｔ＝０，・・・，Ｔ－１（Ｔは２以上の整数）を満たす整数とする。
また、学習用信号ブロック分割部１１８ｂから取得したｉ番目の目的音の目的音ブロック信号をｓ_ｉ（ｔ）とする。ここで、ｉは、１≦ｉ≦ｎを満たす整数である。
さらに、フィルタ推定部１１８ｃで計算されるフィルタが長さＬのＦＩＲフィルタである場合において、ｉ番目の目的音におけるＦＩＲフィルタの係数を、ｈ_ｉ（τ）とする。ここで、τは、τ＝０，・・・，Ｌ－１を満たす整数とする。
このとき、混合ブロック信号ｙ（ｔ）は、以下の（１）式で近似される。

ここで、（１）式の近似が二乗誤差規範でもっともよく成り立つ場合について考える。
すなわち、ｈ_ｉ（τ）が、下記の（２）式の誤差関数を最小にする場合について考える。

このようなｈ_ｉ（τ）を求めるための手段として、まず、下記の（３）式に示されている行列Ｓ_ｉ∈Ｒ^{（（Ｔ－Ｌ＋１）×Ｌ）}を定義する。

このとき、（２）式は、下記の（４）式で示す行列形式で表現することができる。

ここで、ｙは下記の（５）式、ｈ_ｉは下記の（６）式、Ｓは下記の（７）式、ｈは、下記の（８）式で表せる。

このとき、ｙを最小二乗誤差規範で最も良く近似するフィルタｈ_ｉは、下記の（９）式で示される最適化問題の解となる。

そして、（９）式の最適化問題の解は、下記の（１０）式で示される。

このような手順により、ｙ（ｔ）をよく近似するＦＩＲフィルタの係数ｈ_ｉ（ｔ）が求められる。

なお、行列Ｓ^ＴＳは、しばしば条件数が大きく、数値安定的に最適化問題の解を得られない可能性がある。このため、下記の（１１）式に示されているように、修正した最適化問題が解かれてもよい。

（１１）式で示される最適化問題の解は、下記の（１２）式で示される。

ここで、λは、任意に定めるハイパーパラメタであり、Ｉ_ＮＬは、サイズＮＬの単位行列である。
行列Ｓ^ＴＳと、Ｓ^ＴＳ＋λＩ_ＮＬとを比較すると、後者の方はより条件数が小さく、安定的に逆行列を計算することができる。

なお、上記ではｙ（ｔ）及びｓ_ｉ（τ）は、学習用信号及び処理済学習用混合信号が、例えば、１つのマイクロホンのような単一の音響装置から取得された信号のように単一チャネルの信号であることを仮定していたが、実施の形態１はこのような例に限定されない。
例えば、学習用信号及び処理済学習用混合信号が、複数のマイクロホンを備えたマイクロホンアレイを用いて取得された多チャネルの信号であってもよい。この場合、フィルタ推定部１１８ｃが、多チャネルの目的音ブロック信号を受け取った場合には、代表的なチャネルの目的音ブロック信号を選択して、上記のフィルタ係数の計算を行えばよい。また、フィルタ推定部１１８ｃが、多チャンネルの混合ブロック信号を受け取った場合でも、代表的な混合ブロック信号を選択して、上記のフィルタ係数の計算を行えば良い。

次に、フィルタ適用部１１８ｄは、ステップＳ２２でブロック毎に推定されたフィルタを、ステップＳ２０で生成された目的音ブロック信号に適用することで、変形ブロック信号を生成する（Ｓ２３）。

最後に、ブロック結合部１１８ｅは、ブロック毎に分割された状態の変形ブロック信号を接合して、変形目的音信号を生成する（Ｓ２４）。

図９は、音源分離装置１３０の動作を示すフローチャートである。
まず、活用側信号処理部１３４が、入力された対象混合信号に対し、各種の信号処理を適用して処理済対象混合信号を生成する（Ｓ３０）。

次に、活用側特徴量抽出部１３５は、活用側信号処理部１３４から与えられる処理済対象混合信号から音響特徴量を抽出し、抽出された音響特徴量の時系列データである活用特徴データを生成する（Ｓ３１）。

次に、活用側モデル推論部１３６は、活用音源分離モデルを用いて、活用側特徴量抽出部１３５にて抽出された音響特徴量から、各音源信号を分離合成するために必要となる分離用特徴量の時系列データである活用マスクを、目的音毎に生成する（Ｓ３２）。

次に、活用側信号抽出部１３７が、活用側特徴量抽出部１３５にて抽出された活用音響特徴量と、活用側モデル推論部１３６にて抽出された分離用特徴量とを用いて、対象混合信号の中に含まれる目的音の信号である出力信号を、目的音毎に生成する（Ｓ３３）。

次に、音源分離モデル学習装置１１０の動作例について述べる。
図１０は、音源分離モデル学習装置１１０の動作を示す概念図である。
第１の信号１７０は、学習用信号から取得された第１の目的音を示す信号、第２の信号１７１は、学習用信号から取得された第２の目的音を示す信号であり、第３の信号１７２は、学習用信号から取得された非目的音を示す信号である。

混合信号生成部１１２は、例えば、第１の信号１７０、第２の信号１７１及び第３の信号１７２を単純加算することで、疑似的な学習用混合信号１７３を作成する。
学習用混合信号１７３には、第１の信号１７０に由来する第１の成分１７０＃１、第２の信号１７１に由来する第２の成分１７１＃１、及び、第３の信号１７２に由来する第３の成分１７２＃１が含まれる。

学習用混合信号１７３が学習側信号処理部１１３を通過することで、処理済学習用混合信号１７３＃が得られる。この際、第１の目的音に由来する第１の成分１７０＃１は、第４の成分１７０＃２のように、第２の目的音に由来する第２の成分１７１＃１は、第５の成分１７１＃２のように、非目的音に由来する第３の成分１７２＃１は、第６の成分１７２＃２のように、処理済学習用混合信号１７３＃の中で現れる。

処理済学習用混合信号１７３＃に対して、第１の目的音及び第２の目的音に対応する音を抽出するために、学習側特徴量抽出部１１４、学習側モデル推論部１１６及び学習側信号抽出部１１７での処理を適用することで、第１の目的音に対応する第１の学習用抽出信号１７４及び第２の目的音に対応する第２の学習用抽出信号１７５が得られる。

さらに、信号変形部１１８は、第１の信号１７０及び第２の信号１７１と、処理済学習用混合信号１７３＃とにより、第１の信号１７０を第４の成分１７０＃２へ変化させるフィルタ及び第２の信号１７１を第５の成分１７１＃２へ変化させるフィルタを推定する。そして、信号変形部１１８は、第１の信号１７０及び第２の信号１７１にそれぞれのフィルタを適用して、第１の変形目的音信号１７６及び第２の変形目的音信号１７７を生成する。

モデル更新部１１９は、第１の学習用抽出信号１７４及び第２の学習用抽出信号１７５の組が、第１の変形目的音信号１７６及び第２の変形目的音信号１７７の組に近づくよう、学習用音源分離モデルのパラメタを更新する。

次に、音源分離モデル学習装置１１０により学習された音源分離モデルを用いる際の、音源分離装置１３０の動作例について述べる。
図１１（Ａ）及び（Ｂ）は、音源分離装置１３０の動作例を説明するための概略図である。

図１１（Ａ）は、音源分離装置１３０により、入力された対象混合信号の波形がどのように変化するかを示す概念図である。
図１１（Ａ）に示されている対象混合信号１８０には、第１の目的音に由来する第１の成分１８１、第２の目的音に由来する第２の成分１８２、及び、非目的音に由来する第３の成分１８３が含まれる。

対象混合信号１８０が活用側信号処理部１３４を通過すると、処理済対象混合信号１８０＃が得られる。処理済対象混合信号１８０＃には、第１の成分１８１に由来する第４の成分１８１＃、第２の成分に由来する第５の成分１８２＃、及び、第３の成分１８３に由来する第６の成分１８３＃が含まれる。

活用側信号処理部１３４では、非目的音を抑圧する処理が行われることから、非目的音に由来する第３の成分１８３と比較して、第６の成分１８３＃の音量が下がっている。また、第１の目的音に由来する第１の成分１８１及び第２の目的音に由来する第２の成分１８２と比較して、第４の成分１８１＃及び第５の成分１８２＃は、強調されている。さらに、第４の成分１８１＃及び第５の成分１８２＃は、信号処理に伴って、音量及び波形の形状（周波数特性）等が変化しているほか、活用側信号処理部１３４にて生じる遅延に伴い、対象混合信号１８０と、処理済対象混合信号１８０＃との間で時刻の同期がずれた状態となる。

処理済対象混合信号１８０＃に対して、活用側特徴量抽出部１３５、活用側モデル推論部１３６及び活用側信号抽出部１３７での処理を適用することにより、第１の出力信号１８４及び第２の出力信号１８５が得られる。第１の出力信号１８４は、第１の目的音に対応する成分を、第２の出力信号１８５は、第２の目的音に対応する成分を、それぞれ抽出したものである。

図１１（Ｂ）は、対象混合信号１８０とは異なる対象混合信号１８６に対し、同様の信号処理を適用した場合について示した概念図である。
処理済対象混合信号１８０＃と、処理済対象混合信号１８６＃とを比較すると、波形の変化及び音量の変化が異なっている。このため、第１の出力信号１８７及び第２の出力信号１８８の波形及び音量も、第１の出力信号１８４及び第２の出力信号１８５とは異なっている。

このように、活用側信号処理部１３４へ入力される対象混合信号の特徴、活用側信号処理部１３４の処理内容の変化等によって、処理済対象混合信号の特徴にも変動があり、信号処理後の状態を考慮して生成された学習モデルを用いることで、音源を精度よく分離できる。

なお、音源分離モデル学習装置１１０において、学習側信号処理部１１３を省略し、信号変形部１１８において学習用信号の変形を行わない構成とする場合を考えることができる。このような音源分離モデル学習装置及び学習方法は、従来から知られている。

この場合、学習側モデル推論部１１６は、図１０に示されている学習用混合信号１７３より抽出された特徴量から、第１の目的音の第１の信号１７０及び第２の目的音の第２の信号１７１を分離するための分離用特徴量が得られるように学習を行う。
しかしながら、音源分離装置１３０を動作させる場合、図１１（Ａ）に示されているように、活用側モデル推論部１３６には処理済対象混合信号１８０＃より抽出された特徴量が入力される。
学習用混合信号１７３から抽出される特徴量と、処理済対象混合信号１８０＃から抽出される特徴量では、種々の特性が異なっている。音源分離モデルは、処理済対象混合信号１８０＃から抽出される特徴量が入力されることを前提に学習されていないため、分離性能の悪化が生じる。

また、音源分離モデル学習装置１１０において、学習側信号処理部１１３を省略しないものの、信号変形部１１８において学習用信号の変形を行わない構成をとることも考えられる。
この場合、学習側モデル推論部１１６は、処理済学習用混合信号１７３＃より抽出された特徴量から、第１の目的音の第１の信号１７０及び第２の目的音の第２の信号１７１を分離するための分離用特徴量が得られるように学習される。そして、学習側モデル推論部１１６は、処理済学習用混合信号１７３＃から抽出される特徴量が入力されることを前提として音源分離モデルを学習させるため、上記で述べたような問題を解決できる。

しかしながら、図１１（Ａ）に示されている、理済対象混合信号１８０＃に含まれる第４の成分１８１＃及び第５の成分１８２＃と、図１０に示されている象混合信号１８０に含まれている第１の成分１８１及び第２の成分１８２とでは、音量、周波数特性及び遅延等の特性が異なっている。
このため、音源分離モデルは、このような多様な特性の変化を打ち消して元の信号を出力するように学習される。しかし、上述のように、このような特性の変化は、どのような信号が活用側信号処理部１３４に入力されるかによって、又は、時間が経過するにつれて、変化するものである。そのような多様な特性変化を吸収できるように音源分離モデルを学習させることは難しい。

音源分離モデル学習装置１１０において、学習側信号処理部１１３と、信号変形部１１８とを共に機能させ、音源分離モデルが第１の変形目的音信号１７６及び第２の変形目的音信号１７７を分離するための特徴量を出力するように学習させることで、音源分離モデルは特性変化を加味した結果を出力するように学習すればよくなる。
信号変形部１１８において学習用信号の変形を行わない構成の場合には、特性変化を打ち消して元に戻した結果を出力するように音源分離モデルを学習させる必要があったところ、このような条件とすることで、特性変化を打ち消した結果を出力するように学習させる必要がなくなるため、学習が簡単になり、結果として音源分離出力の品質が向上する。

図１２は、音源分離装置１３０の利用例を示す概略図である。
図１２は、車両１９０に設置されたマイクロホン１９１Ａ、１９１Ｂ、１９１Ｃにおいて、運転席話者１９２が発する音声、助手席話者１９３が発する音声、及び、車両走行音又はカーステレオ等から発せられる騒音１９４が同時に観測される状況を表している。このとき、音源分離装置１３０を用いて、運転席話者１９２の発した音声と、助手席話者１９３の発した音声とを、それぞれ取り出す場合について説明する。

運転席話者１９２の発した音声が、図１１（Ａ）に示されている第１の目的音の第１の成分１８１に、助手席話者１９３の発した音声が、第２の目的音の第２の成分１８２に、各種騒音１９４が、非目的音の第３の成分１８３に相当する。また、マイクロホン１９１Ａ、１９１Ｂ、１９１Ｃで収録された信号が、対象混合信号１８０に相当する。
音源分離装置１３０において、活用側信号処理部１３４の出力する処理済対象混合信号１８０＃では、騒音１９４に相当する第６の成分１８３＃が抑圧されている。

活用側音源分離モデルを適用後、活用側信号抽出部１３７において抽出された結果が、第１の出力信号１８４及び第２の出力信号１８５に対応する。これらの信号では、運転席及び助手席の各音声が強調されている。

活用側音源分離モデルは、音源分離モデル学習装置１１０によって、運転席側と助手席側の話者のそれぞれの音声について、騒音１９４を抑制するような信号処理を行った際の変形された第１の変形目的音信号１７６及び第２の変形目的音信号１７７を考慮して生成されているため、実際に運転席の音声、助手席の音声及び騒音１９４が混合した状態から、運転席と助手席とに座った２人の話者の音声を適切に分離することができる。

また、車両内に限らず、会議中の録音記憶から出席者の発言を取り出す場合であっても、音源分離モデル学習装置で出席者の音声について学習して音源分離モデルを生成すれば、会議と関係ない周辺の雑音を除去する信号処理を行った上で当該音源分離モデルを用いれば、各出席者の音声を分離することができる。

以上のように、実施の形態１によれば、音源分離装置１３０が音源分離モデルを用いて音源分離を実施する際に、活用側信号処理部１３４に伴って生じる音響的特性の変化に音源分離モデルが対応し、この結果として音源分離装置１３０から出力される分離音の品質が向上する。

また、混合信号ブロック分割部１１８ａ、学習用信号ブロック分割部１１８ｂ及びブロック結合部１１８ｅを設けることによる効果として、ブロック毎に異なるフィルタのパラメタを出力することにより、時系列的な変化に対応できるようになる。

実施の形態２．
実施の形態１では、混合信号ブロック分割部１１８ａ及び学習用信号ブロック分割部１１８ｂで分割したブロック毎に、フィルタ推定部１１８ｃがフィルタを推定している。実施の形態２では、ブロック毎ではなく、１つのブロック内の時刻毎に異なるフィルタを推定する、言い換えると、フィルタを逐次的に更新することによって、ブロック内の時系列的な変化に対応できるようにする。

図１に示されているように、実施の形態２に係る音源分離システム２００は、音源分離モデル学習装置２１０と、音源分離装置１３０とを備える。
実施の形態２における音源分離装置１３０は、実施の形態１における音源分離装置１３０と同様である。

図２に示されているように、実施の形態２における音源分離モデル学習装置２１０は、学習側入力部１１１と、混合信号生成部１１２と、学習側信号処理部１１３と、学習側特徴量抽出部１１４と、学習側音源分離モデル記憶部１１５と、学習側モデル推論部１１６と、学習側信号抽出部１１７と、信号変形部２１８と、モデル更新部１１９と、学習側通信部１２０とを備える。
実施の形態２における学習側入力部１１１、混合信号生成部１１２、学習側信号処理部１１３、学習側特徴量抽出部１１４、学習側音源分離モデル記憶部１１５、学習側モデル推論部１１６、学習側信号抽出部１１７、モデル更新部１１９及び学習側通信部１２０は、実施の形態１における学習側入力部１１１、混合信号生成部１１２、学習側信号処理部１１３、学習側特徴量抽出部１１４、学習側音源分離モデル記憶部１１５、学習側モデル推論部１１６、学習側信号抽出部１１７、モデル更新部１１９及び学習側通信部１２０と同様である。

図１３は、実施の形態２における信号変形部２１８の構成を概略的に示すブロック図である。
信号変形部２１８は、混合信号ブロック分割部１１８ａと、学習用信号ブロック分割部１１８ｂと、フィルタ適用部２１８ｄと、ブロック結合部１１８ｅと、フィルタパラメタ記憶部２１８ｆと、フィルタ更新部２１８ｇとを備える。

実施の形態２における混合信号ブロック分割部１１８ａ、学習用信号ブロック分割部１１８ｂ及びブロック結合部１１８ｅは、実施の形態１における混合信号ブロック分割部１１８ａ、学習用信号ブロック分割部１１８ｂ及びブロック結合部１１８ｅと同様である。

フィルタパラメタ記憶部２１８ｆは、フィルタ適用部２１８ｄで使用するフィルタパラメタを記憶する。
例えば、フィルタパラメタ記憶部２１８ｆは、予め定められた期間に対応するサンプル毎にフィルタパラメタを記憶する。

フィルタ適用部２１８ｄは、複数の目的音ブロック信号に対して、フィルタパラメタ記憶部２１８ｆに記憶されているフィルタパラメタを適用することで、フィルタパラメタの対応する時刻における処理済サンプル信号を生成する。処理済サンプル信号は、フィルタ更新部２１８ｇに与えられる。言い換えると、フィルタ適用部２１８ｄは、サンプル毎に、複数の目的音ブロック信号から選択された部分にフィルタパラメタを適用することで処理済みサンプル信号を生成する。

また、フィルタ適用部２１８ｄは、生成された処理済サンプル信号を、複数の目的音ブロック信号の各々で結合することで、複数の変形ブロック信号を生成する。複数の変形ブロック信号は、ブロック結合部１１８ｅに与えられる。

フィルタ更新部２１８ｇは、フィルタ適用部２１８ｄから与えられる処理済サンプル信号を、処理済学習用混合信号の対応する部分に近づけるように、フィルタパラメタ記憶部２１８ｆに記憶されているフィルタパラメタを更新する。

図１４は、実施の形態２における信号変形部２１８の動作を示すフローチャートである。
なお、図１４に示されているフローチャートに含まれているステップの内、図８に示されているフローチャートに含まれているステップの処理と同様の処理を行うステップには、図８に示されているフローチャートに含まれているステップと同じ符号を付している。

図１４に示されているフローチャートに含まれているステップＳ２０及びＳ２１での処理は、図８に示されているフローチャートに含まれているステップＳ２０及びＳ２１での処理と同様である。但し、図１４においては、ステップＳ２１の処理の後は、処理はステップＳ４０に進む。

ステップＳ４０では、フィルタ適用部２１８ｄは、学習用信号ブロック分割部１１８ｂから受け取った複数の目的音ブロック信号から、未選択の１つの目的音ブロック信号を選択する。

次に、フィルタ更新部２１８ｇは、フィルタパラメタの初期値を決定して、その初期値をフィルタパラメタ記憶部２１８ｆに記憶する（Ｓ４１）。フィルタ適用部２１８ｄで使用されるフィルタがＦＩＲフィルタである場合、フィルタ更新部２１８ｇは、例えば、図８に示されているフローチャートのステップＳ２２での処理と同様の処理を行うことで、フィルタパラメタの初期値を推定すればよい。

次に、フィルタ適用部２１８ｄは、ステップＳ４０で選択された目的音ブロック信号の内、処理済サンプル信号が未だ生成されていないサンプルの中で先頭に位置するサンプルを選択する（Ｓ４２）。

次に、フィルタ適用部２１８ｄは、フィルタパラメタ記憶部２１８ｆに記憶されているフィルタパラメタを読み出して、読み出されたフィルタパラメタを、目的音ブロック信号の内の選択されたサンプルに対応する部分に適用することで、処理済サンプル信号を生成する（Ｓ４３）。生成された処理済サンプル信号は、フィルタ更新部２１８ｇに与えられる。

次に、フィルタ更新部２１８ｇは、フィルタ適用部２１８ｄからの処理済サンプル信号、混合信号ブロック分割部１１８ａからの混合ブロック信号、及び、学習用信号ブロック分割部１１８ｂからの目的音ブロック信号を用いて、フィルタパラメタ記憶部２１８ｆに記憶されているフィルタパラメタを更新する（Ｓ４４）。例えば、フィルタがＦＩＲフィルタである場合、フィルタパラメタの更新方法として、公知のＮＬＭＳ（ＮｏｒｍａｌｉｚｅｄＬｅａｓｔＭｅａｎＳｑｕａｒｅ）アルゴリズム、又は、ＲＬＳ（ＲｅｃｕｒｓｉｖｅＬｅａｓｔＳｑｕａｒｅ）アルゴリズム等が使用できる。なお、フィルタ更新部２１８ｇが更新を行なう際に、フィルタ適用部２１８ｄでの処理が必要となる場合がある。

次に、フィルタ適用部２１８ｄは、選択された目的音ブロック信号に含まれている全てのサンプルから処理済サンプル信号を生成したか否かを判断する（Ｓ４５）。全てのサンプルから処理済サンプル信号が生成されている場合（Ｓ４５でＹｅｓ）には、処理はステップＳ４６に進み、処理済サンプル信号が生成されていないサンプルが残っている場合（Ｓ４５でＮｏ）には、処理はステップＳ４２に戻る。

ステップＳ４６では、フィルタ適用部２１８ｄは、サンプル毎に生成された処理済みサンプル信号を連結することで変形ブロック信号を生成する。変形ブロック信号は、ブロック結合部１１８ｅに与えられる。

次に、フィルタ適用部２１８ｄは、学習用信号ブロック分割部１１８ｂから与えられた全ての目的音ブロック信号を選択したか否かを判断する（Ｓ４７）。全ての目的音ブロック信号を選択した場合（Ｓ４７でＹｅｓ）には、処理はステップＳ２４に進み、未だ選択していない目的音ブロック信号が残っている場合（Ｓ４７でＮｏ）には、処理はステップＳ４０に戻る。

そして、ブロック結合部１１８ｅは、図８のステップＳ２４での処理と同様に、ブロック毎に分割された状態の変形ブロック信号を接合して、変形目的音信号を生成する（Ｓ２４）。

以上のように、実施の形態２によれは、フィルタが逐次的に更新されるため、学習側信号処理部１１３及び活用側信号処理部１３４が適応的な処理を行う場合でも、学習側信号処理部１１３及び活用側信号処理部１３４の時系列的な変化に対応することができる。

なお、実施の形態２では、フィルタ更新部２１８ｇ及びフィルタ適用部２１８ｄが１サンプル毎にフィルタを更新し、変形ブロック信号を生成しているため、混合信号ブロック分割部１１８ａ、学習用信号ブロック分割部１１８ｂ及びブロック結合部１１８ｅは、設けられていなくてもよい。
このような場合には、フィルタ適用部２１８ｄは、抽出すべき目的音を示す信号に対し、フィルタパラメタ記憶部２１８ｆに記憶されているフィルタパラメタを適用することで、各々のフィルタパラメタが対応する時刻における処理済サンプル信号を生成する。
フィルタ更新部２１８ｇは、処理済サンプル信号を、処理済学習用混合信号の対応する部分に近づけるように、フィルタパラメタを更新する。
そして、フィルタ適用部２１８ｄは、生成された処理済みサンプル信号を結合することで、変形目的音信号を生成する。

一方で、混合信号ブロック分割部１１８ａ、学習用信号ブロック分割部１１８ｂ及びブロック結合部１１８ｅを設けることで、ブロック単位でフィルタ適用処理を並列に行って処理速度を向上させたり、ブロック単位でフィルタパラメタの候補グループを作成して、１サンプル毎のパラメタ抽出時にそのグループからパラメタを探索することで、パラメタ抽出速度を向上させたりすることができる。

例えば、ＦＩＲフィルタが使用される場合、フィルタを推定するためには，ブロック分割時に各ブロックの長さをフィルタの長さよりも長く設定する必要がある。このため、実施の形態１のように、ブロック毎にフィルタを推定する場合は、学習側信号処理部１１３及び活用側信号処理部１３４の時系列的な変化に、少なくともＦＩＲフィルタの長さの時間単位でなければ追従できない。一方で、実施の形態２のように、サンプル毎にフィルタを推定することで、学習側信号処理部１１３及び活用側信号処理部１３４の時系列的な変化に、サンプル毎の時間単位で、より細かく追従することができる。

また、実施の形態２のように、フィルタパラメタ記憶部２１８ｆを備えることで、フィルタ更新部２１８ｇは、直前のフィルタ推定結果をフィルタパラメタ記憶部２１８ｆに保持しておいた上で、新たにサンプルが得られた際に、フィルタパラメタ記憶部２１８ｆに記録されているフィルタパラメタを、選択されたサンプルに応じ少しだけ変形させてから適用することができる。

以上に記載された音源分離モデル学習装置１１０、２１０は、ＮＮに基づく音源分離手法と、古典的な信号処理、機械学習を用いた処理又は未知の信号処理等に基づく信号処理手法を組み合わせた音源分離装置１３０を構成する際において、音源分離モデルの学習を促進し、音源分離性能を向上させる効果を有する。このため、例えば、騒音環境下で音声を認識させる装置において、古典的信号処理と、ＮＮに基づく音源分離とを組み合わせて目的話者の発話音声を取り出すために使用することができる。なお、未知の信号処理には、古典的な信号処理又は機械学習を用いた処理が含まれてもよい。

以上に記載された実施の形態１及び２は、音源分離モデル学習装置１１０、２１０及び音源分離装置１３０の二つの装置で構成されているが、実施の形態１及び２は、このような例に限定されない。例えば、音源分離モデル学習装置１１０、２１０及び音源分離装置１３０が一つの装置、例えば、一つの音源分離学習装置で構成されていてもよい。このような場合には、学習側通信部１２０及び活用側通信部１３１は、不要であり、学習側音源分離モデル記憶部１１５及び活用側音源分離モデル記憶部１３２は、音源分離モデルを記憶する音源分離モデル記憶部として統合することができる。

１００，２００音源分離システム、１１０，２１０音源分離モデル学習装置、１１１学習側入力部、１１２混合信号生成部、１１３学習側信号処理部、１１４学習側特徴量抽出部、１１５学習側音源分離モデル記憶部、１１６学習側モデル推論部、１１７学習側信号抽出部、１１８，２１８信号変形部、１１８ａ混合信号ブロック分割部、１１８ｂ学習用信号ブロック分割部、１１８ｃフィルタ推定部、１１８ｄ，２１８ｄフィルタ適用部、１１８ｅブロック結合部、２１８ｆフィルタパラメタ記憶部、２１８ｇフィルタ更新部、１１９モデル更新部、１２０学習側通信部、１３０音源分離装置、１３１活用側通信部、１３２活用側音源分離モデル記憶部、１３３活用側入力部、１３４活用側信号処理部、１３５活用側特徴量抽出部、１３６活用側モデル推論部、１３７活用側信号抽出部、１３８活用側出力部。

Claims

複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成する学習側信号処理部と、
前記複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成する学習側モデル推論部と、
前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成する信号変形部と、
前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新するモデル更新部と、を備えること
を特徴とする音源分離モデル学習装置。
複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成する学習側信号処理部と、
前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成する学習側特徴量抽出部と、
前記複数の処理済目的音を抽出するために前記複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成する学習側モデル推論部と、
前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成する学習側信号抽出部と、
前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成する信号変形部と、
前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新するモデル更新部と、を備えること
を特徴とする音源分離モデル学習装置。
前記予め定められた処理は、前記複数の目的音を抽出しやすくする処理であること
を特徴とする請求項１又は２に記載の音源分離モデル学習装置。
前記予め定められた処理は、前記複数の目的音を強調する処理であること
を特徴とする請求項１から３の何れか一項に記載の音源分離モデル学習装置。
前記信号変形部は、
前記一つの目的音を前記一つの処理済目的音に近づけるためのフィルタを推定するフィルタ推定部と、
前記一つの目的音を示す信号に前記フィルタを適用することで、前記変形目的音信号を生成するフィルタ適用部と、を備えること
を特徴とする請求項１から４の何れか一項に記載の音源分離モデル学習装置。
前記信号変形部は、
前記処理済学習用混合信号を複数のブロックに分割することで、複数の混合ブロック信号を生成する第１のブロック分割部と、
前記一つの目的音を示す信号を複数のブロックに分割することで、複数の目的音ブロック信号を生成する第２のブロック分割部と、
前記複数の目的音ブロック信号の各々で示される音を、前記複数の混合ブロック信号で示される音の内、前記一つの目的音に対応する音に近づけるためのフィルタを推定することで、複数のフィルタを推定するフィルタ推定部と、
前記複数の目的音ブロック信号の各々に、前記複数のフィルタの各々を適用することで、複数の変形ブロック信号を生成するフィルタ適用部と、
前記複数の変形ブロック信号を結合することで、前記変形目的音信号を生成するブロック結合部と、を備えること
を特徴とする請求項１から４の何れか一項に記載の音源分離モデル学習装置。
前記信号変形部は、
予め定められた期間に対応するサンプル毎にフィルタパラメタを記憶するフィルタパラメタ記憶部と、
前記サンプル毎に、前記一つの目的音を示す信号から選択された部分に前記フィルタパラメタを適用することで、処理済サンプル信号を生成するとともに、前記処理済みサンプル信号を結合することで前記変形目的音信号を生成するフィルタ適用部と、
前記処理済サンプル信号を、前記処理済学習用混合信号の対応する部分に近づけるように、前記フィルタパラメタを更新するフィルタ更新部と、を備えること
を特徴とする請求項１から４の何れか一項に記載の音源分離モデル学習装置。
前記信号変形部は、
前記処理済学習用混合信号を複数のブロックに分割することで、複数の混合ブロック信号を生成する第１のブロック分割部と、
前記一つの目的音を示す信号を複数のブロックに分割することで、複数の目的音ブロック信号を生成する第２のブロック分割部と、
予め定められた期間に対応するサンプル毎にフィルタパラメタを記憶するフィルタパラメタ記憶部と、
前記サンプル毎に、前記一つの目的音を示す信号から選択された部分に前記フィルタパラメタを適用することで、処理済サンプル信号を生成するとともに、前記処理済みサンプル信号を、前記複数の目的音ブロック信号の各々で結合することで、複数の変形ブロック信号を生成するフィルタ適用部と、
前記処理済サンプル信号を、前記処理済学習用混合信号の対応する部分に近づけるように、前記フィルタパラメタを更新するフィルタ更新部と、
前記複数の変形ブロック信号を結合することで、前記変形目的音信号を生成するブロック結合部と、を備えること
を特徴とする請求項１から４の何れか一項に記載の音源分離モデル学習装置。
前記モデル更新部は、前記複数の学習用抽出信号と、前記複数の変形目的音信号との差分が小さくなるように、前記学習側音源分離モデルを更新すること
を特徴とする請求項１から８の何れか一項に記載の音源分離モデル学習装置。
複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成する活用側信号処理部と、
複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するための活用側音源分離モデルを用いて、前記処理済対象混合信号から音を抽出することで、前記処理済対象混合信号から抽出された音を示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成する活用側モデル推論部と、を備えること
を特徴とする音源分離装置。
複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成する活用側信号処理部と、
前記処理済対象混合信号から、予め定められた音響特徴量である活用音響特徴量を複数の成分において抽出することで、前記抽出された活用音響特徴量の時系列データである活用特徴データを生成する活用側特徴量抽出部と、
複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するために前記学習用特徴データにおける複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記処理済学習用混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成し、前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するために前記活用特徴データにおける複数の成分の各々に対する重みを示す活用側音源分離モデルを用いて、前記活用特徴データから前記処理済対象混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の活用マスクを生成する活用側モデル推論部と、
前記複数の活用マスクを用いて、前記活用特徴データから音を抽出することで、前記活用特徴データから抽出された音を少なくとも示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成する活用側信号抽出部と、を備えること
を特徴とする音源分離装置。
コンピュータを、
複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成する学習側信号処理部、
前記複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成する学習側モデル推論部、
前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成する信号変形部、及び、
前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新するモデル更新部、として機能させること
を特徴とするプログラム。
コンピュータを、
複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成する学習側信号処理部、
前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成する学習側特徴量抽出部、
前記複数の処理済目的音を抽出するために前記複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成する学習側モデル推論部、
前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成する学習側信号抽出部、
前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成する信号変形部、及び、
前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新するモデル更新部、として機能させること
を特徴とするプログラム。
コンピュータを、
複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成する活用側信号処理部、及び、
複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するための活用側音源分離モデルを用いて、前記処理済対象混合信号から音を抽出することで、前記処理済対象混合信号から抽出された音を示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成する活用側モデル推論部、として機能させること
を特徴とするプログラム。
コンピュータを、
複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成する活用側信号処理部、
前記処理済対象混合信号から、予め定められた音響特徴量である活用音響特徴量を複数の成分において抽出することで、前記抽出された活用音響特徴量の時系列データである活用特徴データを生成する活用側特徴量抽出部、
複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するために前記学習用特徴データにおける複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記処理済学習用混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成し、前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するために前記活用特徴データにおける複数の成分の各々に対する重みを示す活用側音源分離モデルを用いて、前記活用特徴データから前記処理済対象混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の活用マスクを生成する活用側モデル推論部、及び、
前記複数の活用マスクを用いて、前記活用特徴データから音を抽出することで、前記活用特徴データから抽出された音を少なくとも示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成する活用側信号抽出部、として機能させること
を特徴とするプログラム。
複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、
前記複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、
前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、
前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新すること
を特徴とする音源分離モデル学習方法。
複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、
前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成し、
前記複数の処理済目的音を抽出するために前記複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成し、
前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、
前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、
前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新すること
を特徴とする音源分離モデル学習方法。
複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成し、
複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するための活用側音源分離モデルを用いて、前記処理済対象混合信号から音を抽出することで、前記処理済対象混合信号から抽出された音を示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成すること
を特徴とする音源分離方法。
複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成し、
前記処理済対象混合信号から、予め定められた音響特徴量である活用音響特徴量を複数の成分において抽出することで、前記抽出された活用音響特徴量の時系列データである活用特徴データを生成し、
複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するために前記学習用特徴データにおける複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記処理済学習用混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成し、前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するために前記活用特徴データにおける複数の成分の各々に対する重みを示す活用側音源分離モデルを用いて、前記活用特徴データから前記処理済対象混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の活用マスクを生成し、
前記複数の活用マスクを用いて、前記活用特徴データから音を抽出することで、前記活用特徴データから抽出された音を少なくとも示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成すること
を特徴とする音源分離方法。