JP7138824B2 - 音源分離モデル学習装置、音源分離装置、プログラム、音源分離モデル学習方法及び音源分離方法 - Google Patents

音源分離モデル学習装置、音源分離装置、プログラム、音源分離モデル学習方法及び音源分離方法 Download PDF

Info

Publication number
JP7138824B2
JP7138824B2 JP2022532167A JP2022532167A JP7138824B2 JP 7138824 B2 JP7138824 B2 JP 7138824B2 JP 2022532167 A JP2022532167 A JP 2022532167A JP 2022532167 A JP2022532167 A JP 2022532167A JP 7138824 B2 JP7138824 B2 JP 7138824B2
Authority
JP
Japan
Prior art keywords
learning
target
processed
sounds
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022532167A
Other languages
English (en)
Other versions
JPWO2021260868A1 (ja
Inventor
祥幹 三井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2021260868A1 publication Critical patent/JPWO2021260868A1/ja
Application granted granted Critical
Publication of JP7138824B2 publication Critical patent/JP7138824B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本開示は、音源分離モデル学習装置、音源分離装置、プログラム、音源分離モデル学習方法及び音源分離方法に関する。
近年では、複数の音源からなる混合信号より、所望の音源信号のみを分離する手法として、ニューラルネットワーク(以下、NNという)に基づく手法が使用されている。非特許文献1では、複数の音が混ざっている混合信号から、NNを用いた音源分離装置を通過させることで、音源分離が達成される。
Z.Q. Wang et al.,Alternative Objective Functions for Deep Clustering, Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),2018年
従来の技術のように、NNに基づく音源分離手法においては、取得された音源信号からNNへの入力特徴量を生成して、NNに適用している。
一方、所望の音源を分離したり、不要な音源から到来する信号を抑圧したりといった処理として、他の信号処理が存在する。例えば、マイクロホンアレイを用いたビームフォーミング処理、騒音を抑圧するスペクトルサブトラクション処理、又は、ノイズキャンセリング等を行う適応フィルタリング処理等の信号処理がある。
非特許文献1の学習段階においては、音源信号の取得から入力特徴量の生成までの間に上記のような信号処理が行われることを想定していない。このため、音源分離時に、信号処理を経た後の混合信号をNNへと入力しても、信号処理に伴って生じる音響的特性の変動にNNが対応できず、十分な音源分離性能を得ることができない。ここで、音響的特性の変動は、例えば、信号のスケール、遅延、残響又は周波数特性等が変化すること等を想定している。
そこで、本開示の一又は複数の態様は、音響的特性が変動した場合であっても、機械学習による音源分離が有効に機能できるようにすることを目的とする。
本開示の第1の態様に係る音源分離モデル学習装置は、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成する学習側信号処理部と、前記複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成する学習側モデル推論部と、前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成する信号変形部と、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新するモデル更新部と、を備えることを特徴とする。
本開示の第2の態様に係る音源分離モデル学習装置は、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成する学習側信号処理部と、前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成する学習側特徴量抽出部と、前記複数の処理済目的音を抽出するために前記複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成する学習側モデル推論部と、前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成する学習側信号抽出部と、前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成する信号変形部と、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新するモデル更新部と、を備えることを特徴とする。
本開示の第1の態様に係る音源分離装置は、複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成する活用側信号処理部と、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するための活用側音源分離モデルを用いて、前記処理済対象混合信号から音を抽出することで、前記処理済対象混合信号から抽出された音を示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成する活用側モデル推論部と、を備えることを特徴とする。
本開示の第2の態様に係る音源分離装置は、複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成する活用側信号処理部と、前記処理済対象混合信号から、予め定められた音響特徴量である活用音響特徴量を複数の成分において抽出することで、前記抽出された活用音響特徴量の時系列データである活用特徴データを生成する活用側特徴量抽出部と、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するために前記学習用特徴データにおける複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記処理済学習用混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成し、前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するために前記活用特徴データにおける複数の成分の各々に対する重みを示す活用側音源分離モデルを用いて、前記活用特徴データから前記処理済対象混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の活用マスクを生成する活用側モデル推論部と、前記複数の活用マスクを用いて、前記活用特徴データから音を抽出することで、前記活用特徴データから抽出された音を少なくとも示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成する活用側信号抽出部と、を備えることを特徴とする。
本開示の第1の態様に係るプログラムは、コンピュータを、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成する学習側信号処理部、前記複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成する学習側モデル推論部、前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成する信号変形部、及び、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新するモデル更新部、として機能させることを特徴とする。
本開示の第2の態様に係るプログラムは、コンピュータを、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成する学習側信号処理部、前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成する学習側特徴量抽出部、前記複数の処理済目的音を抽出するために前記複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成する学習側モデル推論部、
前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成する学習側信号抽出部、
前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成する信号変形部、及び、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新するモデル更新部、として機能させることを特徴とする。
本開示の第3の態様に係るプログラムは、コンピュータを、複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成する活用側信号処理部、及び、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するための活用側音源分離モデルを用いて、前記処理済対象混合信号から音を抽出することで、前記処理済対象混合信号から抽出された音を示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成する活用側モデル推論部、として機能させることを特徴とする。
本開示の第4の態様に係るプログラムは、コンピュータを、複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成する活用側信号処理部、前記処理済対象混合信号から、予め定められた音響特徴量である活用音響特徴量を複数の成分において抽出することで、前記抽出された活用音響特徴量の時系列データである活用特徴データを生成する活用側特徴量抽出部、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するために前記学習用特徴データにおける複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記処理済学習用混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成し、前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するために前記活用特徴データにおける複数の成分の各々に対する重みを示す活用側音源分離モデルを用いて、前記活用特徴データから前記処理済対象混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の活用マスクを生成する活用側モデル推論部、及び、前記複数の活用マスクを用いて、前記活用特徴データから音を抽出することで、前記活用特徴データから抽出された音を少なくとも示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成する活用側信号抽出部、として機能させることを特徴とする。
本開示の第1の態様に係る音源分離モデル学習方法は、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することを特徴とする。
本開示の第2の態様に係る音源分離モデル学習方法は、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成し、前記複数の処理済目的音を抽出するために前記複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成し、前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することを特徴とする。
本開示の第1の態様に係る音源分離方法は、複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成し、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するための活用側音源分離モデルを用いて、前記処理済対象混合信号から音を抽出することで、前記処理済対象混合信号から抽出された音を示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成することを特徴とする。
本開示の第2の態様に係る音源分離方法は、複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成し、前記処理済対象混合信号から、予め定められた音響特徴量である活用音響特徴量を複数の成分において抽出することで、前記抽出された活用音響特徴量の時系列データである活用特徴データを生成し、複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するために前記学習用特徴データにおける複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記処理済学習用混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成し、前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するために前記活用特徴データにおける複数の成分の各々に対する重みを示す活用側音源分離モデルを用いて、前記活用特徴データから前記処理済対象混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の活用マスクを生成し、前記複数の活用マスクを用いて、前記活用特徴データから音を抽出することで、前記活用特徴データから抽出された音を少なくとも示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成することを特徴とする。
本開示の一又は複数の態様によれば、音響的特性が変動した場合であっても、機械学習による音源分離が有効に機能することができる。
音源分離システムの構成を概略的に示すブロック図である。 音源分離モデル学習装置の構成を概略的に示すブロック図である。 実施の形態1における信号変形部の構成を概略的に示すブロック図である。 音源分離モデル学習装置のハードウェア構成を概略的に示すブロック図である。 音源分離装置の構成を概略的に示すブロック図である。 音源分離装置のハードウェア構成を概略的に示すブロック図である。 音源分離モデル学習装置の動作を示すフローチャートである。 実施の形態1における信号変形部の動作を示すフローチャートである。 音源分離装置の動作を示すフローチャートである。 音源分離モデル学習装置の動作を示す概念図である。 (A)及び(B)は、音源分離装置の動作例を説明するための概略図である。 音源分離装置の利用例を示す概略図である。 実施の形態2における信号変形部の構成を概略的に示すブロック図である。 実施の形態2における信号変形部の動作を示すフローチャートである。
実施の形態1.
図1は、実施の形態1に係る音源分離システム100の構成を概略的に示すブロック図である。
音源分離システム100は、学習用信号から音源分離モデルを生成する音源分離モデル学習装置110と、対象混合信号の中に含まれる、各音源から発せられた目的音を、音源分離モデルを用いて分離し、その目的音を出力する音源分離装置130とを備える。
ここで、目的音は、音源分離装置130を用いて分離して、取り出したい音を指し、非目的音は、音源分離装置130を用いて取り出す必要のない音を指すものとする。言い換えると、目的音は、音源分離装置130で抽出すべき音を指し、非目的音は、音源分離装置130で抽出すべきではない音を指す。
音源分離モデル学習装置110と、音源分離装置130とは、データを受け渡すことができるようになっている。例えば、図示してはいないが、音源分離モデル学習装置110と、音源分離装置130とは、ネットワークに接続されている。
音源分離モデル学習装置110は、学習用信号に基づいて、音源分離モデルを生成する。生成された音源分離モデルは、音源分離装置130に与えられる。
音源分離装置130は、その音源分離モデルを用いて、複数の音源から発せられた複数の目的音を含む混合信号から、複数の目的音を抽出する。
音源分離モデルは、音源分離装置130にて音源の分離を実施する際に用いられる、NNにおける学習モデルである。音源分離モデルは、例えば、NNの配線構造を定義するための情報及びNNの各配線における重みを格納したパラメタを含む。音源分離モデルの配線構造は、例えば、全結合型NN、畳み込みNN(Convolutional NN:CNN)、回帰型NN(Recurrent NN:RNN)、長短期記憶(Long short-term memory:LSTM)、ゲート付き回帰型ユニット(Gated recurrent unit:GRU)、又は、これらの組み合わせであってもよい。
図2は、音源分離モデル学習装置110の構成を概略的に示すブロック図である。
音源分離モデル学習装置110は、学習側入力部111と、混合信号生成部112と、学習側信号処理部113と、学習側特徴量抽出部114と、学習側音源分離モデル記憶部115と、学習側モデル推論部116と、学習側信号抽出部117と、信号変形部118と、モデル更新部119と、学習側通信部120とを備える。
学習側入力部111は、学習用信号の入力を受け付ける。入力された学習用信号は、混合信号生成部112及び信号変形部118に与えられる。
学習用信号は、例えば、複数の話者からそれぞれ個別に発せられた音声、複数の楽器からそれぞれ個別に演奏された楽曲、又は、複数の騒音原からそれぞれ個別に発せられた騒音等の目的音及び非目的音を録音したデータの信号を含む。
混合信号生成部112は、学習用信号として目的音及び非目的音の信号を取得し、例えば、これらを加算することによって、複数の目的音と、非目的音とが混ざっている混合信号である学習用混合信号を生成する。学習用混合信号は、学習側信号処理部113に与えられる。
ここで、学習用混合信号には、2つ以上の目的音が含まれる。また、学習用混合信号には、1つ以上の非目的音が含まれてもよいし、含まれなくてもよい。学習用混合信号は、例えば、学習用信号として取得された2つ以上の信号を単純に加算して得られる信号であってもよい。言い換えると、学習用混合信号は複数の目的音を少なくとも示す信号である。
混合信号生成部112は、例えば、音源分離装置130に入力される混合信号である対象混合信号を模擬する処理を含んでもよい。例えば、対象混合信号がマイクロホンアレイにより収録されたマルチチャネル信号である場合、混合信号生成部112は、マイクロホンアレイのインパルス応答を畳み込むことで、マイクロホンアレイによる観測を模擬する処理を含んでもよい。
学習側信号処理部113は、学習用混合信号に対して予め定められた処理を行うことで、複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成する。処理済学習用混合信号は、学習側特徴量抽出部114及び信号変形部118に与えられる。
例えば、学習側信号処理部113は、混合信号生成部112から与えられる学習用混合信号に対して、目的音を取り出しやすくするため、種々の信号処理を適用した結果得られる処理済学習用混合信号を生成する。
具体的には、予め定められた処理は、機械学習以外の処理であってもよいし、機械学習を用いた処理であってもよい。
また、予め定められた処理は、複数の目的音を抽出しやすくする処理であることが望ましい。
さらに、予め定められた処理は、複数の目的音を強調する処理であることが望ましい。
学習側信号処理部113は、音源分離装置130において行われる処理と同じ処理を行う。例えば、古典的な信号処理、機械学習を用いた処理又は未知の信号処理等が行われる。未知の信号処理には、古典的な信号処理又は機械学習を用いた処理が含まれてもよい。
具体的には、学習側信号処理部113が行う処理には、入力された学習用混合信号の中から、雑音信号又は目的音ではない音を示す信号等を抑圧するビームフォーミング処理が含まれてもよい。また、学習側信号処理部113が行う処理には、残響を抑圧するための処理が含まれていてもよい。さらに、学習側信号処理部113が行う処理には、学習用混合信号の中に存在する非目的音の参照信号が与えられている場合において、エコーキャンセラ等に代表される、非目的音の参照信号を学習用混合信号に含まれる形へと適応変形し、それを学習用混合信号から差し引くことで、学習用混合信号から非目的音に由来する成分を取り除く処理が含まれてもよい。
なお、学習側信号処理部113が行う処理の内容は、時間の経過に伴って変化してもよい。学習側信号処理部113に入力される学習用混合信号は、例えば、マイクロホンアレイで収録された複数チャネルの信号であり、出力される処理済学習用混合信号は、例えば、単一チャネルの信号であるが、チャネル数に対する要件はこれに限定されるものではない。
学習側特徴量抽出部114は、学習側信号処理部113から与えられる処理済学習用混合信号から、音響特徴量を抽出して、抽出された音響特徴量の時系列データである学習用特徴データを生成する。
例えば、学習側特徴量抽出部114は、処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、抽出された学習用音響特徴量の時系列データである学習用特徴データを生成する。
ここで、音響特徴量は、例えば、処理済学習用混合信号に高速フーリエ変換(Fast Fourier Transform:FFT)の処理を施すことによって得られる複素スペクトルである。学習用特徴データは、学習側モデル推論部116及び学習側信号抽出部117に与えられる。
学習側音源分離モデル記憶部115は、音源分離モデル学習装置110で使用される音源分離モデルである学習側音源分離モデルを記憶する。学習側音源分離モデルは、例えば、学習用特徴データにおける各成分に対する重みパラメタを示す。
学習側モデル推論部116は、学習側特徴量抽出部114から与えられる学習用特徴データから、音源分離を行うために必要となる分離用特徴量である学習分離用特徴量を、学習側音源分離モデルを用いて抽出する。学習側モデル推論部116で抽出される学習分離用特徴量の時系列データは、例えば、「マスク」と呼ばれる時系列データである。マスクとは、学習側特徴量抽出部114で抽出された音響特徴量から、各音源の成分のみを取り出すためのフィルタである。マスクは、例えば、学習側特徴量抽出部114で抽出された音響特徴量の各成分において、分離し取り出したい音源からの成分が含まれている割合を求めることにより与えられる。ここで生成されたマスクは、学習用マスクとして学習側信号抽出部117に与えられる。
即ち、学習側モデル推論部116は、複数の処理済目的音を抽出するために、学習用特徴データを構成する複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、学習用特徴データから一つの処理済目的音を抽出するための学習用マスクを、目的音毎に生成する。ここでは、学習用混合信号に、複数の目的音が含まれているため、複数の学習用マスクが生成される。
学習側信号抽出部117は、学習側特徴量抽出部114で抽出された音響特徴量の時系列データである学習用特徴データと、学習側モデル推論部116で推定された学習分離用特徴量の時系列データである学習用マスクとを用いて、取り出したい音響信号を抽出する。
例えば、学習側信号抽出部117は、学習側モデル推論部116から与えられる複数の学習用マスクの各々を用いて、学習用特徴データから音を抽出することで、抽出された音を少なくとも示す学習用抽出信号を生成する。
具体的には、学習側信号抽出部117は、学習分離用特徴量と、学習用音響特徴量とを成分毎に積演算した後に、逆フーリエ変換(Inverse Fast Fourier Transform:IFFT)の処理を施すことによって、取り出したい目的音を抽出した信号である学習用抽出信号を復元する。ここでは、複数の学習用マスクが使用されるため、複数の学習用マスクの各々に各々が対応する複数の学習用抽出信号が復元される。
信号変形部118は、学習側入力部111から与えられる学習用信号と、学習側信号処理部113から与えられる処理済学習用混合信号とにより、学習用信号に含まれる複数の目的音のそれぞれを、処理済学習用混合信号に含まれるそれぞれの目的音に対応する音に近づけるための変形処理を行うことで変形目的音信号を生成する。生成された変形目的音信号は、モデル更新部119に与えられる。
例えば、信号変形部118は、複数の目的音の内、一つの目的音を示す信号に対して、その一つの目的音を、対応する一つの処理済目的音に近づけるための変形処理を行うことで、その一つの目的音に由来する一つの変形目的音を示す変形目的音信号を、目的音毎に生成する。ここでは、複数の目的音が存在するため、複数の目的音の各々に各々が対応する複数の変形目的音信号が生成される。
具体的には、学習用信号に、第1の目的音、第2の目的音及び非目的音という3つの成分が含まれる場合、信号変形部118は、第1の目的音を示す信号を変形するための変換f1と、第2の目的音を示す信号を変形するための変換f2を設定する。そして、信号変形部118は、学習側信号処理部113から与えられる処理済学習用混合信号と、第1の目的音を示す信号及び第2の目的音を示す信号を加算した信号との差分が最も小さくなるように変換f1及び変換f2を決定することで、第1の目的音及び第2の目的音のそれぞれを、処理済学習用混合信号に含まれるそれぞれの目的音に由来する音に近づけることができる。これにより、第1の目的音を示す信号に変換f1を適用することで、第1の目的音に対応する変形目的音信号を生成することができ、第2の目的音を示す信号に変換f2を適用することで、第2の目的音に対応する変形目的音信号を生成することができる。
ここでは、第1の目的音、第2の目的音及び非目的音が、それぞれ統計的に異なる性質を持っている、言い換えると、相関がないものとしている。このため、例えば、学習側信号処理部113から与えられる処理済学習用混合信号と、第1の目的音を示す信号と第2の目的音を示す信号を加算した信号との差分として、二乗誤差を算出することで、第1の目的音及び第2の目的音のそれぞれを、処理済学習用混合信号に含まれるそれぞれの目的音に由来する音に近づけることができる。なお、信号変形部118の具体的な構造については、後述する。
モデル更新部119は、学習側信号抽出部117から与えられる複数の学習用抽出信号と、信号変形部118から与えられる複数の変形目的音信号とを用いて、学習側音源分離モデル記憶部115に記憶されている学習用音源分離モデルに含まれている重みパラメタを更新する。
例えば、モデル更新部119は、複数の学習用抽出信号及び複数の変形目的音信号を用いて、学習側信号抽出部117で抽出された音が、抽出すべき一つの目的音に対応する一つの変形目的音に近づくように、学習側音源分離モデルを更新する。
具体的には、モデル更新部119は、複数の学習用抽出信号と、複数の変形目的音信号との差分が小さくなるように、学習側音源分離モデルを更新する。
重みパラメタの更新には、例えば、信号変形部118の出力と、学習側信号抽出部117の出力との差分を計算した結果と、例えば、確率的勾配降下法(Stochastic Gradient Descent:SGD)又はAdam法等の公知の最適化手法が使用される。
学習側通信部120は、学習側音源分離モデル記憶部115に記憶されている学習用音源分離モデルを、音源分離装置130で使用する音源分離モデルである活用側音源分離モデルとして、音源分離装置130に送る。
なお、学習側特徴量抽出部114と、学習側信号抽出部117とについては、その両方を備えない構成とすることができる。
この場合、学習側モデル推論部116は、学習側信号処理部113から与えられた処理済学習用混合信号に含まれている複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、処理済学習用混合信号から音を抽出することで、その抽出された音を示す学習用抽出信号を生成する。
また、信号変形部118は、学習用信号で示される複数の目的音の内、一つの処理済目的音に対応する一つの目的音を示す信号に対して、その一つの目的音をその一つの処理済目的音に近づけるための変形処理を行うことで、その一つの目的音に由来する一つの変形目的音を示す変形目的音信号を、目的音毎に生成する。
そして、モデル更新部119は、複数の学習用抽出信号及び複数の変形目的音信号を用いて、学習側モデル推論部116で抽出された複数の音の各々が、複数の変形目的音の内の対応する変形目的音に近づくように、学習側音源分離モデルを更新する。
図3は、実施の形態1における信号変形部118の構成を概略的に示すブロック図である。
信号変形部118は、混合信号ブロック分割部118aと、学習用信号ブロック分割部118bと、フィルタ推定部118cと、フィルタ適用部118dと、ブロック結合部118eとを備える。
混合信号ブロック分割部118aは、学習側信号処理部113から与えられた処理済学習用混合信号を適当な区間であるブロック毎に分割して得られる信号である混合ブロック信号を生成する第1のブロック分割部である。
例えば、混合信号ブロック分割部118aは、処理済学習用混合信号を複数のブロックに分割することで、複数の混合ブロック信号を生成する。
混合ブロック信号は、フィルタ推定部118cに与えられる。
ブロックへの分割は、例えば、一定の時間間隔毎に実施されればよい。
また、複数のブロック間で重複する区間が生じるようにブロックに分割されてもよい。
但し、サンプル数に対応する各ブロックの長さは、フィルタ推定部118cにおけるフィルタの導出に必要な長さを上回るよう設定する必要がある。
学習用信号ブロック分割部118bは、学習側入力部111より与えられた学習用信号から目的音の信号を取り出し、その目的音の信号を適当な区間毎に分割することで得られる信号である目的音ブロック信号を生成する第2のブロック分割部である。
例えば、学習用信号ブロック分割部118bは、一つの目的音を示す信号を複数のブロックに分割することで、複数の目的音ブロック信号を生成する。
目的音ブロック信号は、フィルタ推定部118c及びフィルタ適用部118dに与えられる。ブロックへの分割方法は、混合信号ブロック分割部118aにおける分割方法と同一である。
フィルタ推定部118cは、複数の目的音ブロック信号の各々で示される音を、複数の混合ブロック信号で示される音の内、抽出すべき一つの目的音に対応する音に近づけるためのフィルタを推定することで、複数のフィルタを推定する。
例えば、フィルタ推定部118cは、混合信号ブロック分割部118aによってブロック単位に分割された混合ブロック信号と、学習用信号ブロック分割部118bによってブロック単位に分割された目的音ブロック信号とを、ブロック毎に、かつ、目的音毎に、目的音ブロック信号で示される音の、混合ブロック信号で示される音への変換を近似するフィルタのパラメタである変形パラメタを生成する。フィルタは、例えば、FIR(Finite Impulse Response)フィルタ、IIR(Infinitie Inpulse Response)フィルタ、又は、FFTを用いた周波数領域上におけるフィルタ等が使用されればよい。
なお、変形パラメタは、例えば、ブロック毎に異なっていてもよい。
フィルタ適用部118dは、複数の目的音ブロック信号の各々に、フィルタ推定部118cで推定された複数のフィルタの各々を適用することで、複数の変形ブロック信号を生成する。
例えば、フィルタ適用部118dは、学習用信号ブロック分割部118bから与えられる目的音ブロック信号に、フィルタ推定部118cで推定された、その目的音ブロック信号に対応する変形パラメタを適用した信号を変形ブロック信号として生成する。変形ブロック信号は、ブロック結合部118eに与えられる。
ブロック結合部118eは、フィルタ適用部118dから与えられる変形ブロック信号を結合して得られる信号である変形目的音信号を生成する。変形目的音信号は、図2に示されているモデル更新部119に与えられる。
なお、混合信号ブロック分割部118aと、学習用信号ブロック分割部118bとにおいて、複数のブロック間で重複する区間が生じるように分割が行われた場合には、ブロック結合部118eは、例えば、重み付け和を計算することで重複を解消してもよい。
混合信号ブロック分割部118a及び学習用信号ブロック分割部118bと、ブロック結合部118eとについては、これらを備えない構成としてもよい。すなわち、信号全体が単一のブロックとして扱われてもよい。
このような場合には、フィルタ推定部118cは、学習用信号で示される一つの目的音を、処理済学習用混合信号で示される複数の処理済目的音の内、その一つの目的音に対応する一つの処理済目的音に近づけるためのフィルタを推定する。
そして、フィルタ適用部は、学習用信号の内のその一つの目的音を示す信号に、フィルタ推定部118cで推定されたフィルタを適用することで、変形目的音信号を生成する。
図4は、音源分離モデル学習装置110のハードウェア構成を概略的に示すブロック図である。
音源分離モデル学習装置110は、記憶装置151と、メモリ152と、プロセッサ153と、通信インタフェース(以下、通信I/Fという)154とを備えるコンピュータ150により構成することができる。
記憶装置151は、音源分離モデル学習装置110で行う処理に必要なプログラム及びデータを記憶する。
メモリ152は、プロセッサ153が作業を行う作業領域を提供する。
プロセッサ153は、記憶装置151に記憶されたプログラム及びデータを、メモリ152に展開して、処理を実行する。
通信I/F154は、音源分離装置130と通信を行う。
例えば、混合信号生成部112、学習側信号処理部113、学習側特徴量抽出部114、学習側モデル推論部116、学習側信号抽出部117、信号変形部118及びモデル更新部119は、プロセッサ153が記憶装置151に記憶されたプログラム及びデータをメモリ152に展開して、そのプログラムを実行することで、実現することができる。
学習側音源分離モデル記憶部115は、記憶装置151により実現することができる。
学習側入力部111及び学習側通信部120は、通信I/F154により実現することができる。
以上のようなプログラムは、ネットワークを通じて提供されてもよく、また、記録媒体に記録されて提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。
なお、音源分離モデル学習装置110は、上記のようにプログラムで実現されてもよいし、音源分離モデル学習装置110で実行される機能毎に回路を構成して、それら回路を結合して実現されてもよい。
言い換えると、音源分離モデル学習装置110は、処理回路網により実現することもできる。
図5は、音源分離装置130の構成を概略的に示すブロック図である。
音源分離装置130は、活用側通信部131と、活用側音源分離モデル記憶部132と、活用側入力部133と、活用側信号処理部134と、活用側特徴量抽出部135と、活用側モデル推論部136と、活用側信号抽出部137と、活用側出力部138とを備える。
活用側通信部131は、音源分離モデル学習装置110と通信を行う。例えば、活用側通信部131は、音源分離モデル学習装置110から活用側音源分離モデルを受け取り、その活用側音源分離モデルを活用側音源分離モデル記憶部132に記憶させる。
活用側音源分離モデル記憶部132は、活用側音源分離モデルを記憶する。
活用側入力部133は、対象混合信号の入力を受け付ける。入力された対象混合信号は、活用側信号処理部134に与えられる。
対象混合信号は、音源分離装置130に予め記憶されていてもよく、後述するマイク等の音響装置で取得されてもよいし、通信I/Fを介して電話回線等から取得されてもよい。このような場合には、活用側入力部133を省略することもできる。
活用側信号処理部134は、複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成する。
例えば、活用側信号処理部134は、活用側入力部133から与えられる対象混合信号に対して、目的音を取り出しやすくするため、種々の信号処理を適用した結果得られる処理済対象混合信号を生成する。ここで行われる処理は、音源分離モデル学習装置110の学習側信号処理部113で行われる処理と同じである。処理済対象混合信号は、活用側特徴量抽出部135に与えられる。
活用側特徴量抽出部135は、活用側信号処理部134から与えられる処理済対象混合信号から、音響特徴量を抽出して、抽出された音響特徴量の時系列データである活用特徴データを生成する。
例えば、活用側特徴量抽出部135は、処理済対象混合信号から、予め定められた音響特徴量である活用音響特徴量を複数の成分において抽出することで、その抽出された活用音響特徴量の時系列データである活用特徴データを生成する。
ここで行われる処理は、音源分離モデル学習装置110の学習側特徴量抽出部114で行われる処理と同じである。活用特徴データは、活用側モデル推論部136に与えられる。
活用側モデル推論部136は、活用側特徴量抽出部135から与えられる活用特徴データから、音源分離を行うために必要となる分離用特徴量である活用分離用特徴量を、活用側音源分離モデルを用いて抽出する。ここで行われる処理は、音源分離モデル学習装置110の学習側モデル推論部116で行われる処理と同じである。
そして、活用側モデル推論部136は、抽出された活用分離用特徴量の時系列データであるマスクを、活用マスクとして活用側信号抽出部137に与える。
言い換えると、活用側モデル推論部136は、複数の処理済目的音を抽出するために、活用特徴データの複数の成分の各々に対する重みを示す活用側音源分離モデルを用いて、活用特徴データから一つの処理済目的音を抽出するための活用マスクを、目的音毎に生成する。このため、複数の目的音の各々に各々が対応する複数の活用マスクが生成される。
活用側信号抽出部137は、活用側特徴量抽出部135で抽出された音響特徴量の時系列データである活用特徴データと、活用側モデル推論部136で推定された活用分離用特徴量の時系列データである活用マスクとを用いて、取り出したい音響信号を抽出する。
例えば、活用側信号抽出部137は、活用マスクを用いて、活用特徴データから音を抽出することで、抽出された音を少なくとも示す活用抽出信号を生成する。
ここで行われる処理は、音源分離モデル学習装置110の学習側信号抽出部117で行われる処理と同じである。そして、活用側信号抽出部137は、抽出された音響信号である活用抽出信号を出力信号として活用側出力部138に与える。
活用側出力部138は、活用側信号抽出部137から与えられた出力信号を出力する。
なお、活用側特徴量抽出部135と、活用側信号抽出部137とについては、例えば、その一方又は両方を備えない構成としてもよい。例えば、活用側特徴量抽出部135及び活用側信号抽出部137の両方を含まない場合、活用側モデル推論部136は、活用側信号処理部134から出力された処理済対象混合信号を処理して、分離音の信号を直接出力するように機能する。言い換えると、活用側モデル推論部136は、活用側信号処理部134から与えられる処理済対象混合信号で示される複数の処理済目的音を抽出するための活用側音源分離モデルを用いて、処理済対象混合信号から音を抽出することで、抽出された音を示す活用抽出信号を生成する。
図6は、音源分離装置130のハードウェア構成を概略的に示すブロック図である。
音源分離装置130は、記憶装置161と、メモリ162と、プロセッサ163と、通信I/F164と、音響インタフェース(以下、音響I/Fという)165とを備えるコンピュータ160により構成することができる。
記憶装置161は、音源分離装置130で行う処理に必要なプログラム及びデータを記憶する。
メモリ162は、プロセッサ163が作業を行う作業領域を提供する。
プロセッサ163は、記憶装置161に記憶されたプログラム及びデータを、メモリ162に展開して、処理を実行する。
通信I/F164は、音源分離モデル学習装置110と通信を行う。
音響I/F165は、対象混合信号の入力を受け付ける。対象混合信号は、目的音を含む音を集音して対象音号信号を生成する音響装置で生成されればよい。
例えば、活用側信号処理部134、活用側特徴量抽出部135、活用側モデル推論部136、活用側信号抽出部137及び活用側出力部138は、プロセッサ163が記憶装置161に記憶されたプログラム及びデータをメモリ162に展開して、そのプログラムを実行することで、実現することができる。
活用側音源分離モデル記憶部132は、記憶装置161により実現することができる。
活用側入力部133は、音響I/F165により実現することができる。
活用側通信部131は、通信I/F154により実現することができる。
以上のようなプログラムは、ネットワークを通じて提供されてもよく、また、記録媒体に記録されて提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。
なお、音源分離装置130は、上記のようにプログラムで実現してもよいし、音源分離装置130で実行される機能毎に回路を構成して、それら回路を結合して実現されてもよい。
言い換えると、音源分離装置130は、処理回路網により実現することもできる。
次に、動作について説明する。最初に、音源分離モデル学習装置110の動作について説明する。
図7は、音源分離モデル学習装置110の動作を示すフローチャートである。
まず、混合信号生成部112が、学習用信号から学習に用いる混合信号である学習用混合信号を作成する(S10)。学習用混合信号は、音源分離装置130の活用側信号処理部134へ入力される活用混合信号を模擬して作成される。学習用混合信号は、例えば、学習用信号としての複数の目的音の信号及び非目的音の信号を単純に加算することで生成されてもよい。また、学習用混合信号は、マイクロホンアレイによる収録を模擬するため、学習用信号から取得された信号のそれぞれに対して、マイクロホンアレイのインパルス応答を畳み込む処理を実施した後、出力された信号を加算することで生成されてもよい。
次に、学習側信号処理部113は、混合信号生成部112から与えられた学習用混合信号に対して、各種の信号処理を適用する(S11)。ここでの処理内容は、音源分離装置130の活用側信号処理部134での処理内容と同一である。
次に、信号変形部118は、学習用信号から得られた目的音を、学習側信号処理部113から与えられる処理済学習用混合信号に含まれている目的音を模した形へと変換することで、目的音毎に変形目的音信号を生成する(S12)。ステップS12での処理の詳細は、後述する。
次に、学習側特徴量抽出部114は、学習側信号処理部113より与えられる処理済学習用混合信号から音響特徴量である学習用音響特徴量を抽出して、時系列データとすることで学習用特徴データを生成する(S13)。音響特徴量として、例えば、活用側信号処理部134からの処理済学習用混合信号に対してFFTを適用することによって得られる複素スペクトルが用いられる。ここでの処理内容は、音源分離装置130の活用側特徴量抽出部135での処理内容と同一である。
次に、学習側モデル推論部116は、学習用音源分離モデルを用いて、学習側特徴量抽出部114にて抽出された音響特徴量から、各音源信号を分離合成するために必要となる分離用特徴量である学習分離用特徴量を抽出し、その学習分離用特徴量の時系列データであるマスクを生成する(S15)。マスクは、音源信号毎、言い換えると、目的音毎に生成される。ここでの処理内容は、音源分離装置130の活用側モデル推論部136での処理内容と同一である。
次に、学習側信号抽出部117は、学習側特徴量抽出部114にて抽出された音響特徴量と、学習側モデル推論部116にて抽出された学習用分離用特徴量とを用いて、学習用混合信号の中に含まれる目的音を処理した音の信号である学習用抽出信号を抽出する(S15)。例えば、学習側信号抽出部117は、学習分離用特徴量と、学習用音響特徴量とを成分毎に積演算した後に、逆フーリエ変換の処理を施すことによって、取り出したい目的音に由来する音を抽出した信号である学習用抽出信号を、目的音毎に復元する。ここでの処理内容は、音源分離装置130の学習側信号抽出部117での処理内容と同一である。
次に、モデル更新部119は、信号変形部118より与えられる複数の変形目的音信号と、学習側信号抽出部117より与えられる複数の学習用抽出信号との誤差を計算した後、その誤差を修正するように、学習用音源分離モデルの備える重みパラメタを更新する(S16)。
続けて、信号変形部118の動作について説明する。
図8は、実施の形態1における信号変形部118の動作を示すフローチャートである。
まず、混合信号ブロック分割部118aが、学習側信号処理部113から与えられた処理済学習用混合信号を、時間軸上で1つ以上のブロックに分割することで混合ブロック信号を生成する(S20)。
次に、学習用信号ブロック分割部118bは、学習側入力部111から与えられた学習用信号を、時間軸上で1つ以上のブロックに分割することで、目的音ブロック信号を生成する(S21)。学習用信号ブロック分割部118bにおける信号の分割方法は、ステップS20において混合信号ブロック分割部118aが行う分割方法と同一である。
次に、フィルタ推定部118cは、フィルタを推定する(S22)。
ここでは、処理済学習用混合信号及び学習用信号が全て単一チャネルの音響信号であり、混合信号生成部112が学習用信号としてn個の目的音を示す信号を取得して混合信号を作成した場合を例に説明する。ここで、nは、1以上の整数である。
混合信号ブロック分割部118aから取得した混合ブロック信号をy(t)とする。ここで、tは、t=0,・・・,T-1(Tは2以上の整数)を満たす整数とする。
また、学習用信号ブロック分割部118bから取得したi番目の目的音の目的音ブロック信号をs(t)とする。ここで、iは、1≦i≦nを満たす整数である。
さらに、フィルタ推定部118cで計算されるフィルタが長さLのFIRフィルタである場合において、i番目の目的音におけるFIRフィルタの係数を、h(τ)とする。ここで、τは、τ=0,・・・,L-1を満たす整数とする。
このとき、混合ブロック信号y(t)は、以下の(1)式で近似される。
Figure 0007138824000001
ここで、(1)式の近似が二乗誤差規範でもっともよく成り立つ場合について考える。
すなわち、h(τ)が、下記の(2)式の誤差関数を最小にする場合について考える。
Figure 0007138824000002
このようなh(τ)を求めるための手段として、まず、下記の(3)式に示されている行列S∈R((T-L+1)×L)を定義する。
Figure 0007138824000003
このとき、(2)式は、下記の(4)式で示す行列形式で表現することができる。
Figure 0007138824000004
ここで、yは下記の(5)式、hは下記の(6)式、Sは下記の(7)式、hは、下記の(8)式で表せる。
Figure 0007138824000005
Figure 0007138824000006
Figure 0007138824000007
Figure 0007138824000008
このとき、yを最小二乗誤差規範で最も良く近似するフィルタhは、下記の(9)式で示される最適化問題の解となる。
Figure 0007138824000009
そして、(9)式の最適化問題の解は、下記の(10)式で示される。
Figure 0007138824000010
このような手順により、y(t)をよく近似するFIRフィルタの係数h(t)が求められる。
なお、行列SSは、しばしば条件数が大きく、数値安定的に最適化問題の解を得られない可能性がある。このため、下記の(11)式に示されているように、修正した最適化問題が解かれてもよい。
Figure 0007138824000011
(11)式で示される最適化問題の解は、下記の(12)式で示される。
Figure 0007138824000012
ここで、λは、任意に定めるハイパーパラメタであり、INLは、サイズNLの単位行列である。
行列SSと、SS+λINLとを比較すると、後者の方はより条件数が小さく、安定的に逆行列を計算することができる。
なお、上記ではy(t)及びs(τ)は、学習用信号及び処理済学習用混合信号が、例えば、1つのマイクロホンのような単一の音響装置から取得された信号のように単一チャネルの信号であることを仮定していたが、実施の形態1はこのような例に限定されない。
例えば、学習用信号及び処理済学習用混合信号が、複数のマイクロホンを備えたマイクロホンアレイを用いて取得された多チャネルの信号であってもよい。この場合、フィルタ推定部118cが、多チャネルの目的音ブロック信号を受け取った場合には、代表的なチャネルの目的音ブロック信号を選択して、上記のフィルタ係数の計算を行えばよい。また、フィルタ推定部118cが、多チャンネルの混合ブロック信号を受け取った場合でも、代表的な混合ブロック信号を選択して、上記のフィルタ係数の計算を行えば良い。
次に、フィルタ適用部118dは、ステップS22でブロック毎に推定されたフィルタを、ステップS20で生成された目的音ブロック信号に適用することで、変形ブロック信号を生成する(S23)。
最後に、ブロック結合部118eは、ブロック毎に分割された状態の変形ブロック信号を接合して、変形目的音信号を生成する(S24)。
図9は、音源分離装置130の動作を示すフローチャートである。
まず、活用側信号処理部134が、入力された対象混合信号に対し、各種の信号処理を適用して処理済対象混合信号を生成する(S30)。
次に、活用側特徴量抽出部135は、活用側信号処理部134から与えられる処理済対象混合信号から音響特徴量を抽出し、抽出された音響特徴量の時系列データである活用特徴データを生成する(S31)。
次に、活用側モデル推論部136は、活用音源分離モデルを用いて、活用側特徴量抽出部135にて抽出された音響特徴量から、各音源信号を分離合成するために必要となる分離用特徴量の時系列データである活用マスクを、目的音毎に生成する(S32)。
次に、活用側信号抽出部137が、活用側特徴量抽出部135にて抽出された活用音響特徴量と、活用側モデル推論部136にて抽出された分離用特徴量とを用いて、対象混合信号の中に含まれる目的音の信号である出力信号を、目的音毎に生成する(S33)。
次に、音源分離モデル学習装置110の動作例について述べる。
図10は、音源分離モデル学習装置110の動作を示す概念図である。
第1の信号170は、学習用信号から取得された第1の目的音を示す信号、第2の信号171は、学習用信号から取得された第2の目的音を示す信号であり、第3の信号172は、学習用信号から取得された非目的音を示す信号である。
混合信号生成部112は、例えば、第1の信号170、第2の信号171及び第3の信号172を単純加算することで、疑似的な学習用混合信号173を作成する。
学習用混合信号173には、第1の信号170に由来する第1の成分170#1、第2の信号171に由来する第2の成分171#1、及び、第3の信号172に由来する第3の成分172#1が含まれる。
学習用混合信号173が学習側信号処理部113を通過することで、処理済学習用混合信号173#が得られる。この際、第1の目的音に由来する第1の成分170#1は、第4の成分170#2のように、第2の目的音に由来する第2の成分171#1は、第5の成分171#2のように、非目的音に由来する第3の成分172#1は、第6の成分172#2のように、処理済学習用混合信号173#の中で現れる。
処理済学習用混合信号173#に対して、第1の目的音及び第2の目的音に対応する音を抽出するために、学習側特徴量抽出部114、学習側モデル推論部116及び学習側信号抽出部117での処理を適用することで、第1の目的音に対応する第1の学習用抽出信号174及び第2の目的音に対応する第2の学習用抽出信号175が得られる。
さらに、信号変形部118は、第1の信号170及び第2の信号171と、処理済学習用混合信号173#とにより、第1の信号170を第4の成分170#2へ変化させるフィルタ及び第2の信号171を第5の成分171#2へ変化させるフィルタを推定する。そして、信号変形部118は、第1の信号170及び第2の信号171にそれぞれのフィルタを適用して、第1の変形目的音信号176及び第2の変形目的音信号177を生成する。
モデル更新部119は、第1の学習用抽出信号174及び第2の学習用抽出信号175の組が、第1の変形目的音信号176及び第2の変形目的音信号177の組に近づくよう、学習用音源分離モデルのパラメタを更新する。
次に、音源分離モデル学習装置110により学習された音源分離モデルを用いる際の、音源分離装置130の動作例について述べる。
図11(A)及び(B)は、音源分離装置130の動作例を説明するための概略図である。
図11(A)は、音源分離装置130により、入力された対象混合信号の波形がどのように変化するかを示す概念図である。
図11(A)に示されている対象混合信号180には、第1の目的音に由来する第1の成分181、第2の目的音に由来する第2の成分182、及び、非目的音に由来する第3の成分183が含まれる。
対象混合信号180が活用側信号処理部134を通過すると、処理済対象混合信号180#が得られる。処理済対象混合信号180#には、第1の成分181に由来する第4の成分181#、第2の成分に由来する第5の成分182#、及び、第3の成分183に由来する第6の成分183#が含まれる。
活用側信号処理部134では、非目的音を抑圧する処理が行われることから、非目的音に由来する第3の成分183と比較して、第6の成分183#の音量が下がっている。また、第1の目的音に由来する第1の成分181及び第2の目的音に由来する第2の成分182と比較して、第4の成分181#及び第5の成分182#は、強調されている。さらに、第4の成分181#及び第5の成分182#は、信号処理に伴って、音量及び波形の形状(周波数特性)等が変化しているほか、活用側信号処理部134にて生じる遅延に伴い、対象混合信号180と、処理済対象混合信号180#との間で時刻の同期がずれた状態となる。
処理済対象混合信号180#に対して、活用側特徴量抽出部135、活用側モデル推論部136及び活用側信号抽出部137での処理を適用することにより、第1の出力信号184及び第2の出力信号185が得られる。第1の出力信号184は、第1の目的音に対応する成分を、第2の出力信号185は、第2の目的音に対応する成分を、それぞれ抽出したものである。
図11(B)は、対象混合信号180とは異なる対象混合信号186に対し、同様の信号処理を適用した場合について示した概念図である。
処理済対象混合信号180#と、処理済対象混合信号186#とを比較すると、波形の変化及び音量の変化が異なっている。このため、第1の出力信号187及び第2の出力信号188の波形及び音量も、第1の出力信号184及び第2の出力信号185とは異なっている。
このように、活用側信号処理部134へ入力される対象混合信号の特徴、活用側信号処理部134の処理内容の変化等によって、処理済対象混合信号の特徴にも変動があり、信号処理後の状態を考慮して生成された学習モデルを用いることで、音源を精度よく分離できる。
なお、音源分離モデル学習装置110において、学習側信号処理部113を省略し、信号変形部118において学習用信号の変形を行わない構成とする場合を考えることができる。このような音源分離モデル学習装置及び学習方法は、従来から知られている。
この場合、学習側モデル推論部116は、図10に示されている学習用混合信号173より抽出された特徴量から、第1の目的音の第1の信号170及び第2の目的音の第2の信号171を分離するための分離用特徴量が得られるように学習を行う。
しかしながら、音源分離装置130を動作させる場合、図11(A)に示されているように、活用側モデル推論部136には処理済対象混合信号180#より抽出された特徴量が入力される。
学習用混合信号173から抽出される特徴量と、処理済対象混合信号180#から抽出される特徴量では、種々の特性が異なっている。音源分離モデルは、処理済対象混合信号180#から抽出される特徴量が入力されることを前提に学習されていないため、分離性能の悪化が生じる。
また、音源分離モデル学習装置110において、学習側信号処理部113を省略しないものの、信号変形部118において学習用信号の変形を行わない構成をとることも考えられる。
この場合、学習側モデル推論部116は、処理済学習用混合信号173#より抽出された特徴量から、第1の目的音の第1の信号170及び第2の目的音の第2の信号171を分離するための分離用特徴量が得られるように学習される。そして、学習側モデル推論部116は、処理済学習用混合信号173#から抽出される特徴量が入力されることを前提として音源分離モデルを学習させるため、上記で述べたような問題を解決できる。
しかしながら、図11(A)に示されている、理済対象混合信号180#に含まれる第4の成分181#及び第5の成分182#と、図10に示されている象混合信号180に含まれている第1の成分181及び第2の成分182とでは、音量、周波数特性及び遅延等の特性が異なっている。
このため、音源分離モデルは、このような多様な特性の変化を打ち消して元の信号を出力するように学習される。しかし、上述のように、このような特性の変化は、どのような信号が活用側信号処理部134に入力されるかによって、又は、時間が経過するにつれて、変化するものである。そのような多様な特性変化を吸収できるように音源分離モデルを学習させることは難しい。
音源分離モデル学習装置110において、学習側信号処理部113と、信号変形部118とを共に機能させ、音源分離モデルが第1の変形目的音信号176及び第2の変形目的音信号177を分離するための特徴量を出力するように学習させることで、音源分離モデルは特性変化を加味した結果を出力するように学習すればよくなる。
信号変形部118において学習用信号の変形を行わない構成の場合には、特性変化を打ち消して元に戻した結果を出力するように音源分離モデルを学習させる必要があったところ、このような条件とすることで、特性変化を打ち消した結果を出力するように学習させる必要がなくなるため、学習が簡単になり、結果として音源分離出力の品質が向上する。
図12は、音源分離装置130の利用例を示す概略図である。
図12は、車両190に設置されたマイクロホン191A、191B、191Cにおいて、運転席話者192が発する音声、助手席話者193が発する音声、及び、車両走行音又はカーステレオ等から発せられる騒音194が同時に観測される状況を表している。このとき、音源分離装置130を用いて、運転席話者192の発した音声と、助手席話者193の発した音声とを、それぞれ取り出す場合について説明する。
運転席話者192の発した音声が、図11(A)に示されている第1の目的音の第1の成分181に、助手席話者193の発した音声が、第2の目的音の第2の成分182に、各種騒音194が、非目的音の第3の成分183に相当する。また、マイクロホン191A、191B、191Cで収録された信号が、対象混合信号180に相当する。
音源分離装置130において、活用側信号処理部134の出力する処理済対象混合信号180#では、騒音194に相当する第6の成分183#が抑圧されている。
活用側音源分離モデルを適用後、活用側信号抽出部137において抽出された結果が、第1の出力信号184及び第2の出力信号185に対応する。これらの信号では、運転席及び助手席の各音声が強調されている。
活用側音源分離モデルは、音源分離モデル学習装置110によって、運転席側と助手席側の話者のそれぞれの音声について、騒音194を抑制するような信号処理を行った際の変形された第1の変形目的音信号176及び第2の変形目的音信号177を考慮して生成されているため、実際に運転席の音声、助手席の音声及び騒音194が混合した状態から、運転席と助手席とに座った2人の話者の音声を適切に分離することができる。
また、車両内に限らず、会議中の録音記憶から出席者の発言を取り出す場合であっても、音源分離モデル学習装置で出席者の音声について学習して音源分離モデルを生成すれば、会議と関係ない周辺の雑音を除去する信号処理を行った上で当該音源分離モデルを用いれば、各出席者の音声を分離することができる。
以上のように、実施の形態1によれば、音源分離装置130が音源分離モデルを用いて音源分離を実施する際に、活用側信号処理部134に伴って生じる音響的特性の変化に音源分離モデルが対応し、この結果として音源分離装置130から出力される分離音の品質が向上する。
また、混合信号ブロック分割部118a、学習用信号ブロック分割部118b及びブロック結合部118eを設けることによる効果として、ブロック毎に異なるフィルタのパラメタを出力することにより、時系列的な変化に対応できるようになる。
実施の形態2.
実施の形態1では、混合信号ブロック分割部118a及び学習用信号ブロック分割部118bで分割したブロック毎に、フィルタ推定部118cがフィルタを推定している。実施の形態2では、ブロック毎ではなく、1つのブロック内の時刻毎に異なるフィルタを推定する、言い換えると、フィルタを逐次的に更新することによって、ブロック内の時系列的な変化に対応できるようにする。
図1に示されているように、実施の形態2に係る音源分離システム200は、音源分離モデル学習装置210と、音源分離装置130とを備える。
実施の形態2における音源分離装置130は、実施の形態1における音源分離装置130と同様である。
図2に示されているように、実施の形態2における音源分離モデル学習装置210は、学習側入力部111と、混合信号生成部112と、学習側信号処理部113と、学習側特徴量抽出部114と、学習側音源分離モデル記憶部115と、学習側モデル推論部116と、学習側信号抽出部117と、信号変形部218と、モデル更新部119と、学習側通信部120とを備える。
実施の形態2における学習側入力部111、混合信号生成部112、学習側信号処理部113、学習側特徴量抽出部114、学習側音源分離モデル記憶部115、学習側モデル推論部116、学習側信号抽出部117、モデル更新部119及び学習側通信部120は、実施の形態1における学習側入力部111、混合信号生成部112、学習側信号処理部113、学習側特徴量抽出部114、学習側音源分離モデル記憶部115、学習側モデル推論部116、学習側信号抽出部117、モデル更新部119及び学習側通信部120と同様である。
図13は、実施の形態2における信号変形部218の構成を概略的に示すブロック図である。
信号変形部218は、混合信号ブロック分割部118aと、学習用信号ブロック分割部118bと、フィルタ適用部218dと、ブロック結合部118eと、フィルタパラメタ記憶部218fと、フィルタ更新部218gとを備える。
実施の形態2における混合信号ブロック分割部118a、学習用信号ブロック分割部118b及びブロック結合部118eは、実施の形態1における混合信号ブロック分割部118a、学習用信号ブロック分割部118b及びブロック結合部118eと同様である。
フィルタパラメタ記憶部218fは、フィルタ適用部218dで使用するフィルタパラメタを記憶する。
例えば、フィルタパラメタ記憶部218fは、予め定められた期間に対応するサンプル毎にフィルタパラメタを記憶する。
フィルタ適用部218dは、複数の目的音ブロック信号に対して、フィルタパラメタ記憶部218fに記憶されているフィルタパラメタを適用することで、フィルタパラメタの対応する時刻における処理済サンプル信号を生成する。処理済サンプル信号は、フィルタ更新部218gに与えられる。言い換えると、フィルタ適用部218dは、サンプル毎に、複数の目的音ブロック信号から選択された部分にフィルタパラメタを適用することで処理済みサンプル信号を生成する。
また、フィルタ適用部218dは、生成された処理済サンプル信号を、複数の目的音ブロック信号の各々で結合することで、複数の変形ブロック信号を生成する。複数の変形ブロック信号は、ブロック結合部118eに与えられる。
フィルタ更新部218gは、フィルタ適用部218dから与えられる処理済サンプル信号を、処理済学習用混合信号の対応する部分に近づけるように、フィルタパラメタ記憶部218fに記憶されているフィルタパラメタを更新する。
図14は、実施の形態2における信号変形部218の動作を示すフローチャートである。
なお、図14に示されているフローチャートに含まれているステップの内、図8に示されているフローチャートに含まれているステップの処理と同様の処理を行うステップには、図8に示されているフローチャートに含まれているステップと同じ符号を付している。
図14に示されているフローチャートに含まれているステップS20及びS21での処理は、図8に示されているフローチャートに含まれているステップS20及びS21での処理と同様である。但し、図14においては、ステップS21の処理の後は、処理はステップS40に進む。
ステップS40では、フィルタ適用部218dは、学習用信号ブロック分割部118bから受け取った複数の目的音ブロック信号から、未選択の1つの目的音ブロック信号を選択する。
次に、フィルタ更新部218gは、フィルタパラメタの初期値を決定して、その初期値をフィルタパラメタ記憶部218fに記憶する(S41)。フィルタ適用部218dで使用されるフィルタがFIRフィルタである場合、フィルタ更新部218gは、例えば、図8に示されているフローチャートのステップS22での処理と同様の処理を行うことで、フィルタパラメタの初期値を推定すればよい。
次に、フィルタ適用部218dは、ステップS40で選択された目的音ブロック信号の内、処理済サンプル信号が未だ生成されていないサンプルの中で先頭に位置するサンプルを選択する(S42)。
次に、フィルタ適用部218dは、フィルタパラメタ記憶部218fに記憶されているフィルタパラメタを読み出して、読み出されたフィルタパラメタを、目的音ブロック信号の内の選択されたサンプルに対応する部分に適用することで、処理済サンプル信号を生成する(S43)。生成された処理済サンプル信号は、フィルタ更新部218gに与えられる。
次に、フィルタ更新部218gは、フィルタ適用部218dからの処理済サンプル信号、混合信号ブロック分割部118aからの混合ブロック信号、及び、学習用信号ブロック分割部118bからの目的音ブロック信号を用いて、フィルタパラメタ記憶部218fに記憶されているフィルタパラメタを更新する(S44)。例えば、フィルタがFIRフィルタである場合、フィルタパラメタの更新方法として、公知のNLMS(Normalized Least Mean Square)アルゴリズム、又は、RLS(Recursive Least Square)アルゴリズム等が使用できる。なお、フィルタ更新部218gが更新を行なう際に、フィルタ適用部218dでの処理が必要となる場合がある。
次に、フィルタ適用部218dは、選択された目的音ブロック信号に含まれている全てのサンプルから処理済サンプル信号を生成したか否かを判断する(S45)。全てのサンプルから処理済サンプル信号が生成されている場合(S45でYes)には、処理はステップS46に進み、処理済サンプル信号が生成されていないサンプルが残っている場合(S45でNo)には、処理はステップS42に戻る。
ステップS46では、フィルタ適用部218dは、サンプル毎に生成された処理済みサンプル信号を連結することで変形ブロック信号を生成する。変形ブロック信号は、ブロック結合部118eに与えられる。
次に、フィルタ適用部218dは、学習用信号ブロック分割部118bから与えられた全ての目的音ブロック信号を選択したか否かを判断する(S47)。全ての目的音ブロック信号を選択した場合(S47でYes)には、処理はステップS24に進み、未だ選択していない目的音ブロック信号が残っている場合(S47でNo)には、処理はステップS40に戻る。
そして、ブロック結合部118eは、図8のステップS24での処理と同様に、ブロック毎に分割された状態の変形ブロック信号を接合して、変形目的音信号を生成する(S24)。
以上のように、実施の形態2によれは、フィルタが逐次的に更新されるため、学習側信号処理部113及び活用側信号処理部134が適応的な処理を行う場合でも、学習側信号処理部113及び活用側信号処理部134の時系列的な変化に対応することができる。
なお、実施の形態2では、フィルタ更新部218g及びフィルタ適用部218dが1サンプル毎にフィルタを更新し、変形ブロック信号を生成しているため、混合信号ブロック分割部118a、学習用信号ブロック分割部118b及びブロック結合部118eは、設けられていなくてもよい。
このような場合には、フィルタ適用部218dは、抽出すべき目的音を示す信号に対し、フィルタパラメタ記憶部218fに記憶されているフィルタパラメタを適用することで、各々のフィルタパラメタが対応する時刻における処理済サンプル信号を生成する。
フィルタ更新部218gは、処理済サンプル信号を、処理済学習用混合信号の対応する部分に近づけるように、フィルタパラメタを更新する。
そして、フィルタ適用部218dは、生成された処理済みサンプル信号を結合することで、変形目的音信号を生成する。
一方で、混合信号ブロック分割部118a、学習用信号ブロック分割部118b及びブロック結合部118eを設けることで、ブロック単位でフィルタ適用処理を並列に行って処理速度を向上させたり、ブロック単位でフィルタパラメタの候補グループを作成して、1サンプル毎のパラメタ抽出時にそのグループからパラメタを探索することで、パラメタ抽出速度を向上させたりすることができる。
例えば、FIRフィルタが使用される場合、フィルタを推定するためには,ブロック分割時に各ブロックの長さをフィルタの長さよりも長く設定する必要がある。このため、実施の形態1のように、ブロック毎にフィルタを推定する場合は、学習側信号処理部113及び活用側信号処理部134の時系列的な変化に、少なくともFIRフィルタの長さの時間単位でなければ追従できない。一方で、実施の形態2のように、サンプル毎にフィルタを推定することで、学習側信号処理部113及び活用側信号処理部134の時系列的な変化に、サンプル毎の時間単位で、より細かく追従することができる。
また、実施の形態2のように、フィルタパラメタ記憶部218fを備えることで、フィルタ更新部218gは、直前のフィルタ推定結果をフィルタパラメタ記憶部218fに保持しておいた上で、新たにサンプルが得られた際に、フィルタパラメタ記憶部218fに記録されているフィルタパラメタを、選択されたサンプルに応じ少しだけ変形させてから適用することができる。
以上に記載された音源分離モデル学習装置110、210は、NNに基づく音源分離手法と、古典的な信号処理、機械学習を用いた処理又は未知の信号処理等に基づく信号処理手法を組み合わせた音源分離装置130を構成する際において、音源分離モデルの学習を促進し、音源分離性能を向上させる効果を有する。このため、例えば、騒音環境下で音声を認識させる装置において、古典的信号処理と、NNに基づく音源分離とを組み合わせて目的話者の発話音声を取り出すために使用することができる。なお、未知の信号処理には、古典的な信号処理又は機械学習を用いた処理が含まれてもよい。
以上に記載された実施の形態1及び2は、音源分離モデル学習装置110、210及び音源分離装置130の二つの装置で構成されているが、実施の形態1及び2は、このような例に限定されない。例えば、音源分離モデル学習装置110、210及び音源分離装置130が一つの装置、例えば、一つの音源分離学習装置で構成されていてもよい。このような場合には、学習側通信部120及び活用側通信部131は、不要であり、学習側音源分離モデル記憶部115及び活用側音源分離モデル記憶部132は、音源分離モデルを記憶する音源分離モデル記憶部として統合することができる。
100,200 音源分離システム、 110,210 音源分離モデル学習装置、 111 学習側入力部、 112 混合信号生成部、 113 学習側信号処理部、 114 学習側特徴量抽出部、 115 学習側音源分離モデル記憶部、 116 学習側モデル推論部、 117 学習側信号抽出部、 118,218 信号変形部、 118a 混合信号ブロック分割部、 118b 学習用信号ブロック分割部、 118c フィルタ推定部、 118d,218d フィルタ適用部、 118e ブロック結合部、 218f フィルタパラメタ記憶部、 218g フィルタ更新部、 119 モデル更新部、 120 学習側通信部、 130 音源分離装置、 131 活用側通信部、 132 活用側音源分離モデル記憶部、 133 活用側入力部、 134 活用側信号処理部、 135 活用側特徴量抽出部、 136 活用側モデル推論部、 137 活用側信号抽出部、 138 活用側出力部。

Claims (19)

  1. 複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成する学習側信号処理部と、
    前記複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成する学習側モデル推論部と、
    前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成する信号変形部と、
    前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新するモデル更新部と、を備えること
    を特徴とする音源分離モデル学習装置。
  2. 複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成する学習側信号処理部と、
    前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成する学習側特徴量抽出部と、
    前記複数の処理済目的音を抽出するために前記複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成する学習側モデル推論部と、
    前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成する学習側信号抽出部と、
    前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成する信号変形部と、
    前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新するモデル更新部と、を備えること
    を特徴とする音源分離モデル学習装置。
  3. 前記予め定められた処理は、前記複数の目的音を抽出しやすくする処理であること
    を特徴とする請求項1又は2に記載の音源分離モデル学習装置。
  4. 前記予め定められた処理は、前記複数の目的音を強調する処理であること
    を特徴とする請求項1から3の何れか一項に記載の音源分離モデル学習装置。
  5. 前記信号変形部は、
    前記一つの目的音を前記一つの処理済目的音に近づけるためのフィルタを推定するフィルタ推定部と、
    前記一つの目的音を示す信号に前記フィルタを適用することで、前記変形目的音信号を生成するフィルタ適用部と、を備えること
    を特徴とする請求項1から4の何れか一項に記載の音源分離モデル学習装置。
  6. 前記信号変形部は、
    前記処理済学習用混合信号を複数のブロックに分割することで、複数の混合ブロック信号を生成する第1のブロック分割部と、
    前記一つの目的音を示す信号を複数のブロックに分割することで、複数の目的音ブロック信号を生成する第2のブロック分割部と、
    前記複数の目的音ブロック信号の各々で示される音を、前記複数の混合ブロック信号で示される音の内、前記一つの目的音に対応する音に近づけるためのフィルタを推定することで、複数のフィルタを推定するフィルタ推定部と、
    前記複数の目的音ブロック信号の各々に、前記複数のフィルタの各々を適用することで、複数の変形ブロック信号を生成するフィルタ適用部と、
    前記複数の変形ブロック信号を結合することで、前記変形目的音信号を生成するブロック結合部と、を備えること
    を特徴とする請求項1から4の何れか一項に記載の音源分離モデル学習装置。
  7. 前記信号変形部は、
    予め定められた期間に対応するサンプル毎にフィルタパラメタを記憶するフィルタパラメタ記憶部と、
    前記サンプル毎に、前記一つの目的音を示す信号から選択された部分に前記フィルタパラメタを適用することで、処理済サンプル信号を生成するとともに、前記処理済みサンプル信号を結合することで前記変形目的音信号を生成するフィルタ適用部と、
    前記処理済サンプル信号を、前記処理済学習用混合信号の対応する部分に近づけるように、前記フィルタパラメタを更新するフィルタ更新部と、を備えること
    を特徴とする請求項1から4の何れか一項に記載の音源分離モデル学習装置。
  8. 前記信号変形部は、
    前記処理済学習用混合信号を複数のブロックに分割することで、複数の混合ブロック信号を生成する第1のブロック分割部と、
    前記一つの目的音を示す信号を複数のブロックに分割することで、複数の目的音ブロック信号を生成する第2のブロック分割部と、
    予め定められた期間に対応するサンプル毎にフィルタパラメタを記憶するフィルタパラメタ記憶部と、
    前記サンプル毎に、前記一つの目的音を示す信号から選択された部分に前記フィルタパラメタを適用することで、処理済サンプル信号を生成するとともに、前記処理済みサンプル信号を、前記複数の目的音ブロック信号の各々で結合することで、複数の変形ブロック信号を生成するフィルタ適用部と、
    前記処理済サンプル信号を、前記処理済学習用混合信号の対応する部分に近づけるように、前記フィルタパラメタを更新するフィルタ更新部と、
    前記複数の変形ブロック信号を結合することで、前記変形目的音信号を生成するブロック結合部と、を備えること
    を特徴とする請求項1から4の何れか一項に記載の音源分離モデル学習装置。
  9. 前記モデル更新部は、前記複数の学習用抽出信号と、前記複数の変形目的音信号との差分が小さくなるように、前記学習側音源分離モデルを更新すること
    を特徴とする請求項1から8の何れか一項に記載の音源分離モデル学習装置。
  10. 複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成する活用側信号処理部と、
    複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するための活用側音源分離モデルを用いて、前記処理済対象混合信号から音を抽出することで、前記処理済対象混合信号から抽出された音を示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成する活用側モデル推論部と、を備えること
    を特徴とする音源分離装置。
  11. 複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成する活用側信号処理部と、
    前記処理済対象混合信号から、予め定められた音響特徴量である活用音響特徴量を複数の成分において抽出することで、前記抽出された活用音響特徴量の時系列データである活用特徴データを生成する活用側特徴量抽出部と、
    複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するために前記学習用特徴データにおける複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記処理済学習用混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成し、前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するために前記活用特徴データにおける複数の成分の各々に対する重みを示す活用側音源分離モデルを用いて、前記活用特徴データから前記処理済対象混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の活用マスクを生成する活用側モデル推論部と、
    前記複数の活用マスクを用いて、前記活用特徴データから音を抽出することで、前記活用特徴データから抽出された音を少なくとも示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成する活用側信号抽出部と、を備えること
    を特徴とする音源分離装置。
  12. コンピュータを、
    複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成する学習側信号処理部、
    前記複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成する学習側モデル推論部、
    前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成する信号変形部、及び、
    前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新するモデル更新部、として機能させること
    を特徴とするプログラム。
  13. コンピュータを、
    複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成する学習側信号処理部、
    前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成する学習側特徴量抽出部、
    前記複数の処理済目的音を抽出するために前記複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成する学習側モデル推論部、
    前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成する学習側信号抽出部、
    前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成する信号変形部、及び、
    前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新するモデル更新部、として機能させること
    を特徴とするプログラム。
  14. コンピュータを、
    複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成する活用側信号処理部、及び、
    複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するための活用側音源分離モデルを用いて、前記処理済対象混合信号から音を抽出することで、前記処理済対象混合信号から抽出された音を示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成する活用側モデル推論部、として機能させること
    を特徴とするプログラム。
  15. コンピュータを、
    複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成する活用側信号処理部、
    前記処理済対象混合信号から、予め定められた音響特徴量である活用音響特徴量を複数の成分において抽出することで、前記抽出された活用音響特徴量の時系列データである活用特徴データを生成する活用側特徴量抽出部、
    複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するために前記学習用特徴データにおける複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記処理済学習用混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成し、前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するために前記活用特徴データにおける複数の成分の各々に対する重みを示す活用側音源分離モデルを用いて、前記活用特徴データから前記処理済対象混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の活用マスクを生成する活用側モデル推論部、及び、
    前記複数の活用マスクを用いて、前記活用特徴データから音を抽出することで、前記活用特徴データから抽出された音を少なくとも示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成する活用側信号抽出部、として機能させること
    を特徴とするプログラム。
  16. 複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、
    前記複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、
    前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、
    前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新すること
    を特徴とする音源分離モデル学習方法。
  17. 複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、
    前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成し、
    前記複数の処理済目的音を抽出するために前記複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成し、
    前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、
    前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、
    前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新すること
    を特徴とする音源分離モデル学習方法。
  18. 複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成し、
    複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するための活用側音源分離モデルを用いて、前記処理済対象混合信号から音を抽出することで、前記処理済対象混合信号から抽出された音を示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成すること
    を特徴とする音源分離方法。
  19. 複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成し、
    前記処理済対象混合信号から、予め定められた音響特徴量である活用音響特徴量を複数の成分において抽出することで、前記抽出された活用音響特徴量の時系列データである活用特徴データを生成し、
    複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するために前記学習用特徴データにおける複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記処理済学習用混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成し、前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するために前記活用特徴データにおける複数の成分の各々に対する重みを示す活用側音源分離モデルを用いて、前記活用特徴データから前記処理済対象混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の活用マスクを生成し、
    前記複数の活用マスクを用いて、前記活用特徴データから音を抽出することで、前記活用特徴データから抽出された音を少なくとも示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成すること
    を特徴とする音源分離方法。
JP2022532167A 2020-06-25 2020-06-25 音源分離モデル学習装置、音源分離装置、プログラム、音源分離モデル学習方法及び音源分離方法 Active JP7138824B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/024930 WO2021260868A1 (ja) 2020-06-25 2020-06-25 音源分離モデル学習装置、音源分離装置、プログラム、音源分離モデル学習方法及び音源分離方法

Publications (2)

Publication Number Publication Date
JPWO2021260868A1 JPWO2021260868A1 (ja) 2021-12-30
JP7138824B2 true JP7138824B2 (ja) 2022-09-16

Family

ID=79282089

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022532167A Active JP7138824B2 (ja) 2020-06-25 2020-06-25 音源分離モデル学習装置、音源分離装置、プログラム、音源分離モデル学習方法及び音源分離方法

Country Status (2)

Country Link
JP (1) JP7138824B2 (ja)
WO (1) WO2021260868A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200051580A1 (en) 2019-07-30 2020-02-13 Lg Electronics Inc. Method and apparatus for sound processing

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200051580A1 (en) 2019-07-30 2020-02-13 Lg Electronics Inc. Method and apparatus for sound processing

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ITO, Nobutaka et al.,"RELAXED DISJOINTNESS BASED CLUSTERING FOR JOINT BLIND SOURCE SEPARATION AND DEREVERBERATION",Proc. of the 2014 14th IWAENC,2014年09月08日,pp.268-272
塩澤光一朗 他,"差分型マイクロホンアレイと2次元スペクトルの機械学習による雑音抑制に関する考察",電子情報通信学会技術研究報告,2019年08月01日,Vol.119, No.163,pp.53-58

Also Published As

Publication number Publication date
WO2021260868A1 (ja) 2021-12-30
JPWO2021260868A1 (ja) 2021-12-30

Similar Documents

Publication Publication Date Title
JP5124014B2 (ja) 信号強調装置、その方法、プログラム及び記録媒体
EP1993320B1 (en) Reverberation removal device, reverberation removal method, reverberation removal program, and recording medium
CN110867181B (zh) 基于scnn和tcnn联合估计的多目标语音增强方法
JP4496186B2 (ja) 音源分離装置、音源分離プログラム及び音源分離方法
JP6584930B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP5127754B2 (ja) 信号処理装置
CN108172231B (zh) 一种基于卡尔曼滤波的去混响方法及***
JP6789455B2 (ja) 音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システム
KR101807961B1 (ko) Lstm 및 심화신경망 기반의 음성 신호 처리 방법 및 장치
JP2005249816A (ja) 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム
CN109979476A (zh) 一种语音去混响的方法及装置
CN112037809A (zh) 基于多特征流结构深度神经网络的残留回声抑制方法
JP6748304B2 (ja) ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム
Doclo et al. Multimicrophone noise reduction using recursive GSVD-based optimal filtering with ANC postprocessing stage
KR20220022286A (ko) 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치
JP5443547B2 (ja) 信号処理装置
KR100647826B1 (ko) 측정된 잡음을 고려한 암묵 반향제거 모델 및 그 유도방법
US20230060081A1 (en) Signal processing device, signal processing method, and program
JP7138824B2 (ja) 音源分離モデル学習装置、音源分離装置、プログラム、音源分離モデル学習方法及び音源分離方法
CN116935879A (zh) 一种基于深度学习的两阶段网络降噪和去混响方法
Ai et al. Reverberation modeling for source-filter-based neural vocoder
JP6961545B2 (ja) 音信号処理装置、音信号処理方法、およびプログラム
JP2012044609A (ja) ステレオ反響消去方法、ステレオ反響消去装置、ステレオ反響消去プログラム
JP6790659B2 (ja) 音響処理装置および音響処理方法
JP2020148880A (ja) 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220530

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20220530

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220621

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220727

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220809

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220906

R150 Certificate of patent or registration of utility model

Ref document number: 7138824

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150