JP7138824B2 - 音源分離モデル学習装置、音源分離装置、プログラム、音源分離モデル学習方法及び音源分離方法 - Google Patents
音源分離モデル学習装置、音源分離装置、プログラム、音源分離モデル学習方法及び音源分離方法 Download PDFInfo
- Publication number
- JP7138824B2 JP7138824B2 JP2022532167A JP2022532167A JP7138824B2 JP 7138824 B2 JP7138824 B2 JP 7138824B2 JP 2022532167 A JP2022532167 A JP 2022532167A JP 2022532167 A JP2022532167 A JP 2022532167A JP 7138824 B2 JP7138824 B2 JP 7138824B2
- Authority
- JP
- Japan
- Prior art keywords
- learning
- target
- processed
- sounds
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000926 separation method Methods 0.000 title claims description 283
- 238000000034 method Methods 0.000 title claims description 45
- 238000012545 processing Methods 0.000 claims description 210
- 238000000605 extraction Methods 0.000 claims description 149
- 230000005236 sound signal Effects 0.000 claims description 76
- 238000012549 training Methods 0.000 claims description 32
- 230000001131 transforming effect Effects 0.000 claims description 30
- 238000013459 approach Methods 0.000 claims description 29
- 230000009466 transformation Effects 0.000 claims description 27
- 239000000284 extract Substances 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 26
- 239000000203 mixture Substances 0.000 claims description 23
- 230000021615 conjugation Effects 0.000 claims 1
- 238000004891 communication Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 22
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 230000015654 memory Effects 0.000 description 9
- 230000008859 change Effects 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 7
- 238000005457 optimization Methods 0.000 description 6
- 230000004044 response Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 241000406668 Loxodonta cyclotis Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成する学習側信号抽出部、
前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成する信号変形部、及び、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新するモデル更新部、として機能させることを特徴とする。
図1は、実施の形態1に係る音源分離システム100の構成を概略的に示すブロック図である。
音源分離システム100は、学習用信号から音源分離モデルを生成する音源分離モデル学習装置110と、対象混合信号の中に含まれる、各音源から発せられた目的音を、音源分離モデルを用いて分離し、その目的音を出力する音源分離装置130とを備える。
音源分離装置130は、その音源分離モデルを用いて、複数の音源から発せられた複数の目的音を含む混合信号から、複数の目的音を抽出する。
音源分離モデル学習装置110は、学習側入力部111と、混合信号生成部112と、学習側信号処理部113と、学習側特徴量抽出部114と、学習側音源分離モデル記憶部115と、学習側モデル推論部116と、学習側信号抽出部117と、信号変形部118と、モデル更新部119と、学習側通信部120とを備える。
学習用信号は、例えば、複数の話者からそれぞれ個別に発せられた音声、複数の楽器からそれぞれ個別に演奏された楽曲、又は、複数の騒音原からそれぞれ個別に発せられた騒音等の目的音及び非目的音を録音したデータの信号を含む。
ここで、学習用混合信号には、2つ以上の目的音が含まれる。また、学習用混合信号には、1つ以上の非目的音が含まれてもよいし、含まれなくてもよい。学習用混合信号は、例えば、学習用信号として取得された2つ以上の信号を単純に加算して得られる信号であってもよい。言い換えると、学習用混合信号は複数の目的音を少なくとも示す信号である。
例えば、学習側信号処理部113は、混合信号生成部112から与えられる学習用混合信号に対して、目的音を取り出しやすくするため、種々の信号処理を適用した結果得られる処理済学習用混合信号を生成する。
具体的には、予め定められた処理は、機械学習以外の処理であってもよいし、機械学習を用いた処理であってもよい。
また、予め定められた処理は、複数の目的音を抽出しやすくする処理であることが望ましい。
さらに、予め定められた処理は、複数の目的音を強調する処理であることが望ましい。
例えば、学習側特徴量抽出部114は、処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、抽出された学習用音響特徴量の時系列データである学習用特徴データを生成する。
ここで、音響特徴量は、例えば、処理済学習用混合信号に高速フーリエ変換(Fast Fourier Transform:FFT)の処理を施すことによって得られる複素スペクトルである。学習用特徴データは、学習側モデル推論部116及び学習側信号抽出部117に与えられる。
即ち、学習側モデル推論部116は、複数の処理済目的音を抽出するために、学習用特徴データを構成する複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、学習用特徴データから一つの処理済目的音を抽出するための学習用マスクを、目的音毎に生成する。ここでは、学習用混合信号に、複数の目的音が含まれているため、複数の学習用マスクが生成される。
例えば、学習側信号抽出部117は、学習側モデル推論部116から与えられる複数の学習用マスクの各々を用いて、学習用特徴データから音を抽出することで、抽出された音を少なくとも示す学習用抽出信号を生成する。
例えば、信号変形部118は、複数の目的音の内、一つの目的音を示す信号に対して、その一つの目的音を、対応する一つの処理済目的音に近づけるための変形処理を行うことで、その一つの目的音に由来する一つの変形目的音を示す変形目的音信号を、目的音毎に生成する。ここでは、複数の目的音が存在するため、複数の目的音の各々に各々が対応する複数の変形目的音信号が生成される。
例えば、モデル更新部119は、複数の学習用抽出信号及び複数の変形目的音信号を用いて、学習側信号抽出部117で抽出された音が、抽出すべき一つの目的音に対応する一つの変形目的音に近づくように、学習側音源分離モデルを更新する。
具体的には、モデル更新部119は、複数の学習用抽出信号と、複数の変形目的音信号との差分が小さくなるように、学習側音源分離モデルを更新する。
この場合、学習側モデル推論部116は、学習側信号処理部113から与えられた処理済学習用混合信号に含まれている複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、処理済学習用混合信号から音を抽出することで、その抽出された音を示す学習用抽出信号を生成する。
また、信号変形部118は、学習用信号で示される複数の目的音の内、一つの処理済目的音に対応する一つの目的音を示す信号に対して、その一つの目的音をその一つの処理済目的音に近づけるための変形処理を行うことで、その一つの目的音に由来する一つの変形目的音を示す変形目的音信号を、目的音毎に生成する。
そして、モデル更新部119は、複数の学習用抽出信号及び複数の変形目的音信号を用いて、学習側モデル推論部116で抽出された複数の音の各々が、複数の変形目的音の内の対応する変形目的音に近づくように、学習側音源分離モデルを更新する。
信号変形部118は、混合信号ブロック分割部118aと、学習用信号ブロック分割部118bと、フィルタ推定部118cと、フィルタ適用部118dと、ブロック結合部118eとを備える。
例えば、混合信号ブロック分割部118aは、処理済学習用混合信号を複数のブロックに分割することで、複数の混合ブロック信号を生成する。
混合ブロック信号は、フィルタ推定部118cに与えられる。
また、複数のブロック間で重複する区間が生じるようにブロックに分割されてもよい。
但し、サンプル数に対応する各ブロックの長さは、フィルタ推定部118cにおけるフィルタの導出に必要な長さを上回るよう設定する必要がある。
例えば、学習用信号ブロック分割部118bは、一つの目的音を示す信号を複数のブロックに分割することで、複数の目的音ブロック信号を生成する。
目的音ブロック信号は、フィルタ推定部118c及びフィルタ適用部118dに与えられる。ブロックへの分割方法は、混合信号ブロック分割部118aにおける分割方法と同一である。
例えば、フィルタ推定部118cは、混合信号ブロック分割部118aによってブロック単位に分割された混合ブロック信号と、学習用信号ブロック分割部118bによってブロック単位に分割された目的音ブロック信号とを、ブロック毎に、かつ、目的音毎に、目的音ブロック信号で示される音の、混合ブロック信号で示される音への変換を近似するフィルタのパラメタである変形パラメタを生成する。フィルタは、例えば、FIR(Finite Impulse Response)フィルタ、IIR(Infinitie Inpulse Response)フィルタ、又は、FFTを用いた周波数領域上におけるフィルタ等が使用されればよい。
なお、変形パラメタは、例えば、ブロック毎に異なっていてもよい。
例えば、フィルタ適用部118dは、学習用信号ブロック分割部118bから与えられる目的音ブロック信号に、フィルタ推定部118cで推定された、その目的音ブロック信号に対応する変形パラメタを適用した信号を変形ブロック信号として生成する。変形ブロック信号は、ブロック結合部118eに与えられる。
なお、混合信号ブロック分割部118aと、学習用信号ブロック分割部118bとにおいて、複数のブロック間で重複する区間が生じるように分割が行われた場合には、ブロック結合部118eは、例えば、重み付け和を計算することで重複を解消してもよい。
このような場合には、フィルタ推定部118cは、学習用信号で示される一つの目的音を、処理済学習用混合信号で示される複数の処理済目的音の内、その一つの目的音に対応する一つの処理済目的音に近づけるためのフィルタを推定する。
そして、フィルタ適用部は、学習用信号の内のその一つの目的音を示す信号に、フィルタ推定部118cで推定されたフィルタを適用することで、変形目的音信号を生成する。
音源分離モデル学習装置110は、記憶装置151と、メモリ152と、プロセッサ153と、通信インタフェース(以下、通信I/Fという)154とを備えるコンピュータ150により構成することができる。
メモリ152は、プロセッサ153が作業を行う作業領域を提供する。
プロセッサ153は、記憶装置151に記憶されたプログラム及びデータを、メモリ152に展開して、処理を実行する。
通信I/F154は、音源分離装置130と通信を行う。
学習側音源分離モデル記憶部115は、記憶装置151により実現することができる。
学習側入力部111及び学習側通信部120は、通信I/F154により実現することができる。
なお、音源分離モデル学習装置110は、上記のようにプログラムで実現されてもよいし、音源分離モデル学習装置110で実行される機能毎に回路を構成して、それら回路を結合して実現されてもよい。
言い換えると、音源分離モデル学習装置110は、処理回路網により実現することもできる。
音源分離装置130は、活用側通信部131と、活用側音源分離モデル記憶部132と、活用側入力部133と、活用側信号処理部134と、活用側特徴量抽出部135と、活用側モデル推論部136と、活用側信号抽出部137と、活用側出力部138とを備える。
活用側入力部133は、対象混合信号の入力を受け付ける。入力された対象混合信号は、活用側信号処理部134に与えられる。
対象混合信号は、音源分離装置130に予め記憶されていてもよく、後述するマイク等の音響装置で取得されてもよいし、通信I/Fを介して電話回線等から取得されてもよい。このような場合には、活用側入力部133を省略することもできる。
例えば、活用側信号処理部134は、活用側入力部133から与えられる対象混合信号に対して、目的音を取り出しやすくするため、種々の信号処理を適用した結果得られる処理済対象混合信号を生成する。ここで行われる処理は、音源分離モデル学習装置110の学習側信号処理部113で行われる処理と同じである。処理済対象混合信号は、活用側特徴量抽出部135に与えられる。
例えば、活用側特徴量抽出部135は、処理済対象混合信号から、予め定められた音響特徴量である活用音響特徴量を複数の成分において抽出することで、その抽出された活用音響特徴量の時系列データである活用特徴データを生成する。
ここで行われる処理は、音源分離モデル学習装置110の学習側特徴量抽出部114で行われる処理と同じである。活用特徴データは、活用側モデル推論部136に与えられる。
そして、活用側モデル推論部136は、抽出された活用分離用特徴量の時系列データであるマスクを、活用マスクとして活用側信号抽出部137に与える。
言い換えると、活用側モデル推論部136は、複数の処理済目的音を抽出するために、活用特徴データの複数の成分の各々に対する重みを示す活用側音源分離モデルを用いて、活用特徴データから一つの処理済目的音を抽出するための活用マスクを、目的音毎に生成する。このため、複数の目的音の各々に各々が対応する複数の活用マスクが生成される。
例えば、活用側信号抽出部137は、活用マスクを用いて、活用特徴データから音を抽出することで、抽出された音を少なくとも示す活用抽出信号を生成する。
ここで行われる処理は、音源分離モデル学習装置110の学習側信号抽出部117で行われる処理と同じである。そして、活用側信号抽出部137は、抽出された音響信号である活用抽出信号を出力信号として活用側出力部138に与える。
なお、活用側特徴量抽出部135と、活用側信号抽出部137とについては、例えば、その一方又は両方を備えない構成としてもよい。例えば、活用側特徴量抽出部135及び活用側信号抽出部137の両方を含まない場合、活用側モデル推論部136は、活用側信号処理部134から出力された処理済対象混合信号を処理して、分離音の信号を直接出力するように機能する。言い換えると、活用側モデル推論部136は、活用側信号処理部134から与えられる処理済対象混合信号で示される複数の処理済目的音を抽出するための活用側音源分離モデルを用いて、処理済対象混合信号から音を抽出することで、抽出された音を示す活用抽出信号を生成する。
音源分離装置130は、記憶装置161と、メモリ162と、プロセッサ163と、通信I/F164と、音響インタフェース(以下、音響I/Fという)165とを備えるコンピュータ160により構成することができる。
メモリ162は、プロセッサ163が作業を行う作業領域を提供する。
プロセッサ163は、記憶装置161に記憶されたプログラム及びデータを、メモリ162に展開して、処理を実行する。
通信I/F164は、音源分離モデル学習装置110と通信を行う。
音響I/F165は、対象混合信号の入力を受け付ける。対象混合信号は、目的音を含む音を集音して対象音号信号を生成する音響装置で生成されればよい。
活用側音源分離モデル記憶部132は、記憶装置161により実現することができる。
活用側入力部133は、音響I/F165により実現することができる。
活用側通信部131は、通信I/F154により実現することができる。
なお、音源分離装置130は、上記のようにプログラムで実現してもよいし、音源分離装置130で実行される機能毎に回路を構成して、それら回路を結合して実現されてもよい。
言い換えると、音源分離装置130は、処理回路網により実現することもできる。
図7は、音源分離モデル学習装置110の動作を示すフローチャートである。
図8は、実施の形態1における信号変形部118の動作を示すフローチャートである。
まず、混合信号ブロック分割部118aが、学習側信号処理部113から与えられた処理済学習用混合信号を、時間軸上で1つ以上のブロックに分割することで混合ブロック信号を生成する(S20)。
ここでは、処理済学習用混合信号及び学習用信号が全て単一チャネルの音響信号であり、混合信号生成部112が学習用信号としてn個の目的音を示す信号を取得して混合信号を作成した場合を例に説明する。ここで、nは、1以上の整数である。
また、学習用信号ブロック分割部118bから取得したi番目の目的音の目的音ブロック信号をsi(t)とする。ここで、iは、1≦i≦nを満たす整数である。
さらに、フィルタ推定部118cで計算されるフィルタが長さLのFIRフィルタである場合において、i番目の目的音におけるFIRフィルタの係数を、hi(τ)とする。ここで、τは、τ=0,・・・,L-1を満たす整数とする。
このとき、混合ブロック信号y(t)は、以下の(1)式で近似される。
行列STSと、STS+λINLとを比較すると、後者の方はより条件数が小さく、安定的に逆行列を計算することができる。
例えば、学習用信号及び処理済学習用混合信号が、複数のマイクロホンを備えたマイクロホンアレイを用いて取得された多チャネルの信号であってもよい。この場合、フィルタ推定部118cが、多チャネルの目的音ブロック信号を受け取った場合には、代表的なチャネルの目的音ブロック信号を選択して、上記のフィルタ係数の計算を行えばよい。また、フィルタ推定部118cが、多チャンネルの混合ブロック信号を受け取った場合でも、代表的な混合ブロック信号を選択して、上記のフィルタ係数の計算を行えば良い。
まず、活用側信号処理部134が、入力された対象混合信号に対し、各種の信号処理を適用して処理済対象混合信号を生成する(S30)。
図10は、音源分離モデル学習装置110の動作を示す概念図である。
第1の信号170は、学習用信号から取得された第1の目的音を示す信号、第2の信号171は、学習用信号から取得された第2の目的音を示す信号であり、第3の信号172は、学習用信号から取得された非目的音を示す信号である。
学習用混合信号173には、第1の信号170に由来する第1の成分170#1、第2の信号171に由来する第2の成分171#1、及び、第3の信号172に由来する第3の成分172#1が含まれる。
図11(A)及び(B)は、音源分離装置130の動作例を説明するための概略図である。
図11(A)に示されている対象混合信号180には、第1の目的音に由来する第1の成分181、第2の目的音に由来する第2の成分182、及び、非目的音に由来する第3の成分183が含まれる。
処理済対象混合信号180#と、処理済対象混合信号186#とを比較すると、波形の変化及び音量の変化が異なっている。このため、第1の出力信号187及び第2の出力信号188の波形及び音量も、第1の出力信号184及び第2の出力信号185とは異なっている。
しかしながら、音源分離装置130を動作させる場合、図11(A)に示されているように、活用側モデル推論部136には処理済対象混合信号180#より抽出された特徴量が入力される。
学習用混合信号173から抽出される特徴量と、処理済対象混合信号180#から抽出される特徴量では、種々の特性が異なっている。音源分離モデルは、処理済対象混合信号180#から抽出される特徴量が入力されることを前提に学習されていないため、分離性能の悪化が生じる。
この場合、学習側モデル推論部116は、処理済学習用混合信号173#より抽出された特徴量から、第1の目的音の第1の信号170及び第2の目的音の第2の信号171を分離するための分離用特徴量が得られるように学習される。そして、学習側モデル推論部116は、処理済学習用混合信号173#から抽出される特徴量が入力されることを前提として音源分離モデルを学習させるため、上記で述べたような問題を解決できる。
このため、音源分離モデルは、このような多様な特性の変化を打ち消して元の信号を出力するように学習される。しかし、上述のように、このような特性の変化は、どのような信号が活用側信号処理部134に入力されるかによって、又は、時間が経過するにつれて、変化するものである。そのような多様な特性変化を吸収できるように音源分離モデルを学習させることは難しい。
信号変形部118において学習用信号の変形を行わない構成の場合には、特性変化を打ち消して元に戻した結果を出力するように音源分離モデルを学習させる必要があったところ、このような条件とすることで、特性変化を打ち消した結果を出力するように学習させる必要がなくなるため、学習が簡単になり、結果として音源分離出力の品質が向上する。
図12は、車両190に設置されたマイクロホン191A、191B、191Cにおいて、運転席話者192が発する音声、助手席話者193が発する音声、及び、車両走行音又はカーステレオ等から発せられる騒音194が同時に観測される状況を表している。このとき、音源分離装置130を用いて、運転席話者192の発した音声と、助手席話者193の発した音声とを、それぞれ取り出す場合について説明する。
音源分離装置130において、活用側信号処理部134の出力する処理済対象混合信号180#では、騒音194に相当する第6の成分183#が抑圧されている。
実施の形態1では、混合信号ブロック分割部118a及び学習用信号ブロック分割部118bで分割したブロック毎に、フィルタ推定部118cがフィルタを推定している。実施の形態2では、ブロック毎ではなく、1つのブロック内の時刻毎に異なるフィルタを推定する、言い換えると、フィルタを逐次的に更新することによって、ブロック内の時系列的な変化に対応できるようにする。
実施の形態2における音源分離装置130は、実施の形態1における音源分離装置130と同様である。
実施の形態2における学習側入力部111、混合信号生成部112、学習側信号処理部113、学習側特徴量抽出部114、学習側音源分離モデル記憶部115、学習側モデル推論部116、学習側信号抽出部117、モデル更新部119及び学習側通信部120は、実施の形態1における学習側入力部111、混合信号生成部112、学習側信号処理部113、学習側特徴量抽出部114、学習側音源分離モデル記憶部115、学習側モデル推論部116、学習側信号抽出部117、モデル更新部119及び学習側通信部120と同様である。
信号変形部218は、混合信号ブロック分割部118aと、学習用信号ブロック分割部118bと、フィルタ適用部218dと、ブロック結合部118eと、フィルタパラメタ記憶部218fと、フィルタ更新部218gとを備える。
例えば、フィルタパラメタ記憶部218fは、予め定められた期間に対応するサンプル毎にフィルタパラメタを記憶する。
なお、図14に示されているフローチャートに含まれているステップの内、図8に示されているフローチャートに含まれているステップの処理と同様の処理を行うステップには、図8に示されているフローチャートに含まれているステップと同じ符号を付している。
このような場合には、フィルタ適用部218dは、抽出すべき目的音を示す信号に対し、フィルタパラメタ記憶部218fに記憶されているフィルタパラメタを適用することで、各々のフィルタパラメタが対応する時刻における処理済サンプル信号を生成する。
フィルタ更新部218gは、処理済サンプル信号を、処理済学習用混合信号の対応する部分に近づけるように、フィルタパラメタを更新する。
そして、フィルタ適用部218dは、生成された処理済みサンプル信号を結合することで、変形目的音信号を生成する。
Claims (19)
- 複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成する学習側信号処理部と、
前記複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成する学習側モデル推論部と、
前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成する信号変形部と、
前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新するモデル更新部と、を備えること
を特徴とする音源分離モデル学習装置。 - 複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成する学習側信号処理部と、
前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成する学習側特徴量抽出部と、
前記複数の処理済目的音を抽出するために前記複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成する学習側モデル推論部と、
前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成する学習側信号抽出部と、
前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成する信号変形部と、
前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新するモデル更新部と、を備えること
を特徴とする音源分離モデル学習装置。 - 前記予め定められた処理は、前記複数の目的音を抽出しやすくする処理であること
を特徴とする請求項1又は2に記載の音源分離モデル学習装置。 - 前記予め定められた処理は、前記複数の目的音を強調する処理であること
を特徴とする請求項1から3の何れか一項に記載の音源分離モデル学習装置。 - 前記信号変形部は、
前記一つの目的音を前記一つの処理済目的音に近づけるためのフィルタを推定するフィルタ推定部と、
前記一つの目的音を示す信号に前記フィルタを適用することで、前記変形目的音信号を生成するフィルタ適用部と、を備えること
を特徴とする請求項1から4の何れか一項に記載の音源分離モデル学習装置。 - 前記信号変形部は、
前記処理済学習用混合信号を複数のブロックに分割することで、複数の混合ブロック信号を生成する第1のブロック分割部と、
前記一つの目的音を示す信号を複数のブロックに分割することで、複数の目的音ブロック信号を生成する第2のブロック分割部と、
前記複数の目的音ブロック信号の各々で示される音を、前記複数の混合ブロック信号で示される音の内、前記一つの目的音に対応する音に近づけるためのフィルタを推定することで、複数のフィルタを推定するフィルタ推定部と、
前記複数の目的音ブロック信号の各々に、前記複数のフィルタの各々を適用することで、複数の変形ブロック信号を生成するフィルタ適用部と、
前記複数の変形ブロック信号を結合することで、前記変形目的音信号を生成するブロック結合部と、を備えること
を特徴とする請求項1から4の何れか一項に記載の音源分離モデル学習装置。 - 前記信号変形部は、
予め定められた期間に対応するサンプル毎にフィルタパラメタを記憶するフィルタパラメタ記憶部と、
前記サンプル毎に、前記一つの目的音を示す信号から選択された部分に前記フィルタパラメタを適用することで、処理済サンプル信号を生成するとともに、前記処理済みサンプル信号を結合することで前記変形目的音信号を生成するフィルタ適用部と、
前記処理済サンプル信号を、前記処理済学習用混合信号の対応する部分に近づけるように、前記フィルタパラメタを更新するフィルタ更新部と、を備えること
を特徴とする請求項1から4の何れか一項に記載の音源分離モデル学習装置。 - 前記信号変形部は、
前記処理済学習用混合信号を複数のブロックに分割することで、複数の混合ブロック信号を生成する第1のブロック分割部と、
前記一つの目的音を示す信号を複数のブロックに分割することで、複数の目的音ブロック信号を生成する第2のブロック分割部と、
予め定められた期間に対応するサンプル毎にフィルタパラメタを記憶するフィルタパラメタ記憶部と、
前記サンプル毎に、前記一つの目的音を示す信号から選択された部分に前記フィルタパラメタを適用することで、処理済サンプル信号を生成するとともに、前記処理済みサンプル信号を、前記複数の目的音ブロック信号の各々で結合することで、複数の変形ブロック信号を生成するフィルタ適用部と、
前記処理済サンプル信号を、前記処理済学習用混合信号の対応する部分に近づけるように、前記フィルタパラメタを更新するフィルタ更新部と、
前記複数の変形ブロック信号を結合することで、前記変形目的音信号を生成するブロック結合部と、を備えること
を特徴とする請求項1から4の何れか一項に記載の音源分離モデル学習装置。 - 前記モデル更新部は、前記複数の学習用抽出信号と、前記複数の変形目的音信号との差分が小さくなるように、前記学習側音源分離モデルを更新すること
を特徴とする請求項1から8の何れか一項に記載の音源分離モデル学習装置。 - 複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成する活用側信号処理部と、
複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するための活用側音源分離モデルを用いて、前記処理済対象混合信号から音を抽出することで、前記処理済対象混合信号から抽出された音を示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成する活用側モデル推論部と、を備えること
を特徴とする音源分離装置。 - 複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成する活用側信号処理部と、
前記処理済対象混合信号から、予め定められた音響特徴量である活用音響特徴量を複数の成分において抽出することで、前記抽出された活用音響特徴量の時系列データである活用特徴データを生成する活用側特徴量抽出部と、
複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するために前記学習用特徴データにおける複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記処理済学習用混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成し、前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するために前記活用特徴データにおける複数の成分の各々に対する重みを示す活用側音源分離モデルを用いて、前記活用特徴データから前記処理済対象混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の活用マスクを生成する活用側モデル推論部と、
前記複数の活用マスクを用いて、前記活用特徴データから音を抽出することで、前記活用特徴データから抽出された音を少なくとも示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成する活用側信号抽出部と、を備えること
を特徴とする音源分離装置。 - コンピュータを、
複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成する学習側信号処理部、
前記複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成する学習側モデル推論部、
前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成する信号変形部、及び、
前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新するモデル更新部、として機能させること
を特徴とするプログラム。 - コンピュータを、
複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成する学習側信号処理部、
前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成する学習側特徴量抽出部、
前記複数の処理済目的音を抽出するために前記複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成する学習側モデル推論部、
前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成する学習側信号抽出部、
前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成する信号変形部、及び、
前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新するモデル更新部、として機能させること
を特徴とするプログラム。 - コンピュータを、
複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成する活用側信号処理部、及び、
複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するための活用側音源分離モデルを用いて、前記処理済対象混合信号から音を抽出することで、前記処理済対象混合信号から抽出された音を示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成する活用側モデル推論部、として機能させること
を特徴とするプログラム。 - コンピュータを、
複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成する活用側信号処理部、
前記処理済対象混合信号から、予め定められた音響特徴量である活用音響特徴量を複数の成分において抽出することで、前記抽出された活用音響特徴量の時系列データである活用特徴データを生成する活用側特徴量抽出部、
複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するために前記学習用特徴データにおける複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記処理済学習用混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成し、前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するために前記活用特徴データにおける複数の成分の各々に対する重みを示す活用側音源分離モデルを用いて、前記活用特徴データから前記処理済対象混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の活用マスクを生成する活用側モデル推論部、及び、
前記複数の活用マスクを用いて、前記活用特徴データから音を抽出することで、前記活用特徴データから抽出された音を少なくとも示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成する活用側信号抽出部、として機能させること
を特徴とするプログラム。 - 複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、
前記複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、
前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、
前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新すること
を特徴とする音源分離モデル学習方法。 - 複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、
前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成し、
前記複数の処理済目的音を抽出するために前記複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成し、
前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、
前記複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、
前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新すること
を特徴とする音源分離モデル学習方法。 - 複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成し、
複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するための学習側音源分離モデルを用いて、前記処理済学習用混合信号から音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するための活用側音源分離モデルを用いて、前記処理済対象混合信号から音を抽出することで、前記処理済対象混合信号から抽出された音を示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成すること
を特徴とする音源分離方法。 - 複数の目的音を少なくとも示す対象混合信号に対して予め定められた処理を行うことで、前記複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済対象混合信号を生成し、
前記処理済対象混合信号から、予め定められた音響特徴量である活用音響特徴量を複数の成分において抽出することで、前記抽出された活用音響特徴量の時系列データである活用特徴データを生成し、
複数の目的音を少なくとも示す学習用混合信号に対して予め定められた処理を行うことで、前記学習用混合信号で示される複数の目的音に由来する複数の処理済目的音を少なくとも示す処理済学習用混合信号を生成し、前記処理済学習用混合信号から、予め定められた音響特徴量である学習用音響特徴量を複数の成分において抽出することで、前記抽出された学習用音響特徴量の時系列データである学習用特徴データを生成し、前記処理済学習用混合信号で示される複数の処理済目的音を抽出するために前記学習用特徴データにおける複数の成分の各々に対する重みを示す学習側音源分離モデルを用いて、前記学習用特徴データから前記処理済学習用混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の学習用マスクを生成し、前記複数の学習用マスクを用いて、前記学習用特徴データから音を抽出することで、前記抽出された音を示し、前記処理済学習用混合信号で示される複数の処理済目的音の各々に各々が対応する複数の学習用抽出信号を生成し、前記学習用混合信号で示される複数の目的音の内の一つの目的音を示す信号に対して、前記一つの目的音を、前記処理済学習用混合信号で示される複数の処理済目的音の内、前記一つの目的音に対応する一つの処理済目的音に近づけるための変形処理を行うことで、前記学習用混合信号で示される複数の目的音の各々に各々が由来する複数の変形目的音を各々が示す複数の変形目的音信号を生成し、前記複数の学習用抽出信号及び前記複数の変形目的音信号を用いて、前記抽出された音が、前記複数の変形目的音に近づくように、前記学習側音源分離モデルを更新することで生成された、前記処理済対象混合信号で示される複数の処理済目的音を抽出するために前記活用特徴データにおける複数の成分の各々に対する重みを示す活用側音源分離モデルを用いて、前記活用特徴データから前記処理済対象混合信号で示される複数の処理済目的音の各々を各々が抽出するための複数の活用マスクを生成し、
前記複数の活用マスクを用いて、前記活用特徴データから音を抽出することで、前記活用特徴データから抽出された音を少なくとも示し、前記処理済対象混合信号で示される複数の処理済目的音の各々に各々が対応する複数の活用抽出信号を生成すること
を特徴とする音源分離方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/024930 WO2021260868A1 (ja) | 2020-06-25 | 2020-06-25 | 音源分離モデル学習装置、音源分離装置、プログラム、音源分離モデル学習方法及び音源分離方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2021260868A1 JPWO2021260868A1 (ja) | 2021-12-30 |
JP7138824B2 true JP7138824B2 (ja) | 2022-09-16 |
Family
ID=79282089
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022532167A Active JP7138824B2 (ja) | 2020-06-25 | 2020-06-25 | 音源分離モデル学習装置、音源分離装置、プログラム、音源分離モデル学習方法及び音源分離方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7138824B2 (ja) |
WO (1) | WO2021260868A1 (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200051580A1 (en) | 2019-07-30 | 2020-02-13 | Lg Electronics Inc. | Method and apparatus for sound processing |
-
2020
- 2020-06-25 JP JP2022532167A patent/JP7138824B2/ja active Active
- 2020-06-25 WO PCT/JP2020/024930 patent/WO2021260868A1/ja active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200051580A1 (en) | 2019-07-30 | 2020-02-13 | Lg Electronics Inc. | Method and apparatus for sound processing |
Non-Patent Citations (2)
Title |
---|
ITO, Nobutaka et al.,"RELAXED DISJOINTNESS BASED CLUSTERING FOR JOINT BLIND SOURCE SEPARATION AND DEREVERBERATION",Proc. of the 2014 14th IWAENC,2014年09月08日,pp.268-272 |
塩澤光一朗 他,"差分型マイクロホンアレイと2次元スペクトルの機械学習による雑音抑制に関する考察",電子情報通信学会技術研究報告,2019年08月01日,Vol.119, No.163,pp.53-58 |
Also Published As
Publication number | Publication date |
---|---|
WO2021260868A1 (ja) | 2021-12-30 |
JPWO2021260868A1 (ja) | 2021-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5124014B2 (ja) | 信号強調装置、その方法、プログラム及び記録媒体 | |
EP1993320B1 (en) | Reverberation removal device, reverberation removal method, reverberation removal program, and recording medium | |
CN110867181B (zh) | 基于scnn和tcnn联合估计的多目标语音增强方法 | |
JP4496186B2 (ja) | 音源分離装置、音源分離プログラム及び音源分離方法 | |
JP6584930B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP5127754B2 (ja) | 信号処理装置 | |
CN108172231B (zh) | 一种基于卡尔曼滤波的去混响方法及*** | |
JP6789455B2 (ja) | 音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システム | |
KR101807961B1 (ko) | Lstm 및 심화신경망 기반의 음성 신호 처리 방법 및 장치 | |
JP2005249816A (ja) | 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム | |
CN109979476A (zh) | 一种语音去混响的方法及装置 | |
CN112037809A (zh) | 基于多特征流结构深度神经网络的残留回声抑制方法 | |
JP6748304B2 (ja) | ニューラルネットワークを用いた信号処理装置、ニューラルネットワークを用いた信号処理方法及び信号処理プログラム | |
Doclo et al. | Multimicrophone noise reduction using recursive GSVD-based optimal filtering with ANC postprocessing stage | |
KR20220022286A (ko) | 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치 | |
JP5443547B2 (ja) | 信号処理装置 | |
KR100647826B1 (ko) | 측정된 잡음을 고려한 암묵 반향제거 모델 및 그 유도방법 | |
US20230060081A1 (en) | Signal processing device, signal processing method, and program | |
JP7138824B2 (ja) | 音源分離モデル学習装置、音源分離装置、プログラム、音源分離モデル学習方法及び音源分離方法 | |
CN116935879A (zh) | 一种基于深度学习的两阶段网络降噪和去混响方法 | |
Ai et al. | Reverberation modeling for source-filter-based neural vocoder | |
JP6961545B2 (ja) | 音信号処理装置、音信号処理方法、およびプログラム | |
JP2012044609A (ja) | ステレオ反響消去方法、ステレオ反響消去装置、ステレオ反響消去プログラム | |
JP6790659B2 (ja) | 音響処理装置および音響処理方法 | |
JP2020148880A (ja) | 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220530 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20220530 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220621 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220727 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220809 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220906 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7138824 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |