JP4672611B2 - 音源分離装置、音源分離方法及び音源分離プログラム - Google Patents
音源分離装置、音源分離方法及び音源分離プログラム Download PDFInfo
- Publication number
- JP4672611B2 JP4672611B2 JP2006207006A JP2006207006A JP4672611B2 JP 4672611 B2 JP4672611 B2 JP 4672611B2 JP 2006207006 A JP2006207006 A JP 2006207006A JP 2006207006 A JP2006207006 A JP 2006207006A JP 4672611 B2 JP4672611 B2 JP 4672611B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- time
- separation
- domain signal
- sound source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 327
- 239000011159 matrix material Substances 0.000 claims abstract description 183
- 238000000034 method Methods 0.000 claims abstract description 161
- 230000008569 process Effects 0.000 claims abstract description 95
- 238000004364 calculation method Methods 0.000 claims abstract description 76
- 230000004931 aggregating effect Effects 0.000 claims abstract description 5
- 238000012545 processing Methods 0.000 claims description 209
- 230000005236 sound signal Effects 0.000 claims description 66
- 238000005070 sampling Methods 0.000 claims description 22
- 238000003860 storage Methods 0.000 claims description 22
- 230000002776 aggregation Effects 0.000 claims description 17
- 238000004220 aggregation Methods 0.000 claims description 17
- 238000012880 independent component analysis Methods 0.000 claims description 17
- 230000002194 synthesizing effect Effects 0.000 claims description 5
- 239000000872 buffer Substances 0.000 description 93
- 230000015572 biosynthetic process Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 17
- 238000003786 synthesis reaction Methods 0.000 description 17
- 238000001914 filtration Methods 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 7
- 238000004904 shortening Methods 0.000 description 7
- 108010076504 Protein Sorting Signals Proteins 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000004148 unit process Methods 0.000 description 2
- 241001168730 Simo Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
さらに、BSS方式の音源分離処理の1つに、独立成分分析法(Independent Component Analysis、以下、ICA法という)による音源分離処理がある。
複数のマイクロホンを通じて入力される複数の前記混合音声信号(時系列の(時間領域の)音声信号)に含まれる音源信号それぞれは、統計的に独立である。ICA法による音源分離処理は、各音源信号が統計的に独立であることを前提に、入力された複数の前記混合音声信号に基づいて、所定の分離行列(逆混合行列)を学習計算により最適化する処理を有する。さらに、ICA法による音源分離処理は、学習計算により最適化された分離行列を用いて、入力された複数の混合音声信号に対してフィルタ処理(行列演算)を行うことを含み、これによって前記音源信号が同定(音源分離)される。
ここで、ICA法における分離行列の最適化は、所定の時間長分の混合音声信号に対し、分離行列を用いたフィルタ処理(行列演算)を行うことによる分離信号(同定された信号)の算出と、その分離信号を用いた逆行列演算等による分離行列の更新と、を逐次繰り返す学習計算により行われる。
このようなICA法による音源分離処理は、例えば、非特許文献1や非特許文献2等に詳説されている。
TDICA法は、一般に、広い周波数帯域において音源信号それぞれの独立性を評価できる手法であり、分離行列の学習計算において、最適点近傍における収束性が高い。このため、TDICA法によれば、最適化レベルの高い分離行列を得ることができ、高精度で音源信号を分離できる(分離性能が高い)。しかしながら、TDICA法は、分離行列の学習計算に非常に複雑な(演算負荷の高い)処理(畳み込み混合に対する処理)を必要とするため、リアルタイム処理には適さない。
一方、例えば特許文献1等に示されるFDICA法は、フーリエ変換処理によって混合音声信号を時間領域の信号から周波数領域の信号に変換することにより、畳み込み混合の問題を、複数に分割された周波数帯域である周波数ビン(特許文献1ではサブバンド)ごとの瞬時混合の問題に変換した上で、分離行列の学習計算を行う手法である。このFDICA法によれば、分離行列(分離フィルタ処理に用いる行列)の最適化(学習計算)を、安定かつ高速に行うことができる。従って、FDICA法は、リアルタイム音源分離処理に適している。
図7には、2つの音源1、2からの音源信号S1(t)、S2(t)を2つのマイクロホン111、112を通じて入力した2チャンネル(各チャンネルは、マイクロホンそれぞれに対応)の混合音声信号x1(t)、x2(t)に基づいて、分離行列W(f)の学習計算を行う例について示しているが、2チャンネル以上であっても同様である。なお、混合音声信号x1(t)、x2(t)は、A/D変換器によって一定のサンプリング周期(一定のサンプリング周波数といってもよい)でデジタル化された信号であるが、図7において、A/D変換器の記載を省略している。
FDICA法では、まず、FFT処理部13が、入力された混合音声信号x(t)が所定の周期(所定のサンプル数)ごとに区分された信号であるフレームそれぞれについて、フーリエ変換処理を行う。これにより、混合音声信号(入力信号)が、時間領域の信号から周波数領域の信号へ変換される。フーリエ変換後の信号は、周波数ビンと呼ばれる所定範囲の周波数帯域ごとに区分された信号となる。そして、そのフーリエ変換処理後の各チャンネルの信号について、分離フィルタ処理部11fが、分離行列W(f)に基づくフィルタ処理(行列演算処理)を施すことによって音源分離(音源信号の同定)を行う。ここでfを周波数ビン、mを分析フレーム番号とすると、分離信号(同定信号)y(f、m)は、次の(1)式のように表すことができる。
さらに、前記プロセッサは、今回求めたW(f)を用いて所定時間長分の混合音声信号(周波数領域の信号)に対してフィルタ処理(行列演算)を施すことによって今回(i+1)の出力y(f)を求める。そして、前記プロセッサが、これら一連の処理(前記単位処理)を複数回繰り返すことにより、分離行列W(f)は、徐々に上記逐次計算(学習計算)で用いられる混合音声信号に適合した内容となる。
特許文献1および非特許文献3には、例えば、混合音声信号のサンプリング周波数が8kHzである場合、フーリエ変換処理の入力信号(時間領域の信号)の長さ(フレーム長)を1024サンプル程度(時間に換算して128ms)とすれば、即ち、フーリエ変換処理の出力信号(周波数領域の信号)における周波数ビンの数(サブバンド数)が512程度となるようにすれば、高い分離性能が得られる(分離性能の高い分離行列が得られる)ことが示されている。
図8に示す例では、FDICA法による音源分離処理は、学習演算部34、第2FFT処理部42’、分離フィルタ処理部44’、IFFT処理部46’及び合成処理部48’により実行される。これら学習演算部34、第2FFT処理部42’、分離フィルタ処理部44’、IFFT処理部46’、合成処理部48’は、例えば、DSP(Digital Signal Processor)等の演算用のプロセッサ及びそのプロセッサにより実行されるプログラムが記憶されたROM等の記憶手段、並びにRAM等のその他の周辺装置により構成される。
また、図8に示す各バッファ(第1入力バッファ31、第1中間バッファ33、第2入力バッファ41’、第2中間バッファ43’、第3中間バッファ45’、第4中間バッファ47’、出力バッファ49’)は、説明の便宜上、非常に多くのデータを蓄積可能であるかのように記載されている。しかしながら、実際には、各バッファは、記憶するデータのうち不要になったものが順次消去され、これにより生じる空き領域が再利用されるので、その記憶容量は必要十分な量に設定されている。
そして、第1FFT処理部32は、新たなNサンプル分の混合音声信号が第1入力バッファ31に入力されるごとに、それを含む最新の2Nサンプル分の混合音声信号(以下、第1時間領域信号S0という)について、フーリエ変換処理を実行し、その処理結果である周波数領域の信号(以下、第1周波数領域信号Sf0という)を、第1中間バッファ33に一時記憶させる。ここで、第1入力バッファ31に蓄積された信号のサンプル数が、2N個に満たない場合(処理開始後の初期の段階)には、不足する数だけ0値が充当された信号について、フーリエ変換処理が実行される。第1FFT処理部32の1回のフーリエ変換処理により得られる第1周波数領域信号Sf0の周波数ビンの数は、第1周波数領域信号Sf0のサンプル数の1/2倍(=N個)である。
また、学習演算部34は、第1中間バッファ33に、所定時間長T[sec]分の第1周波数領域信号Sf0が記録されるごとに、そのT[sec]分の信号Sf0に基づいて、分離行列W(f)の学習計算、即ち、分離行列W(f)を構成するフィルタ係数(行列要素)の学習計算を行う。さらに、学習演算部34は、所定のタイミングで、分離フィルタ処理部44’で用いられる分離行列を、学習後の分離行列に更新する(即ち、分離行列のフィルタ係数の値を学習後の値に更新する)。通常、学習演算部34は、学習計算の終了後、分離フィルタ処理部44’のフィルタ処理が最初に終了した直後に、分離行列を更新する。
また、分離フィルタ処理部44’は、第2中間バッファ43’に、新たな第2周波数領域信号Sf1が記録されるごとに、その新たな第2周波数領域信号Sf1について、分離行列を用いたフィルタ処理(行列演算)を行い、その処理により得られる信号(以下、第3周波数領域信号Sf2という)を、第3中間バッファ45’に一時記憶させる。このフィルタ処理に用いられる分離行列は、前述した学習演算部34によって更新されるものである。なお、学習演算部34により最初に分離行列が更新されるまでは、分離フィルタ処理部44’は、予め定められた初期値が設定された分離行列(初期行列)を用いてフィルタ処理を行う。ここで、第2周波数領域信号Sf1と第3周波数領域信号Sf2とは、周波数ビンの数が等しいことはいうまでもない。
また、合成処理部48’は、第4中間バッファ47’に新たな第3時間領域信号S2が記録されるごとに、以下に示す合成処理を実行することによって新たな分離信号S3を生成して出力バッファ49’に一時記憶させる。
ここで、前記合成処理は、IFFT処理部46’によって得られた新たな第3時間領域信号S2とその1回前に得られた第3時間領域信号S2とについて、それらにおける時間帯が重複する部分の両信号(それぞれNサンプル分の信号)を、例えばクロスフェードの重み付けをして加算すること等によって合成する処理である。これにより、平滑化された分離信号S3が得られる。
以上の処理により、混合音声信号に対していくらかの遅延(時間遅れ)が生じるものの、音源に対応する分離信号S3が、リアルタイムで出力バッファ49’に記録される。
また、フィルタ処理に用いられる分離行列が、学習演算部34によって音響環境の変化に適合したものに適宜更新される。
ここで、出力遅延とは、混合音声信号が発生した時点から、その混合音声信号から分離生成された分離信号が出力されるまでの遅延を指す。
以下、A/D変換処理によって得られる混合音声信号(ディジタル信号)を一時記憶するバッファを入力バッファ23と称する。この入力バッファ23から、Nサンプル分の混合音声信号が、前記第1入力バッファ31及び第2入力バッファ41’に転送される。また、図9において、入力ポイントPt1は、入力バッファ23に対する信号の書き込み位置(書き込みポインタの指示位置)を表し、出力ポイントPt2は、出力バッファ49’からの信号の読み出し位置(読み出しポインタの指示位置)を表す。これら入力ポイントPt1及び出力ポイントPt2は、混合音声信号のサンプリング周期と同じ周期で同期して順次移動する。また、これら入力ポイントPt1及び出力ポイントPt2は、2Nサンプル分の記憶容量を有する入力バッファ23及び出力バッファ49’各々において巡回移動する。
図9(b)は、図9(a)の状態の後、入力バッファ23に、入力ポイントPt1の移動に従って順次新たな信号が書き込まれ、Nサンプル分の信号が蓄積した時点の状態を表す。この時点で、Nサンプル分の信号(図中、入力(1)と記した信号)が、音源分離処理を行う部分(以下、音源分離処理部Aという)に転送され、音源分離処理が実行される。具体的には、Nサンプル分の信号が、前記第1入力バッファ31及び第2入力バッファ41’に転送(記録)され、図8に基づき説明した音源分離処理が実行される。また、入力バッファ23において、音源分離処理部Aへの転送が終了した信号は消去される。
図9(c)は、図9(b)の状態の後、音源分離処理部AによってNサンプル分の分離信号(図中、出力(1)と記した信号)が生成され、その分離信号が出力バッファ49’に書き込まれた時点の状態を表す。この分離信号(出力(1))は、図8における分離信号S3に相当するものである。
この図9(c)の状態では、出力ポイントPt2は、分離信号が書き込まれていない位置にあるので、分離信号(出力(1))は未だ出力されない。
図9(d)は、図9(c)の状態の後、入力バッファ23に、さらに新たな信号が書き込まれ、次のNサンプル分の信号(図中、入力(2)と記した信号)が蓄積した時点の状態を表す。この時点で、新たなNサンプル分の信号(入力(2))が、前記音源分離処理部Aに転送され、音源分離処理が実行される。
この図9(d)の状態において、出力ポイントPt2が、前回の分離信号(出力(1))の書き込み位置の先頭にあるので、分離信号(出力(1))の出力が始まる。
図9(e)は、図9(d)の状態の後、音源分離処理部Aによって新たなNサンプル分の分離信号(図中、出力(2)と記した信号)が生成され、その分離信号が出力バッファ49’に書き込まれた時点の状態を表す。図9(d)の時点から図9(e)の時点までの間、出力ポイントPt2の移動に従って、前回の分離信号(出力(1))が1サンプルずつ順次出力される。また、出力バッファ49’において、出力が終了した信号は消去される。
例えば、信号のサンプリング周波数が8kHzである場合、FDICA法により分離性能の高い分離行列が得られるように1フレームを1024サンプルの信号(即ち、N=512)とすると、192[msec]の出力遅延が生じる。
この192[msec]という出力遅延は、リアルタイムで動作する装置において許容し難い遅延である。例えば、デジタル携帯電話における通信の遅延時間は、一般に50[msec]以下である。このディジタル携帯電話に従来のFDICA法による音源分離を適用した場合、トータルの遅延時間が242[msec]となり、実用に耐えない。同様に、補聴器に従来のFDICA法による音源分離を適用した場合も、利用者の目に映る映像と、補聴器を通じて聞こえる音声との時間のズレが大き過ぎて実用に耐えない。
ここで、入力ポイントPt1と出力ポイントPt2との位置関係を、予め図9に示した位置関係とは異なる位置関係に設定することにより、出力遅延は、3Nサンプル分の信号の時間長以下にすることは可能である。しかしながら、その場合でも、出力遅延を、2Nサンプル分の信号の時間長に、音源分離処理に要する時間を加算した時間にまで短縮できるに過ぎない。即ち、FDICA法による音源分離処理では、出力遅延の時間が、フィルタ処理の入力信号として用いる周波数領域の信号Sf1を得るためのフーリエ変換処理(前記第2FFT処理部42’の処理)の実行周期(Nサンプルの信号の時間長tN)の2倍強から3倍程度の時間となる。
一方、出力遅延の時間は、1フレームの長さを短く(サンプル数を小さく)すれば短縮できる。しかしながら、1フレームの長さを短くすることは、音源分離性能の悪化につながるという問題が生じる。
本発明は上記事情に鑑みてなされたものである。本発明の目的とするところは、ICA法による音源分離処理を行うに当たり、高い音源分離性能を確保しつつ、出力遅延(混合音声信号が発生した時点から、その混合音声信号から分離生成された分離信号が出力されるまでの遅延)を短くすることができる音源分離装置、音源分離方法及び音源分離プログラムを提供することにある。
そして、上記目的を達成するために本発明は、次の(1)〜(7)に示す構成要素を備える。
(1)所定の第1の時間t1の長さ分の新たな前記混合音響信号が得られるごとに、その第1の時間t1以上の長さ分の最新の前記混合音声信号(以下、第1の時間領域信号という)にフーリエ変換処理を施し、そのフーリエ変換処理により得られる信号(以下、第1の周波数領域信号という)を所定の記憶手段に一時記憶させる手段(以下、第1のフーリエ変換手段という)。なお、前記第1の時間領域信号及び前記第1のフーリエ変換手段は、それぞれ図8における信号S0及び第1FFT処理部32に相当するものである。
(2)前記第1のフーリエ変換手段により得られた1又は複数の前記第1の周波数領域信号に基づいて、周波数領域での独立成分分析法(FDICA法)による学習計算を行うことにより、所定の分離行列(以下、第1の分離行列という)を算出する手段(以下、分離行列学習計算手段という)。なお、この分離行列学習計算手段は、図8における学習演算部34に相当するものである。
(3)前記分離行列学習計算手段により算出された前記第1の分離行列に基づいて、前記分離信号の分離生成(即ち、フィルタ処理)に用いる行列(以下、第2の分離行列という)を設定して更新する手段(以下、分離行列設定手段という)。
(4)前記第1の時間t1の長さよりも短い予め定められた第2の時間t2の長さ分の新たな前記混合音響信号が得られるごとに、その第2の時間t2の2倍の長さ分の最新の前記混合音声信号を含む信号(以下、第2の時間領域信号という)にフーリエ変換処理を施し、そのフーリエ変換処理により得られる信号(以下、第2の周波数領域信号という)を、所定の記憶手段に一時記憶させる手段(以下、第2のフーリエ変換手段という)。なお、前記第2の時間領域信号及び前記第2のフーリエ変換手段は、それぞれ図8における信号S1及び第2FFT処理部42’に相当するものである。
(5)前記第2のフーリエ変換手段により新たな前記第2の周波数領域信号が得られるごとに、その新たな第2の周波数領域信号に対し、前記分離行列設定手段により更新される前記第2の分離行列に基づくフィルタ処理を施し、これにより得られる信号(以下、第3の周波数領域信号という)を所定の記憶手段に一時記憶させる手段(以下、分離フィルタ処理手段という)。
(6)前記分離フィルタ処理手段により新たな前記第3の周波数領域信号が得られるごとに、その新たな第3の周波数領域信号に逆フーリエ変換処理を施し、その逆フーリエ変換処理により得られる信号(以下、第3の時間領域信号という)を所定の記憶手段に一時記憶させる手段(以下、逆フーリエ変換手段という)。なお、この逆フーリエ変換手段は、図8におけるIFFT処理部46’に相当するものである。
(7)前記逆フーリエ変換手段により新たな前記第3の時間領域信号が得られるごとに、その新たな第3の時間領域信号と、その1回前に得られた前記第3の時間領域信号とにおける時間帯が重複する部分の両信号を合成することにより、新たな前記分離信号を生成する手段(以下、信号合成手段とという)。なお、この信号合成手段は、図8における合成処理部48’に相当するものである。
ここで、上記(1)〜(7)において、信号の「時間の長さ」とその長短とにより特定する記載を、信号の「サンプル数」とその大小により特定する記載に置き換えた場合、その置き換えを行う前後の記載内容は、同じ意味を表す。
これに対し、本発明に係る音源分離装置では、フィルタ処理の入力信号として用いる前記第2の周波数領域信号を得るためのフーリエ変換(前記第2のフーリエ変換手段の処理)の実行周期(前記第2の時間t2)の方が、分離行列の学習計算に用いる周波数領域の信号を得るためのフーリエ変換(前記第1のフーリエ変換手段の処理)の実行周期(前記第1の時間t1)よりも短い。従って、前記第2の時間t2を従来よりも十分に短く設定すること(図9におけるサンプル数Nを小さく設定することと同じ)により、出力遅延の時間を従来よりも大幅に短縮できる。
一方、分離行列の学習計算に対応するフーリエ変換処理(前記第1のフーリエ変換手段の処理)の実行周期(前記第1の時間t1)は、前記第2の時間t2に関わらず、十分長い時間(例えば、8kHzのサンプリング周期×1024サンプルの信号の長さ相当)に設定できる。これにより、出力遅延の時間を短縮しつつ、高い音源分離性能を確保することができる。
ここで、前記第1の時間領域信号の時間長と前記第2の時間領域信号の時間長とが等しく設定されていれば(即ち、両信号のサンプル数が同じであれば)、前記第1フーリエ変換手段の処理により得られる信号の周波数ビンの数と、前記第2フーリエ変換手段の処理により得られる信号の周波数ビンの数とは一致する。この場合、前記分離行列設定手段は、前記第1の分離行列をそのまま前記第2の分離行列として設定することができる。
この場合、前記分離行列設定手段は、前記第1の分離行列を構成する行列要素を複数のグループごとに集約することにより得られる行列を前記第2の分離行列として設定する。これにより、必要十分な数の行列要素(フィルタ係数)が設定されたフィルタ処理用の分離行列(前記第2の分離行列)を設定することができる。
ここで、前記第2の時間領域信号の時間長は、前記第1の時間領域信号の時間長よりも短く設定される場合、その2倍以上の整数倍が前記第1の時間領域信号の時間長となるように設定されることが望ましい。
これにより、前記第1の分離行列における行列要素のグループと、前記第2の分離行列における行列要素との対応関係が明確になる。
また、前記分離行列設定手段における前記集約とは、例えば、前記第1の分離行列を構成する行列要素について、複数のグループごとに1つの行列要素を選択することや、或いは複数のグループごとに行列要素の平均値若しくは加重平均値を算出すること等である。
ここで、学習計算に対応するフーリエ変換処理と、フィルタ処理に対応するフーリエ変換処理とで、入力信号の時間長(サンプル数)が異なることは、音源分離性能に影響するとも考えられる。しかしながら、後述する実験結果によれば、その影響は比較的小さい。
例えば、前記第2の時間領域信号が、前記第2の時間長の2倍以上の予め定められた時間長分の最新の前記混合音声信号であることが考えられる。
或いは、前記第2の時間領域信号が、前記第2の時間長の2倍の時間長分の最新の前記混合音声信号に所定の数の定数信号(例えば、0値信号)が付加された信号であることも考えられる。なお、0値信号とは、値が0の信号である。
また、本発明は、以上に示した音源分離装置が備える各手段が実行する処理を、所定のプロセッサにより実行する音源分離方法として捉えることもできる。
同様に、本発明は、所定のプロセッサを、以上に示した音源分離装置が備える各手段として機能させるための音源分離プログラムとして捉えることもできる。
また、分離行列の学習計算に対応するフーリエ変換(前記第1のフーリエ変換手段の処理)の実行周期(前記第1の時間t1)は、前記第2の時間t2に関わらず、十分長い時間(例えば、8kHzのサンプリング周期×1024サンプルの信号の長さ相当)に設定できる。これにより、出力遅延の時間を短縮しつつ、高い音源分離性能を確保することができる。
ここに、図1は本発明の実施形態に係る音源分離装置Xの概略構成を表すブロック図、図2は音源分離装置Xによるフィルタ処理(第1実施例)の流れを表すブロック図、図3は音源分離装置Xによるフィルタ処理(第2実施例)の流れを表すブロック図、図4は音源分離装置Xによる時間領域信号の設定処理の様子を表す図、図5は音源分離装置Xによる第1の実施例の処理と従来の音源分離処理との性能比較実験の結果を表すグラフ、図6は音源分離装置Xによる第2の実施例の処理と従来の音源分離処理との性能比較実験の結果を表すグラフである。
音源分離装置Xは、複数の音源1、2が存在する音響空間に配置される複数のマイクロホン111、112(音響入力手段)に接続される。
そして、音源分離装置Xは、そのマイクロホン111、112各々を通じて逐次入力される複数の混合音声信号xi(t)から、各音源1、2のうちの1つ以上に対応する音源信号を分離(同定)した分離信号(即ち、音源信号を同定した信号)yi(t)を逐次生成してスピーカ(音声出力手段)に対してリアルタイム出力するものである。ここで、混合音声信号は、音源1、2各々からの音源信号(個別の音声信号)が重畳された信号であり、一定のサンプリング周期で逐次デジタル化されて入力されるデジタル信号である。
また、デジタル処理部Yは、第1入力バッファ31、第1FFT処理部32、第1中間バッファ33、学習演算部34、第2入力バッファ41、第2FFT処理部42、第2中間バッファ43、分離フィルタ処理部44、第3中間バッファ45、IFFT処理部46、第4中間バッファ47、合成処理部48及び出力バッファ49を備えている。
ここで、デジタル処理部Yは、例えば、DSP(Digital Signal Processor)等の演算用のプロセッサ及びそのプロセッサにより実行されるプログラムが記憶されたROM等の記憶手段、並びにRAM等のその他の周辺装置により構成される。また、デジタル処理部Yは、1つのCPU及びその周辺装置を有するコンピュータと、そのコンピュータにより実行されるプログラムとにより構成される場合もある。また、デジタル処理部Yが有する機能は、所定のコンピュータ(音源分離装置が備えるプロセッサを含む)に実行させる音源分離プログラムとしても提供可能である。
なお、図1には、入力される混合音声信号xi(t)のチャンネル数(即ち、マイクロホンの数)が2つである例について示しているが、チャンネル数nは、分離対象とする音源信号の数以上であれば、3チャンネル以上であっても同様の構成により実現できる。
入力バッファ23は、A/Dコンバータ21によりデジタル化された混合音声信号を一時記憶するメモリである。新たな混合音声信号Si(t)が入力バッファ23にN/4サンプル分だけ蓄積されるごとに、そのN/4サンプル分の混合音声信号Si(t)は、入力バッファ23から第1入力バッファ31及び第2入力バッファ41のそれぞれに伝送される。従って、入力バッファ23の記憶容量は、N/2サンプル分(=N/4×2)以上あれば足りる。
即ち、第1FFT処理部32は、第1入力バッファ31にNサンプル分の新たな混合音声信号Si(t)が記録されるごとに、フーリエ変換処理を実行する。なお、第1FFT処理部32の処理の実行周期(ここでは、Nサンプル分の信号の時間長)を、以下、第1の時間t1という。
より具体的には、第1FFT処理部32は、Nサンプル以上、即ち、第1の時間t1の長さ分以上(ここでは、2Nサンプル分)の最新の混合音声信号である第1時間領域信号S0にフーリエ変換処理を施し、これにより得られる第1周波数領域信号Sf0を、第1中間バッファ33に一時記憶させる(第1のフーリエ変換手段の一例)。
また、学習演算部34(分離行列学習計算手段の一例)は、所定の時間Tsecごとに、第1中間バッファ33に一時記憶された最新の時間Tsec分の第1周波数領域信号Sf0を読み出し、読み出した信号に基づいて、前述したFDICA法(周波数領域での独立成分分析法)による学習計算を行う。
さらに、学習演算部34は、その学習計算により算出される分離行列(以下、第1分離行列という)に基づいて、分離信号の分離生成(フィルタ処理)に用いる分離行列(以下、第2分離行列という)を設定及び更新する(分離行列設定手段の一例)。なお、第2分離行列の設定方法については後述する。
次に、図2を参照しつつ、音源分離装置Xによるフィルタ処理の第1実施例について説明する。図2は、音源分離装置Xによるフィルタ処理(第1実施例)の流れを表すブロック図である。
ここで、図2に示す各バッファ(第2入力バッファ41、第2中間バッファ43、第3中間バッファ45、第4中間バッファ47、出力バッファ49)は、説明の便宜上、非常に多くのデータを蓄積可能であるかのように記載されている。しかしながら、実際には、各バッファは、記憶するデータのうち不要になったものが順次消去され、これにより生じる空き領域が再利用されるので、その記憶容量は必要十分な量に設定されている。
このように、音源分離処理装置Xでは、第2FFT処理部42によるフーリエ変換処理の実行周期(即ち、第2の時間t2)が、第1FFT処理部32によるフーリエ変換処理の実行周期(即ち、第1の時間t1)よりも短い周期となるように予め設定されている。
また、第2FFT処理部42は、少なくともN/4サンプル分ずつ時間帯が順次重複する第2時間領域信号S1(混合音声信号)について、フーリエ変換処理を実行する。ここで、第2入力バッファ41に蓄積された信号のサンプル数が、2N個に満たない場合(処理開始後の初期の段階)には、第2FFT処理部42は、不足する数だけ0値を充当した信号について、フーリエ変換処理を実行する。
なお、この第2周波数領域信号Sf1の周波数ビンの数は、第2周波数領域信号Sf1のサンプル数の1/2倍(=N個)である。
まず、図2に示すように、第2時間領域信号S1が、最新の2Nサンプル分の混合音声信号であることが考えられる。
その他、第2時間領域信号S1が、第2の時間t2の2倍の時間長分の最新の混合音声信号(最新のN/2サンプル分の混合音声信号)に、(3N/4)個の定数信号(例えば、0値信号)が付加された信号であることも考えられる。そのような第2時間領域信号S1は、例えば、第2FFT処理部42がパディング処理を行うことによって設定される。
図4は、パディング処理によって第2時間領域信号S1を設定する処理の様子を表すブロック図である。図4において、各升目はN/4サンプル分の混合音声信号のセットを表す。また、図4において、各升目に記す「0」は0値信号を表し、各升目に記す「1」〜「3」は、N/4サンプル分の混合音声信号の時系列の番号を表す。
図4(a)「Case1」は、最新の(2N/4)サンプル分の混合音声信号を信号列の最後尾に配置し、残りの部分に(6N/4)サンプル分の0値信号(定数信号の一例)を付加(充当)するパディング処理により、第2時間領域信号S1(合計2Nサンプル分の信号)が設定される様子を表す。
図4(b)「Case2」は、最新の(2N/4)サンプル分の混合音声信号を信号列の先頭に配置し、残りの部分に(6N/4)サンプル分の0値信号(定数信号の一例)を付加(充当)するパディング処理により、第2時間領域信号S1(合計2Nサンプル分の信号)が設定される様子を表す。
図4(c)「Case3」は、最新の(2N/4)サンプル分の混合音声信号を信号列における中間の予め定められた位置に配置し、残りの部分に(6N/4)サンプル分の0値信号(定数信号の一例)を付加(充当)するパディング処理により、第2時間領域信号S1(合計2Nサンプル分の信号)が設定される様子を表す。
また、合成処理部48は、第4中間バッファ47に新たな第3時間領域信号S2が記録されるごとに、以下に示す合成処理を実行することによって新たな分離信号S3を生成し、その信号を出力バッファ49に一時記憶させる。
ここで、前記合成処理は、IFFT処理部46によって得られた新たな第3時間領域信号S2とその1回前に得られた第3時間領域信号S2とについて、それらにおける時間帯が重複する一部分の両信号(ここでは、N/4サンプル分の信号)を、例えばクロスフェードの重み付けをして加算すること等によって合成する処理である。これにより、平滑化された分離信号S3が得られる。
以上の処理により、多少の出力遅延が生じるものの、音源に対応する分離信号S3(前述した分離信号yi(t)と同じもの)が、リアルタイムで出力バッファ49に記録される。
従って、学習演算部34(分離行列設定手段の一例)は、学習計算により得られる前記第1分離行列を、そのままフィルタ処理に用いる前記第2分離行列として設定する。
この学習演算部34の処理により、フィルタ処理に用いられる前記第2分離行列が、音響環境の変化に適合したものに適宜更新される。
一方、第1FFT処理部32の処理の実行周期(時間t1)は、時間t2に関わらず、十分長い時間(例えば、8kHzのサンプリング周期×1024サンプルの信号の長さ相当)に設定できる。これにより、出力遅延の時間を短縮しつつ、高い音源分離性能を確保することができる。
前述したようにFDICA法による音源分離処理では、出力遅延の時間が、フィルタ処理の入力信号として用いる第2周波数領域信号Sf1を得るための処理(第2FFT処理部42の処理)の実行周期t2の2倍強から3倍程度の時間となる。
これに対し、音源分離装置Xでは、第2FFT処理部42の処理の実行周期t2を、従来よりも十分に短く設定することができ、出力遅延の時間を従来よりも大幅に短縮できる。図2に示した実施例では、出力遅延の時間を、図8に示した従来の音源分離処理における出力遅延の時間に対して4分の1に短縮できる。
一方、分離行列の学習計算に対応するフーリエ変換処理(第1FFT処理部32の処理)の実行周期(第1の時間t1)は、前記第2の時間t2に関わらず、十分長い時間(例えば、8kHzのサンプリング周期×1024サンプルの信号の長さ相当)に設定できる。これにより、出力遅延の時間を短縮しつつ、高い音源分離性能を確保することができる。
実験条件は、以下の通りである。
まず、所定の空間において、ある基準位置から左右の等距離の位置それぞれに2つのマイクロホン111、112を所定方向(以下、正面方向という)に向けて配置した。ここで、前記基準位置を中心とした場合に、正面方向を0°方向とし、上方から見て時計回りの角度をθとする。
そして、2つの音源(第1音源及び第2音源)の種類及び配置方向は、次の7パターン(以下、音源パターン1〜音源パターン7という)とした。
音源パターン1:第1音源の種類は発話する男性。第1音源の配置方向はθ=−30°の方向。第2音源は発話する女性。第2音源の配置方向はθ=+30°の方向。
音源パターン2:第1音源の種類は発話する男性。第1音源の配置方向はθ=−60°の方向。第2音源はエンジン音を発する自動車。第2音源の配置方向はθ=+60°の方向。
音源パターン3:第1音源の種類は発話する男性。第1音源の配置方向はθ=−60°の方向。第2音源は所定のノイズ音を発する音源。第2音源の配置方向はθ=+60°の方向。
音源パターン4:第1音源の種類は発話する男性。第1音源の配置方向はθ=−60°の方向。第2音源は所定のクラッシック音楽を出力する音響機器。第2音源の配置方向はθ=+60°の方向。
音源パターン5:第1音源の種類は発話する男性。第1音源の配置方向はθ=0°の方向。第2音源は発話する女性。第2音源の配置方向はθ=+60°の方向。
音源パターン6:第1音源の種類は発話する男性。第1音源の配置方向はθ=−60°の方向。第2音源は所定のクラッシック音楽を出力する音響機器。第2音源の配置方向はθ=0°の方向。
音源パターン7:第1音源の種類は発話する男性。第1音源の配置方向はθ=−60°の方向。第2音源はエンジン音を発する自動車。第2音源の配置方向はθ=0°の方向。
また、いずれの音源パターンにおいても、混合音声信号のサンプリング周波数は8kHzである。
また、評価値(グラフの縦軸)は、第1音源の信号を分離対象とする目的信号(Signal)とした場合に、これに第2音源の信号成分(Noise)がどの程度混入しているかを示すSN比(dB)である。SN比の値が大きいほど、音源信号の分離性能が高いことを表す。
一方、図5において、gx1は、音源分離装置Xによる第1実施例の音源分離処理において、N=512であり、第2FFT処理部42への入力信号(第2時間領域信号S1)が最新の2Nサンプル分の混合音声信号である場合の結果(出力遅延は48msec)を表す。
また、gx2は、音源分離装置Xによる第1実施例の音源分離処理において、N=512であり、第2FFT処理部42への入力信号(第2時間領域信号S1)が図4に示したパディング処理(0値充当)に基づく信号である場合の結果(出力遅延は48msec)を表す。
ちなみに、従来の音源分離処理において、第1FFT処理部32及び第2FFT処理部42’の両方の処理周期を単に1/4倍(N=128)とした場合(g2)、音源分離性能が大きく劣化することがわかる。
以上に示したように、音源分離処理装置Xによれば、出力遅延の時間を短縮しつつ、高い音源分離性能を確保することができる。
次に、図3を参照しつつ、音源分離装置Xによるフィルタ処理の第2実施例について説明する。図3は、音源分離装置Xによるフィルタ処理(第2実施例)の流れを表すブロック図である。
この第2実施例のフィルタ処理が、前記第1実施例のフィルタ処理と異なる点は、第2時間領域信号S1のサンプル数が少ない(信号の時間長が短い)点である。即ち、この第2実施例では、第2時間領域信号S1のサンプル数が、第1時間領域信号S0のサンプル数よりも短く設定されている。これは、第2時間領域信号S1の時間長が、第1時間領域信号S0の時間長よりも短く設定されているということと同じ意味である。
図3に示す例では、第2時間領域信号S1のサンプル数が(2N/4)個に設定されている。これに対し、第1時間領域信号S0のサンプル数は、第1実施例の場合と同じ2N個である(図8参照)。即ち、第2時間領域信号S1の時間長の4倍(2倍以上の整数倍の一例)が、第1時間領域信号S0の時間長となるように設定されている。
これにより、第3時間領域信号S2のサンプル数も(2N/4)個になる。しかしながら、第1実施例においても、合成処理部48は、時間帯が重複するN/4サンプル分の信号についてのみ合成処理を行うものである。従って、第2実施例においても、合成処理部48の処理は、第1実施例の場合と特に変わりはない。第1実施例の場合と異なるのは、第3時間領域信号S2中に、合成処理に用いない信号が含まれないことだけである。
図3に示す例では、第1時間領域信号S0のサンプル数(2N)が、第2時間領域信号S1のサンプル数(=N/2)の4倍となるため、前記第1分離行列の行列要素(フィルタ係数)4個と、前記第2分離行列の行列要素1個とが相互に対応する関係となる。
そこで、第2実施例では、学習演算部34(分離行列設定手段の一例)は、前記第1分離行列を構成する行列要素(フィルタ係数)を、前記第2分離行列の行列要素それぞれに対応する複数のグループに区分し、そのグループごとに行列要素(フィルタ係数)を集約することに、前記第2分離行列として設定する分離行列(行列要素)を算出する。
その1つは、前記第1分離行列を構成する行列要素(フィルタ係数)について、複数のグループごとに1つの行列要素を代表値として選択するという集約処理が考えられる。以下、この集約を代表値集約という。
その他、前記第1分離行列を構成する行列要素(フィルタ係数)について、複数のグループごとに行列要素の平均値を算出、或いは予め定められた重み係数に基づく加重平均値を算出するという集約処理も考えられる。以下、この集約を平均値集約という。なお、この平均値集約には、各グループにおいて、その一部の行列要素についての平均値や加重平均値を算出することも含まれる。例えば、4個の行列要素(フィルタ係数)ごとにグループ化される場合、グループごとに所定の3つの行列要素について平均値を求めること等が考えられる。
これらいずれかの集約処理により、学習演算部34は、必要十分な数の行列要素(フィルタ係数)を有する前記第2分離行列を設定する。
このような第2実施例に係る音源分離処理によっても、前記第1実施例の場合と同様に、出力遅延の時間を短縮しつつ、高い音源分離性能を確保することができる。
ここで、学習計算に対応するフーリエ変換処理と、フィルタ処理に対応するフーリエ変換処理とで、入力信号の時間長(サンプル数)が異なることは、音源分離性能に影響するとも考えられる。しかしながら、以下に示す実験結果によれば、その影響は比較的小さい。
実験条件とした音源パターンは、前述した音源パターン1〜音源パターン7と同じである。また、混合音声信号のサンプリング周波数は8kHzである。
さらに、評価値(グラフの縦軸)も、図5に示したものと同じSN比であり、その値が大きいほど、音源信号の分離性能が高いことを表す。
また、図6において、g1及びg2は、図5に示したg1及びg2と同じ実験の結果である。
一方、図6において、gx3は、音源分離装置Xによる第2実施例の処理において、N=512であり、第2FFT処理部42への入力信号(第2時間領域信号S1)が最新のN/2サンプル分の混合音声信号であり、前記平均値集約(通常の平均値計算)によって前記第2分離行列を設定した場合の結果(出力遅延は48msec)を表す。
また、gx4は、音源分離装置Xによる第2実施例の処理において、N=512であり、第2FFT処理部42への入力信号(第2時間領域信号S1)が最新のN/2サンプル分の混合音声信号であり、前記代表値集約によって前記第2分離行列を設定した場合の結果(出力遅延は48msec)を表す。
一方、音源分離装置X1の処理結果gx4(代表値集約)は、前記平均値集約の場合の処理結果gx3ほどの分離性能は得られていない。しかしながら、処理結果gx4(代表値集約)は、音源パターン6や音源パターン7のように、音源の一方が正面に配置されているような音源パターンにおいて、処理結果g2よりも分離性能が改善されている。一般に、音源の1つが正面に配置された音源パターンは、ICA法による音源分離処理によって高い分離性能が得られにくいパターンである。
従って、音源の存在方向を検知或いは推定することが可能である場合、音源の存在方向に応じて、前記第2分離行列を設定するための集約処理の方法を切り替えることが考えられる。同様に、音源の存在方向に応じて、音源分離処理の方法自体(本発明の音源分離処理か従来の音源分離処理か)を切り替えることも考えられる。
Y…デジタル処理部
1、2…音源
21…A/Dコンバータ
22…D/Aコンバータ
23…入力バッファ
31…第1入力バッファ
32…第1FFT処理部
33…第1中間バッファ
34…学習演算部
41…第2入力バッファ
42…第2FFT処理部
43…第2中間バッファ
44…分離フィルタ処理部
45…第3中間バッファ
46…IFFT処理部
47…第4中間バッファ
48…合成処理部
49…出力バッファ
111、112…マイクロホン
Claims (10)
- 複数の音源が存在する音響空間に複数のマイクロホンが存在する状態で、該マイクロホン各々を通じて入力される音響信号を一定のサンプリング周期で逐次デジタル化して得られる複数の混合音響信号に基づいて、1以上の前記音源に対応する音響信号である分離信号を分離生成する音源分離装置であって、
所定の第1の時間長分の新たな前記混合音響信号が得られるごとに、該第1の時間長以上の時間長分の最新の前記混合音声信号である第1の時間領域信号にフーリエ変換処理を施し、該フーリエ変換処理により得られる第1の周波数領域信号を所定の記憶手段に一時記憶させる第1のフーリエ変換手段と、
前記第1のフーリエ変換手段により得られた1又は複数の前記第1の周波数領域信号に基づいて周波数領域での独立成分分析法による学習計算を行うことにより、所定の第1の分離行列を算出する分離行列学習計算手段と、
前記分離行列学習計算手段により算出された前記第1の分離行列に基づいて前記分離信号の分離生成に用いる第2の分離行列を設定して更新する分離行列設定手段と、
前記第1の時間長よりも短い予め定められた第2の時間長分の新たな前記混合音響信号が得られるごとに、該第2の時間長の2倍の時間長分の最新の前記混合音声信号を含む第2の時間領域信号にフーリエ変換処理を施し、該フーリエ変換処理により得られる第2の周波数領域信号を所定の記憶手段に一時記憶させる第2のフーリエ変換手段と、
前記第2のフーリエ変換手段により新たな前記第2の周波数領域信号が得られるごとに、該第2の周波数領域信号に対して前記分離行列設定手段により更新される前記第2の分離行列に基づくフィルタ処理を施し、これにより得られる第3の周波数領域信号を所定の記憶手段に一時記憶させる分離フィルタ処理手段と、
前記分離フィルタ処理手段により新たな前記第3の周波数領域信号が得られるごとに、該第3の周波数領域信号に逆フーリエ変換処理を施し、該逆フーリエ変換処理により得られる第3の時間領域信号を所定の記憶手段に一時記憶させる逆フーリエ変換手段と、
前記逆フーリエ変換手段により新たな前記第3の時間領域信号が得られるごとに、該第3の時間領域信号とその1回前に得られた前記第3の時間領域信号とにおける時間帯が重複する部分の両信号を合成することによって新たな前記分離信号を生成する信号合成手段と、
を具備してなることを特徴とする音源分離装置。 - 前記第1の時間領域信号の時間長と前記第2の時間領域信号の時間長とが等しく設定されており、
前記分離行列設定手段が、前記第1の分離行列をそのまま前記第2の分離行列として設定してなる請求項1に記載の音源分離装置。 - 前記第2の時間領域信号の時間長が、前記第1の時間領域信号の時間長よりも短く設定されており、
前記分離行列設定手段が、前記第1の分離行列を構成する行列要素を複数のグループごとに集約することにより得られる行列を前記第2の分離行列として設定してなる請求項1に記載の音源分離装置。 - 前記第2の時間領域信号の時間長が、その2倍以上の整数倍が前記第1の時間領域信号の時間長となるように設定されてなる請求項3に記載の音源分離装置。
- 前記分離行列設定手段における前記集約が、前記第1の分離行列を構成する行列要素について、複数のグループごとに1つの行列要素を選択すること、又は複数のグループごとに行列要素の平均若しくは加重平均を算出することである請求項3又は4のいずれかに記載の音源分離装置。
- 前記第2の時間領域信号が、前記第2の時間長の2倍以上の予め定められた時間長分の最新の前記混合音声信号である請求項1〜5のいずれかに記載の音源分離装置。
- 前記第2の時間領域信号が、前記第2の時間長の2倍の時間長分の最新の前記混合音声信号に所定の数の定数信号が付加された信号である請求項1〜5のいずれかに記載の音源分離装置。
- 前記第2の時間領域信号が、前記第2の時間長の2倍の時間長分の最新の前記混合音声信号に所定の数の0値信号が付加された信号である請求項7に記載の音源分離装置。
- 複数の音源が存在する音響空間に複数のマイクロホンが存在する状態で、該マイクロホン各々を通じて入力される音響信号を一定のサンプリング周期で逐次デジタル化して得られる複数の混合音響信号に基づいて、1以上の前記音源に対応する音響信号である分離信号を分離生成する処理を所定のプロセッサにより実行する音源分離方法であって、
所定の第1の時間長分の新たな前記混合音響信号が得られるごとに、該第1の時間長以上の時間長分の最新の前記混合音声信号である第1の時間領域信号にフーリエ変換処理を施し、該フーリエ変換処理により得られる第1の周波数領域信号を所定の記憶手段に一時記憶させる第1のフーリエ変換手順と、
前記第1のフーリエ変換手順により得られた1又は複数の前記第1の周波数領域信号に基づいて周波数領域での独立成分分析法による学習計算を行うことにより、所定の第1の分離行列を算出する分離行列学習計算手順と、
前記分離行列学習計算手順により算出された前記第1の分離行列に基づいて前記分離信号の分離生成に用いる第2の分離行列を設定して更新する分離行列設定手順と、
前記第1の時間長よりも短い予め定められた第2の時間長分の新たな前記混合音響信号が得られるごとに、該第2の時間長の2倍の時間長分の最新の前記混合音声信号を含む信号である第2の時間領域信号を設定する時間領域信号設定手順と、
前記時間領域信号設定手順により設定された前記第2の時間領域信号各々にフーリエ変換処理を施し、該フーリエ変換処理により得られる第2の周波数領域信号を所定の記憶手段に一時記憶させる第2のフーリエ変換手順と、
前記第2のフーリエ変換手順により新たな前記第2の周波数領域信号が得られるごとに、該第2の周波数領域信号に対して前記分離行列設定手順により更新される前記第2の分離行列に基づくフィルタ処理を施し、これにより得られる第3の周波数領域信号を所定の記憶手段に一時記憶させる分離フィルタ処理手順と、
前記分離フィルタ処理手順により新たな前記第3の周波数領域信号が得られるごとに、該第3の周波数領域信号に逆フーリエ変換処理を施し、該逆フーリエ変換処理により得られる第3の時間領域信号を所定の記憶手段に一時記憶させる逆フーリエ変換手順と、
前記逆フーリエ変換手順により新たな前記第3の時間領域信号が得られるごとに、該第3の時間領域信号とその1回前に得られた前記第3の時間領域信号とにおける時間帯が重複する部分の両信号を合成することによって新たな前記分離信号を生成する信号合成手順と、
を有してなることを特徴とする音源分離方法。 - 所定のプロセッサを、複数の音源が存在する音響空間に複数のマイクロホンが存在する状態で、該マイクロホン各々を通じて入力される音響信号を一定のサンプリング周期で逐次デジタル化して得られる複数の混合音響信号に基づいて、1以上の前記音源に対応する音響信号である分離信号を分離生成する音源分離装置として機能させるための音源分離プログラムであって、
所定のプロセッサを、
所定の第1の時間長分の新たな前記混合音響信号が得られるごとに、該第1の時間長以上の時間長分の最新の前記混合音声信号である第1の時間領域信号にフーリエ変換処理を施し、該フーリエ変換処理により得られる第1の周波数領域信号を所定の記憶手段に一時記憶させる第1のフーリエ変換手段と、
前記第1のフーリエ変換手段により得られた1又は複数の前記第1の周波数領域信号に基づいて周波数領域での独立成分分析法による学習計算を行うことにより、所定の第1の分離行列を算出する分離行列学習計算手段と、
前記分離行列学習計算手段により算出された前記第1の分離行列に基づいて前記分離信号の分離生成に用いる第2の分離行列を設定して更新する分離行列設定手段と、
前記第1の時間長よりも短い予め定められた第2の時間長分の新たな前記混合音響信号が得られるごとに、該第2の時間長の2倍の時間長分の最新の前記混合音声信号を含む第2の時間領域信号にフーリエ変換処理を施し、該フーリエ変換処理により得られる第2の周波数領域信号を所定の記憶手段に一時記憶させる第2のフーリエ変換手段と、
前記第2のフーリエ変換手段により新たな前記第2の周波数領域信号が得られるごとに、該第2の周波数領域信号に対して前記分離行列設定手段により更新される前記第2の分離行列に基づくフィルタ処理を施し、これにより得られる第3の周波数領域信号を所定の記憶手段に一時記憶させる分離フィルタ処理手段と、
前記分離フィルタ処理手段により新たな前記第3の周波数領域信号が得られるごとに、該第3の周波数領域信号に逆フーリエ変換処理を施し、該逆フーリエ変換処理により得られる第3の時間領域信号を所定の記憶手段に一時記憶させる逆フーリエ変換手段と、
前記逆フーリエ変換手段により新たな前記第3の時間領域信号が得られるごとに、該第3の時間領域信号とその1回前に得られた前記第3の時間領域信号とにおける時間帯が重複する部分の両信号を合成することによって新たな前記分離信号を生成する信号合成手段と、
の各手段として機能させるための音源分離プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006207006A JP4672611B2 (ja) | 2006-07-28 | 2006-07-28 | 音源分離装置、音源分離方法及び音源分離プログラム |
US11/819,311 US7650279B2 (en) | 2006-07-28 | 2007-06-26 | Sound source separation apparatus and sound source separation method |
EP07014083A EP1895515A1 (en) | 2006-07-28 | 2007-07-18 | Sound source separation apparatus and sound source separation method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006207006A JP4672611B2 (ja) | 2006-07-28 | 2006-07-28 | 音源分離装置、音源分離方法及び音源分離プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008035259A JP2008035259A (ja) | 2008-02-14 |
JP4672611B2 true JP4672611B2 (ja) | 2011-04-20 |
Family
ID=38871755
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006207006A Expired - Fee Related JP4672611B2 (ja) | 2006-07-28 | 2006-07-28 | 音源分離装置、音源分離方法及び音源分離プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US7650279B2 (ja) |
EP (1) | EP1895515A1 (ja) |
JP (1) | JP4672611B2 (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006120829A1 (ja) * | 2005-05-13 | 2006-11-16 | Matsushita Electric Industrial Co., Ltd. | 混合音分離装置 |
JP5034469B2 (ja) * | 2006-12-08 | 2012-09-26 | ソニー株式会社 | 情報処理装置および情報処理方法、並びに、プログラム |
JP4897519B2 (ja) * | 2007-03-05 | 2012-03-14 | 株式会社神戸製鋼所 | 音源分離装置,音源分離プログラム及び音源分離方法 |
US7987090B2 (en) * | 2007-08-09 | 2011-07-26 | Honda Motor Co., Ltd. | Sound-source separation system |
US9031242B2 (en) | 2007-11-06 | 2015-05-12 | Starkey Laboratories, Inc. | Simulated surround sound hearing aid fitting system |
JP5159279B2 (ja) * | 2007-12-03 | 2013-03-06 | 株式会社東芝 | 音声処理装置及びそれを用いた音声合成装置。 |
US8340333B2 (en) * | 2008-02-29 | 2012-12-25 | Sonic Innovations, Inc. | Hearing aid noise reduction method, system, and apparatus |
US8705751B2 (en) | 2008-06-02 | 2014-04-22 | Starkey Laboratories, Inc. | Compression and mixing for hearing assistance devices |
US9485589B2 (en) | 2008-06-02 | 2016-11-01 | Starkey Laboratories, Inc. | Enhanced dynamics processing of streaming audio by source separation and remixing |
US9185500B2 (en) | 2008-06-02 | 2015-11-10 | Starkey Laboratories, Inc. | Compression of spaced sources for hearing assistance devices |
US8515096B2 (en) | 2008-06-18 | 2013-08-20 | Microsoft Corporation | Incorporating prior knowledge into independent component analysis |
JP5277887B2 (ja) * | 2008-11-14 | 2013-08-28 | ヤマハ株式会社 | 信号処理装置およびプログラム |
KR101587844B1 (ko) | 2009-08-26 | 2016-01-22 | 삼성전자주식회사 | 마이크로폰의 신호 보상 장치 및 그 방법 |
US8583428B2 (en) | 2010-06-15 | 2013-11-12 | Microsoft Corporation | Sound source separation using spatial filtering and regularization phases |
JP5699749B2 (ja) * | 2011-03-31 | 2015-04-15 | 富士通株式会社 | 携帯端末装置の位置判定システムおよび携帯端末装置 |
DK3007467T3 (da) * | 2014-10-06 | 2017-11-27 | Oticon As | Høreapparat, der omfatter en lydkildeadskillelsesenhed med lav latenstid |
JP6987075B2 (ja) | 2016-04-08 | 2021-12-22 | ドルビー ラボラトリーズ ライセンシング コーポレイション | オーディオ源分離 |
CN114220454B (zh) * | 2022-01-25 | 2022-12-09 | 北京荣耀终端有限公司 | 一种音频降噪方法、介质和电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004109779A (ja) * | 2002-09-20 | 2004-04-08 | Kobe Steel Ltd | 音声処理装置 |
JP2005227512A (ja) * | 2004-02-12 | 2005-08-25 | Yamaha Motor Co Ltd | 音信号処理方法及びその装置、音声認識装置並びにプログラム |
JP2006154314A (ja) * | 2004-11-29 | 2006-06-15 | Kobe Steel Ltd | 音源分離装置,音源分離プログラム及び音源分離方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003271168A (ja) | 2002-03-15 | 2003-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 信号抽出方法および信号抽出装置、信号抽出プログラムとそのプログラムを記録した記録媒体 |
GB0326539D0 (en) * | 2003-11-14 | 2003-12-17 | Qinetiq Ltd | Dynamic blind signal separation |
JP4675177B2 (ja) | 2005-07-26 | 2011-04-20 | 株式会社神戸製鋼所 | 音源分離装置,音源分離プログラム及び音源分離方法 |
-
2006
- 2006-07-28 JP JP2006207006A patent/JP4672611B2/ja not_active Expired - Fee Related
-
2007
- 2007-06-26 US US11/819,311 patent/US7650279B2/en not_active Expired - Fee Related
- 2007-07-18 EP EP07014083A patent/EP1895515A1/en not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004109779A (ja) * | 2002-09-20 | 2004-04-08 | Kobe Steel Ltd | 音声処理装置 |
JP2005227512A (ja) * | 2004-02-12 | 2005-08-25 | Yamaha Motor Co Ltd | 音信号処理方法及びその装置、音声認識装置並びにプログラム |
JP2006154314A (ja) * | 2004-11-29 | 2006-06-15 | Kobe Steel Ltd | 音源分離装置,音源分離プログラム及び音源分離方法 |
Also Published As
Publication number | Publication date |
---|---|
US7650279B2 (en) | 2010-01-19 |
EP1895515A1 (en) | 2008-03-05 |
JP2008035259A (ja) | 2008-02-14 |
US20080027714A1 (en) | 2008-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4672611B2 (ja) | 音源分離装置、音源分離方法及び音源分離プログラム | |
JP4496186B2 (ja) | 音源分離装置、音源分離プログラム及び音源分離方法 | |
JP4675177B2 (ja) | 音源分離装置,音源分離プログラム及び音源分離方法 | |
JP2007156300A (ja) | 音源分離装置、音源分離プログラム及び音源分離方法 | |
JP5375400B2 (ja) | 音声処理装置、音声処理方法およびプログラム | |
EP1748588A2 (en) | Apparatus and method for sound source separation | |
JP6881459B2 (ja) | 情報処理装置、情報処理方法及び記録媒体 | |
JP2007295085A (ja) | 音源分離装置及び音源分離方法 | |
CN107863094A (zh) | 电子管乐器、乐音生成装置、乐音生成方法 | |
CN108604452A (zh) | 声音信号增强装置 | |
JP4462617B2 (ja) | 音源分離装置,音源分離プログラム及び音源分離方法 | |
JPWO2020039571A1 (ja) | 音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システム | |
JPWO2015159731A1 (ja) | 音場再現装置および方法、並びにプログラム | |
JP2007215163A (ja) | 音源分離装置,音源分離装置用のプログラム及び音源分離方法 | |
JP2007279517A (ja) | 音源分離装置、音源分離装置用のプログラム及び音源分離方法 | |
JP2008072600A (ja) | 音響信号処理装置、音響信号処理プログラム、音響信号処理方法 | |
CN113453120B (zh) | 效果赋予装置、方法及存储介质 | |
JP2007033804A (ja) | 音源分離装置,音源分離プログラム及び音源分離方法 | |
JP2007282177A (ja) | 音源分離装置、音源分離プログラム及び音源分離方法 | |
JP4527654B2 (ja) | 音声通信装置 | |
JP2008134298A (ja) | 信号処理装置、信号処理方法およびプログラム | |
KR20210150372A (ko) | 신호 처리 장치, 신호 처리 방법 및 프로그램 | |
JP6597062B2 (ja) | 雑音低減装置、雑音低減方法、雑音低減プログラム | |
JP2005031169A (ja) | 音声信号処理装置,その方法,そのプログラム | |
JP7138824B2 (ja) | 音源分離モデル学習装置、音源分離装置、プログラム、音源分離モデル学習方法及び音源分離方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080807 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110107 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110118 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110119 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140128 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |