JP6005443B2 - 信号処理装置、方法及びプログラム - Google Patents

信号処理装置、方法及びプログラム Download PDF

Info

Publication number
JP6005443B2
JP6005443B2 JP2012184552A JP2012184552A JP6005443B2 JP 6005443 B2 JP6005443 B2 JP 6005443B2 JP 2012184552 A JP2012184552 A JP 2012184552A JP 2012184552 A JP2012184552 A JP 2012184552A JP 6005443 B2 JP6005443 B2 JP 6005443B2
Authority
JP
Japan
Prior art keywords
separation matrix
section
signal
function
auxiliary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012184552A
Other languages
English (en)
Other versions
JP2014041308A (ja
Inventor
谷口 徹
徹 谷口
小野 順貴
順貴 小野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Inter University Research Institute Corp Research Organization of Information and Systems
Original Assignee
Toshiba Corp
Inter University Research Institute Corp Research Organization of Information and Systems
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Inter University Research Institute Corp Research Organization of Information and Systems filed Critical Toshiba Corp
Priority to JP2012184552A priority Critical patent/JP6005443B2/ja
Priority to US13/967,623 priority patent/US9349375B2/en
Publication of JP2014041308A publication Critical patent/JP2014041308A/ja
Application granted granted Critical
Publication of JP6005443B2 publication Critical patent/JP6005443B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明の実施形態は、信号処理装置、方法及びプログラムに関する。
従来から、複数のマイクロフォンで観測した複数音源から到来した、音声などの音響信号を音源毎に分離する音源分離を中心に、時系列信号を分離する技術の研究が進められている。その中で、音源方向等の事前情報が不要な、いわゆるブラインド音源分離の技術として、独立成分分析を用いた手法が盛んに研究されてきた。
独立成分分析による信号分離は、各信号源から到来する音響信号が互いに統計的に独立であるという仮定の下、信号を信号源毎に分離する技術である。独立成分分析は、信号の分離に用いる分離行列のパラメータを、その分離行列により分離した信号の統計的独立性を最大化するという規準で求める最適化問題として定式化できる。しかし、その解は解析的には求まらず、勾配法などの逐次最適化手法のために分離行列パラメータの繰り返し更新が必要となる。このため、十分な信号の分離精度を得るためには計算量が大きくなる問題があった。また、解を少ない計算量で精度良く求めるためには、繰り返し計算で用いるステップサイズというパラメータを、事前に手動で、または観測信号によって、適切に調節する必要があった。
これに対し、最適化問題の目的関数に対して、ある条件の下に設定した補助関数を用いることで、自然勾配法より計算量が少なく、ステップサイズのようなパラメータ設定が不要で安定した分離精度が得られる補助関数法が提案されている。また、独立成分分析による音源分離で必要なパーミテーションという後処理を不要とした独立ベクトル分析を、その補助関数法によって行う方式が提案されている。
特開2011−175114号公報 特許第4449871号公報
しかしながら、従来技術では、ブラインド音源分離処理を、音源の移動および出現などの環境変動に対応しつつ実時間で行うことができなかった。
実施形態の信号処理装置は、複数の時系列の入力信号を分離行列により分離して得られる複数の分離信号間の統計的独立性が高いほど小さい関数値を出力する目的関数に応じて定められる、補助変数を引数にもつ補助関数であって、前記補助変数に関する関数値の最小化と前記分離行列に関する関数値の最小化とを交互に行うことにより前記目的関数の関数値を低減する前記分離行列を算出可能な補助関数を近似する近似補助関数を用いて、前記入力信号における時間長が0でない第1区間と、前記第1区間とは異なる第2区間とを含む処理対象区間の前記補助変数を推定する推定部であって、前記第1区間の前記入力信号に対して推定された前記補助変数と、前記第2区間の前記入力信号とに基づいて、前記処理対象区間の前記補助変数の値を推定する前記推定部と、推定された前記補助変数の値と前記分離行列とに基づいて、前記近似補助関数の関数値が最小になるように前記分離行列を更新する更新部と、更新された前記分離行列を用いて前記入力信号を分離することにより、前記分離信号を生成する生成部とを備える。
本実施形態の信号処理装置のブロック図。 本実施形態の信号処理のフローチャート。 本実施形態の補助変数推定・行列更新処理のフローチャート。 本実施形態の信号処理装置のハードウェア構成図。
以下に添付図面を参照して、この発明にかかる信号処理装置の好適な実施形態を詳細に説明する。
ブラインド音源分離処理を実時間で行うためには、一定時刻毎に、過去からその時刻までの観測信号を用いて分離行列を更新し、更新した分離行列を用いてその時刻の信号を分離する、いわゆるオンライン処理を行えばよい。ここで、分離信号の出力までの遅延時間を常に一定内に保つ、すなわち実時間処理のためには、遅延時間が蓄積されないように、各更新の計算時間を更新時間間隔より短くする必要がある。一方で、環境変動に短時間で追従するために、更新時間間隔はなるべく短くすることが望ましい。
独立成分分析を用いた音源分離手法により音源分離を行う際には、その分離行列の更新時のたびに、分離対象とする観測信号すべてが参照される。従って、それらの手法による音源分離処理をオンラインで行うためには、過去からある時刻までの観測信号を所定の時間長だけ保持しておき、それらを参照しながら分離行列を更新すればよい。しかし、参照する観測信号が長いほど更新毎の計算量は大きくなる。一方、その観測信号を短くすると、計算量は小さくなるが、分離精度やその安定性に問題が生じる。
本実施形態にかかる信号処理装置は、補助関数法を用いて観測信号を分離する。そして、本実施形態にかかる信号処理装置は、区間(第1区間)の分離行列を更新するときに用いる補助変数を、第1区間と異なる区間(第2区間)の観測信号に対して推定された補助変数と、第1区間の時系列信号とから推定する。これにより、オンライン処理の各時刻で、所定の時間長の観測信号すべてを参照する必要がなくなる。すなわち、音源分離処理のオンライン処理を実現する場合の更新ごとの計算量の増加を回避できる。
本実施形態は、脳波信号および電波信号などの、複数の観測が得られる一般の時系列信号の分離に適用可能である。以下の実施形態では、音響信号の分離を例として説明する。
今、空間中に、移動しないK個の音源が存在し、M個の観測点により音源からの信号を観測したとする。音源信号と観測信号の関係は、それぞれの時間周波数表現の信号s(ω,t)、x(ω,t)と、M×K次元で時不変の空間伝達特性行列A(ω)を用いて、以下の(1)式のように表現できる。
x(ω,t)=A(ω)s(ω,t)+n(ω,t)・・・(1)
s(ω,t)、x(ω,t)は、それぞれK次元、M次元の複素縦ベクトルである。ωは周波数ビン番号である。tは時刻である。時間周波数表現の信号は、例えば、対応する時系列信号から短時間フーリエ変換(STFT)を用いて計算する。n(ω,t)は、時系列信号を時間周波数表現にした際に生じる誤差や周囲雑音等のノイズを表す。
従って、x(ω,t)から音源信号を推定した推定信号(分離信号)y(ω,t)を得るためには、以下の(2)式中のK×M次元の分離行列W(ω)を適切な値に定めてやればよい。
y(ω,t)=W(ω)x(ω,t)・・・(2)
もし空間伝達特性行列A(ω)が既知であれば、その疑似逆行列を計算することで容易に適切なW(ω)を設定できる。しかし、現実の応用ではA(ω)を事前に得ることは難しい。A(ω)に関する情報が事前に得られない場合に、分離行列W(ω)を求めるのがブラインド音源分離の問題である。
なお、以後の説明では、s(ω,t)、x(ω,t)、y(ω,t)、W(ω)の各要素を、以下の(3)式のように表す。なお、Tは行列の転置、Hは行列の複素共役転置を表す。
s(ω,t)=[s(ω,t),s(ω,t),・・・,s(ω,t)]
x(ω,t)=[x(ω,t),x(ω,t),・・・,x(ω,t)]
y(ω,t)=[y(ω,t),y(ω,t),・・・,y(ω,t)]
W(ω)=[w(ω),w(ω),・・・,w(ω)]
・・・(3)
本実施形態は、音響信号の時間周波数表現での分離を説明しているが、適用できる信号はこれに限られるものではない。(1)式のように、複数の時系列の観測信号が、複数信号源の行列の積にノイズを加えたものとしてモデル化できるものであれば、どのような時系列信号にでも適用できる。例えば、瞬時混合された音響信号の分離にも適用できる。
独立成分分析によるブラインド音源分離では、音源数Kが観測数M以下の場合に、分離信号間の統計的独立性を最大化するという規準で分離行列を最適化することで音源分離を実現する。以下の説明では簡単のため、K=Mの場合について述べる。K<Mの場合は、予め主成分分析等を用いて観測信号数をKに減らしておけばよい。結果として、独立成分分析は以下の(4)式に示す目的関数J(W(ω))を最小化する問題として定式化できる。
Figure 0006005443
ただし、E[・]は時刻tに関する期待値である。また、G(・)は、以下の(5)式のように音源の確率密度関数q(・)を用いた関数である。
G(y(ω))=−logq(y(ω))・・・(5)
確率密度関数q(・)には正規分布以外の優ガウスまたは劣ガウス分布を用いればよいことが知られている。例えば、音源が人間の声の場合は、優ガウス分布を用いることが一般的である。
(4)式の独立成分分析では、周波数毎に個別に音源分離を行う。このため、一般には、各帯域の各分離チャネルの信号がいずれの音源に対応するかは分からない。そこで、分離チャネルの信号を同じ音源由来の信号にまとめ直すパーミテーションという後処理が必要であった。それに対し、パーミテーションを不要とした独立ベクトル分析と呼ばれる手法が提案されている。独立ベクトル分析は、以下の(6)式に示す目的関数J(W)を最小化する問題である。
Figure 0006005443
独立ベクトル分析では、(4)式の各周波数の分離信号y(ω)の代わりに、全周波数の分離信号ベクトルyと、多次元の確率密度関数q(・)に対応したG(・)とが用いられる。それにより、同じ分離チャネルの周波数間で音源の整合性を保ったまま、分離チャネル間の独立性を最大化することができるようになる。すなわち、後処理のパーミテーションが不要となる。
ここで、WはW(ω)の全周波数の集合を表し、Nωは周波数の上限を表す。分離信号ベクトルyは以下の(7)式で表される。
=[y(1),y(2),・・・,y(Nω)]・・・(7)
(4)式と(6)式の最小化問題は、従来、自然勾配法などの勾配法で解かれていた。勾配法では以下の(8)式に示すように、ある方法により計算した分離行列Wの修正量ΔWを用いて、Wを逐次更新することで目的関数を最小化する。
W←W+ηΔW・・・(8)
ここで、ηはステップサイズと呼ばれる正の実数である。ηの値を適切な大きさに設定すれば、上記更新により目的関数を最小化するWを求めることができる。しかし、一般には事前にその値を適切に決めるのは困難である。そして、仮にステップサイズが大きすぎると最適解に収束せず、逆にステップサイズが小さすぎると収束が遅くなる。
そこで、独立成分分析および独立ベクトル分析それぞれに関して、勾配法の代わりに補助関数法を適用し、(4)式および(6)式の最適解を高速かつ安定に求める方法が提案されている。以下では、目的関数が(6)式の独立ベクトル分析の場合について説明する。独立成分分析の場合も同様の手順で(4)式を最適化可能である。
補助関数法は、目的関数J(W)に対して、J(W)≦Q(W,V)、J(W)=minQ(W,V)である、補助変数Vを持つ補助関数Q(W,V)を設定し、以下の(9)式および(10)式の最小化を交互に繰り返し行うことにより、目的関数J(W)をより小さくするようなWを求める最適化手法である。
Figure 0006005443
Figure 0006005443
(9)式および(10)式の繰り返しにより、目的関数J(W)は単調減少することが保証されている。そのため、収束が保証されていない勾配法よりも収束が早く、安定した解を求めることができる。補助関数法を適用するためには、目的関数に対して、(9)式および(10)式が実行可能な補助関数を探し出して設定する必要がある。
例えば、以下の(11)式のように補助関数Q(W,V)を設定すれば、独立ベクトル分析に補助関数法を適用できる。
Figure 0006005443
ただし、V(ω)は補助変数Vの1要素であり、以下の(12)式のように定義される。
Figure 0006005443
G‘(r)/rは0以上の実数rに関して連続であり、単調減少する関数として定義する。G‘(r)はG(r)をrで微分した関数である。G(r)はG(|y|)=G(r)との定義から(5)式の音源の確率密度関数と関連している。G‘(r)/rの定義から、(11)式および(12)式の補助関数を用いた最適化は、音源に優ガウス性を仮定した音源分離を行うことを意味しており、人の声などの分離に適している。例えば、G(r)=rといった関数を用いることができるが、上記定義の条件を満たせばどのような関数でも利用できる。
(11)式および(12)式で定義される補助関数を用いると、(9)式の最小化は、以下の(13)式を(12)式に代入することで実行できる。
Figure 0006005443
また、(10)式の最小化は、以下の(14)式のようにW(ω)を更新することで実行できる。
Figure 0006005443
ただし、eはk番目の要素のみが1であり、残りの要素が0であるK次元縦ベクトルである。
ここで、(12)式の期待値は、実際には以下の(15)式のような時間平均によって求める。
Figure 0006005443
は正の整数で、観測信号の時間長である。この時間平均を以下の(16)式のように、過去のある時刻τ−N+1から現時刻τまでの範囲で計算すると、オンライン処理が実現できる。
Figure 0006005443
(13)式はwを含んでいるため、分離行列を更新するたびに(16)式を計算し直す必要がある。オンライン処理では、各時刻でwを更新するので、1回の更新に対して(16)式のG‘(r (t))/r (t)をKN回計算し直すこととなる。従って、各時刻あたりの計算量が膨大になる。
ここで、Nを小さくすることで計算量を減らすこともできそうである。しかし、N=1など極端な場合はV(ω)の正則性が失われ、(14)式で逆行列が計算できない。また、仮に計算できたとしても、得られた分離行列が短い区間の信号に過適合し、結果として分離精度が低下する可能性がある。勾配法を用いた方法でも、同様に1時刻の観測信号を用いて分離行列を更新する方法が考えられるが、同様の欠点を持っている。
そこで本実施形態では、(16)式の代わりに、以下の(17)式のように時刻τでの補助変数V(τ)を、前の時刻τ−1の補助変数V(τ−1)によって逐次的に計算するように近似を行う。
Figure 0006005443
αは0以上1以下の実数の忘却係数である。忘却係数αの値が小さいほど、過去の観測の影響が少なくなる。なお、r(τ)は以下の(18)式で表される。
Figure 0006005443
(13)式のr (t)も各時刻について計算するので、(18)式と(13)式の意味するところは同じである。
(16)式を(17)式のように近似することにより、1回の更新あたりの計算量を大幅に減らすことができる。(17)式では、直接計算に用いる観測信号は1時刻のみのため、G‘(r(τ))/r(τ)をK回のみ計算すればよい。もちろん、ある程度過去にさかのぼってG‘(r(τ))/r(τ)を計算するよう(17)式の右辺を変形してもかまわない。
また、(17)式の補助変数の近似を用いることで、音源の移動等の環境変動に追従できる。(17)式は忘却係数αにより、近い過去の観測に対してより大きな重みをつけてV(ω)を計算していると解釈できる。さらに、G‘(r(τ))で参照する過去の分離行列と、過去の分離行列によって得られる分離信号についても同じ重みが付けられる。このため、処理開始時や環境変動前における分離信号も徐々に考慮しなくなり、過去の分離行列の推定誤りや環境変動による現時刻への影響を減らすことができる。
(17)式の近似により、(9)式にあるVに関する補助関数Q(W,V)の最小化は実行されない。このため、目的関数J(W)の理論上の収束性は厳密には保証できなくなる。しかし、実際にはこの近似により十分な精度の補助変数Vの推定が可能である。なぜなら、(16)式は信号x(ω,t)の重み付き共分散と解釈でき、(17)式はその重み係数を過去の各時点でのwとαにより近似していることに相当するからである。wが時刻が進むにつれ所望の分離行列に近づいていると考えると、αにより信頼できる近い過去に対して高い重みを与えるのは理にかなっている。なお、推定したVにより十分な分離精度を実現する分離行列が計算可能なことも実験的に確認している。従って、実用上は上記のように計算量や、環境変動への追従の点で大きなメリットがある。
ここまでは、V(τ)の近似は直前時刻のV(τ−1)との重み付け和の形で実現した。計算に用いる時刻は直前時刻に限らず、利用できる計算済みのVであればいずれの時刻であってもよい。例えば、事前に観測信号全体が得られた場合や、分離処理で数時刻分の遅延が許される場合に、直前時刻に限らず、直後のVを用いることができれば、現時刻のVをより正確に予想することもできる。また、音源分離の際に、画像など他の種類の信号から音源位置の推測がある程度可能な場合、過去に音源が現時刻と近い位置にあったときのVを利用することもできる。また、過去の複数のVの重み付け和によって求めてもよいし、重み付け和以外の一般の1変数関数または多変数関数によって求めてもよい。さらに、(17)式で用いる観測信号は、現時刻τのものだけでなく、現時刻を含め過去の数時刻のものを用いてもかまわない。以上をまとめると、(17)式は以下の(19)式のように一般化できる。
Figure 0006005443
ここで、f(β)(・・・)は、多変数の関数であり、βは関数の形状を操作する形状パラメータである。Nを大きくしたり、f(β)(・・・)を非線形の関数にしたり、引数の数を増やしたりすれば、計算量は大きくなるが、Vを正確に近似することが可能となる。
推定部112は、観測信号の属性を示す属性情報に応じて補助変数の推定方式を変更してもよい。また、更新部113は、属性情報に応じて分離行列の更新方式を変更してもよい。属性情報とは、例えば、音源の位置を示す情報、および、観測信号のパワー値などである。
例えば、(17)式の忘却係数αや(19)式のβは、固定の値ではなく、観測信号や音源の状況に合わせて動的に変更してもかまわない。すなわち、画像センサなどを用いて音源の移動が検知できる場合は、音源の移動の状況に応じて忘却係数αの値を変更してもよい。例えば、音源が移動した場合、移動前のVは、現在のVの推定に役に立たないと考えられるため、(17)式の忘却係数αを小さくする。これにより、近い過去や現時刻の観測に対する重みをより強くした推定が可能となり、音源移動への分離行列の追従を早くすることもできる。
また、1時刻における分離行列の更新は何度行ってもかまわない。例えば、信号分離処理の開始時は1時刻あたりの更新回数を多くし、数時刻後は更新回数を少なくする、などの方法を用いてもよい。これにより、開始時には最適な分離行列に早く近づくことを目指し、数時刻後は分離行列がある程度収束していると考えられるので、計算量を減らすことが可能となる。
また、分離行列更新時の分離行列の値、目的関数の関数値、または、補助関数の関数値の変化量(更新量)が所定の閾値より小さくなったときに更新を止めるように構成してもよい。また、観測信号のパワー値が小さいときは、分離行列の推定に必要な情報が得にくいと考え、更新回数を減らす、または、更新を停止する、といった方法を用いてもよい。
さらに、(14)式の分離行列更新に含まれる、W(ω)とV(ω)の逆行列計算を以下で述べるように変形することにより、更新毎における計算時間を減らすことができる。
まず、W(ω)の逆行列をZ(ω)=W−1(ω)としたとき、前回のW(ω)の更新でw (n−1)(ω)がw (n)(ω)に更新された場合に、Δw=w (n)(ω)−w (n−1)(ω)とおくと、(各記号の括弧付きの上付き文字は、分離行列Wの更新回数を表す)、以下の(20)式のように書くことができる。Δwは分離行列の更新量に相当する。なお(20)式ではωを省略して記載している。
(n+1)←W(n)+eΔw ・・・(20)
(20)式に以下の(21)式に示す逆行列補題という数学的定理を適用すると、(22)式に示すように更新前のWの逆行列Zから、更新後のWの逆行列Zを逐次的に計算することができる。(21)式のAはK×K次元の正方行列、BはK×L次元の行列、CはL×K次元の行列である。Iは単位行列を表す。
(A+BC)−1=A−1−A−1B(I+CA−1B)−1CA−1・・・(21)
Figure 0006005443
また、V(t+1)を(17)式で計算する場合、その逆行列U(t+1)は、1時刻前のU(t)を用いて、以下の(23)式のように計算される。
Figure 0006005443
ただし、p(t+1)は以下の(24)式で表される。
Figure 0006005443
(23)式も(22)式と同様に(21)式の逆行列補題を(17)式に適用することにより導かれる。(22)式と(23)式で求めたZとUにより、(14)式の1番目の分離行列更新式は以下の(25)式のように書き換えることができる。
(ω)←U(ω)Z(ω)e・・・(25)
逆行列の計算は、行列の積と和の演算と比較して高速化が困難である。そこで、(22)式と(23)式を用いて各々の逆行列を逐次的に計算する形に変形する。これにより、逆行列計算を行列の積と和の計算に置き換えることができ、結果として分離行列更新処理の大幅な高速化が可能となる。なお、(22)式および(23)式の右辺第2項の分母はスカラーとなるため、(22)式および(23)式では逆行列の計算は発生しない。
以上、本実施形態の時系列信号分離方法について、計算式により説明した。次に、図を用いて本実施形態における信号処理装置の具体的構成について説明する。
図1は、本実施形態の信号処理装置100の構成例を示すブロック図である。信号処理装置100は、受付部101と、生成部111と、推定部112と、更新部113と、記憶部121と、を備えている。
受付部101は、信号処理の対象となる観測信号(入力信号)の入力を受付ける。例えば、受付部101は、信号処理装置100の外部の信号観測装置によって得られたM個の時系列中の、現時刻のM個の時系列の観測信号の入力を受付ける。
生成部111は、入力された観測信号に対して分離行列を適用することで分離信号を生成する。例えば、生成部111は、入力された観測信号x(ω,t)に対し、更新部113により更新された分離行列W(ω)を(2)式のように適用することで、現時刻の分離信号y(ω,t)を生成する。
推定部112は、ある区間(第1区間)の観測信号に対して補助関数を用いて推定された補助変数と、第1区間と異なる第2区間の観測信号と、に基づいて、第2区間の補助変数を推定する。例えば、推定部112は、過去の観測信号(第1区間)から推定された補助変数と、現時刻の観測信号(第2区間)と、現時点の分離行列の値と、を参照して、(17)式や(19)式により、現時刻の補助変数の値を推定する。なお、更新部113が(14)式の代わりに(25)式を用いる場合は、推定部112が(23)式を計算し、補助変数の逆行列も計算しておく。
更新部113は、推定された補助変数と分離行列とから補助関数の関数値が最小になるように分離行列を更新する。例えば、更新部113は、推定部112により推定された補助変数と、現時点の分離行列とを参照し、(14)式を用いて分離行列を更新する。(14)の第1式の代わりに(25)式を用いる場合は、更新部113は、(25)式を計算する前に、(22)式により現時点の分離行列の逆行列を計算しておく。
記憶部121は、信号処理で用いる各種データを記憶する。例えば、記憶部121は、過去に推定した補助変数を記憶する。過去に推定した補助変数は、上述のように推定部112が現時刻の補助変数を推定するときに参照される。
受付部101、生成部111、推定部112、および、更新部113は、例えば、CPU(Central Processing Unit)などの処理装置にプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、IC(Integrated Circuit)などのハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。
また、記憶部121は、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAM(Random Access Memory)などの一般的に利用されているあらゆる記憶媒体により構成することができる。
次に、このように構成された本実施形態にかかる信号処理装置100による信号処理について図2を用いて説明する。図2は、本実施形態における信号処理の一例を示すフローチャートである。
例えば、受付部101が、M個のマイクロフォンで観測された複数のA/D(アナログ/デジタル)変換された時系列のデジタル音響信号(観測信号)を受付けると図2の信号処理が開始される。
時間周波数表現で音響信号(観測信号)を分離する場合等であれば、受付部101はM個の時系列毎に短時間フーリエ変換を行う(ステップS101)。また、受付部101は、短時間フーリエ変換で得られる時間周波数表現の観測信号を、複数の区間に分割する(ステップS102)。単純には、短時間フーリエ変換結果の1時刻分を1つの時間区間とし、(3)式のx(ω,t)のようなM次元のベクトルを1区間の観測信号とする。時間区間の分割方法はこれに限られるものではなく、例えば、1つの時間区間は複数時刻からなる信号ベクトル列であってもよい。分割された区間毎に順次ステップS103〜ステップS106の処理が行われる。
ステップS103では、推定部112および更新部113により補助変数推定・行列更新処理が実行される(詳細は後述)。これにより、現時刻の補助変数が推定され、推定された補助変数を用いて分離行列が更新される。
生成部111は、更新された分離行列に対するスケーリングを行う(ステップS104)。ステップS103で更新された分離行列は、周波数間で観測信号に対する振幅のスケールが異なるため、ステップS104でスケールを揃える処理を行う。具体的には、ステップS103で周波数ωの分離行列W(ω)が得られたとき、以下の(26)式のようにW(ω)を更新する。
W(ω)←diag(W−1(ω))W(ω)・・・(26)
ただし、diag(A)は、行列Aの非対角項を0にする関数を表す。このとき、ステップS103で(23)式のZ(ω)を計算していれば、上式のW(ω)の逆行列計算の代わりにその値をそのまま用いることができる。これにより計算量を減らすことができる。
生成部111は、ステップS104までに得られた分離行列を、(2)式のように観測信号に適用することで観測信号の分離信号を生成する(ステップS105)。
生成部111は、処理対象となるすべての時刻の観測信号について処理を終了したか否かを判断する(ステップS106)。終了していない場合(ステップS106:No)、ステップS103に戻り処理を繰り返す。終了した場合(ステップS106:Yes)、ステップS107の処理を実行する。
ステップS105で得られた分離信号は、短時間フーリエ変換による時間周波数信号であるため、生成部111は、必要に応じて、オーバーラップアド法などにより、時系列音響信号に変換する(ステップS107)。なお、音声認識への応用などのため時間周波数信号のみが必要であれば、ステップS107は省略してもよい。
図3は、ステップS103の補助変数推定・行列更新処理の一例を示すフローチャートである。
現時刻の観測信号に対して、図3に示す処理が実行される。推定部112または更新部113は、本処理の処理回数(更新回数)をカウントするためのカウンタjを初期化する(ステップS201)。推定部112または更新部113は、カウンタjに1加算する(ステップS202)。
推定部112は、観測信号のK個のチャネル(分離チャネル)のうち、未処理のチャネルを処理対象とする。各チャネルの実行順序は任意である。そして、推定部112は、処理対象のチャネルk(1≦k≦K)の未処理の周波数ω(1≦ω≦Nω)について、過去の観測信号から推定された補助変数と、現時刻の観測信号と、現時点の分離行列と、を参照して、現時刻の補助変数の値を推定する(ステップS203)。
更新部113は、推定された補助変数と分離行列とを用いて補助関数の関数値が最小になるように分離行列を更新する(ステップS204)。
推定部112または更新部113は、すべての周波数を処理したか否かを判断する(ステップS205)。すべての周波数を処理していない場合(ステップS205:No)、ステップS203に戻り、次の未処理の周波数に対して処理を繰り返す。なお、あるチャネルに対する処理は各周波数ω間で依存関係がないので、並列に計算することで計算時間を短縮するように構成してもよい。
すべての周波数を処理した場合(ステップS205:Yes)、推定部112または更新部113は、すべてのチャネルを処理したか否かを判断する(ステップS206)。すべてのチャネルを処理していない場合(ステップS206:No)、ステップS203に戻り、次の未処理のチャネルに対して処理を繰り返す。すべてのチャネルを処理した場合(ステップS206:Yes)、推定部112または更新部113は、カウンタjが規定回数より大きいか否かを判断する(ステップS207)。カウンタjが規定回数より大きくない場合(ステップS207:No)、ステップS202に戻り処理を繰り返す。カウンタjが規定回数より大きい場合(ステップS207:Yes)、補助変数推定・行列更新処理を終了する。
なお、規定回数は固定値でもよいし、上述のように予め定めた規則によって時刻毎に変更してもかまわない。
以上説明したとおり、本実施形態にかかる信号処理装置では、環境変動への追従速度や分離精度を保ちつつ、音源分離処理のオンライン処理の計算量を減らすことができる。
次に、本実施形態にかかる信号処理装置のハードウェア構成について図4を用いて説明する。図4は、本実施形態にかかる信号処理装置のハードウェア構成を示す説明図である。
本実施形態にかかる信号処理装置は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM(Random Access Memory)53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。
本実施形態にかかる信号処理装置で実行されるプログラムは、ROM52等に予め組み込まれて提供される。
本実施形態にかかる信号処理装置で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。
さらに、本実施形態にかかる信号処理装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態にかかる信号処理装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
本実施形態にかかる信号処理装置で実行されるプログラムは、コンピュータを上述した信号処理装置の各部として機能させうる。このコンピュータは、CPU51がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100 信号処理装置
101 受付部
111 生成部
112 推定部
113 更新部
121 記憶部

Claims (14)

  1. 複数の時系列の入力信号を分離行列により分離して得られる複数の分離信号間の統計的独立性が高いほど小さい関数値を出力する目的関数に応じて定められる、補助変数を引数にもつ補助関数であって、前記補助変数に関する関数値の最小化と前記分離行列に関する関数値の最小化とを交互に行うことにより前記目的関数の関数値を低減する前記分離行列を算出可能な補助関数を近似する近似補助関数を用いて、前記入力信号における時間長が0でない第1区間と、前記第1区間とは異なる第2区間とを含む処理対象区間の前記補助変数を推定する推定部であって、
    前記第1区間の前記入力信号に対して推定された前記補助変数と、前記第2区間の前記入力信号とに基づいて、前記処理対象区間の前記補助変数の値を推定する前記推定部と、
    推定された前記補助変数の値と前記分離行列とに基づいて、前記近似補助関数の関数値が最小になるように前記分離行列を更新する更新部と、
    更新された前記分離行列を用いて前記入力信号を分離することにより、前記分離信号を生成する生成部と、
    を備える信号処理装置。
  2. 前記入力信号は、逐次的に入力される信号であり、
    前記第1区間は、過去に入力された前記入力信号を含む区間であり、前記第2区間は、現在入力された前記入力信号を含む区間である、
    請求項1に記載の信号処理装置。
  3. 前記更新部は、第1ステップの前記分離行列の更新時に用いる前記分離行列の逆行列を、前記第1ステップより前の第2ステップで更新された前記分離行列の逆行列と、前記第2ステップで更新された前記分離行列の更新量と、に基づいて算出する、
    請求項1に記載の信号処理装置。
  4. 前記推定部は、前記処理対象区間の前記補助変数の値を、前記第1区間の前記入力信号に対して推定された前記補助変数の値と、前記補助関数に従って前記第2区間の前記入力信号から求まる前記補助変数の値と、の重み付け和によって推定する、
    請求項1に記載の信号処理装置。
  5. 前記更新部は、第1時刻の前記分離行列の更新時に用いる前記補助変数の逆行列を、前記第1時刻より前の第2時刻で更新された前記補助変数の逆行列と、前記第1時刻の前記入力信号と、に基づいて算出する、
    請求項1に記載の信号処理装置。
  6. 前記推定部は、前記入力信号の属性を示す属性情報に応じて、前記補助変数の推定方式を変更する、
    請求項1に記載の信号処理装置。
  7. 前記推定部は、前記処理対象区間の前記補助変数の値を、前記第1区間の前記入力信号に対して推定された前記補助変数の値と、前記補助関数に従って前記第2区間の前記入力信号から求まる前記補助変数の値と、の重み付け和によって推定し、前記重み付け和の重みを前記属性情報に応じて変更する、
    請求項6に記載の信号処理装置。
  8. 前記入力信号は音源から出力される音響信号であり、
    前記属性情報は、前記音源の位置である、
    請求項6に記載の信号処理装置。
  9. 前記更新部は、前記入力信号の属性を示す属性情報に応じて、前記分離行列の更新方式を変更する、
    請求項1に記載の信号処理装置。
  10. 前記属性情報は、前記入力信号のパワー値である、
    請求項9に記載の信号処理装置。
  11. 前記更新部は、更新前の前記分離行列に対する更新後の前記分離行列の更新量が閾値より小さくなるまで、前記分離行列を更新する、
    請求項1に記載の信号処理装置。
  12. 前記推定部による前記補助変数の推定、および、前記更新部による前記分離行列の更新、を繰り返し実行し、
    前記生成部は、繰り返し実行された後の前記分離行列を用いて前記入力信号を分離することにより、前記分離信号を生成する、
    請求項1に記載の信号処理装置。
  13. 複数の時系列の入力信号を分離行列により分離して得られる複数の分離信号間の統計的独立性が高いほど小さい関数値を出力する目的関数に応じて定められる、補助変数を引数にもつ補助関数であって、前記補助変数に関する関数値の最小化と前記分離行列に関する関数値の最小化とを交互に行うことにより前記目的関数の関数値を低減する前記分離行列を算出可能な補助関数を近似する近似補助関数を用いて、前記入力信号における時間長が0でない第1区間と、前記第1区間とは異なる第2区間とを含む処理対象区間の前記補助変数を推定する推定ステップであって、
    前記第1区間の前記入力信号に対して推定された前記補助変数と、前記第2区間の前記入力信号とに基づいて、前記処理対象区間の前記補助変数の値を推定する前記推定ステップと、
    推定された前記補助変数の値と前記分離行列とに基づいて、前記近似補助関数の関数値が最小になるように前記分離行列を更新する更新ステップと、
    更新された前記分離行列を用いて前記入力信号を分離することにより、前記分離信号を生成する生成ステップと、
    を含む信号処理方法。
  14. コンピュータを、
    複数の時系列の入力信号を分離行列により分離して得られる複数の分離信号間の統計的独立性が高いほど小さい関数値を出力する目的関数に応じて定められる、補助変数を引数にもつ補助関数であって、前記補助変数に関する関数値の最小化と前記分離行列に関する関数値の最小化とを交互に行うことにより前記目的関数の関数値を低減する前記分離行列を算出可能な補助関数を近似する近似補助関数を用いて、前記入力信号における時間長が0でない第1区間と、前記第1区間とは異なる第2区間とを含む処理対象区間の前記補助変数を推定する推定手段であって、
    前記第1区間の前記入力信号に対して推定された前記補助変数と、前記第2区間の前記入力信号とに基づいて、前記処理対象区間の前記補助変数の値を推定する前記推定手段と、
    推定された前記補助変数の値と前記分離行列とに基づいて、前記近似補助関数の関数値が最小になるように前記分離行列を更新する更新手段と、
    更新された前記分離行列を用いて前記入力信号を分離することにより、前記分離信号を生成する生成手段
    として機能させる、信号処理プログラム。
JP2012184552A 2012-08-23 2012-08-23 信号処理装置、方法及びプログラム Active JP6005443B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012184552A JP6005443B2 (ja) 2012-08-23 2012-08-23 信号処理装置、方法及びプログラム
US13/967,623 US9349375B2 (en) 2012-08-23 2013-08-15 Apparatus, method, and computer program product for separating time series signals

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012184552A JP6005443B2 (ja) 2012-08-23 2012-08-23 信号処理装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2014041308A JP2014041308A (ja) 2014-03-06
JP6005443B2 true JP6005443B2 (ja) 2016-10-12

Family

ID=50148795

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012184552A Active JP6005443B2 (ja) 2012-08-23 2012-08-23 信号処理装置、方法及びプログラム

Country Status (2)

Country Link
US (1) US9349375B2 (ja)
JP (1) JP6005443B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10262678B2 (en) 2017-03-21 2019-04-16 Kabushiki Kaisha Toshiba Signal processing system, signal processing method and storage medium
US10366706B2 (en) 2017-03-21 2019-07-30 Kabushiki Kaisha Toshiba Signal processing apparatus, signal processing method and labeling apparatus
US10460733B2 (en) 2017-03-21 2019-10-29 Kabushiki Kaisha Toshiba Signal processing apparatus, signal processing method and audio association presentation apparatus

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6355493B2 (ja) * 2014-09-08 2018-07-11 三菱電機株式会社 受信装置
EP3007467B1 (en) * 2014-10-06 2017-08-30 Oticon A/s A hearing device comprising a low-latency sound source separation unit
CN105989851B (zh) 2015-02-15 2021-05-07 杜比实验室特许公司 音频源分离
US11152014B2 (en) 2016-04-08 2021-10-19 Dolby Laboratories Licensing Corporation Audio source parameterization
EP3440670B1 (en) * 2016-04-08 2022-01-12 Dolby Laboratories Licensing Corporation Audio source separation
WO2017176968A1 (en) * 2016-04-08 2017-10-12 Dolby Laboratories Licensing Corporation Audio source separation
EP3440671B1 (en) * 2016-04-08 2020-02-19 Dolby Laboratories Licensing Corporation Audio source parameterization
JP6763721B2 (ja) 2016-08-05 2020-09-30 大学共同利用機関法人情報・システム研究機構 音源分離装置
JP6622159B2 (ja) 2016-08-31 2019-12-18 株式会社東芝 信号処理システム、信号処理方法およびプログラム
EP3392882A1 (en) * 2017-04-20 2018-10-24 Thomson Licensing Method for processing an input audio signal and corresponding electronic device, non-transitory computer readable program product and computer readable storage medium
JP6800809B2 (ja) 2017-06-01 2020-12-16 株式会社東芝 音声処理装置、音声処理方法およびプログラム
JP6976804B2 (ja) * 2017-10-16 2021-12-08 株式会社日立製作所 音源分離方法および音源分離装置
CN110111808B (zh) * 2019-04-30 2021-06-15 华为技术有限公司 音频信号处理方法及相关产品
CN110970056B (zh) * 2019-11-18 2022-03-11 清华大学 一种从视频中分离音源的方法
CN115280413A (zh) * 2020-02-28 2022-11-01 东京都公立大学法人 音源分离程序、音源分离方法以及音源分离装置
CN112332882B (zh) * 2020-10-28 2022-03-29 重庆邮电大学 一种基于毫米波全双工中继通信的鲁棒混合收发机设计方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6526148B1 (en) * 1999-05-18 2003-02-25 Siemens Corporate Research, Inc. Device and method for demixing signal mixtures using fast blind source separation technique based on delay and attenuation compensation, and for selecting channels for the demixed signals
US6654719B1 (en) * 2000-03-14 2003-11-25 Lucent Technologies Inc. Method and system for blind separation of independent source signals
US6879952B2 (en) * 2000-04-26 2005-04-12 Microsoft Corporation Sound source separation using convolutional mixing and a priori sound source knowledge
US6622117B2 (en) * 2001-05-14 2003-09-16 International Business Machines Corporation EM algorithm for convolutive independent component analysis (CICA)
JP4449871B2 (ja) 2005-01-26 2010-04-14 ソニー株式会社 音声信号分離装置及び方法
JP4496186B2 (ja) * 2006-01-23 2010-07-07 株式会社神戸製鋼所 音源分離装置、音源分離プログラム及び音源分離方法
US8874439B2 (en) * 2006-03-01 2014-10-28 The Regents Of The University Of California Systems and methods for blind source signal separation
US8521477B2 (en) * 2009-12-18 2013-08-27 Electronics And Telecommunications Research Institute Method for separating blind signal and apparatus for performing the same
JP2011175114A (ja) * 2010-02-25 2011-09-08 Univ Of Tokyo 信号処理方法及び装置
JP6099032B2 (ja) * 2011-09-05 2017-03-22 大学共同利用機関法人情報・システム研究機構 信号処理装置、信号処理方法及びコンピュータプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10262678B2 (en) 2017-03-21 2019-04-16 Kabushiki Kaisha Toshiba Signal processing system, signal processing method and storage medium
US10366706B2 (en) 2017-03-21 2019-07-30 Kabushiki Kaisha Toshiba Signal processing apparatus, signal processing method and labeling apparatus
US10460733B2 (en) 2017-03-21 2019-10-29 Kabushiki Kaisha Toshiba Signal processing apparatus, signal processing method and audio association presentation apparatus

Also Published As

Publication number Publication date
JP2014041308A (ja) 2014-03-06
US9349375B2 (en) 2016-05-24
US20140058736A1 (en) 2014-02-27

Similar Documents

Publication Publication Date Title
JP6005443B2 (ja) 信号処理装置、方法及びプログラム
US11395061B2 (en) Signal processing apparatus and signal processing method
JP6789455B2 (ja) 音声分離装置、音声分離方法、音声分離プログラム、及び音声分離システム
JP4245617B2 (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
US11894010B2 (en) Signal processing apparatus, signal processing method, and program
JP4316583B2 (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
JP2015521748A (ja) 入力信号を変換する方法
JPWO2009110578A1 (ja) 残響除去装置、残響除去方法、残響除去プログラム、および記録媒体
US9583120B2 (en) Noise cancellation apparatus and method
JP7267966B2 (ja) 情報処理装置及び情報処理方法
JP5669036B2 (ja) 信号分離のためのパラメータ推定装置、信号分離装置、信号分離のためのパラメータ推定方法、信号分離方法、および、プログラム
JP5387442B2 (ja) 信号処理装置
JP6343771B2 (ja) 頭部伝達関数のモデリング装置、その方法及びそのプログラム
JP6732944B2 (ja) 目的音強調装置、雑音推定用パラメータ学習装置、目的音強調方法、雑音推定用パラメータ学習方法、プログラム
JP5438629B2 (ja) ステレオ反響消去方法、ステレオ反響消去装置、ステレオ反響消去プログラム
JP5689844B2 (ja) スペクトル推定装置、その方法及びプログラム
JP5172536B2 (ja) 残響除去装置、残響除去方法、コンピュータプログラムおよび記録媒体
JP4729534B2 (ja) 残響除去装置、残響除去方法、残響除去プログラム、および、その記録媒体
JP6067760B2 (ja) パラメータ決定装置、パラメータ決定方法、およびプログラム
van Waterschoot et al. Embedded optimization algorithms for multi-microphone dereverberation
Nikolov et al. Discrete adaptive real-time state observer development using least-squares method
WO2022180741A1 (ja) 音響信号強調装置、方法及びプログラム
JP6343585B2 (ja) 未知伝達系推定装置、未知伝達系推定方法、およびプログラム
WO2016092837A1 (ja) 音声処理装置、雑音抑圧装置、音声処理方法および記録媒体
JP5033109B2 (ja) 音響エコーキャンセラ装置とその方法と、プログラムと記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150708

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20151102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20151104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160727

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160809

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160907

R150 Certificate of patent or registration of utility model

Ref document number: 6005443

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150