JP2021152623A

JP2021152623A - 信号処理装置、信号処理方法およびプログラム

Info

Publication number: JP2021152623A
Application number: JP2020053542A
Authority: JP
Inventors: 厚夫廣江; Atsuo Hiroe
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2021-09-30
Also published as: WO2021193093A1

Abstract

【課題】例えば、目的音を抽出する精度を向上させる。【解決手段】異なる位置に配置されたマイクロホンで収録され、目的音と目的音以外の音とが混合された混合音信号が入力され、混合音信号に基づいて目的音に対応する参照信号を生成する参照信号生成部と、混合音信号から参照信号に類似し、且つ、目的音がより強調された信号を抽出する音源抽出部とを有する信号処理装置である。【選択図】図４

Description

本開示は、信号処理装置、信号処理方法およびプログラムに関する。

抽出したい音（以下、目的音と適宜、称する）および除去したい音（以下、妨害音と適宜、称する）が混合された混合音信号から、目的音を抽出する技術が提案されている（例えば、下記特許文献１〜３を参照のこと。）。

特開２００６−７２１６３号公報

特許４４４９８７１号公報

特開２０１４−２１９４６７号公報

このような分野では、目的音を抽出する精度を向上させることが望まれている。

本開示は、目的音を抽出する精度を向上させた信号処理装置、信号処理方法、プログラムおよび信号処理システムを提供することを目的の一つとする。

本開示は、例えば、
異なる位置に配置されたマイクロホンで収録され、目的音と目的音以外の音とが混合された混合音信号が入力され、
混合音信号に基づいて目的音に対応する参照信号を生成する参照信号生成部と、
混合音信号から参照信号に類似し、且つ、目的音がより強調された信号を抽出する音源抽出部と
を有する
信号処理装置である。

本開示は、例えば、
異なる位置に配置されたマイクロホンで収録され、目的音と目的音以外の音とが混合された混合音信号が入力され、
参照信号生成部が、混合音信号に基づいて目的音に対応する参照信号を生成し、
音源抽出部が、混合音信号から参照信号に類似し、且つ、目的音がより強調された信号を抽出する
信号処理方法である。

本開示は、例えば、
異なる位置に配置されたマイクロホンで収録され、目的音と目的音以外の音とが混合された混合音信号が入力され、
参照信号生成部が、混合音信号に基づいて目的音に対応する参照信号を生成し、
音源抽出部が、混合音信号から参照信号に類似し、且つ、目的音がより強調された信号を抽出する
信号処理方法をコンピュータに実行させるプログラムである。

図１は、本開示の音源分離過程の一例を説明するための図である。図２は、デフレーション法に基づく、参照信号を用いた音源抽出方式の一例を説明するための図である。図３は、区間ごとに参照信号を生成した上で音源抽出を行なう処理を説明する際に参照される図である。図４は、一実施形態に係る音源抽出装置の構成例を示すブロック図である。図５は、区間推定および参照信号生成処理の一例を説明する際に参照される図である。図６は、区間推定および参照信号生成処理の他の例を説明する際に参照される図である。図７は、区間推定および参照信号生成処理の他の例を説明する際に参照される図である。図８は、実施形態に係る音源抽出部の詳細を説明する際に参照される図である。図９は、実施形態に係る音源抽出装置で行われる全体の処理の流れを説明する際に参照されるフローチャートである。図１０は、実施形態に係るＳＴＦＴ部で行われる処理を説明する際に参照される図である。図１１は、実施形態に係る音源抽出処理の流れを説明する際に参照されるフローチャートである。

以下、本開示の実施形態等について図面を参照しながらの説明がなされる。なお、説明は以下の順序で行われる。
＜本開示の概要、背景、および、考慮すべき問題について＞
＜本開示で用いられる技術＞
＜一実施形態＞
＜変形例＞
以下に説明する実施形態等は本開示の好適な具体例であり、本開示の内容がこれらの実施形態等に限定されるものではない。

［本明細書における表記について］
（数式の表記）
なお、以下では下記の表記に従って数式の説明を行う。
・「_」は、下つき文字を表わす。
（例） X_k ・・・「k」は下つき文字である。
・下つき文字が複数ある場合は、「{...}」で囲む。
（例）R_{xx} ・・・「xx」は下つき文字である。
・「^」は、上つき文字を表わす。
（例） W^H …… W のエルミート転置（=複素転置）行列
y_k(f,t)^H …… y_k(f,t) のエルミート転置ベクトル（共役複素数＆転置）
A^{-1} …… 分散行列 A の逆行列。
・conj(X) は、複素数 X の共役複素数を表わす。式の上では、X の共役複素数は X に上線をつけて表わす。
・hat(x) は、x の上に「^」をつけることを表わす。
・値の代入は、「=」または「←」で表わす。特に、両辺で等号が成立しないような操作（例えば“x ← x + 1”）については、必ず“←”で表わしている。
・行列は大文字で示し、ベクトルやスカラーは小文字を示す。また、行列とベクトルは太字で、スカラーは斜体で示している。

（用語の定義）
本明細書では、「音（信号）」と「音声（信号）」とを使い分けている。「音」はサウンドやオーディオなどの一般的な意味で使い、「音声」はボイスやスピーチを表わす用語として使用している。
また、「分離」と「抽出」とを、以下のように使い分けている。「分離」は、混合の逆であり、複数の原信号が混合した信号をそれぞれの原信号に分けることを意味する用語として用いる（入力も出力も複数ある。）。「抽出」は、複数の原信号が混合した信号から１つの原信号を取り出すことを意味する用語として用いる。（入力は複数だが、出力は１つである。）。
「フィルターを適用する」と「フィルタリングを行なう」とは同じ意味であり、同様に、「マスクを適用する」と「マスキングを行なう」とは同じ意味である。

＜本開示の概要、背景、および、考慮すべき問題について＞
始めに、本開示の理解を容易とするために、本開示の概要、背景、本開示において考慮すべき問題について説明する。

（本開示の概要）
本開示は、参照信号（リファレンス）を用いた音源抽出である。抽出したい音（目的音）と消したい音（妨害音）とが混合した信号を複数のマイクロホンで収録することに加え、目的音に対応した「ラフな」振幅スペクトログラムを生成し、その振幅スペクトログラムを参照信号として使用することで、参照信号に類似し、且つ、それよりも高精度の抽出結果を生成する信号処理装置である。すなわち、本開示の一形態は、混合音信号から参照信号に類似し、且つ、目的音がより強調された信号を抽出する信号処理装置である。

信号処理装置で行われる処理においては、参照信号と抽出結果との依存性（類似性）と、抽出結果と仮想的な他の分離結果との独立性との両方を反映した目的関数を用意し、それを最適化する解として抽出フィルターを求める。ブラインド音源分離で使用されるデフレーション法を用いることで、出力される信号は参照信号に対応した１音源分のみとすることができる。依存性と独立性とを共に考慮したビームフォーマーと見なせるため、以下では、Similarity-and-Independence-aware Beamformer（SIBF）と適宜、称する。

（背景）
本開示は、参照信号（リファレンス）を用いた音源抽出である。抽出したい音（目的音）と消したい音（妨害音）とが混合した信号を複数のマイクロホンで収録することに加え、目的音に対応した「ラフな」振幅スペクトログラムを取得または生成し、その振幅スペクトログラムを参照信号として使用することで、参照信号に類似かつそれよりも高精度の抽出結果を生成する。

本開示が想定している使用状況は、例えば、下記の（１）〜（３）の条件をすべて満たすものとする。
（１）観測信号は複数のマイクロホンで同期して収録される。
（２）目的音が鳴っている区間すなわち時間範囲は既知であり、前述の観測信号は少なくともその区間を含んでいるものとする。
（３）参照信号として、目的音に対応したラフな振幅スペクトログラム（ラフな目的音スペクトログラム）が取得済み、あるいは前述の観測信号から生成可能であるとする。

上記の各条件について補足する。
上記（１）の条件において、各マイクロホンは固定されていてもいなくても良く、どちらであっても各マイクロホンおよび音源の位置は未知で良い。固定されたマイクロホンの例としてはマイクロホンアレイがあり、固定されていないマイクロホンの例としては、各発話者がピンマイクロホン等を装着している場合が考えられる。

上記（２）の条件において、目的音が鳴っている区間とは、例えば特定話者の音声を抽出する場合であれば発話区間のことである。区間は既知である一方、区間の外側において、目的音が鳴っているか否かは未知であるとする。すなわち、区間の外側には目的音は存在しないといった仮定は、成立しない場合がある。

上記（３）において、ラフな目的音スペクトログラムとは、真の目的音のスペクトログラムと比べ、以下のａ）からｆ）のうち１つ以上の条件に該当するために劣化していることを意味する。
ａ）位相情報を含まない実数のデータである。
ｂ）目的音が優勢ではあるものの、妨害音も含まれている。
ｃ）妨害音がほぼ除去されているが、その副作用として音が歪んでいる。
ｄ）時間方向・周波数方向いずれかまたは両方において、真の目的音スペクトログラムと比べて解像度が低下している。
ｅ）スペクトログラムの振幅のスケールは観測信号とは異なり、大きさの比較が無意味である。例えば、ラフな目的音スペクトログラムの振幅が観測信号スペクトログラムの振幅の半分であったとしても、それは観測信号において目的音と妨害音とが同じ大きさで含まれていることを決して意味しない。
ｆ）音以外の信号から生成された振幅スペクトログラムである。
上記のようなラフな目的音スペクトログラムは、例えば以下のような方法で取得または生成される。
・目的音の近くに設置されたマイクロホン（例えば話者に装着されたピンマイクロホン）で音を収録し、そこから振幅スペクトログラムを求める。（上記ｂの例に相当)
・振幅スペクトログラム領域で特定の種類の音を抽出するニューラルネットワーク（ＮＮ）を予め学習しておき、そこに観測信号を入力する。（上記ａ、ｃ、ｅに相当）
・骨伝導マイクロホンなど、通常使用される気導マイクロホンとは別のセンサーで取得された信号から振幅スペクトログラムを求める。（上記ｃに相当)
・メル周波数など、非線形な周波数領域において計算されたスペクトログラム相当のデータに対し、所定の変換を適用することで線形の周波数領域のスペクトログラムを生成する。（上記ａ、ｄ、ｅに相当）
・マイクロホンの代わりに、発話者の口や喉付近の皮膚表面の振動を観測可能なセンサーを用い、そのセンサーで取得された信号から振幅スペクトログラムを求める。（上記ｄ、ｅ、ｆに相当）

本開示の一つの目的は、このようにして取得・生成されたラフな目的音スペクトログラムを参照信号として利用し、参照信号を超える精度の（目的音が一層強調されている、言い換えると、真の目的音に一層近い）抽出結果を生成することである。より具体的には、マルチチャンネルの観測信号に線形フィルターを適用して抽出結果を生成する音源抽出処理において、参照信号を超える精度の（真の目的音に一層近い）抽出結果を生成する線形フィルターを推定する。

本開示において、音源抽出処理のための線形フィルターを推定する理由は、線形フィルターが持つ以下の利点を享受するためである。
利点１：非線形な抽出処理と比べ、抽出結果の歪みが小さい。そのため、音声認識等と組みわせた場合に、歪みによる認識精度の低下を回避することができる。
利点２：後述のリスケーリング処理により、抽出結果の位相を適切に推定することができる。そのため、位相に依存した後段処理と組みわせた場合（抽出結果を音として再生し、それを人間が聞くという場合も含む）に不適切な位相に由来する問題を回避することができる。
利点３: マイクロホンの個数を増やすことで、抽出精度の向上が容易である。

（本開示で考慮すべき問題）
本開示の目的の一つを再度記述すると、以下の通りである。
目的: 以下のａ）〜ｃ）までの条件が揃っているとして、ｃ）の信号よりも高精度な抽出結果を生成するための線形フィルターを推定する。
ａ）マルチチャンネルのマイクロホンで収録された信号がある。マイクロホンの配置や各音源の位置は未知でも良い。
ｂ）目的音（残したい音）が鳴っている区間は既知である。ただし、区間外にも目的音が存在するかどうかは未知である。
ｃ）目的音のラフな振幅スペクトログラム（またはそれに類するデータ）が取得済みまたは生成可能である。振幅スペクトログラムは実数であり、位相は分からない。
しかしながら、上記の３つの条件をすべて満たす線形フィルタリング方式は、従来は存在しなかった。一般的なの線形フィルタリング方式としては主に以下の３種類が知られている。
・適応ビームフォーマー
・ブラインド音源分離
・参照信号を用いた既存の線形フィルタリング処理
以降ではそれぞれの方式についての問題点を説明する。

（適応ビームフォーマーの問題点）
ここでいう適応ビームフォーマーとは、複数のマイクロホンで観測された信号と、どの音源を目的音として抽出するかを表わす情報と用いて、目的音を抽出するための線形フィルターを適応的に推定する方式である。適応ビームフォーマーには、例えば、特開２０１２−２３４１５０号公報や、特開２００６−０７２１６３号公報に記載された方式がある。

以下では、マイクロホンの配置や目的音の方向などが未知の場合でも使用可能な適応ビームフォーマーとして、ＳＮ比（Signal to Noise Ratio）最大化ビームフォーマー（別名 GEV ビームフォーマー）について説明する。

ＳＮ比最大化ビームフォーマー（maximum SNR beamformer）は、以下のａ）とｂ）との比 V_s / V_n を最大にする線形フィルターを求める方式である。
ａ）目的音のみが鳴っている区間に所定の線形フィルターを適用した処理結果の分散 V_s
ｂ）妨害音のみが鳴っている区間に同じ線形フィルターを適用した処理結果の分散 V_n

この方式は、それぞれの区間が検出できれば線形フィルターが推定でき、マイクロホンの配置や目的音の方向は不要である。

しかし、本開示が適用され得る想定では、既知の区間は目的音が鳴っているタイミングのみである。その区間では目的音も妨害音も存在しているため、上記のａ）、ｂ）どちらの区間としても使用することができない。他の適応ビームフォーマーの方式についても、上記ｂ）の区間が別途必要である、あるいは、目的音の方向が既知でなければならないなどの理由により、本開示が適用され得る状況で使用することは困難である。

（ブラインド音源分離の問題点）
ブラインド音源分離とは、複数のマイクロホンで観測された信号のみを用い（音源の方向やマイクロホンの配置といった情報は使用せずに）、複数の音源が混合された信号から各音源を推定する技術である。そのような技術の例として、特許第４４４９８７１号の技術が挙げられる。特許第４４４９８７１号の技術は、独立成分分析（Independent Component Analysis、以下、ＩＣＡと適宜、称する）と呼ばれる技術の一例であり、ＩＣＡはＮ個のマイクロホンで観測された信号をＮ個の音源に分解する。その際に使用する観測信号は、目的音が鳴っている区間が含まれていればよく、目的音のみ、あるいは妨害音のみが鳴っている区間に関する情報は不要である。

従って、目的音が鳴っている区間の観測信号に対してＩＣＡを適用してＮ個の成分に分解した後、参照信号であるラフな目的音スペクトログラムに最も類似している成分を１個だけ選択することで、本開示が適用され得る状況で使用することが可能である。類似しているか否かの判定方法としては、各分離結果を振幅スペクトログラムに変換した上で、各振幅スペクトログラムと参照信号との間で二乗誤差（ユークリッド距離）を計算し、誤差が最小となる振幅スペクトログラムに対応した分離結果を採用すればよい。

しかし、このように分離後に選択するという方法は、以下の問題がある。
１)欲しい音源は一つだけなのにも関わらず、途中のステップにおいてＮ個の音源が生成されるため、計算コストおよびメモリー使用量の点で不利である。
２）参照信号であるラフな目的音スペクトログラムは、Ｎ個の音源から１音源を選択するステップでのみ使用され、Ｎ個の音源へと分離するステップでは使用されない。そのため、参照信号は抽出精度の向上には寄与しない。

（参照信号を用いた既存の線形フィルタリング処理の問題点）
従来も、参照信号を用いて線形フィルターを推定する方式がいくつか存在する。
ここでは、そのような技術として以下のａ）およびｂ）について言及する。
ａ）独立深層学習行列分析
ｂ）時間エンベロープを参照信号として用いる音源抽出

独立深層学習行列分析（Independent Deeply Learned Matrix Analysis:以下、ＩＤＬＭＡと適宜、称する）は、独立成分分析の発展形である。詳細は、以下の文献１を参照されたい。
「（文献１）
N. Makishima et al.,
"Independent Deeply Learned Matrix Analysis for Determined Audio Source Separation,"
in IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 27, no. 10, pp. 1601-1615, Oct. 2019.
doi: 10.1109/TASLP.2019.2925450」

ＩＤＬＭＡの特徴は、分離したい各音源のパワースペクトログラム（振幅スペクトログラムの二乗）を生成するようなニューラルネットワーク（ＮＮ）を予め学習しておくことである。例えば、複数の楽器が同時に演奏されている楽曲から各楽器のパートをそれぞれ分離したい場合は、楽曲を入力して各楽器音を出力するＮＮを予め学習しておく。分離時は、観測信号を各ＮＮにそれぞれ入力し、その出力であるパワースペクトログラムを参照信号として用いることで分離を行なう。そのため、完全にブラインドな分離処理と比べ、参照信号を用いる分だけ分離精度の向上が期待できる。さらに、一度生成された分離結果を各ＮＮに再度入力することで、初回よりも高精度のパワースペクトルが生成され、それを参照信号として分離を行なうことで、初回よりも高精度の分離結果が得られることも報告されている。

しかしながら、このＩＤＬＭＡを本開示が適用され得る状況で使用することは、以下の理由により困難である。
ＩＤＬＭＡでは、Ｎ個の分離結果を生成するためには参照信号としてＮ個の異なるパワースペクトログラムが必要である。そのため、興味のある音源が１個だけであり、他の音源は不要であっても、全ての音源について参照信号を用意する必要がある。しかし、現実にはそれが困難な場合がある。また、上記の文献１では、マイクロホンの個数と音源の個数とが一致している場合のみしか言及しておらず、両者の個数が一致しない場合に何個の参照信号を用意すればよいのかについては言及されていない。また、ＩＤＬＭＡは音源分離の方法であるため、音源抽出の目的で使用するためには、Ｎ個の分離結果をいったん生成した後で１音源分のみを残すというステップが必要である。そのため、計算コストやメモリー使用量の点で無駄があるという音源分離の課題は依然として残っている。

時間エンベロープを参照信号として用いる音源抽出としては、例えば、本発明者によって提案された特開２０１４−２１９４６７号公報に記載の技術等が挙げられる。この方式は本開示と同様に、参照信号とマルチチャンネルの観測信号とを用いて線形フィルターを推定する。ただし、以下の点において相違がある。
・参照信号はスペクトログラムではなく、時間エンベロープである。これは、ラフな目的音スペクトログラムに対して周波数方向に平均等の操作を適用して均一化したものに相当する。そのため、目的音の時間方向の変化が周波数ごとに異なるという特徴を持つ場合、参照信号はそれを適切に表現することができず、結果として抽出の精度が低下する可能性がある。
・参照信号は、抽出フィルターを求めるための反復処理において、初期値としてのみ反映される。反復の２回目以降は参照信号の制約を受けないため、参照信号とは異なる別の音源が抽出される可能性がある。例えば、区間内で一瞬だけ発生する音が存在する場合は、目的関数としてはそちらを抽出する方が最適であるため、反復回数によっては所望外の音が抽出される可能性がある。

このように、上述した技術では、本開示が適用され得る状況で使用するのは困難であるか、あるいは十分な精度の抽出結果が得られないという問題があった。

［本開示で用いられる技術］
次に、本開示で用いられる技術について説明する。独立成分分析に基づくブラインド音源分離の手法に対して以下の要素を共に導入すると、本開示の目的に適った音源抽出技術を実現することができる。
要素１: 分離の過程において、分離結果同士の独立性だけでなく、分離結果の一つと参照信号との依存性も反映した目的関数を用意し、それを最適化する。
要素２: 同じく分離過程において、デフレーション法と呼ばれる、１音源ずつ分離を行なう手法を導入する。そして、最初の音源が分離された時点で分離処理を打ち切る。

本開示の音源抽出技術は、複数のマイクロホンで観測されたマルチチャンネルの観測信号から、線形フィルターである抽出フィルターを適用することで、所望の１音源を抽出する。そのため、ビームフォーマー（BF）の一種と見なせる。抽出の過程においては、参照信号と抽出結果の依存性（similarity）と、抽出結果と他の分離結果との独立性（independence）とが共に反映される。そこで、本開示の音源抽出方式を、Similarity-and-Independence-aware Beamformer: SIBF と適宜、称する。

本開示の分離過程について、図１を用いて説明する。（１−１）が付された枠内は従来の時間周波数領域独立成分分析（特許第４４４９８７１号等）で想定している分離過程であり、その外部に存在する（１−５）および（１−６）は本開示で追加された要素である。以下では、先に（１−１）の枠内を用いて従来の時間周波数領域ブラインド音源分離について説明し、次に本開示の分離過程について説明する。

図１において、X_1 〜 X_N は、Ｎ個のマイクロホンにそれぞれ対応した観測信号スペクトログラム（１−２）である。これらは複素数のデータであり、各マイクロホンで観測された音の波形に対して後述の短時間フーリエ変換を適用することで生成される。各スペクトログラムは縦軸が周波数、横軸が時間を表わす。時間長については、抽出したい目的音が鳴っている長さと同じ、またはそれより長いものとする。

独立成分分析では、この観測信号スペクトログラム対し、（１−３）が付された分離行列と呼ばれる所定の正方行列を乗じることにより分離結果スペクトログラム Y_1〜Y_N を生成する（１−４）。分離結果スペクトログラムの個数はＮ個であり、マイクロホン数と同じである。分離においては、Y_1〜Y_N が統計的に独立となるように（すなわち Y_1〜Y_N の差異ができる限り大きくなるように）分離行列の値を決める。そのような行列は一回では求まらないため、分離結果スペクトログラム同士の独立性が反映された目的関数（objective function）を用意し、その関数が最適（目的関数の性質によって最大または最小）となるような分離行列を反復的に求める。分離行列および分離結果スペクトログラムの結果が求まった後、分離結果スペクトログラムのそれぞれに対してフーリエ逆変換を適用して波形を生成すると、それらは混合する前の各音源を推定した信号になっている。

以上は、従来の時間周波数領域独立成分分析の分離過程の説明である。本開示では、これに対して前述の２つの要素を追加する。

追加要素の一つは、参照信号との依存性である。参照信号は、目的音のラフな振幅スペクトログラムであり、（１−５）が付された参照信号生成部によって生成される。分離過程においては、分離結果スペクトログラム同士の独立性の他に、分離結果スペクトログラムの一つである Y_1 と参照信号 R との間の依存性も考慮して分離行列を決める。すなわち、目的関数に対して以下の両方を反映し、その関数を最適化する分離行列を求める。
ａ） Y_1〜Y_N の間の独立性（実線Ｌ１）
ｂ） Y_1 と R との依存性（点線Ｌ２）
目的関数の具体的な数式については後述する。

独立性と依存性との両方を目的関数に反映することで、以下の利点が得られる。
利点１:通常の時間周波数領域における独立成分分析では、分離結果スペクトログラムの何番目にどの原信号が出現するかは不定であり、分離行列の初期値や観測信号（後述する混合音信号に対応する信号）における混合の程度や分離行列を求めるアルゴリズムの違いなどによって変化する。それに対して本開示は、独立性に加えて分離結果 Y_1 と参照信号 R との依存性も考慮するため、Y_1 には R と類似したスペクトログラムを必ず出現させることができる。
利点２:分離結果の一つである Y_1 を単に参照信号 R に類似させるという問題を解くだけでは、Y_1 を R に近づけることはできても抽出精度の点で参照信号 R を超える（目的音に一層近づける）ことはできない。それに対して本開示では、分離結果同士の独立性も考慮するため、分離結果 Y_1 の抽出精度が参照信号を超えることが可能である。

しかしながら、時間周波数領域独立成分分析において参照信号との依存性を導入しても、依然として分離手法であるため、生成される信号はＮ個である。すなわち、所望の音源が Y_1 のみであっても、それと同時に N-1 個の信号が不要にもかかわらず生成されてしまう。

そこで、もう一つの追加要素として、デフレーション法を導入する。デフレーション法とは、全音源を同時に分離する代わりに、原信号を一つずつ推定する方式である。デフレーション法の一般的な解説については、例えば以下の文献２の８章を参照されたい。
「（文献２）
詳解独立成分分析―信号解析の新しい世界
アーポビバリネン (著), エルキオヤ (著), ユハカルーネン (著),
Aapo Hyv¨arinen (原著), Erkki Oja (原著), Juha Karhunen (原著),
根本幾 (翻訳), 川勝真喜 (翻訳)
（原題）
Independent Component Analysis
Aapo Hyvarinen (Author), Juha Karhunen (Author), Erkki Oja (Author)」

一般的には、デフレーション法であっても分離結果の順番は不定であるため、所望の音源が何番目に出現するかは不定である。しかし、上述のような独立性と依存性とを共に反映した目的関数を用いた音源分離に対してデフレーション法を適用すると、参照信号に類似した分離結果を必ず最初に出現させることが可能になる。すなわち、最初の１音源を分離（推定）した時点で分離処理を打ち切ればよく、不要な N-1 個の分離結果を生成する必要がなくなる。また、分離行列については全要素を推定する必要はなく、その中で Y_1 を生成するのに必要な要素のみを推定すればよい。

１音源のみを推定するデフレーション法においては、図１において（１−４）が付された分離結果の内、Y_1 以外（すなわち Y_2〜Y_N）は仮想的なものであり、実際には生成されない。しかし、独立性の計算については、全ての分離結果である Y_1〜Y_N を用いて行なうのと等価なことが行なわれる。そのため、独立性を考慮することで Y_1 を R よりも高精度にすることができるという音源分離の利点が得られる一方で、不要な分離結果である Y_2〜Y_N を生成するという無駄を回避することもできる。

デフレーション法は分離（混合前の音源を全て推定する）の方式の１つであるが、１音源を推定した時点で分離を中断した場合は、抽出（所望の１音源を推定する）の方式として使用することができる。そこで以下の説明では、分離結果 Y_1 のみを推定する操作を「抽出」と呼び、Y_1 を「（目的音）抽出結果」と適宜、称する。さらに、各分離結果は、（１−３）が付された分離行列を構成するベクトルから生成される。このベクトルを「抽出フィルター」と適宜、称する。

デフレーション法に基づく、参照信号を用いた音源抽出方式について、図２を用いて説明する。図２は、図１の詳細を示しており、デフレーション法の適用に必要な要素が追加されている。

図２において（２−１）が付された観測信号スペクトログラムは、図１における（１−２）と同一であり、Ｎ個のマイクで観測された時間領域信号に短時間フーリエ変換を適用することで生成される。この観測信号スペクトログラムに（２−２）が付された無相関化）という処理を適用することにより、（２−３）が付された無相関化観測信号スペクトログラムを生成する。無相関化（uncorrelation）は白色化（whitening）とも呼ばれ、各マイクロホンで観測された信号同士を無相関（uncorrelated）にする変換である。処理で用いられる具体的な数式は後述する。分離の前処理として無相関化を行なっておくと、分離においては、無相関な信号の性質を利用した効率的なアルゴリズムが適用可能となる。デフレーション法はそのようなアルゴリズムの一つである。

無相関化観測信号スペクトログラムの個数はマイクロホン数と同じであり、それぞれを U_1〜U_N とする。無相関化観測信号スペクトログラムの生成は、抽出フィルターを求める前の処理として１回だけ行なえばよい。図１で説明した通り、デフレーション法では、分離結果 Y_1〜Y_N を同時に生成する行列を推定する代わりに、各分離結果を生成するフィルターを一つずつ推定する。本開示では、Y_1 しか生成しないため、推定するフィルターは、U_1〜U_N を入力して Y_1 を生成する働きのある w_1 のみであり、Y_2〜Y_N および w_2〜w_N は実際には生成されない仮想的なものである。

（２−８）が付された参照信号 R は、図１における（１−６）と同一である。前述のように、フィルター w_1 の推定においては、Y_1〜Y_N の独立性と、R と Y_1 との依存性とが共に考慮される。

本開示の音源抽出方法では、１つの区間について１音源のみ推定（抽出）する。そのため、抽出したい音源すなわち目的音が複数存在し、しかもそれらが鳴っている区間に重複がある場合には、その重複している区間をそれぞれ検出し、区間ごとに参照信号を生成した上で音源抽出を行なう。その点について、図３を用いて説明する。

図３に示す例では、目的音は人間の音声とし、目的音の音源数すなわち話者数を２としている。勿論、目的音が任意の種類の音声でもよいし、音源数も２に限定されることはない。また、抽出の対象とならない妨害音が０個以上存在しているとする。非音声の信号は妨害音であるが、音声であってもスピーカー等の機器から出力される音は妨害音として扱うとする。

２人の話者をそれぞれ話者１・話者２とする。また、図３において（３−１）が付された発話および（３−２）が付された発話は話者１の発話とする。また、図３において（３−３）が付された発話および（３−４）が付された発話は話者２の発話とする。（３−５）は妨害音を表わす。図３において、縦軸は音源位置の違いを、横軸は時間を表わす。発話（３−１）と（３−３）とは発話区間の一部が重複している。これは例えば、話者１が話し終わる直前から話者２が発話を開始した場合に相当する。発話（３−２）と（３−４）とも重複があり、これは例えば、話者１が長く発話している途中で話者２が相槌のような短い発話を行なった場合に相当する。いずれも、人間同士の会話において頻繁に発生する現象である。

最初に、発話（３−１）の抽出について考える。発話（３−１）がなされた時間範囲（３−６）の中には、話者１の発話（３−１）の他に、話者２の発話（３−３）の一部および妨害音（３−５）の一部の計３音源が存在している。本開示における発話（３−１）の抽出とは、発話（３−１）に対応した参照信号すなわちラフな振幅スペクトログラムと、時間範囲（３−６）の観測信号（３音源の混合）とを用いて、できる限りクリーンに近い（話者１の音声のみからなり、それ以外の音源が含まれていない）信号を生成（推定）することである。

同様に、話者２の発話（３−３）の抽出においては、（３−３）に対応した参照信号と、時間範囲（３−７）の観測信号とを用いて、話者２のクリーンに近い信号を推定する。このように、発話区間が重複していても、それぞれの目的音に対応した参照信号を用意することができれば、本開示では異なる抽出結果を生成することができる。

同じく、話者２の発話（３−４）は、話者１の発話（３−２）に時間範囲が完全に包含されているが、それぞれ別の参照信号を用意することで、異なる抽出結果を生成することができる。すなわち、発話（３−２）を抽出するためには発話（３−２）に対応した参照信号と時間範囲（３−８）の観測信号とを使用し、発話（３−４）を抽出するためには発話（３−４）に対応した参照信号と時間範囲（３−９）の観測信号とを使用する。

次に、フィルターの推定において使用する目的関数と、それを最適化するアルゴリズムについて、数式を用いて説明する。

k番目のマイクロホンに対応した観測信号スペクトログラム X_k は、下記の式（１）に示すようにx_k(f,t) を要素とする行列として表わされる。

式（１）におけるf は周波数ビン番号、t はフレーム番号であり、共に短時間フーリエ変換によって出現するインデックスである。以下では、f を変化させることを「周波数方向」、t を変化させることを「時間方向」と表現する。

無相関化観測信号スペクトログラム U_k および分離結果スペクトログラム Y_k についても、同様にそれぞれ u_k(f,t) および y_k(f,t) を要素とする行列として表現する（数式の表記は省略する。）。

また、特定の f, t における全マイクロホン（全チャンネル）分の観測信号を要素とするベクトル x(f,t) を下記の式（２）のように表す。

無相関化観測信号および分離結果についても、同じ形状を持つ u(f,t) および y(f,t) というベクトルをそれぞれ用意する（数式の表記は省略する。）。

下記の式（３）は、無相関化観測信号のベクトル u(f,t) を求めるための式である。

このベクトルは、無相関化行列と呼ばれる P(f) と観測信号ベクトル x(f,t) との積によって生成される。無相関化行列 P(f) は下記の式（４）〜式（６）によって計算される。

上述した式（４）は、f 番目の周波数ビンにおける観測信号の共分散行列 R_{xx}(f) を求める式である。右辺の <・>_t は、所定の範囲の t（フレーム番号）において平均を計算するという操作を表わす。本開示では、t の範囲はスペクトログラムの時間長すなわち目的音が鳴っている区間（あるいはその区間を含む範囲）である。また、上付きの H はエルミート転置（共役転置）を表わす。

共分散行列 R_{xx}(f) に対して固有値分解（eigen decomposition）を適用し、式（５）の右辺のような３項の積に分解する。V(f) は固有ベクトル（eigenvector）からなる行列であり、D(f) は固有値（eigenvalue）からなる対角行列である。V(f) はユニタリ行列であり、V(f) の逆行列と V(f) のエルミート転置とは同一である。

無相関化行列 P(f) は、式（６）によって計算される。D(f) は対角行列なので、その -1/2 乗は、各対角要素を -1/2 乗することで求められる。

こうして求まった無相関化観測信号 u(f,t) は、各要素が無相関であるため、下記の式（７）によって計算される共分散行列の値は単位行列 I である。

下記の式（８）は、f, t における全チャンネル分の分離結果 y(f,t) を生成する式であり、分離行列 W(f) と u(f,t) との積で求められる。W(f) を求める方法については後述する。

式（９）は、k番目の分離結果のみを生成する式であり、w_k(f) は分離行列 W(f) の k番目の行ベクトルである。本開示では Y_1 のみを抽出結果として生成するので、基本的に式（９）は k=1 に限定して使用される。

分離の前処理として無相関化が行なわれている場合、分離行列 W(f) はユニタリ行列の中から見つければ十分であることが証明されている。分離行列 W(f) がユニタリ行列である場合は下記の式（１０）を満たし、また、W(f) を構成する行ベクトル w_k(f) は下記の式（１１）を満たす。この特徴を利用することで、デフレーション法による分離が可能になる。（式（１１）は式（９）と同様に、基本的に k=1 に限定して使用される。）

参照信号 R は、式（１２）のように、r(f,t) を要素とする行列として表わされる。形状自体は観測信号スペクトログラム X_k と同じだが、X_k の要素 x_k(f,t) は複素数値であるのに対し、R の要素 r(f,t) は非負の実数である。

本開示は、分離行列 W(f) の全ての要素を推定する代わりに、w_1(f) のみを推定する。すなわち、１番目の分離結果（目的音抽出結果）の生成で使用される要素のみを推定する。以下では、w_1(f) を推定する式の導出について説明する。式の導出は以下の３点からなり、それぞれを順に説明する。

（１）目的関数
（２）音源モデル
（３）更新式

（１）目的関数
本開示で使用する目的関数は負の対数尤度であり、基本的には文献１等で使用されているものと同じである。この目的関数は、分離結果が互いに独立になったときに最小となる。ただし本開示では、抽出結果と参照信号との依存性も目的関数に反映させるため、目的関数を以下のように導出する。

上述した依存性を目的関数に反映させるため、無相関化および分離（抽出）の式を若干修正する。式（１３）は無相関化の式である式（３）の修正、式（１４）は分離の式である式（８）の修正である。いずれも、両辺のベクトルには参照信号 r(f,t)が追加され、右辺の行列には「参照信号の素通し」を表わす１という要素が追加されている。これらの要素が追加された行列およびベクトルは、元の行列およびベクトルにプライム記号を付けて表現する。

目的関数として、下記の式（１５）で表わされる、参照信号および観測信号の負の対数尤度 L を用いる。この式において、p(・) はカッコ内の信号の確率密度関数（probability density function: 以下、pdfと適宜、称する）を表わす。pdf のカッコ内に複数の要素が記述されている場合（複数の変数が記述されている場合や、行列またはベクトルが記述されている場合）は、それらの要素が同時に発生する確率を表わす。例えば式（１５）の p(R, X_1, ..., X_N) は、参照信号 R と観測信号スペクトログラム X_1〜X_N とが同時に発生する確率である。

同じ p という文字を用いていても、カッコ内の変数が異なれば別の確率分布を表わすため、例えば p(R) と p(Y_1) とは別の関数である。また、以下の式に現れる確率密度関数は大部分が仮想的なものであり、具体的な式を当てはめる必要があるのは、式変形の最後で現れる p(r(f,t), y_1(r,t)) のみである。

抽出フィルター w_1(f) について最適化（この場合は最小化）を行なうためには、負の対数尤度 L を変形し、w_1(f) が含まれるようにする必要がある。そのために、観測信号および分離結果について以下の仮定を置く。
仮定１: 観測信号スペクトログラムは、チャンネル方向には依存関係があるが（言い換えると各マイクロホンに対応したスペクトログラムはお互いに似ているが）、時間方向および周波数方向には独立である。すなわち、一枚のスペクトログラムにおいて、各点を構成する成分はお互いに独立に発生し、他の時間や周波数の影響を受けない。
仮定２：分離結果スペクトログラムは、時間方向および周波数方向に加え、チャンネル方向にも独立である。すなわち、分離結果の各スペクトログラムは似ていない。
仮定３：分離結果スペクトログラムである Y_1 と、参照信号とは依存関係がある。すなわち、両者はスペクトログラムが似ている。

p(R, X_1, ..., X_N) の変形の過程を式（１６）〜式（２１）に示す。

独立な変数同士の同時発生確率はそれぞれの pdf の積に分解できるため、仮定１によって式（１６）の左辺は右辺に変形される。右辺のカッコ内は、式（１３）で導入したx'(f,t) を用いて式（１７）のように表わされる。

式（１７）は、式（１４）の下段の関係を用いて式（１８）および式（１９）に変形される。これらの式において、det(・) はカッコ内の行列の行列式（determinant）を表わす。

式（２０）は、デフレーション法において重要な変形である。行列 W(f)' は、分離行列 W(f) と同様にユニタリ行列であるため、その行列式は１である。また、行列 P'(f) は分離中は変化しないため、行列式は定数である。従って、両方の行列式は、あわせて const（定数）と書くことができる。

式（２１）は本開示にユニークな変形である。y'(f,t) の成分は r(f,t) および y_1(f,t) 〜 y_N(f,t) であるが、仮定２および仮定３により、これらの変数を引数とする確率密度関数は、r(f,t) と y_1(f,t) との同時確率である p(r(f,t), y_1(f,t)) と、y_2(f,t) 〜 y_N(f,t) の確率密度関数である p(y_2(f,t)) 〜 p(y_N(f,t)) それぞれとの積に分解される。

式（２１）を式（１５）に代入すると、式（２２）が得られる。

抽出フィルター w_1(f) は、式（２２）を最小値にする引数のサブセットである。式（２２）の各項の内、w_1(f) が含まれるのは特定の f における y_1(f,t) のみであるため、w_1(f) は下記の式（２３）の最小解として求められる。ただし、w_1(f)=0 という自明な解を排除するため、式（１１）で表わされる、ベクトルのノルムが１という制約をかける。

ノルムが１という制約を持った抽出フィルターを無相関化観測信号に適用した場合、生成される抽出結果の各周波数ビンのスケールは、真の目的音のスケールとは異なる。そのため、フィルターが推定された後、周波数ビンごとに抽出フィルターおよび抽出結果を補正する。このような後処理をリスケーリングと呼ぶ。リスケーリングの具体的な式については後述する。

式（２３）の最小化問題を解くためには、以下の２点を具体化する必要である。
・r(f,t) と y_1(f,t) との同時確率である p(r(f,t), y_1(f,t)) として、どのような式を割り当てるか。この確率密度関数を音源モデルと呼ぶ。
・どのようなアルゴリズムを用いて最小解 w_1(f) を求めるか。基本的に w_1(f) は一回では求まらず、反復的に更新する必要がある。w_1(f) の更新する式を更新式と呼ぶ。
以下、それぞれについて説明する。

（２）音源モデル
音源モデル p(r(f,t), y_1(f,t)) は、参照信号 r(f,t) と抽出結果 y_1(f,t) の２つの変数を引数とする pdf であり、２つの変数の依存関係（依存性）を表わす。音源モデルは、いろんなコンセプトに基づいて定式化することが可能である。本開示では以下の３通りを用いる。

ａ）２変量の球状分布
ｂ）ダイバージェンスに基づくモデル
ｃ）時間周波数可変分散モデル
以下それぞれについて説明する。

ａ）２変量の球状分布
球状分布とは、多変量（multi-variate）pdf の一種である。pdf の複数個の引数をベクトルと見なし、そのベクトルのノルム（L2 ノルム）を単変量（univariate）の pdf に代入することで多変量 pdf を構成する。独立成分分析において球状分布を使用すると、引数で使用されている変数同士を類似させる効果がある。例えば、特許第４４４９８７１号に記載の技術ではその性質を利用し、周波数パーミュテーション問題と呼ばれる「k 番目の分離結果にどの音源が出現するかが周波数ビンごとに異なる」という問題を解決した。

本開示の音源モデルとして、参照信号と抽出結果とを引数とする球状分布を用いると、両者を類似させることができる。ここで使用する球状分布は下記の式（２４）の一般形で表わすことができる。この式において、関数 F は任意の単変量 pdf である。また、c_1, c_2 は正の定数であり、これらの値を変更することで、参照信号が抽出結果に与える影響を調整することができる。特許第４４４９８７１号と同様に単変量 pdf としてラプラス分布を用いると、下記の式（２５）が得られる。以降ではこの式を２変量ラプラス分布と呼ぶ。

ｂ）ダイバージェンスに基づくモデル
別の種類の音源モデルは、距離尺度の上位概念であるダイバージェンスに基づいた pdf であり、下記の式（２６）の形で表わされる。この式において divergence(r(f,t), |y_1(f,t)|) は、参照信号である r(f,t) と抽出結果の振幅である |y_1(f,t)| との間の任意のダイバージェンスを表わす。

また、α は正の定数であり、式（２６）の右辺が pdf の条件を満たすようにするための補正項であるが、式（２３）の最小化問題においては αの値は無関係であるため、α=1 として構わない。この pdf を式（２３）に代入すると、r(f,t) と |y_1(f,t)| とのダイバージェンスを最小化するという問題と等価になるため、必然的に両者は類似する。

ダイバージェンスとしてユークリッド距離を用いた場合は下記の式（２７）が得られる。また、板倉斎藤ダイバージェンスを用いた場合は下記の式（２８）が得られる。板倉斎藤ダイバージェンスはパワースペクトル同士の距離尺度であるため、r(f,t) と |y_1(f,t)| は共に 2乗した値を用いる。一方、振幅スペクトルに対して板倉斎藤ダイバージェンスと同様の距離尺度を計算しても良く、その場合は下記の式（２９）が得られる。

下記の式（３０）は、は別のダイバージェンスに基づく pdf である。r(f,t) と |y_1(f,t)| とが類似するほど比が 1 に近づくので、その比と 1 との二乗誤差はダイバージェンスとして働く。

ｃ）時間周波数可変分散モデル
別の音源モデルとして、時間周波数可変分散（time-frequency-varying variance: TFVV）モデルも可能である。これは、スペクトログラムを構成する各点が時間および周波数ごとに異なる分散または標準偏差を持つというモデルである。そして、参照信号であるラフな振幅スペクトログラムは各点の標準偏差（あるいは標準偏差に依存した何らかの値）を表わしていると解釈する。

分布として時間周波数可変分散を持ったラプラス分布（以降、TFVV ラプラス分布）を仮定すると、下記の式（３１）のように表わせる。この式において、α は式（２６）と同様、右辺が pdf の条件を満たすようにするための補正項であり、α=1 として構わない。β は、参照信号が抽出結果に与える影響の大きさを調整するための項である。真の TFVV ラプラス分布は β=1 に相当するが、他に 1/2 や 2 といった値を用いても良い。

同様に、TVVF ガウス分布を仮定すると下記の式（３２）が得られる。一方、TVVF Student-t 分布を仮定すると下記の式（３３）の音源モデルが得られる。

式（３３）のν（ニュー）は自由度と呼ばれるパラメーターであり、この値を変えることで分布の形状を変化させることができる。例えば、ν=1 はコーシー（cauchy）分布を表わし、ν→∞ はガウス分布を表わす。

式（３２）および式（３３）の音源モデルは文献１でも使用されているが、本開示ではそれらのモデルを分離ではなく抽出のために使用するという違いがある。

（３）更新式
式（２３）の最小化問題の解 w_1(f) は、多くの場合に閉形式（closed form）の解（反復なしの解法）が存在せず、反復的なアルゴリズムを用いる必要がある。（ただし、音源モデルとして式（３２）の TFVV ガウス分布を用いた場合は、後述のように閉形式解が存在する。）

式（２５）、式（３１）、式（３３）については、補助関数法と呼ばれる高速かつ安定なアルゴリズムが適用可能である。一方、式（２７）〜式（３０）については、不動点法と呼ばれる別のアルゴリズムが適用可能である。

以下、最初に式（３２）を用いた場合の更新式について説明し、次に補助関数法および不動点法を用いた更新式についてそれぞれについて説明する。

式（３２）で表わされる TFVV ガウス分布を式（２３）に代入し、さらに最小化とは無関係な項を無視すると、下記の式（３４）が得られる。

この式は u(f,t) の重みつき共分散行列の最小化問題と解釈でき、固有値分解を用いて解くことができる。
（厳密には、式（３４）の右辺の中カッコ内は重みつき共分散行列そのものではなく、それの T 倍を表わしているが、その違いは式（３４）の最小化問題の解には影響しないので、以降では中カッコ内のシグマそのものも重みつき共分散行列と呼ぶ。）

行列 A を引数にとり、その行列に対して固有値分解を行なって全ての固有ベクトルを求める関数を eig(A) で表わす。この関数を用いると、式（３４）の重みつき共分散行列の固有ベクトルは下記の式（３５）のように書ける。

式（３５）の左辺の a_{min}(f), ..., a_{max}(f) は固有ベクトルであり、a_{min}(f) が最小の固有値に、a_{max}(f) が最大の固有値に対応する。各固有ベクトルのノルムは 1 であり、また互いに直交しているとする。式（３４）を最小化する w_1(f) は、下記の式（３６）に示すように最小の固有値に対応した固有ベクトルのエルミート転置である。

次に、式（２５）、式（３１）、式（３３）に対して補助関数法を適用して更新式を導出する方法について説明する。

補助関数法とは、最適化問題を効率的に解く方法の一つであり、詳細については特開２０１１−１７５１１４号公報や特開２０１４−２１９４６７号公報に記載されている。

式（３１）で表わされる TFVV ラプラス分布を式（２３）に代入し、最小化に無関係な項を無視すると、下記の式（３７）が得られる。

この最小化問題の解は、閉形式では求められない。

そこで、式（３８）のような、「上から押さえる」不等式を用意する。

式（３８）の右辺を補助関数と呼び、その中の b(f,t) は補助変数と呼ぶ。この不等式は、b(f,t) = |y_1(f,t)| のときに成立する。この不等式を式（３７）に適用すると、下記の式（３９）が得られる。以降、この不等式の右辺を G と書く。

補助関数法では、以下の２つのステップを交互に繰り返すことで、高速かつ安定に最小化問題を解く。
１．下記の式（４０）に示すように、w_1(f) を固定し、G を最小にする b(f,t) を求める。

２．下記の式（４１）に示すようにb(f,t) を固定し、G を最小にする w_1(f) を求める。

式（４０）が最小となるのは、式（３８）の等号が成り立つときである。w_1(f) が変化するたびに y_1(f,t) の値も変わるため、式（９）を用いて計算する。式（４１）は式（３４）と同様に重みつき共分散行列の最小化問題であるため、固有値分解を用いて解くことができる。

式（４１）の重みつき共分散行列に対して下記の式（４２）によって固有ベクトルを計算すると、式（４１）の解である w_1(f) は、最小値に対応した固有ベクトルのエルミート転置である（式（３６））。

なお、反復の初回は w_1(f) も y_1(f,t) も未知なので式（４０）が適用できない。そこで、以下の何れかの方法で補助変数 b(f,t) の初期値を計算する。
ａ）補助変数として、参照信号を正規化した値を用いる。すなわち b(f,t) = normalize(r(f,t)) とする。
ｂ）分離結果 y_1(f,t) として仮の値を計算し、そこから式（４０）で補助変数を計算する。
ｃ）w_1(f) に仮の値を代入して式（４０）を計算する。
上記ａ）の normalize() は下記の式（４３）で定義される関数であり、この式の s(t) は任意の時系列信号を表わす。normalize() の働きは、信号の絶対値の二乗平均を１に正規化することである。

上記ｂ）の y_1(f,t) の例として、観測信号の1チャンネル分を選択したり、全チャンネル分の観測信号を平均するといった操作が考えられる。例えば後述の図５のようなマイクロホン設置形態を使用している場合は、発話している話者に割り当てられたマイクロホンが必ず存在するので、そのマイクロホンの観測信号を仮の抽出結果として使用するのが良い。マイクロホンの番号を k とすると、y_1(f,t) = normalize(x_k(f,t)) である。

上記ｃ）における仮の値とは、例えば全要素が同一の値であるベクトルを使用するといった簡易的な方法の他に、前回の目的音区間で推定した抽出フィルターの値を保存しておき、それを次の目的音区間を計算する際の w_1(f) の初期値として用いることも可能である。例えば、図３に示す発話（３−２）について音源抽出を行なう場合は、同じ話者の前回の発話（３−１）について推定された抽出フィルターを今回の抽出における w_1(f) の仮の値とする。あるいは上記 c) の他の方法として、初回のみ TFVV ガウス分布由来の更新式を用いて w_1(f) を求めても良い。

式（２５）で表わされる２変量ラプラス分布についても、補助関数を用いて同様に解くことができる。式（２５）を式（２３）に代入すると、下記の式（４４）が得られる。

ここで、下記の式（４５）のような補助関数を用意する。

すると、補助変数 b(f,t) を求めるステップ（式（４０）に相当）は式（４６）のように表すことができる。

抽出フィルター w_1(f) を求めるステップ（式（４１）に相当）は、下記の式（４７）のように表すことができる。

この最小化問題は下記の式（４８）の固有値分解によって解くことができる。

次に、式（３３）で表わされる TFVV Student-t 分布の場合について説明する。TFVV Student-t 分布に対して補助関数法を適用する例は文献１に記載されているため、更新式のみを記載する。

補助変数 b(f,t) を求めるステップは下記の式（４９）の通りである。

自由度νは、参照信号である r(f,t) と、反復途中の抽出結果である y_1(f,t) それぞれの影響度合いを調整するパラメーターとして機能する。ν=0 の場合は参照信号が無視さ
れ、0 以上 2 未満の場合は抽出結果の影響の方が参照信号よりも大きい。νが 2より大きい場合は参照信号の影響の方が大きく、極限である ν→∞では抽出結果が無視され、それは TFVV ガウス分布と等価である。

抽出フィルター w_1(f) を求めるステップは下記の式（５０）の通りである。

式（５０）は、２変量ラプラス分布の場合の式（４７）と同一なので、抽出フィルターは式（４８）によって同様に求めることができる。

次に、ダイバージェンスに基づく音源モデルである式（２７）〜式（３０）から更新式を導出する方法について説明する。これらの pdf を式（２３）に代入すると、いずれも f 番目の周波数ビンにおいてダイバージェンスの総和を最小化するという式が得られるが、各ダイバージェンスに対して適切な補助関数は見つかっていない。そこで、別の最適化アルゴリズムである不動点法を適用する。

不動点アルゴリズムは、最適化したいパラメーター（本開示では抽出フィルターである w_1(f)）が収束したときに成立している条件を式で表し、その式を変形して“w_1(f) = J(w_1(f))'';という不動点の形式にすることで更新式を導出する。本開示では、収束時に成立する条件として、パラメーターによる偏微分がゼロという式を使用し、下記の式（５１）に示す偏微分を行なって具体的な式を導出する。

式（５１）の左辺は、conj(w_1(f)) による偏微分である。そして式（５１）を変形し、式（５２）の形式を得る。

不動点アルゴリズムでは、式（５２）の等号を代入に置き換えた下記の式（５３）を反復的に実行する。ただし、本開示では w_1(f) について式（１１）の制約を満たす必要があるため、式（５３）の後で式（５４）によるノルム正規化も行なう。

以下では、式（２７）〜式（３０）に対応した更新式について説明する。いずれも式（５３）に相当する式のみ記載してあるが、実際の抽出処理においては、代入を行なった後で式（５４）のノルム正規化も行なう。

ユークリッド距離に対応した pdf である式（２７）から導出される更新式は下記の式（５５）の通りである。

式（５５）では二段に渡って記述されているが、上段は式（９）を用いて y_1(f,t) を計算した後に使用することを想定しており、下段は y_1(f,t) を計算せずに w_1(f), u(f,t) を直接使用することを想定している。後述する式（５６）〜式（６０）についてもその点は同様である。

反復の初回のみは、抽出フィルター w_1(f) も抽出結果 y_1(f,t) も未知であるため、以下のどちらかの方法で w_1(f) を計算する。
ａ）分離結果 y_1(f,t) として仮の値を計算し、そこから式（５５）の上段の式で w_1(f) を計算する。
ｂ） w_1(f) に仮の値を代入し、そこから式（５５）の下段の式で w_1(f) を計算する。
上記ａ）における y_1(f,t) の仮の値については、式（４０）の説明におけるｂ）の方法が使用可能である。同様に、ｂ）における w_1(f) の仮の値については、式（４０）おけるｃ）の方法が使用可能である。

板倉斎藤ダイバージェンス（パワースペクトログラム版）に対応した pdf である式（２８）から導出される更新式は、下記の式（５６）および式（５７）である。

式（５７）は下記の通りである。

式５２の形への変形が２通り可能であるため、更新式も２通り存在する。
式（５６）下段の右辺の第2項目および式（５７）下段の右辺の第３項は共に、u(f,t) と r(f,t) のみで構成されており、反復処理中は一定である。そのため、これらの項は反復前に1回だけ計算すれば良く、式（５７）ではその逆行列も１回だけ計算すればよい。

板倉斎藤ダイバージェンス（振幅スペクトログラム版）に対応した pdf である式（２９）から導出される更新式は、下記の式（５８）および式（５９）である。こちらも２通りが可能である。

式（５９）は下記の通りである。

式（３０）から導出される更新式は、下記の式（６０）の通りである。この式についても、右辺の最後の項は反復前に一回だけ計算すれば良い。

以上、説明した処理の内容は、次に説明される本開示の実施形態に適用される。

＜一実施形態＞
［音源抽出装置の構成例］
図４は、本実施形態に係る信号処理装置の一例である音源抽出装置（音源抽出装置１００）の構成例を示す図である。音源抽出装置１００は、例えば、複数のマイクロホン１１、ＡＤ(Analog to Digital)変換部１２、ＳＴＦＴ（Short-Time Fourier Transform）部１３、観測信号バッファー１４、区間推定部１５、参照信号生成部１６、音源抽出部１７、および、制御部１８を有している。音源抽出装置１００は、必要に応じて後段処理部１９および区間・参照信号推定用センサー２０を有している。

複数のマイクロホン１１は、それぞれ異なる位置に設置されている。マイクロホンの設置形態については後述のようにいくつかのバリエーションがある。マイクロホン１１により、目的音と目的音以外の音とが混合された混合音信号が入力される。

ＡＤ変換部１２は、それぞれのマイクロホン１１で取得されたマルチチャンネルの信号を、チャンネルごとにデジタル信号に変換する。この信号を（時間領域の）観測信号と適宜、称する。

ＳＴＦＴ部１３は、観測信号に短時間フーリエ変換を適用することにより、観測信号を時間周波数領域の信号へと変換する。時間周波数領域の観測信号は、観測信号バッファー１４と区間推定部１５とに送られる。

観測信号バッファー１４は、所定の時間（フレーム数）の観測信号を蓄積する。観測信号はフレームごとに保存されており、他のモジュールからどの時間範囲の観測信号が必要かのリクエストを受け取ると、その時間範囲に対応した観測信号を返す。ここで蓄積された信号は、参照信号生成部１６や音源抽出部１７において使用される。

区間推定部１５は、混合音信号に目的音が含まれる区間を検出する。具体的には、区間推定部１５は、目的音の開始時刻（鳴り始めた時刻）および終了時刻（鳴り終わった時刻）などを検出する。どのような技術を用いてこの区間推定を行なうかについては、本実施形態の使用場面やマイクロホンの設置形態に依存するため、詳細は後述する。

参照信号生成部１６は、混合音信号に基づいて目的音に対応する参照信号を生成する。例えば、参照信号生成部１６は、目的音のラフな振幅スペクトログラムを推定する。参照信号生成部１６により行われる処理は、本実施形態の使用場面やマイクロホンの設置形態に依存するため、詳細は後述する。

音源抽出部１７は、混合音信号から参照信号に類似し、且つ、目的音がより強調された信号を抽出する。具体的には、音源抽出部１７は、目的音が鳴っている区間に対応した観測信号と参照信号とを用いて、目的音の推定結果を推定する。あるいは、そのような推定結果を観測信号から生成するための抽出フィルターを推定する。

音源抽出部１７の出力は、必要に応じて後段処理部１９に送られる。後段処理部１９で行われる後段処理の例としては、音声認識などが挙げられる。音声認識と組み合わせた場合、音源抽出部１７は時間領域の抽出結果、すなわち音声波形を出力し、音声認識部はその音声波形に対して認識処理を行なう。

なお、音声認識には音声区間検出機能を持つものもあるが、本実施形態ではそれと同等の区間推定部１５を備えるため、音声認識側の音声区間検出機能は省略可能である。また、音声認識は認識処理において必要な音声特徴量を波形から抽出するためにＳＴＦＴを備えることが多いが、本実施形態と組み合わせる場合は、音声認識側のＳＴＦＴは省略してもよい。音声認識側の STFT を省略した場合、音源抽出部１７は時間周波数領域の抽出結果、すなわちスペクトログラムを出力し。音声認識側において、そのスペクトログラムを音声特徴量へ変換する。

制御部１８は、音源抽出装置１００の各部を統括的に制御する。制御部１８は、例えば、上述した各部の動作を制御する。図４では省略されているが、制御部１８と上述した各機能ブロックとは相互に結線されている。

区間・参照信号推定用センサー２０は、区間推定または参照信号生成で使用することを想定した、マイクロホン１１のマイクロホンとは別のセンサーである。なお、図４において後段処理部１９および区間・参照信号推定用センサー２０に括弧が付されているのは、音源抽出装置１００において後段処理部１９および区間・参照信号推定用センサー２０が省略可能であることを示している。すなわち、マイクロホン１１とは異なる専用のセンサーを備えることで区間推定または参照信号生成の精度が向上できるのであれば、そのようなセンサーを用いても良い。

例えば発話の区間検出の方法として、特開平１０−５１８８９号などに記載された、***画像を用いた方式を使用する場合は、センサーとして撮像素子（カメラ）を適用することができる。あるいは、本発明者が提案した特願２０１９-０７３５４２において補助センサーとして使用されている以下のセンサーを備え、それによって取得される信号を用いて区間推定または参照信号生成を行なっても良い。
・骨伝導マイクロホンや咽頭マイクロホンといった、身体に密着させて使用するタイプのマイクロホン。
・話者の口や喉付近の皮膚表面の振動を観測することができるセンサー。例えば、レーザーポインターと光センサーとの組み合わせ。

［区間推定および参照信号生成について］
本実施形態の使用場面およびマイクロホン１１の設置形態はいくつかのバリエーションが考えられ、それぞれにおいて、区間の推定や参照信号の生成のためにどのような技術を適用可能かが異なる。各バリエーションの説明のためには、目的音の区間同士の重複があり得るか否か、そして重複がある得る場合にどう対処するかについて明確化する必要がある。以下では、典型的な使用場面および設置形態として３通りほど示し、それぞれ図５〜図７を用いて説明する。

図５は、ある環境においてＮ人（二人以上）の話者が存在し、さらに話者ごとにマイクロホンが割り当てられている状況を想定した図である。マイクロホンが割り当てられているとは、各話者がピンマイクロホンやヘッドセットマイクロホン等を装着しているか、各話者の至近距離にマイクロホンが設置されているような状況である。Ｎ人の話者をＳ１、Ｓ２・・Ｓｎ、各話者に割り当てられたマイクロホンをＭ１、Ｍ２・・・Ｍｎとする。さらに、０個以上の妨害音音源Ｎｓが存在する。

このような状況としては、例えば部屋の中で会議を行なっており、その会議の議事録を自動で作成するために、各話者のマイクロホンで収音された音声に対して音声認識を行なうような場面が該当する。この場合、発話同士が重複する可能性があり、発話の重複が発生すると、各マイクロホンでは音声同士が混合した信号が観測される。また、妨害音音源として、プロジェクターやエアコンのファンの音や、スピーカーを備えた機器から発する再生音などがあり得、これらの音も各マイクロホンの観測信号には含まれる。いずれも誤認識の原因となるが、本実施形態の音源抽出技術を用いれば、各マイクロホンに対応した話者の音声のみを残し、それ以外の音源（他の話者や妨害音音源）を除去する（抑圧する）ことができるので、音声認識精度を向上させることができる。

以下では、このような状況で使用可能な区間検出方法および参照信号生成方法について説明する。なお以降では、各マイクロホンで観測される音の内、対応する（目的とする）話者の音声を主音声または主発話、別の話者の音声を回り込み音声またはクロストークと適宜、称する。

区間検出方法としては、特願２０１９-２２７１９２号に記載されている主発話検出が使用可能である。当該出願では、ニューラルネットワークを用いた学習を行なうことで、クロストークは無視する一方で主音声には反応する検出器を実現している。また、発話の重複にも対応しているため、発話同士が重複していても、図３のように、各発話の区間および発話者をそれぞれ推定することができる。

参照信号生成方法については、少なくとも2つの方法が可能である。一つは、話者に割り当てられたマイクロホンで観測された信号から直接生成する方法である。例えば、図５のマイクロホンＭ１で観測される信号は全ての音源の混合であるが、最も近くの音源である話者Ｓ１の音声が大きく収音される一方、それと比較すると他の音源は小さな音で収音されている。従って、マイクロホンＭ１の観測信号を話者Ｓ１の発話区間に従って切り出し、それに短時間フーリエ変換を適用した後で絶対値をとることで振幅スペクトログラムを生成すれば、それは目的音のラフな振幅スペクトログラムであり、本実施形態における参照信号として使用することができる。

もう一つの方法は、前述の特願２０１９−２２７１９２号に記載されているクロストーク低減技術を使用することである。上記出願では、ニューラルネットワークを学習することで、主音声とクロストークとが混合した信号からクロストークを除去（低減）して主音声を残すことを実現している。このニューラルネットワークの出力は、クロストーク低減結果の振幅スペクトログラムまたは時間周波数マスクであり、前者であればそのまま参照信号として使用することができる。後者であっても、観測信号の振幅スペクトログラムに対して時間周波数マスクを適用することで、クロストーク除去結果の振幅スペクトログラムを生成することができるため、それを参照信号として使用することができる。

次、図６を用いて図５とは別の使用場面における参照信号生成処理等について説明する。図６は、１以上の話者と１個以上の妨害音音源がある環境を想定している。図５は妨害音音源Ｎｓの存在よりも発話同士の重複の方に主眼があったが、図６に示す例では大きな妨害音の存在する騒がしい環境においてクリーンな音声を得ることに主眼がある。ただし、話者が２以上存在する場合は、発話同士の重複も課題となる。

話者はｎ人であり、各話者を話者Ｓ１〜話者Ｓｎとする。ｎは１以上とする。図６では妨害音音源Ｎｓは１個のみ図示されているが、個数は任意である。

使用するセンサーは２種類ある。一方は、各話者が装着している、あるいは各話者の至近に設置されているセンサー（区間・参照信号推定用センサー２０に対応するセンサー）であり、以下ではセンサーＳＥ（センサーＳＥ１、ＳＥ２・・ＳＥｎ）と適宜、称する。もう一方は位置が固定された複数のマイクロホン１１で構成されるマイクロホンアレイ１１Ａである。

区間・参照信号推定用センサー２０は、図５のマイクロホンと同様のタイプ（気導マイクロホンと呼ばれる、大気中を伝播する音を収音するタイプのマイクロホン）を使用しても良いが、他に、図４において説明したように、骨伝導マイクロホンや咽頭マイクロホンといった、身体に密着させて使用するタイプのマイクロホン、あるいは、話者の口や喉付近の皮膚表面の振動を観測可能なセンサーを使用しても良い。いずれにしても、センサーＳＥはマイクロホンアレイよりも各話者に近接または密着しているため、各センサーに対応する話者の発話を高いＳＮ比で収録することができる。

マイクロホンアレイ１１Ａとしては、1つの装置に複数のマイクロホンが設置されている形態の他に、分散マイクロホン（distributed microphones）と呼ばれる、空間内の複数の場所にマイクロホンを設置する形態も可能である。分散マイクロホンの例として、部屋の壁面や天井面にマイクロホンを設置する形態や、自動車内の座席・壁面・天井・ダッシュボード等にマイクロホンを設置する形態などが考えられる。

本例においては、区間推定および参照信号生成については区間・参照信号推定用センサー２０に対応するセンサーＳＥ１〜ＳＥｎで取得された信号を使用し、音源抽出についてはマイクロホンアレイ１１Ａから取得されたマルチチャンネル観測信号を使用する。センサーＳＥとして気導マイクロホンを使用した場合の区間推定方法および参照信号生成方法については、図５を用いて説明した方法と同様の方法が使用可能である。

一方、密着型マイクロホンを使用した場合は、図５に示した方法と同様の方法の他にも、妨害音や他者の発話の混入の少ない信号が取得可能という特徴を利用した方法も使用可能である。例えば、区間推定としては、入力信号のパワーの閾値で判別する方法も使用可能であり、参照信号としては、入力信号から生成した振幅スペクトログラムがそのまま使用可能である。密着型マイクロホンで収録される音は、高域が減衰している上に、嚥下音などの体内で発生する音も収録される場合があるため、音声認識等への入力として使用するのは必ずしも適切ではないが、区間推定用や参照信号生成用としては有効に利用することができる。

センサーＳＥとして光センサーなどマイクロホン以外のセンサーを用いた場合には、出願番号２０１９−２２７１９２号に記載された方法が使用可能である。当該特許出願では、気導マイクロホンで取得された音（目的音と妨害音との混合）と、補助センサーで取得された信号（目的音に対応した何らかの信号）とからクリーンな目的音への対応関係を予めニューラルネットワークに学習させておき、推論時には、気導マイクロホンおよび補助センサーで取得された信号をニューラルネットワークに入力することで、クリーンに近い目的音を生成する。そのニューラルネットワークの出力は振幅スペクトログラム（あるいは時間周波数マスク）であるため、それを本実施形態の参照信号として使用する（あるいは参照信号を生成する）ことができる。また、変形例として、クリーンな目的音を生成すると同時に、目的音が鳴っている区間も推定する方法についても言及しているため、区間検出手段としても使用可能である。

音源抽出は、基本的にマイクロホンアレイ１１Ａで取得された観測信号を用いて行なう。ただし、センサーＳＥとして気導マイクロホンを使用している場合は、それによって取得された観測信号を追加することも可能である。すなわち、マイクロホンアレイ１１ＡがＮ個のマイクロホンで構成されているとすると、ｍ個の区間・参照信号推定用センサーと合わせた（Ｎ＋ｍ）チャンネルの観測信号を用いて音源抽出を行なっても良い。またその場合、Ｎ＝１でも複数の気導マイクロホンが存在するため、マイクロホンアレイ１１Ａの代わりに単一のマイクロホンが用いられても良い。

同様に、区間推定や参照信号生成においても、センサーＳＥに加えてマイクロホンアレイ由来の信号を使用しても良い。マイクロホンアレイ１１Ａはどの話者からも離れているため、話者の発話は必ずクロストークとして観測される。その信号と区間・参照信号推定用マイクロホンの信号とを比較することで、区間推定の精度、特に、発話同士の重複が発生しているときの区間推定精度を向上させることが期待できる。

図７は、図６とは別のマイクロホン設置形態である。１人以上の話者と１個以上の妨害音音源がある環境を想定している点は図６と同じであるが、使用するマイクロホンはマイクロホンアレイ１１Ａのみであり、各話者の至近に設置されたセンサーは存在しない。マイクロホンアレイ１１Ａの形態は、図６と同様に、１つの装置に設置された複数のマイクロホンや、空間内に設置された複数のマイクロホン（分散マイクロホン）などが適用可能である。

このような状況では、本開示の音源抽出において前提となる、発話区間の推定および参照信号の推定をどのように行なうかが課題となるが、音声同士の混合の発生頻度が低いか高いかによって、適用可能な技術が異なる。以下、それぞれについて説明する。

音声同士の混合の発生頻度が低い場合とは、ある環境において話者は一人だけ（すなわち話者Ｓ１のみ）存在し、さらに妨害音音源Ｎｓが非音声と見なせる場合である。その場合、区間推定方法としては、特許４１８２４４４号等に記載された「音声らしさ」に着目した音声区間検出技術が適用可能である。すなわち、図７の環境において、「音声らしい」信号が話者Ｓ１の発話のみであると考えられる場合は、非音声の信号は無視し、音声らしい信号が含まれている個所（タイミング）を目的音の区間として検出する。

参照信号生成方法としては、文献３に記載されているようなデノイズ（denoise）と呼ばれる手法、すなわち音声と非音声とが混合した信号を入力し、非音声を除去して音声を残すような処理が適用可能である。デノイズは非常に様々な方法が適用可能であるが、例えば以下の方法はニューラルネットワークを用いており、その出力は振幅スペクトログラムであるため、出力をそのまま参照信号として使用することができる。
「文献３
・Liu, D. & Smaragdis, P. & Kim, M.. (2014).
"Experiments on deep learning for speech denoising,"
Proceedings of the Annual Conference of the International Speech
Communication Association, INTERSPEECH. 2685-2689. 」

一方、音声同士の混合の発声頻度が高い場合とは、ある環境において複数の話者が会話をしていて発話同士の重複が発生する場合や、話者が一人でも妨害音音源が音声である場合などである。後者の例として、テレビやラジオ等のスピーカーから音声が出力されている場合などがある。このような場合、音声同士の混合に対しても適用可能な方式を発話区間検出として使用する必要がある。例えば以下のような技術が適用可能である。
ａ）音源方向推定を利用した音声区間検出
（例えば、特開２０１０−１２１９７５号公報や特開２０１２−１５０２３７号公報に記載されている方法）
ｂ）顔画像（***画像）を利用した音声区間検出
（例えば、特開平１０−５１８８９号公報や特開２０１１−１９１４２３号公報に記載されている方法）

図７に示すマイクロホン設置形態ではマイクロホンアレイが存在するため、ａ）の前提となる音源方向推定が適用可能である。また、図４に示す例においての区間・参照信号推定用センサー２０として撮像素子（カメラ）を用いれば、ｂ）も適用可能である。いずれの方式も、発話区間が検出された時点でその発話の方向も分かる（上記ｂ）の方法では、画像内における***の位置から発話方向を計算することができる）ので、その値を参照信号生成のために使用することができる。以下では、発話区間推定において推定された音源方向をθと適宜、称する。

参照信号生成方法についても音声同士の混合に対応している必要があり、そのような技術として以下が適用可能である。
ａ）音源方向を用いた時間周波数マスキング
（特開２０１４−２１９４６７号公報において使用されている参照信号生成方法である。音源方向θに対応したステアリングベクトルを計算し、それと観測信号ベクトル（上述した（式（２））との間でコサイン類似度を計算すると、方向θから到来する音を残し、その方向以外から到来する音を減衰するマスクとなる。そのマスクを観測信号の振幅スペクトログラムに適用し、そうして生成された信号を参照信号として使用する。
ｂ）Speaker Beam や Voice Filter 等の、ニューラルネットワークベースの選択的聴取技術
ここでいう選択的聴取技術とは、複数の音声が混同したモノラルの信号から、指定した一人の音声を抽出する技術である。抽出したい話者について、他の話者と混合していないクリーンな音声（混合音声とは別の発話内容で良い）を予め録音しておき、混合信号とクリーン音声とを共にニューラルネットワークに入力すると、混合信号の中に含まれる指定話者の音声が出力される。正しくは、そのようなスペクトログラムを生成するための時間周波数マスクが出力される。そのように出力されたマスクを観測信号の振幅スペクトログラムに適用すると、それは本実施形態の参照信号として使用することができる。
なお、Speaker Beam, Voice Filter の詳細については、それぞれ以下の文献４、文献５に記載されている。
「文献４：
・M. Delcroix, K. Zmolikova, K. Kinoshita, A. Ogawa and T. Nakatani,
"Single channel target speaker extraction and recognition with speaker beam,"
IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2018.」
文献５：
・Author: Quan Wang, Hannah Muckenhire, Kevin Wilson, Prashant Sridhar, Zelin Wu,
John Hershey, Rif A. Saurous, Ron J. Weiss, Ye Jia, Ignacio Lopez Moreno
"VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrogram Masking," arXiv:1810.04826v3 [eess.AS] 27 Oct 2018
https://arxiv.org/abs/1810.04826」

（音源抽出部の詳細について）
次に、図８を用いて音源抽出部１７の詳細について説明する。音源抽出部１７は、例えば、前処理部１７Ａ、抽出フィルター推定部１７Ｂ、後処理部１７Ｃを有する。

前処理部１７Ａは、式（３）〜式（７）に示した無相関化処理、すなわち、時間周波数領域観測信号に対して無相関化処理等を行う。

抽出フィルター推定部１７Ｂは、目的音がより強調された信号を抽出するフィルターを推定する。具体的には、抽出フィルター推定部１７Ｂは、音源抽出のための抽出フィルターの推定や抽出結果の生成を行う。より具体的には、抽出フィルター推定部１７Ｂは、参照信号と抽出フィルターによる抽出結果との依存性、および、出結果と他の仮想的な音源の分離結果との独立性を反映させた目的関数を最適化する解として、抽出フィルターを推定する。

抽出フィルター推定部１７Ｂは、上述したように、目的関数に含まれる、参照信号と抽出結果との依存性を表わす音源モデルとして、
・抽出結果と参照信号との２変量球状分布
・参照信号を時間周波数ごとの分散に対応した値と見なす時間周波数可変分散モデル
・抽出結果の絶対値と参照信号とのダイバージェンスを用いたモデル
の何れかを使用する。また、２変量球状分布として２変量ラプラス分布を使用してもよい。また、時間周波数可変分散モデルとして、時間周波数可変分散ガウス分布、時間周波数可変分散ラプラス分布、時間周波数可変分散 Student-t分布の何れかを使用してもよい。また、ダイバージェンスを用いたモデルのダイバージェンスとして、抽出結果の絶対値と参照信号とのユークリッド距離または二乗誤差、抽出結果のパワースペクトルと絶対値のパワースペクトルとの板倉斎藤距離、抽出結果の振幅スペクトルと絶対値の振幅スペクトルとの板倉斎藤距離、抽出結果の絶対値と参照信号との比と、１との間の二乗誤差の何れかを使用してもよい。

後処理部１７Ｃは、少なくとも混合音信号への抽出フィルターの適用処理を行なう。後処理部１７Ｃは、後述するリスケーリング処理の他、抽出結果スペクトログラムにフーリエ逆変換を適用して抽出結果波形を生成する処理を行ってもよい。

［音源抽出装置で行われる処理の流れ］
（全体の流れ）
次に、図９に示すフローチャートを参照しつつ、音源抽出装置１００で行われる処理の流れ（全体の流れ）について説明する。なお、以下に説明する処理は、特に断らない限りは制御部１８によって行われる。

ステップＳＴ１１では、ＡＤ変換部１２により、マイクロホン１１に入力されたアナログの観測信号（混合音信号）がデジタル信号に変換される。この時点の観測信号は時間領域である。そして、処理がステップＳＴ１２に進む。

ステップＳＴ１２では、ＳＴＦＴ部１３が、時間領域の観測信号に対して短時間フーリエ変換（ＳＴＦＴ）を適用し、時間周波数領域の観測信号を得る。入力はマイクロホンからの他に、必要に応じてファイルやネットワークなどから行なってもよい。ＳＴＦＴ部１３で行われる具体的な処理の詳細については後述する。本実施形態では、入力チャンネルが複数（マイクロホンの個数分）あるため、ＡＤ変換やＳＴＦＴもチャンネル数だけ行われる。そして処理がステップＳＴ１３に進む。

ステップＳＴ１３では、ＳＴＦＴによって時間周波数領域に変換された観測信号を、所定の時間分（所定のフレーム数）だけ蓄積する処理（バッファリング）が行われる。そして、処理がステップＳＴ１４に進む。

ステップＳＴ１４では、区間推定部１５が、目的音の開始時刻（鳴り始めた時刻）および終了時刻（鳴り終わった時刻）を推定する。さらに、発話同士の重複が発生し得る環境で使用される場合は、どの話者の発話なのかを特定可能な情報も合わせて推定する。例えば図５や図６に示した使用形態においては、各話者に割り当てられたマイクロホン（センサー）の番号も推定し、図７に示した使用形態においては、発話の方向も推定する。

音源抽出およびそれにともなう処理は、目的音の区間ごとに行なわれる。そのため、区間が検出された場合のみ処理がステップＳＴ１６に進み、検出されなかった場合はステップＳＴ１６〜ＳＴ１９をスキップして、処理がステップＳＴ２０に進む。

区間が検出された場合は、ステップＳＴ１６において、参照信号生成部１６が、その区間で鳴っている目的音のラフな振幅スペクトログラムを生成する。参照信号の生成で使用可能な方式は、図５〜図７を参照して説明した通りである。そして、処理がステップＳＴ１７に進む。

ステップＳＴ１７では、音源抽出部１７が、ステップＳＴ１６で求まった参照信号と目的音区間の時間範囲に対応した観測信号とを用いて、目的音の抽出結果を生成する。処理の詳細は後述する。

ステップＳＴ１８では、ステップＳＴ１６およびステップＳＴ１７に係る処理を所定の回数だけ反復するか否かが判断される。この反復の意味は、音源抽出処理によって観測信号や参照信号よりも高精度の抽出結果が生成されたら、次にその抽出結果から参照信号を再度生成し、それを用いて音源抽出処理を再度実行すれば、前回よりもさらに高精度な抽出結果が得られることを意味している。

例えば、観測信号をニューラルネットワークに入力して参照信号を生成している場合、観測信号の代わりに１回目の抽出結果をニューラルネットに入力すると、その出力は１回目のニューラルネットワークの出力より高精度である可能性が高い。従ってそれを参照信号として用いて２回目の抽出結果を生成すると、それは１回目よりも高精度である可能性が高く、さらに反復することで一層高精度の抽出結果を得ることも可能である。文献1と異なり、本実施形態では分離処理ではなく抽出処理において反復を行なっていることが特徴的である。なお、この反復は、ステップＳＴ１７に係る音源抽出処理の内部において補助関数法や不動点法でフィルターを推定する際に使用される反復とは別物である点に注意されたい。ステップＳＴ１８に係る処理の後に処理がステップＳＴ１９に進む。

ステップＳＴ１９では、ステップＳＴ１７で生成された抽出結果を用いて後処理部１７Ｃによる後段処理が行なわれる。後段処理の例としては音声認識や、さらにその認識結果を用いた音声対話用応答生成などが考えられる。そして、処理がステップＳＴ２０に進む。

ステップＳＴ２０では、処理を継続するか否かが判定され、継続する場合は処理がステップＳＴ１６に戻り、継続する場合は、処理が終了する。

（ＳＴＦＴについて）
次に、図１０を参照して、ＳＴＦＴ部１３で行われる短時間フーリエ変換について説明する。本実施形態では、マイクロホン観測信号は複数の信号で観測されたマルチチャンネルの信号であるため、ＳＴＦＴはチャンネル毎に行なわれる。以下は k 番目のチャンネルにおけるＳＴＦＴの説明である。

ステップＳＴ１１に係るＡＤ変換処理によって得られたマイクロホン収録信号の波形から一定長を切り出し、それらにハニング窓やハミング窓等の窓関数を適用する（図１０Ａ参照）。この切り出した単位をフレームと呼ぶ。１フレーム分のデータに短時間フーリエ変換を適用することにより（図１０Ｂ参照）、時間周波数領域の観測信号として x_k(1,t)〜x_k(F,t) を得る。ただし、t はフレーム番号、F は周波数ビンの総数を表わす（図１０Ｃ参照）。

切り出すフレームの間には重複があってもよく、そうすることで連続するフレーム間で時間周波数領域の信号の変化が滑らかになる。図１０では、１フレーム分のデータである x_k(1,t)〜x_k(F,t) をまとめて1本のベクトル x_k(t) として記述している（図１０Ｃ差参照）。x_k(t) はスペクトルと呼ばれ、複数のスペクトルを時間方向に並べたデータ構造はスペクトログラムと呼ばれる

図１０Ｃでは、横軸がフレーム番号を、縦軸が周波数ビン番号を表わし、切り出された観測信号５１、５２、５３のそれぞれから３本のスペクトル５１Ａ、５２Ａ、５３Ａがそれぞれ生成されている。

（音源抽出処理）
次に、図１１に示すフローチャートを参照して本実施形態に係る音源抽出処理について説明する。

ステップＳＴ３１では、前処理部１７Ａによる前処理が行われる。前処理の例として、式（３）〜式（６）で表わされる無相関化がある。また、フィルター推定で用いられる更新式によっては初回のみ特別な処理をするものがあるが、そのような処理も前処理として行なう。そして、処理がステップＳＴ３２に進む。

ステップＳＴ３２では抽出フィルターを推定する処理が行われる。そしてステップＳＴ３３に進む。ステップＳＴ３２、ＳＴ３３は抽出フィルターを推定するための反復を表わす。音源モデルとして式（３２）TFVV ガウス分布を用いた場合を除き、抽出フィルターは閉形式では求まらないため、抽出フィルターおよび抽出結果が収束するまでの間、あるいは所定の回数だけ、ステップＳＴ３２に係る処理を繰り返す。

ステップＳＴ３２に係る抽出フィルター推定処理は、抽出フィルター w_1(f) を求める処理であり、具体的な式は音源モデルごとに異なる。

例えば、音源モデルとして式（３２）の TFVV ガウス分布を用いた場合は、参照信号r(f,t) と無相関化観測信号 u(f,t) とを用いて式（３５）の右辺にある重みつき共分散行列を計算し、次に固有値分解を用いて固有ベクトルを求める。そして式（３６）のように、最小の固有値に対応した固有ベクトルに対してエルミート転置を適用すると、それが求める抽出フィルター w_1(f) である。この処理を、全ての周波数ビンすなわち f=1〜F について行なう。

同様に、音源モデルとして式（３１）の TFVV ラプラス分布を用いた場合は、まず式（４０）に従い、参照信号 r(f,t) と無相関化観測信号 u(f,t) とを用いて補助変数 b(f,t) を計算する。次に、式（４２）の右辺にある重みつき共分散行列を計算し、それに固有値分解を適用して固有ベクトルを求める。最後に、式（３６）によって抽出フィルター w_1(f) を得る。この時点の w_1(f) の抽出フィルターはまだ収束していないため、式（４０）に戻って補助変数の計算を再度行なう。これらの処理を w_1(f) が収束するまで、あるいは所定の回数だけ実行する。

音源モデルとして式（２５）の２変量ラプラス分布を用いた場合も同様に、補助変数 b(f,t) の計算（式（４６））と抽出フィルターの計算（式（４８）および式（３６））とを交互に行なう。

一方、音源モデルとして、式（２６）で表わされるダイバージェンスに基づくモデルを用いた場合は、各モデルに対応した更新式（式（５５）〜式（６０））と、ノルムを１に正規化する式（式（５４））とを交互に行なう。

抽出フィルターが収束するまで、あるいは所定の回数の反復を行なったら、処理がステップＳＴ３４に進む。

ステップＳＴ３４では、後処理部１７Ｃによる後処理が行われる。後処理では、抽出結果に対してリスケーリングを行なう。さらに、必要に応じてフーリエ逆変換を行なうことで、時間領域の波形を生成する。リスケーリングとは、抽出結果の周波数ビンごとのスケールを調整する処理である。抽出フィルター推定においては、効率的なアルゴリズムを適用するためにフィルターのノルムが１という制約を置いているが、この制約を持った抽出フィルターを適用して生成される抽出結果は、理想的な目的音とはスケールが異なる。そこで、無相関化前の観測信号を用いて抽出結果のスケールを調整する。

リスケーリング処理は以下の通りである。
まず、式（９）において k=1 として、収束済みの抽出フィルター w_1(f) からリスケーリング前の抽出結果である y_1(f,t) を計算する。リスケーリングの係数 γ(f) は下記の式（６１）を最小化する値として求めることができ、具体的な式は式（６２）の通りである。

この式の x_i(f,t) は、リスケーリングの目標となる（無相関化前の）観測信号である。x_i(f,t) の選び方については後述する。こうして求まった係数 γ(f) を下記の式（６３）のように抽出結果に乗じる。リスケーリング後の抽出結果 y_1(f,t) は、i 番目のマイクロホンの観測信号における目的音由来の成分に相当する。すなわち、目的音以外の音源が存在しなかった場合に i 番目のマイクロホンで観測される信号とほぼ等しい。

さらに必要に応じ、リスケーリング済み抽出結果にフーリエ逆変換を適用することで、抽出結果の波形を得る。前述のように、後段処理によってはフーリエ逆変換を省略することができる。

ここで、リスケーリングの目標となる観測信号 x_i(f,t) の選び方について説明する。これは、マイクロホンの設置形態に依存する。マイクロホン設置形態によっては、目的音を強く収音するマイクロホンが存在する。例えば図５の設置形態においては、話者ごとにマイクロホンが割り当てられているため、話者 i の発話はマイクロホン i で最も強く収音される。従って、マイクロホン i の観測信号 x_i(f,t) をリスケーリングの目標として使用することができる。

図６の設置形態において、センサーＳＥとしてピンマイクロホン等の気導マイクロホンを使用した場合についても、同様の方法が適用可能である。一方、センサーＳＥとして骨伝導マイクロホン等の密着型マイクロホンを使用した場合や、光センサー等の、マイクロホン以外のセンサーを使用した場合は、それらのマイクロホンで収音された信号はリスケーリングの目標としては不適切であるため、これから説明する図７と同様の方法を用いる。

図７の設置形態では、各話者に割り当てられたマイクロホンが存在しないため、リスケーリングの目標は別の方法で見つける必要がある。以下では、マイクロホンアレイを構成するマイクロホンが１個の装置に固定されている場合と、空間内に設置されている場合（分散マイクロホン）とについてそれぞれ説明する。

マイクロホンが１個の装置に固定されている場合、各マイクロホンの SN 比（目的音とそれ以外の信号とのパワー比）はほぼ同一と考えられる。そこで、リスケーリングの目標である x_i(f,t) として、任意のマイクロホンの観測信号を選んでも良い。

あるいは、特開２０１４−２１９４６７号公報に記載の技術で使用されている、遅延和（delay and sum）を用いたリスケーリングも適用可能である。図７で説明したように、区間検出処理において発話同士の重複に対応した方法を用いている場合は、発話区間の他に発話方向θも同時に推定されている。マイクロホンアレイで観測された信号と発話方向θとを用いると、その方向から到来する音がある程度強調された信号を遅延和によって生成することができる。方向θに対して遅延和を行なった結果を z(f, t, θ) と書くことにすると、リスケーリング係数は下記の式（６４）で計算される。

マイクロホンアレイが分散マイクロホンである場合は、別の方法を用いる。分散マイクロホンでは観測信号の SN 比はマイクロホンごとに異なり、話者と近いマイクロホンでは SN 比は高く、遠いマイクロホンでは低いと予想される。そのため、リスケーリングの目標となる観測信号として、話者に近いマイクロホンのものを選択することが望ましい。そこで、各マイクロホンの観測信号に対してリスケーリングを行ない、リスケーリング結果のパワーが最大となるものを採用する。

リスケーリング結果のパワーの大小はリスケーリング係数の絶対値の大小のみで決まる。そこで、下記の式（６５）によってマイクロホン番号 i ごとにリスケーリング係数を計算し、その中で絶対値が最大のものを γ_{max} として下記の式（６６）によってリスケーリングを行なう。

γ_{max} を決定する際に、どのマイクロホンが話者の発話を最も大きく収音しているかも判明する。各マイクロホンの位置が既知である場合は、空間内において話者がおおよそどの辺りに位置しているかが判明するため、その情報を後段処理で活用することも可能である。

例えば、後段処理が音声対話である場合、すなわち音声対話システムにおいて本開示の技術が使用されている場合は、対話システムからの応答の音声を話者から最も近いと推測されるスピーカーから出力したり、あるいは、話者の位置に応じてシステムの応答を変えるといったことも可能である。

［本実施形態で得られる効果］
本実施形態によれば、例えば、下記の効果を得ることができる。
本実施形態の参照信号付き音源抽出では、目的音の鳴っている区間のマルチチャンネル観測信号と、その区間の目的音のラフな振幅スペクトログラムとを入力し、そのラフな振幅スペクトログラムを参照信号として使用することで、参照信号よりも高精度すなわち真の目的音に近い抽出結果を推定する。

処理においては、参照信号と抽出結果との依存性と、抽出結果と仮想的な他の分離結果との独立性との両方を反映した目的関数を用意し、それを最適化する解として抽出フィルターを求める。ブラインド音源分離で使用されるデフレーション法を用いることで、出力される信号は参照信号に対応した１音源分のみとすることができる。

このような特徴により、従来技術と比べて以下のような利点がある。
（１）ブラインド音源分離と比べて
観測信号にブラインド音源分離を適用して複数の分離結果を生成し、その中から参照信号と最も類似している1音源分を選択するという方法と比べ、以下の利点がある。
・複数の分離結果を生成する必要がない。
・原理上、ブラインド音源分離では参照信号は選択のためだけに使用され、分離精度の向上には寄与しないが、本開示の音源抽出では参照信号が抽出精度の向上にも寄与する。
（２）従来の適応ビームフォーマーと比べて
区間外の観測信号が存在しなくても、抽出を行なうことができる。すなわち、妨害音だけが鳴っているタイミングで取得された観測信号を別途用意しなくても抽出を行なうことができる。
（３）参照信号ベース音源抽出（例えば、特開２０１４−２１９４６７等に記載された技術）と比べて
・特開２０１４−２１９４６７等に記載された技術における参照信号は時間エンベロープであり、目的音の時間方向の変化は全周波数ビンで共通であると想定していた。それに対し、本実施形態の参照信号は振幅スペクトログラムである。そのため、目的音の時間方向の変化が周波数ビンごとに大きく異なる場合に抽出精度の向上が期待できる。
・上記文献に記載された技術における参照信号は反復の初期値としてのみ用いられていたため、反復の結果として参照信号とは異なる音源が抽出される可能性があった。それに対して本実施形態では、参照信号は音源モデルの一部として反復中ずっと使用されるため、参照信号と異なる音源が抽出される可能性が小さい。
（４）独立深層学習行列分析（IDLMA）と比べて
・IDLMA では音源ごとに異なる参照信号を用意する必要があるため、不明な音源がある場合は IDLMA が適用できなかった。また、マイクロホン数と音源数とが一致する場合にしか適用できなかった。それに対して本実施形態では、抽出したい１音源の参照信号が用意できれば適用可能である。

＜変形例＞
以上、本開示の一実施形態について具体的に説明したが、本開示の内容は上述した実施形態に限定されるものではなく、本開示の技術的思想に基づく各種の変形が可能である。なお、変形例の説明において、上述した説明における同一または同質の構成については同一の参照符号を付し、重複した説明が適宜、省略される。

（無相関化とフィルター推定処理との統合）
抽出フィルターの更新式のうち、固有値分解を使用するものについては、一般化固有値分解を用いて無相関化とフィルター推定とを一つの式にまとめることができる。その場合、無相関化に相当する処理をスキップすることができる。

以下では、両者を統合した式を導出する過程について、式（３２）の TFVV ガウス分布を例に説明する。

式（９）において k=1 とした式を、下記の式（６７）のように書き直す。

q_1(f) は、無相関化前の観測信号から（無相関化観測信号を経由せずに）抽出結果を直接生成するフィルターである。TFVV ガウス分布に対応した最適化問題を表わす式（３４）に対し、式（６７）および式（３）〜式（６）を用いて変形を行なうと、q_1(f) についての最適化問題である式（６８）が得られる。

この式は式（３４）とは別の制約付き最小化問題であるが、ラグランジュの未定乗数法を用いて解くことができる。ラグランジュ未定乗数をλとし、式（６８）で最適化したい式および制約を表わす式を一つにまとめて目的関数を作ると下記の式（６９）のように書ける。

式（６９）を conj(q_1(f)) で偏微分し、=0 を追加してから変形すると、式（７０）が得られる。

式（７０）は一般化固有値問題（generalized eigenvalue problem）を表わしており、λは固有値の内の一つである。さらに、式（７０）の両辺に左から q_1(f) を乗じると、下記の式（７１）が得られる。

式（７１）の右辺は式（６８）において最小化したい関数そのものである。従って、式（７１）の最小値は式（７０）を満たす固有値の内で最小のものであり、求める抽出フィルター q_1(f) はその最小固有値に対応した固有ベクトルのエルミート転置である。

２つの行列 A, B を引数にとり、その２つの行列についての一般化固有値問題を解いて全ての固有ベクトルを返す関数を gev(A, B) と表わす。この関数を用いると、式（７０）の固有ベクトルは下記の式（７２）のように書ける。

式（３６）と同様に、式（７２）におけるv_{min}(f), ..., v_{max}(f) は固有ベクトルであり、v_{min}(f) が最小固有値に対応した固有ベクトルである。抽出フィルターq_1(f) は、式（７３）のように、v_{min}(f) のエルミート転置である。

同様に、音源モデルとして式（３１）の TFVV ラプラス分布を用いた場合は、式（７４）、式（７５）が得られる。

すなわち、式（４）によって補助変数 b(f,t) を計算し、次に式（７５）によって２つの行列に対応した固有ベクトルを求めると、抽出フィルター q_1(f) は、最小の固有値に対応した固有ベクトル v_{min}(f) のエルミート転置である（式（７３））。q_1(f) は１回では収束しないので、収束するまであるいは所定の回数だけ、式（７４）〜式（７５）および式（７３）を実行する。

音源モデルとして式（３３）の TFVV Student-t 分布を用いた場合と、式（２５）の二変量ラプラス分布を用いた場合とについては、導出される式の一部が共通であるため、合わせて説明する。補助変数 b(f,t) を計算する式は両者で異なり、TFVV Student-t 分布では下記の式（７６）を、二変量ラプラス分布では下記の式（７７）を用いる。

一方、抽出フィルター q_1(f,t) を求める式は両者ともに下記の式（７８）および式（７３）を用いる。抽出フィルター q_1(f,t) は１回では収束しないので、所定の回数だけ反復を行なう点は他のモデルと同様である。

［その他の変形例］
上述の実施形態および変形例において挙げた構成、方法、工程、形状、材料および数値などはあくまでも例に過ぎず、必要に応じてこれと異なる構成、方法、工程、形状、材料および数値などを用いてもよく、公知のもので置き換えることも可能である。また、実施形態および変形例における構成、方法、工程、形状、材料および数値などは、技術的な矛盾が生じない範囲において、互いに組み合わせることが可能である。

なお、本明細書中で例示された効果により本開示の内容が限定して解釈されるものではない。

本開示は、以下の構成も採ることができる。
（１）
異なる位置に配置されたマイクロホンで収録され、目的音と目的音以外の音とが混合された混合音信号が入力され、
前記混合音信号に基づいて前記目的音に対応する参照信号を生成する参照信号生成部と、
前記混合音信号から前記参照信号に類似し、且つ、前記目的音がより強調された信号を抽出する音源抽出部と
を有する
信号処理装置。
（２）
前記混合音信号に前記目的音が含まれる区間を検出する区間検出部を有する
（１）に記載の信号処理装置。
（３）
前記音源抽出部は、
前記目的音がより強調された信号を抽出するフィルターを推定する抽出フィルター推定部を有する
（１）または（２）に記載の信号処理装置。
（４）
前記抽出フィルター推定部は、
前記参照信号と前記フィルターによる抽出結果との依存性、および、前記抽出結果と他の仮想的な音源の分離結果との独立性を反映させた目的関数を最適化する解として、前記フィルターを推定する
（３）に記載の信号処理装置。
（５）
前記目的関数に含まれる、前記参照信号と前記抽出結果との依存性を表わす音源モデルとして、
・抽出結果と参照信号との２変量球状分布
・参照信号を時間周波数ごとの分散に対応した値と見なす時間周波数可変分散モデル
・抽出結果の絶対値と参照信号とのダイバージェンスを用いたモデル
の何れかを使用する
（４）に記載の信号処理装置。
（６）
前記２変量球状分布として２変量ラプラス分布を使用する
（５）に記載の信号処理装置。
（７）
前記時間周波数可変分散モデルとして、
・時間周波数可変分散ガウス分布
・時間周波数可変分散ラプラス分布
・時間周波数可変分散 Student-t分布
の何れかを使用する
（５）に記載の信号処理装置。
（８）
前記ダイバージェンスを用いたモデルのダイバージェンスとして、
・抽出結果の絶対値と参照信号とのユークリッド距離または二乗誤差
・抽出結果のパワースペクトルと絶対値のパワースペクトルとの板倉斎藤距離
・抽出結果の振幅スペクトルと絶対値の振幅スペクトルとの板倉斎藤距離
・抽出結果の絶対値と参照信号との比と、１との間の二乗誤差
の何れかを使用する
（５）に記載の信号処理装置。
（９）
前記音源抽出部は、
前記抽出フィルター推定部による処理の前処理として時間周波数領域観測信号に対して無相関化処理を行なう前処理部と、
少なくとも前記混合音信号への前記フィルターの適用処理を行なう後処理部と
を有する
（３）から（８）までの何れかに記載の信号処理装置。
（１０）
前記参照信号生成部は、
音声同士が混合した信号と、その信号とは別のタイミングで取得された所定の話者のクリーンな音声とを入力して前記話者の音声を抽出するニューラルネットワークを備え、前記混合音信号および前記クリーン音声を前記ニューラルネットワークに入力し、前記ニューラルネットワークの出力から生成される振幅スペクトログラムを前記参照信号として生成する
（１）から（９）までの何れかに記載の信号処理装置。
（１１）
前記参照信号生成部は、
目的音の到来方向を推定し、所定の方向から到来する音を残してそれ以外の方向から到来する音を低減する作用のある時間周波数マスクを生成し、前記時間周波数マスクを前記混合音信号の振幅スペクトログラムに適用することで生成される振幅スペクトログラムを前記参照信号として生成する
（１）から（９）までの何れかに記載の信号処理装置。
（１２）
前記参照信号生成部は、
前記マイクロホンとは異なるセンサーを使用して前記参照信号を生成する
（１）から（１１）までの何れかに記載の信号処理装置。
（１３）
前記参照信号生成部は、
前記抽出フィルター推定部によって推定されたフィルターによる抽出結果をニューラルネットワークに入力することにより参照信号を生成する
（１）から（１２）までの何れかに記載の信号処理装置。
（１４）
前記マイクロホンは、話者毎に割り当てられたマイクロホンである
（１）から（１３）までの何れかに記載の信号処理装置。
（１５）
前記マイクロホンは、話者に装着されたマイクロホンである
（１４）に記載の信号処理装置。
（１６）
異なる位置に配置されたマイクロホンで収録され、目的音と目的音以外の音とが混合された混合音信号が入力され、
参照信号生成部が、前記混合音信号に基づいて前記目的音に対応する参照信号を生成し、
音源抽出部が、前記混合音信号から前記参照信号に類似し、且つ、前記目的音がより強調された信号を抽出する
信号処理方法。
（１７）
異なる位置に配置されたマイクロホンで収録され、目的音と目的音以外の音とが混合された混合音信号が入力され、
参照信号生成部が、前記混合音信号に基づいて前記目的音に対応する参照信号を生成し、
音源抽出部が、前記混合音信号から前記参照信号に類似し、且つ、前記目的音がより強調された信号を抽出する
信号処理方法をコンピュータに実行させるプログラム。

１５・・・区間推定部
１６・・・参照信号推定部
１７・・・音源抽出部
１７Ａ・・・前処理部
１７Ｂ・・・抽出フィルター推定部
１７Ｃ・・・後処理部
２０・・・制御部
１００・・・音源抽出装置

Claims

異なる位置に配置されたマイクロホンで収録され、目的音と目的音以外の音とが混合された混合音信号が入力され、
前記混合音信号に基づいて前記目的音に対応する参照信号を生成する参照信号生成部と、
前記混合音信号から前記参照信号に類似し、且つ、前記目的音がより強調された信号を抽出する音源抽出部と
を有する
信号処理装置。
前記混合音信号に前記目的音が含まれる区間を検出する区間検出部を有する
請求項１に記載の信号処理装置。
前記音源抽出部は、
前記目的音がより強調された信号を抽出するフィルターを推定する抽出フィルター推定部を有する
請求項１に記載の信号処理装置。
前記抽出フィルター推定部は、
前記参照信号と前記フィルターによる抽出結果との依存性、および、前記抽出結果と他の仮想的な音源の分離結果との独立性を反映させた目的関数を最適化する解として、前記フィルターを推定する
請求項３に記載の信号処理装置。
前記目的関数に含まれる、前記参照信号と前記抽出結果との依存性を表わす音源モデルとして、
・抽出結果と参照信号との２変量球状分布
・参照信号を時間周波数ごとの分散に対応した値と見なす時間周波数可変分散モデル
・抽出結果の絶対値と参照信号とのダイバージェンスを用いたモデル
の何れかを使用する
請求項４に記載の信号処理装置。
前記２変量球状分布として２変量ラプラス分布を使用する
請求項５に記載の信号処理装置。
前記時間周波数可変分散モデルとして、
・時間周波数可変分散ガウス分布
・時間周波数可変分散ラプラス分布
・時間周波数可変分散 Student-t分布
の何れかを使用する
請求項５に記載の信号処理装置。
前記ダイバージェンスを用いたモデルのダイバージェンスとして、
・抽出結果の絶対値と参照信号とのユークリッド距離または二乗誤差
・抽出結果のパワースペクトルと絶対値のパワースペクトルとの板倉斎藤距離
・抽出結果の振幅スペクトルと絶対値の振幅スペクトルとの板倉斎藤距離
・抽出結果の絶対値と参照信号との比と、１との間の二乗誤差
の何れかを使用する
請求項５に記載の信号処理装置。
前記音源抽出部は、
前記抽出フィルター推定部による処理の前処理として時間周波数領域観測信号に対して無相関化処理を行なう前処理部と、
少なくとも前記混合音信号への前記フィルターの適用処理を行なう後処理部と
を有する
請求項３に記載の信号処理装置。
前記参照信号生成部は、
音声同士が混合した信号と、その信号とは別のタイミングで取得された所定の話者のクリーンな音声とを入力して前記話者の音声を抽出するニューラルネットワークを備え、前記混合音信号および前記クリーン音声を前記ニューラルネットワークに入力し、前記ニューラルネットワークの出力から生成される振幅スペクトログラムを前記参照信号として生成する
請求項１に記載の信号処理装置。
前記参照信号生成部は、
目的音の到来方向を推定し、所定の方向から到来する音を残してそれ以外の方向から到来する音を低減する作用のある時間周波数マスクを生成し、前記時間周波数マスクを前記混合音信号の振幅スペクトログラムに適用することで生成される振幅スペクトログラムを前記参照信号として生成する
請求項１に記載の信号処理装置。
前記参照信号生成部は、
前記マイクロホンとは異なるセンサーを使用して前記参照信号を生成する
請求項１に記載の信号処理装置。
前記参照信号生成部は、
前記抽出フィルター推定部によって推定されたフィルターによる抽出結果をニューラルネットワークに入力することにより参照信号を生成する
請求項１に記載の信号処理装置。
前記マイクロホンは、話者毎に割り当てられたマイクロホンである
請求項１に記載の信号処理装置。
前記マイクロホンは、話者に装着されたマイクロホンである
請求項１４に記載の信号処理装置。
異なる位置に配置されたマイクロホンで収録され、目的音と目的音以外の音とが混合された混合音信号が入力され、
参照信号生成部が、前記混合音信号に基づいて前記目的音に対応する参照信号を生成し、
音源抽出部が、前記混合音信号から前記参照信号に類似し、且つ、前記目的音がより強調された信号を抽出する
信号処理方法。
異なる位置に配置されたマイクロホンで収録され、目的音と目的音以外の音とが混合された混合音信号が入力され、
参照信号生成部が、前記混合音信号に基づいて前記目的音に対応する参照信号を生成し、
音源抽出部が、前記混合音信号から前記参照信号に類似し、且つ、前記目的音がより強調された信号を抽出する
信号処理方法をコンピュータに実行させるプログラム。