JP2021152623A - 信号処理装置、信号処理方法およびプログラム - Google Patents
信号処理装置、信号処理方法およびプログラム Download PDFInfo
- Publication number
- JP2021152623A JP2021152623A JP2020053542A JP2020053542A JP2021152623A JP 2021152623 A JP2021152623 A JP 2021152623A JP 2020053542 A JP2020053542 A JP 2020053542A JP 2020053542 A JP2020053542 A JP 2020053542A JP 2021152623 A JP2021152623 A JP 2021152623A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- sound
- reference signal
- extraction
- equation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 82
- 238000003672 processing method Methods 0.000 title claims description 9
- 238000000605 extraction Methods 0.000 claims abstract description 237
- 230000005236 sound signal Effects 0.000 claims abstract description 47
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims abstract description 31
- 239000000284 extract Substances 0.000 claims abstract description 18
- 238000000926 separation method Methods 0.000 claims description 112
- 238000009826 distribution Methods 0.000 claims description 56
- 238000013528 artificial neural network Methods 0.000 claims description 29
- 238000001228 spectrum Methods 0.000 claims description 18
- 239000006185 dispersion Substances 0.000 claims description 15
- 239000000203 mixture Substances 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000012805 post-processing Methods 0.000 claims description 11
- 230000000694 effects Effects 0.000 claims description 9
- 238000000034 method Methods 0.000 description 159
- 239000011159 matrix material Substances 0.000 description 61
- 230000006870 function Effects 0.000 description 56
- 230000008569 process Effects 0.000 description 48
- 239000013598 vector Substances 0.000 description 23
- 238000012880 independent component analysis Methods 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000009434 installation Methods 0.000 description 11
- 230000008901 benefit Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 10
- 238000000354 decomposition reaction Methods 0.000 description 9
- 238000002156 mixing Methods 0.000 description 9
- 230000003044 adaptive effect Effects 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 239000000047 product Substances 0.000 description 5
- 210000000988 bone and bone Anatomy 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 102100035353 Cyclin-dependent kinase 2-associated protein 1 Human genes 0.000 description 3
- 102100029860 Suppressor of tumorigenicity 20 protein Human genes 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000036961 partial effect Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 101000737813 Homo sapiens Cyclin-dependent kinase 2-associated protein 1 Proteins 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 108090000237 interleukin-24 Proteins 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009747 swallowing Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
- 230000002087 whitening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】例えば、目的音を抽出する精度を向上させる。【解決手段】異なる位置に配置されたマイクロホンで収録され、目的音と目的音以外の音とが混合された混合音信号が入力され、混合音信号に基づいて目的音に対応する参照信号を生成する参照信号生成部と、混合音信号から参照信号に類似し、且つ、目的音がより強調された信号を抽出する音源抽出部とを有する信号処理装置である。【選択図】図4
Description
本開示は、信号処理装置、信号処理方法およびプログラムに関する。
抽出したい音(以下、目的音と適宜、称する)および除去したい音(以下、妨害音と適宜、称する)が混合された混合音信号から、目的音を抽出する技術が提案されている(例えば、下記特許文献1〜3を参照のこと。)。
このような分野では、目的音を抽出する精度を向上させることが望まれている。
本開示は、目的音を抽出する精度を向上させた信号処理装置、信号処理方法、プログラムおよび信号処理システムを提供することを目的の一つとする。
本開示は、例えば、
異なる位置に配置されたマイクロホンで収録され、目的音と目的音以外の音とが混合された混合音信号が入力され、
混合音信号に基づいて目的音に対応する参照信号を生成する参照信号生成部と、
混合音信号から参照信号に類似し、且つ、目的音がより強調された信号を抽出する音源抽出部と
を有する
信号処理装置である。
異なる位置に配置されたマイクロホンで収録され、目的音と目的音以外の音とが混合された混合音信号が入力され、
混合音信号に基づいて目的音に対応する参照信号を生成する参照信号生成部と、
混合音信号から参照信号に類似し、且つ、目的音がより強調された信号を抽出する音源抽出部と
を有する
信号処理装置である。
本開示は、例えば、
異なる位置に配置されたマイクロホンで収録され、目的音と目的音以外の音とが混合された混合音信号が入力され、
参照信号生成部が、混合音信号に基づいて目的音に対応する参照信号を生成し、
音源抽出部が、混合音信号から参照信号に類似し、且つ、目的音がより強調された信号を抽出する
信号処理方法である。
異なる位置に配置されたマイクロホンで収録され、目的音と目的音以外の音とが混合された混合音信号が入力され、
参照信号生成部が、混合音信号に基づいて目的音に対応する参照信号を生成し、
音源抽出部が、混合音信号から参照信号に類似し、且つ、目的音がより強調された信号を抽出する
信号処理方法である。
本開示は、例えば、
異なる位置に配置されたマイクロホンで収録され、目的音と目的音以外の音とが混合された混合音信号が入力され、
参照信号生成部が、混合音信号に基づいて目的音に対応する参照信号を生成し、
音源抽出部が、混合音信号から参照信号に類似し、且つ、目的音がより強調された信号を抽出する
信号処理方法をコンピュータに実行させるプログラムである。
異なる位置に配置されたマイクロホンで収録され、目的音と目的音以外の音とが混合された混合音信号が入力され、
参照信号生成部が、混合音信号に基づいて目的音に対応する参照信号を生成し、
音源抽出部が、混合音信号から参照信号に類似し、且つ、目的音がより強調された信号を抽出する
信号処理方法をコンピュータに実行させるプログラムである。
以下、本開示の実施形態等について図面を参照しながらの説明がなされる。なお、説明は以下の順序で行われる。
<本開示の概要、背景、および、考慮すべき問題について>
<本開示で用いられる技術>
<一実施形態>
<変形例>
以下に説明する実施形態等は本開示の好適な具体例であり、本開示の内容がこれらの実施形態等に限定されるものではない。
<本開示の概要、背景、および、考慮すべき問題について>
<本開示で用いられる技術>
<一実施形態>
<変形例>
以下に説明する実施形態等は本開示の好適な具体例であり、本開示の内容がこれらの実施形態等に限定されるものではない。
[本明細書における表記について]
(数式の表記)
なお、以下では下記の表記に従って数式の説明を行う。
・「_」は、下つき文字を表わす。
(例) X_k ・・・「k」は下つき文字である。
・下つき文字が複数ある場合は、「{...}」で囲む。
(例)R_{xx} ・・・「xx」は下つき文字である。
・「^」は、上つき文字を表わす。
(例) W^H …… W のエルミート転置(=複素転置)行列
y_k(f,t)^H …… y_k(f,t) のエルミート転置ベクトル(共役複素数&転置)
A^{-1} …… 分散行列 A の逆行列。
・conj(X) は、複素数 X の共役複素数を表わす。式の上では、X の共役複素数は X に上線をつけて表わす。
・hat(x) は、x の上に「^」をつけることを表わす。
・値の代入は、「=」または「←」で表わす。特に、両辺で等号が成立しないような操作(例えば“x ← x + 1”)については、必ず“←”で表わしている。
・行列は大文字で示し、ベクトルやスカラーは小文字を示す。また、行列とベクトルは太字で、スカラーは斜体で示している。
(数式の表記)
なお、以下では下記の表記に従って数式の説明を行う。
・「_」は、下つき文字を表わす。
(例) X_k ・・・「k」は下つき文字である。
・下つき文字が複数ある場合は、「{...}」で囲む。
(例)R_{xx} ・・・「xx」は下つき文字である。
・「^」は、上つき文字を表わす。
(例) W^H …… W のエルミート転置(=複素転置)行列
y_k(f,t)^H …… y_k(f,t) のエルミート転置ベクトル(共役複素数&転置)
A^{-1} …… 分散行列 A の逆行列。
・conj(X) は、複素数 X の共役複素数を表わす。式の上では、X の共役複素数は X に上線をつけて表わす。
・hat(x) は、x の上に「^」をつけることを表わす。
・値の代入は、「=」または「←」で表わす。特に、両辺で等号が成立しないような操作(例えば“x ← x + 1”)については、必ず“←”で表わしている。
・行列は大文字で示し、ベクトルやスカラーは小文字を示す。また、行列とベクトルは太字で、スカラーは斜体で示している。
(用語の定義)
本明細書では、「音(信号)」と「音声(信号)」とを使い分けている。「音」はサウンドやオーディオなどの一般的な意味で使い、「音声」はボイスやスピーチを表わす用語として使用している。
また、「分離」と「抽出」とを、以下のように使い分けている。「分離」は、混合の逆であり、複数の原信号が混合した信号をそれぞれの原信号に分けることを意味する用語として用いる(入力も出力も複数ある。)。「抽出」は、複数の原信号が混合した信号から1つの原信号を取り出すことを意味する用語として用いる。(入力は複数だが、出力は1つである。)。
「フィルターを適用する」と「フィルタリングを行なう」とは同じ意味であり、同様に、「マスクを適用する」と「マスキングを行なう」とは同じ意味である。
本明細書では、「音(信号)」と「音声(信号)」とを使い分けている。「音」はサウンドやオーディオなどの一般的な意味で使い、「音声」はボイスやスピーチを表わす用語として使用している。
また、「分離」と「抽出」とを、以下のように使い分けている。「分離」は、混合の逆であり、複数の原信号が混合した信号をそれぞれの原信号に分けることを意味する用語として用いる(入力も出力も複数ある。)。「抽出」は、複数の原信号が混合した信号から1つの原信号を取り出すことを意味する用語として用いる。(入力は複数だが、出力は1つである。)。
「フィルターを適用する」と「フィルタリングを行なう」とは同じ意味であり、同様に、「マスクを適用する」と「マスキングを行なう」とは同じ意味である。
<本開示の概要、背景、および、考慮すべき問題について>
始めに、本開示の理解を容易とするために、本開示の概要、背景、本開示において考慮すべき問題について説明する。
始めに、本開示の理解を容易とするために、本開示の概要、背景、本開示において考慮すべき問題について説明する。
(本開示の概要)
本開示は、参照信号(リファレンス)を用いた音源抽出である。抽出したい音(目的音)と消したい音(妨害音)とが混合した信号を複数のマイクロホンで収録することに加え、目的音に対応した「ラフな」振幅スペクトログラムを生成し、その振幅スペクトログラムを参照信号として使用することで、参照信号に類似し、且つ、それよりも高精度の抽出結果を生成する信号処理装置である。すなわち、本開示の一形態は、混合音信号から参照信号に類似し、且つ、目的音がより強調された信号を抽出する信号処理装置である。
本開示は、参照信号(リファレンス)を用いた音源抽出である。抽出したい音(目的音)と消したい音(妨害音)とが混合した信号を複数のマイクロホンで収録することに加え、目的音に対応した「ラフな」振幅スペクトログラムを生成し、その振幅スペクトログラムを参照信号として使用することで、参照信号に類似し、且つ、それよりも高精度の抽出結果を生成する信号処理装置である。すなわち、本開示の一形態は、混合音信号から参照信号に類似し、且つ、目的音がより強調された信号を抽出する信号処理装置である。
信号処理装置で行われる処理においては、参照信号と抽出結果との依存性(類似性)と、抽出結果と仮想的な他の分離結果との独立性との両方を反映した目的関数を用意し、それを最適化する解として抽出フィルターを求める。ブラインド音源分離で使用されるデフレーション法を用いることで、出力される信号は参照信号に対応した1音源分のみとすることができる。依存性と独立性とを共に考慮したビームフォーマーと見なせるため、以下では、Similarity-and-Independence-aware Beamformer(SIBF)と適宜、称する。
(背景)
本開示は、参照信号(リファレンス)を用いた音源抽出である。抽出したい音(目的音)と消したい音(妨害音)とが混合した信号を複数のマイクロホンで収録することに加え、目的音に対応した「ラフな」振幅スペクトログラムを取得または生成し、その振幅スペクトログラムを参照信号として使用することで、参照信号に類似かつそれよりも高精度の抽出結果を生成する。
本開示は、参照信号(リファレンス)を用いた音源抽出である。抽出したい音(目的音)と消したい音(妨害音)とが混合した信号を複数のマイクロホンで収録することに加え、目的音に対応した「ラフな」振幅スペクトログラムを取得または生成し、その振幅スペクトログラムを参照信号として使用することで、参照信号に類似かつそれよりも高精度の抽出結果を生成する。
本開示が想定している使用状況は、例えば、下記の(1)〜(3)の条件をすべて満たすものとする。
(1)観測信号は複数のマイクロホンで同期して収録される。
(2)目的音が鳴っている区間すなわち時間範囲は既知であり、前述の観測信号は少なくともその区間を含んでいるものとする。
(3)参照信号として、目的音に対応したラフな振幅スペクトログラム(ラフな目的音スペクトログラム)が取得済み、あるいは前述の観測信号から生成可能であるとする。
(1)観測信号は複数のマイクロホンで同期して収録される。
(2)目的音が鳴っている区間すなわち時間範囲は既知であり、前述の観測信号は少なくともその区間を含んでいるものとする。
(3)参照信号として、目的音に対応したラフな振幅スペクトログラム(ラフな目的音スペクトログラム)が取得済み、あるいは前述の観測信号から生成可能であるとする。
上記の各条件について補足する。
上記(1)の条件において、各マイクロホンは固定されていてもいなくても良く、どちらであっても各マイクロホンおよび音源の位置は未知で良い。固定されたマイクロホンの例としてはマイクロホンアレイがあり、固定されていないマイクロホンの例としては、各発話者がピンマイクロホン等を装着している場合が考えられる。
上記(1)の条件において、各マイクロホンは固定されていてもいなくても良く、どちらであっても各マイクロホンおよび音源の位置は未知で良い。固定されたマイクロホンの例としてはマイクロホンアレイがあり、固定されていないマイクロホンの例としては、各発話者がピンマイクロホン等を装着している場合が考えられる。
上記(2)の条件において、目的音が鳴っている区間とは、例えば特定話者の音声を抽出する場合であれば発話区間のことである。区間は既知である一方、区間の外側において、目的音が鳴っているか否かは未知であるとする。すなわち、区間の外側には目的音は存在しないといった仮定は、成立しない場合がある。
上記(3)において、ラフな目的音スペクトログラムとは、真の目的音のスペクトログラムと比べ、以下のa)からf)のうち1つ以上の条件に該当するために劣化していることを意味する。
a)位相情報を含まない実数のデータである。
b)目的音が優勢ではあるものの、妨害音も含まれている。
c)妨害音がほぼ除去されているが、その副作用として音が歪んでいる。
d)時間方向・周波数方向いずれかまたは両方において、真の目的音スペクトログラムと比べて解像度が低下している。
e)スペクトログラムの振幅のスケールは観測信号とは異なり、大きさの比較が無意味である。例えば、ラフな目的音スペクトログラムの振幅が観測信号スペクトログラムの振幅の半分であったとしても、それは観測信号において目的音と妨害音とが同じ大きさで含まれていることを決して意味しない。
f)音以外の信号から生成された振幅スペクトログラムである。
上記のようなラフな目的音スペクトログラムは、例えば以下のような方法で取得または生成される。
・目的音の近くに設置されたマイクロホン(例えば話者に装着されたピンマイクロホン)で音を収録し、そこから振幅スペクトログラムを求める。(上記bの例に相当)
・振幅スペクトログラム領域で特定の種類の音を抽出するニューラルネットワーク(NN)を予め学習しておき、そこに観測信号を入力する。(上記a、c、eに相当)
・骨伝導マイクロホンなど、通常使用される気導マイクロホンとは別のセンサーで取得された信号から振幅スペクトログラムを求める。(上記cに相当)
・メル周波数など、非線形な周波数領域において計算されたスペクトログラム相当のデータに対し、所定の変換を適用することで線形の周波数領域のスペクトログラムを生成する。(上記a、d、eに相当)
・マイクロホンの代わりに、発話者の口や喉付近の皮膚表面の振動を観測可能なセンサーを用い、そのセンサーで取得された信号から振幅スペクトログラムを求める。(上記d、e、fに相当)
a)位相情報を含まない実数のデータである。
b)目的音が優勢ではあるものの、妨害音も含まれている。
c)妨害音がほぼ除去されているが、その副作用として音が歪んでいる。
d)時間方向・周波数方向いずれかまたは両方において、真の目的音スペクトログラムと比べて解像度が低下している。
e)スペクトログラムの振幅のスケールは観測信号とは異なり、大きさの比較が無意味である。例えば、ラフな目的音スペクトログラムの振幅が観測信号スペクトログラムの振幅の半分であったとしても、それは観測信号において目的音と妨害音とが同じ大きさで含まれていることを決して意味しない。
f)音以外の信号から生成された振幅スペクトログラムである。
上記のようなラフな目的音スペクトログラムは、例えば以下のような方法で取得または生成される。
・目的音の近くに設置されたマイクロホン(例えば話者に装着されたピンマイクロホン)で音を収録し、そこから振幅スペクトログラムを求める。(上記bの例に相当)
・振幅スペクトログラム領域で特定の種類の音を抽出するニューラルネットワーク(NN)を予め学習しておき、そこに観測信号を入力する。(上記a、c、eに相当)
・骨伝導マイクロホンなど、通常使用される気導マイクロホンとは別のセンサーで取得された信号から振幅スペクトログラムを求める。(上記cに相当)
・メル周波数など、非線形な周波数領域において計算されたスペクトログラム相当のデータに対し、所定の変換を適用することで線形の周波数領域のスペクトログラムを生成する。(上記a、d、eに相当)
・マイクロホンの代わりに、発話者の口や喉付近の皮膚表面の振動を観測可能なセンサーを用い、そのセンサーで取得された信号から振幅スペクトログラムを求める。(上記d、e、fに相当)
本開示の一つの目的は、このようにして取得・生成されたラフな目的音スペクトログラムを参照信号として利用し、参照信号を超える精度の(目的音が一層強調されている、言い換えると、真の目的音に一層近い)抽出結果を生成することである。より具体的には、マルチチャンネルの観測信号に線形フィルターを適用して抽出結果を生成する音源抽出処理において、参照信号を超える精度の(真の目的音に一層近い)抽出結果を生成する線形フィルターを推定する。
本開示において、音源抽出処理のための線形フィルターを推定する理由は、線形フィルターが持つ以下の利点を享受するためである。
利点1: 非線形な抽出処理と比べ、抽出結果の歪みが小さい。そのため、音声認識等と組みわせた場合に、歪みによる認識精度の低下を回避することができる。
利点2:後述のリスケーリング処理により、抽出結果の位相を適切に推定することができる。そのため、位相に依存した後段処理と組みわせた場合(抽出結果を音として再生し、それを人間が聞くという場合も含む)に不適切な位相に由来する問題を回避することができる。
利点3: マイクロホンの個数を増やすことで、抽出精度の向上が容易である。
利点1: 非線形な抽出処理と比べ、抽出結果の歪みが小さい。そのため、音声認識等と組みわせた場合に、歪みによる認識精度の低下を回避することができる。
利点2:後述のリスケーリング処理により、抽出結果の位相を適切に推定することができる。そのため、位相に依存した後段処理と組みわせた場合(抽出結果を音として再生し、それを人間が聞くという場合も含む)に不適切な位相に由来する問題を回避することができる。
利点3: マイクロホンの個数を増やすことで、抽出精度の向上が容易である。
(本開示で考慮すべき問題)
本開示の目的の一つを再度記述すると、以下の通りである。
目的: 以下のa)〜c)までの条件が揃っているとして、c)の信号よりも高精度な抽出結果を生成するための線形フィルターを推定する。
a)マルチチャンネルのマイクロホンで収録された信号がある。マイクロホンの配置や各音源の位置は未知でも良い。
b)目的音(残したい音)が鳴っている区間は既知である。ただし、区間外にも目的音が存在するかどうかは未知である。
c)目的音のラフな振幅スペクトログラム(またはそれに類するデータ)が取得済みまたは生成可能である。振幅スペクトログラムは実数であり、位相は分からない。
しかしながら、上記の3つの条件をすべて満たす線形フィルタリング方式は、従来は存在しなかった。一般的なの線形フィルタリング方式としては主に以下の3種類が知られている。
・適応ビームフォーマー
・ブラインド音源分離
・参照信号を用いた既存の線形フィルタリング処理
以降ではそれぞれの方式についての問題点を説明する。
本開示の目的の一つを再度記述すると、以下の通りである。
目的: 以下のa)〜c)までの条件が揃っているとして、c)の信号よりも高精度な抽出結果を生成するための線形フィルターを推定する。
a)マルチチャンネルのマイクロホンで収録された信号がある。マイクロホンの配置や各音源の位置は未知でも良い。
b)目的音(残したい音)が鳴っている区間は既知である。ただし、区間外にも目的音が存在するかどうかは未知である。
c)目的音のラフな振幅スペクトログラム(またはそれに類するデータ)が取得済みまたは生成可能である。振幅スペクトログラムは実数であり、位相は分からない。
しかしながら、上記の3つの条件をすべて満たす線形フィルタリング方式は、従来は存在しなかった。一般的なの線形フィルタリング方式としては主に以下の3種類が知られている。
・適応ビームフォーマー
・ブラインド音源分離
・参照信号を用いた既存の線形フィルタリング処理
以降ではそれぞれの方式についての問題点を説明する。
(適応ビームフォーマーの問題点)
ここでいう適応ビームフォーマーとは、複数のマイクロホンで観測された信号と、どの音源を目的音として抽出するかを表わす情報と用いて、目的音を抽出するための線形フィルターを適応的に推定する方式である。適応ビームフォーマーには、例えば、特開2012−234150号公報や、特開2006−072163号公報に記載された方式がある。
ここでいう適応ビームフォーマーとは、複数のマイクロホンで観測された信号と、どの音源を目的音として抽出するかを表わす情報と用いて、目的音を抽出するための線形フィルターを適応的に推定する方式である。適応ビームフォーマーには、例えば、特開2012−234150号公報や、特開2006−072163号公報に記載された方式がある。
以下では、マイクロホンの配置や目的音の方向などが未知の場合でも使用可能な適応ビームフォーマーとして、SN比(Signal to Noise Ratio)最大化ビームフォーマー(別名 GEV ビームフォーマー)について説明する。
SN比最大化ビームフォーマー(maximum SNR beamformer)は、以下のa)とb)との比 V_s / V_n を最大にする線形フィルターを求める方式である。
a)目的音のみが鳴っている区間に所定の線形フィルターを適用した処理結果の分散 V_s
b)妨害音のみが鳴っている区間に同じ線形フィルターを適用した処理結果の分散 V_n
a)目的音のみが鳴っている区間に所定の線形フィルターを適用した処理結果の分散 V_s
b)妨害音のみが鳴っている区間に同じ線形フィルターを適用した処理結果の分散 V_n
この方式は、それぞれの区間が検出できれば線形フィルターが推定でき、マイクロホンの配置や目的音の方向は不要である。
しかし、本開示が適用され得る想定では、既知の区間は目的音が鳴っているタイミングのみである。その区間では目的音も妨害音も存在しているため、上記のa)、b)どちらの区間としても使用することができない。他の適応ビームフォーマーの方式についても、上記b)の区間が別途必要である、あるいは、目的音の方向が既知でなければならないなどの理由により、本開示が適用され得る状況で使用することは困難である。
(ブラインド音源分離の問題点)
ブラインド音源分離とは、複数のマイクロホンで観測された信号のみを用い(音源の方向やマイクロホンの配置といった情報は使用せずに)、複数の音源が混合された信号から各音源を推定する技術である。そのような技術の例として、特許第4449871号の技術が挙げられる。特許第4449871号の技術は、独立成分分析(Independent Component Analysis、以下、ICAと適宜、称する)と呼ばれる技術の一例であり、ICAはN個のマイクロホンで観測された信号をN個の音源に分解する。その際に使用する観測信号は、目的音が鳴っている区間が含まれていればよく、目的音のみ、あるいは妨害音のみが鳴っている区間に関する情報は不要である。
ブラインド音源分離とは、複数のマイクロホンで観測された信号のみを用い(音源の方向やマイクロホンの配置といった情報は使用せずに)、複数の音源が混合された信号から各音源を推定する技術である。そのような技術の例として、特許第4449871号の技術が挙げられる。特許第4449871号の技術は、独立成分分析(Independent Component Analysis、以下、ICAと適宜、称する)と呼ばれる技術の一例であり、ICAはN個のマイクロホンで観測された信号をN個の音源に分解する。その際に使用する観測信号は、目的音が鳴っている区間が含まれていればよく、目的音のみ、あるいは妨害音のみが鳴っている区間に関する情報は不要である。
従って、目的音が鳴っている区間の観測信号に対してICAを適用してN個の成分に分解した後、参照信号であるラフな目的音スペクトログラムに最も類似している成分を1個だけ選択することで、本開示が適用され得る状況で使用することが可能である。類似しているか否かの判定方法としては、各分離結果を振幅スペクトログラムに変換した上で、各振幅スペクトログラムと参照信号との間で二乗誤差(ユークリッド距離)を計算し、誤差が最小となる振幅スペクトログラムに対応した分離結果を採用すればよい。
しかし、このように分離後に選択するという方法は、以下の問題がある。
1)欲しい音源は一つだけなのにも関わらず、途中のステップにおいてN個の音源が生成されるため、計算コストおよびメモリー使用量の点で不利である。
2)参照信号であるラフな目的音スペクトログラムは、N個の音源から1音源を選択するステップでのみ使用され、N個の音源へと分離するステップでは使用されない。そのため、参照信号は抽出精度の向上には寄与しない。
1)欲しい音源は一つだけなのにも関わらず、途中のステップにおいてN個の音源が生成されるため、計算コストおよびメモリー使用量の点で不利である。
2)参照信号であるラフな目的音スペクトログラムは、N個の音源から1音源を選択するステップでのみ使用され、N個の音源へと分離するステップでは使用されない。そのため、参照信号は抽出精度の向上には寄与しない。
(参照信号を用いた既存の線形フィルタリング処理の問題点)
従来も、参照信号を用いて線形フィルターを推定する方式がいくつか存在する。
ここでは、そのような技術として以下のa)およびb)について言及する。
a)独立深層学習行列分析
b)時間エンベロープを参照信号として用いる音源抽出
従来も、参照信号を用いて線形フィルターを推定する方式がいくつか存在する。
ここでは、そのような技術として以下のa)およびb)について言及する。
a)独立深層学習行列分析
b)時間エンベロープを参照信号として用いる音源抽出
独立深層学習行列分析(Independent Deeply Learned Matrix Analysis:以下、IDLMAと適宜、称する)は、独立成分分析の発展形である。詳細は、以下の文献1を参照されたい。
「(文献1)
N. Makishima et al.,
"Independent Deeply Learned Matrix Analysis for Determined Audio Source Separation,"
in IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 27, no. 10, pp. 1601-1615, Oct. 2019.
doi: 10.1109/TASLP.2019.2925450」
「(文献1)
N. Makishima et al.,
"Independent Deeply Learned Matrix Analysis for Determined Audio Source Separation,"
in IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 27, no. 10, pp. 1601-1615, Oct. 2019.
doi: 10.1109/TASLP.2019.2925450」
IDLMAの特徴は、分離したい各音源のパワースペクトログラム(振幅スペクトログラムの二乗)を生成するようなニューラルネットワーク(NN)を予め学習しておくことである。例えば、複数の楽器が同時に演奏されている楽曲から各楽器のパートをそれぞれ分離したい場合は、楽曲を入力して各楽器音を出力するNNを予め学習しておく。分離時は、観測信号を各NNにそれぞれ入力し、その出力であるパワースペクトログラムを参照信号として用いることで分離を行なう。そのため、完全にブラインドな分離処理と比べ、参照信号を用いる分だけ分離精度の向上が期待できる。さらに、一度生成された分離結果を各NNに再度入力することで、初回よりも高精度のパワースペクトルが生成され、それを参照信号として分離を行なうことで、初回よりも高精度の分離結果が得られることも報告されている。
しかしながら、このIDLMAを本開示が適用され得る状況で使用することは、以下の理由により困難である。
IDLMAでは、N個の分離結果を生成するためには参照信号としてN個の異なるパワースペクトログラムが必要である。そのため、興味のある音源が1個だけであり、他の音源は不要であっても、全ての音源について参照信号を用意する必要がある。しかし、現実にはそれが困難な場合がある。また、上記の文献1では、マイクロホンの個数と音源の個数とが一致している場合のみしか言及しておらず、両者の個数が一致しない場合に何個の参照信号を用意すればよいのかについては言及されていない。また、IDLMAは音源分離の方法であるため、音源抽出の目的で使用するためには、N個の分離結果をいったん生成した後で1音源分のみを残すというステップが必要である。そのため、計算コストやメモリー使用量の点で無駄があるという音源分離の課題は依然として残っている。
IDLMAでは、N個の分離結果を生成するためには参照信号としてN個の異なるパワースペクトログラムが必要である。そのため、興味のある音源が1個だけであり、他の音源は不要であっても、全ての音源について参照信号を用意する必要がある。しかし、現実にはそれが困難な場合がある。また、上記の文献1では、マイクロホンの個数と音源の個数とが一致している場合のみしか言及しておらず、両者の個数が一致しない場合に何個の参照信号を用意すればよいのかについては言及されていない。また、IDLMAは音源分離の方法であるため、音源抽出の目的で使用するためには、N個の分離結果をいったん生成した後で1音源分のみを残すというステップが必要である。そのため、計算コストやメモリー使用量の点で無駄があるという音源分離の課題は依然として残っている。
時間エンベロープを参照信号として用いる音源抽出としては、例えば、本発明者によって提案された特開2014−219467号公報に記載の技術等が挙げられる。この方式は本開示と同様に、参照信号とマルチチャンネルの観測信号とを用いて線形フィルターを推定する。ただし、以下の点において相違がある。
・参照信号はスペクトログラムではなく、時間エンベロープである。これは、ラフな目的音スペクトログラムに対して周波数方向に平均等の操作を適用して均一化したものに相当する。そのため、目的音の時間方向の変化が周波数ごとに異なるという特徴を持つ場合、参照信号はそれを適切に表現することができず、結果として抽出の精度が低下する可能性がある。
・参照信号は、抽出フィルターを求めるための反復処理において、初期値としてのみ反映される。反復の2回目以降は参照信号の制約を受けないため、参照信号とは異なる別の音源が抽出される可能性がある。例えば、区間内で一瞬だけ発生する音が存在する場合は、目的関数としてはそちらを抽出する方が最適であるため、反復回数によっては所望外の音が抽出される可能性がある。
・参照信号はスペクトログラムではなく、時間エンベロープである。これは、ラフな目的音スペクトログラムに対して周波数方向に平均等の操作を適用して均一化したものに相当する。そのため、目的音の時間方向の変化が周波数ごとに異なるという特徴を持つ場合、参照信号はそれを適切に表現することができず、結果として抽出の精度が低下する可能性がある。
・参照信号は、抽出フィルターを求めるための反復処理において、初期値としてのみ反映される。反復の2回目以降は参照信号の制約を受けないため、参照信号とは異なる別の音源が抽出される可能性がある。例えば、区間内で一瞬だけ発生する音が存在する場合は、目的関数としてはそちらを抽出する方が最適であるため、反復回数によっては所望外の音が抽出される可能性がある。
このように、上述した技術では、本開示が適用され得る状況で使用するのは困難であるか、あるいは十分な精度の抽出結果が得られないという問題があった。
[本開示で用いられる技術]
次に、本開示で用いられる技術について説明する。独立成分分析に基づくブラインド音源分離の手法に対して以下の要素を共に導入すると、本開示の目的に適った音源抽出技術を実現することができる。
要素1: 分離の過程において、分離結果同士の独立性だけでなく、分離結果の一つと参照信号との依存性も反映した目的関数を用意し、それを最適化する。
要素2: 同じく分離過程において、デフレーション法と呼ばれる、1音源ずつ分離を行なう手法を導入する。そして、最初の音源が分離された時点で分離処理を打ち切る。
次に、本開示で用いられる技術について説明する。独立成分分析に基づくブラインド音源分離の手法に対して以下の要素を共に導入すると、本開示の目的に適った音源抽出技術を実現することができる。
要素1: 分離の過程において、分離結果同士の独立性だけでなく、分離結果の一つと参照信号との依存性も反映した目的関数を用意し、それを最適化する。
要素2: 同じく分離過程において、デフレーション法と呼ばれる、1音源ずつ分離を行なう手法を導入する。そして、最初の音源が分離された時点で分離処理を打ち切る。
本開示の音源抽出技術は、複数のマイクロホンで観測されたマルチチャンネルの観測信号から、線形フィルターである抽出フィルターを適用することで、所望の1音源を抽出する。そのため、ビームフォーマー(BF)の一種と見なせる。抽出の過程においては、参照信号と抽出結果の依存性(similarity)と、抽出結果と他の分離結果との独立性(independence)とが共に反映される。そこで、本開示の音源抽出方式を、Similarity-and-Independence-aware Beamformer: SIBF と適宜、称する。
本開示の分離過程について、図1を用いて説明する。(1−1)が付された枠内は従来の時間周波数領域 独立成分分析(特許第4449871号等)で想定している分離過程であり、その外部に存在する(1−5)および(1−6)は本開示で追加された要素である。以下では、先に(1−1)の枠内を用いて従来の時間周波数領域ブラインド音源分離について説明し、次に本開示の分離過程について説明する。
図1において、X_1 〜 X_N は、N個のマイクロホンにそれぞれ対応した観測信号スペクトログラム(1−2)である。これらは複素数のデータであり、各マイクロホンで観測された音の波形に対して後述の短時間フーリエ変換を適用することで生成される。各スペクトログラムは縦軸が周波数、横軸が時間を表わす。時間長については、抽出したい目的音が鳴っている長さと同じ、またはそれより長いものとする。
独立成分分析では、この観測信号スペクトログラム対し、(1−3)が付された分離行列と呼ばれる所定の正方行列を乗じることにより分離結果スペクトログラム Y_1〜Y_N を生成する(1−4)。分離結果スペクトログラムの個数はN個であり、マイクロホン数と同じである。分離においては、Y_1〜Y_N が統計的に独立となるように(すなわち Y_1〜Y_N の差異ができる限り大きくなるように)分離行列の値を決める。そのような行列は一回では求まらないため、分離結果スペクトログラム同士の独立性が反映された目的関数(objective function)を用意し、その関数が最適(目的関数の性質によって最大または最小)となるような分離行列を反復的に求める。分離行列および分離結果スペクトログラムの結果が求まった後、分離結果スペクトログラムのそれぞれに対してフーリエ逆変換を適用して波形を生成すると、それらは混合する前の各音源を推定した信号になっている。
以上は、従来の時間周波数領域 独立成分分析の分離過程の説明である。本開示では、これに対して前述の2つの要素を追加する。
追加要素の一つは、参照信号との依存性である。参照信号は、目的音のラフな振幅スペクトログラムであり、(1−5)が付された参照信号生成部によって生成される。分離過程においては、分離結果スペクトログラム同士の独立性の他に、分離結果スペクトログラムの一つである Y_1 と参照信号 R との間の依存性も考慮して分離行列を決める。すなわち、目的関数に対して以下の両方を反映し、その関数を最適化する分離行列を求める。
a) Y_1〜Y_N の間の独立性(実線L1)
b) Y_1 と R との依存性(点線L2)
目的関数の具体的な数式については後述する。
a) Y_1〜Y_N の間の独立性(実線L1)
b) Y_1 と R との依存性(点線L2)
目的関数の具体的な数式については後述する。
独立性と依存性との両方を目的関数に反映することで、以下の利点が得られる。
利点1:通常の時間周波数領域における独立成分分析では、分離結果スペクトログラムの何番目にどの原信号が出現するかは不定であり、分離行列の初期値や観測信号(後述する混合音信号に対応する信号)における混合の程度や分離行列を求めるアルゴリズムの違いなどによって変化する。それに対して本開示は、独立性に加えて分離結果 Y_1 と参照信号 R との依存性も考慮するため、Y_1 には R と類似したスペクトログラムを必ず出現させることができる。
利点2:分離結果の一つである Y_1 を単に参照信号 R に類似させるという問題を解くだけでは、Y_1 を R に近づけることはできても抽出精度の点で参照信号 R を超える(目的音に一層近づける)ことはできない。それに対して本開示では、分離結果同士の独立性も考慮するため、分離結果 Y_1 の抽出精度が参照信号を超えることが可能である。
利点1:通常の時間周波数領域における独立成分分析では、分離結果スペクトログラムの何番目にどの原信号が出現するかは不定であり、分離行列の初期値や観測信号(後述する混合音信号に対応する信号)における混合の程度や分離行列を求めるアルゴリズムの違いなどによって変化する。それに対して本開示は、独立性に加えて分離結果 Y_1 と参照信号 R との依存性も考慮するため、Y_1 には R と類似したスペクトログラムを必ず出現させることができる。
利点2:分離結果の一つである Y_1 を単に参照信号 R に類似させるという問題を解くだけでは、Y_1 を R に近づけることはできても抽出精度の点で参照信号 R を超える(目的音に一層近づける)ことはできない。それに対して本開示では、分離結果同士の独立性も考慮するため、分離結果 Y_1 の抽出精度が参照信号を超えることが可能である。
しかしながら、時間周波数領域 独立成分分析において参照信号との依存性を導入しても、依然として分離手法であるため、生成される信号はN個である。すなわち、所望の音源が Y_1 のみであっても、それと同時に N-1 個の信号が不要にもかかわらず生成されてしまう。
そこで、もう一つの追加要素として、デフレーション法を導入する。デフレーション法とは、全音源を同時に分離する代わりに、原信号を一つずつ推定する方式である。デフレーション法の一般的な解説については、例えば以下の文献2の8章を参照されたい。
「(文献2)
詳解 独立成分分析―信号解析の新しい世界
アーポ ビバリネン (著), エルキ オヤ (著), ユハ カルーネン (著),
Aapo Hyv¨arinen (原著), Erkki Oja (原著), Juha Karhunen (原著),
根本 幾 (翻訳), 川勝 真喜 (翻訳)
(原題)
Independent Component Analysis
Aapo Hyvarinen (Author), Juha Karhunen (Author), Erkki Oja (Author)」
「(文献2)
詳解 独立成分分析―信号解析の新しい世界
アーポ ビバリネン (著), エルキ オヤ (著), ユハ カルーネン (著),
Aapo Hyv¨arinen (原著), Erkki Oja (原著), Juha Karhunen (原著),
根本 幾 (翻訳), 川勝 真喜 (翻訳)
(原題)
Independent Component Analysis
Aapo Hyvarinen (Author), Juha Karhunen (Author), Erkki Oja (Author)」
一般的には、デフレーション法であっても分離結果の順番は不定であるため、所望の音源が何番目に出現するかは不定である。しかし、上述のような独立性と依存性とを共に反映した目的関数を用いた音源分離に対してデフレーション法を適用すると、参照信号に類似した分離結果を必ず最初に出現させることが可能になる。すなわち、最初の1音源を分離(推定)した時点で分離処理を打ち切ればよく、不要な N-1 個の分離結果を生成する必要がなくなる。また、分離行列については全要素を推定する必要はなく、その中で Y_1 を生成するのに必要な要素のみを推定すればよい。
1音源のみを推定するデフレーション法においては、図1において(1−4)が付された分離結果の内、Y_1 以外(すなわち Y_2〜Y_N)は仮想的なものであり、実際には生成されない。しかし、独立性の計算については、全ての分離結果である Y_1〜Y_N を用いて行なうのと等価なことが行なわれる。そのため、独立性を考慮することで Y_1 を R よりも高精度にすることができるという音源分離の利点が得られる一方で、不要な分離結果である Y_2〜Y_N を生成するという無駄を回避することもできる。
デフレーション法は分離(混合前の音源を全て推定する)の方式の1つであるが、1音源を推定した時点で分離を中断した場合は、抽出(所望の1音源を推定する)の方式として使用することができる。そこで以下の説明では、分離結果 Y_1 のみを推定する操作を「抽出」と呼び、Y_1 を「(目的音)抽出結果」と適宜、称する。さらに、各分離結果は、(1−3)が付された分離行列を構成するベクトルから生成される。このベクトルを「抽出フィルター」と適宜、称する。
デフレーション法に基づく、参照信号を用いた音源抽出方式について、図2を用いて説明する。図2は、図1の詳細を示しており、デフレーション法の適用に必要な要素が追加されている。
図2において(2−1)が付された観測信号スペクトログラムは、図1における(1−2)と同一であり、N個のマイクで観測された時間領域信号に短時間フーリエ変換を適用することで生成される。この観測信号スペクトログラムに(2−2)が付された無相関化)という処理を適用することにより、(2−3)が付された無相関化観測信号スペクトログラムを生成する。無相関化(uncorrelation)は白色化(whitening)とも呼ばれ、各マイクロホンで観測された信号同士を無相関(uncorrelated)にする変換である。処理で用いられる具体的な数式は後述する。分離の前処理として無相関化を行なっておくと、分離においては、無相関な信号の性質を利用した効率的なアルゴリズムが適用可能となる。デフレーション法はそのようなアルゴリズムの一つである。
無相関化観測信号スペクトログラムの個数はマイクロホン数と同じであり、それぞれを U_1〜U_N とする。無相関化観測信号スペクトログラムの生成は、抽出フィルターを求める前の処理として1回だけ行なえばよい。図1で説明した通り、デフレーション法では、分離結果 Y_1〜Y_N を同時に生成する行列を推定する代わりに、各分離結果を生成するフィルターを一つずつ推定する。本開示では、Y_1 しか生成しないため、推定するフィルターは、U_1〜U_N を入力して Y_1 を生成する働きのある w_1 のみであり、Y_2〜Y_N および w_2〜w_N は実際には生成されない仮想的なものである。
(2−8)が付された参照信号 R は、図1における(1−6)と同一である。前述のように、フィルター w_1 の推定においては、Y_1〜Y_N の独立性と、R と Y_1 との依存性とが共に考慮される。
本開示の音源抽出方法では、1つの区間について1音源のみ推定(抽出)する。そのため、抽出したい音源すなわち目的音が複数存在し、しかもそれらが鳴っている区間に重複がある場合には、その重複している区間をそれぞれ検出し、区間ごとに参照信号を生成した上で音源抽出を行なう。その点について、図3を用いて説明する。
図3に示す例では、目的音は人間の音声とし、目的音の音源数すなわち話者数を2としている。勿論、目的音が任意の種類の音声でもよいし、音源数も2に限定されることはない。また、抽出の対象とならない妨害音が0個以上存在しているとする。非音声の信号は妨害音であるが、音声であってもスピーカー等の機器から出力される音は妨害音として扱うとする。
2人の話者をそれぞれ話者1・話者2とする。また、図3において(3−1)が付された発話および(3−2)が付された発話は話者1の発話とする。また、図3において(3−3)が付された発話および(3−4)が付された発話は話者2の発話とする。(3−5)は妨害音を表わす。図3において、縦軸は音源位置の違いを、横軸は時間を表わす。発話(3−1)と(3−3)とは発話区間の一部が重複している。これは例えば、話者1が話し終わる直前から話者2が発話を開始した場合に相当する。発話(3−2)と(3−4)とも重複があり、これは例えば、話者1が長く発話している途中で話者2が相槌のような短い発話を行なった場合に相当する。いずれも、人間同士の会話において頻繁に発生する現象である。
最初に、発話(3−1)の抽出について考える。発話(3−1)がなされた時間範囲(3−6)の中には、話者1の発話(3−1)の他に、話者2の発話(3−3)の一部および妨害音(3−5)の一部の計3音源が存在している。本開示における発話(3−1)の抽出とは、発話(3−1)に対応した参照信号すなわちラフな振幅スペクトログラムと、時間範囲(3−6)の観測信号(3音源の混合)とを用いて、できる限りクリーンに近い(話者1の音声のみからなり、それ以外の音源が含まれていない)信号を生成(推定)することである。
同様に、話者2の発話(3−3)の抽出においては、(3−3)に対応した参照信号と、時間範囲(3−7)の観測信号とを用いて、話者2のクリーンに近い信号を推定する。このように、発話区間が重複していても、それぞれの目的音に対応した参照信号を用意することができれば、本開示では異なる抽出結果を生成することができる。
同じく、話者2の発話(3−4)は、話者1の発話(3−2)に時間範囲が完全に包含されているが、それぞれ別の参照信号を用意することで、異なる抽出結果を生成することができる。すなわち、発話(3−2)を抽出するためには発話(3−2)に対応した参照信号と時間範囲(3−8)の観測信号とを使用し、発話(3−4)を抽出するためには発話(3−4)に対応した参照信号と時間範囲(3−9)の観測信号とを使用する。
次に、フィルターの推定において使用する目的関数と、それを最適化するアルゴリズムについて、数式を用いて説明する。
k番目のマイクロホンに対応した観測信号スペクトログラム X_k は、下記の式(1)に示すようにx_k(f,t) を要素とする行列として表わされる。
式(1)におけるf は周波数ビン番号、t はフレーム番号であり、共に短時間フーリエ変換によって出現するインデックスである。以下では、f を変化させることを「周波数方向」、t を変化させることを「時間方向」と表現する。
式(1)におけるf は周波数ビン番号、t はフレーム番号であり、共に短時間フーリエ変換によって出現するインデックスである。以下では、f を変化させることを「周波数方向」、t を変化させることを「時間方向」と表現する。
無相関化観測信号スペクトログラム U_k および分離結果スペクトログラム Y_k についても、同様にそれぞれ u_k(f,t) および y_k(f,t) を要素とする行列として表現する(数式の表記は省略する。)。
無相関化観測信号および分離結果についても、同じ形状を持つ u(f,t) および y(f,t) というベクトルをそれぞれ用意する(数式の表記は省略する。)。
下記の式(3)は、無相関化観測信号のベクトル u(f,t) を求めるための式である。
このベクトルは、無相関化行列と呼ばれる P(f) と観測信号ベクトル x(f,t) との積によって生成される。無相関化行列 P(f) は下記の式(4)〜式(6)によって計算される。
このベクトルは、無相関化行列と呼ばれる P(f) と観測信号ベクトル x(f,t) との積によって生成される。無相関化行列 P(f) は下記の式(4)〜式(6)によって計算される。
上述した式(4)は、f 番目の周波数ビンにおける観測信号の共分散行列 R_{xx}(f) を求める式である。右辺の <・>_t は、所定の範囲の t(フレーム番号)において平均を計算するという操作を表わす。本開示では、t の範囲はスペクトログラムの時間長すなわち目的音が鳴っている区間(あるいはその区間を含む範囲)である。また、上付きの H はエルミート転置(共役転置)を表わす。
共分散行列 R_{xx}(f) に対して固有値分解(eigen decomposition)を適用し、式(5)の右辺のような3項の積に分解する。V(f) は固有ベクトル(eigenvector)からなる行列であり、D(f) は固有値(eigenvalue)からなる対角行列である。V(f) はユニタリ行列であり、V(f) の逆行列と V(f) のエルミート転置とは同一である。
無相関化行列 P(f) は、式(6)によって計算される。D(f) は対角行列なので、その -1/2 乗は、各対角要素を -1/2 乗することで求められる。
式(9)は、k番目の分離結果のみを生成する式であり、w_k(f) は分離行列 W(f) の k番目の行ベクトルである。本開示では Y_1 のみを抽出結果として生成するので、基本的に式(9)は k=1 に限定して使用される。
分離の前処理として無相関化が行なわれている場合、分離行列 W(f) はユニタリ行列の中から見つければ十分であることが証明されている。分離行列 W(f) がユニタリ行列である場合は下記の式(10)を満たし、また、W(f) を構成する行ベクトル w_k(f) は下記の式(11)を満たす。この特徴を利用することで、デフレーション法による分離が可能になる。(式(11)は式(9)と同様に、基本的に k=1 に限定して使用される。)
参照信号 R は、式(12)のように、r(f,t) を要素とする行列として表わされる。形状自体は観測信号スペクトログラム X_k と同じだが、X_k の要素 x_k(f,t) は複素数値であるのに対し、R の要素 r(f,t) は非負の実数である。
本開示は、分離行列 W(f) の全ての要素を推定する代わりに、w_1(f) のみを推定する。すなわち、1番目の分離結果(目的音抽出結果)の生成で使用される要素のみを推定する。以下では、w_1(f) を推定する式の導出について説明する。式の導出は以下の3点からなり、それぞれを順に説明する。
(1)目的関数
(2)音源モデル
(3)更新式
(2)音源モデル
(3)更新式
(1)目的関数
本開示で使用する目的関数は負の対数尤度であり、基本的には文献1等で使用されているものと同じである。この目的関数は、分離結果が互いに独立になったときに最小となる。ただし本開示では、抽出結果と参照信号との依存性も目的関数に反映させるため、目的関数を以下のように導出する。
本開示で使用する目的関数は負の対数尤度であり、基本的には文献1等で使用されているものと同じである。この目的関数は、分離結果が互いに独立になったときに最小となる。ただし本開示では、抽出結果と参照信号との依存性も目的関数に反映させるため、目的関数を以下のように導出する。
上述した依存性を目的関数に反映させるため、無相関化および分離(抽出)の式を若干修正する。式(13)は無相関化の式である式(3)の修正、式(14)は分離の式である式(8)の修正である。いずれも、両辺のベクトルには参照信号 r(f,t)が追加され、右辺の行列には「参照信号の素通し」を表わす1という要素が追加されている。これらの要素が追加された行列およびベクトルは、元の行列およびベクトルにプライム記号を付けて表現する。
目的関数として、下記の式(15)で表わされる、参照信号および観測信号の負の対数尤度 L を用いる。この式において、p(・) はカッコ内の信号の確率密度関数(probability density function: 以下、pdfと適宜、称する)を表わす。pdf のカッコ内に複数の要素が記述されている場合(複数の変数が記述されている場合や、行列またはベクトルが記述されている場合)は、それらの要素が同時に発生する確率を表わす。例えば式(15)の p(R, X_1, ..., X_N) は、参照信号 R と観測信号スペクトログラム X_1〜X_N とが同時に発生する確率である。
同じ p という文字を用いていても、カッコ内の変数が異なれば別の確率分布を表わすため、例えば p(R) と p(Y_1) とは別の関数である。また、以下の式に現れる確率密度関数は大部分が仮想的なものであり、具体的な式を当てはめる必要があるのは、式変形の最後で現れる p(r(f,t), y_1(r,t)) のみである。
抽出フィルター w_1(f) について最適化(この場合は最小化)を行なうためには、負の対数尤度 L を変形し、w_1(f) が含まれるようにする必要がある。そのために、観測信号および分離結果について以下の仮定を置く。
仮定1: 観測信号スペクトログラムは、チャンネル方向には依存関係があるが(言い換えると各マイクロホンに対応したスペクトログラムはお互いに似ているが)、時間方向および周波数方向には独立である。すなわち、一枚のスペクトログラムにおいて、各点を構成する成分はお互いに独立に発生し、他の時間や周波数の影響を受けない。
仮定2:分離結果スペクトログラムは、時間方向および周波数方向に加え、チャンネル方向にも独立である。すなわち、分離結果の各スペクトログラムは似ていない。
仮定3:分離結果スペクトログラムである Y_1 と、参照信号とは依存関係がある。すなわち、両者はスペクトログラムが似ている。
仮定1: 観測信号スペクトログラムは、チャンネル方向には依存関係があるが(言い換えると各マイクロホンに対応したスペクトログラムはお互いに似ているが)、時間方向および周波数方向には独立である。すなわち、一枚のスペクトログラムにおいて、各点を構成する成分はお互いに独立に発生し、他の時間や周波数の影響を受けない。
仮定2:分離結果スペクトログラムは、時間方向および周波数方向に加え、チャンネル方向にも独立である。すなわち、分離結果の各スペクトログラムは似ていない。
仮定3:分離結果スペクトログラムである Y_1 と、参照信号とは依存関係がある。すなわち、両者はスペクトログラムが似ている。
独立な変数同士の同時発生確率はそれぞれの pdf の積に分解できるため、仮定1によって式(16)の左辺は右辺に変形される。右辺のカッコ内は、式(13)で導入したx'(f,t) を用いて式(17)のように表わされる。
式(17)は、式(14)の下段の関係を用いて式(18)および式(19)に変形される。これらの式において、det(・) はカッコ内の行列の行列式(determinant)を表わす。
式(20)は、デフレーション法において重要な変形である。行列 W(f)' は、分離行列 W(f) と同様にユニタリ行列であるため、その行列式は1である。また、行列 P'(f) は分離中は変化しないため、行列式は定数である。従って、両方の行列式は、あわせて const(定数)と書くことができる。
式(21)は本開示にユニークな変形である。y'(f,t) の成分は r(f,t) および y_1(f,t) 〜 y_N(f,t) であるが、仮定2および仮定3により、これらの変数を引数とする確率密度関数は、r(f,t) と y_1(f,t) との同時確率である p(r(f,t), y_1(f,t)) と、y_2(f,t) 〜 y_N(f,t) の確率密度関数である p(y_2(f,t)) 〜 p(y_N(f,t)) それぞれとの積に分解される。
式(21)を式(15)に代入すると、式(22)が得られる。
抽出フィルター w_1(f) は、式(22)を最小値にする引数のサブセットである。式(22)の各項の内、w_1(f) が含まれるのは特定の f における y_1(f,t) のみであるため、w_1(f) は下記の式(23)の最小解として求められる。ただし、w_1(f)=0 という自明な解を排除するため、式(11)で表わされる、ベクトルのノルムが1という制約をかける。
抽出フィルター w_1(f) は、式(22)を最小値にする引数のサブセットである。式(22)の各項の内、w_1(f) が含まれるのは特定の f における y_1(f,t) のみであるため、w_1(f) は下記の式(23)の最小解として求められる。ただし、w_1(f)=0 という自明な解を排除するため、式(11)で表わされる、ベクトルのノルムが1という制約をかける。
ノルムが1という制約を持った抽出フィルターを無相関化観測信号に適用した場合、生成される抽出結果の各周波数ビンのスケールは、真の目的音のスケールとは異なる。そのため、フィルターが推定された後、周波数ビンごとに抽出フィルターおよび抽出結果を補正する。このような後処理をリスケーリングと呼ぶ。リスケーリングの具体的な式については後述する。
式(23)の最小化問題を解くためには、以下の2点を具体化する必要である。
・r(f,t) と y_1(f,t) との同時確率である p(r(f,t), y_1(f,t)) として、どのような式を割り当てるか。この確率密度関数を音源モデルと呼ぶ。
・どのようなアルゴリズムを用いて最小解 w_1(f) を求めるか。基本的に w_1(f) は一回では求まらず、反復的に更新する必要がある。w_1(f) の更新する式を更新式と呼ぶ。
以下、それぞれについて説明する。
・r(f,t) と y_1(f,t) との同時確率である p(r(f,t), y_1(f,t)) として、どのような式を割り当てるか。この確率密度関数を音源モデルと呼ぶ。
・どのようなアルゴリズムを用いて最小解 w_1(f) を求めるか。基本的に w_1(f) は一回では求まらず、反復的に更新する必要がある。w_1(f) の更新する式を更新式と呼ぶ。
以下、それぞれについて説明する。
(2)音源モデル
音源モデル p(r(f,t), y_1(f,t)) は、参照信号 r(f,t) と抽出結果 y_1(f,t) の2つの変数を引数とする pdf であり、2つの変数の依存関係(依存性)を表わす。音源モデルは、いろんなコンセプトに基づいて定式化することが可能である。本開示では以下の3通りを用いる。
音源モデル p(r(f,t), y_1(f,t)) は、参照信号 r(f,t) と抽出結果 y_1(f,t) の2つの変数を引数とする pdf であり、2つの変数の依存関係(依存性)を表わす。音源モデルは、いろんなコンセプトに基づいて定式化することが可能である。本開示では以下の3通りを用いる。
a)2変量の球状分布
b)ダイバージェンスに基づくモデル
c)時間周波数可変分散モデル
以下それぞれについて説明する。
b)ダイバージェンスに基づくモデル
c)時間周波数可変分散モデル
以下それぞれについて説明する。
a)2変量の球状分布
球状分布とは、多変量(multi-variate)pdf の一種である。pdf の複数個の引数をベクトルと見なし、そのベクトルのノルム(L2 ノルム)を単変量(univariate)の pdf に代入することで多変量 pdf を構成する。独立成分分析において球状分布を使用すると、引数で使用されている変数同士を類似させる効果がある。例えば、特許第4449871号に記載の技術ではその性質を利用し、周波数パーミュテーション問題と呼ばれる「k 番目の分離結果にどの音源が出現するかが周波数ビンごとに異なる」という問題を解決した。
球状分布とは、多変量(multi-variate)pdf の一種である。pdf の複数個の引数をベクトルと見なし、そのベクトルのノルム(L2 ノルム)を単変量(univariate)の pdf に代入することで多変量 pdf を構成する。独立成分分析において球状分布を使用すると、引数で使用されている変数同士を類似させる効果がある。例えば、特許第4449871号に記載の技術ではその性質を利用し、周波数パーミュテーション問題と呼ばれる「k 番目の分離結果にどの音源が出現するかが周波数ビンごとに異なる」という問題を解決した。
本開示の音源モデルとして、参照信号と抽出結果とを引数とする球状分布を用いると、両者を類似させることができる。ここで使用する球状分布は下記の式(24)の一般形で表わすことができる。この式において、関数 F は任意の単変量 pdf である。また、c_1, c_2 は正の定数であり、これらの値を変更することで、参照信号が抽出結果に与える影響を調整することができる。特許第4449871号と同様に単変量 pdf としてラプラス分布を用いると、下記の式(25)が得られる。以降ではこの式を2変量ラプラス分布と呼ぶ。
b)ダイバージェンスに基づくモデル
別の種類の音源モデルは、距離尺度の上位概念であるダイバージェンスに基づいた pdf であり、下記の式(26)の形で表わされる。この式において divergence(r(f,t), |y_1(f,t)|) は、参照信号である r(f,t) と抽出結果の振幅である |y_1(f,t)| との間の任意のダイバージェンスを表わす。
別の種類の音源モデルは、距離尺度の上位概念であるダイバージェンスに基づいた pdf であり、下記の式(26)の形で表わされる。この式において divergence(r(f,t), |y_1(f,t)|) は、参照信号である r(f,t) と抽出結果の振幅である |y_1(f,t)| との間の任意のダイバージェンスを表わす。
また、α は正の定数であり、式(26)の右辺が pdf の条件を満たすようにするための補正項であるが、式(23)の最小化問題においては αの値は無関係であるため、α=1 として構わない。この pdf を式(23)に代入すると、r(f,t) と |y_1(f,t)| とのダイバージェンスを最小化するという問題と等価になるため、必然的に両者は類似する。
ダイバージェンスとしてユークリッド距離を用いた場合は下記の式(27)が得られる。また、板倉斎藤ダイバージェンスを用いた場合は下記の式(28)が得られる。板倉斎藤ダイバージェンスはパワースペクトル同士の距離尺度であるため、r(f,t) と |y_1(f,t)| は共に 2乗した値を用いる。一方、振幅スペクトルに対して板倉斎藤ダイバージェンスと同様の距離尺度を計算しても良く、その場合は下記の式(29)が得られる。
下記の式(30)は、 は別のダイバージェンスに基づく pdf である。r(f,t) と |y_1(f,t)| とが類似するほど比が 1 に近づくので、その比と 1 との二乗誤差はダイバージェンスとして働く。
c)時間周波数可変分散モデル
別の音源モデルとして、時間周波数可変分散(time-frequency-varying variance: TFVV)モデルも可能である。これは、スペクトログラムを構成する各点が時間および周波数ごとに異なる分散または標準偏差を持つというモデルである。そして、参照信号であるラフな振幅スペクトログラムは各点の標準偏差(あるいは標準偏差に依存した何らかの値)を表わしていると解釈する。
別の音源モデルとして、時間周波数可変分散(time-frequency-varying variance: TFVV)モデルも可能である。これは、スペクトログラムを構成する各点が時間および周波数ごとに異なる分散または標準偏差を持つというモデルである。そして、参照信号であるラフな振幅スペクトログラムは各点の標準偏差(あるいは標準偏差に依存した何らかの値)を表わしていると解釈する。
分布として時間周波数可変分散を持ったラプラス分布(以降、TFVV ラプラス分布)を仮定すると、下記の式(31)のように表わせる。この式において、α は式(26)と同様、右辺が pdf の条件を満たすようにするための補正項であり、α=1 として構わない。β は、参照信号が抽出結果に与える影響の大きさを調整するための項である。真の TFVV ラプラス分布は β=1 に相当するが、他に 1/2 や 2 といった値を用いても良い。
同様に、TVVF ガウス分布を仮定すると下記の式(32)が得られる。一方、TVVF Student-t 分布を仮定すると下記の式(33)の音源モデルが得られる。
式(33)のν(ニュー)は自由度と呼ばれるパラメーターであり、この値を変えることで分布の形状を変化させることができる。例えば、ν=1 はコーシー(cauchy)分布を表わし、ν→∞ はガウス分布を表わす。
式(33)のν(ニュー)は自由度と呼ばれるパラメーターであり、この値を変えることで分布の形状を変化させることができる。例えば、ν=1 はコーシー(cauchy)分布を表わし、ν→∞ はガウス分布を表わす。
式(32)および式(33)の音源モデルは文献1でも使用されているが、本開示ではそれらのモデルを分離ではなく抽出のために使用するという違いがある。
(3)更新式
式(23)の最小化問題の解 w_1(f) は、多くの場合に閉形式(closed form)の解(反復なしの解法)が存在せず、反復的なアルゴリズムを用いる必要がある。(ただし、音源モデルとして式(32)の TFVV ガウス分布を用いた場合は、後述のように閉形式解が存在する。)
式(23)の最小化問題の解 w_1(f) は、多くの場合に閉形式(closed form)の解(反復なしの解法)が存在せず、反復的なアルゴリズムを用いる必要がある。(ただし、音源モデルとして式(32)の TFVV ガウス分布を用いた場合は、後述のように閉形式解が存在する。)
式(25)、式(31)、式(33)については、補助関数法と呼ばれる高速かつ安定なアルゴリズムが適用可能である。一方、式(27)〜式(30)については、不動点法と呼ばれる別のアルゴリズムが適用可能である。
以下、最初に式(32)を用いた場合の更新式について説明し、次に補助関数法および不動点法を用いた更新式についてそれぞれについて説明する。
式(32)で表わされる TFVV ガウス分布を式(23)に代入し、さらに最小化とは無関係な項を無視すると、下記の式(34)が得られる。
この式は u(f,t) の重みつき共分散行列の最小化問題と解釈でき、固有値分解を用いて解くことができる。
(厳密には、式(34)の右辺の中カッコ内は重みつき共分散行列そのものではなく、それの T 倍を表わしているが、その違いは式(34)の最小化問題の解には影響しないので、以降では中カッコ内のシグマそのものも重みつき共分散行列と呼ぶ。)
この式は u(f,t) の重みつき共分散行列の最小化問題と解釈でき、固有値分解を用いて解くことができる。
(厳密には、式(34)の右辺の中カッコ内は重みつき共分散行列そのものではなく、それの T 倍を表わしているが、その違いは式(34)の最小化問題の解には影響しないので、以降では中カッコ内のシグマそのものも重みつき共分散行列と呼ぶ。)
行列 A を引数にとり、その行列に対して固有値分解を行なって全ての固有ベクトルを求める関数を eig(A) で表わす。この関数を用いると、式(34)の重みつき共分散行列の固有ベクトルは下記の式(35)のように書ける。
式(35)の左辺の a_{min}(f), ..., a_{max}(f) は固有ベクトルであり、a_{min}(f) が最小の固有値に、a_{max}(f) が最大の固有値に対応する。各固有ベクトルのノルムは 1 であり、また互いに直交しているとする。式(34)を最小化する w_1(f) は、下記の式(36)に示すように最小の固有値に対応した固有ベクトルのエルミート転置である。
式(35)の左辺の a_{min}(f), ..., a_{max}(f) は固有ベクトルであり、a_{min}(f) が最小の固有値に、a_{max}(f) が最大の固有値に対応する。各固有ベクトルのノルムは 1 であり、また互いに直交しているとする。式(34)を最小化する w_1(f) は、下記の式(36)に示すように最小の固有値に対応した固有ベクトルのエルミート転置である。
次に、式(25)、式(31)、式(33)に対して補助関数法を適用して更新式を導出する方法について説明する。
補助関数法とは、最適化問題を効率的に解く方法の一つであり、詳細については特開2011−175114号公報や特開2014−219467号公報に記載されている。
式(38)の右辺を補助関数と呼び、その中の b(f,t) は補助変数と呼ぶ。この不等式は、b(f,t) = |y_1(f,t)| のときに成立する。この不等式を式(37)に適用すると、下記の式(39)が得られる。以降、この不等式の右辺を G と書く。
補助関数法では、以下の2つのステップを交互に繰り返すことで、高速かつ安定に最小化問題を解く。
1.下記の式(40)に示すように、w_1(f) を固定し、G を最小にする b(f,t) を求める。
2.下記の式(41)に示すようにb(f,t) を固定し、G を最小にする w_1(f) を求める。
1.下記の式(40)に示すように、w_1(f) を固定し、G を最小にする b(f,t) を求める。
2.下記の式(41)に示すようにb(f,t) を固定し、G を最小にする w_1(f) を求める。
式(40)が最小となるのは、式(38)の等号が成り立つときである。w_1(f) が変化するたびに y_1(f,t) の値も変わるため、式(9)を用いて計算する。式(41)は式(34)と同様に重みつき共分散行列の最小化問題であるため、固有値分解を用いて解くことができる。
なお、反復の初回は w_1(f) も y_1(f,t) も未知なので式(40)が適用できない。そこで、以下の何れかの方法で補助変数 b(f,t) の初期値を計算する。
a)補助変数として、参照信号を正規化した値を用いる。すなわち b(f,t) = normalize(r(f,t)) とする。
b)分離結果 y_1(f,t) として仮の値を計算し、そこから式(40)で補助変数を計算する。
c)w_1(f) に仮の値を代入して式(40)を計算する。
上記a)の normalize() は下記の式(43)で定義される関数であり、この式の s(t) は任意の時系列信号を表わす。normalize() の働きは、信号の絶対値の二乗平均を1に正規化することである。
a)補助変数として、参照信号を正規化した値を用いる。すなわち b(f,t) = normalize(r(f,t)) とする。
b)分離結果 y_1(f,t) として仮の値を計算し、そこから式(40)で補助変数を計算する。
c)w_1(f) に仮の値を代入して式(40)を計算する。
上記a)の normalize() は下記の式(43)で定義される関数であり、この式の s(t) は任意の時系列信号を表わす。normalize() の働きは、信号の絶対値の二乗平均を1に正規化することである。
上記b)の y_1(f,t) の例として、観測信号の1チャンネル分を選択したり、全チャンネル分の観測信号を平均するといった操作が考えられる。例えば後述の図5のようなマイクロホン設置形態を使用している場合は、発話している話者に割り当てられたマイクロホンが必ず存在するので、そのマイクロホンの観測信号を仮の抽出結果として使用するのが良い。マイクロホンの番号を k とすると、y_1(f,t) = normalize(x_k(f,t)) である。
上記c)における仮の値とは、例えば全要素が同一の値であるベクトルを使用するといった簡易的な方法の他に、前回の目的音区間で推定した抽出フィルターの値を保存しておき、それを次の目的音区間を計算する際の w_1(f) の初期値として用いることも可能である。例えば、図3に示す発話(3−2)について音源抽出を行なう場合は、同じ話者の前回の発話(3−1)について推定された抽出フィルターを今回の抽出における w_1(f) の仮の値とする。あるいは上記 c) の他の方法として、初回のみ TFVV ガウス分布由来の更新式を用いて w_1(f) を求めても良い。
次に、式(33)で表わされる TFVV Student-t 分布の場合について説明する。TFVV Student-t 分布に対して補助関数法を適用する例は文献1に記載されているため、更新式のみを記載する。
補助変数 b(f,t) を求めるステップは下記の式(49)の通りである。
自由度νは、参照信号である r(f,t) と、反復途中の抽出結果である y_1(f,t) それぞれの影響度合いを調整するパラメーターとして機能する。ν=0 の場合は参照信号が無視さ
れ、0 以上 2 未満の場合は抽出結果の影響の方が参照信号よりも大きい。νが 2より大きい場合は参照信号の影響の方が大きく、極限である ν→∞では抽出結果が無視され、それは TFVV ガウス分布と等価である。
自由度νは、参照信号である r(f,t) と、反復途中の抽出結果である y_1(f,t) それぞれの影響度合いを調整するパラメーターとして機能する。ν=0 の場合は参照信号が無視さ
れ、0 以上 2 未満の場合は抽出結果の影響の方が参照信号よりも大きい。νが 2より大きい場合は参照信号の影響の方が大きく、極限である ν→∞では抽出結果が無視され、それは TFVV ガウス分布と等価である。
抽出フィルター w_1(f) を求めるステップは下記の式(50)の通りである。
式(50)は、2変量ラプラス分布の場合の式(47)と同一なので、抽出フィルターは式(48)によって同様に求めることができる。
式(50)は、2変量ラプラス分布の場合の式(47)と同一なので、抽出フィルターは式(48)によって同様に求めることができる。
次に、ダイバージェンスに基づく音源モデルである式(27)〜式(30)から更新式を導出する方法について説明する。これらの pdf を式(23)に代入すると、いずれも f 番目の周波数ビンにおいてダイバージェンスの総和を最小化するという式が得られるが、各ダイバージェンスに対して適切な補助関数は見つかっていない。そこで、別の最適化アルゴリズムである不動点法を適用する。
不動点アルゴリズムは、最適化したいパラメーター(本開示では抽出フィルターである w_1(f))が収束したときに成立している条件を式で表し、その式を変形して“w_1(f) = J(w_1(f))'';という不動点の形式にすることで更新式を導出する。本開示では、収束時に成立する条件として、パラメーターによる偏微分がゼロという式を使用し、下記の式(51)に示す偏微分を行なって具体的な式を導出する。
不動点アルゴリズムでは、式(52)の等号を代入に置き換えた下記の式(53)を反復的に実行する。ただし、本開示では w_1(f) について式(11)の制約を満たす必要があるため、式(53)の後で式(54)によるノルム正規化も行なう。
以下では、式(27)〜式(30)に対応した更新式について説明する。いずれも式(53)に相当する式のみ記載してあるが、実際の抽出処理においては、代入を行なった後で式(54)のノルム正規化も行なう。
式(55)では二段に渡って記述されているが、上段は式(9)を用いて y_1(f,t) を計算した後に使用することを想定しており、下段は y_1(f,t) を計算せずに w_1(f), u(f,t) を直接使用することを想定している。後述する式(56)〜式(60)についてもその点は同様である。
反復の初回のみは、抽出フィルター w_1(f) も抽出結果 y_1(f,t) も未知であるため、以下のどちらかの方法で w_1(f) を計算する。
a)分離結果 y_1(f,t) として仮の値を計算し、そこから式(55)の上段の式で w_1(f) を計算する。
b) w_1(f) に仮の値を代入し、そこから式(55)の下段の式で w_1(f) を計算する。
上記a)における y_1(f,t) の仮の値については、式(40)の説明における b)の方法が使用可能である。同様に、b)における w_1(f) の仮の値については、式(40) おけるc)の方法が使用可能である。
a)分離結果 y_1(f,t) として仮の値を計算し、そこから式(55)の上段の式で w_1(f) を計算する。
b) w_1(f) に仮の値を代入し、そこから式(55)の下段の式で w_1(f) を計算する。
上記a)における y_1(f,t) の仮の値については、式(40)の説明における b)の方法が使用可能である。同様に、b)における w_1(f) の仮の値については、式(40) おけるc)の方法が使用可能である。
式52の形への変形が2通り可能であるため、更新式も2通り存在する。
式(56)下段の右辺の第2項目および式(57)下段の右辺の第3項は共に、u(f,t) と r(f,t) のみで構成されており、反復処理中は一定である。そのため、これらの項は反復前に1回だけ計算すれば良く、式(57)ではその逆行列も1回だけ計算すればよい。
式(56)下段の右辺の第2項目および式(57)下段の右辺の第3項は共に、u(f,t) と r(f,t) のみで構成されており、反復処理中は一定である。そのため、これらの項は反復前に1回だけ計算すれば良く、式(57)ではその逆行列も1回だけ計算すればよい。
以上、説明した処理の内容は、次に説明される本開示の実施形態に適用される。
<一実施形態>
[音源抽出装置の構成例]
図4は、本実施形態に係る信号処理装置の一例である音源抽出装置(音源抽出装置100)の構成例を示す図である。音源抽出装置100は、例えば、複数のマイクロホン11、AD(Analog to Digital)変換部12、STFT(Short-Time Fourier Transform)部13、観測信号バッファー14、区間推定部15、参照信号生成部16、音源抽出部17、および、制御部18を有している。音源抽出装置100は、必要に応じて後段処理部19および区間・参照信号推定用センサー20を有している。
[音源抽出装置の構成例]
図4は、本実施形態に係る信号処理装置の一例である音源抽出装置(音源抽出装置100)の構成例を示す図である。音源抽出装置100は、例えば、複数のマイクロホン11、AD(Analog to Digital)変換部12、STFT(Short-Time Fourier Transform)部13、観測信号バッファー14、区間推定部15、参照信号生成部16、音源抽出部17、および、制御部18を有している。音源抽出装置100は、必要に応じて後段処理部19および区間・参照信号推定用センサー20を有している。
複数のマイクロホン11は、それぞれ異なる位置に設置されている。マイクロホンの設置形態については後述のようにいくつかのバリエーションがある。マイクロホン11により、目的音と目的音以外の音とが混合された混合音信号が入力される。
AD変換部12は、それぞれのマイクロホン11で取得されたマルチチャンネルの信号を、チャンネルごとにデジタル信号に変換する。この信号を(時間領域の)観測信号と適宜、称する。
STFT部13は、観測信号に短時間フーリエ変換を適用することにより、観測信号を時間周波数領域の信号へと変換する。時間周波数領域の観測信号は、観測信号バッファー14と区間推定部15とに送られる。
観測信号バッファー14は、所定の時間(フレーム数)の観測信号を蓄積する。観測信号はフレームごとに保存されており、他のモジュールからどの時間範囲の観測信号が必要かのリクエストを受け取ると、その時間範囲に対応した観測信号を返す。ここで蓄積された信号は、参照信号生成部16や音源抽出部17において使用される。
区間推定部15は、混合音信号に目的音が含まれる区間を検出する。具体的には、区間推定部15は、目的音の開始時刻(鳴り始めた時刻)および終了時刻(鳴り終わった時刻)などを検出する。どのような技術を用いてこの区間推定を行なうかについては、本実施形態の使用場面やマイクロホンの設置形態に依存するため、詳細は後述する。
参照信号生成部16は、混合音信号に基づいて目的音に対応する参照信号を生成する。例えば、参照信号生成部16は、目的音のラフな振幅スペクトログラムを推定する。参照信号生成部16により行われる処理は、本実施形態の使用場面やマイクロホンの設置形態に依存するため、詳細は後述する。
音源抽出部17は、混合音信号から参照信号に類似し、且つ、目的音がより強調された信号を抽出する。具体的には、音源抽出部17は、目的音が鳴っている区間に対応した観測信号と参照信号とを用いて、目的音の推定結果を推定する。あるいは、そのような推定結果を観測信号から生成するための抽出フィルターを推定する。
音源抽出部17の出力は、必要に応じて後段処理部19に送られる。後段処理部19で行われる後段処理の例としては、音声認識などが挙げられる。音声認識と組み合わせた場合、音源抽出部17は時間領域の抽出結果、すなわち音声波形を出力し、音声認識部はその音声波形に対して認識処理を行なう。
なお、音声認識には音声区間検出機能を持つものもあるが、本実施形態ではそれと同等の区間推定部15を備えるため、音声認識側の音声区間検出機能は省略可能である。また、音声認識は認識処理において必要な音声特徴量を波形から抽出するためにSTFTを備えることが多いが、本実施形態と組み合わせる場合は、音声認識側のSTFTは省略してもよい。音声認識側の STFT を省略した場合、音源抽出部17は時間周波数領域の抽出結果、すなわちスペクトログラムを出力し。音声認識側において、そのスペクトログラムを音声特徴量へ変換する。
制御部18は、音源抽出装置100の各部を統括的に制御する。制御部18は、例えば、上述した各部の動作を制御する。図4では省略されているが、制御部18と上述した各機能ブロックとは相互に結線されている。
区間・参照信号推定用センサー20は、区間推定または参照信号生成で使用することを想定した、マイクロホン11のマイクロホンとは別のセンサーである。なお、図4において後段処理部19および区間・参照信号推定用センサー20に括弧が付されているのは、音源抽出装置100において後段処理部19および区間・参照信号推定用センサー20が省略可能であることを示している。すなわち、マイクロホン11とは異なる専用のセンサーを備えることで区間推定または参照信号生成の精度が向上できるのであれば、そのようなセンサーを用いても良い。
例えば発話の区間検出の方法として、特開平10−51889号などに記載された、***画像を用いた方式を使用する場合は、センサーとして撮像素子(カメラ)を適用することができる。あるいは、本発明者が提案した特願2019-073542において補助センサーとして使用されている以下のセンサーを備え、それによって取得される信号を用いて区間推定または参照信号生成を行なっても良い。
・骨伝導マイクロホンや咽頭マイクロホンといった、身体に密着させて使用するタイプのマイクロホン。
・話者の口や喉付近の皮膚表面の振動を観測することができるセンサー。例えば、レーザーポインターと光センサーとの組み合わせ。
・骨伝導マイクロホンや咽頭マイクロホンといった、身体に密着させて使用するタイプのマイクロホン。
・話者の口や喉付近の皮膚表面の振動を観測することができるセンサー。例えば、レーザーポインターと光センサーとの組み合わせ。
[区間推定および参照信号生成について]
本実施形態の使用場面およびマイクロホン11の設置形態はいくつかのバリエーションが考えられ、それぞれにおいて、区間の推定や参照信号の生成のためにどのような技術を適用可能かが異なる。各バリエーションの説明のためには、目的音の区間同士の重複があり得るか否か、そして重複がある得る場合にどう対処するかについて明確化する必要がある。以下では、典型的な使用場面および設置形態として3通りほど示し、それぞれ図5〜図7を用いて説明する。
本実施形態の使用場面およびマイクロホン11の設置形態はいくつかのバリエーションが考えられ、それぞれにおいて、区間の推定や参照信号の生成のためにどのような技術を適用可能かが異なる。各バリエーションの説明のためには、目的音の区間同士の重複があり得るか否か、そして重複がある得る場合にどう対処するかについて明確化する必要がある。以下では、典型的な使用場面および設置形態として3通りほど示し、それぞれ図5〜図7を用いて説明する。
図5は、ある環境においてN人(二人以上)の話者が存在し、さらに話者ごとにマイクロホンが割り当てられている状況を想定した図である。マイクロホンが割り当てられているとは、各話者がピンマイクロホンやヘッドセットマイクロホン等を装着しているか、各話者の至近距離にマイクロホンが設置されているような状況である。N人の話者をS1、S2・・Sn、各話者に割り当てられたマイクロホンをM1、M2・・・Mnとする。さらに、0個以上の妨害音音源Nsが存在する。
このような状況としては、例えば部屋の中で会議を行なっており、その会議の議事録を自動で作成するために、各話者のマイクロホンで収音された音声に対して音声認識を行なうような場面が該当する。この場合、発話同士が重複する可能性があり、発話の重複が発生すると、各マイクロホンでは音声同士が混合した信号が観測される。また、妨害音音源として、プロジェクターやエアコンのファンの音や、スピーカーを備えた機器から発する再生音などがあり得、これらの音も各マイクロホンの観測信号には含まれる。いずれも誤認識の原因となるが、本実施形態の音源抽出技術を用いれば、各マイクロホンに対応した話者の音声のみを残し、それ以外の音源(他の話者や妨害音音源)を除去する(抑圧する)ことができるので、音声認識精度を向上させることができる。
以下では、このような状況で使用可能な区間検出方法および参照信号生成方法について説明する。なお以降では、各マイクロホンで観測される音の内、対応する(目的とする)話者の音声を主音声または主発話、別の話者の音声を回り込み音声またはクロストークと適宜、称する。
区間検出方法としては、特願2019-227192号に記載されている主発話検出が使用可能である。当該出願では、ニューラルネットワークを用いた学習を行なうことで、クロストークは無視する一方で主音声には反応する検出器を実現している。また、発話の重複にも対応しているため、発話同士が重複していても、図3のように、各発話の区間および発話者をそれぞれ推定することができる。
参照信号生成方法については、少なくとも2つの方法が可能である。一つは、話者に割り当てられたマイクロホンで観測された信号から直接生成する方法である。例えば、図5のマイクロホンM1で観測される信号は全ての音源の混合であるが、最も近くの音源である話者S1の音声が大きく収音される一方、それと比較すると他の音源は小さな音で収音されている。従って、マイクロホンM1の観測信号を話者S1の発話区間に従って切り出し、それに短時間フーリエ変換を適用した後で絶対値をとることで振幅スペクトログラムを生成すれば、それは目的音のラフな振幅スペクトログラムであり、本実施形態における参照信号として使用することができる。
もう一つの方法は、前述の特願2019−227192号に記載されているクロストーク低減技術を使用することである。上記出願では、ニューラルネットワークを学習することで、主音声とクロストークとが混合した信号からクロストークを除去(低減)して主音声を残すことを実現している。このニューラルネットワークの出力は、クロストーク低減結果の振幅スペクトログラムまたは時間周波数マスクであり、前者であればそのまま参照信号として使用することができる。後者であっても、観測信号の振幅スペクトログラムに対して時間周波数マスクを適用することで、クロストーク除去結果の振幅スペクトログラムを生成することができるため、それを参照信号として使用することができる。
次、図6を用いて図5とは別の使用場面における参照信号生成処理等について説明する。図6は、1以上の話者と1個以上の妨害音音源がある環境を想定している。図5は妨害音音源Nsの存在よりも発話同士の重複の方に主眼があったが、図6に示す例では大きな妨害音の存在する騒がしい環境においてクリーンな音声を得ることに主眼がある。ただし、話者が2以上存在する場合は、発話同士の重複も課題となる。
話者はn人であり、各話者を話者S1〜話者Snとする。nは1以上とする。図6では妨害音音源Nsは1個のみ図示されているが、個数は任意である。
使用するセンサーは2種類ある。一方は、各話者が装着している、あるいは各話者の至近に設置されているセンサー(区間・参照信号推定用センサー20に対応するセンサー)であり、以下ではセンサーSE(センサーSE1、SE2・・SEn)と適宜、称する。もう一方は位置が固定された複数のマイクロホン11で構成されるマイクロホンアレイ11Aである。
区間・参照信号推定用センサー20は、図5のマイクロホンと同様のタイプ(気導マイクロホンと呼ばれる、大気中を伝播する音を収音するタイプのマイクロホン)を使用しても良いが、他に、図4において説明したように、骨伝導マイクロホンや咽頭マイクロホンといった、身体に密着させて使用するタイプのマイクロホン、あるいは、話者の口や喉付近の皮膚表面の振動を観測可能なセンサーを使用しても良い。いずれにしても、センサーSEはマイクロホンアレイよりも各話者に近接または密着しているため、各センサーに対応する話者の発話を高いSN比で収録することができる。
マイクロホンアレイ11Aとしては、1つの装置に複数のマイクロホンが設置されている形態の他に、分散マイクロホン(distributed microphones)と呼ばれる、空間内の複数の場所にマイクロホンを設置する形態も可能である。分散マイクロホンの例として、部屋の壁面や天井面にマイクロホンを設置する形態や、自動車内の座席・壁面・天井・ダッシュボード等にマイクロホンを設置する形態などが考えられる。
本例においては、区間推定および参照信号生成については区間・参照信号推定用センサー20に対応するセンサーSE1〜SEnで取得された信号を使用し、音源抽出についてはマイクロホンアレイ11Aから取得されたマルチチャンネル観測信号を使用する。センサーSEとして気導マイクロホンを使用した場合の区間推定方法および参照信号生成方法については、図5を用いて説明した方法と同様の方法が使用可能である。
一方、密着型マイクロホンを使用した場合は、図5に示した方法と同様の方法の他にも、妨害音や他者の発話の混入の少ない信号が取得可能という特徴を利用した方法も使用可能である。例えば、区間推定としては、入力信号のパワーの閾値で判別する方法も使用可能であり、参照信号としては、入力信号から生成した振幅スペクトログラムがそのまま使用可能である。密着型マイクロホンで収録される音は、高域が減衰している上に、嚥下音などの体内で発生する音も収録される場合があるため、音声認識等への入力として使用するのは必ずしも適切ではないが、区間推定用や参照信号生成用としては有効に利用することができる。
センサーSEとして光センサーなどマイクロホン以外のセンサーを用いた場合には、出願番号2019−227192号に記載された方法が使用可能である。当該特許出願では、気導マイクロホンで取得された音(目的音と妨害音との混合)と、補助センサーで取得された信号(目的音に対応した何らかの信号)とからクリーンな目的音への対応関係を予めニューラルネットワークに学習させておき、推論時には、気導マイクロホンおよび補助センサーで取得された信号をニューラルネットワークに入力することで、クリーンに近い目的音を生成する。そのニューラルネットワークの出力は振幅スペクトログラム(あるいは時間周波数マスク)であるため、それを本実施形態の参照信号として使用する(あるいは参照信号を生成する)ことができる。また、変形例として、クリーンな目的音を生成すると同時に、目的音が鳴っている区間も推定する方法についても言及しているため、区間検出手段としても使用可能である。
音源抽出は、基本的にマイクロホンアレイ11Aで取得された観測信号を用いて行なう。ただし、センサーSEとして気導マイクロホンを使用している場合は、それによって取得された観測信号を追加することも可能である。すなわち、マイクロホンアレイ11AがN個のマイクロホンで構成されているとすると、m個の区間・参照信号推定用センサーと合わせた(N+m)チャンネルの観測信号を用いて音源抽出を行なっても良い。またその場合、N=1でも複数の気導マイクロホンが存在するため、マイクロホンアレイ11Aの代わりに単一のマイクロホンが用いられても良い。
同様に、区間推定や参照信号生成においても、センサーSEに加えてマイクロホンアレイ由来の信号を使用しても良い。マイクロホンアレイ11Aはどの話者からも離れているため、話者の発話は必ずクロストークとして観測される。その信号と区間・参照信号推定用マイクロホンの信号とを比較することで、区間推定の精度、特に、発話同士の重複が発生しているときの区間推定精度を向上させることが期待できる。
図7は、図6とは別のマイクロホン設置形態である。1人以上の話者と1個以上の妨害音音源がある環境を想定している点は図6と同じであるが、使用するマイクロホンはマイクロホンアレイ11Aのみであり、各話者の至近に設置されたセンサーは存在しない。マイクロホンアレイ11Aの形態は、図6と同様に、1つの装置に設置された複数のマイクロホンや、空間内に設置された複数のマイクロホン(分散マイクロホン)などが適用可能である。
このような状況では、本開示の音源抽出において前提となる、発話区間の推定および参照信号の推定をどのように行なうかが課題となるが、音声同士の混合の発生頻度が低いか高いかによって、適用可能な技術が異なる。以下、それぞれについて説明する。
音声同士の混合の発生頻度が低い場合とは、ある環境において話者は一人だけ(すなわち話者S1のみ)存在し、さらに妨害音音源Nsが非音声と見なせる場合である。その場合、区間推定方法としては、特許4182444号等に記載された「音声らしさ」に着目した音声区間検出技術が適用可能である。すなわち、図7の環境において、「音声らしい」信号が話者S1の発話のみであると考えられる場合は、非音声の信号は無視し、音声らしい信号が含まれている個所(タイミング)を目的音の区間として検出する。
参照信号生成方法としては、文献3に記載されているようなデノイズ(denoise)と呼ばれる手法、すなわち音声と非音声とが混合した信号を入力し、非音声を除去して音声を残すような処理が適用可能である。デノイズは非常に様々な方法が適用可能であるが、例えば以下の方法はニューラルネットワークを用いており、その出力は振幅スペクトログラムであるため、出力をそのまま参照信号として使用することができる。
「文献3
・Liu, D. & Smaragdis, P. & Kim, M.. (2014).
"Experiments on deep learning for speech denoising,"
Proceedings of the Annual Conference of the International Speech
Communication Association, INTERSPEECH. 2685-2689. 」
「文献3
・Liu, D. & Smaragdis, P. & Kim, M.. (2014).
"Experiments on deep learning for speech denoising,"
Proceedings of the Annual Conference of the International Speech
Communication Association, INTERSPEECH. 2685-2689. 」
一方、音声同士の混合の発声頻度が高い場合とは、ある環境において複数の話者が会話をしていて発話同士の重複が発生する場合や、話者が一人でも妨害音音源が音声である場合などである。後者の例として、テレビやラジオ等のスピーカーから音声が出力されている場合などがある。このような場合、音声同士の混合に対しても適用可能な方式を発話区間検出として使用する必要がある。例えば以下のような技術が適用可能である。
a)音源方向推定を利用した音声区間検出
(例えば、特開2010−121975号公報や特開2012−150237号公報に記載されている方法)
b)顔画像(***画像)を利用した音声区間検出
(例えば、特開平10−51889号公報や特開2011−191423号公報に記載されている方法)
a)音源方向推定を利用した音声区間検出
(例えば、特開2010−121975号公報や特開2012−150237号公報に記載されている方法)
b)顔画像(***画像)を利用した音声区間検出
(例えば、特開平10−51889号公報や特開2011−191423号公報に記載されている方法)
図7に示すマイクロホン設置形態ではマイクロホンアレイが存在するため、a)の前提となる音源方向推定が適用可能である。また、図4に示す例においての区間・参照信号推定用センサー20として撮像素子(カメラ)を用いれば、b)も適用可能である。いずれの方式も、発話区間が検出された時点でその発話の方向も分かる(上記b)の方法では、画像内における***の位置から発話方向を計算することができる)ので、その値を参照信号生成のために使用することができる。以下では、発話区間推定において推定された音源方向をθと適宜、称する。
参照信号生成方法についても音声同士の混合に対応している必要があり、そのような技術として以下が適用可能である。
a)音源方向を用いた時間周波数マスキング
(特開2014−219467号公報において使用されている参照信号生成方法である。音源方向θに対応したステアリングベクトルを計算し、それと観測信号ベクトル(上述した(式(2))との間でコサイン類似度を計算すると、方向θから到来する音を残し、その方向以外から到来する音を減衰するマスクとなる。そのマスクを観測信号の振幅スペクトログラムに適用し、そうして生成された信号を参照信号として使用する。
b)Speaker Beam や Voice Filter 等の、ニューラルネットワークベースの選択的聴取技術
ここでいう選択的聴取技術とは、複数の音声が混同したモノラルの信号から、指定した一人の音声を抽出する技術である。抽出したい話者について、他の話者と混合していないクリーンな音声(混合音声とは別の発話内容で良い)を予め録音しておき、混合信号とクリーン音声とを共にニューラルネットワークに入力すると、混合信号の中に含まれる指定話者の音声が出力される。正しくは、そのようなスペクトログラムを生成するための時間周波数マスクが出力される。そのように出力されたマスクを観測信号の振幅スペクトログラムに適用すると、それは本実施形態の参照信号として使用することができる。
なお、Speaker Beam, Voice Filter の詳細については、それぞれ以下の文献4、文献5に記載されている。
「文献4:
・M. Delcroix, K. Zmolikova, K. Kinoshita, A. Ogawa and T. Nakatani,
"Single channel target speaker extraction and recognition with speaker beam,"
IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2018.」
文献5:
・Author: Quan Wang, Hannah Muckenhire, Kevin Wilson, Prashant Sridhar, Zelin Wu,
John Hershey, Rif A. Saurous, Ron J. Weiss, Ye Jia, Ignacio Lopez Moreno
"VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrogram Masking," arXiv:1810.04826v3 [eess.AS] 27 Oct 2018
https://arxiv.org/abs/1810.04826」
a)音源方向を用いた時間周波数マスキング
(特開2014−219467号公報において使用されている参照信号生成方法である。音源方向θに対応したステアリングベクトルを計算し、それと観測信号ベクトル(上述した(式(2))との間でコサイン類似度を計算すると、方向θから到来する音を残し、その方向以外から到来する音を減衰するマスクとなる。そのマスクを観測信号の振幅スペクトログラムに適用し、そうして生成された信号を参照信号として使用する。
b)Speaker Beam や Voice Filter 等の、ニューラルネットワークベースの選択的聴取技術
ここでいう選択的聴取技術とは、複数の音声が混同したモノラルの信号から、指定した一人の音声を抽出する技術である。抽出したい話者について、他の話者と混合していないクリーンな音声(混合音声とは別の発話内容で良い)を予め録音しておき、混合信号とクリーン音声とを共にニューラルネットワークに入力すると、混合信号の中に含まれる指定話者の音声が出力される。正しくは、そのようなスペクトログラムを生成するための時間周波数マスクが出力される。そのように出力されたマスクを観測信号の振幅スペクトログラムに適用すると、それは本実施形態の参照信号として使用することができる。
なお、Speaker Beam, Voice Filter の詳細については、それぞれ以下の文献4、文献5に記載されている。
「文献4:
・M. Delcroix, K. Zmolikova, K. Kinoshita, A. Ogawa and T. Nakatani,
"Single channel target speaker extraction and recognition with speaker beam,"
IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2018.」
文献5:
・Author: Quan Wang, Hannah Muckenhire, Kevin Wilson, Prashant Sridhar, Zelin Wu,
John Hershey, Rif A. Saurous, Ron J. Weiss, Ye Jia, Ignacio Lopez Moreno
"VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrogram Masking," arXiv:1810.04826v3 [eess.AS] 27 Oct 2018
https://arxiv.org/abs/1810.04826」
(音源抽出部の詳細について)
次に、図8を用いて音源抽出部17の詳細について説明する。音源抽出部17は、例えば、前処理部17A、抽出フィルター推定部17B、後処理部17Cを有する。
次に、図8を用いて音源抽出部17の詳細について説明する。音源抽出部17は、例えば、前処理部17A、抽出フィルター推定部17B、後処理部17Cを有する。
前処理部17Aは、式(3)〜式(7)に示した無相関化処理、すなわち、時間周波数領域観測信号に対して無相関化処理等を行う。
抽出フィルター推定部17Bは、目的音がより強調された信号を抽出するフィルターを推定する。具体的には、抽出フィルター推定部17Bは、音源抽出のための抽出フィルターの推定や抽出結果の生成を行う。より具体的には、抽出フィルター推定部17Bは、参照信号と抽出フィルターによる抽出結果との依存性、および、出結果と他の仮想的な音源の分離結果との独立性を反映させた目的関数を最適化する解として、抽出フィルターを推定する。
抽出フィルター推定部17Bは、上述したように、目的関数に含まれる、参照信号と抽出結果との依存性を表わす音源モデルとして、
・抽出結果と参照信号との2変量球状分布
・参照信号を時間周波数ごとの分散に対応した値と見なす時間周波数可変分散モデル
・抽出結果の絶対値と参照信号とのダイバージェンスを用いたモデル
の何れかを使用する。また、2変量球状分布として2変量ラプラス分布を使用してもよい。また、時間周波数可変分散モデルとして、時間周波数可変分散ガウス分布、時間周波数可変分散ラプラス分布、時間周波数可変分散 Student-t分布の何れかを使用してもよい。また、ダイバージェンスを用いたモデルのダイバージェンスとして、抽出結果の絶対値と参照信号とのユークリッド距離または二乗誤差、抽出結果のパワースペクトルと絶対値のパワースペクトルとの板倉斎藤距離、抽出結果の振幅スペクトルと絶対値の振幅スペクトルとの板倉斎藤距離、抽出結果の絶対値と参照信号との比と、1との間の二乗誤差の何れかを使用してもよい。
・抽出結果と参照信号との2変量球状分布
・参照信号を時間周波数ごとの分散に対応した値と見なす時間周波数可変分散モデル
・抽出結果の絶対値と参照信号とのダイバージェンスを用いたモデル
の何れかを使用する。また、2変量球状分布として2変量ラプラス分布を使用してもよい。また、時間周波数可変分散モデルとして、時間周波数可変分散ガウス分布、時間周波数可変分散ラプラス分布、時間周波数可変分散 Student-t分布の何れかを使用してもよい。また、ダイバージェンスを用いたモデルのダイバージェンスとして、抽出結果の絶対値と参照信号とのユークリッド距離または二乗誤差、抽出結果のパワースペクトルと絶対値のパワースペクトルとの板倉斎藤距離、抽出結果の振幅スペクトルと絶対値の振幅スペクトルとの板倉斎藤距離、抽出結果の絶対値と参照信号との比と、1との間の二乗誤差の何れかを使用してもよい。
後処理部17Cは、少なくとも混合音信号への抽出フィルターの適用処理を行なう。後処理部17Cは、後述するリスケーリング処理の他、抽出結果スペクトログラムにフーリエ逆変換を適用して抽出結果波形を生成する処理を行ってもよい。
[音源抽出装置で行われる処理の流れ]
(全体の流れ)
次に、図9に示すフローチャートを参照しつつ、音源抽出装置100で行われる処理の流れ(全体の流れ)について説明する。なお、以下に説明する処理は、特に断らない限りは制御部18によって行われる。
(全体の流れ)
次に、図9に示すフローチャートを参照しつつ、音源抽出装置100で行われる処理の流れ(全体の流れ)について説明する。なお、以下に説明する処理は、特に断らない限りは制御部18によって行われる。
ステップST11では、AD変換部12により、マイクロホン11に入力されたアナログの観測信号(混合音信号)がデジタル信号に変換される。この時点の観測信号は時間領域である。そして、処理がステップST12に進む。
ステップST12では、STFT部13が、時間領域の観測信号に対して短時間フーリエ変換(STFT)を適用し、時間周波数領域の観測信号を得る。入力はマイクロホンからの他に、必要に応じてファイルやネットワークなどから行なってもよい。STFT部13で行われる具体的な処理の詳細については後述する。本実施形態では、入力チャンネルが複数(マイクロホンの個数分)あるため、AD変換やSTFTもチャンネル数だけ行われる。そして処理がステップST13に進む。
ステップST13では、STFTによって時間周波数領域に変換された観測信号を、所定の時間分(所定のフレーム数)だけ蓄積する処理(バッファリング)が行われる。そして、処理がステップST14に進む。
ステップST14では、区間推定部15が、目的音の開始時刻(鳴り始めた時刻)および終了時刻(鳴り終わった時刻)を推定する。さらに、発話同士の重複が発生し得る環境で使用される場合は、どの話者の発話なのかを特定可能な情報も合わせて推定する。例えば図5や図6に示した使用形態においては、各話者に割り当てられたマイクロホン(センサー)の番号も推定し、図7に示した使用形態においては、発話の方向も推定する。
音源抽出およびそれにともなう処理は、目的音の区間ごとに行なわれる。そのため、区間が検出された場合のみ処理がステップST16に進み、検出されなかった場合はステップST16〜ST19をスキップして、処理がステップST20に進む。
区間が検出された場合は、ステップST16において、参照信号生成部16が、その区間で鳴っている目的音のラフな振幅スペクトログラムを生成する。参照信号の生成で使用可能な方式は、図5〜図7を参照して説明した通りである。そして、処理がステップST17に進む。
ステップST17では、音源抽出部17が、ステップST16で求まった参照信号と目的音区間の時間範囲に対応した観測信号とを用いて、目的音の抽出結果を生成する。処理の詳細は後述する。
ステップST18では、ステップST16およびステップST17に係る処理を所定の回数だけ反復するか否かが判断される。この反復の意味は、音源抽出処理によって観測信号や参照信号よりも高精度の抽出結果が生成されたら、次にその抽出結果から参照信号を再度生成し、それを用いて音源抽出処理を再度実行すれば、前回よりもさらに高精度な抽出結果が得られることを意味している。
例えば、観測信号をニューラルネットワークに入力して参照信号を生成している場合、観測信号の代わりに1回目の抽出結果をニューラルネットに入力すると、その出力は1回目のニューラルネットワークの出力より高精度である可能性が高い。従ってそれを参照信号として用いて2回目の抽出結果を生成すると、それは1回目よりも高精度である可能性が高く、さらに反復することで一層高精度の抽出結果を得ることも可能である。文献1と異なり、本実施形態では分離処理ではなく抽出処理において反復を行なっていることが特徴的である。なお、この反復は、ステップST17に係る音源抽出処理の内部において補助関数法や不動点法でフィルターを推定する際に使用される反復とは別物である点に注意されたい。ステップST18に係る処理の後に処理がステップST19に進む。
ステップST19では、ステップST17で生成された抽出結果を用いて後処理部17Cによる後段処理が行なわれる。後段処理の例としては音声認識や、さらにその認識結果を用いた音声対話用応答生成などが考えられる。そして、処理がステップST20に進む。
ステップST20では、処理を継続するか否かが判定され、継続する場合は処理がステップST16に戻り、継続する場合は、処理が終了する。
(STFTについて)
次に、図10を参照して、STFT部13で行われる短時間フーリエ変換について説明する。本実施形態では、マイクロホン観測信号は複数の信号で観測されたマルチチャンネルの信号であるため、STFTはチャンネル毎に行なわれる。以下は k 番目のチャンネルにおけるSTFTの説明である。
次に、図10を参照して、STFT部13で行われる短時間フーリエ変換について説明する。本実施形態では、マイクロホン観測信号は複数の信号で観測されたマルチチャンネルの信号であるため、STFTはチャンネル毎に行なわれる。以下は k 番目のチャンネルにおけるSTFTの説明である。
ステップST11に係るAD変換処理によって得られたマイクロホン収録信号の波形から一定長を切り出し、それらにハニング窓やハミング窓等の窓関数を適用する(図10A参照)。この切り出した単位をフレームと呼ぶ。1フレーム分のデータに短時間フーリエ変換を適用することにより(図10B参照)、時間周波数領域の観測信号として x_k(1,t)〜x_k(F,t) を得る。ただし、t はフレーム番号、F は周波数ビンの総数を表わす(図10C参照)。
切り出すフレームの間には重複があってもよく、そうすることで連続するフレーム間で時間周波数領域の信号の変化が滑らかになる。図10では、1フレーム分のデータである x_k(1,t)〜x_k(F,t) をまとめて1本のベクトル x_k(t) として記述している(図10C差参照)。x_k(t) はスペクトルと呼ばれ、複数のスペクトルを時間方向に並べたデータ構造はスペクトログラムと呼ばれる
図10Cでは、横軸がフレーム番号を、縦軸が周波数ビン番号を表わし、切り出された観測信号51、52、53のそれぞれから3本のスペクトル51A、52A、53Aがそれぞれ生成されている。
(音源抽出処理)
次に、図11に示すフローチャートを参照して本実施形態に係る音源抽出処理について説明する。
次に、図11に示すフローチャートを参照して本実施形態に係る音源抽出処理について説明する。
ステップST31では、前処理部17Aによる前処理が行われる。前処理の例として、式(3)〜式(6)で表わされる無相関化がある。また、フィルター推定で用いられる更新式によっては初回のみ特別な処理をするものがあるが、そのような処理も前処理として行なう。そして、処理がステップST32に進む。
ステップST32では抽出フィルターを推定する処理が行われる。そしてステップST33に進む。ステップST32、ST33は抽出フィルターを推定するための反復を表わす。音源モデルとして式(32)TFVV ガウス分布を用いた場合を除き、抽出フィルターは閉形式では求まらないため、抽出フィルターおよび抽出結果が収束するまでの間、あるいは所定の回数だけ、ステップST32に係る処理を繰り返す。
ステップST32に係る抽出フィルター推定処理は、抽出フィルター w_1(f) を求める処理であり、具体的な式は音源モデルごとに異なる。
例えば、音源モデルとして式(32)の TFVV ガウス分布を用いた場合は、参照信号r(f,t) と無相関化観測信号 u(f,t) とを用いて式(35)の右辺にある重みつき共分散行列を計算し、次に固有値分解を用いて固有ベクトルを求める。そして式(36)のように、最小の固有値に対応した固有ベクトルに対してエルミート転置を適用すると、それが求める抽出フィルター w_1(f) である。この処理を、全ての周波数ビンすなわち f=1〜F について行なう。
同様に、音源モデルとして式(31)の TFVV ラプラス分布を用いた場合は、まず式(40)に従い、参照信号 r(f,t) と無相関化観測信号 u(f,t) とを用いて補助変数 b(f,t) を計算する。次に、式(42)の右辺にある重みつき共分散行列を計算し、それに固有値分解を適用して固有ベクトルを求める。最後に、式(36)によって抽出フィルター w_1(f) を得る。この時点の w_1(f) の抽出フィルターはまだ収束していないため、式(40)に戻って補助変数の計算を再度行なう。これらの処理を w_1(f) が収束するまで、あるいは所定の回数だけ実行する。
音源モデルとして式(25)の2変量ラプラス分布を用いた場合も同様に、補助変数 b(f,t) の計算(式(46))と抽出フィルターの計算(式(48)および式(36))とを交互に行なう。
一方、音源モデルとして、式(26)で表わされるダイバージェンスに基づくモデルを用いた場合は、各モデルに対応した更新式(式(55)〜式(60))と、ノルムを1に正規化する式(式(54))とを交互に行なう。
抽出フィルターが収束するまで、あるいは所定の回数の反復を行なったら、処理がステップST34に進む。
ステップST34では、後処理部17Cによる後処理が行われる。後処理では、抽出結果に対してリスケーリングを行なう。さらに、必要に応じてフーリエ逆変換を行なうことで、時間領域の波形を生成する。リスケーリングとは、抽出結果の周波数ビンごとのスケールを調整する処理である。抽出フィルター推定においては、効率的なアルゴリズムを適用するためにフィルターのノルムが1という制約を置いているが、この制約を持った抽出フィルターを適用して生成される抽出結果は、理想的な目的音とはスケールが異なる。そこで、無相関化前の観測信号を用いて抽出結果のスケールを調整する。
リスケーリング処理は以下の通りである。
まず、式(9)において k=1 として、収束済みの抽出フィルター w_1(f) からリスケーリング前の抽出結果である y_1(f,t) を計算する。リスケーリングの係数 γ(f) は下記の式(61)を最小化する値として求めることができ、具体的な式は式(62)の通りである。
この式の x_i(f,t) は、リスケーリングの目標となる(無相関化前の)観測信号である。x_i(f,t) の選び方については後述する。こうして求まった係数 γ(f) を下記の式(63)のように抽出結果に乗じる。リスケーリング後の抽出結果 y_1(f,t) は、i 番目のマイクロホンの観測信号における目的音由来の成分に相当する。すなわち、目的音以外の音源が存在しなかった場合に i 番目のマイクロホンで観測される信号とほぼ等しい。
さらに必要に応じ、リスケーリング済み抽出結果にフーリエ逆変換を適用することで、抽出結果の波形を得る。前述のように、後段処理によってはフーリエ逆変換を省略することができる。
まず、式(9)において k=1 として、収束済みの抽出フィルター w_1(f) からリスケーリング前の抽出結果である y_1(f,t) を計算する。リスケーリングの係数 γ(f) は下記の式(61)を最小化する値として求めることができ、具体的な式は式(62)の通りである。
この式の x_i(f,t) は、リスケーリングの目標となる(無相関化前の)観測信号である。x_i(f,t) の選び方については後述する。こうして求まった係数 γ(f) を下記の式(63)のように抽出結果に乗じる。リスケーリング後の抽出結果 y_1(f,t) は、i 番目のマイクロホンの観測信号における目的音由来の成分に相当する。すなわち、目的音以外の音源が存在しなかった場合に i 番目のマイクロホンで観測される信号とほぼ等しい。
さらに必要に応じ、リスケーリング済み抽出結果にフーリエ逆変換を適用することで、抽出結果の波形を得る。前述のように、後段処理によってはフーリエ逆変換を省略することができる。
ここで、リスケーリングの目標となる観測信号 x_i(f,t) の選び方について説明する。これは、マイクロホンの設置形態に依存する。マイクロホン設置形態によっては、目的音を強く収音するマイクロホンが存在する。例えば図5の設置形態においては、話者ごとにマイクロホンが割り当てられているため、話者 i の発話はマイクロホン i で最も強く収音される。従って、マイクロホン i の観測信号 x_i(f,t) をリスケーリングの目標として使用することができる。
図6の設置形態において、センサーSEとしてピンマイクロホン等の気導マイクロホンを使用した場合についても、同様の方法が適用可能である。一方、センサーSEとして骨伝導マイクロホン等の密着型マイクロホンを使用した場合や、光センサー等の、マイクロホン以外のセンサーを使用した場合は、それらのマイクロホンで収音された信号はリスケーリングの目標としては不適切であるため、これから説明する図7と同様の方法を用いる。
図7の設置形態では、各話者に割り当てられたマイクロホンが存在しないため、リスケーリングの目標は別の方法で見つける必要がある。以下では、マイクロホンアレイを構成するマイクロホンが1個の装置に固定されている場合と、空間内に設置されている場合(分散マイクロホン)とについてそれぞれ説明する。
マイクロホンが1個の装置に固定されている場合、各マイクロホンの SN 比(目的音とそれ以外の信号とのパワー比)はほぼ同一と考えられる。そこで、リスケーリングの目標である x_i(f,t) として、任意のマイクロホンの観測信号を選んでも良い。
あるいは、特開2014−219467号公報に記載の技術で使用されている、遅延和(delay and sum)を用いたリスケーリングも適用可能である。図7で説明したように、区間検出処理において発話同士の重複に対応した方法を用いている場合は、発話区間の他に発話方向θも同時に推定されている。マイクロホンアレイで観測された信号と発話方向θとを用いると、その方向から到来する音がある程度強調された信号を遅延和によって生成することができる。方向θに対して遅延和を行なった結果を z(f, t, θ) と書くことにすると、リスケーリング係数は下記の式(64)で計算される。
マイクロホンアレイが分散マイクロホンである場合は、別の方法を用いる。分散マイクロホンでは観測信号の SN 比はマイクロホンごとに異なり、話者と近いマイクロホンでは SN 比は高く、遠いマイクロホンでは低いと予想される。そのため、リスケーリングの目標となる観測信号として、話者に近いマイクロホンのものを選択することが望ましい。そこで、各マイクロホンの観測信号に対してリスケーリングを行ない、リスケーリング結果のパワーが最大となるものを採用する。
リスケーリング結果のパワーの大小はリスケーリング係数の絶対値の大小のみで決まる。そこで、下記の式(65)によってマイクロホン番号 i ごとにリスケーリング係数を計算し、その中で絶対値が最大のものを γ_{max} として下記の式(66)によってリスケーリングを行なう。
γ_{max} を決定する際に、どのマイクロホンが話者の発話を最も大きく収音しているかも判明する。各マイクロホンの位置が既知である場合は、空間内において話者がおおよそどの辺りに位置しているかが判明するため、その情報を後段処理で活用することも可能である。
例えば、後段処理が音声対話である場合、すなわち音声対話システムにおいて本開示の技術が使用されている場合は、対話システムからの応答の音声を話者から最も近いと推測されるスピーカーから出力したり、あるいは、話者の位置に応じてシステムの応答を変えるといったことも可能である。
[本実施形態で得られる効果]
本実施形態によれば、例えば、下記の効果を得ることができる。
本実施形態の参照信号付き音源抽出では、目的音の鳴っている区間のマルチチャンネル観測信号と、その区間の目的音のラフな振幅スペクトログラムとを入力し、そのラフな振幅スペクトログラムを参照信号として使用することで、参照信号よりも高精度すなわち真の目的音に近い抽出結果を推定する。
本実施形態によれば、例えば、下記の効果を得ることができる。
本実施形態の参照信号付き音源抽出では、目的音の鳴っている区間のマルチチャンネル観測信号と、その区間の目的音のラフな振幅スペクトログラムとを入力し、そのラフな振幅スペクトログラムを参照信号として使用することで、参照信号よりも高精度すなわち真の目的音に近い抽出結果を推定する。
処理においては、参照信号と抽出結果との依存性と、抽出結果と仮想的な他の分離結果との独立性との両方を反映した目的関数を用意し、それを最適化する解として抽出フィルターを求める。ブラインド音源分離で使用されるデフレーション法を用いることで、出力される信号は参照信号に対応した1音源分のみとすることができる。
このような特徴により、従来技術と比べて以下のような利点がある。
(1)ブラインド音源分離と比べて
観測信号にブラインド音源分離を適用して複数の分離結果を生成し、その中から参照信号と最も類似している1音源分を選択するという方法と比べ、以下の利点がある。
・複数の分離結果を生成する必要がない。
・原理上、ブラインド音源分離では参照信号は選択のためだけに使用され、分離精度の向上には寄与しないが、本開示の音源抽出では参照信号が抽出精度の向上にも寄与する。
(2)従来の適応ビームフォーマーと比べて
区間外の観測信号が存在しなくても、抽出を行なうことができる。すなわち、妨害音だけが鳴っているタイミングで取得された観測信号を別途用意しなくても抽出を行なうことができる。
(3)参照信号ベース音源抽出(例えば、特開2014−219467等に記載された技術)と比べて
・特開2014−219467等に記載された技術における参照信号は時間エンベロープであり、目的音の時間方向の変化は全周波数ビンで共通であると想定していた。それに対し、本実施形態の参照信号は振幅スペクトログラムである。そのため、目的音の時間方向の変化が周波数ビンごとに大きく異なる場合に抽出精度の向上が期待できる。
・上記文献に記載された技術における参照信号は反復の初期値としてのみ用いられていたため、反復の結果として参照信号とは異なる音源が抽出される可能性があった。それに対して本実施形態では、参照信号は音源モデルの一部として反復中ずっと使用されるため、参照信号と異なる音源が抽出される可能性が小さい。
(4)独立深層学習行列分析(IDLMA)と比べて
・IDLMA では音源ごとに異なる参照信号を用意する必要があるため、不明な音源がある場合は IDLMA が適用できなかった。また、マイクロホン数と音源数とが一致する場合にしか適用できなかった。それに対して本実施形態では、抽出したい1音源の参照信号が用意できれば適用可能である。
(1)ブラインド音源分離と比べて
観測信号にブラインド音源分離を適用して複数の分離結果を生成し、その中から参照信号と最も類似している1音源分を選択するという方法と比べ、以下の利点がある。
・複数の分離結果を生成する必要がない。
・原理上、ブラインド音源分離では参照信号は選択のためだけに使用され、分離精度の向上には寄与しないが、本開示の音源抽出では参照信号が抽出精度の向上にも寄与する。
(2)従来の適応ビームフォーマーと比べて
区間外の観測信号が存在しなくても、抽出を行なうことができる。すなわち、妨害音だけが鳴っているタイミングで取得された観測信号を別途用意しなくても抽出を行なうことができる。
(3)参照信号ベース音源抽出(例えば、特開2014−219467等に記載された技術)と比べて
・特開2014−219467等に記載された技術における参照信号は時間エンベロープであり、目的音の時間方向の変化は全周波数ビンで共通であると想定していた。それに対し、本実施形態の参照信号は振幅スペクトログラムである。そのため、目的音の時間方向の変化が周波数ビンごとに大きく異なる場合に抽出精度の向上が期待できる。
・上記文献に記載された技術における参照信号は反復の初期値としてのみ用いられていたため、反復の結果として参照信号とは異なる音源が抽出される可能性があった。それに対して本実施形態では、参照信号は音源モデルの一部として反復中ずっと使用されるため、参照信号と異なる音源が抽出される可能性が小さい。
(4)独立深層学習行列分析(IDLMA)と比べて
・IDLMA では音源ごとに異なる参照信号を用意する必要があるため、不明な音源がある場合は IDLMA が適用できなかった。また、マイクロホン数と音源数とが一致する場合にしか適用できなかった。それに対して本実施形態では、抽出したい1音源の参照信号が用意できれば適用可能である。
<変形例>
以上、本開示の一実施形態について具体的に説明したが、本開示の内容は上述した実施形態に限定されるものではなく、本開示の技術的思想に基づく各種の変形が可能である。なお、変形例の説明において、上述した説明における同一または同質の構成については同一の参照符号を付し、重複した説明が適宜、省略される。
以上、本開示の一実施形態について具体的に説明したが、本開示の内容は上述した実施形態に限定されるものではなく、本開示の技術的思想に基づく各種の変形が可能である。なお、変形例の説明において、上述した説明における同一または同質の構成については同一の参照符号を付し、重複した説明が適宜、省略される。
(無相関化とフィルター推定処理との統合)
抽出フィルターの更新式のうち、固有値分解を使用するものについては、一般化固有値分解を用いて無相関化とフィルター推定とを一つの式にまとめることができる。その場合、無相関化に相当する処理をスキップすることができる。
抽出フィルターの更新式のうち、固有値分解を使用するものについては、一般化固有値分解を用いて無相関化とフィルター推定とを一つの式にまとめることができる。その場合、無相関化に相当する処理をスキップすることができる。
以下では、両者を統合した式を導出する過程について、式(32)の TFVV ガウス分布を例に説明する。
q_1(f) は、無相関化前の観測信号から(無相関化観測信号を経由せずに)抽出結果を直接生成するフィルターである。TFVV ガウス分布に対応した最適化問題を表わす式(34)に対し、式(67)および式(3)〜式(6)を用いて変形を行なうと、q_1(f) についての最適化問題である式(68)が得られる。
この式は式(34)とは別の制約付き最小化問題であるが、ラグランジュの未定乗数法を用いて解くことができる。ラグランジュ未定乗数をλとし、式(68)で最適化したい式および制約を表わす式を一つにまとめて目的関数を作ると下記の式(69)のように書ける。
式(70)は一般化固有値問題(generalized eigenvalue problem)を表わしており、λは固有値の内の一つである。さらに、式(70)の両辺に左から q_1(f) を乗じると、下記の式(71)が得られる。
式(71)の右辺は式(68)において最小化したい関数そのものである。従って、式(71)の最小値は式(70)を満たす固有値の内で最小のものであり、求める抽出フィルター q_1(f) はその最小固有値に対応した固有ベクトルのエルミート転置である。
2つの行列 A, B を引数にとり、その2つの行列についての一般化固有値問題を解いて全ての固有ベクトルを返す関数を gev(A, B) と表わす。この関数を用いると、式(70)の固有ベクトルは下記の式(72)のように書ける。
式(36)と同様に、式(72)におけるv_{min}(f), ..., v_{max}(f) は固有ベクトルであり、v_{min}(f) が最小固有値に対応した固有ベクトルである。抽出フィルターq_1(f) は、式(73)のように、v_{min}(f) のエルミート転置である。
すなわち、式(4)によって補助変数 b(f,t) を計算し、次に式(75)によって2つの行列に対応した固有ベクトルを求めると、抽出フィルター q_1(f) は、最小の固有値に対応した固有ベクトル v_{min}(f) のエルミート転置である(式(73))。q_1(f) は1回では収束しないので、収束するまであるいは所定の回数だけ、式(74)〜式(75)および式(73)を実行する。
音源モデルとして式(33)の TFVV Student-t 分布を用いた場合と、式(25)の二変量ラプラス分布を用いた場合とについては、導出される式の一部が共通であるため、合わせて説明する。補助変数 b(f,t) を計算する式は両者で異なり、TFVV Student-t 分布では下記の式(76)を、二変量ラプラス分布では下記の式(77)を用いる。
一方、抽出フィルター q_1(f,t) を求める式は両者ともに下記の式(78)および式(73)を用いる。抽出フィルター q_1(f,t) は1回では収束しないので、所定の回数だけ反復を行なう点は他のモデルと同様である。
[その他の変形例]
上述の実施形態および変形例において挙げた構成、方法、工程、形状、材料および数値などはあくまでも例に過ぎず、必要に応じてこれと異なる構成、方法、工程、形状、材料および数値などを用いてもよく、公知のもので置き換えることも可能である。また、実施形態および変形例における構成、方法、工程、形状、材料および数値などは、技術的な矛盾が生じない範囲において、互いに組み合わせることが可能である。
上述の実施形態および変形例において挙げた構成、方法、工程、形状、材料および数値などはあくまでも例に過ぎず、必要に応じてこれと異なる構成、方法、工程、形状、材料および数値などを用いてもよく、公知のもので置き換えることも可能である。また、実施形態および変形例における構成、方法、工程、形状、材料および数値などは、技術的な矛盾が生じない範囲において、互いに組み合わせることが可能である。
なお、本明細書中で例示された効果により本開示の内容が限定して解釈されるものではない。
本開示は、以下の構成も採ることができる。
(1)
異なる位置に配置されたマイクロホンで収録され、目的音と目的音以外の音とが混合された混合音信号が入力され、
前記混合音信号に基づいて前記目的音に対応する参照信号を生成する参照信号生成部と、
前記混合音信号から前記参照信号に類似し、且つ、前記目的音がより強調された信号を抽出する音源抽出部と
を有する
信号処理装置。
(2)
前記混合音信号に前記目的音が含まれる区間を検出する区間検出部を有する
(1)に記載の信号処理装置。
(3)
前記音源抽出部は、
前記目的音がより強調された信号を抽出するフィルターを推定する抽出フィルター推定部を有する
(1)または(2)に記載の信号処理装置。
(4)
前記抽出フィルター推定部は、
前記参照信号と前記フィルターによる抽出結果との依存性、および、前記抽出結果と他の仮想的な音源の分離結果との独立性を反映させた目的関数を最適化する解として、前記フィルターを推定する
(3)に記載の信号処理装置。
(5)
前記目的関数に含まれる、前記参照信号と前記抽出結果との依存性を表わす音源モデルとして、
・抽出結果と参照信号との2変量球状分布
・参照信号を時間周波数ごとの分散に対応した値と見なす時間周波数可変分散モデル
・抽出結果の絶対値と参照信号とのダイバージェンスを用いたモデル
の何れかを使用する
(4)に記載の信号処理装置。
(6)
前記2変量球状分布として2変量ラプラス分布を使用する
(5)に記載の信号処理装置。
(7)
前記時間周波数可変分散モデルとして、
・時間周波数可変分散ガウス分布
・時間周波数可変分散ラプラス分布
・時間周波数可変分散 Student-t分布
の何れかを使用する
(5)に記載の信号処理装置。
(8)
前記ダイバージェンスを用いたモデルのダイバージェンスとして、
・抽出結果の絶対値と参照信号とのユークリッド距離または二乗誤差
・抽出結果のパワースペクトルと絶対値のパワースペクトルとの板倉斎藤距離
・抽出結果の振幅スペクトルと絶対値の振幅スペクトルとの板倉斎藤距離
・抽出結果の絶対値と参照信号との比と、1との間の二乗誤差
の何れかを使用する
(5)に記載の信号処理装置。
(9)
前記音源抽出部は、
前記抽出フィルター推定部による処理の前処理として時間周波数領域観測信号に対して無相関化処理を行なう前処理部と、
少なくとも前記混合音信号への前記フィルターの適用処理を行なう後処理部と
を有する
(3)から(8)までの何れかに記載の信号処理装置。
(10)
前記参照信号生成部は、
音声同士が混合した信号と、その信号とは別のタイミングで取得された所定の話者のクリーンな音声とを入力して前記話者の音声を抽出するニューラルネットワークを備え、前記混合音信号および前記クリーン音声を前記ニューラルネットワークに入力し、前記ニューラルネットワークの出力から生成される振幅スペクトログラムを前記参照信号として生成する
(1)から(9)までの何れかに記載の信号処理装置。
(11)
前記参照信号生成部は、
目的音の到来方向を推定し、所定の方向から到来する音を残してそれ以外の方向から到来する音を低減する作用のある時間周波数マスクを生成し、前記時間周波数マスクを前記混合音信号の振幅スペクトログラムに適用することで生成される振幅スペクトログラムを前記参照信号として生成する
(1)から(9)までの何れかに記載の信号処理装置。
(12)
前記参照信号生成部は、
前記マイクロホンとは異なるセンサーを使用して前記参照信号を生成する
(1)から(11)までの何れかに記載の信号処理装置。
(13)
前記参照信号生成部は、
前記抽出フィルター推定部によって推定されたフィルターによる抽出結果をニューラルネットワークに入力することにより参照信号を生成する
(1)から(12)までの何れかに記載の信号処理装置。
(14)
前記マイクロホンは、話者毎に割り当てられたマイクロホンである
(1)から(13)までの何れかに記載の信号処理装置。
(15)
前記マイクロホンは、話者に装着されたマイクロホンである
(14)に記載の信号処理装置。
(16)
異なる位置に配置されたマイクロホンで収録され、目的音と目的音以外の音とが混合された混合音信号が入力され、
参照信号生成部が、前記混合音信号に基づいて前記目的音に対応する参照信号を生成し、
音源抽出部が、前記混合音信号から前記参照信号に類似し、且つ、前記目的音がより強調された信号を抽出する
信号処理方法。
(17)
異なる位置に配置されたマイクロホンで収録され、目的音と目的音以外の音とが混合された混合音信号が入力され、
参照信号生成部が、前記混合音信号に基づいて前記目的音に対応する参照信号を生成し、
音源抽出部が、前記混合音信号から前記参照信号に類似し、且つ、前記目的音がより強調された信号を抽出する
信号処理方法をコンピュータに実行させるプログラム。
(1)
異なる位置に配置されたマイクロホンで収録され、目的音と目的音以外の音とが混合された混合音信号が入力され、
前記混合音信号に基づいて前記目的音に対応する参照信号を生成する参照信号生成部と、
前記混合音信号から前記参照信号に類似し、且つ、前記目的音がより強調された信号を抽出する音源抽出部と
を有する
信号処理装置。
(2)
前記混合音信号に前記目的音が含まれる区間を検出する区間検出部を有する
(1)に記載の信号処理装置。
(3)
前記音源抽出部は、
前記目的音がより強調された信号を抽出するフィルターを推定する抽出フィルター推定部を有する
(1)または(2)に記載の信号処理装置。
(4)
前記抽出フィルター推定部は、
前記参照信号と前記フィルターによる抽出結果との依存性、および、前記抽出結果と他の仮想的な音源の分離結果との独立性を反映させた目的関数を最適化する解として、前記フィルターを推定する
(3)に記載の信号処理装置。
(5)
前記目的関数に含まれる、前記参照信号と前記抽出結果との依存性を表わす音源モデルとして、
・抽出結果と参照信号との2変量球状分布
・参照信号を時間周波数ごとの分散に対応した値と見なす時間周波数可変分散モデル
・抽出結果の絶対値と参照信号とのダイバージェンスを用いたモデル
の何れかを使用する
(4)に記載の信号処理装置。
(6)
前記2変量球状分布として2変量ラプラス分布を使用する
(5)に記載の信号処理装置。
(7)
前記時間周波数可変分散モデルとして、
・時間周波数可変分散ガウス分布
・時間周波数可変分散ラプラス分布
・時間周波数可変分散 Student-t分布
の何れかを使用する
(5)に記載の信号処理装置。
(8)
前記ダイバージェンスを用いたモデルのダイバージェンスとして、
・抽出結果の絶対値と参照信号とのユークリッド距離または二乗誤差
・抽出結果のパワースペクトルと絶対値のパワースペクトルとの板倉斎藤距離
・抽出結果の振幅スペクトルと絶対値の振幅スペクトルとの板倉斎藤距離
・抽出結果の絶対値と参照信号との比と、1との間の二乗誤差
の何れかを使用する
(5)に記載の信号処理装置。
(9)
前記音源抽出部は、
前記抽出フィルター推定部による処理の前処理として時間周波数領域観測信号に対して無相関化処理を行なう前処理部と、
少なくとも前記混合音信号への前記フィルターの適用処理を行なう後処理部と
を有する
(3)から(8)までの何れかに記載の信号処理装置。
(10)
前記参照信号生成部は、
音声同士が混合した信号と、その信号とは別のタイミングで取得された所定の話者のクリーンな音声とを入力して前記話者の音声を抽出するニューラルネットワークを備え、前記混合音信号および前記クリーン音声を前記ニューラルネットワークに入力し、前記ニューラルネットワークの出力から生成される振幅スペクトログラムを前記参照信号として生成する
(1)から(9)までの何れかに記載の信号処理装置。
(11)
前記参照信号生成部は、
目的音の到来方向を推定し、所定の方向から到来する音を残してそれ以外の方向から到来する音を低減する作用のある時間周波数マスクを生成し、前記時間周波数マスクを前記混合音信号の振幅スペクトログラムに適用することで生成される振幅スペクトログラムを前記参照信号として生成する
(1)から(9)までの何れかに記載の信号処理装置。
(12)
前記参照信号生成部は、
前記マイクロホンとは異なるセンサーを使用して前記参照信号を生成する
(1)から(11)までの何れかに記載の信号処理装置。
(13)
前記参照信号生成部は、
前記抽出フィルター推定部によって推定されたフィルターによる抽出結果をニューラルネットワークに入力することにより参照信号を生成する
(1)から(12)までの何れかに記載の信号処理装置。
(14)
前記マイクロホンは、話者毎に割り当てられたマイクロホンである
(1)から(13)までの何れかに記載の信号処理装置。
(15)
前記マイクロホンは、話者に装着されたマイクロホンである
(14)に記載の信号処理装置。
(16)
異なる位置に配置されたマイクロホンで収録され、目的音と目的音以外の音とが混合された混合音信号が入力され、
参照信号生成部が、前記混合音信号に基づいて前記目的音に対応する参照信号を生成し、
音源抽出部が、前記混合音信号から前記参照信号に類似し、且つ、前記目的音がより強調された信号を抽出する
信号処理方法。
(17)
異なる位置に配置されたマイクロホンで収録され、目的音と目的音以外の音とが混合された混合音信号が入力され、
参照信号生成部が、前記混合音信号に基づいて前記目的音に対応する参照信号を生成し、
音源抽出部が、前記混合音信号から前記参照信号に類似し、且つ、前記目的音がより強調された信号を抽出する
信号処理方法をコンピュータに実行させるプログラム。
15・・・区間推定部
16・・・参照信号推定部
17・・・音源抽出部
17A・・・前処理部
17B・・・抽出フィルター推定部
17C・・・後処理部
20・・・制御部
100・・・音源抽出装置
16・・・参照信号推定部
17・・・音源抽出部
17A・・・前処理部
17B・・・抽出フィルター推定部
17C・・・後処理部
20・・・制御部
100・・・音源抽出装置
Claims (17)
- 異なる位置に配置されたマイクロホンで収録され、目的音と目的音以外の音とが混合された混合音信号が入力され、
前記混合音信号に基づいて前記目的音に対応する参照信号を生成する参照信号生成部と、
前記混合音信号から前記参照信号に類似し、且つ、前記目的音がより強調された信号を抽出する音源抽出部と
を有する
信号処理装置。 - 前記混合音信号に前記目的音が含まれる区間を検出する区間検出部を有する
請求項1に記載の信号処理装置。 - 前記音源抽出部は、
前記目的音がより強調された信号を抽出するフィルターを推定する抽出フィルター推定部を有する
請求項1に記載の信号処理装置。 - 前記抽出フィルター推定部は、
前記参照信号と前記フィルターによる抽出結果との依存性、および、前記抽出結果と他の仮想的な音源の分離結果との独立性を反映させた目的関数を最適化する解として、前記フィルターを推定する
請求項3に記載の信号処理装置。 - 前記目的関数に含まれる、前記参照信号と前記抽出結果との依存性を表わす音源モデルとして、
・抽出結果と参照信号との2変量球状分布
・参照信号を時間周波数ごとの分散に対応した値と見なす時間周波数可変分散モデル
・抽出結果の絶対値と参照信号とのダイバージェンスを用いたモデル
の何れかを使用する
請求項4に記載の信号処理装置。 - 前記2変量球状分布として2変量ラプラス分布を使用する
請求項5に記載の信号処理装置。 - 前記時間周波数可変分散モデルとして、
・時間周波数可変分散ガウス分布
・時間周波数可変分散ラプラス分布
・時間周波数可変分散 Student-t分布
の何れかを使用する
請求項5に記載の信号処理装置。 - 前記ダイバージェンスを用いたモデルのダイバージェンスとして、
・抽出結果の絶対値と参照信号とのユークリッド距離または二乗誤差
・抽出結果のパワースペクトルと絶対値のパワースペクトルとの板倉斎藤距離
・抽出結果の振幅スペクトルと絶対値の振幅スペクトルとの板倉斎藤距離
・抽出結果の絶対値と参照信号との比と、1との間の二乗誤差
の何れかを使用する
請求項5に記載の信号処理装置。 - 前記音源抽出部は、
前記抽出フィルター推定部による処理の前処理として時間周波数領域観測信号に対して無相関化処理を行なう前処理部と、
少なくとも前記混合音信号への前記フィルターの適用処理を行なう後処理部と
を有する
請求項3に記載の信号処理装置。 - 前記参照信号生成部は、
音声同士が混合した信号と、その信号とは別のタイミングで取得された所定の話者のクリーンな音声とを入力して前記話者の音声を抽出するニューラルネットワークを備え、前記混合音信号および前記クリーン音声を前記ニューラルネットワークに入力し、前記ニューラルネットワークの出力から生成される振幅スペクトログラムを前記参照信号として生成する
請求項1に記載の信号処理装置。 - 前記参照信号生成部は、
目的音の到来方向を推定し、所定の方向から到来する音を残してそれ以外の方向から到来する音を低減する作用のある時間周波数マスクを生成し、前記時間周波数マスクを前記混合音信号の振幅スペクトログラムに適用することで生成される振幅スペクトログラムを前記参照信号として生成する
請求項1に記載の信号処理装置。 - 前記参照信号生成部は、
前記マイクロホンとは異なるセンサーを使用して前記参照信号を生成する
請求項1に記載の信号処理装置。 - 前記参照信号生成部は、
前記抽出フィルター推定部によって推定されたフィルターによる抽出結果をニューラルネットワークに入力することにより参照信号を生成する
請求項1に記載の信号処理装置。 - 前記マイクロホンは、話者毎に割り当てられたマイクロホンである
請求項1に記載の信号処理装置。 - 前記マイクロホンは、話者に装着されたマイクロホンである
請求項14に記載の信号処理装置。 - 異なる位置に配置されたマイクロホンで収録され、目的音と目的音以外の音とが混合された混合音信号が入力され、
参照信号生成部が、前記混合音信号に基づいて前記目的音に対応する参照信号を生成し、
音源抽出部が、前記混合音信号から前記参照信号に類似し、且つ、前記目的音がより強調された信号を抽出する
信号処理方法。 - 異なる位置に配置されたマイクロホンで収録され、目的音と目的音以外の音とが混合された混合音信号が入力され、
参照信号生成部が、前記混合音信号に基づいて前記目的音に対応する参照信号を生成し、
音源抽出部が、前記混合音信号から前記参照信号に類似し、且つ、前記目的音がより強調された信号を抽出する
信号処理方法をコンピュータに実行させるプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020053542A JP2021152623A (ja) | 2020-03-25 | 2020-03-25 | 信号処理装置、信号処理方法およびプログラム |
PCT/JP2021/009764 WO2021193093A1 (ja) | 2020-03-25 | 2021-03-11 | 信号処理装置、信号処理方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020053542A JP2021152623A (ja) | 2020-03-25 | 2020-03-25 | 信号処理装置、信号処理方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021152623A true JP2021152623A (ja) | 2021-09-30 |
Family
ID=77887359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020053542A Pending JP2021152623A (ja) | 2020-03-25 | 2020-03-25 | 信号処理装置、信号処理方法およびプログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2021152623A (ja) |
WO (1) | WO2021193093A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115775564A (zh) * | 2023-01-29 | 2023-03-10 | 北京探境科技有限公司 | 音频处理方法、装置、存储介质及智能眼镜 |
WO2023127058A1 (ja) * | 2021-12-27 | 2023-07-06 | 日本電信電話株式会社 | 信号フィルタリング装置、信号フィルタリング方法及びプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5374427B2 (ja) * | 2010-03-18 | 2013-12-25 | 株式会社日立製作所 | 音源分離装置、音源分離方法およびそのためのプログラム、並びにそれを用いたビデオカメラ装置およびカメラ付き携帯電話装置 |
JP2012234150A (ja) * | 2011-04-18 | 2012-11-29 | Sony Corp | 音信号処理装置、および音信号処理方法、並びにプログラム |
-
2020
- 2020-03-25 JP JP2020053542A patent/JP2021152623A/ja active Pending
-
2021
- 2021-03-11 WO PCT/JP2021/009764 patent/WO2021193093A1/ja active Application Filing
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023127058A1 (ja) * | 2021-12-27 | 2023-07-06 | 日本電信電話株式会社 | 信号フィルタリング装置、信号フィルタリング方法及びプログラム |
CN115775564A (zh) * | 2023-01-29 | 2023-03-10 | 北京探境科技有限公司 | 音频处理方法、装置、存储介质及智能眼镜 |
Also Published As
Publication number | Publication date |
---|---|
WO2021193093A1 (ja) | 2021-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7191793B2 (ja) | 信号処理装置、信号処理方法、及びプログラム | |
US9357298B2 (en) | Sound signal processing apparatus, sound signal processing method, and program | |
US9668066B1 (en) | Blind source separation systems | |
US7533015B2 (en) | Signal enhancement via noise reduction for speech recognition | |
EP1993320B1 (en) | Reverberation removal device, reverberation removal method, reverberation removal program, and recording medium | |
JP5230103B2 (ja) | 自動音声認識器のためのトレーニングデータを生成する方法およびシステム | |
EP2306457B1 (en) | Automatic sound recognition based on binary time frequency units | |
US8880396B1 (en) | Spectrum reconstruction for automatic speech recognition | |
JP2012234150A (ja) | 音信号処理装置、および音信号処理方法、並びにプログラム | |
JP2011215317A (ja) | 信号処理装置、および信号処理方法、並びにプログラム | |
US9336777B2 (en) | Speech processing device, speech processing method, and speech processing program | |
US8666737B2 (en) | Noise power estimation system, noise power estimating method, speech recognition system and speech recognizing method | |
US8401844B2 (en) | Gain control system, gain control method, and gain control program | |
WO2021193093A1 (ja) | 信号処理装置、信号処理方法およびプログラム | |
Delcroix et al. | Speech recognition in living rooms: Integrated speech enhancement and recognition system based on spatial, spectral and temporal modeling of sounds | |
Nesta et al. | Blind source extraction for robust speech recognition in multisource noisy environments | |
KR20220022286A (ko) | 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치 | |
EP3847645B1 (en) | Determining a room response of a desired source in a reverberant environment | |
Kulkarni et al. | A review of speech signal enhancement techniques | |
JP4891805B2 (ja) | 残響除去装置、残響除去方法、残響除去プログラム、記録媒体 | |
JP3916834B2 (ja) | 雑音が付加された周期波形の基本周期あるいは基本周波数の抽出方法 | |
Ishii et al. | Blind noise suppression for Non-Audible Murmur recognition with stereo signal processing | |
EP3955589A1 (en) | Signal processing device, signal processing method, and program | |
US20240155290A1 (en) | Signal processing apparatus, signal processing method, and program | |
Meutzner et al. | Binaural signal processing for enhanced speech recognition robustness in complex listening environments |