JP5022387B2 - クラスタリング計算装置、クラスタリング計算方法、クラスタリング計算プログラム並びにそのプログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents
クラスタリング計算装置、クラスタリング計算方法、クラスタリング計算プログラム並びにそのプログラムを記録したコンピュータ読み取り可能な記録媒体 Download PDFInfo
- Publication number
- JP5022387B2 JP5022387B2 JP2009015338A JP2009015338A JP5022387B2 JP 5022387 B2 JP5022387 B2 JP 5022387B2 JP 2009015338 A JP2009015338 A JP 2009015338A JP 2009015338 A JP2009015338 A JP 2009015338A JP 5022387 B2 JP5022387 B2 JP 5022387B2
- Authority
- JP
- Japan
- Prior art keywords
- cluster
- time
- distribution
- calculation
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本実施形態では、ノンパラメトリックベイズモデルの一種として、例えば、dHDPを用いることとする。ここでは、dHDPを簡単に説明する。dHDPの数学的なモデルを式(1)〜式(6)に示す。なお、DPM等の他のノンパラメトリックベイズモデルを用いてもよいことはもちろんである。DPMの詳細は、例えば、「上田修功、山田武士、“ノンパラメトリックベイズモデル”,応用数理,Vol. 17, No. 3, pp. 196-214, 2007.」に記載されている。
式(3)のwtは、時刻tでの話者分布の時間変化の割合(程度)を表す。
式(5)のθt iは、時刻tでのクラスタのパラメータを表し、式(6)のxt iは、時刻tでのサンプル分布を表す。なお、iは、時刻tでのi番目のデータを示す。
図1は、本発明の実施形態に係るクラスタリング計算装置を含むダイアライゼーションシステムの概要を示す構成図である。本実施形態のダイアライゼーションは、前記した第2の方法(話者位置に関する情報を利用する方法)によるものとして説明する。予め、未知数話者による会話を録音し、ダイアライゼーションシステム1への入力とする。ここでは、室内101に3人の話者HA、HB、HCが図1のような定位置で会話したものとする。音声データ(会話の録音データ)102は時系列データとなる。
ここでは、推論原理のダイアライゼーションへの導入と、クラスタリングモデルとについて説明する。
<推論原理のダイアライゼーションへの導入>
ここでは、クラスタリング計算装置3において、ノンパラメトリックベイズモデル(dHDP)を用いるため、その前段の特徴量抽出部2で抽出する特徴量を定式化する。時刻tにおいて、角度d(例えば、d=−180,−179,…,0,…,180)方向から聞こえてきた音声パワー(DOA情報)をft dとする。すなわち、各時刻tにおける音声パワーベクトルは
である。なお、d=−180の方向と、d=180の方向とは同じものである。
本実施形態では、計算量とアルゴリズムの簡易さとを考慮して、dHDP近似モデルを用いる。dHDP近似モデルの生成モデルは、以下の式(9)〜式(15)のようになる。なお、dHDP近似モデルについては、「I. Pruteanu-Malinici, L. Ren, J. Paisley, E. Wang and L. Carin, “Dynamic Hierarchical Dirichlet Process for Modeling Topics in Time-Stamped Documents”, IEEE Transactions on Pattern Analysis and Machine Intelligence, submitted, 2008.」に記載されている。
dHDP近似モデルでは、式(9)で、K個のクラスタに対応するパラメータをサンプリングする。式(10)では、有限次元のDirichlet分布よりinnovation measure Ht(後記する式(16c)参照)のサンプリングを行う。より具体的には混合比πtをサンプリングする。これは、前記した式(4)より、式(16a)およびその変形式である式(16b)が導かれるため、時刻tにおける話者分布Gtは、時刻tまでに生成したH1:lの重ね合わせだけで表現できるからである。ここで、「H1:l」は、H1〜Hlを表す。
dHDP近似モデルでは、続いて、式(11)により、話者分布Gtの時間変化の程度を表すwtをサンプリングして、このwtを用いて、式(12)で定義されるvtl(l=1,…,t)を計算する。ここで、時刻lは、時刻tとそれよりも過去の時刻とを表す。
式(13)に示す隠れ変数dt iは、t次元の{0,1}ベクトルである(tは時刻、要素の値は0か1のみ)。隠れ変数dt iは、時刻tのときのt次元の要素のうち、l次元目の要素dt i lが1の値をもつものである(l≦t)。隠れ変数dt iのl次元目の要素dt i lは、時刻lでの分布変化Hlに対応する要素である。時刻lでの分布変化Hlは、時刻tのi番目のサンプルxt iをサンプルするための分布変化である。
式(14)に示す隠れ変数zt iは、同様に、K次元の{0,1}ベクトルである。
隠れ変数zt iは、実際にサンプルxt iをサンプリングするクラスタ(パラメータ)kに対応するk次元目の要素zt i kにのみ1の値を持つ。
式(15)に示す観測量xt iは、与えられたクラスタ番号(k)に対応するパラメータθから生成される。式(15)は、前記した式(6)、式(8)と同様であって、別の表式である。
dHDP近似モデルでは、式(15)に示す観測分布Fと、パラメータの事前分布H(式(9)参照)とを事前に定めておく必要がある。本実施形態では、一例として、観測分布Fが正規分布であり、かつ、パラメータの事前分布Hが共役事前分布であるようなNormal−Gamma分布を用いることにした。なお、Normal−Gamma分布については、参考文献1「C. M. ビショップ、“パターン認識と機械学習”、シュプリンガー・ジャパン、2007.」に記載されている。
図1のダイアライゼーションシステム1では、式(9)〜式(15)に示すdHDP近似モデルにおいて、ダイアライゼーションの話者数(=クラスタ数)と各サンプルのクラスタリングを行い、各クラスタのパラメータ(=話者の位置)を推定することとした。
計算アルゴリズムについては、以下、1)dHDPモデルのオンライン推定法、2)変分事後分布推論プロセス、3)観測モデルおよび事前分布の特定、4)推定結果とクラスタ数の決定方法、5)dHDPの高速化方法に分けて詳細に説明する。
ここでは、具体的な推論アルゴリズムを示す。図2は、本発明の実施形態に係るクラスタリング計算方法の全体処理の流れを示すフローチャートである。図2は、クラスタリングの全体の推論プロセスを示したものである。ダイアライゼーションは、一般的にオンライン計算のプロセスである。しかしながら、dHDPモデルのオンライン推定方法は、従来研究されていない。本実施形態では、dHDPモデルのオンライン推定法を開発した。図2の符号201で示す推論プロセスは、そのオンライン推定法を示したものである。
また、ステップS6の処理は、ステップS7の前に行うのであれば処理順序は問わない。
図3は、図2に示す変分事後分布推論手順を示すフローチャートであって、EMアルゴリズムを含んだ推論プロセスを示す。図3に示す推論プロセスでは、まず、時刻1からTまでのサンプル{x1:T}を入力する(ステップS21)。また、時刻1からTまでの隠れ変数・パラメータの推定値およびハイパーパラメータを入力する(ステップS22)。なお、ステップS21,S22の処理順序は任意である。
Eステップの具体的な計算式は、以下の式(24)〜式(28)で表される。ここで、ψ(・)はプサイ関数(あるいはディガンマ関数)である。また、式(27)は、観測モデルFに依存する。したがって、本実施形態では、式(27)に基づいて後記する式(37)を用いる。
Mテップの具体的な計算式は、以下の式(29)〜式(32)で表される。Mステップでは、隠れ変数(zt,dt)に関わる推定値を再計算する。
図3〜図5および式(19)〜式(27)を参照して説明した変分事後分布推論プロセスでは、観測モデルおよび事前分布を一般化した説明を行った。つまり、前記した式(19)および式(27)は、観測モデルF=p(xt i|θk)およびパラメータθkの事前分布Hに依存する。本実施形態では、観測モデルFを正規分布と仮定し、事前分布HとしてNormal−Gamma分布を仮定する。Normal−Gamma分布は、式(33)〜式(35)で表されるモデルである。
≪クラスタ数の決定方法≫
EMアルゴリズムでは、K個のクラスタを常に保持しているが、推定が進むと少数のクラスタのみに大きな混合比が付き、他のクラスタの大きさ(cluster size)はほぼ0となる。時刻tにおいてクラスタkへ振り分けられるサンプル数の期待値は、式(43)の定義により計算できる。
保存すべき推定結果としては、第1に、EMアルゴリズムで推定された各変数によって定められる変分事後分布である。また、第2に、クラスタリング結果を用いて求められる、「有効な」クラスタ数Keff、式(43)に示す‖zt,k‖、式(44a)に示すβk^などである。ここで、^は、文字βの上に付される記号を意味する。
特に、保存すべき推定結果として2番目に挙げたクラスタリング結果を用いて求められる推定量“「有効な」クラスタ数Keff、式(43)に示す‖zt,k‖、式(44a)に示すβk^”は、図1における識別部4で利用することが可能な重要な推定量である。なお、式(43)、式(44a)、式(44b)の演算は、Mステップの中で行う。
本実施形態のクラスタリング計算方法におけるオンライン推定方法では、図4や図5の処理の流れからも明らかなように、時間ステップの進展とともに推定すべき変数の数が増えていくことが特徴である。そのため、実時間性などを考慮して、計算省力化の技法を開発した。本実施形態では、dHDPを用いたオンライン話者クラスタリングのための計算高速化法として、大別して3種類の高速化法(高速化1、高速化2、高速化3)を用いることとした。
前記した式(16a)が意味することは、時刻tにおける話者分布Gtを計算するためには、時刻1≦l≦tの分布変化Hlが必要であるということである。従って、時刻1からの情報を保持し続ける必要があるので、時間ステップtが進むとともに推論の計算量が増大する。ここで、次の仮定を導入する。すなわち、時刻l<tで話者の入れ替わりが発生したとする。すると、この時点で話者分布Hが大きく変化することが予想される。これは、前記した式(4)において、wl≒1となってGl-1の影響がほぼ排除されることを意味する。このことと、前記した式(16a)および式(16b)とを照らし合わせると、vt1≒…≒vl(t-1)=0となる。従って、実際には、Gtの推論には、時刻lの分布変化Hl以降の分布のみしか関与しないことがわかる。このことから、分布選択を表す変数{dt i}の事後分布に相当するst i l(式(30)参照)も大部分が0となることが期待される。
図2に示したオンライン推定法では、毎時刻Tにおいて全変数のEMアルゴリズム推定を行うものとして説明した。このことは、早い時刻ステップに関する変数については、何度もEM再推定を行っているということを意味する。EMアルゴリズムは、局所最適解の計算アルゴリズムであるため、計算を繰り返すと、ある1つの解に収束する。よって、早い時刻ステップに関わる変数については再推定をしなくとも、値が収束している可能性が高い。
dHDPは、ノンパラメトリックベイズモデルなので、最大クラスタ数(K)の個数のクラスタを予めモデルに準備していたとしても、実際には、「有効な」クラスタ数Keff(<K)の個数のクラスタだけが実質的なクラスタとなり、他のクラスタは、混合比がほぼ0となるために消去されたような形式となる。この消去されたような形式のクラスタには、有効な情報がないため、そのようなクラスタを用いてパラメータや混合比の推定計算を行っても無駄なだけである。
第2の低減法は、各クラスタkの混合比βk^(式(44)参照)に応じてEMアルゴリズムによる再推定を行う回数を増減する方法である。
第3の低減法は、前記した式(44b)の条件を満たす場合、つまり、対象のクラスタが「有効な」クラスタである場合には毎回再推定するが、それ以外の場合には、クラスタkを確率的に更新する方法である。
これらの低減法において、各クラスタkを更新する確率をpupdate(k)とおくと、第1〜第3の低減法は、それぞれ、式(46)〜式(48)のように表現できる。特に、第3の低減法は、推定精度をほとんど犠牲にせずに計算量をKeff/K程度に削減できる効果がある。
図8は、本発明の実施形態に係るクラスタリング計算装置の構成の一例を示す機能ブロック図である。このクラスタリング計算装置3は、例えば、図2の推論プロセス等を実現するものであり、CPU等の演算装置と、メモリ、ハードディスク等の記憶装置(記憶手段)と、マウスやキーボード等の外部から情報の入力を検出する入力装置と、外部との各種情報の送受信を行うインタフェース装置と、LCD(Liquid Crystal Display)等の表示装置を備えたコンピュータと、このコンピュータにインストールされたプログラムとから構成される。
記憶手段10は、ROM、RAM、HDD等からなる。記憶手段10は、プログラム記憶領域、設定データ記憶領域、演算データ一時記憶領域、推定結果記憶領域等に区分され、コマンド、データ、プログラム等各種情報を記憶する。例えば、推定結果記憶領域には、データとして、図9に示すように、未知数の事後分布推定値11、ハイパーパラメータ12、Eステップにおける推定値(まとめてEステップ13と表記した)、Mステップにおける推定値(まとめてMステップ14と表記した)、パワーベクトル15、観測量(サンプル)16が保存される。
メインの変分事後分布推論部30は、例えば、図3、図6、図7の推論プロセスを実現するものであり、ここでは、Eステップ用計算部31と、Mステップ用計算部32と、EM収束判定部33と、パラメータ更新条件判定部34と、ハイパーパラメータ更新部35とを備えることとした。詳細は後記する。
パワーベクトル読込部21は、推定対象の時刻Tにしたがって、パワーベクトルfTを順次読み込み、入力制御部22に渡す。
入力制御部22は、パワーベクトルfTを取得すると、パワーベクトル書込部25にそのまま送ると共に、割当部23、未知数初期化部24、観測量生成部26および終了判定部27に対しては、それぞれ必要なコマンドを出力する。
割当部23は、入力制御部22からのコマンドにしたがって、そのときのT(=1,2,…)や、角度d(180,−179,…)に対応したiに応じて、前記した式(9)〜(14)の各未知数(パラメータ・隠れ変数)を順次生成し(初期値は例えば0)、記憶手段10において、未知数の事後分布推定値11として保存する。すなわち、割当部23は、推定すべき未知数にTとiとを割り当てる。この意味で、図9においては、Tとiの割当部23と表記した。なお、記憶手段10には、dHDP近似モデルで用いる各ハイパーパラメータ12の初期値が予め格納されている。
未知数初期化部24は、入力制御部22からのコマンドにしたがって、そのときのTや角度dに対応したiに応じて、Eステップ演算に用いるための、前記した式(24)〜(26)、(37)の左辺パラメータを順次生成し(初期値は例えば0)、記憶手段10において、Eステップ13の初期値として保存する。また、未知数初期化部24は、Mステップ演算に用いるための、式(29)〜(32)の左辺パラメータを順次生成し(初期値は例えば0)、記憶手段10において、Mステップ14の初期値として保存する。さらに、未知数初期化部24は、EM推定値の演算に用いるための、式(36),(20)〜(23)の左辺パラメータを順次生成し(初期値は例えば0)、記憶手段10において、未知数の事後分布推定値11に上書き保存する(更新する)。
パワーベクトル書込部25は、入力制御部22から取得したパワーベクトルfTを、記憶手段10において、パワーベクトル15として順次保存する。
観測量生成部26は、入力制御部22からのコマンドにしたがって、そのときのTに応じて、記憶手段10から読み出したパワーベクトル15のデータの角度d毎のパワー値を、所定のルールに則って変換し、識別子i(個数nt)のデータに変換することで、観測量(サンプル)を生成し、記憶手段10に、観測量16として順次保存する。なお、本実施形態では、所定のルールとしては、前記した式(7)、式(8)を用いる。
終了判定部27は、入力制御部22からの入力信号(コマンド)が所定期間途絶えたときに、パワーベクトルfTの入力が終了したと判定し、出力制御部28に通知する。なお、本実施形態では、最終時刻Ttotalになったときに、入力が終了したと判定する。
出力制御部28は、終了通知を受け取ると、記憶手段10から、最終的な推定値として、未知数の事後分布推定値11を取得し、識別部4に出力する。
≪Eステップ用計算部≫
Eステップ用計算部31は、処理時点のTに応じて、記憶手段10から、サンプル、ハイパーパラメータ、Mステップの演算結果等を、過去を含めた演算対象時刻t(t≦T)に関して読み出す。そして、Eステップ用計算部31は、処理時点のTに応じて、過去を含むすべての演算対象時刻t(t≦T)に関して、式(24)〜(26)、(37)を演算し、その演算結果を、記憶手段10にEステップ13として保存する。
Mステップ用計算部32は、処理時点のTに応じて、記憶手段10から、サンプル、ハイパーパラメータ、Eステップの演算結果等を、過去を含めた演算対象時刻t(t≦T)に関して読み出す。そして、Mステップ用計算部32は、処理時点のTに応じて、過去を含むすべての演算対象時刻t(t≦T)に関して、式(29)〜(32)を演算し、その演算結果を、記憶手段10にMステップ14として保存する。そして、Mステップ用計算部32は、記憶手段10に保存されたこれらの演算結果を合わせて用いて、処理時点のTに応じて、過去を含むすべての演算対象時刻t(1≦t≦T)に関して、式(20)〜(23)、(36)を演算し、その演算結果を、記憶手段10に、未知数の事後分布推定値11として上書き保存する(更新する)。
EM収束判定部33は、EステップとMステップを合わせた1セットの処理の繰り返し回数jのしきい値(jmax)に達したか否かを判定することで、EMアルゴリズムが収束したか否かを判別する。しきい値(jmax)は、予め設定される。EMアルゴリズムが収束していない場合、EM収束判定部33は、EステップとMステップとを繰り返す制御を行う。EMアルゴリズムが収束した場合、EM収束判定部33は、EステップとMステップとの処理を停止する制御を行う。本実施形態では、EM収束判定部33は、収束の如何に関わらず、その時点のTの値をパラメータ更新条件判定部34に通知することとした。
パラメータ更新条件判定部34は、受け取った処理時点のTが、事前に設定された設定値(適切な正整数tupdateの倍数)と同じであるか否かを判別する。同じある場合には、パラメータ更新条件判定部34は、ハイパーパラメータ更新部35に通知する。
ハイパーパラメータ更新部35は、通知を受けると、記憶手段10に保存されているハイパーパラメータ12を任意の方法で更新する。これにより、Eステップ用計算部31およびMステップ用計算部32は、処理時点のTが、予め設定された適切な正整数の倍数と同じである次のタイミングから、更新されたハイパーパラメータを用いることができる。なお、パラメータ更新条件判定部34およびハイパーパラメータ更新部35は、前記したステップS28〜S30の処理に対応している。ただし、これらの構成は、必ずしも備える必要はない。
また、本実施形態によれば、dHDP近似モデルを採用したことにより、時間ごとに発話に参加する話者が変化する状況も適切にモデリングできる。その結果、より精度の高い話者クラスタリングが実現できる。
さらに、本実施形態によれば、dHDPのオンライン推定法とその高速化法を用いることで、高速に推論を行うことが可能である。なお、精度と時間のトレードオフによって実時間推論も可能である。
≪人工音声データ≫
人工音声データは、3人の発話者が交代で発話・非発話を切り替える状況をシミュレートしたデータである。この人工音声データは、64[msec]の時間ステップで計算されたDOAデータ(音声の到達角度のデータ)と、VAD(音声区間検出器)による音声・非音声判定結果とからなる。また、人工音声データは、ノイズがほとんど重畳しないデータである。各実験では、VADによる判定結果を用いて非音声区間を閾値処理で除外して422ステップの連続シーケンスの人工音声データを作成した。また、時間ステップごとのサンプル分布をある程度安定させるため、422ステップを数ステップごとに重複なくまとめて1つの長いメタステップとした。各実験では、5ステップのデータをまとめて1メタステップとし、メタステップのステップ数をt,Tに対応させた。よって、ステップ数はTtotal=ceil(422/5)=85である。ここで、ceilは切り上げを示す。この人工音声データには、複数の話者が同時に喋る区間も存在している。
実音声データは、実際の複数話者の会話の様子を録音したデータである。実音声データとして、非特許文献1に記載されている4データを利用した。4データの詳細を表1に示す。表1において、CPはcrossword puzzleデータ、DCはdiscussionデータ、CNはconversationデータを表す。
まず、第1段階として、クラスタリングの性能を確認した。ここでは、DPM(参考例1)とdHDP(実施例1)とによって、オンラインで話者クラスタの推定を行った。このクラスタリング検証実験では、最終時刻Ttotalにおいて、最終的な混合比が、チャンスレベル(1/K)を超えたクラスタのみを有効なクラスタとしてカウントすることで、最終的なクラスタリング結果を求めた。そして、得られたクラスタリング結果により、DPM(参考例1)とdHDP(実施例1)とを比較し、話者の分布と話者数に対応したクラスタリング結果が得られているか否かを判定した。なお、チャンスレベルは偶然の一致が起こる確率である。
図9に示す人工音声データに対して、オンラインで、DPM(参考例1)とdHDP(実施例1)とを適用した結果を図11に示す。図11において、横軸は、DOAデータを、[−180:180]→[−0.5:0.5]に変換する関数を用いて無次元量に正規化した角度、すなわち、正規化角度を示す。また、縦軸は、確率密度関数(probabilistic density function:p. d. f)の値(無次元数)を示す。
図10(a)に示す実音声データ(CP1)に対して、オンラインで、DPM(参考例2)とdHDP(実施例2)とを適用した結果を図12に示す。図12の各軸は、図11のグラフと同様である。図12(b)に示すdHDP(実施例2)の結果と、図10(a)のグラフとの比較の結果、dHDPでは、正しいクラスタ数とパラメータを得ることができたことが分かる。一方、図12(a)に示すDPM(参考例2)の場合、多数のクラスタに分かれてしまい、図10(a)に示すCP1に対しては不適切な結果が得られたことを確認した。なお、同様の傾向がCP2データに対しても確認された。このときのDPM(参考例3)とdHDP(実施例3)との結果の記述は省略した。
図10(c)に示す実音声データ(DC)に対して、オンラインで、DPM(参考例4)とdHDP(実施例4)とを適用した結果を図13に示す。図13の各軸は、図11のグラフと同様である。図13(b)に示すdHDP(実施例4)の結果と、図10(c)のグラフや表1における発話者数との比較の結果、dHDPでは、話者数である3クラスタを得ることはできなかった。しかしながら、各クラスタのうち、サイズ数(図中のcluster size)の上位3つである、「cluster 4」、「cluster 6」、「cluster 14」の正規化角度の位置は、DCデータにおける話者の位置に対応することができた。ここで、サイズ数(図中のcluster size)は、前記した式(44)の右辺の分母で示される数値で定義した。なお、サイズ数の下位2つは、ノイズクラスタとなった。
第1段階のクラスタリング検証実験に続いて、第2段階では、ダイアライゼーションのためのクラスタリングとしての性能を評価するため、DER(diarization error ratio)による評価を試みた。DERとはNISTが提案した話者識別能力の指標である。具体的には、DERは、全音声区間長に対して、以下の(1)〜(3)の3種類の誤識別区間がどれだけあったかを百分率で示したものである。DER値が少ないほど良いダイアライゼーションができた、という評価になる。
(2)missed speaker time:誰かが話しているのに、誰も話していないと判断した区間長
(3)speaker error time:誰かが話していることは正しく検出したが、話者を誤った区間長
「NIST Speech group,”Spring2007(RT-07) Rich Transcription Meeting Recognition Evaluation Plan”,[online],[平成21年1月21日検索]、インターネット<URL:http://www.nist.gov/speech/tests/rt/2007/index.html>」
2 特徴量抽出部(特徴量抽出手段)
3 クラスタリング計算装置
4 識別部(識別手段)
10 記憶手段(推定値記憶手段、観測量記憶手段)
21 パワーベクトル読込部(読込手段)
22 入力制御部
23 割当部
24 未知数初期化部
25 パワーベクトル書込部
26 観測量生成部(観測量生成手段)
27 終了判定部
28 出力制御部(出力制御手段)
30 変分事後分布推論部(事後分布推論手段)
31 Eステップ用計算部(Eステップ用計算手段)
32 Mステップ用計算部(Mステップ用計算手段)
33 EM収束判定部(収束判定手段)
34 ハイパーパラメータ更新条件判定部
35 ハイパーパラメータ更新部
Claims (10)
- 話者数が未知である会話の録音データから前記会話の話者数を推定するために、各話者を特徴付ける特徴量を抽出する特徴量抽出手段と、前記抽出された特徴量から前記各話者に対応する複数のクラスタを生成するときの複数の未知パラメータの値をそれぞれ推定するクラスタリング計算装置と、前記推定された複数のパラメータ値により前記会話の各話者を識別する識別手段とを有したダイアライゼーションシステムの前記クラスタリング計算装置であって、
前記抽出された特徴量を読み込む読込手段と、
前記読み込んだ特徴量である角度別かつ時刻別の複数の音声パワーを、前記音声パワーの値に応じて決定された個数の要素を有するサンプル集合へ量子化変換することでノンパラメトリックベイズモデルに対応したベクトルの観測量に量子化変換する観測量生成手段と、
前記変換された観測量の集合データを蓄積記憶する観測量記憶手段と、
前記観測量の集合データから複数のクラスタをノンパラメトリックベイズモデルにより生成するときの複数のパラメータの事後分布の値をEMアルゴリズムによりそれぞれ推定および更新する事後分布推論手段と、
前記推定および更新された複数のパラメータの事後分布の値を蓄積記憶する推定値記憶手段と、
事前に設定された終了条件が成立したときに前記推定値記憶手段に記憶されている前記複数のパラメータの事後分布の最新の推定値を出力する出力制御手段と、
を備えることを特徴とするクラスタリング計算装置。 - 前記事後分布推論手段は、
前記EMアルゴリズムのEステップの処理として、dHDP(dynamic Hierarchical Dirichlet Process)モデルにおいて予め定められた事前分布、観測分布および最大クラスタ数と、ハイパーパラメータの設定値と、過去から推定対象の時刻までに変換された観測量の集合データと、過去から最新のMステップまでに推定された隠れ変数の事後分布の推定値とを読み込んで、過去分を含めた演算対象時刻ごと、かつ、クラスタごと、かつ、演算対象時刻別の全データごとに、前記クラスタと、混合比と、前記クラスタ分布の時間変化の程度を表す重みとに関するパラメータの事後分布の値を演算するEステップ用計算手段と、
前記EMアルゴリズムのMステップの処理として、前記ハイパーパラメータの設定値と、過去から推定対象の時刻までに変換された観測量の集合データと、過去から最新のEステップまでに推定されたパラメータの事後分布の推定値とを読み込んで、過去分を含めた演算対象時刻ごと、かつ、演算対象時刻別の全データごとに、2種類の隠れ変数の事後分布の値を推定し、前記2種類の隠れ変数のうち、前記クラスタ分布の時間変化の程度を表す重みに関連付けられた第1隠れ変数の事後分布の値についてはクラスタごとに演算し、前記第1隠れ変数および前記混合比に関連付けられた第2隠れ変数の事後分布の値については、演算対象時刻から過去に遡及した時刻ごとに演算するMステップ用計算手段と、
前記Eステップの処理と前記Mステップの処理とを交互に予め定められた回数だけ繰り返し実行させる制御を行う収束判定手段と、
を備えることを特徴とする請求項1に記載のクラスタリング計算装置。 - 前記Eステップ用計算手段は、
観測量の集合データと、隠れ変数の事後分布の推定値とについて、推定対象の時刻から事前に設定された定数または直前のMステップの推定値を反映した変動数分だけ過去に遡及した時刻のデータを読み込み、推定対象の時刻から事前に設定された設定値分だけ遡及した過去の時刻までを演算対象時刻として、前記クラスタと、前記混合比と、前記重みとに関するパラメータの事後分布の値を演算し、クラスタごとの演算のためにクラスタを更新する処理を実行するたびに、事前に設定された再推定すべきクラスタの判断基準に基づいて、推定処理対象のクラスタを再推定すべきか否か判別し、再推定すべきクラスタである場合に、前記混合比に関するパラメータの事後分布の値を演算し、
前記Mステップ用計算手段は、
観測量の集合データと、パラメータの事後分布の推定値とについて、推定対象の時刻から事前に設定された定数または直前のMステップの推定値を反映した変動数分だけ過去に遡及した時刻のデータを読み込み、推定対象の時刻から事前に設定された設定値分まで遡及した過去の時刻までを演算対象時刻として、前記第1隠れ変数および第2隠れ変数の事後分布の値を演算し、クラスタごとの演算のためにクラスタを更新する処理を実行するたびに、前記判断基準に基づいて、推定処理対象のクラスタを再推定すべきか否か判別し、再推定すべきクラスタである場合に、前記第1隠れ変数の事後分布の値を演算することを特徴とする請求項2に記載のクラスタリング計算装置。 - 話者数が未知である会話の録音データから前記会話の話者数を推定するダイアライゼーションシステムにおいて、記憶手段と、読込手段と、観測量生成手段と、事後分布推論手段と、出力制御手段とを備えて、前記録音データから抽出された各話者を特徴付ける特徴量から前記各話者に対応する複数のクラスタを生成するときの複数の未知パラメータの値をそれぞれ推定するクラスタリング計算装置のクラスタリング計算方法であって、
前記読込手段によって、前記抽出された特徴量を読み込む特徴量読込ステップと、
前記観測量生成手段によって、前記読み込んだ特徴量である角度別かつ時刻別の複数の音声パワーを、前記音声パワーの値に応じて決定された個数の要素を有するサンプル集合へ量子化変換することでノンパラメトリックベイズモデルに対応したベクトルの観測量に量子化変換し、前記変換された観測量の集合データを記憶手段に順次蓄積する観測量蓄積ステップと、
前記事後分布推論手段によって、前記観測量の集合データから複数のクラスタをノンパラメトリックベイズモデルにより生成するときの複数のパラメータの事後分布の値をEMアルゴリズムによりそれぞれ推定し、当該推定値を前記記憶手段に順次格納および更新する事後分布推定ステップと、
前記出力制御手段によって、事前に設定された終了条件が成立したときに前記記憶手段に記憶されている前記複数のパラメータの事後分布の最新の推定値を出力する推定値出力ステップと、
を含んで実行することを特徴とするクラスタリング計算方法。 - 前記事後分布推論手段は、
前記事後分布推定ステップにおいて、
前記EMアルゴリズムのEステップの処理として、dHDPモデルにおいて予め定められた事前分布、観測分布および最大クラスタ数と、ハイパーパラメータの設定値と、過去から推定対象の時刻までに変換された観測量の集合データと、過去から最新のMステップまでに推定された隠れ変数の事後分布の推定値とを読み込んで、推定対象の時刻に過去分を含めた演算対象時刻ごと、かつ、クラスタごと、かつ、前記演算対象時刻別の全データごとに、前記クラスタと、混合比と、前記クラスタ分布の時間変化の程度を表す重みとに関するパラメータの事後分布の値を演算する段階と、
前記EMアルゴリズムのMステップの処理として、前記ハイパーパラメータの設定値と、過去から推定対象の時刻までに変換された観測量の集合データと、過去から最新のEステップまでに推定されたパラメータの事後分布の推定値とを読み込んで、推定対象の時刻に過去分を含めた演算対象時刻ごと、かつ、前記演算対象時刻別の全データごとに、2種類の隠れ変数の事後分布の値を推定し、前記2種類の隠れ変数のうち、前記クラスタ分布の時間変化の程度を表す重みに関連付けられた第1隠れ変数の事後分布の値についてはクラスタごとに演算し、前記第1隠れ変数および前記混合比に関連付けられた第2隠れ変数の事後分布の値については、前記演算対象時刻から過去に遡及した時刻ごとに演算する段階とを含み、
前記Eステップの処理と前記Mステップの処理とを交互に予め定められた回数だけ繰り返し実行することを特徴とする請求項4に記載のクラスタリング計算方法。 - 前記事後分布推論手段は、
前記Eステップにおいて、観測量の集合データと、隠れ変数の事後分布の推定値とについては、推定対象の時刻から事前に設定された定数または直前のMステップの推定値を反映した変動数分だけ過去に遡及した時刻のデータを読み込み、
前記Mステップにおいて、観測量の集合データと、パラメータの事後分布の推定値とについては、推定対象の時刻から事前に設定された定数または直前のMステップの推定値を反映した変動数分だけ過去に遡及した時刻のデータを読み込むことを特徴とする請求項5に記載のクラスタリング計算方法。 - 前記事後分布推論手段は、
前記Eステップにおいて、推定対象の時刻から事前に設定された設定値分だけ遡及した過去の時刻までを演算対象時刻として、前記クラスタと、前記混合比と、前記重みとに関するパラメータの事後分布の値を演算し、
前記Mステップにおいて、推定対象の時刻から事前に設定された設定値分まで遡及した過去の時刻までを演算対象時刻として、前記第1隠れ変数および第2隠れ変数の事後分布の値を演算することを特徴とする請求項5に記載のクラスタリング計算方法。 - 前記事後分布推論手段は、
前記Eステップにおいて、クラスタごとの演算のためにクラスタを更新する処理を実行するたびに、事前に設定された再推定すべきクラスタの判断基準に基づいて、推定処理対象のクラスタを再推定すべきか否か判別し、再推定すべきクラスタである場合にだけ、前記混合比に関するパラメータの事後分布の値を演算し、
前記Mステップにおいて、クラスタごとの演算のためにクラスタを更新する処理を実行するたびに、前記判断基準に基づいて、推定処理対象のクラスタを再推定すべきか否か判別し、再推定すべきクラスタである場合にだけ、前記第1隠れ変数の事後分布の値を演算することを特徴とする請求項5に記載のクラスタリング計算方法。 - 請求項1乃至請求項3のいずれか一項に記載のクラスタリング計算装置を構成する各手段としてコンピュータを機能させるためのクラスタリング計算プログラム。
- 請求項9に記載のクラスタリング計算プログラムが記録されたことを特徴とするコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009015338A JP5022387B2 (ja) | 2009-01-27 | 2009-01-27 | クラスタリング計算装置、クラスタリング計算方法、クラスタリング計算プログラム並びにそのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009015338A JP5022387B2 (ja) | 2009-01-27 | 2009-01-27 | クラスタリング計算装置、クラスタリング計算方法、クラスタリング計算プログラム並びにそのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010175614A JP2010175614A (ja) | 2010-08-12 |
JP5022387B2 true JP5022387B2 (ja) | 2012-09-12 |
Family
ID=42706684
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009015338A Active JP5022387B2 (ja) | 2009-01-27 | 2009-01-27 | クラスタリング計算装置、クラスタリング計算方法、クラスタリング計算プログラム並びにそのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5022387B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5496945B2 (ja) * | 2011-05-19 | 2014-05-21 | 日本電信電話株式会社 | 話者分類装置、話者分類方法、プログラム |
JP6171544B2 (ja) * | 2013-05-08 | 2017-08-02 | カシオ計算機株式会社 | 音声処理装置、音声処理方法及びプログラム |
JP6594839B2 (ja) * | 2016-10-12 | 2019-10-23 | 日本電信電話株式会社 | 話者数推定装置、話者数推定方法、およびプログラム |
JP6661710B2 (ja) * | 2018-08-02 | 2020-03-11 | Dynabook株式会社 | 電子機器および電子機器の制御方法 |
JP7340630B2 (ja) * | 2019-09-05 | 2023-09-07 | ザ・ジョンズ・ホプキンス・ユニバーシティ | ニューラルネットワークを使用した音声入力の複数話者ダイアライゼーション |
KR102482827B1 (ko) * | 2020-11-30 | 2022-12-29 | 네이버 주식회사 | 화자 임베딩 기반 음성 활동 검출을 이용한 화자 분할 방법, 시스템, 및 컴퓨터 프로그램 |
KR102560019B1 (ko) * | 2021-01-15 | 2023-07-27 | 네이버 주식회사 | 화자 식별과 결합된 화자 분리 방법, 시스템, 및 컴퓨터 프로그램 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4891801B2 (ja) * | 2007-02-20 | 2012-03-07 | 日本電信電話株式会社 | 多信号強調装置、方法、プログラム及びその記録媒体 |
-
2009
- 2009-01-27 JP JP2009015338A patent/JP5022387B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010175614A (ja) | 2010-08-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11900947B2 (en) | Method and system for automatically diarising a sound recording | |
JP5022387B2 (ja) | クラスタリング計算装置、クラスタリング計算方法、クラスタリング計算プログラム並びにそのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP5059115B2 (ja) | 音声キーワードの特定方法、装置及び音声識別システム | |
EP2609587B1 (en) | System and method for recognizing a user voice command in noisy environment | |
JP5229219B2 (ja) | 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム | |
US8290773B2 (en) | Information processing apparatus, method and recording medium for generating acoustic model | |
EP1515305B1 (en) | Noise adaption for speech recognition | |
JP5229478B2 (ja) | 統計モデル学習装置、統計モデル学習方法、およびプログラム | |
JP5218052B2 (ja) | 言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラム | |
JP4590692B2 (ja) | 音響モデル作成装置及びその方法 | |
JP6845489B2 (ja) | 音声処理装置、音声処理方法、および音声処理プログラム | |
WO2010100853A1 (ja) | 言語モデル適応装置、音声認識装置、言語モデル適応方法、及びコンピュータ読み取り可能な記録媒体 | |
JP2010078650A (ja) | 音声認識装置及びその方法 | |
US20040122672A1 (en) | Gaussian model-based dynamic time warping system and method for speech processing | |
Naik et al. | Filter selection for speaker diarization using homomorphism: speaker diarization | |
JP5070591B2 (ja) | 雑音抑圧装置、コンピュータプログラム、及び音声認識システム | |
JP2008298844A (ja) | 雑音抑圧装置、コンピュータプログラム、及び音声認識システム | |
Liu et al. | Temporally varying weight regression: A semi-parametric trajectory model for automatic speech recognition | |
Benkhellat et al. | Genetic algorithms in speech recognition systems | |
JP7216348B2 (ja) | 音声処理装置、音声処理方法、および音声処理プログラム | |
Hashimoto et al. | Bayesian context clustering using cross validation for speech recognition | |
WO2009122780A1 (ja) | 適応話者選択装置および適応話者選択方法並びに記録媒体 | |
Rahbar et al. | Independent-speaker isolated word speech recognition based on mean-shift framing using hybrid HMM/SVM classifier | |
Khan et al. | Word recognition in continuous speech with background noise based on posterior probability measure | |
Hodgen et al. | A stochastic articulatory-to-acoustic mapping as a basis for speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101215 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110819 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120123 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120131 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120316 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120612 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120615 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5022387 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150622 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |