JP6350148B2

JP6350148B2 - 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム

Info

Publication number: JP6350148B2
Application number: JP2014183652A
Authority: JP
Inventors: 昭二早川
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2014-09-09
Filing date: 2014-09-09
Publication date: 2018-07-04
Anticipated expiration: 2034-09-09
Also published as: US20160071520A1; US9536525B2; JP2016057461A

Description

本発明は、例えば、複数の話者の会話を録音した音声信号において発話した話者の識別情報を付与する話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラムに関する。

近年、電話回線を用いて行われる、金銭を騙し取ることを目的とした詐欺行為及び悪質な勧誘行為が社会的な問題となっている。そこで、電話回線を介した通話中の音声など、会話音声を分析して、話者の心理状態を推定する技術が提案されている（例えば、特許文献１を参照）。

このような技術では、心理状態の分析対象となる話者１名が発声した音声が含まれる音声信号を分析することが前提となっている。しかしながら、会話音声が録音された音声信号には、２名以上の話者の音声が含まれる。そこで、会話音声が録音された音声信号に基づいて、特定の話者の心理状態を精度良く推定するためには、その音声信号に含まれる、心理状態の推定対象となる話者の発話区間を特定することが求められる。そこで、複数の話者の音声が含まれるモノラルの音声信号において、各話者が発話した区間にその話者の識別情報を付与できる話者インデキシング技術が提案されている（例えば、特許文献２及び非特許文献１を参照）。

例えば、特許文献２に開示されたインデキシング装置は、所定時間毎の音声特徴量から生成した音響モデル同士の類似度のうち、その類似度が所定値以上となる領域の音声特徴量から音響モデルを生成する。そしてこのインデキシング装置は、この領域の音響モデルと音声特徴量とを用いて導出された第２区間毎の音声信号を特徴づける特徴ベクトルを話者毎に分類する。

また、非特許文献１に開示された話者ダイアリゼーションシステムは、最初に、音声信号に含まれる全ての発話区間に対して１状態の隠れマルコフモデル(Hidden Markov Model, HMM)を用いて混合ガウスモデルを学習する。そしてこのシステムは、同一の話者が発話している可能性が有る発話区間の特徴量を用いて学習した状態をHMMに追加して、発話区間に対する話者のラベリングと再学習を繰り返す。

特開２０１１−２４２７５５号公報特開２００８−１７５９５５号公報

C. Fredouille他、''The LIA-EURECOM RT'09 Speaker Diarization System''、NIST paper of ''The rich transcription 2009 Meeting recognition evaluation workshop''、2009年

特許文献２または非特許文献１に記載の技術では、各話者の音声の特徴を、人の声の特徴量の確率分布で表す初期の話者モデルを生成するために、同一の話者が発話していると推定される長い区間、例えば、数〜10秒間にわたる区間が参照される。すなわち、これらの技術では、会話音声を録音した音声信号において、同一の話者が長時間にわたって発話する区間が存在していることが前提となっている。しかしながら、テンポの良いおしゃべりのような、発話する話者が頻繁に交代するような会話が録音された音声信号には、同一の話者が長時間にわたって発話する区間が存在しないことがある。このような音声信号に対しては、上記の技術を適用することは困難である。

そこで本明細書は、一つの側面では、複数の話者の会話を録音した音声信号に、同一の話者が長時間にわたって発話する区間が含まれていなくても、発話した話者の識別情報を適切に付与できる話者インデキシング装置を提供することを目的とする。

一つの実施形態によれば、話者インデキシング装置が提供される。この話者インデキシング装置は、複数の話者の会話を含む音声信号から、所定の時間長を持つフレーム単位で人の声の特徴を表す複数の特徴量を抽出する特徴量抽出部と、複数の特徴量のうちの少なくとも二つの特徴量を含む第１の特徴量の組の分布を話者の数と同じ数の確率分布を含む混合分布でモデル化するモデル化部と、確率分布ごとに、その確率分布の中心から所定距離内にあるか、あるいはその確率分布の中心に近い方から順に所定数の第１の特徴量の組を選択し、選択した第１の特徴量の組に対応するフレームのそれぞれについての複数の特徴量のうちの少なくとも一つの第２の特徴量を、複数の話者のうちのその確率分布に対応する話者の第１の学習データとして選択する学習データ選択部と、複数の話者のそれぞれについて、その話者に対応する第１の学習データを用いて、その話者の声の特徴を第２の特徴量の確率分布で表す話者モデルを学習する初期話者モデル学習部と、複数の話者のそれぞれの話者モデルとフレームのそれぞれの第２の特徴量に基づいて、フレームのそれぞれに対して、そのフレームで発話した話者の識別情報を付与する話者ラベリング部とを有する。

本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。

本明細書に開示された話者インデキシング装置は、複数の話者の会話を録音した音声信号に、同一の話者が長時間にわたって発話する区間が含まれていなくても、発話した話者の識別情報を適切に付与できる。

第１の実施形態による話者インデキシング装置の概略構成図である。話者インデキシング装置が有する処理部の機能ブロック図である。マハラノビス汎距離と累積確率との関係を示す、自由度２のχ二乗分布を示す図である。確率分布の学習に用いられた特徴量の組の分布と、選択される特徴量の範囲との関係の一例を示す図である。フレームごとに付された識別情報の一例を示す図である。第１の実施形態による話者インデキシング処理の動作フローチャートである。非特許文献１に開示された従来技術及び本実施形態による、話者インデキシングの誤り率についての実験結果を示す図である。第２の実施形態による処理部の機能ブロック図である。話者数推定処理の動作フローチャートである。何れかの実施形態またはその変形例による話者インデキシング装置が実装されたサーバクライアントシステムの概略構成図である。

以下、図を参照しつつ、話者インデキシング装置について説明する。この話者インデキシング装置は、複数の話者の会話が録音された音声信号をフレーム単位で分割し、各フレームから、人の声の特徴を表す複数の特徴量を抽出する。この話者インデキシング装置は、その特徴量の分布を、話者の数と同数の混合数を持つ混合分布でモデル化する。この話者インデキシング装置は、混合分布に含まれる各確率分布の中心から所定の距離範囲内にある特徴量を選択する。そしてこの話者インデキシング装置は、確率分布ごとに、その確率分布について選択されたフレームの特徴量を用いて話者の声の特徴をその特徴量の確率分布で表す初期話者モデルを学習する。この話者インデキシング装置は、その初期話者モデルを利用して、フレームごとにそのフレームに対応する話者の識別情報の付与と話者モデルの再学習とを繰り返す。

図１は、第１の実施形態による話者インデキシング装置の概略構成図である。話者インデキシング装置１は、インターフェース部１１と、アナログ／デジタルコンバータ１２と、処理部１３と、記憶部１４とを有する。

インターフェース部１１は、音声入力部の一例であり、オーディオインターフェースを有する。そしてインターフェース部１１は、例えば、電話回線に接続された通話録音アダプタ（図示せず）から、アナログ信号であり、かつ、送話側の話者と受話側の話者との会話音声を含むモノラルの音声信号を取得する。そしてインターフェース部１１は、その音声信号をアナログ／デジタルコンバータ１２（以下、Ａ／Ｄコンバータと表記する）へ出力する。Ａ／Ｄコンバータ１２は、アナログの音声信号を所定のサンプリングレートでサンプリングすることにより、その音声信号をデジタル化する。そしてＡ／Ｄコンバータ１２は、デジタル化された音声信号を処理部１３へ出力する。

処理部１３は、例えば、一つまたは複数のプロセッサと、メモリ回路と、周辺回路とを有する。処理部１３は、話者インデキシング処理を実行することで、デジタル化された音声信号に基づいて、フレームごとに、そのフレームで発話している話者の識別情報を付与する。なお、処理部１３による話者インデキシング処理の詳細は後述する。

記憶部１４は、例えば、読み書き可能な不揮発性の半導体メモリと、読み書き可能な揮発性の半導体メモリとを有する。そして記憶部１４は、処理部１３上で実行される話者インデキシング処理で利用される各種のデータ及び話者インデキシング処理の途中で生成される各種のデータを記憶する。また記憶部１４は、処理部１３が、話者インデキシング処理を実行することにより得られる、話者の識別情報が付与された音声信号を記憶する。

以下、処理部１３による、話者インデキシング処理の詳細について説明する。なお、本実施形態では、デジタル化された音声信号に録音されている会話に参加している話者の数は二人であるとする。

図２は、処理部１３の機能ブロック図である。処理部１３は、特徴量抽出部２１と、モデル化部２２と、初期学習データ選択部２３と、初期話者モデル学習部２４と、話者ラベリング部２５と、再学習部２６と、収束判定部２７とを有する。
処理部１３が有するこれらの各部は、例えば、処理部１３が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。

特徴量抽出部２１は、デジタル化された音声信号（以下では、単に音声信号と呼ぶ）を所定長を持つフレームごとに分割し、フレームごとに、人の声の特徴を表す複数の特徴量を抽出する。本実施形態では、フレーム長は、例えば、32msecに設定される。この場合において、Ａ／Ｄコンバータ１２のサンプリングレートが8kHzであれば、1フレームあたり256個のサンプル点が含まれる。

本実施形態では、特徴量抽出部２１は、人の声の特徴を表す特徴量として、韻律を表す韻律情報である、パワーの積算値及びピッチ周波数と、話者の声道の共振特性を表すスペクトル包絡情報であるケプストラムを抽出する。

特徴量抽出部２１は、フレームごとに、例えば、次式に従ってパワーの積算値を算出する。

ここでS(n)は、フレームに含まれるn番目のサンプル点の信号である。またNは、一つのフレームに含まれるサンプル点の数である。そしてPは、対数表記されるパワーの積算値である。

また、特徴量抽出部２１は、ピッチ周波数を算出するために、各フレームについて、自己相関関数または変形自己相関関数のピーク値のうちの最大値（ただし、時間差0のピーク値を除く）を求める。人の有声音に相当するフレームについては、比較的自己相関の度合いが高いのに対し、無声音または背景雑音に相当するフレームの自己相関の度合いは低い。そこで特徴量抽出部２１は、そのピーク値の最大値を所定の閾値と比較し、最大値が所定の閾値よりも大きい場合、そのフレームには話者の有声音が含まれると判定する。そして特徴量抽出部２１は、そのピーク値の最大値に相当する時間差の逆数をピッチ周波数とする。

なお、特徴量抽出部２１は、音声信号をフレーム単位で時間周波数変換することにより得られた周波数領域のスペクトル信号に基づいて、自己相関関数及び変形自己相関関数を求めてもよい。この場合、自己相関関数は、各周波数のパワースペクトルを逆フーリエ変換することにより求められる。また、変形自己相関関数は、パワースペクトルに対して線形予測符号化フィルタを用いてフィルタリングしたものを逆フーリエ変換することにより求められる。なお、特徴量抽出部２１は、時間周波数変換として、例えば、高速フーリエ変換(Fast Fourier Transform, FFT)を用いることができる。

また、特徴量抽出部２１は、各フレームについての音声信号からケプストラムを算出する。特徴量抽出部２１は、ケプストラムとして、パワースペクトルの各周波数の値についての対数を求め、それらを逆フーリエ変換したときの、低次の値を選択するFFTケプストラム、または線形予測分析によって得られる線形予測係数から求めるLPCケプストラムを用いることができる。あるいはまた、特徴量抽出部２１は、ケプストラムとして、中心周波数をメルスケールで等間隔に配置したフィルタバンクの出力の対数に対して離散コサイン変換(Discrete Cosign Transform,DCT)することで算出されるMel Frequency Cepstral Coefficients(MFCC)を用いてもよい。なお、特徴量抽出部２１は、算出したケプストラムのうち、所定の次数（例えば、1〜12次）の係数を、特徴量とすることができる。

特徴量抽出部２１は、フレームごとのピッチ周波数、パワーの積算値及びケプストラムの組を、特徴量の組として記憶部１４に保存する。

なお、特徴量抽出部２１は、ピッチ周波数を所定値で割ることにより得られる正規化ピッチ周波数を特徴量としてもよい。同様に、特徴量抽出部２１は、パワー積算値を所定値で割ることにより得られる正規化パワー積算値を特徴量としてもよい。また、特徴量抽出部２１は、パワー積算値を、フレームに含まれる雑音成分を表す雑音判定閾値Thnと比較して、パワー積算値が雑音判定閾値Thnよりも大きいフレームについてのみ、特徴量の組を記憶部１４に保存してもよい。これにより、処理部１３は、どの話者も発声していない時のフレームから抽出された特徴量の組が、話者インデキシングに影響することを防止できる。

なお、雑音判定閾値Thnは、通話音声の背景雑音レベルに応じて適応的に設定されることが好ましい。そこで特徴量抽出部２１は、両方の話者が発声していないフレームを、背景雑音のみが含まれる無音フレームと判定する。例えば、特徴量抽出部２１は、パワースペクトルの積算値が所定のパワー閾値未満であれば、そのフレームを無音フレームと判定する。そして特徴量抽出部２１は、無音フレームのパワーの積算値に基づいて背景雑音レベルを推定する。例えば、特徴量抽出部２１は、次式に従って背景雑音レベルを推定する。

ここで、Psは、最新の無音フレームのパワーの積算値であり、noisePは、更新前の背景雑音レベルである。そしてnoiseP'は、更新後の背景雑音レベルである。この場合、雑音判定閾値Thnは、例えば、次式に従って設定される。

ここで、γは、あらかじめ設定される定数であり、例えば、3〜10[dB]に設定される。

モデル化部２２は、話者インデキシングの対象となる音声信号が終了すると、特徴量のうち、パワーの積算値とピッチ周波数の組の分布を、話者の数と同じ数の混合数を持つ、すなわち、話者の数と同じ数の確率分布を含む混合分布でモデル化する。話者ごとに、声の特徴は異なるので、同じ話者が発話したフレームから抽出された特徴量の組は、比較的類似した値を持つと推定される。したがって、確率分布ごとに、異なる話者の声の特徴を表していると考えられる。そして確率分布の中心に近い特徴量の組ほど、その確率分布に対応する話者の典型的な声の特徴を表している可能性が高いと推定される。

本実施形態では、混合分布として、ピッチ周波数とパワー積算値をそれぞれ一つの次元とする、２次元の２混合ガウス分布を用いる。２混合ガウス分布は、混合正規分布の一つであり、入力される特徴量の組のベクトルxに対する混合正規分布の尤度は次式で表される。

ここでw_i(i=1,2)は、それぞれ、ガウス分布iに対する重み係数である。またμ_iは、ガウス分布iの特徴量の組の平均値ベクトルである。そしてΣ_iは、ガウス分布iの共分散行列である。

モデル化部２２は、各フレームから得られたピッチ周波数とパワー積算値の組をそれぞれ学習サンプルとして、２混合ガウス分布に含まれる各ガウス分布を表す複数のパラメータを最尤推定する。そのために、例えば、モデル化部２２は、EMアルゴリズム（期待値最大化法とも呼ばれる）を用いる。例えば、モデル化部２２は、２混合ガウス分布に含まれるガウス分布のそれぞれについて、重み係数w_i、平均値ベクトルμ_i及び共分散行列Σ_iの最尤推定値を求める。

なお、モデル化部２２は、特徴量の分布のモデル化に用いる確率分布として、対数正規分布を用いてもよい。この場合にも、モデル化部２２は、EMアルゴリズムを用いて、混合対数正規分布に含まれる、話者の数と同じ数の対数正規分布のそれぞれについての重み係数、平均値ベクトル及び共分散行列の最尤推定値を求める。
また、モデル化部２２は、特徴量の分布をモデル化する確率分布を求めるために利用するアルゴリズムとして、EMアルゴリズムの代わりに、マルコフ連鎖モンテカルロ法またはシミュレーティッドアニーリングを利用してもよい。

モデル化部２２は、２混合ガウス分布を表す、特徴量の分布をモデル化した各確率分布の重み係数w_i、平均値ベクトルμ_i及び共分散行列Σ_iの最尤推定値を初期学習データ選択部２３へ通知する。

初期学習データ選択部２３は、学習データ選択部の一例であり、初期話者モデル学習部２４での初期話者モデルの学習に利用する初期学習データを選択する。上記のように、確率分布の中心に近い特徴量の組ほど、その確率分布に対応する話者の声の特徴を表している可能性が高いと推定される。そこで初期学習データ選択部２３は、モデル化部２２により求められた混合分布に含まれる、各確率分布の中心からのマハラノビス汎距離が所定距離以下となる特徴量の組を選択する。なお、マハラノビス汎距離は、(x-μ_i)^tΣ_i ^-1(x-μ_i)で算出される。あるいは、初期学習データ選択部２３は、各確率分布の中心に近い方から順に所定個数（例えば、100個〜300個）の特徴量の組を選択してもよい。

初期学習データ選択部２３は、確率分布ごとに、選択した特徴量の組に対応するフレームのもう一つの特徴量であるケプストラムを、その確率分布に対応する話者の初期学習データとして記憶部１４から読み出して、初期話者モデル学習部２４へ渡す。このように、初期学習データの選択のためのモデル化に用いる特徴量の組と、話者モデルの学習に利用する特徴量とを異ならせることで、より多くの特徴量を利用できるので、処理部１３は、より適切な話者モデルを求めることが可能となる。

なお、所定距離は、選択される特徴量の組が何れか一人の話者に対応する可能性が高いと推定される距離に設定される。例えば、所定距離は、確率分布の中心からの距離が近い方から順に累積確率が10%以内の特徴量の組が選択されるように設定される。ここで、ガウス分布の中心からのマハラノビス汎距離は、そのガウス分布で使用される特徴量の組に含まれる特徴量の値の数（この例では、２）と等しい自由度を持つχ二乗分布に従う。そこでこの例では、確率分布の中心からの距離が近い方から順に10%に相当するマハラノビス汎距離は、自由度２のχ二乗分布に従って求められる。

図３は、マハラノビス汎距離と累積確率との関係を示す、自由度２のχ二乗分布を示す。図３において、横軸はマハラノビス汎距離を表し、縦軸は累積確率を表す。自由度２のχ二乗分布３００は、マハラノビス汎距離と累積確率の関係を表している。したがって、このχ二乗分布３００によれば、累積確率が10%となる場合のマハラノビス汎距離は、0.2107となる。

図４は、確率分布の学習に用いられた特徴量の組の分布と、選択される特徴量の範囲との関係の一例を示す図である。図４において、横軸はパワーの積算値（縦軸とオーダーを合わせるために、パワーの積算値を10で割った値が示される）を表し、縦軸はピッチ周波数（横軸とオーダーを合わせるために、ピッチ周波数を100で割った値が示される）を表す。そして個々の点４００が、一つの特徴量の組を表す。モデル化部２２により、一方の話者に相当する確率分布４０１が求められ、他方の話者に相当する確率分布４０２が求められたとする。確率分布４０１に対する初期学習データの選択範囲４１１は、その確率分布４０１の中心に近い一部に設定される。同様に、確率分布４０２に対する初期学習データの選択範囲４１２は、その確率分布４０２の中心に近い一部に設定される。そして選択範囲４１１と選択範囲４１２とは、互いに重ならないので、選択範囲４１１に含まれる特徴量の組は、確率分布４０１に対応する話者が発話したフレームから抽出された可能性が高い。同様に、選択範囲４１２に含まれる特徴量の組は、確率分布４０２に対応する話者が発話したフレームから抽出された可能性が高い。したがって、選択範囲４１１に含まれる特徴量の組に対応するフレームのケプストラムを用いて確率分布４０１に対応する話者の初期話者モデルを学習することで、その初期話者モデルが、その話者の音声の特徴を比較的正確に表すことが期待される。同様に、選択範囲４１２に含まれる特徴量の組に対応するフレームのケプストラムを用いて確率分布４０２に対応する話者の初期話者モデルを学習することで、その初期話者モデルが、その話者の音声の特徴を比較的正確に表すことが期待される。そして初期話者モデルが正確であるほど、最終的に得られる話者モデルも正確となる可能性が高い。そのため、初期話者モデルが正確であるほど、各フレームへの話者の識別情報の付与の精度も向上する。

なお、確率分布の形状によっては、１以上の特徴量の組が、二つの確率分布のそれぞれの中心から所定距離範囲内となることがある。このような場合、同じ特徴量の組が、各確率分布について選択されることになるので、後述する初期話者モデルの精度が低下してしまうおそれがある。そこで変形例によれば、初期学習データ選択部２３は、特徴量の組を選択する基準となる、確率分布の中心からの距離を適応的に設定してもよい。例えば、初期学習データ選択部２３は、各確率分布の中心からの距離が最初に設定した所定距離以下となる特徴量の組がある場合、初期学習データ選択部２３は、両方の確率分布の中心からその特徴量の組までの距離を所定距離とする。そして初期学習データ選択部２３は、複数の確率分布について選択される特徴量の組がなくなるまで、上記の処理を行って所定距離を変更する。なお、この変形例では、確率分布ごとに、確率分布の中心からその特徴量の組までの距離が異なるので、所定距離は、確率分布ごとに設定される。すなわち、確率分布ごとに、その確率分布の中心からその特徴量の組までのマハラノビス汎距離が、所定距離となる。

初期話者モデル学習部２４は、確率分布ごとに、すなわち、話者ごとに、選択された学習データであるケプストラムを用いて初期話者モデルを学習する。初期話者モデルは、話者の声の特徴を特徴量の確率分布で表す話者モデルであり、かつ、最初に設定される話者モデルである。本実施形態では、初期話者モデル学習部２４は、初期話者モデルとして、話者ごとに、例えば、混合数8の混合ガウス分布を用いる。なお、初期話者モデルとして、他の確率モデルが利用されてもよい。そして初期話者モデル学習部２４は、話者ごとに、その話者に対応する初期学習データを用いてその混合ガウス分布に含まれる、各ガウス分布の重み係数w_i、平均値ベクトルμ_i及び共分散行列Σ_iの最尤推定値をEMアルゴリズムにより求める。そして初期話者モデル学習部２４は、話者ごとの混合ガウス分布を表すパラメータ、すなわち、各ガウス分布の重み係数w_i、平均値ベクトルμ_i及び共分散行列Σ_iの最尤推定値を記憶部１４に記憶する。

話者ラベリング部２５は、最新の話者モデルそれぞれを一つの状態と見なし、各状態間を遷移する確率“状態遷移確率”を付与して、話者数と等しい状態数のエルゴディックHMMを構築する。そして話者ラベリング部２５は、フレームごとの特徴量と構築したHMMに基づいて、フレームごとにそのフレームで発話した話者の識別情報を付与する。なお、話者ラベリング部２５は、１回目の話者識別情報の付与では、各話者の最新の話者モデルとして、初期話者モデルを利用し、２回目以降の話者識別情報の付与では、再学習部２６により更新された話者モデルを利用する。

本実施形態では、話者ラベリング部２５は、話者数と等しい状態数のエルゴディックHMMを用いて、フレームごとに何れの話者の発話かを推定する。本実施形態では、話者ラベリング部２５は、２状態のエルゴディックHMMに基づくViterbiアルゴリズムを利用する。例えば、話者ラベリング部２５は、先頭のフレームから順番に、そのフレームで得られた特徴量の一つであるケプストラムを、話者モデルに相当するHMMの各状態における混合ガウス分布に特徴量ベクトルxとして入力することで、状態ごとに、そのフレームにおいてその状態に対応する話者が発話した確率（特徴量ベクトルxの出力確率）を求める。そして話者ラベリング部２５は、遷移元である前のフレームの状態から遷移先である現在の状態へ遷移する確率（状態遷移確率）を対数化した値と、その求めた現在の状態における特徴ベクトルxの出力確率を対数化した値と、遷移元の状態における累積対数尤度の合計が高い方の状態遷移を選んでいくDynamic Programing(DP)演算を最終フレームまで進める。そして話者ラベリング部２５は、最終フレームにおける累積対数尤度が高い方の状態を選び、その状態に到達するまでの状態遷移の履歴(DPパス)をバックトラックすることにより求め、その話者識別結果に相当する状態遷移の履歴を用いて話者の識別情報をフレームごとに付与する。なお、特徴量が抽出されていないフレームについては、上記の処理はスキップされてもよい。そして話者ラベリング部２５は、各フレームの話者の識別情報を記憶部１４に記憶する。

図５は、フレームごとに付された識別情報の一例を示す図である。図５において、横軸は時間を表す。また記号「Ａ」及び「Ｂ」は、それぞれ、話者の識別情報である。音声信号５００に対して、話者Ａが発話していると推定されるフレームに記号Ａが付され、話者Ｂが発話していると推定されるフレームに記号Ｂが付されている。

再学習部２６は、話者ごとに、その話者の識別情報が付された各フレームについての特徴量（本実施形態では、ケプストラム）を学習データとして、その話者に対応する話者モデルを再度学習することで、話者モデルを更新する。なお、再学習部２６により用いられる学習アルゴリズムも、初期話者モデル学習部２４で用いられる学習アルゴリズムと同様に、EMアルゴリズムとすることができる。また、再学習される話者モデルも、例えば、初期話者モデルと同様に、混合数8の混合ガウス分布で表される。そして再学習部２６は、話者ごとの混合ガウス分布を表すパラメータ、すなわち、各ガウス分布の重み係数w_i、平均値ベクトルμ_i及び共分散行列Σ_iの最尤推定値を記憶部１４に記憶する。更新された話者モデルは、話者モデルの学習が収束していなければ、再度、話者ラベリング部２５による、各フレームへの話者の識別情報の付与に利用される。

収束判定部２７は、話者モデルの学習が収束したか否か判定する。本実施形態では、収束判定部２７は、最新の話者モデルに基づいて各フレームに付された話者の識別情報と、一つ前の話者モデルに基づいて各フレーム付された話者の識別情報とが異なるフレーム数を所定の閾値と比較する。そしてその異なるフレーム数が所定の閾値以下となる場合、収束判定部２７は、話者モデルの学習は収束したと判定する。所定の閾値は、例えば、音声信号に含まれるフレームの総数の0.01%〜1%の値、あるいは、1〜10といった固定値に設定される。

あるいは、収束判定部２７は、再学習部２６による、話者モデルの学習回数が所定回数に達した場合に、話者モデルの学習が収束したと判定してもよい。この場合、所定回数は、例えば、100回に設定される。あるいはまた、収束判定部２７は、最新の話者モデルと一つ前の話者モデル間での識別情報が異なるフレーム数が所定の閾値以下となるか、話者モデルの学習回数が所定回数に達するか、いずれか早い方が満たされたときに学習が収束したと判定してもよい。

収束判定部２７が、学習が終了したときの最新の話者モデルに基づいて各フレームに付された話者の識別情報が、最終的に得られた話者インデキシングの結果となる。処理部１３は、話者インデキシングの結果を利用して、音声信号から、その音声信号に録音された会話に参加している何れかの話者の心理状態を推定してもよい。この場合、フレームごとに、発話している話者が示されているので、処理部１３は、特定の一人の話者が発声した音声が含まれる音声信号を分析してその話者の心理状態を推定する様々な技術を利用できる。

図６は、本実施形態による、話者インデキシング処理の動作フローチャートである。
特徴量抽出部２１は、複数の話者の会話音声が含まれる音声信号をフレーム単位に分割し、フレームごとに、話者の声の特徴を表す特徴量を抽出する（ステップＳ１０１）。本実施形態では、特徴量として、パワー積算値、ピッチ周波数及びケプストラムが抽出される。そして特徴量抽出部２１は、各フレームの特徴量の組を記憶部１４に記憶する。

各フレームから特徴量が得られると、モデル化部２２は、各フレームの特徴量の組のうち、パワー積算値とピッチ周波数の組の分布を、話者数と同数の確率分布を持つ混合分布でモデル化する（ステップＳ１０２）。初期学習データ選択部２３は、混合分布に含まれる、確率分布ごとに、その確率分布の中心からのマハラノビス汎距離が所定距離以下となる特徴量の組を一人の話者の特徴量の組として選択する。そして初期学習データ選択部２３は、選択した組に対応するフレームのケプストラムを初期学習データとして記憶部１４から読み出して、初期話者モデル学習部２４へ渡す（ステップＳ１０３）。

初期話者モデル学習部２４は、話者ごとに、その話者について選択されたフレームの初期学習データを利用して、初期話者モデルを学習する（ステップＳ１０４）。そして初期話者モデル学習部２４は、各話者の初期話者モデルを表すパラメータを記憶部１４に記憶する。

話者ラベリング部２５は、フレームごとの特徴量（ケプストラム）と各話者の最新の話者モデルに基づいて、フレームごとにそのフレームで発話した話者の識別情報を付与する（ステップＳ１０５）。話者ラベリング部２５は、各フレームの話者の識別情報を記憶部１４に記憶する。そして再学習部２６は、話者ごとに、その話者の識別情報が付された各フレームについての特徴量（ケプストラム）を学習データとして、その話者に対応する話者モデルを再学習することで、話者モデルを更新する（ステップＳ１０６）。そして再学習部２６は、各話者の話者モデルを表すパラメータを記憶部１４に記憶する。

収束判定部２７は、各話者の話者モデルについての学習が収束したか否か判定する（ステップＳ１０７）。学習が収束していない場合（ステップＳ１０７−Ｎｏ）、処理部１３は、ステップＳ１０５以降の処理を繰り返す。
一方、学習が収束した場合（ステップＳ１０７−Ｙｅｓ）、処理部１３は、最新の話者モデルに基づいて各フレームに付された話者の識別情報を、最終的に得られた結果とし、話者インデキシング処理を終了する。

図７は、非特許文献１に開示された従来技術及び本実施形態による、話者インデキシングの誤り率についての実験結果を示す図である。この実験での分析対象となる会話データは同一話者が連続して長く発声していないため、従来技術については、各話者の発声区間がのべ10秒になるように、発話している区間を手動で初期話者モデル学習用データ区間として与えた。一方、本実施形態では、全体で約10秒間の初期話者モデル学習用データ区間を初期話者モデル選択部で行われる処理に基づき自動的に選択した。
図７において、縦軸は誤り率を表す。グラフ７０１は、従来技術による誤り率を表し、グラフ７０２は、本実施形態による誤り率を表す。なお、誤り率は、いずれかの話者が発話しているフレーム数で、話者を誤判別したフレーム数を除した数に100を乗じた値である。なお、２名が同時に発話したフレームは含まれていない。グラフ７０１及び７０２に示されるように、従来技術では、誤り率は約8%となり、一方、本実施形態では、誤り率は約6%となった。このように、本実施形態による話者インデキシング装置は、各話者が連続して発話している長い区間が音声信号に含まれなくても、手動で初期話者モデル学習用データを与えた従来技術と同等の精度で各フレームに話者の識別情報を付与できることが示された。

以上に説明してきたように、この話者インデキシング装置は、フレームごとに抽出した特徴量の組の分布を話者数と同じ確率分布を持つ混合分布でモデル化する。この話者インデキシング装置は、確率分布ごとに、その確率分布の中心から所定距離以内の特徴量の組を、その確率分布に対応する話者の声を表す可能性が高いものとして選択する。そしてこの話者インデキシング装置は、選択した特徴量の組に対応するフレームから抽出された何れかの特徴量を初期話者モデルの学習に利用する。そのため、この話者インデキシング装置は、話者ごとの比較的長い発話区間が含まれない音声信号についても、適切な初期話者モデルを生成できる。その結果として、この話者インデキシング装置は、フレームごとに、精度良く話者の識別情報を付与することができる。

なお、変形例によれば、モデル化部２２は、パワーの積算値とピッチ周波数の組の代わりに他の特徴量の組の分布を混合分布でモデル化してもよい。例えば、モデル化部２２は、パワーの積算値とケプストラムノルムの組の分布を混合分布でモデル化してもよい。また、モデル化部２２で用いられる特徴量の組に、初期話者モデル学習部２４、話者ラベリング部２５及び再学習部２６で用いられる特徴量が含まれていてもよい。例えば、モデル化部２２で用いられる特徴量の組がパワーの積算値とピッチ周波数の組であり、初期話者モデル学習部２４、話者ラベリング部２５及び再学習部２６で用いられる特徴量も、パワーの積算値とピッチ周波数の組であってもよい。

さらに、音声信号に録音された会話に参加している話者の数が３人である場合、特徴量の組の分布を話者ごとの確率分布でモデル化できるようにするために、モデル化部２２は、３種類の特徴量の組の分布を混合分布でモデル化してもよい。この場合、モデル化部２２は、特徴量の組を、パワー積算値と、ピッチ周波数と、ケプストラムノルムの組とすることができる。

ケプストラムノルムは、次式に従って算出される。

ここで、norm_tは、フレームtのケプストラムノルムを表し、Cep_t(i)は、フレームtのi次のケプストラム係数を表す。

この場合には、初期学習データ選択部２３は、特徴量の組が３種類の特徴量を含んでおり、値が３個あるので、自由度３のχ二乗分布に従って、累積確率が所定値となるマハラノビス汎距離を求めればよい。例えば、所定値が10%である場合、マハラノビス汎距離は0.5844となる。そして初期学習データ選択部２３は、混合分布に含まれる確率分布ごとに、その確率分布の中心からマハラノビス汎距離が0.5844以下となる特徴量の組を選択すればよい。

この例では、話者の数が３人なので、話者ラベリング部２５は、状態数3のHMMに基づくViterbiアルゴリズムを用いてフレームごとにそのフレームで発話した話者の識別情報を付与する。

次に、第２の実施形態による話者インデキシング装置について説明する。第２の実施形態による話者インデキシング装置は、話者の数が不明な音声信号から話者数を推定し、推定した話者数に基づいて、その音声信号の各フレームに話者の識別情報を付与する。

図８は、第２の実施形態による話者インデキシング装置の処理部３３の機能ブロック図である。処理部３３は、特徴量抽出部２１と、モデル化部２２と、初期学習データ選択部２３と、初期話者モデル学習部２４と、話者ラベリング部２５と、再学習部２６と、収束判定部２７と、適合度算出部２８と、話者数推定部２９とを有する。第２の実施形態による処理部３３は、第１の実施形態による処理部１３と比較して、適合度算出部２８及び話者数推定部２９を有する点と、その他の構成要素において話者数に関連する部分の処理が異なる。そこで以下では、適合度算出部２８及び話者数推定部２９と、その他の構成要素において話者数に関連する部分の処理について説明する。第２の実施形態による話者インデキシング装置のその他の構成要素については、第１の実施形態による話者インデキシング装置の対応する構成要素の説明を参照されたい。

モデル化部２２は、最初に、混合数が2の混合分布で各フレームから抽出された特徴量の組の分布をモデル化する。そしてモデル化部２２は、話者数推定部２９から混合数を1増やす指示を受ける度に、混合数を1追加した混合分布で各フレームから抽出された特徴量の組の分布をモデル化する。モデル化部２２は、各フレームから抽出された特徴量の組の分布をモデル化する度に、そのモデル化に利用した混合分布を表すパラメータ（すなわち、各確率分布の重み係数w_i、平均値ベクトルμ_i及び共分散行列Σ_iの最尤推定値）を記憶部１４に記憶する。

適合度算出部２８は、特徴量の組の分布をモデル化した混合分布が、その特徴量の組の分布に適合している度合いを表す適合度を算出する。

本実施形態では、適合度算出部２８は、適合度として赤池情報量基準(Akaike's Information Criterion, AIC)の値を算出する。なお、AICの値は次式により算出される。

ここでLは、最大尤度（例えば、EMアルゴリズムを用いて特徴量のサンプルを確率分布でモデル化した後の、モデル化に使用した特徴量のサンプルに対する尤度）である。kはモデルの自由パラメータ数であり、混合分布に含まれる確率分布の数が増えるほど大きな値になる。例えば、混合分布として混合ガウス分布または混合対数正規分布を利用する場合、一つの確率分布を規定するために、重み係数、平均値ベクトル及び共分散行列というパラメータが必要となる。そのため、確率分布が一つ増える度に、それらのパラメータの数だけkは大きくなる。

なお、適合度算出部２８は、AICを算出する代わりに、ベイジアン情報量基準(Bayesian information criteria, BIC)を適合度として算出してもよい。なお、BICの値は次式により算出される。

ここでLは、最大尤度（（６）式と同様に、EMアルゴリズムを用いて特徴量のサンプルを確率分布でモデル化した後の、モデル化に使用した特徴量のサンプルに対する尤度）であり、kは自由パラメータ数である。またmは、標本の大きさ、すなわち、学習サンプルとして利用する特徴量の組の数(フレーム数)を表す。

適合度算出部２８は、適合度を、対応する話者数と対応付けて記憶部１４に記憶する。

話者数推定部２９は、適合度に基づいて、話者数を推定する。本実施形態では、AICまたはBICが適合度として算出されているので、適合度が最小となる混合数を持つ混合分布が、最も特徴量の組の分布をモデル化できている。そこで話者数推定部２９は、適合度が最小となるときの混合数を話者数と推定する。

例えば、話者数推定部２９は、特徴量の組のモデル化に利用した混合分布の混合数を増やす前の適合度と、その混合分布の混合数を増やした後の適合度とを比較する。そして話者数推定部２９は、混合数を増やす前の適合度の方が大きい場合には、混合数を一つ増やすと判定して、その旨をモデル化部２２へ通知する。

一方、混合数を増やした後の適合度が混合数を増やす前の適合度以上となる場合には、話者数推定部２９は、増やす前の混合数を、音声信号に含まれる会話音声に参加している話者の数と推定する。そして話者数推定部２９は、推定した話者の数を、初期学習データ選択部２３、初期話者モデル学習部２４、話者ラベリング部２５及び再学習部２６へ通知する。

初期学習データ選択部２３は、推定された話者の数と等しい混合数を持つ混合分布を表すパラメータを記憶部１４から読み込む。そして初期学習データ選択部２３は、その混合分布に含まれる確率分布のそれぞれについて、その確率分布の中心から所定距離以内にある特徴量の組を選択し、選択した特徴量の組に対応するフレームの特徴量を、初期話者モデル学習部２４へ渡す。

初期話者モデル学習部２４は、確率分布ごとに選択されたフレームの特徴量を用いて、推定された話者の数の初期話者モデルを学習する。なお、この実施形態でも、初期話者モデル学習部２４は、例えば、EMアルゴリズムを用いて初期話者モデルを学習できる。またこの実施形態でも、各話者の初期話者モデルは、例えば、混合数8の混合分布で表される。

話者ラベリング部２５は、各話者の最新の話者モデルに基づいて、推定された話者数と同じ数の状態数を持つHMMに基づくViterbiアルゴリズムを用いてフレームごとにそのフレームで発話した話者の識別情報を付与する。

再学習部２６は、推定された話者の数の話者ごとに、その話者に対応するフレームの特徴量を用いて話者モデルを再学習する。この実施形態でも、再学習部２６は、EMアルゴリズムを用いて話者モデルを学習できる。

図９は、話者数推定処理の動作フローチャートである。処理部３３は、第１の実施形態による話者インデキシング処理の動作フローチャートにおけるステップＳ１０２の処理の代わりに、この動作フローチャートに従って話者数推定処理を実行する。

音声信号中の各フレームからの特徴量の組の抽出が終わると、モデル化部２２は、特徴量の組の分布に利用する混合分布の混合数Nを2に設定する（ステップＳ２０１）。そしてモデル化部２２は、各フレームの特徴量の組の分布を、混合数Nの混合分布でモデル化する（ステップＳ２０２）。

適合度算出部２８は、混合数Nの混合分布に対して適合度G(N)を算出する（ステップＳ２０３）。そして話者数推定部２９は、適合度G(N)が、混合数(N-1)の混合分布について算出された適合度G(N-1)以上か否か判定する（ステップＳ２０４）。ただし、N=2の場合には、N=1の場合の適合度は算出されていないので、話者数推定部２９は、G(N)は(G(N-1)よりも小さいとみなす。

G(N)が(G(N-1)よりも小さい場合（ステップＳ２０４−Ｎｏ）、話者数推定部２９は、モデル化部２２に混合数Nを1増やすことを指示する（ステップＳ２０５）。そして処理部３３は、ステップＳ２０２以降の処理を繰り返す。一方、G(N)がG(N-1)以上である場合（ステップＳ２０４−Ｙｅｓ）、話者数推定部２９は、音声信号に録音されている会話に参加している話者数を(N-1)と推定する（ステップＳ２０６）。
その後、処理部３３は、ステップＳ１０３以降の処理を実行する。

この実施形態によれば、話者インデキシング装置は、音声信号に録音された会話に参加している話者の数が予め分かっていない場合でも、音声信号の各フレームに適切に話者の識別情報を付与できる。

なお、変形例によれば、話者数推定部２９は、話者数を推定する他の方法を利用して、会話に参加している話者の数を推定してもよい。例えば、話者数推定部２９は、Daben Liu他、「ONLINE SPEAKER CLUSTERING」、in Proceedings of ICASSP2004、vol. I、pp.333-336、2004年に開示されているように、各フレームから抽出された特徴量の組を、遺伝的アルゴリズムなどを利用してクラスタリングする。そして話者数推定部２９は、得られたクラスタの数を話者の数としてもよい。この場合、モデル化部２２は、話者数推定部２９で推定された話者数と等しい混合数を持つ確率分布で、各フレームから抽出された特徴量の組の分布をモデル化すればよい。またこの変形例では、適合度は算出されないので、適合度算出部２８は省略されてもよい。

また上記の各実施形態または変形例による話者インデキシング装置は、サーバクライアント型のシステムに実装されてもよい。
図１０は、上記の何れかの実施形態またはその変形例による話者インデキシング装置が実装されたサーバクライアントシステムの概略構成図である。
サーバクライアントシステム１００は、端末１１０とサーバ１２０とを有し、端末１１０とサーバ１２０とは、通信ネットワーク１３０を介して互いに通信可能となっている。なお、サーバクライアントシステム１００が有する端末１１０は複数存在してもよい。同様に、サーバクライアントシステム１００が有するサーバ１２０は複数存在してもよい。

端末１１０は、音声入力部１１１と、記憶部１１２と、通信部１１３と、制御部１１４とを有する。音声入力部１１１、記憶部１１２及び通信部１１３は、例えば、制御部１１４とバスを介して接続されている。

音声入力部１１１は、例えば、オーディオインターフェースとＡ／Ｄコンバータを有する。そして音声入力部１１１は、例えば、電話回線から、会話を含む、アナログ信号である音声信号を取得し、その音声信号を所定のサンプリングレートでサンプリングすることにより、その音声信号をデジタル化する。そして音声入力部１１１は、デジタル化された音声信号を制御部１１４へ出力する。

記憶部１１２は、例えば、不揮発性の半導体メモリ及び揮発性の半導体メモリを有する。そして記憶部１１２は、端末１１０を制御するためのコンピュータプログラム、端末１１０の識別情報、話者インデキシング処理で利用される各種のデータ及びコンピュータプログラムなどを記憶する。

通信部１１３は、端末１１０を通信ネットワーク１３０に接続するためのインターフェース回路を有する。そして通信部１１３は、制御部１１４から受け取った特徴量の組を、端末１１０の識別情報とともに通信ネットワーク１３０を介してサーバ１２０へ送信する。

制御部１１４は、一つまたは複数のプロセッサとその周辺回路を有する。そして制御部１１４は、上記の各実施形態または変形例による処理部の各機能のうち、特徴量抽出部２１の機能を実現する。すなわち、制御部１１４は、音声信号をフレーム単位に分割し、各フレームから人の声の特徴を表す２種類以上の特徴量を抽出する。そして制御部１１４は、フレームごとの特徴量の組を、端末１１０の識別情報とともに、通信部１１３及び通信ネットワーク１３０を介してサーバ１２０へ送信する。

サーバ１２０は、通信部１２１と、記憶部１２２と、処理部１２３とを有する。通信部１２１及び記憶部１２２は、処理部１２３とバスを介して接続されている。

通信部１２１は、サーバ１２０を通信ネットワーク１３０に接続するためのインターフェース回路を有する。そして通信部１２１は、フレームごとの特徴量の組と端末１１０の識別情報とを端末１１０から通信ネットワーク１３０を介して受信して処理部１２３に渡す。

記憶部１２２は、例えば、不揮発性の半導体メモリ及び揮発性の半導体メモリを有する。そして記憶部１２２は、サーバ１２０を制御するためのコンピュータプログラムなどを記憶する。また記憶部１２２は、話者インデキシング処理を実行するためのコンピュータプログラム及び各端末から受信したフレームごとの特徴量の組を記憶していてもよい。

処理部１２３は、一つまたは複数のプロセッサとその周辺回路を有する。そして処理部１２３は、上記の各実施形態または変形例による話者インデキシング装置の処理部の各機能のうち、特徴量抽出部２１以外の各部の機能を実現する。すなわち、処理部１２３は、端末１１０から受信した、フレームごとの特徴量の組から、各フレームに話者の識別情報を付与する。そして処理部１２３は、例えば、フレームごとに付された話者の識別情報を利用して、特定の話者が発話したフレームを抽出する。そして処理部１２３は、その話者の心理状態を、抽出したフレームから、音声信号から話者の心理状態を推定する方法に基づいてその特定の話者の心理状態を推定してもよい。処理部１２３は、例えば、特定の話者の心理状態が異常である場合、振り込め詐欺誘引通話などの異常会話が行われていると判定し、端末１１０の識別情報とともに異常会話が行われていることを、通信部１２１を介して警備システム（図示せず）へ通報してもよい。これにより、警備システムの運用者は、端末１１０のユーザをサポートすることができる。

この実施形態によれば、個々の端末１１０は、会話を録音した音声信号からフレームごとの特徴量の組を抽出してサーバ１２０へ送信するだけでよい。
なお、端末１１０は、音声信号そのものをサーバ１２０へ送信してもよい。この場合には、サーバ１２０の処理部１２３が、上記の各実施形態または変形例による話者インデキシング装置の処理部の各機能を実現する。

上記の各実施形態または変形例による話者インデキシング装置の処理部が有する各機能をコンピュータに実現させるコンピュータプログラムは、磁気記録媒体または光記録媒体といったコンピュータによって読み取り可能な媒体に記録された形で提供されてもよい。

ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。

以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
（付記１）
複数の話者の会話を含む音声信号から、所定の時間長を持つフレーム単位で人の声の特徴を表す複数の特徴量を抽出する特徴量抽出部と、
前記複数の特徴量のうちの少なくとも二つの特徴量を含む第１の特徴量の組の分布を前記話者の数と同じ数の確率分布を含む混合分布でモデル化するモデル化部と、
前記確率分布ごとに、当該確率分布の中心から所定距離内にあるか、あるいは当該確率分布の中心に近い方から順に所定数の前記第１の特徴量の組を選択し、選択した前記第１の特徴量の組に対応する前記フレームのそれぞれについての前記複数の特徴量のうちの少なくとも一つの第２の特徴量を、前記複数の話者のうちの当該確率分布に対応する話者の第１の学習データとして選択する学習データ選択部と、
前記複数の話者のそれぞれについて、当該話者に対応する前記第１の学習データを用いて、当該話者の声の特徴を前記第２の特徴量の確率分布で表す話者モデルを学習する初期話者モデル学習部と、
前記複数の話者のそれぞれの前記話者モデルと前記フレームのそれぞれの前記第２の特徴量に基づいて前記フレームのそれぞれに対して、当該フレームで発話した話者の識別情報を付与する話者ラベリング部と、
を有する話者インデキシング装置。
（付記２）
前記複数の話者のそれぞれごとに、当該話者の前記識別情報が付与された前記フレームのそれぞれの前記第２の特徴量を第２の学習データとして前記話者モデルを学習して前記話者モデルを更新する再学習部と、
前記話者モデルの学習が収束したか否かを判定し、当該学習が収束していない場合、前記話者ラベリング部に、前記更新された前記話者モデルと前記フレームのそれぞれの前記第２の特徴量に基づいて前記フレームのそれぞれに対して前記識別情報を付与させ、かつ、前記再学習部に前記話者モデルを更新させる収束判定部とをさらに有する、付記１に記載の話者インデキシング装置。
（付記３）
前記学習データ選択部は、何れかの前記第１の特徴量の組が、２個以上の前記確率分布のそれぞれの中心から前記所定距離以内にある場合、前記２個以上の前記確率分布についての前記所定距離を、前記２個以上の前記確率分布のそれぞれの中心から当該第１の特徴量の組までの距離に変更し、前記２個以上の前記確率分布のそれぞれについて、当該確率分布の中心から変更後の前記所定距離範囲内にある前記第１の特徴量の組を選択する、付記１または２に記載の話者インデキシング装置。
（付記４）
前記所定距離は、前記第１の特徴量の組に含まれる前記特徴量の値の数と同数の自由度を持つχ二乗分布において所定の累積確率に対応するマハラノビス汎距離に設定される、付記１〜３の何れかに記載の話者インデキシング装置。
（付記５）
前記第１の特徴量の組の分布に基づいて前記話者の数を推定する話者数推定部をさらに有する、付記１〜４の何れかに記載の話者インデキシング装置。
（付記６）
前記第１の特徴量の組は、前記フレームごとの前記音声信号のパワー積算値とピッチ周波数とを含み、前記第２の特徴量は、前記フレームごとの前記音声信号のケプストラムを含む、付記１〜５の何れかに記載の話者インデキシング装置。
（付記７）
複数の話者の会話を含む音声信号から、所定の時間長を持つフレーム単位で人の声の特徴を表す複数の特徴量を抽出し、
前記複数の特徴量のうちの少なくとも二つの特徴量を含む第１の特徴量の組の分布を前記話者の数と同じ数の確率分布を含む混合分布でモデル化し、
前記確率分布ごとに、当該確率分布の中心から所定距離内にあるか、あるいは当該確率分布の中心に近い方から順に所定数の前記第１の特徴量の組を選択し、選択した前記第１の特徴量の組に対応する前記フレームのそれぞれについての前記複数の特徴量のうちの少なくとも一つの第２の特徴量を、前記複数の話者のうちの当該確率分布に対応する話者の第１の学習データとして選択し、
前記複数の話者のそれぞれについて、当該話者に対応する前記第１の学習データを用いて、当該話者の声の特徴を前記第２の特徴量の確率分布で表す話者モデルを学習し、
前記複数の話者のそれぞれの前記話者モデルと前記フレームのそれぞれの前記第２の特徴量に基づいて前記フレームのそれぞれに対して、当該フレームで発話した話者の識別情報を付与する、
ことを含む話者インデキシング方法。
（付記８）
複数の話者の会話を含む音声信号から、所定の時間長を持つフレーム単位で人の声の特徴を表す複数の特徴量を抽出し、
前記複数の特徴量のうちの少なくとも二つの特徴量を含む第１の特徴量の組の分布を前記話者の数と同じ数の確率分布を含む混合分布でモデル化し、
前記確率分布ごとに、当該確率分布の中心から所定距離内にあるか、あるいは当該確率分布の中心に近い方から順に所定数の前記第１の特徴量の組を選択し、選択した前記第１の特徴量の組に対応する前記フレームのそれぞれについての前記複数の特徴量のうちの少なくとも一つの第２の特徴量を、前記複数の話者のうちの当該確率分布に対応する話者の第１の学習データとして選択し、
前記複数の話者のそれぞれについて、当該話者に対応する前記第１の学習データを用いて、当該話者の声の特徴を前記第２の特徴量の確率分布で表す話者モデルを学習し、
前記複数の話者のそれぞれの前記話者モデルと前記フレームのそれぞれの前記第２の特徴量に基づいて前記フレームのそれぞれに対して、当該フレームで発話した話者の識別情報を付与する、
ことをコンピュータに実行させるための話者インデキシング用コンピュータプログラム。

１話者インデキシング装置
１１インターフェース部
１２Ａ／Ｄコンバータ
１３、３３処理部
１４記憶部
２１特徴量抽出部
２２モデル化部
２３初期学習データ選択部
２４初期話者モデル学習部
２５話者ラベリング部
２６再学習部
２７収束判定部
２８適合度算出部
２９話者数推定部
１００サーバクライアントシステム
１１０端末
１１１音声入力部
１１２記憶部
１１３通信部
１１４制御部
１２０サーバ
１２１通信部
１２２記憶部
１２３処理部
１３０通信ネットワーク

Claims

複数の話者の会話を含む音声信号から、所定の時間長を持つフレーム単位で人の声の特徴を表す複数の特徴量を抽出する特徴量抽出部と、
前記複数の特徴量のうちの少なくとも二つの特徴量を含む第１の特徴量の組の分布を前記話者の数と同じ数の確率分布を含む混合分布でモデル化するモデル化部と、
前記確率分布ごとに、当該確率分布の中心から所定距離内にあるか、あるいは当該確率分布の中心に近い方から順に所定数の前記第１の特徴量の組を選択し、選択した前記第１の特徴量の組に対応する前記フレームのそれぞれについての前記複数の特徴量のうちの少なくとも一つの第２の特徴量を、前記複数の話者のうちの当該確率分布に対応する話者の第１の学習データとして選択する学習データ選択部であって、前記第１の特徴量の組は前記少なくとも一つの第２の特徴量を含んでもよい学習データ選択部と、
前記複数の話者のそれぞれについて、当該話者に対応する前記第１の学習データを用いて、当該話者の声の特徴を前記第２の特徴量の確率分布で表す話者モデルを学習する初期話者モデル学習部と、
前記複数の話者のそれぞれの前記話者モデルと前記フレームのそれぞれの前記第２の特徴量に基づいて前記フレームのそれぞれに対して、当該フレームで発話した話者の識別情報を付与する話者ラベリング部と、
を有する話者インデキシング装置。
前記学習データ選択部は、何れかの前記第１の特徴量の組が、２個以上の前記確率分布のそれぞれの中心から前記所定距離以内にある場合、前記２個以上の前記確率分布についての前記所定距離を、前記２個以上の前記確率分布のそれぞれの中心から当該第１の特徴量の組までの距離に変更し、前記２個以上の前記確率分布のそれぞれについて、当該確率分布の中心から変更後の前記所定距離範囲内にある前記第１の特徴量の組を選択する、請求項１に記載の話者インデキシング装置。
前記所定距離は、前記第１の特徴量の組に含まれる前記特徴量の値の数と同数の自由度を持つχ二乗分布において所定の累積確率に対応するマハラノビス汎距離に設定される、請求項１または２に記載の話者インデキシング装置。
前記第１の特徴量の組の分布に基づいて前記話者の数を推定する話者数推定部をさらに有する、請求項１〜３の何れか一項に記載の話者インデキシング装置。
複数の話者の会話を含む音声信号から、所定の時間長を持つフレーム単位で人の声の特徴を表す複数の特徴量を抽出し、
前記複数の特徴量のうちの少なくとも二つの特徴量を含む第１の特徴量の組の分布を前記話者の数と同じ数の確率分布を含む混合分布でモデル化し、
前記確率分布ごとに、当該確率分布の中心から所定距離内にあるか、あるいは当該確率分布の中心に近い方から順に所定数の前記第１の特徴量の組を選択し、選択した前記第１の特徴量の組に対応する前記フレームのそれぞれについての前記複数の特徴量のうちの少なくとも一つの第２の特徴量を、前記複数の話者のうちの当該確率分布に対応する話者の第１の学習データとして選択し、前記第１の特徴量の組は前記少なくとも一つの第２の特徴量を含んでもよく、
前記複数の話者のそれぞれについて、当該話者に対応する前記第１の学習データを用いて、当該話者の声の特徴を前記第２の特徴量の確率分布で表す話者モデルを学習し、
前記複数の話者のそれぞれの前記話者モデルと前記フレームのそれぞれの前記第２の特徴量に基づいて前記フレームのそれぞれに対して、当該フレームで発話した話者の識別情報を付与する、
ことを含む話者インデキシング方法。
複数の話者の会話を含む音声信号から、所定の時間長を持つフレーム単位で人の声の特徴を表す複数の特徴量を抽出し、
前記複数の特徴量のうちの少なくとも二つの特徴量を含む第１の特徴量の組の分布を前記話者の数と同じ数の確率分布を含む混合分布でモデル化し、
前記確率分布ごとに、当該確率分布の中心から所定距離内にあるか、あるいは当該確率分布の中心に近い方から順に所定数の前記第１の特徴量の組を選択し、選択した前記第１の特徴量の組に対応する前記フレームのそれぞれについての前記複数の特徴量のうちの少なくとも一つの第２の特徴量を、前記複数の話者のうちの当該確率分布に対応する話者の第１の学習データとして選択し、前記第１の特徴量の組は前記少なくとも一つの第２の特徴量を含んでもよく、
前記複数の話者のそれぞれについて、当該話者に対応する前記第１の学習データを用いて、当該話者の声の特徴を前記第２の特徴量の確率分布で表す話者モデルを学習し、
前記複数の話者のそれぞれの前記話者モデルと前記フレームのそれぞれの前記第２の特徴量に基づいて前記フレームのそれぞれに対して、当該フレームで発話した話者の識別情報を付与する、
ことをコンピュータに実行させるための話者インデキシング用コンピュータプログラム。