JP6350148B2 - 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム - Google Patents

話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム Download PDF

Info

Publication number
JP6350148B2
JP6350148B2 JP2014183652A JP2014183652A JP6350148B2 JP 6350148 B2 JP6350148 B2 JP 6350148B2 JP 2014183652 A JP2014183652 A JP 2014183652A JP 2014183652 A JP2014183652 A JP 2014183652A JP 6350148 B2 JP6350148 B2 JP 6350148B2
Authority
JP
Japan
Prior art keywords
speaker
feature
speakers
distribution
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014183652A
Other languages
English (en)
Other versions
JP2016057461A (ja
Inventor
昭二 早川
昭二 早川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2014183652A priority Critical patent/JP6350148B2/ja
Priority to US14/825,653 priority patent/US9536525B2/en
Publication of JP2016057461A publication Critical patent/JP2016057461A/ja
Application granted granted Critical
Publication of JP6350148B2 publication Critical patent/JP6350148B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)

Description

本発明は、例えば、複数の話者の会話を録音した音声信号において発話した話者の識別情報を付与する話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラムに関する。
近年、電話回線を用いて行われる、金銭を騙し取ることを目的とした詐欺行為及び悪質な勧誘行為が社会的な問題となっている。そこで、電話回線を介した通話中の音声など、会話音声を分析して、話者の心理状態を推定する技術が提案されている(例えば、特許文献1を参照)。
このような技術では、心理状態の分析対象となる話者1名が発声した音声が含まれる音声信号を分析することが前提となっている。しかしながら、会話音声が録音された音声信号には、2名以上の話者の音声が含まれる。そこで、会話音声が録音された音声信号に基づいて、特定の話者の心理状態を精度良く推定するためには、その音声信号に含まれる、心理状態の推定対象となる話者の発話区間を特定することが求められる。そこで、複数の話者の音声が含まれるモノラルの音声信号において、各話者が発話した区間にその話者の識別情報を付与できる話者インデキシング技術が提案されている(例えば、特許文献2及び非特許文献1を参照)。
例えば、特許文献2に開示されたインデキシング装置は、所定時間毎の音声特徴量から生成した音響モデル同士の類似度のうち、その類似度が所定値以上となる領域の音声特徴量から音響モデルを生成する。そしてこのインデキシング装置は、この領域の音響モデルと音声特徴量とを用いて導出された第2区間毎の音声信号を特徴づける特徴ベクトルを話者毎に分類する。
また、非特許文献1に開示された話者ダイアリゼーションシステムは、最初に、音声信号に含まれる全ての発話区間に対して1状態の隠れマルコフモデル(Hidden Markov Model, HMM)を用いて混合ガウスモデルを学習する。そしてこのシステムは、同一の話者が発話している可能性が有る発話区間の特徴量を用いて学習した状態をHMMに追加して、発話区間に対する話者のラベリングと再学習を繰り返す。
特開2011−242755号公報 特開2008−175955号公報
特許文献2または非特許文献1に記載の技術では、各話者の音声の特徴を、人の声の特徴量の確率分布で表す初期の話者モデルを生成するために、同一の話者が発話していると推定される長い区間、例えば、数〜10秒間にわたる区間が参照される。すなわち、これらの技術では、会話音声を録音した音声信号において、同一の話者が長時間にわたって発話する区間が存在していることが前提となっている。しかしながら、テンポの良いおしゃべりのような、発話する話者が頻繁に交代するような会話が録音された音声信号には、同一の話者が長時間にわたって発話する区間が存在しないことがある。このような音声信号に対しては、上記の技術を適用することは困難である。
そこで本明細書は、一つの側面では、複数の話者の会話を録音した音声信号に、同一の話者が長時間にわたって発話する区間が含まれていなくても、発話した話者の識別情報を適切に付与できる話者インデキシング装置を提供することを目的とする。
一つの実施形態によれば、話者インデキシング装置が提供される。この話者インデキシング装置は、複数の話者の会話を含む音声信号から、所定の時間長を持つフレーム単位で人の声の特徴を表す複数の特徴量を抽出する特徴量抽出部と、複数の特徴量のうちの少なくとも二つの特徴量を含む第1の特徴量の組の分布を話者の数と同じ数の確率分布を含む混合分布でモデル化するモデル化部と、確率分布ごとに、その確率分布の中心から所定距離内にあるか、あるいはその確率分布の中心に近い方から順に所定数の第1の特徴量の組を選択し、選択した第1の特徴量の組に対応するフレームのそれぞれについての複数の特徴量のうちの少なくとも一つの第2の特徴量を、複数の話者のうちのその確率分布に対応する話者の第1の学習データとして選択する学習データ選択部と、複数の話者のそれぞれについて、その話者に対応する第1の学習データを用いて、その話者の声の特徴を第2の特徴量の確率分布で表す話者モデルを学習する初期話者モデル学習部と、複数の話者のそれぞれの話者モデルとフレームのそれぞれの第2の特徴量に基づいて、フレームのそれぞれに対して、そのフレームで発話した話者の識別情報を付与する話者ラベリング部とを有する。
本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
本明細書に開示された話者インデキシング装置は、複数の話者の会話を録音した音声信号に、同一の話者が長時間にわたって発話する区間が含まれていなくても、発話した話者の識別情報を適切に付与できる。
第1の実施形態による話者インデキシング装置の概略構成図である。 話者インデキシング装置が有する処理部の機能ブロック図である。 マハラノビス汎距離と累積確率との関係を示す、自由度2のχ二乗分布を示す図である。 確率分布の学習に用いられた特徴量の組の分布と、選択される特徴量の範囲との関係の一例を示す図である。 フレームごとに付された識別情報の一例を示す図である。 第1の実施形態による話者インデキシング処理の動作フローチャートである。 非特許文献1に開示された従来技術及び本実施形態による、話者インデキシングの誤り率についての実験結果を示す図である。 第2の実施形態による処理部の機能ブロック図である。 話者数推定処理の動作フローチャートである。 何れかの実施形態またはその変形例による話者インデキシング装置が実装されたサーバクライアントシステムの概略構成図である。
以下、図を参照しつつ、話者インデキシング装置について説明する。この話者インデキシング装置は、複数の話者の会話が録音された音声信号をフレーム単位で分割し、各フレームから、人の声の特徴を表す複数の特徴量を抽出する。この話者インデキシング装置は、その特徴量の分布を、話者の数と同数の混合数を持つ混合分布でモデル化する。この話者インデキシング装置は、混合分布に含まれる各確率分布の中心から所定の距離範囲内にある特徴量を選択する。そしてこの話者インデキシング装置は、確率分布ごとに、その確率分布について選択されたフレームの特徴量を用いて話者の声の特徴をその特徴量の確率分布で表す初期話者モデルを学習する。この話者インデキシング装置は、その初期話者モデルを利用して、フレームごとにそのフレームに対応する話者の識別情報の付与と話者モデルの再学習とを繰り返す。
図1は、第1の実施形態による話者インデキシング装置の概略構成図である。話者インデキシング装置1は、インターフェース部11と、アナログ/デジタルコンバータ12と、処理部13と、記憶部14とを有する。
インターフェース部11は、音声入力部の一例であり、オーディオインターフェースを有する。そしてインターフェース部11は、例えば、電話回線に接続された通話録音アダプタ(図示せず)から、アナログ信号であり、かつ、送話側の話者と受話側の話者との会話音声を含むモノラルの音声信号を取得する。そしてインターフェース部11は、その音声信号をアナログ/デジタルコンバータ12(以下、A/Dコンバータと表記する)へ出力する。A/Dコンバータ12は、アナログの音声信号を所定のサンプリングレートでサンプリングすることにより、その音声信号をデジタル化する。そしてA/Dコンバータ12は、デジタル化された音声信号を処理部13へ出力する。
処理部13は、例えば、一つまたは複数のプロセッサと、メモリ回路と、周辺回路とを有する。処理部13は、話者インデキシング処理を実行することで、デジタル化された音声信号に基づいて、フレームごとに、そのフレームで発話している話者の識別情報を付与する。なお、処理部13による話者インデキシング処理の詳細は後述する。
記憶部14は、例えば、読み書き可能な不揮発性の半導体メモリと、読み書き可能な揮発性の半導体メモリとを有する。そして記憶部14は、処理部13上で実行される話者インデキシング処理で利用される各種のデータ及び話者インデキシング処理の途中で生成される各種のデータを記憶する。また記憶部14は、処理部13が、話者インデキシング処理を実行することにより得られる、話者の識別情報が付与された音声信号を記憶する。
以下、処理部13による、話者インデキシング処理の詳細について説明する。なお、本実施形態では、デジタル化された音声信号に録音されている会話に参加している話者の数は二人であるとする。
図2は、処理部13の機能ブロック図である。処理部13は、特徴量抽出部21と、モデル化部22と、初期学習データ選択部23と、初期話者モデル学習部24と、話者ラベリング部25と、再学習部26と、収束判定部27とを有する。
処理部13が有するこれらの各部は、例えば、処理部13が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。
特徴量抽出部21は、デジタル化された音声信号(以下では、単に音声信号と呼ぶ)を所定長を持つフレームごとに分割し、フレームごとに、人の声の特徴を表す複数の特徴量を抽出する。本実施形態では、フレーム長は、例えば、32msecに設定される。この場合において、A/Dコンバータ12のサンプリングレートが8kHzであれば、1フレームあたり256個のサンプル点が含まれる。
本実施形態では、特徴量抽出部21は、人の声の特徴を表す特徴量として、韻律を表す韻律情報である、パワーの積算値及びピッチ周波数と、話者の声道の共振特性を表すスペクトル包絡情報であるケプストラムを抽出する。
特徴量抽出部21は、フレームごとに、例えば、次式に従ってパワーの積算値を算出する。
Figure 0006350148
ここでS(n)は、フレームに含まれるn番目のサンプル点の信号である。またNは、一つのフレームに含まれるサンプル点の数である。そしてPは、対数表記されるパワーの積算値である。
また、特徴量抽出部21は、ピッチ周波数を算出するために、各フレームについて、自己相関関数または変形自己相関関数のピーク値のうちの最大値(ただし、時間差0のピーク値を除く)を求める。人の有声音に相当するフレームについては、比較的自己相関の度合いが高いのに対し、無声音または背景雑音に相当するフレームの自己相関の度合いは低い。そこで特徴量抽出部21は、そのピーク値の最大値を所定の閾値と比較し、最大値が所定の閾値よりも大きい場合、そのフレームには話者の有声音が含まれると判定する。そして特徴量抽出部21は、そのピーク値の最大値に相当する時間差の逆数をピッチ周波数とする。
なお、特徴量抽出部21は、音声信号をフレーム単位で時間周波数変換することにより得られた周波数領域のスペクトル信号に基づいて、自己相関関数及び変形自己相関関数を求めてもよい。この場合、自己相関関数は、各周波数のパワースペクトルを逆フーリエ変換することにより求められる。また、変形自己相関関数は、パワースペクトルに対して線形予測符号化フィルタを用いてフィルタリングしたものを逆フーリエ変換することにより求められる。なお、特徴量抽出部21は、時間周波数変換として、例えば、高速フーリエ変換(Fast Fourier Transform, FFT)を用いることができる。
また、特徴量抽出部21は、各フレームについての音声信号からケプストラムを算出する。特徴量抽出部21は、ケプストラムとして、パワースペクトルの各周波数の値についての対数を求め、それらを逆フーリエ変換したときの、低次の値を選択するFFTケプストラム、または線形予測分析によって得られる線形予測係数から求めるLPCケプストラムを用いることができる。あるいはまた、特徴量抽出部21は、ケプストラムとして、中心周波数をメルスケールで等間隔に配置したフィルタバンクの出力の対数に対して離散コサイン変換(Discrete Cosign Transform,DCT)することで算出されるMel Frequency Cepstral Coefficients(MFCC)を用いてもよい。なお、特徴量抽出部21は、算出したケプストラムのうち、所定の次数(例えば、1〜12次)の係数を、特徴量とすることができる。
特徴量抽出部21は、フレームごとのピッチ周波数、パワーの積算値及びケプストラムの組を、特徴量の組として記憶部14に保存する。
なお、特徴量抽出部21は、ピッチ周波数を所定値で割ることにより得られる正規化ピッチ周波数を特徴量としてもよい。同様に、特徴量抽出部21は、パワー積算値を所定値で割ることにより得られる正規化パワー積算値を特徴量としてもよい。また、特徴量抽出部21は、パワー積算値を、フレームに含まれる雑音成分を表す雑音判定閾値Thnと比較して、パワー積算値が雑音判定閾値Thnよりも大きいフレームについてのみ、特徴量の組を記憶部14に保存してもよい。これにより、処理部13は、どの話者も発声していない時のフレームから抽出された特徴量の組が、話者インデキシングに影響することを防止できる。
なお、雑音判定閾値Thnは、通話音声の背景雑音レベルに応じて適応的に設定されることが好ましい。そこで特徴量抽出部21は、両方の話者が発声していないフレームを、背景雑音のみが含まれる無音フレームと判定する。例えば、特徴量抽出部21は、パワースペクトルの積算値が所定のパワー閾値未満であれば、そのフレームを無音フレームと判定する。そして特徴量抽出部21は、無音フレームのパワーの積算値に基づいて背景雑音レベルを推定する。例えば、特徴量抽出部21は、次式に従って背景雑音レベルを推定する。
Figure 0006350148
ここで、Psは、最新の無音フレームのパワーの積算値であり、noisePは、更新前の背景雑音レベルである。そしてnoiseP'は、更新後の背景雑音レベルである。この場合、雑音判定閾値Thnは、例えば、次式に従って設定される。
Figure 0006350148
ここで、γは、あらかじめ設定される定数であり、例えば、3〜10[dB]に設定される。
モデル化部22は、話者インデキシングの対象となる音声信号が終了すると、特徴量のうち、パワーの積算値とピッチ周波数の組の分布を、話者の数と同じ数の混合数を持つ、すなわち、話者の数と同じ数の確率分布を含む混合分布でモデル化する。話者ごとに、声の特徴は異なるので、同じ話者が発話したフレームから抽出された特徴量の組は、比較的類似した値を持つと推定される。したがって、確率分布ごとに、異なる話者の声の特徴を表していると考えられる。そして確率分布の中心に近い特徴量の組ほど、その確率分布に対応する話者の典型的な声の特徴を表している可能性が高いと推定される。
本実施形態では、混合分布として、ピッチ周波数とパワー積算値をそれぞれ一つの次元とする、2次元の2混合ガウス分布を用いる。2混合ガウス分布は、混合正規分布の一つであり、入力される特徴量の組のベクトルxに対する混合正規分布の尤度は次式で表される。
Figure 0006350148
ここでwi(i=1,2)は、それぞれ、ガウス分布iに対する重み係数である。またμiは、ガウス分布iの特徴量の組の平均値ベクトルである。そしてΣiは、ガウス分布iの共分散行列である。
モデル化部22は、各フレームから得られたピッチ周波数とパワー積算値の組をそれぞれ学習サンプルとして、2混合ガウス分布に含まれる各ガウス分布を表す複数のパラメータを最尤推定する。そのために、例えば、モデル化部22は、EMアルゴリズム(期待値最大化法とも呼ばれる)を用いる。例えば、モデル化部22は、2混合ガウス分布に含まれるガウス分布のそれぞれについて、重み係数wi、平均値ベクトルμi及び共分散行列Σiの最尤推定値を求める。
なお、モデル化部22は、特徴量の分布のモデル化に用いる確率分布として、対数正規分布を用いてもよい。この場合にも、モデル化部22は、EMアルゴリズムを用いて、混合対数正規分布に含まれる、話者の数と同じ数の対数正規分布のそれぞれについての重み係数、平均値ベクトル及び共分散行列の最尤推定値を求める。
また、モデル化部22は、特徴量の分布をモデル化する確率分布を求めるために利用するアルゴリズムとして、EMアルゴリズムの代わりに、マルコフ連鎖モンテカルロ法またはシミュレーティッドアニーリングを利用してもよい。
モデル化部22は、2混合ガウス分布を表す、特徴量の分布をモデル化した各確率分布の重み係数wi、平均値ベクトルμi及び共分散行列Σiの最尤推定値を初期学習データ選択部23へ通知する。
初期学習データ選択部23は、学習データ選択部の一例であり、初期話者モデル学習部24での初期話者モデルの学習に利用する初期学習データを選択する。上記のように、確率分布の中心に近い特徴量の組ほど、その確率分布に対応する話者の声の特徴を表している可能性が高いと推定される。そこで初期学習データ選択部23は、モデル化部22により求められた混合分布に含まれる、各確率分布の中心からのマハラノビス汎距離が所定距離以下となる特徴量の組を選択する。なお、マハラノビス汎距離は、(x-μi)tΣi -1(x-μi)で算出される。あるいは、初期学習データ選択部23は、各確率分布の中心に近い方から順に所定個数(例えば、100個〜300個)の特徴量の組を選択してもよい。
初期学習データ選択部23は、確率分布ごとに、選択した特徴量の組に対応するフレームのもう一つの特徴量であるケプストラムを、その確率分布に対応する話者の初期学習データとして記憶部14から読み出して、初期話者モデル学習部24へ渡す。このように、初期学習データの選択のためのモデル化に用いる特徴量の組と、話者モデルの学習に利用する特徴量とを異ならせることで、より多くの特徴量を利用できるので、処理部13は、より適切な話者モデルを求めることが可能となる。
なお、所定距離は、選択される特徴量の組が何れか一人の話者に対応する可能性が高いと推定される距離に設定される。例えば、所定距離は、確率分布の中心からの距離が近い方から順に累積確率が10%以内の特徴量の組が選択されるように設定される。ここで、ガウス分布の中心からのマハラノビス汎距離は、そのガウス分布で使用される特徴量の組に含まれる特徴量の値の数(この例では、2)と等しい自由度を持つχ二乗分布に従う。そこでこの例では、確率分布の中心からの距離が近い方から順に10%に相当するマハラノビス汎距離は、自由度2のχ二乗分布に従って求められる。
図3は、マハラノビス汎距離と累積確率との関係を示す、自由度2のχ二乗分布を示す。図3において、横軸はマハラノビス汎距離を表し、縦軸は累積確率を表す。自由度2のχ二乗分布300は、マハラノビス汎距離と累積確率の関係を表している。したがって、このχ二乗分布300によれば、累積確率が10%となる場合のマハラノビス汎距離は、0.2107となる。
図4は、確率分布の学習に用いられた特徴量の組の分布と、選択される特徴量の範囲との関係の一例を示す図である。図4において、横軸はパワーの積算値(縦軸とオーダーを合わせるために、パワーの積算値を10で割った値が示される)を表し、縦軸はピッチ周波数(横軸とオーダーを合わせるために、ピッチ周波数を100で割った値が示される)を表す。そして個々の点400が、一つの特徴量の組を表す。モデル化部22により、一方の話者に相当する確率分布401が求められ、他方の話者に相当する確率分布402が求められたとする。確率分布401に対する初期学習データの選択範囲411は、その確率分布401の中心に近い一部に設定される。同様に、確率分布402に対する初期学習データの選択範囲412は、その確率分布402の中心に近い一部に設定される。そして選択範囲411と選択範囲412とは、互いに重ならないので、選択範囲411に含まれる特徴量の組は、確率分布401に対応する話者が発話したフレームから抽出された可能性が高い。同様に、選択範囲412に含まれる特徴量の組は、確率分布402に対応する話者が発話したフレームから抽出された可能性が高い。したがって、選択範囲411に含まれる特徴量の組に対応するフレームのケプストラムを用いて確率分布401に対応する話者の初期話者モデルを学習することで、その初期話者モデルが、その話者の音声の特徴を比較的正確に表すことが期待される。同様に、選択範囲412に含まれる特徴量の組に対応するフレームのケプストラムを用いて確率分布402に対応する話者の初期話者モデルを学習することで、その初期話者モデルが、その話者の音声の特徴を比較的正確に表すことが期待される。そして初期話者モデルが正確であるほど、最終的に得られる話者モデルも正確となる可能性が高い。そのため、初期話者モデルが正確であるほど、各フレームへの話者の識別情報の付与の精度も向上する。
なお、確率分布の形状によっては、1以上の特徴量の組が、二つの確率分布のそれぞれの中心から所定距離範囲内となることがある。このような場合、同じ特徴量の組が、各確率分布について選択されることになるので、後述する初期話者モデルの精度が低下してしまうおそれがある。そこで変形例によれば、初期学習データ選択部23は、特徴量の組を選択する基準となる、確率分布の中心からの距離を適応的に設定してもよい。例えば、初期学習データ選択部23は、各確率分布の中心からの距離が最初に設定した所定距離以下となる特徴量の組がある場合、初期学習データ選択部23は、両方の確率分布の中心からその特徴量の組までの距離を所定距離とする。そして初期学習データ選択部23は、複数の確率分布について選択される特徴量の組がなくなるまで、上記の処理を行って所定距離を変更する。なお、この変形例では、確率分布ごとに、確率分布の中心からその特徴量の組までの距離が異なるので、所定距離は、確率分布ごとに設定される。すなわち、確率分布ごとに、その確率分布の中心からその特徴量の組までのマハラノビス汎距離が、所定距離となる。
初期話者モデル学習部24は、確率分布ごとに、すなわち、話者ごとに、選択された学習データであるケプストラムを用いて初期話者モデルを学習する。初期話者モデルは、話者の声の特徴を特徴量の確率分布で表す話者モデルであり、かつ、最初に設定される話者モデルである。本実施形態では、初期話者モデル学習部24は、初期話者モデルとして、話者ごとに、例えば、混合数8の混合ガウス分布を用いる。なお、初期話者モデルとして、他の確率モデルが利用されてもよい。そして初期話者モデル学習部24は、話者ごとに、その話者に対応する初期学習データを用いてその混合ガウス分布に含まれる、各ガウス分布の重み係数wi、平均値ベクトルμi及び共分散行列Σiの最尤推定値をEMアルゴリズムにより求める。そして初期話者モデル学習部24は、話者ごとの混合ガウス分布を表すパラメータ、すなわち、各ガウス分布の重み係数wi、平均値ベクトルμi及び共分散行列Σiの最尤推定値を記憶部14に記憶する。
話者ラベリング部25は、最新の話者モデルそれぞれを一つの状態と見なし、各状態間を遷移する確率“状態遷移確率”を付与して、話者数と等しい状態数のエルゴディックHMMを構築する。そして話者ラベリング部25は、フレームごとの特徴量と構築したHMMに基づいて、フレームごとにそのフレームで発話した話者の識別情報を付与する。なお、話者ラベリング部25は、1回目の話者識別情報の付与では、各話者の最新の話者モデルとして、初期話者モデルを利用し、2回目以降の話者識別情報の付与では、再学習部26により更新された話者モデルを利用する。
本実施形態では、話者ラベリング部25は、話者数と等しい状態数のエルゴディックHMMを用いて、フレームごとに何れの話者の発話かを推定する。本実施形態では、話者ラベリング部25は、2状態のエルゴディックHMMに基づくViterbiアルゴリズムを利用する。例えば、話者ラベリング部25は、先頭のフレームから順番に、そのフレームで得られた特徴量の一つであるケプストラムを、話者モデルに相当するHMMの各状態における混合ガウス分布に特徴量ベクトルxとして入力することで、状態ごとに、そのフレームにおいてその状態に対応する話者が発話した確率(特徴量ベクトルxの出力確率)を求める。そして話者ラベリング部25は、遷移元である前のフレームの状態から遷移先である現在の状態へ遷移する確率(状態遷移確率)を対数化した値と、その求めた現在の状態における特徴ベクトルxの出力確率を対数化した値と、遷移元の状態における累積対数尤度の合計が高い方の状態遷移を選んでいくDynamic Programing(DP)演算を最終フレームまで進める。そして話者ラベリング部25は、最終フレームにおける累積対数尤度が高い方の状態を選び、その状態に到達するまでの状態遷移の履歴(DPパス)をバックトラックすることにより求め、その話者識別結果に相当する状態遷移の履歴を用いて話者の識別情報をフレームごとに付与する。なお、特徴量が抽出されていないフレームについては、上記の処理はスキップされてもよい。そして話者ラベリング部25は、各フレームの話者の識別情報を記憶部14に記憶する。
図5は、フレームごとに付された識別情報の一例を示す図である。図5において、横軸は時間を表す。また記号「A」及び「B」は、それぞれ、話者の識別情報である。音声信号500に対して、話者Aが発話していると推定されるフレームに記号Aが付され、話者Bが発話していると推定されるフレームに記号Bが付されている。
再学習部26は、話者ごとに、その話者の識別情報が付された各フレームについての特徴量(本実施形態では、ケプストラム)を学習データとして、その話者に対応する話者モデルを再度学習することで、話者モデルを更新する。なお、再学習部26により用いられる学習アルゴリズムも、初期話者モデル学習部24で用いられる学習アルゴリズムと同様に、EMアルゴリズムとすることができる。また、再学習される話者モデルも、例えば、初期話者モデルと同様に、混合数8の混合ガウス分布で表される。そして再学習部26は、話者ごとの混合ガウス分布を表すパラメータ、すなわち、各ガウス分布の重み係数wi、平均値ベクトルμi及び共分散行列Σiの最尤推定値を記憶部14に記憶する。更新された話者モデルは、話者モデルの学習が収束していなければ、再度、話者ラベリング部25による、各フレームへの話者の識別情報の付与に利用される。
収束判定部27は、話者モデルの学習が収束したか否か判定する。本実施形態では、収束判定部27は、最新の話者モデルに基づいて各フレームに付された話者の識別情報と、一つ前の話者モデルに基づいて各フレーム付された話者の識別情報とが異なるフレーム数を所定の閾値と比較する。そしてその異なるフレーム数が所定の閾値以下となる場合、収束判定部27は、話者モデルの学習は収束したと判定する。所定の閾値は、例えば、音声信号に含まれるフレームの総数の0.01%〜1%の値、あるいは、1〜10といった固定値に設定される。
あるいは、収束判定部27は、再学習部26による、話者モデルの学習回数が所定回数に達した場合に、話者モデルの学習が収束したと判定してもよい。この場合、所定回数は、例えば、100回に設定される。あるいはまた、収束判定部27は、最新の話者モデルと一つ前の話者モデル間での識別情報が異なるフレーム数が所定の閾値以下となるか、話者モデルの学習回数が所定回数に達するか、いずれか早い方が満たされたときに学習が収束したと判定してもよい。
収束判定部27が、学習が終了したときの最新の話者モデルに基づいて各フレームに付された話者の識別情報が、最終的に得られた話者インデキシングの結果となる。処理部13は、話者インデキシングの結果を利用して、音声信号から、その音声信号に録音された会話に参加している何れかの話者の心理状態を推定してもよい。この場合、フレームごとに、発話している話者が示されているので、処理部13は、特定の一人の話者が発声した音声が含まれる音声信号を分析してその話者の心理状態を推定する様々な技術を利用できる。
図6は、本実施形態による、話者インデキシング処理の動作フローチャートである。
特徴量抽出部21は、複数の話者の会話音声が含まれる音声信号をフレーム単位に分割し、フレームごとに、話者の声の特徴を表す特徴量を抽出する(ステップS101)。本実施形態では、特徴量として、パワー積算値、ピッチ周波数及びケプストラムが抽出される。そして特徴量抽出部21は、各フレームの特徴量の組を記憶部14に記憶する。
各フレームから特徴量が得られると、モデル化部22は、各フレームの特徴量の組のうち、パワー積算値とピッチ周波数の組の分布を、話者数と同数の確率分布を持つ混合分布でモデル化する(ステップS102)。初期学習データ選択部23は、混合分布に含まれる、確率分布ごとに、その確率分布の中心からのマハラノビス汎距離が所定距離以下となる特徴量の組を一人の話者の特徴量の組として選択する。そして初期学習データ選択部23は、選択した組に対応するフレームのケプストラムを初期学習データとして記憶部14から読み出して、初期話者モデル学習部24へ渡す(ステップS103)。
初期話者モデル学習部24は、話者ごとに、その話者について選択されたフレームの初期学習データを利用して、初期話者モデルを学習する(ステップS104)。そして初期話者モデル学習部24は、各話者の初期話者モデルを表すパラメータを記憶部14に記憶する。
話者ラベリング部25は、フレームごとの特徴量(ケプストラム)と各話者の最新の話者モデルに基づいて、フレームごとにそのフレームで発話した話者の識別情報を付与する(ステップS105)。話者ラベリング部25は、各フレームの話者の識別情報を記憶部14に記憶する。そして再学習部26は、話者ごとに、その話者の識別情報が付された各フレームについての特徴量(ケプストラム)を学習データとして、その話者に対応する話者モデルを再学習することで、話者モデルを更新する(ステップS106)。そして再学習部26は、各話者の話者モデルを表すパラメータを記憶部14に記憶する。
収束判定部27は、各話者の話者モデルについての学習が収束したか否か判定する(ステップS107)。学習が収束していない場合(ステップS107−No)、処理部13は、ステップS105以降の処理を繰り返す。
一方、学習が収束した場合(ステップS107−Yes)、処理部13は、最新の話者モデルに基づいて各フレームに付された話者の識別情報を、最終的に得られた結果とし、話者インデキシング処理を終了する。
図7は、非特許文献1に開示された従来技術及び本実施形態による、話者インデキシングの誤り率についての実験結果を示す図である。この実験での分析対象となる会話データは同一話者が連続して長く発声していないため、従来技術については、各話者の発声区間がのべ10秒になるように、発話している区間を手動で初期話者モデル学習用データ区間として与えた。一方、本実施形態では、全体で約10秒間の初期話者モデル学習用データ区間を初期話者モデル選択部で行われる処理に基づき自動的に選択した。
図7において、縦軸は誤り率を表す。グラフ701は、従来技術による誤り率を表し、グラフ702は、本実施形態による誤り率を表す。なお、誤り率は、いずれかの話者が発話しているフレーム数で、話者を誤判別したフレーム数を除した数に100を乗じた値である。なお、2名が同時に発話したフレームは含まれていない。グラフ701及び702に示されるように、従来技術では、誤り率は約8%となり、一方、本実施形態では、誤り率は約6%となった。このように、本実施形態による話者インデキシング装置は、各話者が連続して発話している長い区間が音声信号に含まれなくても、手動で初期話者モデル学習用データを与えた従来技術と同等の精度で各フレームに話者の識別情報を付与できることが示された。
以上に説明してきたように、この話者インデキシング装置は、フレームごとに抽出した特徴量の組の分布を話者数と同じ確率分布を持つ混合分布でモデル化する。この話者インデキシング装置は、確率分布ごとに、その確率分布の中心から所定距離以内の特徴量の組を、その確率分布に対応する話者の声を表す可能性が高いものとして選択する。そしてこの話者インデキシング装置は、選択した特徴量の組に対応するフレームから抽出された何れかの特徴量を初期話者モデルの学習に利用する。そのため、この話者インデキシング装置は、話者ごとの比較的長い発話区間が含まれない音声信号についても、適切な初期話者モデルを生成できる。その結果として、この話者インデキシング装置は、フレームごとに、精度良く話者の識別情報を付与することができる。
なお、変形例によれば、モデル化部22は、パワーの積算値とピッチ周波数の組の代わりに他の特徴量の組の分布を混合分布でモデル化してもよい。例えば、モデル化部22は、パワーの積算値とケプストラムノルムの組の分布を混合分布でモデル化してもよい。また、モデル化部22で用いられる特徴量の組に、初期話者モデル学習部24、話者ラベリング部25及び再学習部26で用いられる特徴量が含まれていてもよい。例えば、モデル化部22で用いられる特徴量の組がパワーの積算値とピッチ周波数の組であり、初期話者モデル学習部24、話者ラベリング部25及び再学習部26で用いられる特徴量も、パワーの積算値とピッチ周波数の組であってもよい。
さらに、音声信号に録音された会話に参加している話者の数が3人である場合、特徴量の組の分布を話者ごとの確率分布でモデル化できるようにするために、モデル化部22は、3種類の特徴量の組の分布を混合分布でモデル化してもよい。この場合、モデル化部22は、特徴量の組を、パワー積算値と、ピッチ周波数と、ケプストラムノルムの組とすることができる。
ケプストラムノルムは、次式に従って算出される。
Figure 0006350148
ここで、normtは、フレームtのケプストラムノルムを表し、Cept(i)は、フレームtのi次のケプストラム係数を表す。
この場合には、初期学習データ選択部23は、特徴量の組が3種類の特徴量を含んでおり、値が3個あるので、自由度3のχ二乗分布に従って、累積確率が所定値となるマハラノビス汎距離を求めればよい。例えば、所定値が10%である場合、マハラノビス汎距離は0.5844となる。そして初期学習データ選択部23は、混合分布に含まれる確率分布ごとに、その確率分布の中心からマハラノビス汎距離が0.5844以下となる特徴量の組を選択すればよい。
この例では、話者の数が3人なので、話者ラベリング部25は、状態数3のHMMに基づくViterbiアルゴリズムを用いてフレームごとにそのフレームで発話した話者の識別情報を付与する。
次に、第2の実施形態による話者インデキシング装置について説明する。第2の実施形態による話者インデキシング装置は、話者の数が不明な音声信号から話者数を推定し、推定した話者数に基づいて、その音声信号の各フレームに話者の識別情報を付与する。
図8は、第2の実施形態による話者インデキシング装置の処理部33の機能ブロック図である。処理部33は、特徴量抽出部21と、モデル化部22と、初期学習データ選択部23と、初期話者モデル学習部24と、話者ラベリング部25と、再学習部26と、収束判定部27と、適合度算出部28と、話者数推定部29とを有する。第2の実施形態による処理部33は、第1の実施形態による処理部13と比較して、適合度算出部28及び話者数推定部29を有する点と、その他の構成要素において話者数に関連する部分の処理が異なる。そこで以下では、適合度算出部28及び話者数推定部29と、その他の構成要素において話者数に関連する部分の処理について説明する。第2の実施形態による話者インデキシング装置のその他の構成要素については、第1の実施形態による話者インデキシング装置の対応する構成要素の説明を参照されたい。
モデル化部22は、最初に、混合数が2の混合分布で各フレームから抽出された特徴量の組の分布をモデル化する。そしてモデル化部22は、話者数推定部29から混合数を1増やす指示を受ける度に、混合数を1追加した混合分布で各フレームから抽出された特徴量の組の分布をモデル化する。モデル化部22は、各フレームから抽出された特徴量の組の分布をモデル化する度に、そのモデル化に利用した混合分布を表すパラメータ(すなわち、各確率分布の重み係数wi、平均値ベクトルμi及び共分散行列Σiの最尤推定値)を記憶部14に記憶する。
適合度算出部28は、特徴量の組の分布をモデル化した混合分布が、その特徴量の組の分布に適合している度合いを表す適合度を算出する。
本実施形態では、適合度算出部28は、適合度として赤池情報量基準(Akaike's Information Criterion, AIC)の値を算出する。なお、AICの値は次式により算出される。
Figure 0006350148
ここでLは、最大尤度(例えば、EMアルゴリズムを用いて特徴量のサンプルを確率分布でモデル化した後の、モデル化に使用した特徴量のサンプルに対する尤度)である。kはモデルの自由パラメータ数であり、混合分布に含まれる確率分布の数が増えるほど大きな値になる。例えば、混合分布として混合ガウス分布または混合対数正規分布を利用する場合、一つの確率分布を規定するために、重み係数、平均値ベクトル及び共分散行列というパラメータが必要となる。そのため、確率分布が一つ増える度に、それらのパラメータの数だけkは大きくなる。
なお、適合度算出部28は、AICを算出する代わりに、ベイジアン情報量基準(Bayesian information criteria, BIC)を適合度として算出してもよい。なお、BICの値は次式により算出される。
Figure 0006350148
ここでLは、最大尤度((6)式と同様に、EMアルゴリズムを用いて特徴量のサンプルを確率分布でモデル化した後の、モデル化に使用した特徴量のサンプルに対する尤度)であり、kは自由パラメータ数である。またmは、標本の大きさ、すなわち、学習サンプルとして利用する特徴量の組の数(フレーム数)を表す。
適合度算出部28は、適合度を、対応する話者数と対応付けて記憶部14に記憶する。
話者数推定部29は、適合度に基づいて、話者数を推定する。本実施形態では、AICまたはBICが適合度として算出されているので、適合度が最小となる混合数を持つ混合分布が、最も特徴量の組の分布をモデル化できている。そこで話者数推定部29は、適合度が最小となるときの混合数を話者数と推定する。
例えば、話者数推定部29は、特徴量の組のモデル化に利用した混合分布の混合数を増やす前の適合度と、その混合分布の混合数を増やした後の適合度とを比較する。そして話者数推定部29は、混合数を増やす前の適合度の方が大きい場合には、混合数を一つ増やすと判定して、その旨をモデル化部22へ通知する。
一方、混合数を増やした後の適合度が混合数を増やす前の適合度以上となる場合には、話者数推定部29は、増やす前の混合数を、音声信号に含まれる会話音声に参加している話者の数と推定する。そして話者数推定部29は、推定した話者の数を、初期学習データ選択部23、初期話者モデル学習部24、話者ラベリング部25及び再学習部26へ通知する。
初期学習データ選択部23は、推定された話者の数と等しい混合数を持つ混合分布を表すパラメータを記憶部14から読み込む。そして初期学習データ選択部23は、その混合分布に含まれる確率分布のそれぞれについて、その確率分布の中心から所定距離以内にある特徴量の組を選択し、選択した特徴量の組に対応するフレームの特徴量を、初期話者モデル学習部24へ渡す。
初期話者モデル学習部24は、確率分布ごとに選択されたフレームの特徴量を用いて、推定された話者の数の初期話者モデルを学習する。なお、この実施形態でも、初期話者モデル学習部24は、例えば、EMアルゴリズムを用いて初期話者モデルを学習できる。またこの実施形態でも、各話者の初期話者モデルは、例えば、混合数8の混合分布で表される。
話者ラベリング部25は、各話者の最新の話者モデルに基づいて、推定された話者数と同じ数の状態数を持つHMMに基づくViterbiアルゴリズムを用いてフレームごとにそのフレームで発話した話者の識別情報を付与する。
再学習部26は、推定された話者の数の話者ごとに、その話者に対応するフレームの特徴量を用いて話者モデルを再学習する。この実施形態でも、再学習部26は、EMアルゴリズムを用いて話者モデルを学習できる。
図9は、話者数推定処理の動作フローチャートである。処理部33は、第1の実施形態による話者インデキシング処理の動作フローチャートにおけるステップS102の処理の代わりに、この動作フローチャートに従って話者数推定処理を実行する。
音声信号中の各フレームからの特徴量の組の抽出が終わると、モデル化部22は、特徴量の組の分布に利用する混合分布の混合数Nを2に設定する(ステップS201)。そしてモデル化部22は、各フレームの特徴量の組の分布を、混合数Nの混合分布でモデル化する(ステップS202)。
適合度算出部28は、混合数Nの混合分布に対して適合度G(N)を算出する(ステップS203)。そして話者数推定部29は、適合度G(N)が、混合数(N-1)の混合分布について算出された適合度G(N-1)以上か否か判定する(ステップS204)。ただし、N=2の場合には、N=1の場合の適合度は算出されていないので、話者数推定部29は、G(N)は(G(N-1)よりも小さいとみなす。
G(N)が(G(N-1)よりも小さい場合(ステップS204−No)、話者数推定部29は、モデル化部22に混合数Nを1増やすことを指示する(ステップS205)。そして処理部33は、ステップS202以降の処理を繰り返す。一方、G(N)がG(N-1)以上である場合(ステップS204−Yes)、話者数推定部29は、音声信号に録音されている会話に参加している話者数を(N-1)と推定する(ステップS206)。
その後、処理部33は、ステップS103以降の処理を実行する。
この実施形態によれば、話者インデキシング装置は、音声信号に録音された会話に参加している話者の数が予め分かっていない場合でも、音声信号の各フレームに適切に話者の識別情報を付与できる。
なお、変形例によれば、話者数推定部29は、話者数を推定する他の方法を利用して、会話に参加している話者の数を推定してもよい。例えば、話者数推定部29は、Daben Liu他、「ONLINE SPEAKER CLUSTERING」、in Proceedings of ICASSP2004、vol. I、pp.333-336、2004年に開示されているように、各フレームから抽出された特徴量の組を、遺伝的アルゴリズムなどを利用してクラスタリングする。そして話者数推定部29は、得られたクラスタの数を話者の数としてもよい。この場合、モデル化部22は、話者数推定部29で推定された話者数と等しい混合数を持つ確率分布で、各フレームから抽出された特徴量の組の分布をモデル化すればよい。またこの変形例では、適合度は算出されないので、適合度算出部28は省略されてもよい。
また上記の各実施形態または変形例による話者インデキシング装置は、サーバクライアント型のシステムに実装されてもよい。
図10は、上記の何れかの実施形態またはその変形例による話者インデキシング装置が実装されたサーバクライアントシステムの概略構成図である。
サーバクライアントシステム100は、端末110とサーバ120とを有し、端末110とサーバ120とは、通信ネットワーク130を介して互いに通信可能となっている。なお、サーバクライアントシステム100が有する端末110は複数存在してもよい。同様に、サーバクライアントシステム100が有するサーバ120は複数存在してもよい。
端末110は、音声入力部111と、記憶部112と、通信部113と、制御部114とを有する。音声入力部111、記憶部112及び通信部113は、例えば、制御部114とバスを介して接続されている。
音声入力部111は、例えば、オーディオインターフェースとA/Dコンバータを有する。そして音声入力部111は、例えば、電話回線から、会話を含む、アナログ信号である音声信号を取得し、その音声信号を所定のサンプリングレートでサンプリングすることにより、その音声信号をデジタル化する。そして音声入力部111は、デジタル化された音声信号を制御部114へ出力する。
記憶部112は、例えば、不揮発性の半導体メモリ及び揮発性の半導体メモリを有する。そして記憶部112は、端末110を制御するためのコンピュータプログラム、端末110の識別情報、話者インデキシング処理で利用される各種のデータ及びコンピュータプログラムなどを記憶する。
通信部113は、端末110を通信ネットワーク130に接続するためのインターフェース回路を有する。そして通信部113は、制御部114から受け取った特徴量の組を、端末110の識別情報とともに通信ネットワーク130を介してサーバ120へ送信する。
制御部114は、一つまたは複数のプロセッサとその周辺回路を有する。そして制御部114は、上記の各実施形態または変形例による処理部の各機能のうち、特徴量抽出部21の機能を実現する。すなわち、制御部114は、音声信号をフレーム単位に分割し、各フレームから人の声の特徴を表す2種類以上の特徴量を抽出する。そして制御部114は、フレームごとの特徴量の組を、端末110の識別情報とともに、通信部113及び通信ネットワーク130を介してサーバ120へ送信する。
サーバ120は、通信部121と、記憶部122と、処理部123とを有する。通信部121及び記憶部122は、処理部123とバスを介して接続されている。
通信部121は、サーバ120を通信ネットワーク130に接続するためのインターフェース回路を有する。そして通信部121は、フレームごとの特徴量の組と端末110の識別情報とを端末110から通信ネットワーク130を介して受信して処理部123に渡す。
記憶部122は、例えば、不揮発性の半導体メモリ及び揮発性の半導体メモリを有する。そして記憶部122は、サーバ120を制御するためのコンピュータプログラムなどを記憶する。また記憶部122は、話者インデキシング処理を実行するためのコンピュータプログラム及び各端末から受信したフレームごとの特徴量の組を記憶していてもよい。
処理部123は、一つまたは複数のプロセッサとその周辺回路を有する。そして処理部123は、上記の各実施形態または変形例による話者インデキシング装置の処理部の各機能のうち、特徴量抽出部21以外の各部の機能を実現する。すなわち、処理部123は、端末110から受信した、フレームごとの特徴量の組から、各フレームに話者の識別情報を付与する。そして処理部123は、例えば、フレームごとに付された話者の識別情報を利用して、特定の話者が発話したフレームを抽出する。そして処理部123は、その話者の心理状態を、抽出したフレームから、音声信号から話者の心理状態を推定する方法に基づいてその特定の話者の心理状態を推定してもよい。処理部123は、例えば、特定の話者の心理状態が異常である場合、振り込め詐欺誘引通話などの異常会話が行われていると判定し、端末110の識別情報とともに異常会話が行われていることを、通信部121を介して警備システム(図示せず)へ通報してもよい。これにより、警備システムの運用者は、端末110のユーザをサポートすることができる。
この実施形態によれば、個々の端末110は、会話を録音した音声信号からフレームごとの特徴量の組を抽出してサーバ120へ送信するだけでよい。
なお、端末110は、音声信号そのものをサーバ120へ送信してもよい。この場合には、サーバ120の処理部123が、上記の各実施形態または変形例による話者インデキシング装置の処理部の各機能を実現する。
上記の各実施形態または変形例による話者インデキシング装置の処理部が有する各機能をコンピュータに実現させるコンピュータプログラムは、磁気記録媒体または光記録媒体といったコンピュータによって読み取り可能な媒体に記録された形で提供されてもよい。
ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
(付記1)
複数の話者の会話を含む音声信号から、所定の時間長を持つフレーム単位で人の声の特徴を表す複数の特徴量を抽出する特徴量抽出部と、
前記複数の特徴量のうちの少なくとも二つの特徴量を含む第1の特徴量の組の分布を前記話者の数と同じ数の確率分布を含む混合分布でモデル化するモデル化部と、
前記確率分布ごとに、当該確率分布の中心から所定距離内にあるか、あるいは当該確率分布の中心に近い方から順に所定数の前記第1の特徴量の組を選択し、選択した前記第1の特徴量の組に対応する前記フレームのそれぞれについての前記複数の特徴量のうちの少なくとも一つの第2の特徴量を、前記複数の話者のうちの当該確率分布に対応する話者の第1の学習データとして選択する学習データ選択部と、
前記複数の話者のそれぞれについて、当該話者に対応する前記第1の学習データを用いて、当該話者の声の特徴を前記第2の特徴量の確率分布で表す話者モデルを学習する初期話者モデル学習部と、
前記複数の話者のそれぞれの前記話者モデルと前記フレームのそれぞれの前記第2の特徴量に基づいて前記フレームのそれぞれに対して、当該フレームで発話した話者の識別情報を付与する話者ラベリング部と、
を有する話者インデキシング装置。
(付記2)
前記複数の話者のそれぞれごとに、当該話者の前記識別情報が付与された前記フレームのそれぞれの前記第2の特徴量を第2の学習データとして前記話者モデルを学習して前記話者モデルを更新する再学習部と、
前記話者モデルの学習が収束したか否かを判定し、当該学習が収束していない場合、前記話者ラベリング部に、前記更新された前記話者モデルと前記フレームのそれぞれの前記第2の特徴量に基づいて前記フレームのそれぞれに対して前記識別情報を付与させ、かつ、前記再学習部に前記話者モデルを更新させる収束判定部とをさらに有する、付記1に記載の話者インデキシング装置。
(付記3)
前記学習データ選択部は、何れかの前記第1の特徴量の組が、2個以上の前記確率分布のそれぞれの中心から前記所定距離以内にある場合、前記2個以上の前記確率分布についての前記所定距離を、前記2個以上の前記確率分布のそれぞれの中心から当該第1の特徴量の組までの距離に変更し、前記2個以上の前記確率分布のそれぞれについて、当該確率分布の中心から変更後の前記所定距離範囲内にある前記第1の特徴量の組を選択する、付記1または2に記載の話者インデキシング装置。
(付記4)
前記所定距離は、前記第1の特徴量の組に含まれる前記特徴量の値の数と同数の自由度を持つχ二乗分布において所定の累積確率に対応するマハラノビス汎距離に設定される、付記1〜3の何れかに記載の話者インデキシング装置。
(付記5)
前記第1の特徴量の組の分布に基づいて前記話者の数を推定する話者数推定部をさらに有する、付記1〜4の何れかに記載の話者インデキシング装置。
(付記6)
前記第1の特徴量の組は、前記フレームごとの前記音声信号のパワー積算値とピッチ周波数とを含み、前記第2の特徴量は、前記フレームごとの前記音声信号のケプストラムを含む、付記1〜5の何れかに記載の話者インデキシング装置。
(付記7)
複数の話者の会話を含む音声信号から、所定の時間長を持つフレーム単位で人の声の特徴を表す複数の特徴量を抽出し、
前記複数の特徴量のうちの少なくとも二つの特徴量を含む第1の特徴量の組の分布を前記話者の数と同じ数の確率分布を含む混合分布でモデル化し、
前記確率分布ごとに、当該確率分布の中心から所定距離内にあるか、あるいは当該確率分布の中心に近い方から順に所定数の前記第1の特徴量の組を選択し、選択した前記第1の特徴量の組に対応する前記フレームのそれぞれについての前記複数の特徴量のうちの少なくとも一つの第2の特徴量を、前記複数の話者のうちの当該確率分布に対応する話者の第1の学習データとして選択し、
前記複数の話者のそれぞれについて、当該話者に対応する前記第1の学習データを用いて、当該話者の声の特徴を前記第2の特徴量の確率分布で表す話者モデルを学習し、
前記複数の話者のそれぞれの前記話者モデルと前記フレームのそれぞれの前記第2の特徴量に基づいて前記フレームのそれぞれに対して、当該フレームで発話した話者の識別情報を付与する、
ことを含む話者インデキシング方法。
(付記8)
複数の話者の会話を含む音声信号から、所定の時間長を持つフレーム単位で人の声の特徴を表す複数の特徴量を抽出し、
前記複数の特徴量のうちの少なくとも二つの特徴量を含む第1の特徴量の組の分布を前記話者の数と同じ数の確率分布を含む混合分布でモデル化し、
前記確率分布ごとに、当該確率分布の中心から所定距離内にあるか、あるいは当該確率分布の中心に近い方から順に所定数の前記第1の特徴量の組を選択し、選択した前記第1の特徴量の組に対応する前記フレームのそれぞれについての前記複数の特徴量のうちの少なくとも一つの第2の特徴量を、前記複数の話者のうちの当該確率分布に対応する話者の第1の学習データとして選択し、
前記複数の話者のそれぞれについて、当該話者に対応する前記第1の学習データを用いて、当該話者の声の特徴を前記第2の特徴量の確率分布で表す話者モデルを学習し、
前記複数の話者のそれぞれの前記話者モデルと前記フレームのそれぞれの前記第2の特徴量に基づいて前記フレームのそれぞれに対して、当該フレームで発話した話者の識別情報を付与する、
ことをコンピュータに実行させるための話者インデキシング用コンピュータプログラム。
1 話者インデキシング装置
11 インターフェース部
12 A/Dコンバータ
13、33 処理部
14 記憶部
21 特徴量抽出部
22 モデル化部
23 初期学習データ選択部
24 初期話者モデル学習部
25 話者ラベリング部
26 再学習部
27 収束判定部
28 適合度算出部
29 話者数推定部
100 サーバクライアントシステム
110 端末
111 音声入力部
112 記憶部
113 通信部
114 制御部
120 サーバ
121 通信部
122 記憶部
123 処理部
130 通信ネットワーク

Claims (6)

  1. 複数の話者の会話を含む音声信号から、所定の時間長を持つフレーム単位で人の声の特徴を表す複数の特徴量を抽出する特徴量抽出部と、
    前記複数の特徴量のうちの少なくとも二つの特徴量を含む第1の特徴量の組の分布を前記話者の数と同じ数の確率分布を含む混合分布でモデル化するモデル化部と、
    前記確率分布ごとに、当該確率分布の中心から所定距離内にあるか、あるいは当該確率分布の中心に近い方から順に所定数の前記第1の特徴量の組を選択し、選択した前記第1の特徴量の組に対応する前記フレームのそれぞれについての前記複数の特徴量のうちの少なくとも一つの第2の特徴量を、前記複数の話者のうちの当該確率分布に対応する話者の第1の学習データとして選択する学習データ選択部であって、前記第1の特徴量の組は前記少なくとも一つの第2の特徴量を含んでもよい学習データ選択部と、
    前記複数の話者のそれぞれについて、当該話者に対応する前記第1の学習データを用いて、当該話者の声の特徴を前記第2の特徴量の確率分布で表す話者モデルを学習する初期話者モデル学習部と、
    前記複数の話者のそれぞれの前記話者モデルと前記フレームのそれぞれの前記第2の特徴量に基づいて前記フレームのそれぞれに対して、当該フレームで発話した話者の識別情報を付与する話者ラベリング部と、
    を有する話者インデキシング装置。
  2. 前記学習データ選択部は、何れかの前記第1の特徴量の組が、2個以上の前記確率分布のそれぞれの中心から前記所定距離以内にある場合、前記2個以上の前記確率分布についての前記所定距離を、前記2個以上の前記確率分布のそれぞれの中心から当該第1の特徴量の組までの距離に変更し、前記2個以上の前記確率分布のそれぞれについて、当該確率分布の中心から変更後の前記所定距離範囲内にある前記第1の特徴量の組を選択する、請求項1に記載の話者インデキシング装置。
  3. 前記所定距離は、前記第1の特徴量の組に含まれる前記特徴量の値の数と同数の自由度を持つχ二乗分布において所定の累積確率に対応するマハラノビス汎距離に設定される、請求項1または2に記載の話者インデキシング装置。
  4. 前記第1の特徴量の組の分布に基づいて前記話者の数を推定する話者数推定部をさらに有する、請求項1〜3の何れか一項に記載の話者インデキシング装置。
  5. 複数の話者の会話を含む音声信号から、所定の時間長を持つフレーム単位で人の声の特徴を表す複数の特徴量を抽出し、
    前記複数の特徴量のうちの少なくとも二つの特徴量を含む第1の特徴量の組の分布を前記話者の数と同じ数の確率分布を含む混合分布でモデル化し、
    前記確率分布ごとに、当該確率分布の中心から所定距離内にあるか、あるいは当該確率分布の中心に近い方から順に所定数の前記第1の特徴量の組を選択し、選択した前記第1の特徴量の組に対応する前記フレームのそれぞれについての前記複数の特徴量のうちの少なくとも一つの第2の特徴量を、前記複数の話者のうちの当該確率分布に対応する話者の第1の学習データとして選択し、前記第1の特徴量の組は前記少なくとも一つの第2の特徴量を含んでもよく、
    前記複数の話者のそれぞれについて、当該話者に対応する前記第1の学習データを用いて、当該話者の声の特徴を前記第2の特徴量の確率分布で表す話者モデルを学習し、
    前記複数の話者のそれぞれの前記話者モデルと前記フレームのそれぞれの前記第2の特徴量に基づいて前記フレームのそれぞれに対して、当該フレームで発話した話者の識別情報を付与する、
    ことを含む話者インデキシング方法。
  6. 複数の話者の会話を含む音声信号から、所定の時間長を持つフレーム単位で人の声の特徴を表す複数の特徴量を抽出し、
    前記複数の特徴量のうちの少なくとも二つの特徴量を含む第1の特徴量の組の分布を前記話者の数と同じ数の確率分布を含む混合分布でモデル化し、
    前記確率分布ごとに、当該確率分布の中心から所定距離内にあるか、あるいは当該確率分布の中心に近い方から順に所定数の前記第1の特徴量の組を選択し、選択した前記第1の特徴量の組に対応する前記フレームのそれぞれについての前記複数の特徴量のうちの少なくとも一つの第2の特徴量を、前記複数の話者のうちの当該確率分布に対応する話者の第1の学習データとして選択し、前記第1の特徴量の組は前記少なくとも一つの第2の特徴量を含んでもよく、
    前記複数の話者のそれぞれについて、当該話者に対応する前記第1の学習データを用いて、当該話者の声の特徴を前記第2の特徴量の確率分布で表す話者モデルを学習し、
    前記複数の話者のそれぞれの前記話者モデルと前記フレームのそれぞれの前記第2の特徴量に基づいて前記フレームのそれぞれに対して、当該フレームで発話した話者の識別情報を付与する、
    ことをコンピュータに実行させるための話者インデキシング用コンピュータプログラム。
JP2014183652A 2014-09-09 2014-09-09 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム Active JP6350148B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014183652A JP6350148B2 (ja) 2014-09-09 2014-09-09 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム
US14/825,653 US9536525B2 (en) 2014-09-09 2015-08-13 Speaker indexing device and speaker indexing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014183652A JP6350148B2 (ja) 2014-09-09 2014-09-09 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2016057461A JP2016057461A (ja) 2016-04-21
JP6350148B2 true JP6350148B2 (ja) 2018-07-04

Family

ID=55438073

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014183652A Active JP6350148B2 (ja) 2014-09-09 2014-09-09 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム

Country Status (2)

Country Link
US (1) US9536525B2 (ja)
JP (1) JP6350148B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024136409A1 (ko) * 2022-12-19 2024-06-27 네이버 주식회사 화자 분할 방법 및 시스템

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
EP3160334B1 (en) * 2014-08-22 2021-12-01 SRI International Speech-based assessment of a patient's state-of-mind
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10706873B2 (en) 2015-09-18 2020-07-07 Sri International Real-time speaker state analytics platform
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10964329B2 (en) * 2016-07-11 2021-03-30 FTR Labs Pty Ltd Method and system for automatically diarising a sound recording
US10614797B2 (en) * 2016-12-01 2020-04-07 International Business Machines Corporation Prefix methods for diarization in streaming mode
CN106897921A (zh) * 2017-02-28 2017-06-27 广州市诚毅科技软件开发有限公司 一种基于快递柜的商品购买方法和装置
US9741337B1 (en) * 2017-04-03 2017-08-22 Green Key Technologies Llc Adaptive self-trained computer engines with associated databases and methods of use thereof
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
JP2019028753A (ja) 2017-07-31 2019-02-21 オリンパス株式会社 機器制御装置及び機器制御方法
WO2019116889A1 (ja) * 2017-12-12 2019-06-20 ソニー株式会社 信号処理装置および方法、学習装置および方法、並びにプログラム
US11276407B2 (en) * 2018-04-17 2022-03-15 Gong.Io Ltd. Metadata-based diarization of teleconferences
US20220157322A1 (en) * 2018-04-17 2022-05-19 Gong.Io Ltd. Metadata-based diarization of teleconferences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
KR102598057B1 (ko) * 2018-09-10 2023-11-06 삼성전자주식회사 음소기반 화자모델 적응 방법 및 장치
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
WO2020188724A1 (ja) * 2019-03-18 2020-09-24 富士通株式会社 話者識別プログラム、話者識別方法、および話者識別装置
US11195545B2 (en) * 2019-04-04 2021-12-07 Qualcomm Incorporated Method and apparatus for detecting an end of an utterance
US11356488B2 (en) * 2019-04-24 2022-06-07 Cisco Technology, Inc. Frame synchronous rendering of remote participant identities
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US10997503B2 (en) * 2019-06-20 2021-05-04 Google Llc Computationally efficient neural network architecture search
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11508380B2 (en) * 2020-05-26 2022-11-22 Apple Inc. Personalized voices for text messaging
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
JP7103681B2 (ja) * 2020-12-18 2022-07-20 株式会社ミルプラトー 音声認識プログラム、音声認識方法、音声認識装置および音声認識システム
CN114550728B (zh) * 2022-02-15 2024-03-01 北京有竹居网络技术有限公司 用于标记说话人的方法、装置和电子设备
CN114974264A (zh) * 2022-04-15 2022-08-30 厦门快商通科技股份有限公司 一种基于改进的变分贝叶斯算法的话者分割方法和***

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2797861B2 (ja) 1992-09-30 1998-09-17 松下電器産業株式会社 音声検出方法および音声検出装置
JP3081108B2 (ja) 1994-08-11 2000-08-28 株式会社トレンディ 話者分類処理装置及び方法
US6246982B1 (en) * 1999-01-26 2001-06-12 International Business Machines Corporation Method for measuring distance between collections of distributions
US6434520B1 (en) * 1999-04-16 2002-08-13 International Business Machines Corporation System and method for indexing and querying audio archives
US20040260550A1 (en) * 2003-06-20 2004-12-23 Burges Chris J.C. Audio processing system and method for classifying speakers in audio data
JP2005321530A (ja) 2004-05-07 2005-11-17 Sony Corp 発話識別装置および発話識別方法
US20070129946A1 (en) * 2005-12-06 2007-06-07 Ma Changxue C High quality speech reconstruction for a dialog method and system
JP4728972B2 (ja) 2007-01-17 2011-07-20 株式会社東芝 インデキシング装置、方法及びプログラム
JP5834449B2 (ja) 2010-04-22 2015-12-24 富士通株式会社 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法
CN103229233B (zh) * 2010-12-10 2015-11-25 松下电器(美国)知识产权公司 用于识别说话人的建模设备和方法、以及说话人识别***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024136409A1 (ko) * 2022-12-19 2024-06-27 네이버 주식회사 화자 분할 방법 및 시스템

Also Published As

Publication number Publication date
US20160071520A1 (en) 2016-03-10
US9536525B2 (en) 2017-01-03
JP2016057461A (ja) 2016-04-21

Similar Documents

Publication Publication Date Title
JP6350148B2 (ja) 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム
JP6303971B2 (ja) 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム
CN111418009B (zh) 个性化说话者验证***和方法
JP6679898B2 (ja) キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム
US8612224B2 (en) Speech processing system and method
JP2021527840A (ja) 声紋識別方法、モデルトレーニング方法、サーバ、及びコンピュータプログラム
US20090119103A1 (en) Speaker recognition system
WO2019102884A1 (ja) ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体
US20170236520A1 (en) Generating Models for Text-Dependent Speaker Verification
WO2018051945A1 (ja) 音声処理装置、音声処理方法、および記録媒体
US11837236B2 (en) Speaker recognition based on signal segments weighted by quality
Agrawal et al. Prosodic feature based text dependent speaker recognition using machine learning algorithms
JP5229124B2 (ja) 話者照合装置、話者照合方法およびプログラム
US10699224B2 (en) Conversation member optimization apparatus, conversation member optimization method, and program
Ozaydin Design of a text independent speaker recognition system
JP2020060757A (ja) 話者認識装置、話者認識方法、及び、プログラム
KR101023211B1 (ko) 마이크배열 기반 음성인식 시스템 및 그 시스템에서의 목표음성 추출 방법
Larcher et al. Constrained temporal structure for text-dependent speaker verification
Kłosowski et al. Speaker verification performance evaluation based on open source speech processing software and timit speech corpus
US11996086B2 (en) Estimation device, estimation method, and estimation program
JP5315976B2 (ja) 音声認識装置、音声認識方法、および、プログラム
JP6078402B2 (ja) 音声認識性能推定装置とその方法とプログラム
JP5626558B2 (ja) 話者選択装置、話者適応モデル作成装置、話者選択方法および話者選択用プログラム
Cournapeau et al. Voice activity detection based on high order statistics and online EM algorithm
CN118072717A (zh) 语音识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170309

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180220

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180417

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180508

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180521

R150 Certificate of patent or registration of utility model

Ref document number: 6350148

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150