JP3075250B2

JP3075250B2 - 話者認識方法及び装置

Info

Publication number: JP3075250B2
Application number: JP10069515A
Authority: JP
Inventors: 浩明服部
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1998-03-04
Filing date: 1998-03-04
Publication date: 2000-08-14
Anticipated expiration: 2018-03-04
Also published as: EP0940802A3; US6349280B1; JPH11249685A; EP0940802A2

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は話者認識方法及び装
置に関し、特に音声を用いて本人の認識、認証を行なう
話者認識装置及び方法に関する。

【０００２】

【従来の技術】従来、発生内容に依存しない話者認識に
おいては、話者が発生した音声の特徴パラメータを登録
しておき、入力音声の特徴パラメータとの相違度を求め
判定を行なう手法が一般的に行われている。

【０００３】入力音声系列をｘi￣（サンプル数Ｉ）、
登録音声系列をｙj￣（サンプル数Ｊ）とするとこれら
の相違度Ｄoldを、次式に基づいて求める。尚、以下に
おいて、￣は、ベクトルを示す記号であり、例えば、ｘ
i￣、ｙj￣は、それぞれ、

【数１】を示す。

【数２】

【０００４】ここで、‖・‖はユークリッド距離であ
る。この際、計算量及び記憶容量を削減するために音声
の特徴ベクトル系列そのままではなく、ベクトル量子化
した特徴ベクトルｃk￣を標準パターンとして蓄えてお
き、

【数３】とする場合もある。

【０００５】これらの場合、相違度を精度よく求めるた
めには、入力音声中に含まれる音声が予めすべて登録さ
れていなければならないため、長時間の音声を用いた話
者登録が行われる。ユーザへの負担を考慮すると、登録
に必要な音声はできるだけ少ない方が好ましいが、その
場合登録されていない音素が入力音声に含まれる頻度が
増加するため、照合精度が低下してしまうという問題が
ある。

【０００６】これを解決する一つの手法として、例え
ば、特願平２−７６２９６（以下、文献１）の入力音声
と登録音声との重なり部の大きさと、その重なり部間の
距離を利用して類似度を求める方法が利用できる。

【０００７】文献１では、図５に示すように、重なり部
の大きさとして入力音声の分布と標準パターンの分布の
重なり部に含まれる入力音声中のサンプル数を求める重
なり部の大きさ計算部と、その重なり部の要素間距離を
計算する部を持ち、各計算結果を基に入力音声と標準パ
ターンの相違度を求める。

【数４】

【０００８】すなわち、予め標準パターンの各要素ｋの
覆う範囲ｌkを決定しておき、入力パターンと標準パタ
ーンの最近傍の要素との距離ｄiが当該要素の覆う範囲
を越える場合には、別に定めるペナルティｄoutを距離
として入力パターンの全特徴ベクトルについて加算し、
それを重なり部の大きさＵmaxで正規化を行なってい
る。

【０００９】

【発明が解決しようとする課題】しかしながら、この方
法では、正規化に用いるＵmaxを全ての標準パターンか
ら求めているため、話者毎に異なる内容の音声を用いて
登録を行った場合、ある話者の入力音声の発生内容が別
の話者の登録音声に近い場合が生じる。この場合、Ｕma
xが不当に大きく評価されてしまう場合が生じ性能低下
を招くため、登録音声の発生内容に含まれる音素の種別
は概ね等しい必要がある。

【００１０】また、文献１では、標準パターンの各要素
の覆う範囲を、各標準パターンを作成する際に一つのク
ラスタ（要素ｃk￣）の中心からそのクラスタに含まれ
る特徴パラメータの中の最も遠いものまでの距離で決定
している。しかし、同じ音素であっても話者が異なる場
合には特徴パラメータの広がりは多様であるため、分布
の重なりの安定した推定は困難である。

【００１１】そこで、本発明は、入力音声と登録音声の
相違度を比較する際に、音声認識を用いて発生内容の一
致／不一致を判断することで、話者によらず安定した判
断が可能であり、かつ、さまざまな音声を用いて登録が
行うことが可能な話者認識装置を提供するものである。

【００１２】

【課題を解決するための手段】前述の課題を解決するた
めに、本発明による話者認識装置は、次のような特徴的
な構成を備えている。

【００１３】（１）入力音声を特徴パラメータ時系列に
変換して得られる入力パターンと、予め各話者毎に登録
されている特徴パラメータ時系列である標準パターンと
の相違度に基づいて前記入力音声を発生した話者の認識
を行う話者認識方法において、前記入力パターンと標準
パターンの発生内容を音声認識により得、得られた発生
内容情報に基づいて前記入力パターンと標準パターンの
発生内容の一致する一致区間を求め、前記求められた一
致区間における前記入力パターンと標準パターンの相違
度を求め、求められた相違度に基づいて前記入力音声を
発生した話者の認識を行う話者認識方法。

【００１４】（２）前記一致区間は、前記入力パターン
と標準パターンを構成する各特徴ベクトルを、対応付け
られた不特定話者音声認識用音響パターンの特徴ベクト
ルにより置き換えた第２の入力パターンと第2の標準パ
ターンの特徴ベクトル間の相違度に基づいて求める
（１）の話者認識方法。

【００１５】（３）前記入力パターンと標準パターンと
の時間軸対応付けを行なって得られる前記入力パターン
と標準パターンを構成する音素のうち一致する音素情報
のみに基づいて前記入力パターンと標準パターンの相違
度を求め、求められた相違度に基づいて話者の認識を行
なう（１）の話者認識方法。

【００１６】（４）前記時間軸対応付けは、不特定話者
により学習されたガーベージモデルに基づいて行なう
（３）の話者認識方法。

【００１７】（５）前記時間軸の対応付けは、登録音声
及び入力音声を一旦不特定話者の音響空間に写像し、写
像後の音声間の相違度により写像前の音声間の相違度を
求める（１）の話者認識方法。

【００１８】（６）入力音声を特徴パラメータ時系列で
ある入力パターンに変換し、予め各話者毎に登録されて
いる標準パターンとの相違度を求めることにより前記入
力音声を発生した話者の認識を行う発生内容に依存しな
い話者認識方法において、前記入力パターンと標準パタ
ーンの発生内容を音声認識により決定し、得られた発生
内容情報から入力パターンと標準パターンの発生内容の
一致する区間を求め前記相違度を求める話者認識方法。

【００１９】（７）前記入力パターンと標準パターンを
構成する各特徴ベクトルを、対応付けられた不特定話者
音声認識用音響パターンの特徴ベクトルにより置き換え
た第2の入力パターンと第2の標準パターンの特徴ベクト
ル間の相違度から発生内容の一致する区間を求める
（６）の話者認識方法。

【００２０】（８）入力音声を特徴パラメータ時系列で
ある入力パターンに変換し、予め各話者毎に登録されて
いる標準パターンとの相違度を求めることにより前記入
力音声を発生した話者の認識を行う発生内容に依存しな
い話者認識装置において、前記入力パターンと標準パタ
ーンの発生内容を音声認識により決定する音声認識手段
と、得られた発生内容情報から入力パターンと標準パタ
ーンの発生内容の一致する区間を求める一致区間決定手
段と、求められた一致区間における前記入力パターンと
標準パターンとの相違度を求める相違度算定手段とを備
えて成る話者認識装置。

【００２１】（９）前記一致区間決定手段は、前記入力
パターンと標準パターンを構成する各特徴ベクトルを、
対応付けられた不特定話者音声認識用音響パターンの特
徴ベクトルにより置き換えた第2の入力パターンと第2の
標準パターンの特徴ベクトル間の相違度から発生内容の
一致する区間を求める（８）の話者認識装置。

【００２２】

【発明の実施の形態】以下、図面を参照して、本発明に
よる話者認識装置の好適実施形態を詳細に説明する。

【００２３】本発明では、入力パターンと標準パターン
のそれぞれを音声認識を用いて発生内容を推定すること
により、発話内容及び話者に依存しない高精度の発生内
容の一致する区間の推定を実現し、それにより高精度の
発話内容に依存しない話者認識装置を実現している。

【００２４】ある音声の発声内容及びその音素区間を決
定する技術は、セグメンテーションと呼ばれ、音声認識
で広く用いられている。例えば、藤原他「ＨＭＭとスペ
クトリグラムリーディング知識に基づくハイブリッド音
素セグメンテーションシステムの構想」、日本音響学会
講演論文誌、ｐｐ．８５−８６、（１９９１．３）（以
下文献２）が挙げられる。

【００２５】文献２では、セグメンテーションの対象と
なる各音素を隠れマルコフモデル（ＨＭＭ）により表現
し、セグメンテーション対象の単語の発声内容に従って
上記音素モデルを連結し単語モデルを作成し、入力音声
との時間軸対応付け結果を基に音素境界を決定（Viterb
i decoding）している。この方式を発声内容に依存しな
い話者照合に用いるにあたっては入力音声の発声内容が
未知であるため、日本語に生じる全ての音素系列を生成
できるモデルとの時間軸対応付けを行なえばよい。その
際に不特定話者音声により学習されたガーベージモデル
を用いることにより、予め入力話者の音声登録を必要と
せずに任意の話者の任意の音声のセグメンテーションが
可能となる。

【００２６】このようにして登録音声と入力音声の発生
内容及び区間が決定した後は登録音声と入力音声にとも
に含まれる音素区間を用いて相違度を決定することが出
来る。入力音声特徴パラメータ系列をｘi￣（サンプル
数Ｉ）と登録音声特徴パラメータ系列をｙj￣（サンプ
ル数Ｊ）とし、一致する音素をｐ,（１≦ｐ≦Ｐ）、ｐ
番目の音素の入力音声及び登録音声の始端、終端をそれ
ぞれ、ｉs(p)、ｉc(p)、ｊs(p)、ｊs(p)、（１≦ｐ≦
Ｐ）とすると、例えば相違度Ｄは、

【数５】として求めることができる。

【００２７】このようにすることで一致する音素のみを
用いて相違度を評価することができ、高精度な認識装置
が実現できる。

【００２８】また、明示的に区間を決定する代わりに時
間軸の対応付け結果をもとに、登録音声及び入力音声を
一旦不特定話者の音響空間に写像し、写像後の音声間の
相違度により写像前の音声間の相違度を求めることも可
能である。これは一旦不特定話者の音響空間に写像する
ことで話者性や周囲雑音の影響を排除することで相違度
の推定の精度を高めるものである。

【００２９】今、入力音声と不特定話者の音響モデルと
の時間軸対応付けにより入力音声サンプルｉと不特定話
者の音響モデルの特徴パラメータｒs￣の対応ｓ＝ｇ
（ｉ）が得られているものとすると、このｇ（ｉ）より
入力音声ｘi￣を不特定話者の音響空間に写像したｕi￣
は以下のように求められる。

【数６】

【００３０】同様に登録音声ｙj￣を不特定話者の音響
空間に写像したｗj￣は登録音声サンプルｊと不特定話
者の音響モデルの特徴パラメータｒt￣の対応ｔ＝ｈ
（ｊ）を用いて

【数７】として求められる。特徴パラメータｘi￣、ｙj￣には音
韻情報、話者情報、周囲雑音等の種々の情報が含まれて
おり、発生内容の一致を検証する場合には、着目してい
る音韻情報以外の情報の異なりが相違度の評価に影響を
与えるため精度の低下を招く。しかし、このようにして
得られたｕi￣、ｗj￣は不特定話者の音響的情報しかも
たないため、発生内容の一致の検証が容易となる。

【００３１】図４には、ある話者が発生した３桁数字
“いちにいぜろ（１２０）”を登録音声、“きゅういち
ぜろ（９１０）”を入力音声とした場合の対数パワー
と、直接ｘi￣、ｙj￣から求めた距離Ｄ（ｉ）と、写像
後のｘi￣、ｙj￣から求めた距離Ｄ（ｉ）の関係が示さ
れている。図中には、スペクトルの目視により求めた単
語境界を合わせて示してある。図からわかるように直接
ｘi￣、ｙj￣から求めた場合には、値が非常にばらつい
ており、閾値との比較により発声内容の一致を決定する
ことが困難であるのに対し、ｕi￣、ｗj￣から求めた場
合には値が安定しており、発声内容が一致している“い
ちぜろ（１０）”部分の検出が容易となっていることが
わかる。

【００３２】そこで、ｕi￣、ｗj￣から求められた距離
に基づいてｕi￣、ｗj￣から求められる距離に対する重
み関数を決定することで、音韻の一致の度合を反映した
相違度が定義できる。例えば、ｘi￣、ｙj￣の相違度Ｄ
xyとして、

【数８】を用いる。あるいは予め定められた閾値θを用いて

【数９】として相違度を求める。Ｄxy及びＷとしては種々の定義
が可能であり、本発明は上に限るものではない。

【００３３】このように、本発明によれば、変動要因を
含んだ音声を音韻性の異なりのみをもつ音響空間に写像
した後に登録音声と入力音声の発声内容の一致区間を判
定するため、話者や単語、環境によらず安定した区間の
検出が可能となり、高精度の話者認識装置が実現でき
る。

【００３４】また、写像後のベクトルは既知の音響特徴
ベクトルであるため、Ｄuw（ｉ）やＤuw（ｉ、ｊ）を予
め計算しておくことで、照合時の計算量を削減すること
が可能である。

【００３５】本発明による話者認識装置の第1の実施形
態の構成図が図１に示されている。端子１１０には、登
録あるいは照合を行なうかの動作の別と、話者を示す話
者番号が入力される。先ず、端子１１０から入力された
動作が登録である場合について説明する。

【００３６】端子１００に入力された音声は、分析部１
０１で特徴ベクトル系列に変換され、記憶部１０２に一
旦記憶される。特徴ベクトルとしては、例えば古井著、
「ディジタル音声処理」、東海大学出版会（以下文献
３）に挙げられているＦＦＴ分析、線形予測分析等によ
り得られるケプストラム、ＬＰＣ係数、これらの時間変
化量等が利用可能である。

【００３７】時間軸対応付け部１０４は、不特定話者音
声認識用標準パターン記憶部１０３から不特定話者の音
声認識用標準パターンを読み出し、記憶部１０２に蓄え
られている入力ベクトル系列との時間軸対応付けを行な
い、話者標準パターン記憶部１０５に入力ベクトル系列
と時間軸対応付けの結果を端子１１０から入力された話
者番号に対応した情報として記憶させ登録する。

【００３８】次に、端子１１０から入力された動作が照
合である場合について説明する。端子１００に入力され
た音声は、分析部１０１で特徴ベクトル系列に変換され
記憶部１０２に一旦記憶される。

【００３９】時間軸対応付け部１０４は、不特定話者音
声認識用標準パターン記憶部１０３から不特定話者の音
声認識用標準パターンを読み出し、記憶部１０２に蓄え
られている入力ベクトル系列との時間軸対応付けを行な
い、時間軸対応付けの結果を照合区間決定部１０６に送
る。

【００４０】照合区間決定部１０６は、時間軸対応付け
部１０４から受け取った入力音声の時間軸対応付け結果
と、話者標準パターン記憶部１０５から読み出した端子
１１０から入力された話者番号に対応する時間軸対応付
け結果を受け取り、照合区間を決定する。

【００４１】照合部１０７は、話者標準パターン記憶部
１０５から読み出した端子１１０から入力された話者番
号に対応する特徴ベクトル系列と、記憶部１０２から読
み出した入力音声の特徴ベクトル系列との相違度を、照
合区間決定部１０６で決定された照合区間を用いて計算
する。

【００４２】判定部１０８は、照合部１０７で求められ
た相違度が閾値よりも小さければ同一話者であると判定
し、大きければ異なる話者であると判定し、端子１０９
に出力する。

【００４３】本発明による話者認識装置の第２の実施形
態の構成図が図２に示されている。端子２１０には、登
録あるいは照合を行なうかの動作の別と、話者を示す話
者番号が入力される。

【００４４】始めに、端子２１０から入力された動作が
登録である場合について説明する。端子２００に入力さ
れた音声は、分析部２０１で特徴ベクトル系列に変換さ
れ記憶部２０２に一旦記憶される。特徴ベクトルとして
は、例えば、古井著、「ディジタル音声処理」、東海大
学出版会（以下文献３）にあげられているＦＦＴ分析、
線形予測分析等により得られるケプストラム、ＬＰＣ係
数、これらの時間変化量等が利用可能である。

【００４５】ベクトル写像部２０４は、不特定話者音声
認識用標準パターン記憶部２０３から不特定話者の音声
認識用標準パターンを読み出し、記憶部２０２に蓄えら
れている入力ベクトル系列との時間軸対応付けを行な
い、その結果から入力ベクトル系列を不特定話者の音響
空間に写像した写像後ベクトル系列を作成し、話者標準
パターン記憶部２０５に入力ベクトル系列と写像後ベク
トル系列を、端子２１０から入力された話者番号に対応
した情報として記憶させて登録する。

【００４６】次に、端子２１０から入力された動作が照
合である場合について説明する。端子２００に入力され
た音声は、分析部２０１で特徴ベクトル系列に変換され
記憶部２０２に一旦記憶される。

【００４７】ベクトル写像部２０４は、不特定話者音声
認識用標準パターン記憶部２０３から不特定話者の音声
認識用標準パターンを読み出し、記憶部２０２に蓄えら
れている入力ベクトル系列との時間軸対応付けを行な
い、その結果から入力ベクトル系列を不特定話者の音響
空間に写像した写像後ベクトル系列を作成し、ベクトル
間距離計算部２０６に送出する。

【００４８】ベクトル間距離計算部２０６は、ベクトル
写像部２０４から入力音声の写像後ベクトル系列と、話
者標準パターン記憶部２０５から端子２１０から入力さ
れた話者番号に対応する写像後ベクトル系列を受け取
り、写像後ベクトル間の距離を求める。

【００４９】照合部２０７は、ベクトル間距離計算部２
０６から受け取った写像後ベクトル間の距離を基に話者
標準パターン記憶部２０５から読み出した端子２１０か
ら入力された話者番号に対応する特徴ベクトル系列と記
憶部２０２から読み出した入力音声の特徴ベクトル系列
との相違度を計算する。

【００５０】判定部２０８は、照合部２０７で求められ
た相違度が閾値よりも小さければ同一話者であると判定
し、大きければ異なる話者であると判定し、端子２０９
に出力する。

【００５１】本発明による話者認識装置の第３の実施形
態の構成図が図３に示されている。端子３１０には、登
録あるいは照合を行なうかの動作の別と、話者を示す話
者番号が入力される。

【００５２】始めに端子３１０から入力された動作が登
録である場合について説明する。端子３００に入力され
た音声は、分析部３０１で特徴ベクトル系列に変換され
記憶部３０２に一旦記憶される。特徴ベクトルとして
は、例えば古井著、「ディジタル音声処理」、東海大学
出版会（以下文献３）にあげられているＦＦＴ分析、線
形予測分析等により得られるケプストラム、ＬＰＣ係
数、これらの時間変化量等が利用可能である。

【００５３】時間軸対応付け部３０４は、不特定話者音
声認識用標準パターン記憶部３０３から不特定話者の音
声認識用標準パターンを読み出し、記憶部３０２に蓄え
られている入力ベクトル系列との時間軸対応付けを行な
い、話者標準パターン記憶部３０５に入力ベクトル系列
と時間軸対応付けの結果を端子３１０から入力された話
者番号に対応した情報として記憶させ、登録する。

【００５４】次に、端子３１０から入力された動作が照
合である場合について説明する。端子３００に入力され
た音声は、分析部３０１で特徴ベクトル系列に変換され
記憶部３０２に一旦記憶される。

【００５５】時間軸対応付け部３０４は、不特定話者音
声認識用標準パターン記憶部３０３から不特定話者の音
声認識用標準パターンを読み出し、記憶部３０２に蓄え
られている入力ベクトル系列との時間軸対応付けを行な
い、時間軸対応付けの結果をベクトル間距離決定部３０
６に送る。

【００５６】ベクトル間距離記憶部３１１は、不特定話
者音声認識用標準パターン記憶部３０３に含まれる特徴
ベクトル間の距離が蓄えられている。

【００５７】ベクトル間距離決定部３０６は、時間軸対
応付け部３０４から受け取った入力音声の時間軸対応付
け結果と、話者標準パターン記憶部３０５から読み出し
た端子３１０から入力された話者番号に対応する時間軸
対応結果を受け取り、ベクトル間距離記憶部３１１から
写像後ベクトル間距離を読み出す。

【００５８】照合部３０７は、ベクトル間距離決定部３
０６から受け取った写像後ベクトル間の距離を基に話者
標準パターン記憶部３０５から読み出した端子３１０か
ら入力された話者番号に対応する特徴ベクトル系列と記
憶部３０２から読み出した入力音声の特徴ベクトル系列
との相違度を計算する。

【００５９】判定部３０８は、照合部３０７で求められ
た相違度が閾値よりも小さければ同一話者であると判定
し、大きければ異なる話者であると判定し、端子３０９
に出力する。

【００６０】

【発明の効果】以上説明したように、本発明の話者認識
装置によれば、話者や環境によらず安定して高性能な話
者認識装置が実現できる。

【図面の簡単な説明】

【図１】本発明の第１実施形態に係る話者認識装置の構
成を示すブロック図である。

【図２】本発明の第２実施形態に係る話者認識装置の構
成を示すブロック図である。

【図３】本発明の第３実施形態に係る話者認識装置の構
成を示すブロック図である。

【図４】本発明の動作を説明するための図である。

【図５】従来の話者認識装置を説明するための図であ
る。

【符号の説明】１００，２００，３００入力端子１０１，２０１，３０１分析部１０２，２０２，３０２記憶部１０３，２０３，３０３不特定話者音声認識用標
準パターン記憶部１０４，３０４時間軸対応付け部１０５，２０５，３０５話者標準パターン記憶部１０６照合区間決定部１０７，２０７，３０７照合部１０８，２０８，３０８判定部１０９，２０９，３０９出力端子１１０，２１０，３１０制御端子２０４ベクトル写像部２０６ベクトル間距離計算部３０６ベクトル間距離決定部３１１ベクトル間距離記憶部

フロントページの続き (56)参考文献特開昭63−157199（ＪＰ，Ａ) 特許2815667（ＪＰ，Ｂ２) 特公昭57−22120（ＪＰ，Ｂ２) 特公平３−16038（ＪＰ，Ｂ２) 特公平６−32003（ＪＰ，Ｂ２) 特公平６−32007（ＪＰ，Ｂ２) 特公平３−45417（ＪＰ，Ｂ２) 特公平４−5198（ＪＰ，Ｂ２) 欧州特許出願公開940802（ＥＰ，Ａ２) 日本音響学会平成３年度春季研究発表会講演論文集▲Ｉ▼ ２−５−16「ＨＭＭとスペクトログラムリーディング知識に基づくハイブリッド音素セグメンテーションシステムの構想」ｐ．85−86（平成３年８月５日国立国会図書館受入) 電子情報通信学会技術研究報告［音声］Ｖｏｌ．95，Ｎｏ．431，ＳＰ95− 107，「疑似的学習データを用いた単語スポッティング用ガーベージモデル学習法」ｐ．99−104 日本音響学会平成10年度春季研究発表会講演論文集▲Ｉ▼ ２−６−７「話者照合における連続音節認識による登録パターン作成方法」ｐ．67−68（平成10年３月17日発行) ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥ 1993 ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，Ｖｏｌ．２，”ＡｐｐｌｉｃａｔｉｏｎｏｆＬａｒｇｅＶｏｃａｂｕｌａｒｙＣｏｎｔｉｎｕｏｕｓＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎｔｏＴｏｐｉｃａｎｄＳｐｅａｋｅｒＩｎｄｅｎｔｉｆｉｃａｔｉｏｎｕｓｉｎｇＴｅｌｅｐｈｏｎｅＳｐｅｅｃｈ”ｐ．ＩＩ−471〜ＩＩ−474 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 17/00 G10L 11/02 G10L 15/04 G10L 15/10 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】入力音声を特徴パラメータ時系列に変換し
て得られる入力パターンと、予め各話者毎に登録されて
いる特徴パラメータ時系列である標準パターンとの相違
度に基づいて前記入力音声を発生した話者の認識を行う
話者認識方法において、前記入力パターンと標準パターンの発生内容を音声認識
により得、得られた発生内容情報に基づいて前記入力パ
ターンと標準パターンの発生内容の一致する一致区間を
求め、前記求められた一致区間における前記入力パター
ンと標準パターンの相違度を求め、求められた相違度に
基づいて前記入力音声を発生した話者の認識を行うこと
を特徴とする話者認識方法。
【請求項２】前記一致区間は、前記入力パターンと標準
パターンを構成する各特徴ベクトルを、対応付けられた
不特定話者音声認識用音響パターンの特徴ベクトルによ
り置き換えた第２の入力パターンと第2の標準パターン
の特徴ベクトル間の相違度に基づいて求める請求項１に
記載の話者認識方法。
【請求項３】前記入力パターンと標準パターンとの時間
軸対応付けを行なって得られる前記入力パターンと標準
パターンを構成する音素のうち一致する音素情報のみに
基づいて前記入力パターンと標準パターンの相違度を求
め、求められた相違度に基づいて話者の認識を行なう請
求項１に記載の話者認識方法。
【請求項４】前記時間軸対応付けは、不特定話者により
学習されたガーベージモデルに基づいて行なう請求項３
に記載の話者認識方法。
【請求項５】前記時間軸の対応付けは、登録音声及び入
力音声を一旦不特定話者の音響空間に写像し、写像後の
音声間の相違度により写像前の音声間の相違度を求める
請求項１に記載の話者認識方法。
【請求項６】入力音声を特徴パラメータ時系列である入
力パターンに変換し、予め各話者毎に登録されている標
準パターンとの相違度を求めることにより前記入力音声
を発生した話者の認識を行う発生内容に依存しない話者
認識方法において、前記入力パターンと標準パターンの発生内容を音声認識
により決定し、得られた発生内容情報から入力パターン
と標準パターンの発生内容の一致する区間を求め前記相
違度を求めることを特徴とする話者認識方法。
【請求項７】前記入力パターンと標準パターンを構成す
る各特徴ベクトルを、対応付けられた不特定話者音声認
識用音響パターンの特徴ベクトルにより置き換えた第2
の入力パターンと第2の標準パターンの特徴ベクトル間
の相違度から発生内容の一致する区間を求める請求項６
に記載の話者認識方法。
【請求項８】入力音声を特徴パラメータ時系列である入
力パターンに変換し、予め各話者毎に登録されている標
準パターンとの相違度を求めることにより前記入力音声
を発生した話者の認識を行う発生内容に依存しない話者
認識装置において、前記入力パターンと標準パターンの発生内容を音声認識
により決定する音声認識手段と、得られた発生内容情報
から入力パターンと標準パターンの発生内容の一致する
区間を求める一致区間決定手段と、求められた一致区間
における前記入力パターンと標準パターンとの相違度を
求める相違度算定手段とを備えて成ることを特徴とする
話者認識装置。
【請求項９】前記一致区間決定手段は、前記入力パター
ンと標準パターンを構成する各特徴ベクトルを、対応付
けられた不特定話者音声認識用音響パターンの特徴ベク
トルにより置き換えた第2の入力パターンと第2の標準パ
ターンの特徴ベクトル間の相違度から発生内容の一致す
る区間を求める請求項８に記載の話者認識装置。