JP3075250B2 - 話者認識方法及び装置 - Google Patents

話者認識方法及び装置

Info

Publication number
JP3075250B2
JP3075250B2 JP10069515A JP6951598A JP3075250B2 JP 3075250 B2 JP3075250 B2 JP 3075250B2 JP 10069515 A JP10069515 A JP 10069515A JP 6951598 A JP6951598 A JP 6951598A JP 3075250 B2 JP3075250 B2 JP 3075250B2
Authority
JP
Japan
Prior art keywords
speaker
pattern
input
difference
standard pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP10069515A
Other languages
English (en)
Other versions
JPH11249685A (ja
Inventor
浩明 服部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP10069515A priority Critical patent/JP3075250B2/ja
Priority to US09/262,083 priority patent/US6349280B1/en
Priority to EP99103902A priority patent/EP0940802A3/en
Publication of JPH11249685A publication Critical patent/JPH11249685A/ja
Application granted granted Critical
Publication of JP3075250B2 publication Critical patent/JP3075250B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は話者認識方法及び装
置に関し、特に音声を用いて本人の認識、認証を行なう
話者認識装置及び方法に関する。
【0002】
【従来の技術】従来、発生内容に依存しない話者認識に
おいては、話者が発生した音声の特徴パラメータを登録
しておき、入力音声の特徴パラメータとの相違度を求め
判定を行なう手法が一般的に行われている。
【0003】入力音声系列をxi ̄(サンプル数I)、
登録音声系列をyj ̄(サンプル数J)とするとこれら
の相違度Doldを、次式に基づいて求める。尚、以下に
おいて、 ̄は、ベクトルを示す記号であり、例えば、x
i ̄、yj ̄は、それぞれ、
【数1】 を示す。
【数2】
【0004】ここで、‖・‖はユークリッド距離であ
る。この際、計算量及び記憶容量を削減するために音声
の特徴ベクトル系列そのままではなく、ベクトル量子化
した特徴ベクトルck ̄を標準パターンとして蓄えてお
き、
【数3】 とする場合もある。
【0005】これらの場合、相違度を精度よく求めるた
めには、入力音声中に含まれる音声が予めすべて登録さ
れていなければならないため、長時間の音声を用いた話
者登録が行われる。ユーザへの負担を考慮すると、登録
に必要な音声はできるだけ少ない方が好ましいが、その
場合登録されていない音素が入力音声に含まれる頻度が
増加するため、照合精度が低下してしまうという問題が
ある。
【0006】これを解決する一つの手法として、例え
ば、特願平2−76296(以下、文献1)の入力音声
と登録音声との重なり部の大きさと、その重なり部間の
距離を利用して類似度を求める方法が利用できる。
【0007】文献1では、図5に示すように、重なり部
の大きさとして入力音声の分布と標準パターンの分布の
重なり部に含まれる入力音声中のサンプル数を求める重
なり部の大きさ計算部と、その重なり部の要素間距離を
計算する部を持ち、各計算結果を基に入力音声と標準パ
ターンの相違度を求める。
【数4】
【0008】すなわち、予め標準パターンの各要素kの
覆う範囲lkを決定しておき、入力パターンと標準パタ
ーンの最近傍の要素との距離diが当該要素の覆う範囲
を越える場合には、別に定めるペナルティdoutを距離
として入力パターンの全特徴ベクトルについて加算し、
それを重なり部の大きさUmaxで正規化を行なってい
る。
【0009】
【発明が解決しようとする課題】しかしながら、この方
法では、正規化に用いるUmaxを全ての標準パターンか
ら求めているため、話者毎に異なる内容の音声を用いて
登録を行った場合、ある話者の入力音声の発生内容が別
の話者の登録音声に近い場合が生じる。この場合、Uma
xが不当に大きく評価されてしまう場合が生じ性能低下
を招くため、登録音声の発生内容に含まれる音素の種別
は概ね等しい必要がある。
【0010】また、文献1では、標準パターンの各要素
の覆う範囲を、各標準パターンを作成する際に一つのク
ラスタ(要素ck ̄)の中心からそのクラスタに含まれ
る特徴パラメータの中の最も遠いものまでの距離で決定
している。しかし、同じ音素であっても話者が異なる場
合には特徴パラメータの広がりは多様であるため、分布
の重なりの安定した推定は困難である。
【0011】そこで、本発明は、入力音声と登録音声の
相違度を比較する際に、音声認識を用いて発生内容の一
致/不一致を判断することで、話者によらず安定した判
断が可能であり、かつ、さまざまな音声を用いて登録が
行うことが可能な話者認識装置を提供するものである。
【0012】
【課題を解決するための手段】前述の課題を解決するた
めに、本発明による話者認識装置は、次のような特徴的
な構成を備えている。
【0013】(1)入力音声を特徴パラメータ時系列に
変換して得られる入力パターンと、予め各話者毎に登録
されている特徴パラメータ時系列である標準パターンと
の相違度に基づいて前記入力音声を発生した話者の認識
を行う話者認識方法において、前記入力パターンと標準
パターンの発生内容を音声認識により得、得られた発生
内容情報に基づいて前記入力パターンと標準パターンの
発生内容の一致する一致区間を求め、前記求められた一
致区間における前記入力パターンと標準パターンの相違
度を求め、求められた相違度に基づいて前記入力音声を
発生した話者の認識を行う話者認識方法。
【0014】(2)前記一致区間は、前記入力パターン
と標準パターンを構成する各特徴ベクトルを、対応付け
られた不特定話者音声認識用音響パターンの特徴ベクト
ルにより置き換えた第2の入力パターンと第2の標準パ
ターンの特徴ベクトル間の相違度に基づいて求める
(1)の話者認識方法。
【0015】(3)前記入力パターンと標準パターンと
の時間軸対応付けを行なって得られる前記入力パターン
と標準パターンを構成する音素のうち一致する音素情報
のみに基づいて前記入力パターンと標準パターンの相違
度を求め、求められた相違度に基づいて話者の認識を行
なう(1)の話者認識方法。
【0016】(4)前記時間軸対応付けは、不特定話者
により学習されたガーベージモデルに基づいて行なう
(3)の話者認識方法。
【0017】(5)前記時間軸の対応付けは、登録音声
及び入力音声を一旦不特定話者の音響空間に写像し、写
像後の音声間の相違度により写像前の音声間の相違度を
求める(1)の話者認識方法。
【0018】(6)入力音声を特徴パラメータ時系列で
ある入力パターンに変換し、予め各話者毎に登録されて
いる標準パターンとの相違度を求めることにより前記入
力音声を発生した話者の認識を行う発生内容に依存しな
い話者認識方法において、前記入力パターンと標準パタ
ーンの発生内容を音声認識により決定し、得られた発生
内容情報から入力パターンと標準パターンの発生内容の
一致する区間を求め前記相違度を求める話者認識方法。
【0019】(7)前記入力パターンと標準パターンを
構成する各特徴ベクトルを、対応付けられた不特定話者
音声認識用音響パターンの特徴ベクトルにより置き換え
た第2の入力パターンと第2の標準パターンの特徴ベクト
ル間の相違度から発生内容の一致する区間を求める
(6)の話者認識方法。
【0020】(8)入力音声を特徴パラメータ時系列で
ある入力パターンに変換し、予め各話者毎に登録されて
いる標準パターンとの相違度を求めることにより前記入
力音声を発生した話者の認識を行う発生内容に依存しな
い話者認識装置において、前記入力パターンと標準パタ
ーンの発生内容を音声認識により決定する音声認識手段
と、得られた発生内容情報から入力パターンと標準パタ
ーンの発生内容の一致する区間を求める一致区間決定手
段と、求められた一致区間における前記入力パターンと
標準パターンとの相違度を求める相違度算定手段とを備
えて成る話者認識装置。
【0021】(9)前記一致区間決定手段は、前記入力
パターンと標準パターンを構成する各特徴ベクトルを、
対応付けられた不特定話者音声認識用音響パターンの特
徴ベクトルにより置き換えた第2の入力パターンと第2の
標準パターンの特徴ベクトル間の相違度から発生内容の
一致する区間を求める(8)の話者認識装置。
【0022】
【発明の実施の形態】以下、図面を参照して、本発明に
よる話者認識装置の好適実施形態を詳細に説明する。
【0023】本発明では、入力パターンと標準パターン
のそれぞれを音声認識を用いて発生内容を推定すること
により、発話内容及び話者に依存しない高精度の発生内
容の一致する区間の推定を実現し、それにより高精度の
発話内容に依存しない話者認識装置を実現している。
【0024】ある音声の発声内容及びその音素区間を決
定する技術は、セグメンテーションと呼ばれ、音声認識
で広く用いられている。例えば、藤原他「HMMとスペ
クトリグラムリーディング知識に基づくハイブリッド音
素セグメンテーションシステムの構想」、日本音響学会
講演論文誌、pp.85−86、(1991.3)(以
下文献2)が挙げられる。
【0025】文献2では、セグメンテーションの対象と
なる各音素を隠れマルコフモデル(HMM)により表現
し、セグメンテーション対象の単語の発声内容に従って
上記音素モデルを連結し単語モデルを作成し、入力音声
との時間軸対応付け結果を基に音素境界を決定(Viterb
i decoding)している。この方式を発声内容に依存しな
い話者照合に用いるにあたっては入力音声の発声内容が
未知であるため、日本語に生じる全ての音素系列を生成
できるモデルとの時間軸対応付けを行なえばよい。その
際に不特定話者音声により学習されたガーベージモデル
を用いることにより、予め入力話者の音声登録を必要と
せずに任意の話者の任意の音声のセグメンテーションが
可能となる。
【0026】このようにして登録音声と入力音声の発生
内容及び区間が決定した後は登録音声と入力音声にとも
に含まれる音素区間を用いて相違度を決定することが出
来る。入力音声特徴パラメータ系列をxi ̄(サンプル
数I)と登録音声特徴パラメータ系列をyj ̄(サンプ
ル数J)とし、一致する音素をp,(1≦p≦P)、p
番目の音素の入力音声及び登録音声の始端、終端をそれ
ぞれ、is(p)、ic(p)、js(p)、js(p)、(1≦p≦
P)とすると、例えば相違度Dは、
【数5】 として求めることができる。
【0027】このようにすることで一致する音素のみを
用いて相違度を評価することができ、高精度な認識装置
が実現できる。
【0028】また、明示的に区間を決定する代わりに時
間軸の対応付け結果をもとに、登録音声及び入力音声を
一旦不特定話者の音響空間に写像し、写像後の音声間の
相違度により写像前の音声間の相違度を求めることも可
能である。これは一旦不特定話者の音響空間に写像する
ことで話者性や周囲雑音の影響を排除することで相違度
の推定の精度を高めるものである。
【0029】今、入力音声と不特定話者の音響モデルと
の時間軸対応付けにより入力音声サンプルiと不特定話
者の音響モデルの特徴パラメータrs ̄の対応s=g
(i)が得られているものとすると、このg(i)より
入力音声xi ̄を不特定話者の音響空間に写像したui ̄
は以下のように求められる。
【数6】
【0030】同様に登録音声yj ̄を不特定話者の音響
空間に写像したwj ̄は登録音声サンプルjと不特定話
者の音響モデルの特徴パラメータrt ̄の対応t=h
(j)を用いて
【数7】 として求められる。特徴パラメータxi ̄、yj ̄には音
韻情報、話者情報、周囲雑音等の種々の情報が含まれて
おり、発生内容の一致を検証する場合には、着目してい
る音韻情報以外の情報の異なりが相違度の評価に影響を
与えるため精度の低下を招く。しかし、このようにして
得られたui ̄、wj ̄は不特定話者の音響的情報しかも
たないため、発生内容の一致の検証が容易となる。
【0031】図4には、ある話者が発生した3桁数字
“いちにいぜろ(120)”を登録音声、“きゅういち
ぜろ(910)”を入力音声とした場合の対数パワー
と、直接xi ̄、yj ̄から求めた距離D(i)と、写像
後のxi ̄、yj ̄から求めた距離D(i)の関係が示さ
れている。図中には、スペクトルの目視により求めた単
語境界を合わせて示してある。図からわかるように直接
xi ̄、yj ̄から求めた場合には、値が非常にばらつい
ており、閾値との比較により発声内容の一致を決定する
ことが困難であるのに対し、ui ̄、wj ̄から求めた場
合には値が安定しており、発声内容が一致している“い
ちぜろ(10)”部分の検出が容易となっていることが
わかる。
【0032】そこで、ui ̄、wj ̄から求められた距離
に基づいてui ̄、wj ̄から求められる距離に対する重
み関数を決定することで、音韻の一致の度合を反映した
相違度が定義できる。例えば、xi ̄、yj ̄の相違度D
xyとして、
【数8】 を用いる。あるいは予め定められた閾値θを用いて
【数9】 として相違度を求める。Dxy及びWとしては種々の定義
が可能であり、本発明は上に限るものではない。
【0033】このように、本発明によれば、変動要因を
含んだ音声を音韻性の異なりのみをもつ音響空間に写像
した後に登録音声と入力音声の発声内容の一致区間を判
定するため、話者や単語、環境によらず安定した区間の
検出が可能となり、高精度の話者認識装置が実現でき
る。
【0034】また、写像後のベクトルは既知の音響特徴
ベクトルであるため、Duw(i)やDuw(i、j)を予
め計算しておくことで、照合時の計算量を削減すること
が可能である。
【0035】本発明による話者認識装置の第1の実施形
態の構成図が図1に示されている。端子110には、登
録あるいは照合を行なうかの動作の別と、話者を示す話
者番号が入力される。先ず、端子110から入力された
動作が登録である場合について説明する。
【0036】端子100に入力された音声は、分析部1
01で特徴ベクトル系列に変換され、記憶部102に一
旦記憶される。特徴ベクトルとしては、例えば古井著、
「ディジタル音声処理」、東海大学出版会(以下文献
3)に挙げられているFFT分析、線形予測分析等によ
り得られるケプストラム、LPC係数、これらの時間変
化量等が利用可能である。
【0037】時間軸対応付け部104は、不特定話者音
声認識用標準パターン記憶部103から不特定話者の音
声認識用標準パターンを読み出し、記憶部102に蓄え
られている入力ベクトル系列との時間軸対応付けを行な
い、話者標準パターン記憶部105に入力ベクトル系列
と時間軸対応付けの結果を端子110から入力された話
者番号に対応した情報として記憶させ登録する。
【0038】次に、端子110から入力された動作が照
合である場合について説明する。端子100に入力され
た音声は、分析部101で特徴ベクトル系列に変換され
記憶部102に一旦記憶される。
【0039】時間軸対応付け部104は、不特定話者音
声認識用標準パターン記憶部103から不特定話者の音
声認識用標準パターンを読み出し、記憶部102に蓄え
られている入力ベクトル系列との時間軸対応付けを行な
い、時間軸対応付けの結果を照合区間決定部106に送
る。
【0040】照合区間決定部106は、時間軸対応付け
部104から受け取った入力音声の時間軸対応付け結果
と、話者標準パターン記憶部105から読み出した端子
110から入力された話者番号に対応する時間軸対応付
け結果を受け取り、照合区間を決定する。
【0041】照合部107は、話者標準パターン記憶部
105から読み出した端子110から入力された話者番
号に対応する特徴ベクトル系列と、記憶部102から読
み出した入力音声の特徴ベクトル系列との相違度を、照
合区間決定部106で決定された照合区間を用いて計算
する。
【0042】判定部108は、照合部107で求められ
た相違度が閾値よりも小さければ同一話者であると判定
し、大きければ異なる話者であると判定し、端子109
に出力する。
【0043】本発明による話者認識装置の第2の実施形
態の構成図が図2に示されている。端子210には、登
録あるいは照合を行なうかの動作の別と、話者を示す話
者番号が入力される。
【0044】始めに、端子210から入力された動作が
登録である場合について説明する。端子200に入力さ
れた音声は、分析部201で特徴ベクトル系列に変換さ
れ記憶部202に一旦記憶される。特徴ベクトルとして
は、例えば、古井著、「ディジタル音声処理」、東海大
学出版会(以下文献3)にあげられているFFT分析、
線形予測分析等により得られるケプストラム、LPC係
数、これらの時間変化量等が利用可能である。
【0045】ベクトル写像部204は、不特定話者音声
認識用標準パターン記憶部203から不特定話者の音声
認識用標準パターンを読み出し、記憶部202に蓄えら
れている入力ベクトル系列との時間軸対応付けを行な
い、その結果から入力ベクトル系列を不特定話者の音響
空間に写像した写像後ベクトル系列を作成し、話者標準
パターン記憶部205に入力ベクトル系列と写像後ベク
トル系列を、端子210から入力された話者番号に対応
した情報として記憶させて登録する。
【0046】次に、端子210から入力された動作が照
合である場合について説明する。端子200に入力され
た音声は、分析部201で特徴ベクトル系列に変換され
記憶部202に一旦記憶される。
【0047】ベクトル写像部204は、不特定話者音声
認識用標準パターン記憶部203から不特定話者の音声
認識用標準パターンを読み出し、記憶部202に蓄えら
れている入力ベクトル系列との時間軸対応付けを行な
い、その結果から入力ベクトル系列を不特定話者の音響
空間に写像した写像後ベクトル系列を作成し、ベクトル
間距離計算部206に送出する。
【0048】ベクトル間距離計算部206は、ベクトル
写像部204から入力音声の写像後ベクトル系列と、話
者標準パターン記憶部205から端子210から入力さ
れた話者番号に対応する写像後ベクトル系列を受け取
り、写像後ベクトル間の距離を求める。
【0049】照合部207は、ベクトル間距離計算部2
06から受け取った写像後ベクトル間の距離を基に話者
標準パターン記憶部205から読み出した端子210か
ら入力された話者番号に対応する特徴ベクトル系列と記
憶部202から読み出した入力音声の特徴ベクトル系列
との相違度を計算する。
【0050】判定部208は、照合部207で求められ
た相違度が閾値よりも小さければ同一話者であると判定
し、大きければ異なる話者であると判定し、端子209
に出力する。
【0051】本発明による話者認識装置の第3の実施形
態の構成図が図3に示されている。端子310には、登
録あるいは照合を行なうかの動作の別と、話者を示す話
者番号が入力される。
【0052】始めに端子310から入力された動作が登
録である場合について説明する。端子300に入力され
た音声は、分析部301で特徴ベクトル系列に変換され
記憶部302に一旦記憶される。特徴ベクトルとして
は、例えば古井著、「ディジタル音声処理」、東海大学
出版会(以下文献3)にあげられているFFT分析、線
形予測分析等により得られるケプストラム、LPC係
数、これらの時間変化量等が利用可能である。
【0053】時間軸対応付け部304は、不特定話者音
声認識用標準パターン記憶部303から不特定話者の音
声認識用標準パターンを読み出し、記憶部302に蓄え
られている入力ベクトル系列との時間軸対応付けを行な
い、話者標準パターン記憶部305に入力ベクトル系列
と時間軸対応付けの結果を端子310から入力された話
者番号に対応した情報として記憶させ、登録する。
【0054】次に、端子310から入力された動作が照
合である場合について説明する。端子300に入力され
た音声は、分析部301で特徴ベクトル系列に変換され
記憶部302に一旦記憶される。
【0055】時間軸対応付け部304は、不特定話者音
声認識用標準パターン記憶部303から不特定話者の音
声認識用標準パターンを読み出し、記憶部302に蓄え
られている入力ベクトル系列との時間軸対応付けを行な
い、時間軸対応付けの結果をベクトル間距離決定部30
6に送る。
【0056】ベクトル間距離記憶部311は、不特定話
者音声認識用標準パターン記憶部303に含まれる特徴
ベクトル間の距離が蓄えられている。
【0057】ベクトル間距離決定部306は、時間軸対
応付け部304から受け取った入力音声の時間軸対応付
け結果と、話者標準パターン記憶部305から読み出し
た端子310から入力された話者番号に対応する時間軸
対応結果を受け取り、ベクトル間距離記憶部311から
写像後ベクトル間距離を読み出す。
【0058】照合部307は、ベクトル間距離決定部3
06から受け取った写像後ベクトル間の距離を基に話者
標準パターン記憶部305から読み出した端子310か
ら入力された話者番号に対応する特徴ベクトル系列と記
憶部302から読み出した入力音声の特徴ベクトル系列
との相違度を計算する。
【0059】判定部308は、照合部307で求められ
た相違度が閾値よりも小さければ同一話者であると判定
し、大きければ異なる話者であると判定し、端子309
に出力する。
【0060】
【発明の効果】以上説明したように、本発明の話者認識
装置によれば、話者や環境によらず安定して高性能な話
者認識装置が実現できる。
【図面の簡単な説明】
【図1】本発明の第1実施形態に係る話者認識装置の構
成を示すブロック図である。
【図2】本発明の第2実施形態に係る話者認識装置の構
成を示すブロック図である。
【図3】本発明の第3実施形態に係る話者認識装置の構
成を示すブロック図である。
【図4】本発明の動作を説明するための図である。
【図5】従来の話者認識装置を説明するための図であ
る。
【符号の説明】 100,200,300 入力端子 101,201,301 分析部 102,202,302 記憶部 103,203,303 不特定話者音声認識用標
準パターン記憶部 104,304 時間軸対応付け部 105,205,305 話者標準パターン記憶部 106 照合区間決定部 107,207,307 照合部 108,208,308 判定部 109,209,309 出力端子 110,210,310 制御端子 204 ベクトル写像部 206 ベクトル間距離計算部 306 ベクトル間距離決定部 311 ベクトル間距離記憶部
フロントページの続き (56)参考文献 特開 昭63−157199(JP,A) 特許2815667(JP,B2) 特公 昭57−22120(JP,B2) 特公 平3−16038(JP,B2) 特公 平6−32003(JP,B2) 特公 平6−32007(JP,B2) 特公 平3−45417(JP,B2) 特公 平4−5198(JP,B2) 欧州特許出願公開940802(EP,A 2) 日本音響学会平成3年度春季研究発表 会講演論文集▲I▼ 2−5−16「HM Mとスペクトログラムリーディング知識 に基づくハイブリッド音素セグメンテー ションシステムの構想」p.85−86(平 成3年8月5日国立国会図書館受入) 電子情報通信学会技術研究報告[音声 ]Vol.95,No.431,SP95− 107,「疑似的学習データを用いた単語 スポッティング用ガーベージモデル学習 法」p.99−104 日本音響学会平成10年度春季研究発表 会講演論文集▲I▼ 2−6−7「話者 照合における連続音節認識による登録パ ターン作成方法」p.67−68(平成10年 3月17日発行) Proceedings of IE EE 1993 Internationa l Conference on Ac oustics,Speech and Signal Processin g,Vol.2,”Applicati on of Large Vocabu lary Continuous Sp eech Recognition t o Topic and Speake r Indentification using Telephone Sp eech”p.II−471〜II−474 (58)調査した分野(Int.Cl.7,DB名) G10L 17/00 G10L 11/02 G10L 15/04 G10L 15/10 JICSTファイル(JOIS)

Claims (9)

    (57)【特許請求の範囲】
  1. 【請求項1】入力音声を特徴パラメータ時系列に変換し
    て得られる入力パターンと、予め各話者毎に登録されて
    いる特徴パラメータ時系列である標準パターンとの相違
    度に基づいて前記入力音声を発生した話者の認識を行う
    話者認識方法において、 前記入力パターンと標準パターンの発生内容を音声認識
    により得、得られた発生内容情報に基づいて前記入力パ
    ターンと標準パターンの発生内容の一致する一致区間を
    求め、前記求められた一致区間における前記入力パター
    ンと標準パターンの相違度を求め、求められた相違度に
    基づいて前記入力音声を発生した話者の認識を行うこと
    を特徴とする話者認識方法。
  2. 【請求項2】前記一致区間は、前記入力パターンと標準
    パターンを構成する各特徴ベクトルを、対応付けられた
    不特定話者音声認識用音響パターンの特徴ベクトルによ
    り置き換えた第2の入力パターンと第2の標準パターン
    の特徴ベクトル間の相違度に基づいて求める請求項1に
    記載の話者認識方法。
  3. 【請求項3】前記入力パターンと標準パターンとの時間
    軸対応付けを行なって得られる前記入力パターンと標準
    パターンを構成する音素のうち一致する音素情報のみに
    基づいて前記入力パターンと標準パターンの相違度を求
    め、求められた相違度に基づいて話者の認識を行なう請
    求項1に記載の話者認識方法。
  4. 【請求項4】前記時間軸対応付けは、不特定話者により
    学習されたガーベージモデルに基づいて行なう請求項3
    に記載の話者認識方法。
  5. 【請求項5】前記時間軸の対応付けは、登録音声及び入
    力音声を一旦不特定話者の音響空間に写像し、写像後の
    音声間の相違度により写像前の音声間の相違度を求める
    請求項1に記載の話者認識方法。
  6. 【請求項6】入力音声を特徴パラメータ時系列である入
    力パターンに変換し、予め各話者毎に登録されている標
    準パターンとの相違度を求めることにより前記入力音声
    を発生した話者の認識を行う発生内容に依存しない話者
    認識方法において、 前記入力パターンと標準パターンの発生内容を音声認識
    により決定し、得られた発生内容情報から入力パターン
    と標準パターンの発生内容の一致する区間を求め前記相
    違度を求めることを特徴とする話者認識方法。
  7. 【請求項7】前記入力パターンと標準パターンを構成す
    る各特徴ベクトルを、対応付けられた不特定話者音声認
    識用音響パターンの特徴ベクトルにより置き換えた第2
    の入力パターンと第2の標準パターンの特徴ベクトル間
    の相違度から発生内容の一致する区間を求める請求項6
    に記載の話者認識方法。
  8. 【請求項8】入力音声を特徴パラメータ時系列である入
    力パターンに変換し、予め各話者毎に登録されている標
    準パターンとの相違度を求めることにより前記入力音声
    を発生した話者の認識を行う発生内容に依存しない話者
    認識装置において、 前記入力パターンと標準パターンの発生内容を音声認識
    により決定する音声認識手段と、得られた発生内容情報
    から入力パターンと標準パターンの発生内容の一致する
    区間を求める一致区間決定手段と、求められた一致区間
    における前記入力パターンと標準パターンとの相違度を
    求める相違度算定手段とを備えて成ることを特徴とする
    話者認識装置。
  9. 【請求項9】前記一致区間決定手段は、前記入力パター
    ンと標準パターンを構成する各特徴ベクトルを、対応付
    けられた不特定話者音声認識用音響パターンの特徴ベク
    トルにより置き換えた第2の入力パターンと第2の標準パ
    ターンの特徴ベクトル間の相違度から発生内容の一致す
    る区間を求める請求項8に記載の話者認識装置。
JP10069515A 1998-03-04 1998-03-04 話者認識方法及び装置 Expired - Fee Related JP3075250B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP10069515A JP3075250B2 (ja) 1998-03-04 1998-03-04 話者認識方法及び装置
US09/262,083 US6349280B1 (en) 1998-03-04 1999-03-04 Method and apparatus for speaker recognition
EP99103902A EP0940802A3 (en) 1998-03-04 1999-03-04 Method and apparatus for text independent speaker recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10069515A JP3075250B2 (ja) 1998-03-04 1998-03-04 話者認識方法及び装置

Publications (2)

Publication Number Publication Date
JPH11249685A JPH11249685A (ja) 1999-09-17
JP3075250B2 true JP3075250B2 (ja) 2000-08-14

Family

ID=13404955

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10069515A Expired - Fee Related JP3075250B2 (ja) 1998-03-04 1998-03-04 話者認識方法及び装置

Country Status (3)

Country Link
US (1) US6349280B1 (ja)
EP (1) EP0940802A3 (ja)
JP (1) JP3075250B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10220522B4 (de) * 2002-05-08 2005-11-17 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse
CN101154380B (zh) * 2006-09-29 2011-01-26 株式会社东芝 说话人认证的注册及验证的方法和装置
JP5229124B2 (ja) * 2009-06-12 2013-07-03 日本電気株式会社 話者照合装置、話者照合方法およびプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3761547A (en) 1970-07-17 1973-09-25 Gen Electric Process for controlling surface area of ceramic powders
FR2554623B1 (fr) * 1983-11-08 1986-08-14 Texas Instruments France Procede d'analyse de la parole independant du locuteur
JPS63157199A (ja) 1986-12-22 1988-06-30 株式会社東芝 話者照合装置
JPH02195400A (ja) * 1989-01-24 1990-08-01 Canon Inc 音声認識装置
JPH0316038A (ja) 1989-06-13 1991-01-24 Teac Corp 情報記録再生装置
JPH0345417A (ja) 1989-07-14 1991-02-27 Nippon Carbureter Co Ltd 自動車の暖房装置
JP2815667B2 (ja) 1990-03-26 1998-10-27 日本電信電話株式会社 話者認識方法
JPH045198A (ja) 1990-04-23 1992-01-09 Sanyo Electric Co Ltd 太陽電池式電気飛行機
JPH0632007A (ja) 1992-07-15 1994-02-08 Sony Corp リボンカートリッジ
JPH0632003A (ja) 1992-07-17 1994-02-08 Sharp Corp 印字装置
SG93215A1 (en) * 1993-03-25 2002-12-17 British Telecomm Speech recognition
JP3180655B2 (ja) * 1995-06-19 2001-06-25 日本電信電話株式会社 パターンマッチングによる単語音声認識方法及びその方法を実施する装置
JP3697748B2 (ja) * 1995-08-21 2005-09-21 セイコーエプソン株式会社 端末、音声認識装置
US5946654A (en) 1997-02-21 1999-08-31 Dragon Systems, Inc. Speaker identification using unsupervised speech models

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Proceedings of IEEE 1993 International Conference on Acoustics,Speech and Signal Processing,Vol.2,"Application of Large Vocabulary Continuous Speech Recognition to Topic and Speaker Indentification using Telephone Speech"p.II−471〜II−474
日本音響学会平成10年度春季研究発表会講演論文集▲I▼ 2−6−7「話者照合における連続音節認識による登録パターン作成方法」p.67−68(平成10年3月17日発行)
日本音響学会平成3年度春季研究発表会講演論文集▲I▼ 2−5−16「HMMとスペクトログラムリーディング知識に基づくハイブリッド音素セグメンテーションシステムの構想」p.85−86(平成3年8月5日国立国会図書館受入)
電子情報通信学会技術研究報告[音声]Vol.95,No.431,SP95−107,「疑似的学習データを用いた単語スポッティング用ガーベージモデル学習法」p.99−104

Also Published As

Publication number Publication date
EP0940802A3 (en) 2000-02-23
US6349280B1 (en) 2002-02-19
JPH11249685A (ja) 1999-09-17
EP0940802A2 (en) 1999-09-08

Similar Documents

Publication Publication Date Title
US5167004A (en) Temporal decorrelation method for robust speaker verification
US5675706A (en) Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition
US6125345A (en) Method and apparatus for discriminative utterance verification using multiple confidence measures
US6029124A (en) Sequential, nonparametric speech recognition and speaker identification
US5440662A (en) Keyword/non-keyword classification in isolated word speech recognition
US8271283B2 (en) Method and apparatus for recognizing speech by measuring confidence levels of respective frames
US20090171660A1 (en) Method and apparatus for verification of speaker authentification and system for speaker authentication
JP2692581B2 (ja) 音響カテゴリ平均値計算装置及び適応化装置
US20030069729A1 (en) Method of assessing degree of acoustic confusability, and system therefor
JPH10307593A (ja) 話者認証用確率的マッチング方法
EP0758781A2 (en) Utterance verification using word based minimum verification error training for recognizing a keyword string
JPH0883091A (ja) 音声認識装置
JPH09127972A (ja) 連結数字の認識のための発声識別立証
JP2001503154A (ja) 音声認識システムにおける隠れマルコフ音声モデルの適合方法
JPH11511567A (ja) パターン認識
KR20010102549A (ko) 화자 인식 방법 및 장치
Pandit et al. Feature selection for a DTW-based speaker verification system
WO2002091358A1 (en) Method and apparatus for rejection of speech recognition results in accordance with confidence level
Ilyas et al. Speaker verification using vector quantization and hidden Markov model
JP3798530B2 (ja) 音声認識装置及び音声認識方法
Charlet et al. Optimizing feature set for speaker verification
JP3075250B2 (ja) 話者認識方法及び装置
US7617102B2 (en) Speaker identifying apparatus and computer program product
JP2002189487A (ja) 音声認識装置および音声認識方法
JP2009116278A (ja) 話者認証の登録及び評価のための方法及び装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080609

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090609

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100609

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees