JP2004279770A

JP2004279770A - 話者認証装置及び判別関数設定方法

Info

Publication number: JP2004279770A
Application number: JP2003071577A
Authority: JP
Inventors: Tsuneo Kato; 恒夫加藤; Toru Shimizu; 徹清水
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2003-03-17
Filing date: 2003-03-17
Publication date: 2004-10-07
Anticipated expiration: 2023-03-17
Also published as: JP4163979B2

Abstract

【課題】予め設定した認証精度を保証する話者認証技術を提供すること。
【解決手段】パタン指定器により、互いに異なる話者認証用発声パタンを最大で複数ｎ回指定する。スコア計算器７ａにより、第ｉ番目の発声パタン指定に対応する発話者の発声と話者モデルとのスコアを第ｉスコアとして計算する。複数ｋ回の発声パタン指定に対応するｋ個のスコアを要素とする集合を統合的スコアとする。統合的話者判定器７ｄにより、統合的スコアをｋ次元平面の判別関数の入力として、判別関数の符号から発話者が本人か他人かを判定する。
【選択図】図２

Description

【０００１】
【発明の属する技術分野】
本発明は、発話者の入力音声に基づいて発話者が本人か他人かを判定する話者認証装置及びそれに用いる判別関数を設定する方法に関する。入力音声には、例えば、数字やアルファベットなどの記号や単語が複数連続した連続単語の複数の発声が用いられる。
【０００２】
【従来の技術】
話者認証技術の第１の従来例として、例えば、特開平９−２４４６８４号公報に記載されている装置が知られている。この話者認証技術は、発話者の入力音声に基づいて本人の認証を行うものであり、予め登録されている特徴量と該入力音声から抽出した特徴量とから、発話者が既登録の話者本人か、他人（特に詐称者）かを判定する。発話者の入力音声としては、個人ＩＤやパスワード等の特定の既知キーワードが使用される。
【０００３】
しかし、上述した第１の従来例では、認証時の入力音声として個人ＩＤパスワード等の既知キーワードを使用するために、登録話者本人の音声を予め、例えば認証時に録音しておき、その再生音声を第３者が用いることにより、本人詐称が行われやすいという問題がある。
【０００４】
この問題に対処するために、認証時に利用者に多数のキーワードを発声してもらい、入力音声として使用するキーワードを増やす方法があるが、この方法では利用者の負担が増大する。更に、入力音声として使用するキーワードを増やした場合は、認証時間が長くなり、認証効率が低下するという問題もある。
【０００５】
一方、話者認証技術の第２の従来例として、特開２０００−９９０９０号公報に記載された方法が知られている。この話者認証技術では、話者登録時に複数の記号（数字またはアルファベット）を特定話者毎に発声させて、特定話者のモデル（話者モデル）を登録しておき、話者認証時にはシステム側から上記複数の記号中の任意に記号列を指定して発話者に発声させることで、登録されている話者モデルと入力音声から、発話者が本人（登録話者本人）であるか否かを判定する。これによれば、第３者が登録話者本人の音声を認証時に録音しておいても、その再生音声は指定された記号列の発声にならないため、本人詐称が行われ難いという利点がある。
【０００６】
しかし、上述した第２の従来例には、認証効率に改善の余地がある。
【０００７】
【特許文献１】
特開平９−２４４６８４号公報
【特許文献２】
特開２０００−９９０９０号公報
【０００８】
【発明が解決しようとする課題】
本発明は、このような事情を考慮してなされたものであり、その目的は、本人詐称を防止するとともに、予め設定した認証精度を保証でき、効率良く認証を行うことができる話者認証技術を提供することにある。
【０００９】
【課題を解決するための手段】
第１発明は、上記課題を解決するため話者認証装置であり、発話者の発声と話者モデルとの類似度を表すスコアに基づいて本人認証を行う話者認証装置であって、互いに異なる話者認証用発声パタンを、最大で複数ｎ回、発話者に対して指定する発声パタン指定手段と、第ｉ番目の発声パタン指定に対応する発話者の発声と話者モデルとのスコアを、第ｉスコアとして、計算するスコア計算手段と、複数ｋ回の発声パタン指定に対応するｋ個のスコアを要素とする集合を統合的スコアとし、この統合的スコアをｋ次元平面の判別関数の入力として、判別関数の符号から発話者が本人か他人かを判定する統合的話者判定手段を備えることを特徴とする。
【００１０】
第２発明は、第１発明において、第１スコアを単独にしきい値と比較することで、発話者が本人か他人かを判定する単独発声による話者判定手段を備え、前記統合的話者判定手段は、単独発声による話者判定手段では予め定めた認証精度で発話者が本人か他人かを判定することができない場合に、発話者が本人か他人かの判定を行うものであることを特徴とする話者認証装置である。
【００１１】
第３発明は、第２発明において、統合的スコアが少なくとも第１スコアを要素とする集合であることを特徴とする話者認証装置である。
【００１２】
第４発明は、第１発明において、第ｎスコアを単独にしきい値と比較することで、発話者が本人か他人かを判定する単独発声による話者判定手段を備え、前記統合的話者判定手段は、単独発声による話者判定手段では予め定めた認証精度で発話者が本人か他人かを判定することができない場合に、発話者が本人か他人かの判定を行うものであることを特徴とする話者認証装置である。
【００１３】
第５発明は、第４発明において、統合的スコアが少なくとも第ｎ―１スコア及び第ｎスコアを要素とする集合であることを特徴とする話者認証装置である。
【００１４】
第６発明は、第１発明において、ｎ＝３、ｋ＝２であること、第１スコアを単独にしきい値と比較することで、発話者が本人か他人かを判定する単独発声による話者判定手段を備えること、前記統合的話者判定手段は、単独発声による話者判定手段による第１スコアとしきい値との比較では予め定めた認証精度で発話者が本人か他人かを判定することができない場合に、第１スコアと第２スコアを要素とする集合である第１統合的スコアを判別関数の入力として発話者が本人か他人かの判定を行い、この第１統合的スコアでは予め定めた認証精度で発話者が本人か他人かを判定することができない場合に、第２スコアと第３スコアを要素とする集合である第２統合的スコアを判別関数の入力として発話者が本人か他人かの判定を行うものであることを特徴とする話者認証装置である。
【００１５】
第７発明は、第１発明において、前記発声パタン指定手段が第ｉ番目に指定する話者認証用発声パタンは、第ｉ―１番目に指定した話者認証用パタンよりも認証精度が高い発声パタンであることを特徴とする話者認証装置である。
【００１６】
第８発明は、第１発明において、話者登録に使用された話者登録用発声パタンを保存する発声パタン記憶手段を有し、前記発声パタン指定手段は話者認証用発声パタンとして、前記保存されている話者登録用発声パタンに含まれている複数単語の連鎖を少なくとも一組含む発声パタンであることを特徴とする話者認証装置である。
【００１７】
第９発明は、第１発明において、前記判別関数として、本人を受理するための第１判別関数及び他人を棄却するための第２判別関数を有し、これら第１判別関数及び第２判別関数は他人受理率と本人棄却率が一定の値となるように設定されていることを特徴とする話者認証装置である。
【００１８】
第１０発明は、上記課題を解決するための第９発明の話者認証装置に用いられる判別関数を設定する方法であって、ｋ個のスコアの分布をｋ次元平面におけるｋ次元正規分布で近似して、ｋ次元平面上の判別面を求めること、この判別面を並行移動して、他人受理率と本人棄却率が一定の値となる第１判別関数及び第２判別関数を設定することを特徴とする。
【００１９】
【発明の実施の形態】
本発明では、連続単語発声を用いたテキスト指定型話者認証技術において、発話者に複数の異なる連続単語を発声させ、それぞれの発声に対して得られる複数のスコアを統合的に用いて発話者が本人か他人か判定する。その際、個々の発声のスコアを単独に用いて発話者が本人か他人かを判定することを妨げるものではない。以下、図面を参照し、本発明の一実施形態を説明する。図１は、本発明の一実施形態による話者認証装置の構成を示す。図１において、話者照合装置１の入出力信号はディジタル信号であり、話者照合装置１はディジタル処理により実現される。従って、入出力がアナログ信号の場合は、アナログ・ディジタル変換器（ＡＤ変換器）により信号変換されて、話者照合号装置１に接続されるものとする。また、話者照合装置１への入力音声信号としては、電話回線やマイク等からの入力が利用可能である。また、電話回線やスピーカ等へ、話者照合装置１から音声信号を出力することができる。
【００２０】
図１の話者照合装置１において、特徴抽出器２は、利用者の入力音声信号Ａから音響的な特徴量を抽出する。発声内容判定器３は、バッファ１０に保存されている発声プロンプトＣで示される発声内容に、発話者の発声内容が一致するか否かを判定する。スイッチ４は、特徴抽出器２の接続先を、話者登録時と話者認証時とで切換える。詳細には、スイッチ４は特徴抽出器２を、話者登録時には登録判定器５に、者認証時には話者判定器７に接続する。
【００２１】
登録判定器５は、話者登録時に、特徴抽出器２によって抽出された特徴量が話者登録用に十分であるか否かを判定する。また、該特徴量に基づいて、学習により話者モデルを生成する。例えば、３回など所定回数分の音声入力を条件として十分であると判定する。あるいは、話者モデルを生成しながら該モデルを評価し、一定の品質に達したところで十分であると判定する。上記話者モデルとしては、ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）やＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）などが利用可能である。
【００２２】
音声特徴情報蓄積器６は、登録判定器５によって生成された話者モデルを記憶し、保存する。
【００２３】
話者判定器７は、話者認証時に、発話者の発声と話者モデルとの類似度を表すスコア、言い換えれば、特徴抽出器２によって抽出された特徴量と話者特徴情報蓄積器６の話者モデルとの類似度を表すスコアを計算し、基本的には、複数回の発声にそれぞれ対応して計算された複数回のスコアを統合的に用いることで、発話者が本人か詐称者（他人）かといった話者認証可否を判定し、該話者判定結果Ｂを出力するものである。話者判定器７は例えば、図２に示すように、スコア蓄積器７ａ（スコア蓄積手段）と、スコア計算器７ｂ（スコア計算手段）と、単独発声用話者判定器７ｃ（単独発声による話者判定手段）と、統合的話者判定器７ｄ（統合的話者判定手段）を備えている。
【００２４】
スコア蓄積器７ａは、予め定めた認証精度で発話者が本人か他人かを判定することができない場合に、そのときの判定に用いたスコアを蓄積し、保存する。
【００２５】
スコア計算器７ｂは、話者認証時に、話者認証用発声パタンの指定（発話プロンプトＣの出力）毎に、発話者の発声と話者モデルとのスコアを計算する。
【００２６】
ここで、第ｉ番目の発声パタン指定（第ｉ番目の発声プロンプトＣの出力）に対応する発話者の発声（ｉ番目発声）と話者モデルとのスコアを、第ｉスコアと呼ぶ。
【００２７】
単独発声用話者判定器７ｃは話者認証時に単独発声による話者判定を行うものであり、任意の第ｉスコアを単独でしきい値と比較することで、比較結果から発話者が本人か詐称者かといった話者認証可否を判定する。
【００２８】
統合的話者判定器７ｄは、話者認証時に、スコア計算器７ａによって計算されたスコアのうち、複数ｋ回のパタン指定に対応するｋ個のスコアをスコア蓄積器７ａから取り出し、これらを統合的に用いて発話者が本人か詐称者かといった話者認証可否を判定する。詳細には、ｋ個のスコアを要素とする集合を統合的スコアとし、この統合的スコアを判別関数の入力として、判別関数の符号から話者認証の可否を判定する。ここで、ｋは２以上の自然数であり、後述する複数ｎと同じかそれ以下に設定される。判別関数については、後で、図９を参照して説明する。
【００２９】
パタン指定器８（発声パタン指定手段）は、話者登録用発声パタン（以下、話者登録用パタンと称する）と、話者認証用発声パタン（以下、話者認証用パタンと称する）とを指定し、これら指定パタンの発声を利用者に促す発声プロンプトＣを生成して出力する。パタン指定器８は、互いに異なる話者認証用パタンを、同一の発話者に対して最大で複数ｎ回、指定することができるようになっている。従って、話者認証時には、同一の発話者に対して、互いに異なる発生プロンプトＣが最大で複数ｎ回出力される。ここで、ｎは、ｋと同じかそれ以上の自然数である。
【００３０】
話者登録用パタン蓄積器９（発声パタン記憶手段）は、パタン指定器８によって指定された話者登録用パタンを記憶し、保存する。
【００３１】
バッファ１０は、パタン指定器８から出力された発声プロンプトＣを順次上書き方式で記憶する。
【００３２】
［話者登録処理］
次に、図３を参照して、話者登録時の話者照合装置１の動作を説明する。図３は、図１に示す話者照合装置１が行う話者登録処理の流れを示すフローチャートである。
【００３３】
初めに、話者の個人ＩＤ及びパスワードを用いたユーザ認証が実施され、該ユーザ認証が受理されると、図３の話者登録処理が開始される。
【００３４】
図３において、先ず、パタン指定器８は、複数の単語（数字や、アルファベット、その他の単語）の連続で構成される話者登録用パタンを指定して、話者登録用パタン蓄積器９に保存する（ステップＳＴ１）。例えば、図４の最上段に示すような６桁の連続数字（この例では「６３８７９０」）を話者登録用パタンとする。次いで、パタン指定器８は、該指定パタンの発声を促す発声プロンプトＣを生成して出力する（ステップＳＴ２）。この発声プロンプトＣはバッファ１０に保存されるとともに、話者照合装置１から出力される。
【００３５】
次いで、発話者が発声プロンプトＣで指定された話者登録用パタンを発声し、入力音声信号Ａが入力されると、特徴抽出器２は入力音声信号Ａから音響的特徴量を抽出する（ステップＳＴ３、ＳＴ４）。次いで、発声内容判定器３は、発話者の発生内容がバッファ１０に保存されている発声プロンプトＣで示される発声内容に一致するか判定する（ステップＳＴ５）。次いで、登録判定器５は、良好な話者モデルを生成するために十分な特徴量であるか否かを判定し（ステップＳＴ６）、不十分な場合またはステップＳＴ５の判定結果が不一致の場合に、パタン指定器８に再度、発声プロンプトＣの出力を指示する。これにより、ステップＳＴ２へ戻る。
【００３６】
一方、ステップＳＴ５の判定結果が一致であり且つ十分な特徴量が得られた場合には、ステップＳＴ７に進み、話者モデルを生成して音声特徴情報蓄積器６に記憶する。これにより、話者登録が完了する。
【００３７】
なお、話者登録用パタンには、母音または鼻音を多く含むように構成するのが、話者固有の音響的特徴を抽出しやすくなり、少ない発声回数で効率良く特徴抽出できるので好ましい。
【００３８】
［話者認証処理］
次に、図４〜図９を参照して、話者認証時の話者照合装置１の動作例を説明する。図４は発声パタンの指定例を示す図、図５〜図８、図１に示す話者照合装置１が行う話者認証処理の流れを示すフローチャート、図９は統合的話者判定で使用する判別関数の設定方法例を示す図である。
【００３９】
ここでは、本発明の実施形態の一例として、便宜上ｎ＝３、ｋ＝２であるとする。また、便宜上、単独発声用話者判定器７ｃは第１スコアＳ１のみを単独にしきい値と比較して発話者が本人か詐称者（他人）かを判定するものとする。更に、統合的話者判定器７ｄは、単独発声用話者判定器７ｃによる第１スコアＳ１としきい値との比較による単独発声による話者判定では予め定めた認証精度で発話者が本人か詐称者かを判定することができない場合に、第１スコアＳ１と第２スコアＳ２を要素とする集合である第１統合的スコアを用い、この第１統合的スコアを判別関数の入力として、判別関数の正負の符号から発話者が本人か詐称者かの判定（１回目の統合的話者判定）を行い、これでも予め定めた認証精度で発話者が本人か詐称者かを判定することができない場合は、第２スコアＳ２と第３スコアＳ３を要素とする集合である第２統合的スコアを用い、この第２統合的スコアを判別関数の入力として、判別関数の正負の符号から発話者が本人か詐称者かの判定（２回目の統合的話者判定）を行うものとする。
【００４０】
更に、本実施形態では、パタン指定器８は、発話者に話者認証用パタンを指定して発話を促す都度、だんだん認証精度が高くなるものを指定する。ｎ＝３の場合、例えば、１回発声用に、話者登録用パタンに含まれる複数単語の連鎖を少なくとも一組含むもの、例えば、複数単語の連鎖を二組含み且つ該二組が非連続のものを選択して話者認証用パタンを構成し、これを第１番目の発声パタンとして指定する。そして、２回目の発声用には、該第１回目の単語連鎖に更に別の一組の単語連鎖を加え、１回目発声用パタンよりも複数単語の連鎖の組数を増した話者認証用パタンを構成し、これを第２番目の発声パタンとして指定する。この２回目発声用の話者認証用パタンは、複数単語の連鎖の組数が多い分、１回目発声用のパタンよりも認証精度が高くなる。そして、３回目の発声用には、話者登録用パタンを構成する単語のうち、連続した４つの単語を含むように話者認証用パタンを構成し、これを第３番目の発声パタンとして指定する。この３回目発声用の話者認証用パタンは、２回目発声用のパタンよりも単語数は少ないが、一連の単語連鎖の数が多いために、２回目発声用のパタンよりも認証精度が高くなる。このように、１回目発声用には、話者登録用パタンに含まれる複数単語の連鎖を少なくとも一組含むように発声パタンを指定することより、認証精度はそれほど高くはないが、本人詐称防止に効果が高く、且つ発声単語数を抑えて発話者の負担を軽くする。そして、２回目発声用には、１回目発声用パタンよりも複数単語の連鎖の組数を増やして発声パタンを指定することにより、発声単語数は増えるが本人詐称防止効果を保ちつつ、認証精度を高める。そして、３回目発声用には、一連の単語連鎖の数を増やして発声パタンを指定することにより、認証精度を優先して高める。なお、一連の単語連鎖の数を増やすことにより本人詐称防止効果は低下するが、３回目発声時には、それまでの１回目及び２回目の認証拒否判定をパスしているので、本人詐称の可能性は少なく、問題はない。
【００４１】
ｎ＝３の場合の発声パタン指定の具体例を図４に示す。図４の例では、その上から２段目に示すように、１回目の発声用に、話者登録処理にて例示した６桁の連続数字で構成した話者登録用パタン（「６３８７９０」）に含まれる２桁ずつの数字連鎖を二組含み、且つ該二組が非連続のもの（この例では「７９」と「６３」）を選択して、話者認証用パタン（「７９６３」）を構成し、この２桁ずつの数字連鎖を二組保存した４桁数字（「７９６３」）を第１番目の発声パタンとして指定する。
【００４２】
話者登録用パタンが６桁の連続数字「６３８７９０」である場合、複数単語例えば２桁数字の連鎖の組は、「６３」、「３８」、「８７」、「７９」、「９０」の５組あり、これらの中からランダムに例えば２組を選択すると２桁ずつの数字連鎖を二組保存した４桁数字の総パタン数は２０５通りある。これらの中から第１番目の話者認証用パタンとして、例えば「７９６３」が指定される。
【００４３】
２回目の発声用には、図４の上から３段目に示すように、第１番目の発声パタン指定における二組（「７９」と「６３」）に、更に別の一組（この例では「３８」）を加え、１回目発声用パタンよりも複数単語の連鎖の組数を増した話者認証用パタン（「３８７９６３」）を構成し、この２桁ずつの数字連鎖を三組保存した６桁数字（「３８７９６３」）を第２番目の発声パタンとして指定する。話者登録用パタンが６桁の連続数字「６３８７９０」である場合、２桁ずつの数字連鎖を三組保存した６桁数字の総パタン数は１０２５通りあり、これらの中から第２番目の話者認証用パタンとして、例えば「３８７９６３」が指定される。
【００４４】
３回目の発声用には、図４の最下段に示すように、話者登録用パタン（「６３８７９０」）を構成する数字のうち、連続した４つの数字を含むように話者認証用パタン（この例では「８７９０」）を構成し、この４桁の数字連鎖を保存した４桁数字（「８７９０」）を第３番目の発声パタンとして指定する。話者登録用パタンが６桁の連続数字「６３８７９０」である場合、４桁の数字連鎖を保存した４桁数字の総パタン数は３通りあり、これらの中から第３番目の話者認証用パタンとして、例えば「８７９０」が指定される。
【００４５】
［単独発声による話者判定］
初めに、話者の個人ＩＤ及びパスワードを用いたユーザ認証が実施され、該ユーザ認証が受理されると、話者認証処理が開始される。
【００４６】
図５において、先ず、パタン指定器８は、話者登録用パタン蓄積器９に保存されている話者登録用パタンを読み出し、この話者登録用パタンに基づいて第１番目の話者認証用パタン例えば「７９６３」を指定する（ステップＳＴ１１）。この指定では、話者登録用パタンに含まれる複数単語の連鎖を少なくとも一組含んでいる。
【００４７】
上述したように、話者登録用パタンに含まれる複数単語の連鎖を少なくとも一組含むようにして話者認証用パタンを構成することによって、登録話者音声の録音再生による本人詐称を防止しつつ、全くのランダムとするよりも認証精度を高く保つことができる。
【００４８】
次いで、パタン指定器８は、第１番目に指定する話者認証用パタン（例えば「７９６３」）の発声を促す発声プロンプトＣを生成して話者認証装置１から出力する（ステップＳＴ１２）。この発声プロンプトＣはバッファ１０に上書き記憶で保存される。次いで、発話者が指定された話者認証用パタン（例えば「７９６３」）を発声し、入力音声信号Ａが入力されると、特徴抽出器２は入力音声信号Ａから音響的特徴量を抽出する（ステップＳＴ１３、ＳＴ１４）。次いで、発声内容判定器３は、発話者の発声内容がバッファ１０に保存されている発声プロンプトＣで示される発声内容に一致するか判定する。この判定の結果、不一致の場合にはパタン指定器８は再度、同じ発声プロンプトＣを出力する（ステップＳＴ１５）。次いで、スコア計算器７ｂは、音声特徴情報蓄積器６の話者モデルを参照し、特徴抽出器２によって抽出された特徴量と話者モデルの特徴量との類似度を表すスコア（第１スコアＳ１）を計算する（ステップＳＴ１６）。
【００４９】
次いで、単独発声用話者判定器７ｃは、上記の第１スコアＳ１を所定の認証受理判定用しきい値Ｔｈ１と比較し（ステップＳＴ１７）、第１スコアＳ１の方が認証受理判定用しきい値Ｔｈ１より大きい場合には、当該発話者が本人であると判定し、認証を受理する判定結果Ｂを出力する（ステップＳＴ１９）。上記認証受理判定用しきい値Ｔｈ１は、予め話者判定器７に設定されている。このしきい値Ｔｈ１としては、詐称者（他人）を誤って認証受理する確率（他人受理率）が少なくなるように、例えば実験で、他人受理率が数％、例えば１％となった値を採用する。
【００５０】
一方、ステップＳＴ１７での比較の結果、第１スコアＳ１の方が認証受理判定用しきい値Ｔｈ１よりも大きくない場合には、第１スコアＳ１を所定の認証拒否判定用しきい値Ｔｈ２と比較し、第１スコアＳ１の方が認証拒否判定用しきい値Ｔｈ２より小さい場合には、当該話者が詐称者（他人）であると判定し、認証を拒否する判定結果Ｂを出力する（ステップＳＴ２０）。上記認証拒否判定用しきい値Ｔｈ２は、予め話者判定器７に設定されている。このしきい値Ｔｈ２としては、本人を誤って認証拒否する確率（本人棄却率）が少なくなるように、例えば、実験で本人棄却率が他人受理率と数％、例えば１％となった値を採用する。
【００５１】
上記ように本人棄却率と他人受理率が等しくなるようにしきい値Ｔｈ１及びＴｈ２を設定した場合の誤り率は、等誤り率として知られている。
【００５２】
一方、ステップＳＴ１８での比較の結果、第１スコアＳ１が認証受理判定用しきい値Ｔｈ１と認証拒否判定用しきい値Ｔｈ２との間にある場合には、単独発声用話者判定器７ｃは、予め定めた認証精度では認証受理とも認証拒否とも判定することができないと判断して、第１スコアＳ１をスコア蓄積器７ａに蓄積して保存するとともに（ステップＳＴ２１）、パタン指定器８へ話者認証用パタンを異なるもの、例えば認証精度が高くなるような話者認証用パタンに更新して次の発声プロンプトＣを出力するように、指示する。これにより、ステップＳＴ１１へ戻り、統合的話者判定を行う。
【００５３】
［統合的話者判定：１回目］
単独発声による話者判定においてステップＳＴ２１からステップＳＴ１１へ戻ったら、つまり、単独発声用話者判定器７ｃでは予め定めた認証精度で本人か他人かを判定することができない場合は、統合的話者判定器７ｄにより統合的話者判定が行われる。この処理を図５、図６を参照して説明する。
【００５４】
図５において、先ず、パタン指定器８は、話者登録用パタン蓄積器９に保存されている話者登録用パタンを読み出し、この話者登録用パタンに基づいて第２番目の話者認証用パタン例えば「３８７９６３」を指定する（ステップＳＴ１１）。このパタン指定は、第１番目の話者認証用パタンよりも認証精度が高い。
【００５５】
次いで、パタン指定器８は、第２番目に指定する話者認証用パタン（例えば「３８７９６３」）の発声を促す発声プロンプトＣを生成して話者認証装置１から出力する（ステップＳＴ１２）。この発声プロンプトＣはバッファ１０に上書き記憶で保存される。次いで、発話者が指定パタン（「３８７９６３」）を発声し、入力音声信号Ａが入力されると、特徴抽出器２は入力音声信号Ａから音響的特徴量を抽出する（ステップＳＴ１３、ＳＴ１４）。次いで、発声内容判定器３は、発話者の発声内容がバッファ１０に保存されている発声プロンプトＣで示される発声内容に一致するか判定する。この判定の結果、不一致の場合にはパタン指定器８は再度、同じ発声プロンプトＣを出力する（ステップＳＴ１５）。次いで、スコア計算器７ｂは、音声特徴情報蓄積器６の話者モデルを参照し、特徴抽出器２によって抽出された特徴量と話者モデルの特徴量との類似度を表すスコア（第２スコアＳ２）を計算する（ステップＳＴ１６）。
【００５６】
次いで、統合的話者判定器７ｄにより、第１スコアＳ１と第２スコアＳ２を要素とする集合である統合的スコア（第１統合的スコア）を用いて、１回目の統合的話者判定を行う。
【００５７】
但し、図５中のステップＳＴ１７からＳＴ２１までの処理を、図６に示すステップＳＴ１７からＳＴ２１までの処理と読み替えるものとする。
【００５８】
即ち、図６に示すように、統合的話者判定器７ｄは、第１スコアＳ１をスコア蓄積器７ａから読み出し、この第１スコアＳ１とスコア計算器７ｂが計算した第２スコアＳ２を要素とする集合を統合的スコア（Ｓ１，Ｓ２）とし、この統合的スコアを２次元平面の所定の認証受理判定用判別関数ｆ_１（第１判別関数：詳細は図９を参照して後述する）の入力として、その結果得られる認証受理判定用判別関数ｆ_１の符号を０（ゼロ：しきい値）と比較する（ステップＳＴ１７）。そして、認証受理判定用判別関数ｆ_１の符号が正（プラス）である場合には、当該発話者が本人であると判定し、認証を受理する判定結果Ｂを出力する（ステップＳＴ１９）。上記認証受理判定用判別関数ｆ_１としきい値０は、予め話者判定器７に設定されている。この判別関数ｆ_１としては、他人受理率が少なくなるように、例えば実験で、他人受理率が数％、例えば１％となった値を採用する。
【００５９】
一方、ステップＳＴ１７での比較の結果、認証受理判定用判別関数ｆ_１の符号が正でない場合には、統合的スコア（Ｓ１，Ｓ２）を２次元平面の所定の認証拒否判定用判別関数ｆ_２（第２判別関数：詳細は図９を参照して後述する）の入力として、この結果得られる認証拒否判定用判別関数ｆ_２の符号を０（ゼロ：しきい値）と比較する（ステップＳＴ１８）。そして、認証拒否判定用判別関数ｆ_２の符号が負（マイナス）である場合には、当該発話者が詐称者（他人）であると判定し、認証を拒否する判定結果Ｂを出力する（ステップＳＴ２０）。上記認証拒否判定用判別関数ｆ_２としきい値０は、予め話者判定器７に設定されている。この判別関数ｆ_２としては、本人棄却率が少なくなるように、例えば、実験で本人棄却率が他人受理率と同じ数％、例えば１％となった値を採用する。
【００６０】
一方、ステップＳＴ１８での比較の結果、統合的スコア（Ｓ１，Ｓ２）を入力した認証受理判定用判別関数ｆ_１の符号が正でなく、かつ、同じく統合的スコア（Ｓ１，Ｓ２）を入力した認証拒否判定用判別関数ｆ_２の符号が負でない場合には、統合的話者判定器７ｃは、統合的スコア（Ｓ１，Ｓ２）を用いた判定では予め定めた認証精度では認証受理とも認証拒否とも判定することができないと判断して、第２スコアＳ２をスコア蓄積器７ａに蓄積して保存する（ステップＳＴ２１）とともに、パタン指定器８へ話者認証用パタンを異なるものに更新して次の発声プロンプトＣを出力するように、指示する。これにより、図５のステップＳＴ１１へ戻り、２回目の統合的話者判定を行う。
【００６１】
［判別関数の設定方法］
ここで、図９を参照して、判別関数を設定する方法を説明する。本例では、判別分析法を用いている。図９では、縦軸を第１スコアＳ１（一般にはｊ−１回目発声のスコア）に、横軸を第２スコアＳ２（一般にはｊ回目発声のスコア）にとっている。
【００６２】
例えば第１スコアＳ１と第２スコアＳ２（一般にはｊ−１回目発声のスコアとｊ回目発声のスコア）を２変数とする平面上で、発話者が本人である場合のスコアの分布と、詐称者（他人）である場合のスコアの分布はそれぞれ、２次元正規分布で近似することができる。そして、１回目の発声（一般にはｊ−１回目の発声）に対して認証受理も認証拒否もできなかった場合の本人のスコアの分散と、他人のスコアの分散とは同程度の大きさであるため、分散及び共分散を共通の値とすると、判別面は、図９に示すように、２次元平面上の一般に傾斜した直線ｆ_０として求めることができる。この直線ｆ_０が基本的な判別関数となる。この判別関数ｆ_０を、縦軸に平行で且つ横軸に垂直な直線１１（従来のしきい値に相当）と比較すると、判別関数ｆ_０と直線１１に挟まれた斜線を付した領域１２ａから分かるように、本人を正しく本人と判定して認証受理する割合が猟奇１２ａの分だけ増え、また、斜線を付した領域１２ｂから分かるように、他人を正しき他人と判定して認証拒否する割合が領域１２ｂの分だけ増える。つまり、従来に比べて、認証精度が向上することが分かる。なお、直線１１は、第１スコアＳ１のみを用いた単独発声による話者判定では予め定めた判定精度で本人か他人かを判定することができない時に、更に、第２スコアＳ２のみを用いて単独発声による話者判定を行うとした場合における認証受理判定と認証拒否判定に共通なしきい値を表している。
【００６３】
従って、第１スコアＳ１と第２スコアＳ２（一般にはｊ−１回目発声のスコアとｊ回目発声のスコア）を要素とする統合的スコアを用いる場合は、判別面として２次元平面上の基本的な判別関数ｆ_０を設定し、必要に応じて他人受理率と本人棄却率が一定の小さな値になるように、基本的な判別関数ｆ_０を２次元平面内で並行移動することで、認証受理判定用判別関数ｆ_１と認証受理判定用判別関数ｆ_２を定める。
【００６４】
上記の議論は、任意の複数ｋ個のスコアを要素とする集合を統合的スコアとする場合にも同様に成立する。この場合、ｋ次元平面の基本的な判別関数ｆ_０を判別面として設定し、必要に応じて他人受理率と本人棄却率が例えば１％という一定の値になるように、基本的な判別関数ｆ_０をｋ次元平面内で並行移動することで、ｋ個のスコアを要素とする統合的スコアを用いる場合の認証受理判定用判別関数ｆ_１と認証受理判定用判別関数ｆ_２を定める。また、判別関数ｆ_０、ｆ_１、ｆ_２は、発話者（利用者）毎に設定しても良いが、多数の発話者に対して共通な判別関数を設定しても実用上問題ない。
【００６５】
［統合的話者判定：２回目その１］
図６のステップＳＴ２１から図５のステップＳＴ１１へ戻ったら、つまり、先の統合的スコア（Ｓ１，Ｓ２）を用いた統合的話者判定では予め定めた認証精度で本人か他人かを判定することができない場合は、統合的話者判定器７ｄにより２回目の統合的話者判定が行われる。この処理を図５、図７を参照して説明する。
【００６６】
図５において、先ず、パタン指定器８は、話者登録用パタン蓄積器９に保存されている話者登録用パタンを読み出し、この話者登録用パタンに基づいて第３番目の話者認証用パタン例えば「８７９０」を指定する（ステップＳＴ１１）。
【００６７】
次いで、パタン指定器８は、第３番目に指定する話者認証用パタン（例えば「８７９０」）の発声を促す発声プロンプトＣを生成して話者認証装置１から出力する（ステップＳＴ１２）。この発声プロンプトＣはバッファ１０に上書き記憶で保存される。次いで、発話者が指定パタン（「８７９０」）を発声し、入力音声信号Ａが入力されると、特徴抽出器２は入力音声信号Ａから音響的特徴量を抽出する（ステップＳＴ１３、ＳＴ１４）。次いで、発声内容判定器３は、発話者の発声内容がバッファ１０に保存されている発声プロンプトＣで示される発声内容に一致するか判定する。この判定の結果、不一致の場合にはパタン指定器８は再度、同じ発声プロンプトＣを出力する（ステップＳＴ１５）。次いで、スコア計算器７ｂは、音声特徴情報蓄積器６の話者モデルを参照し、特徴抽出器２によって抽出された特徴量と話者モデルの特徴量との類似度を表すスコア（第３スコアＳ３）を計算する（ステップＳＴ１６）。
【００６８】
次いで、統合的話者判定器７ｄにより、第２スコアＳ２と第３スコアＳ３を要素とする集合である統合的スコア（第２統合的スコア）を用いて話者判定を行う。
【００６９】
２回目の統合的話者判定では、図５中のステップＳＴ１７からＳＴ２１までの処理を、図７に示すステップＳＴ１７からＳＴ２０までの処理（ただし、ステップＳＴ１８、ＳＴ２１はなし）と読み替えるものとする。
【００７０】
図７に示すように、統合的話者判定器７ｄは、第２スコアＳ２をスコア蓄積器７ａから読み出し、この第２スコアＳ２とスコア計算器７ｂが計算した第３スコアＳ３を要素とする集合を統合的スコア（Ｓ２，Ｓ３）とし、この統合的スコアを認証受理と認証拒否に共通の所定の判別関数ｆ_３の入力として、その結果得られる判別関数ｆ_３の符号を０（ゼロ：しきい値）と比較する（ステップＳＴ１７）。そして、判別関数ｆ_３の符号が正（プラス）である場合には、当該発話者が本人であると判定し、認証を受理する判定結果Ｂを出力する（ステップＳＴ１９）。一方、ステップＳＴ１７での比較の結果、判別関数ｆ_３の符号が正でない場合には、当該発話者が詐称者（他人）であると判定し、認証を拒否する判定結果Ｂを出力する（ステップＳＴ２０）。判別関数ｆ_３は２次元平面の所定の判別関数であり、しきい値０とともに予め話者判定器７に設定されている。
【００７１】
上記共通の判別関数ｆ_３としては、上述した認証受理判定用判別関数ｆ_１、または、認証拒否判定用判別関数ｆ_２、または、これら２つの認証受理用判別関数ｆ_１または認証拒否用判別関数ｆ_２の基になる基本的な判別関数ｆ_０、または、基本的な判別関数ｆ_０を適宜並行移動して得られる判別関数を用いることができる。判別関数ｆ_３として認証受理判定用判別関数ｆ_１を用いる場合は、他人受理率は小さくなるが、本人棄却率はやや大きくなる。認証拒否判定用判別関数ｆ_２を用いる場合は、逆に、本人棄却率は小さくなるが、他人受理率がやや大きくなる。また、基本的な判別関数ｆ_０を用いる場合は、本人棄却率は認証受理判定用判別関数ｆ_２を用いる場合に比べて大きく、他人受理率は認証拒否判定用判別関数ｆ_１を用いる場合に比べて大きくなる。一般に、基本的な判別関数ｆ_０を並行移動した判別関数を用いる場合は、並行移動の方向及び量に応じて、本人棄却率と他人受理率は変化する。どの判別関数を採用するかは、話者認証システムの目的及びそれが必要とする認証精度に応じて、実験等で決めればよい。
【００７２】
ここで、上述した実施例の話者判定（１発声目のスコアｓ１を単独に用いた話者判定、これで判定不可の場合に１発声目のスコアＳ１と２発声目のスコアＳ２を統合的に用いた話者判定、これでも判定不可の場合には２発声目のスコアＳ２と３発声目のスコアＳ３を統合的に用いた話者判定）の効果を示す。比較例話者判定としては、１発声目のスコアｓ１を単独に用いて話者判定し、これで判定不可の場合は２発声目のスコアＳ２のみを単独に用いて話者判定し、これでも判定不可の場合には３発声目のスコアＳ３のみを単独に用いた話者判定した。但し、実施低、比較例いずれの場合も、話者登録時から２ヶ月経過した時点で実験を行った。また、等誤り率を３％として設定した。
【００７３】
実施例の話者判定では、１発声目のスコアｓ１を単独に用いた話者判定では、本人を正しく本人と判定した発声の割合が８０％、他人を正しく他人と判定した発声の割合が８０％であり、これで判定不可となった残りの人に対について１発声目のスコアＳ１と２発声目のスコアＳ２を統合的に用いた話者判定では、本人を正しく本人と判定した発声の割合が１０％、他人を正しく他人と判定した発声の割合が８％であり、これでも判定不可となった残りの人について２発声目のスコアＳ２と３発声目のスコアＳ３を統合的に用いた話者判定では、本人を正しく本人と判定した発声の割合が４％、他人を正しく他人と判定した発声の割合が６％であった。また、最大３回の発声で、本人の９４％、詐称者（他人）の９４％が等誤り率３％で判定でき、平均発声回数は１．３２回であった。
【００７４】
比較例の話者判定では、１発声目のスコアｓ１を単独に用いた話者判定では、本人を正しく本人と判定した発声の割合が８０％、他人を正しく他人と判定した発声の割合が８０％であり、これで判定不可となった残りの人に対について２発声目のスコアＳ２のみを単独に用いた話者判定では、本人を正しく本人と判定した発声の割合が１０％、他人を正しく他人と判定した発声の割合が６％であり、これでも判定不可となった残りの人について３発声目のスコアＳ３のみ単独に用いた話者判定では、本人を正しく本人と判定した発声の割合が４％、他人を正しく他人と判定した発声の割合が７％であった。また、最大３回の発声で、本人の９４％、詐称者（他人）の９３％が等誤り率３％で判定でき、平均発声回数は１．３４回であった。
【００７５】
この結果より、比較例に比べ、実施例の話者判定の方が、２発声目で判定される他人の割合が６％から８％に増加し、全体に対する認証精度が向上するとともに、平均発声回数が減少したことが分かる。なお、実施例の話者判定の方が、３発声目で判定される他人の割合が７％から６％に減少しているが、これは２発声目の判定で判定不可となった人が少ない分、母集団が減少したためであり、問題ない。
【００７６】
［統合的話者判定：２回目その２］
上述した２回目統合的話者判定では認証受理と認証拒否の２つに結論付けしているが、いずれとも判定できない場合（判定付加）も結論付けすることも可能である。この場合、図５中のステップＳＴ１７からＳＴ２１までの処理を、図７ではなく、図８に示ステップＳＴ１７からＳＴ２２までの処理（ステップＳＴ２１はなし）と読み替えるものとする。
【００７７】
図８に示すように、統合的話者判定器７ｄは、第２スコアＳ２をスコア蓄積器７ａから読み出し、この第２スコアＳ２とスコア計算器７ｂが計算した第３スコアＳ３を要素とする集合を統合的スコア（Ｓ２，Ｓ３）とし、この統合的スコアを２次元平面の所定の認証受理判定用判別関数ｆ_１（第１判別関数）の入力として、その結果得られる認証受理判定用判別関数ｆ_１の符号を０（ゼロ：しきい値）と比較し（ステップＳＴ１７）、認証受理判定用判別関数ｆ_１の符号が正（プラス）である場合には、当該発話者が本人であると判定し、認証を受理する判定結果Ｂを出力する（ステップＳＴ１９）。上記認証受理判定用判別関数ｆ_１としきい値０は、予め話者判定器７に設定されている。この判別関数ｆ_１としては、他人受理率が少なくなるように、例えば、実験で他人受理率が数％、例えば１％となった値を採用する。
【００７８】
一方、ステップＳＴ１７での比較の結果、認証受理判定用判別関数ｆ_１の符号が正でない場合には、統合的スコア（Ｓ２，Ｓ３）を２次元平面の所定の認証拒否判定用判別関数ｆ_２（第２判別関数）の入力として、この結果得られる認証拒否判定用判別関数ｆ_２の符号を０（ゼロ：しきい値）と比較し（ステップＳＴ１８）、認証拒否判定用判別関数ｆ_２の符号が負（マイナス）である場合には、当該発話者が詐称者（他人）であると判定し、認証を拒否する判定結果Ｂを出力する（ステップＳＴ２０）。上記認証拒否判定用判別関数ｆ_２としきい値０は、予め話者判定器７に設定されている。この判別関数ｆ_２としては、本人棄却率が少なくなるように、例えば、実験で本人棄却率が他人受理率と同じ数％、例えば１％となった値を採用する。
【００７９】
一方、ステップＳＴ１８での比較の結果、統合的スコア（Ｓ２，Ｓ３）を入力した認証受理判定用判別関数ｆ_１の符号が正でなく、かつ、同じく統合的スコア（Ｓ２，Ｓ３）を入力した認証拒否判定用判別関数ｆ_２の符号が負でない場合には、統合的話者判定器７ｃは、統合的スコア（Ｓ２，Ｓ３）を用いた判定では予め定めた認証精度では認証受理とも認証拒否とも判定することができないと判断して（ステップＳＴ２２）、判定を終了する。
【００８０】
上記の実施例の話者判定では、１発声目のスコアｓ１を単独に用いて話者判定を行い、これで判定不可となった残りの人に対について１発声目のスコアＳ１と２発声目のスコアＳ２を統合的に用いて話者判定を行い、これでも判定不可となった残りの人について２発声目のスコアＳ２と３発声目のスコアＳ３を統合的に用いて話者判定を行ったが、統合的スコアの設定の仕方、あるいは、統合的話者判定と単独発声による話者判定との組み合わせの仕方には種々あり、以下にその幾つかを例示する。
（１）１発声目のスコアｓ１を単独に用いて話者判定を行い、これで判定不可となった残りの人について１発声目のスコアＳ１と２発声目のスコアＳ２を統合的に用いて話者判定を行い、これで判定不可となった残りの人について１発声目のスコアＳ１と２発声目のスコアＳ２と３発声目のスコアＳ３を統合的に用いて話者判定を行う。この場合、第２統合的スコアはＳ１とＳ２とＳ３を要素とする集合（Ｓ１，Ｓ２，Ｓ３）となる。
（２）１発声目のスコアｓ１を単独に用いて話者判定を行い、これで判定不可となった残りの人について１発声目のスコアＳ１と２発声目のスコアＳ２を統合的に用いて話者判定を行い、これで判定不可となった残りの人について１発声目のスコアＳ１と３発声目のスコアＳ３を統合的に用いて話者判定を行う。この場合、第２統合的スコアはＳ１とＳ３を要素とする集合（Ｓ１，Ｓ３）となる。言い換えれば、統合的スコアの要素は必ずしも連続した発声のスコアでなくても良い。
（３）１発声目のスコアｓ１を単独に用いた話者判定を行なわず、１回目と２回目の発声を続けて行わせ、１発声目のスコアＳ１と２発声目のスコアＳ２を統合的に用いて話者判定を行い、これで判定不可となった残りの人について２発声目のスコアＳ２と３発声目のスコアＳ３を統合的に用いて、あるいは、１発声目のスコアＳ１と３発声目のスコアＳ３を統合的に用いて（統合的スコアの要素は必ずしも連続した発声のスコアである必要はない）話者判定を行う。この場合のように、統合的話者判定のみで本人か他人かを判定するようにしても良い。
（４）１発声目のスコアｓ１を単独に用いた話者判定を行なわず、１回目と２回目と３回目の発声を続けて行わせ、１発声目のスコアＳ１と２発声目のスコアＳ２と３発声目のスコアＳ３を統合的に用いて一括して話者判定を行う。
（５）１発声目のスコアｓ１を単独に用いて話者判定を行い、これで判定不可となった残りの人について２発声目のスコアＳ２を単独に用いて話者判定を行い、これでも判定不可となった残りの人について１発声目のスコアＳ１と２発声目のスコアＳ２と３回目発声のスコアＳ３を統合的に用いて、あるいは、２発声目のスコアＳ２と３回目発声のスコアＳ３を統合的に用いて、あるいは、１発声目のスコアＳ１と３回目発声のスコアＳ３を統合的に用いて話者判定を行う。
（６）１発声目のスコアｓ１を単独に用いて話者判定を行い、これで判定不可となった人について２発声目のスコアＳ２を単独に用いて話者判定を行い、これでも判定不可となった人について３回目発声のスコアＳ３を単独に用いて話者判定を行い、これでも判定不可となった残りの人について１発声目のスコアＳ１と２発声目のスコアＳ２と３回目発声のスコアＳ３を統合的に用いて、あるいは、２発声目のスコアＳ２と３回目発声のスコアＳ３を統合的に用いて、あるいは、１発声目のスコアＳ１と３回目発声のスコアＳ３を統合的に用いて話者判定を行う。
【００８１】
要するに、上記実施例のようにｎ＝３の場合には、互いに異なる話者認証用発声パタンを最大で３回発話者に対して指定し、２回分または３回分の発声パタン指定に対応するスコアを要素とする集合を統合的スコアとし、この統合的スコアを２または３次元平面の判別関数の入力として、判別関数の符号から発話者が本人か他人かを判定する。その際、統合的話者判定を１段階あるいは２段階適用したり、あるいは、単独発声による話者判定を必要に応じて併用すると良い。
【００８２】
一般的には、本発明では、互いに異なる話者認証用発声パタンを最大で複数ｎ回発話者に対して指定し、複数ｋ回（２≦ｋ≦ｎ）の発声パタン指定に対応するｋ個のスコアを要素とする集合を統合的スコアとし、この統合的スコアをｋ次元平面の判別関数の入力として、判別関数の符号から発話者が本人か他人かを判定するという話者認証手法をとることができる。その際、単独発声による話者判定を必要に応じて併用する。統合的スコアとしては、例えば、少なくとも１発声目のスコアを要素とする集合や、ｎ―１発声目のスコア及びｎ発声目のスコアを要素とする集合など、２つあるいは３つ以上のスコアを要素とする集合を用いる。また、このような統合的話者判定を１段階あるいは２段階以上の多段階適用すると良い。
【００８３】
なお、本発明の話者認証技術は、テレフォンバンキング等の電話サービスのための音声認証装置、あるいは各種Ｗｅｂサービスのための音声認証装置などに適用することができる。
【００８４】
また、図５〜図９に示す各ステップを実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより話者認証処理を行っても良い。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器当のハードウェアを含むものであっても良い。また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）を含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ―ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
【００８５】
更に、「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含む。
【００８６】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されても良い。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。
【００８７】
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。更に、前述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。
【００８８】
以上、図面を参照して本発明の実施形態を詳述してきたが、連続単語が連続数字や連続アルファベットなど任意の単語や記号が連続したもので良いなど、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
【００８９】
【発明の効果】
上述したように、本発明によれば、本人と他人（詐称者）との判定が難しい発声に対しては指定パタンを変えて再発声を促して複数発声のスコアを統合的に用いて判定することができ、予め設定した認証精度を保証することが可能である。また、本発明によれば、本人の発声を密かに録音しておいて後から再生する「録音再生式の詐称」に対して、頑強で且つ高認証精度を維持したテキスト指定型の話者認証技術を実現することができる。更に、複数発声を統合的に用いた話者判定を多段階行って予め設定した認証精度を保証する場合は、認証精度を改善し、認証受理を保証できる利用者（発話者）の割合を大きくすることができる。
【００９０】
また、認証受理あるいは認証拒否のいずれであるとも判定できない場合に、前回指定した話者認証用パタンよりも認証精度を高めるような発声パタンを新たに指定することにより、利用者の負担を考慮してだんだんと認証精度を高めるようにして認証効率の向上を図ることができる。また、話者認証用パタンの再指定の際に、前回指定の話者認証用パタンよりも、話者登録用パタン内の複数単語の連鎖の組み数を増やすようにすれば、発声単語数は増えるが本人詐称防止効果を保ちつつ、認証精度を高めることができる。
【００９１】
更に、話者登録に使用された発声パタンに含まれる複数単語の連鎖を少なくとも一組含む話者認証用の発声パタンを発話者に指定することにより、本人詐称を防止するとともに、利用者の負担をできるだけ軽減し、且つ効率良く認証を行うことができる。この場合、話者認証用パタンの再指定の際に、前回指定の話者認証用パタンよりも、話者登録用パタン内の一連の単語連鎖の数を増やすようにすれば、認証精度を優先して高めることができる。
【図面の簡単な説明】
【図１】本発明の一実施形態による話者認証装置の構成を示すブロック図。
【図２】話者判定器の構成例を示すブロック図。
【図３】話者登録処理の流れを示すフローチャート。
【図４】発声パタン指定の例を示す図。
【図５】話者認証処理の流れを示すフローチャート。
【図６】話者認証処理中、１回目の統合的話者判定部分の流れを示すフローチャート。
【図７】話者認証処理中、２回目の統合的話者判定部分の流れを示すフローチャート。
【図８】判別関数の設定方法の例を示す図。
【図９】話者認証処理中、２回目の統合的話者判定の別の例を示すフローチャート。
【符号の説明】
１話者認証装置
２特徴抽出器
３発声内容判定器
４スイッチ
５登録判定器
６音声特徴情報蓄積器
７話者判定器
７ａスコア蓄積器（スコア蓄積手段）
７ｂスコア計算器（スコア計算手段）
７ｃ単独発声用話者判定器（単独発声による話者判定手段）
７ｄ統合的話者判定器（統合的話者判定手段）
８パタン指定器（発声パタン指定手段）
９話者登録用パタン蓄積器（発声パタン記憶手段）
１０バッファ
１１従来のしきい値に相当する直線
１２ａ本人を認証受理する割合が増加する領域
１２ｂ他人を認証拒否する割合が増加する領域

Claims

発話者の発声と話者モデルとの類似度を表すスコアに基づいて本人認証を行う話者認証装置において、
互いに異なる話者認証用発声パタンを、最大で複数ｎ回、発話者に対して指定する発声パタン指定手段と、
第ｉ番目の発声パタン指定に対応する発話者の発声と話者モデルとのスコアを、第ｉスコアとして、計算するスコア計算手段と、
複数ｋ回の発声パタン指定に対応するｋ個のスコアを要素とする集合を統合的スコアとし、この統合的スコアをｋ次元平面の判別関数の入力として、判別関数の符号から発話者が本人か他人かを判定する統合的話者判定手段
を備えることを特徴とする話者認証装置。
請求項１において、
第１スコアを単独にしきい値と比較することで、発話者が本人か他人かを判定する単独発声による話者判定手段を備え、
前記統合的話者判定手段は、単独発声による話者判定手段では予め定めた認証精度で発話者が本人か他人かを判定することができない場合に、発話者が本人か他人かの判定を行うものであることを特徴とする話者認証装置。
請求項２において、統合的スコアが少なくとも第１スコアを要素とする集合であることを特徴とする話者認証装置。
請求項１において、
第ｎスコアを単独にしきい値と比較することで、発話者が本人か他人かを判定する単独発声による話者判定手段を備え、
前記統合的話者判定手段は、単独発声による話者判定手段では予め定めた認証精度で発話者が本人か他人かを判定することができない場合に、発話者が本人か他人かの判定を行うものであることを特徴とする話者認証装置。
請求項４において、統合的スコアが少なくとも第ｎ―１スコア及び第ｎスコアを要素とする集合であることを特徴とする話者認証装置。
請求項１において、
ｎ＝３、ｋ＝２であり、第１スコアを単独にしきい値と比較して発話者が本人か他人かを判定する単独発声による話者判定手段を備えること、
前記統合的話者判定手段は、単独発声による話者判定手段による第１スコアとしきい値との比較では予め定めた認証精度で発話者が本人か他人かを判定することができない場合に、第１スコアと第２スコアを要素とする集合である第１統合的スコアを判別関数の入力として発話者が本人か他人かの判定を行い、この第１統合的スコアによる判定では予め定めた認証精度で発話者が本人か他人かを判定することができない場合に、第２スコアと第３スコアを要素とする集合である第２統合的スコアを判別関数の入力として発話者が本人か他人かの判定を行うものであることを特徴とする話者認証装置。
請求項１において、前記発声パタン指定手段が第ｉ番目に指定する話者認証用発声パタンは、第ｉ−１番目に指定した話者認証用発声パタンよりも認証精度が高い発声パタンであることを特徴とする話者認証装置。
請求項１において、話者登録に使用された話者登録用発声パタンを保存する発声パタン記憶手段を有し、前記発声パタン指定手段は話者認証用発声パタンとして、前記保存されている話者登録用発声パタンに含まれている複数単語の連鎖を少なくとも一組含む発声パタンを指定するものであることを特徴とする話者認証装置。
請求項１において、前記判別関数として、本人を受理するための第１判別関数及び他人を棄却するための第２判別関数を有し、これら第１判別関数及び第２判別関数は他人受理率と本人棄却率が一定の値となるように設定されていることを特徴とする話者認証装置。
請求項９記載の話者認証装置に用いられる判別関数を設定する方法であって、
ｋ個のスコアの分布をｋ次元平面におけるｋ次元正規分布で近似して、ｋ次元平面上の判別面を求めること、
この判別面を並行移動して、他人受理率と本人棄却率が一定の値となる第１判別関数及び第２判別関数を設定することを特徴とする判別関数設定方法。