JP4440414B2

JP4440414B2 - 話者照合装置及び方法

Info

Publication number: JP4440414B2
Application number: JP2000081328A
Authority: JP
Inventors: 将治原田; 昭二早川; 晃鈴木
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2000-03-23
Filing date: 2000-03-23
Publication date: 2010-03-24
Anticipated expiration: 2020-03-23
Also published as: JP2001265387A

Description

【０００１】
【発明の属する技術分野】
本発明は、事前に登録してある音声データの特徴量に基づいて、利用者本人か否かを音声によって判定する話者照合装置又は方法に関する。
【０００２】
【従来の技術】
近年、コンピュータ技術の発展とともに、急速に通信環境についても整備されつつある。このような通信環境の整備に伴い、電話によるコンピュータアクセス（Computer Telephony Integration）が一般の家庭においても普通に行うことが可能になってきた。
【０００３】
かかる電話によるコンピュータアクセス分野においては、プライバシーに関する情報や秘密保持義務を有する情報等に代表される、本人や特定の個人以外に知らせてはならない情報に対するアクセスを行う場合に問題がある。すなわち、例えばプッシュホンを用いる場合においては、パスワードを電話のボタン操作によって入力することで当該情報へのアクセス権限を取得することが可能であるが、パスワードを他人に知られてしまうと、本人でないにもかかわらず、当該情報に容易にアクセスできてしまうという問題である。そのため、本人に固有である音声を用いて、本人あるいは特定の個人であるか否かについて照合を行うことの必要性が高まってきている。
【０００４】
【発明が解決しようとする課題】
しかし、音声合成技術についても近年急速な進歩を遂げており、かかる技術を駆使することによって、話者の個人性をも表現することも不可能ではなくなっている。
【０００５】
すなわち、従来の技術においては、話者照合のための入力として人間の肉声を想定しており、特定の人間の声を正確に音声合成するためには、当該人間の音声波形データ等を大量に収録して編集しなければならないことから、実現性に乏しかった。
【０００６】
しかしながら、昨今では本人の音声を少しだけ収録することで個人性を反映させた音声合成を実現することができるようになっており、容易に他人の声を真似ることが可能となってきている。
【０００７】
このような話者の個人性をも表現できる合成音声装置を用いることで、第三者が特定の個人になりすますことができ、話者照合システム自体が悪用されるおそれがあるという大きな問題点が生じている。
【０００８】
本発明は、上記問題点を解決すべく、話者の個人性をも表現している合成音声を用いた場合であっても、話者照合を的確におこなうことができる話者照合装置及び方法を提供することを目的とする。
【０００９】
【課題を解決するための手段】
上記目的を達成するために本発明にかかる話者照合装置は、音声入力する話者の音声が、予め登録された登録話者の音声と一致するか否かを判定する話者照合装置であって、入力する発声内容について話者に指示を与える話者入力指示部と、話者の音声を一又は二以上入力する音声入力部と、音声入力部で入力された音声を分析する音声分析部と、入力された同一の発声内容である二以上の音声について、相互間の類似度を算出する入力音声類似度算出部とを含み、算出された類似度が完全一致に近い所定レベル以上の類似度である場合、類似度が一致するという情報も用いて話者を照合することを特徴とする。
【００１０】
かかる構成により、本人であるか否かの判断と共に、人工的に生成された合成音声については人間の音声が本来有するべき揺らぎが全くないものとして識別することができるようになることから、本人と全く関係のない第三者が音声合成装置等を用いて本人になりすます行為を未然に防止することが可能となる。
【００１１】
また、本発明にかかる話者照合装置は、類似度の判断を、登録話者モデルに対する照合過程が同一か否かに基づいて行うことが好ましい。人間の音声においては、発声の長さやスペクトルが発声の都度相違するために照合過程が一致することがあり得ないことから、照合過程を比較することで、本人と全く関係のない第三者が音声合成装置等を用いて本人になりすます行為を未然に防止することが可能となる。
【００１２】
また、本発明にかかる話者照合装置は、音声入力部で少なくとも二以上の音声が入力された場合であって、少なくとも１つの音声について変換処理が行われている場合には、音声入力部で入力された少なくとも二以上の音声のうち、変換処理が行われていない音声について信号処理を施し、あるいは入力された少なくとも二以上の音声について正規化処理を施すことが好ましい。複数回音声を入力する場合に、二回目以降の入力音声に何らかのフィルタ等を掛けて変換処理を行うことで、音声入力における自然な揺らぎを人工的に生成し、合成音声でないと認識させる行為についても未然に防止するためである。
【００１３】
また、本発明にかかる話者照合装置は、類似度が一致すると判断された場合には、本人の音声入力ではないものと判断して入力を棄却することが好ましい。繰り返し発声された音声データがほぼ完全に一致した場合には録音物等の疑いがあるものとして、本人であるとは判断しないようにするためである。
【００１４】
また、本発明は、上記のような話者照合装置の機能をコンピュータの処理ステップとして実行するソフトウェアを特徴とするものであり、具体的には、音声入力する話者の音声が、予め登録された登録話者の音声と一致するか否かを判定する話者照合方法であって、入力する発声内容について話者に指示を与える工程と、話者の音声を一又は二以上入力する工程と、入力された音声を分析する工程と、入力された同一の発声内容である二以上の音声について、相互間の類似度を算出する工程とを含み、算出された類似度が完全一致に近い所定レベル以上の類似度である場合、類似度が一致するという情報も用いて話者を照合する話者照合方法並びにそのような工程をプログラムとして記録したコンピュータ読み取り可能な記録媒体であることを特徴とする。
【００１５】
かかる構成により、コンピュータ上へ当該プログラムをロードさせ実行することで、本人であるか否かを判断できると共に、人工的に生成された合成音声については人間の音声が本来有するべき揺らぎが全くないものとして識別することができるようになることから、本人と全く関係のない第三者が音声合成装置等を用いて本人になりすます行為を未然に防止することができる話者照合装置を実現することが可能となる。
【００１６】
【発明の実施の形態】
（実施の形態１）
以下、本発明の実施の形態１にかかる話者照合装置について、図面を参照しながら説明する。図１は本発明の実施の形態１にかかる話者照合装置の構成図である。
【００１７】
図１において、１は個人ＩＤ入力部を示し、話者照合時に個人ＩＤを入力するものである。２は個人別音声情報登録部を示し、個人ＩＤごとに音声情報を事前にデータベース化しておくものである。ここでは、音声波形データのみならず、音声データを解析した特徴量についても事前に登録しておく。
【００１８】
次に、３は音声入力指示部を示し、話者照合時に利用者が入力すべき音声について指示を出すものである。４は音声入力部を示し、マイク等の入力媒体を通じて、利用者が実際に発声して音声データを入力するものである。
【００１９】
音声入力部４では、音声入力指示部３の指示に従って、音声を入力することになる。この場合、同じ発声内容を含む比較的長い音声を一回だけ入力するものであっても良いし、同じ発声内容を二回以上繰り返すものであっても良い。また、同じ発声内容を含んでいる異なる発声内容を入力するものであっても良い。例えば、「前川さん」と「早川さん」と発声させることで、「かわさん」の部分が同一発声内容となることで、比較を行うことが可能となる。かかる入力方法では、利用者が同一音声の照合を行っていると気づきにくく、比較的精度良く照合を行うことが期待できる。
【００２０】
したがって、例えば図２に示すように入力音声格納部２１を設けることで、前回に入力していた音声データに基づいて発声内容の照合を行うことも考えられる。人間で有れば、時と場所を変えて入力した場合に音声の揺らぎが生じることが自然であることから、揺らぎのほとんど見られない入力について合成音声あるいは録音音声等であるものと判断できるからである。
【００２１】
また、５は音声分析部を示し、入力された音声データを分析して、その音声波形データの物理的な特徴量を求めるものである。求まった特徴量に基づいて、登録音声類似度算出部６では個人別音声情報登録部２に登録されている音声データの特徴量と入力音声の音声データの特徴量との第１の類似度を算出し、入力音声類似度算出部７では同一内容の入力音声について音声データの特徴量の第２の類似度を算出する。
【００２２】
一般に、従来の話者照合においては、音声の特徴量等に基づいて入力音声と登録音声との第１の類似度を算出することのみで類否判断を行っている。しかし、人間が発声する場合には、その時々の状態や環境に応じて音声に揺らぎが生じ、全く同一の音声として発声することは不可能であることから、一定の許容範囲を定めて、第１の類似度が当該範囲内であれば同一人であるものと判断する等の方法を採用している。
【００２３】
したがって、音声合成装置等を用いて、第１の類似度がかかる許容範囲内となるように調整した合成音声を生成することで、第三者が容易に本人になりすますことが可能となる。
【００２４】
一方、音声合成装置等で人工的に生成された合成音声については、揺らぎが生じることが無く、何度入力しても同一の音声を入力することができる。したがって、従来の話者照合に加えて、複数回同一の音声を入力しても入力音声間の類似度である第２の類似度が毎回同じ値として算出されるものについても、人間の音声ではなく合成音声のような不自然な音声であると判断することができる。
【００２５】
具体的に、類似度の判断基準を音声データ間の照合距離とした場合について、図３を用いて説明する。図３は、音声データ間の照合距離の頻度分布を示すものであり、照合距離が短いほど類似度が高いと判断するものである。
【００２６】
図３において、領域Ａは個人別音声情報登録部２に登録されている音声データの特徴量と入力された本人の音声データの特徴量との距離の分布を示す領域である。領域Ｂは同一内容の音声部分における音声データの特徴量に関する照合距離の分布、例えば一回目と二回目の入力音声間における照合距離の分布を示している。領域Ｃは個人別音声情報登録部２に登録されている音声データの特徴量と詐称者の入力音声の音声データの特徴量との間の照合距離の分布を示している。
【００２７】
すなわち、領域Ａ及び領域Ｃは、個人別音声情報登録部２に登録されている音声データとの照合距離の分布であるのに対し、領域Ｂは入力された音声データ間の照合距離の分布である点で大きく相違する。
【００２８】
まず従来の方法においては、領域Ａ及び領域Ｃの間で入力された音声が本人の音声であるか否かについて判断していた。すなわち、入力された音声データの照合距離が所定のしきい値であるしきい値Ｉよりも小さい場合には、入力された音声の類似度が高いものと判断して入力音声が本人の音声であるものと判断する。
【００２９】
一方、領域Ａ及び領域Ｂの間では、入力された音声が自然音声であるか合成音声で有るかを判断することになる。すなわち、入力された音声データ間の照合距離が所定のしきい値であるしきい値IIよりも小さい場合には、入力された音声に人間本来の自然な揺らぎがないものと判断して、入力音声が合成音声や録音音声等の不自然な音声であるものと判断する。
【００３０】
次に、登録音声類似度算出部６及び入力音声類似度算出部７における類似度の算出方法について説明する。まず、特定の個人ＩＤに対応する音声データの特徴量と入力された音声データの特徴量が類似しているものと判断するためのしきい値としては、従来から固定した一定の値が用いられることが多い。例えば、図４に示すように、入力された音声と事前に登録されている音声との間で照合距離を計算し、あらかじめ設定したしきい値と比較して、当該しきい値よりも照合距離が同じ若しくは短い場合（図４の“−”）には本人であると、長い場合（図４の“＋”）には他人であると判断するものである。
【００３１】
かかるしきい値の設定には、以下に示すような方法を用いることが多い。図５は、類似度判断の指標として照合距離を用いた場合において、照合距離を横軸として、本人ではないと棄却する判断が誤りであった場合の確率である本人拒否率ＦＲＲ（False Rejection error Rate）を縦軸にとったものである。一方、同じく照合距離を横軸として、詐称者であるとする判断が誤りであった場合の確率である他人受入率ＦＡＲ（False Acceptance error Rate）も縦軸にとる。
【００３２】
しきい値を小さな値にすると、詐称者を誤って受理してしまう率ＦＡＲは減るが、本人を誤って棄却してしまう率ＦＲＲが高くなる。逆にしきい値を大きな値とすると、本人を誤って棄却してしまう率ＦＲＲは小さくなるが、詐称者を誤って受理してしまう率ＦＡＲは大きくなる。よって、かかる２つの誤り率の重要度に応じて、しきい値を適切な値に設定するのが望ましい。
【００３３】
実験的には事後的にかかる２つの誤り率が等しくなる値をしきい値として評価するのが一般的である。本実施の形態１においては、図３におけるしきい値Ｉとしては、人間の音声による実験値から、しきい値IIとしては音声合成装置により生成された合成音声による実験値から、それぞれＦＲＲとＦＡＲが一致する値をしきい値としている。すなわち、所定のしきい値を定めた場合において、本人同士の音声間距離と本人・他人間の音声間距離の頻度分布曲線（図３）のうち、定めたしきい値からはみ出た部分の面積がＦＡＲ、ＦＡＲを示すことになる。
【００３４】
また、入力音声が合成音声等であるか否かを判定するための照合距離の算出方法についても、同様に様々な方法が考えられる。本実施の形態１においては、音声データの特徴量をｎ次元の特徴パラメータとし、ｎ次空間内における空間内距離として当該照合距離を求めている。ただし、特にこの方法に限定されるものではなく、当該照合距離の算出方法として、ＤＰマッチングを用いることも考えられる。ここで、ＤＰとは動的計画法（Dynamic Programming）を意味している。
【００３５】
例えば図６は、同時期に同一に発声された内容に含まれる単語発声に対する同一話者内の距離の頻度分布をＤＰマッチングを用いて算出したものである。かかる方法によっても判断の対象となる距離分布を求めることが可能である。
【００３６】
図７は、ＤＰマッチングを用いた場合におけるＤＰパスの例示図である。ここで、ＤＰパスとは時間対応付けを行った場合における最小値を選択することを意味する。なお、図７の横軸は同一音声に関する１回目の音声入力に基づいた音声データの特徴パラメータ系列を、縦軸には同一音声に関する２回目の音声入力に基づいた音声データの特徴パラメータ系列を、それぞれ示し、ｉ、ｊはそれぞれフレーム数を示している。
【００３７】
同一の発声部分に関する一回目と二回目の発声について、ＤＰマッチング等を用いて時間対応付け（時間正規化）を行い、時間正規化後の距離を用いて判断する。その距離が極端に小さい場合や極端に大きい場合については、不自然な発声であるものとして棄却する。かかる判断には、ＤＰパスの結果を用いるとより容易に判断することができる。
【００３８】
すなわち図７において、人間の自然な発声の場合には、７１に示すように一回目と二回目の発声において局所的なＤＰパスの揺れが生じ、特徴パラメータが完全に一致するということはあり得ない。しかし、音声合成装置等によって人工的に生成された合成音声等の場合には何度入力してもその特徴パラメータは一致していることから、７２に示すように一回目と二回目の特徴パラメータは完全に一致する。かかる不自然な発声を検出することで本人になりすますことを防止することが可能となる。
【００３９】
そこで、合成音声等であるか否かの照合方法として、登録話者モデルに対する照合過程が同一か否かを調べることも考えられる。図８は照合過程の同一性判断を適用した本発明の一実施例にかかる話者照合装置の構成図である。図８では、類似度算出過程比較部８１を入力音声類似度算出部７の代わりに設けている点に特徴を有する。
【００４０】
類似度算出過程比較部８１では、例えばＤＰマッチングを用いたので有ればＤＰパスを、ビタービアルゴリズム（Viterbi algorithm）を用いたＨＭＭ（Hidden Markov Model）である場合には、状態遷移をバックトレースした結果を、それぞれの入力音声について調査し比較する。一般に人間の発声の場合においては、発声の長さやスペクトルが異なるために、照合過程が一致することは起こり得ないのに対して、合成音声や録音音声の場合には、登録話者の音声情報に対する照合過程が何回入力しても一致してしまうため、かかる不正入力を検出することが可能となる。
【００４１】
そして、総合判断部８においては、登録音声類似度算出部６で算出された個人別音声情報登録部２に登録されている音声データの特徴量と入力音声の音声データの特徴量との類似度と、入力音声類似度算出部７で算出された同一内容の入力音声に関する音声データの特徴量の類似度とに基づいて、総合的に入力された音声が本人のものであるか否かについて判断する。
【００４２】
まず、登録音声類似度算出部６で算出された個人別音声情報登録部２に登録されている音声データの特徴量と入力音声の音声データの特徴量との類似度が所定のしきい値よりも小さい、すなわち上述したような方法により求めた照合距離のしきい値Ｉよりも大きい場合には、人間が本来有する音声発声時の揺らぎの範囲を超えているものとして、入力された音声が本人のものではないと判断される。類似度が所定のしきい値以上、すなわち上述したような方法により求めた照合距離のしきい値Ｉ以下である場合には、人間が本来有する音声発声時の揺らぎの範囲内であると判断され、以下の判断に移る。
【００４３】
次に、入力音声類似度算出部７で算出された同一内容の入力音声に関する音声データの特徴量の類似度が所定のしきい値以上、すなわち上述したような方法により求めた照合距離のしきい値II以下である場合には、人間が本来有する音声発声時の揺らぎすら生じていない不自然な音声で有るものとして、入力された音声が本人のものではないと判断される。類似度が所定のしきい値より小さい、すなわち上述したような方法により求めた照合距離のしきい値IIより大きい場合には、人間が本来有する音声発声時の揺らぎが生じていると判断され、入力された音声が本人のものであると判断される。
【００４４】
最後に、入力された音声が本人のものであるか否かについての判断結果を判断結果出力部９において出力する。出力方法としては、表示装置等へ表示するものであっても良いし、判断結果に応じて稼働するアプリケーション等へファイルとして渡すものであったも良い。
【００４５】
次に、人工的な合成音声に対して、一回目と二回目で異なる信号処理を施すことで、人工的に合成音声に揺らぎを付加することで、上述したような合成音声の棄却条件を回避することも考えられる。かかる回避を防止するために、図９に示すように信号処理部を音声入力部４の後処理として設けることで対処する。
【００４６】
図９は、かかる方法を実現する本発明の一実施例にかかる話者照合装置の構成図である。図１に比して、音声入力部４の前処理として信号処理部９１が付加されている点に特徴を有している。
【００４７】
信号処理部９１は、音声入力部４から入力された音声すべてについて処理するものではない。対比する音声入力の少なくとも一つについて、想定される信号処理を施し、入力音声と信号処理後の音声について上述したような方法で類似度を判別することで、特徴パラメータが実際には一致している合成音声を擬似的に異なる音声であるものと見せかけた入力音声についても、合成音声であることを検出することができ、さらなるセキュリティ性能の向上に寄与できる。
【００４８】
また、音声入力環境は、時間や場所といった周囲の状況によって変動し、同一の音声を同一人が入力した場合であっても周囲の環境が同一であることは考えられないことから、周囲の環境変動による話者の誤認を最小限に止めるべく、入力されてきた音声に適当な信号処理を行うのにも利用可能である。
【００４９】
また、信号処理部９１において、信号に対する変換処理ではなく、正規化処理を行うことも考えられる。正規化処理としては、音声区間全域に渡って平均化したケプストラム（Cepstrum）の値を、各フレームにおけるケプストラムの値から差し引くことで行うＣＭＮ法（Cepstral Mean Normalization）等を用いることが考えられる。正規化処理を行うことで、類似度算出対象となる入力音声を同一環境における音声であるものとして扱うことができ、判断の精度向上が期待できる。なお、正規化処理の手法は特にＣＭＮ法に限定されるものではない。
【００５０】
以上のように本実施の形態によれば、人工的に生成された合成音声については人間の音声が本来有するべき揺らぎが全くないものとして識別することができるようになることから、本人と全く関係のない第三者が音声合成装置等を用いて本人になりすます行為を未然に防止することが可能となる。
【００５１】
次に、本発明の実施の形態にかかる話者照合装置を実現するプログラムの処理の流れについて説明する。図１０に本発明の実施の形態にかかる話者照合装置を実現するプログラムの処理の流れ図を示す。
【００５２】
図１０において、まず事前に登録されている音声情報を引き出すために、照合対象となる利用者の個人ＩＤを入力し、登録されている音声情報を抽出する（ステップＳ１０１）。
【００５３】
次に、音声の類似度を算出するために、どのような音声を入力するのか指示を出し（ステップＳ１０２）、同一の内容について少なくとも二回以上含まれている一又は二以上の音声を入力する（ステップＳ１０３）。
【００５４】
そして、まず抽出された登録音声と入力された音声との間の第１の類似度を算出する（ステップＳ１０４）。算出された第１の類似度が所定のしきい値より小さい場合には（ステップＳ１０５：Ｎｏ）、人間の有する自然な揺らぎ以上の相違を有するものと判断して、詐称者による音声であると判断する（ステップＳ１０９）。
【００５５】
次に、算出された第１の類似度が所定のしきい値以上である場合には（ステップＳ１０５：Ｙｅｓ）、二以上入力されている入力音声同士の間における第２の類似度を算出する（ステップＳ１０６）。算出された第２の類似度が所定のしきい値以上である場合には（ステップＳ１０７：Ｙｅｓ）、人間の有する自然な揺らぎすら有しない不自然な音声であるものと判断して、詐称者による音声であると判断する（ステップＳ１０９）。
【００５６】
算出された第２の類似度が所定のしきい値よりも小さい場合には（ステップＳ１０７：Ｎｏ）、自然な音声による入力であるものと判断して、本人による音声入力であると判断する（ステップＳ１０８）。
【００５７】
なお、本発明の実施の形態にかかる話者照合装置を実現するプログラムを記憶した記録媒体は、図１１に示す記録媒体の例に示すように、ＣＤ−ＲＯＭ１１２−１やフロッピーディスク１１２−２等の可搬型記録媒体１１２だけでなく、通信回線の先に備えられた他の記憶装置１１１や、コンピュータ１１３のハードディスクやＲＡＭ等の記録媒体１１４のいずれでも良く、プログラム実行時には、プログラムはローディングされ、主メモリ上で実行される。
【００５８】
また、本発明の実施の形態にかかる話者照合装置により生成された個人別音声情報等を記録した記録媒体も、図１１に示す記録媒体の例に示すように、ＣＤ−ＲＯＭ１１２−１やフロッピーディスク１１２−２等の可搬型記録媒体１１２だけでなく、通信回線の先に備えられた他の記憶装置１１１や、コンピュータ１１３のハードディスクやＲＡＭ等の記録媒体１１４のいずれでも良く、例えば本発明にかかる話者照合装置を利用する際にコンピュータ１１３により読み取られる。
【００５９】
【発明の効果】
以上のように本発明にかかる話者照合装置によれば、人工的に生成された合成音声については人間の音声が本来有するべき揺らぎが全くないものとして識別することができるようになることから、本人と全く関係のない第三者が音声合成装置等を用いて本人になりすます行為を未然に防止することが可能となる。
【図面の簡単な説明】
【図１】本発明の実施の形態にかかる話者照合装置の構成図
【図２】本発明の一実施例にかかる話者照合装置の構成図
【図３】本発明の実施の形態にかかる話者照合装置の原理説明図
【図４】本発明の実施の形態にかかる話者照合装置におけるしきい値概念説明図
【図５】本発明の実施の形態にかかる話者照合装置におけるしきい値概念説明図
【図６】本発明の実施の形態にかかる話者照合装置におけるＤＰマッチング結果の例示図
【図７】本発明の実施の形態にかかる話者照合装置におけるＤＰマッチングの概念説明図
【図８】本発明の一実施例にかかる話者照合装置の構成図
【図９】本発明の一実施例にかかる話者照合装置の構成図
【図１０】本発明の実施の形態にかかる話者照合装置における処理の流れ図
【図１１】記録媒体の例示図
【符号の説明】
１個人ＩＤ入力部
２個人別音声情報登録部
３音声入力指示部
４音声入力部
５音声分析部
６入力音声類似度算出部
７登録音声類似度算出部
８総合判定部
９判定結果出力部
２１入力音声格納部
８１類似度算出過程比較部
９１信号処理部
１１１回線先の記憶装置
１１２ＣＤ−ＲＯＭやフロッピーディスク等の可搬型記録媒体
１１２−１ＣＤ−ＲＯＭ
１１２−２フロッピーディスク
１１３コンピュータ
１１４コンピュータ上のＲＡＭ／ハードディスク等の記録媒体

Claims

音声入力する話者の音声が、予め登録された登録話者の音声と一致するか否かを判定する話者照合装置であって、
入力する発声内容について話者に指示を与える話者入力指示部と、
同一内容の音声部分を含む、前記話者の音声を一又は二以上入力する音声入力部と、
前記音声入力部で入力された音声を分析する音声分析部と、
前記音声入力部で入力された音声と、予め登録されている前記話者の登録音声との類似度を第１の類似度として算出し、入力された一又は二以上の音声のうち、同一の発声内容である二以上の音声部分における相互間の類似度を第２の類似度として算出する入力音声類似度算出部と、
算出された前記第１の類似度が所定のしきい値より小さい場合は本人の音声入力でないものと判定し、前記第１の類似度が前記所定のしきい値以上の場合でも、前記第２の類似度が完全一致に近い所定レベル以上の類似度である場合は、本人の音声入力でないものと判定する判定部を備える、話者照合装置。
前記第２の類似度の判断を、登録話者モデルに対する照合過程が同一か否かに基づいて行う請求項１記載の話者照合装置。
前記音声入力部で少なくとも二以上の音声が入力された場合、
前記音声入力部で入力された少なくとも二以上の音声について正規化処理を施す請求項１記載の話者照合装置。
前記判定部は、算出された前記第１の類似度が所定のしきい値より小さい場合は詐称者者の音声であると判定し、前記第１の類似度が前記所定のしきい値以上の場合でも、前記第２の類似度が完全一致に近い所定レベル以上の類似度である場合は、詐称者の音声であると判断して入力を棄却する請求項１記載の話者照合装置。
音声入力する話者の音声が、予め登録された登録話者の音声と一致するか否かを判定する話者照合方法であって、
入力する発声内容について前記話者に指示を与える工程と、
前記話者の同一内容の音声部分を含む音声を一又は二以上入力する工程と、
入力された前記音声を分析する工程と、
前記音声入力部で入力された音声と、予め登録されている前記話者の登録音声との類似度を第１の類似度として算出し、入力された一又は二以上の音声のうち、同一の発声内容である二以上の音声部分における相互間の類似度を第２の類似度として算出する工程と、
算出された前記第１の類似度が所定のしきい値より小さい場合は本人の音声入力でないものと判定し、前記第１の類似度が前記所定のしきい値以上の場合でも、前記第２の類似度が完全一致に近い所定レベル以上の類似度である場合は、本人の音声入力でないものと判定する工程とを含む、話者照合方法。
音声入力する話者の音声が、予め登録された登録話者の音声と一致するか否かを判定する話者照合方法を実現するプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
入力する発声内容について前記話者に指示を与えるステップと、
前記話者の同一内容の音声部分を含む音声を一又は二以上入力するステップと、
入力された前記音声を分析するステップと、
前記音声入力部で入力された音声と、予め登録されている前記話者の登録音声との類似度を第１の類似度として算出し、入力された一又は二以上の音声のうち、同一の発声内容である二以上の音声部分における相互間の類似度を第２の類似度として算出するステップと、
前記第１の類似度が所定のしきい値の範囲より小さい場合は本人の音声入力でないものと判定し、前記第１の類似度が前記所定のしきい値以上場合でも、前記第２の類似度が完全一致に近い所定レベル以上の類似度である場合は、本人の音声入力でないものと判定するステップとをコンピュータに実行させる、プログラムを記録したコンピュータ読み取り可能な記録媒体。