JP4440414B2 - 話者照合装置及び方法 - Google Patents
話者照合装置及び方法 Download PDFInfo
- Publication number
- JP4440414B2 JP4440414B2 JP2000081328A JP2000081328A JP4440414B2 JP 4440414 B2 JP4440414 B2 JP 4440414B2 JP 2000081328 A JP2000081328 A JP 2000081328A JP 2000081328 A JP2000081328 A JP 2000081328A JP 4440414 B2 JP4440414 B2 JP 4440414B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- input
- similarity
- speaker
- registered
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は、事前に登録してある音声データの特徴量に基づいて、利用者本人か否かを音声によって判定する話者照合装置又は方法に関する。
【0002】
【従来の技術】
近年、コンピュータ技術の発展とともに、急速に通信環境についても整備されつつある。このような通信環境の整備に伴い、電話によるコンピュータアクセス(Computer Telephony Integration)が一般の家庭においても普通に行うことが可能になってきた。
【0003】
かかる電話によるコンピュータアクセス分野においては、プライバシーに関する情報や秘密保持義務を有する情報等に代表される、本人や特定の個人以外に知らせてはならない情報に対するアクセスを行う場合に問題がある。すなわち、例えばプッシュホンを用いる場合においては、パスワードを電話のボタン操作によって入力することで当該情報へのアクセス権限を取得することが可能であるが、パスワードを他人に知られてしまうと、本人でないにもかかわらず、当該情報に容易にアクセスできてしまうという問題である。そのため、本人に固有である音声を用いて、本人あるいは特定の個人であるか否かについて照合を行うことの必要性が高まってきている。
【0004】
【発明が解決しようとする課題】
しかし、音声合成技術についても近年急速な進歩を遂げており、かかる技術を駆使することによって、話者の個人性をも表現することも不可能ではなくなっている。
【0005】
すなわち、従来の技術においては、話者照合のための入力として人間の肉声を想定しており、特定の人間の声を正確に音声合成するためには、当該人間の音声波形データ等を大量に収録して編集しなければならないことから、実現性に乏しかった。
【0006】
しかしながら、昨今では本人の音声を少しだけ収録することで個人性を反映させた音声合成を実現することができるようになっており、容易に他人の声を真似ることが可能となってきている。
【0007】
このような話者の個人性をも表現できる合成音声装置を用いることで、第三者が特定の個人になりすますことができ、話者照合システム自体が悪用されるおそれがあるという大きな問題点が生じている。
【0008】
本発明は、上記問題点を解決すべく、話者の個人性をも表現している合成音声を用いた場合であっても、話者照合を的確におこなうことができる話者照合装置及び方法を提供することを目的とする。
【0009】
【課題を解決するための手段】
上記目的を達成するために本発明にかかる話者照合装置は、音声入力する話者の音声が、予め登録された登録話者の音声と一致するか否かを判定する話者照合装置であって、入力する発声内容について話者に指示を与える話者入力指示部と、話者の音声を一又は二以上入力する音声入力部と、音声入力部で入力された音声を分析する音声分析部と、入力された同一の発声内容である二以上の音声について、相互間の類似度を算出する入力音声類似度算出部とを含み、算出された類似度が完全一致に近い所定レベル以上の類似度である場合、類似度が一致するという情報も用いて話者を照合することを特徴とする。
【0010】
かかる構成により、本人であるか否かの判断と共に、人工的に生成された合成音声については人間の音声が本来有するべき揺らぎが全くないものとして識別することができるようになることから、本人と全く関係のない第三者が音声合成装置等を用いて本人になりすます行為を未然に防止することが可能となる。
【0011】
また、本発明にかかる話者照合装置は、類似度の判断を、登録話者モデルに対する照合過程が同一か否かに基づいて行うことが好ましい。人間の音声においては、発声の長さやスペクトルが発声の都度相違するために照合過程が一致することがあり得ないことから、照合過程を比較することで、本人と全く関係のない第三者が音声合成装置等を用いて本人になりすます行為を未然に防止することが可能となる。
【0012】
また、本発明にかかる話者照合装置は、音声入力部で少なくとも二以上の音声が入力された場合であって、少なくとも1つの音声について変換処理が行われている場合には、音声入力部で入力された少なくとも二以上の音声のうち、変換処理が行われていない音声について信号処理を施し、あるいは入力された少なくとも二以上の音声について正規化処理を施すことが好ましい。複数回音声を入力する場合に、二回目以降の入力音声に何らかのフィルタ等を掛けて変換処理を行うことで、音声入力における自然な揺らぎを人工的に生成し、合成音声でないと認識させる行為についても未然に防止するためである。
【0013】
また、本発明にかかる話者照合装置は、類似度が一致すると判断された場合には、本人の音声入力ではないものと判断して入力を棄却することが好ましい。繰り返し発声された音声データがほぼ完全に一致した場合には録音物等の疑いがあるものとして、本人であるとは判断しないようにするためである。
【0014】
また、本発明は、上記のような話者照合装置の機能をコンピュータの処理ステップとして実行するソフトウェアを特徴とするものであり、具体的には、音声入力する話者の音声が、予め登録された登録話者の音声と一致するか否かを判定する話者照合方法であって、入力する発声内容について話者に指示を与える工程と、話者の音声を一又は二以上入力する工程と、入力された音声を分析する工程と、入力された同一の発声内容である二以上の音声について、相互間の類似度を算出する工程とを含み、算出された類似度が完全一致に近い所定レベル以上の類似度である場合、類似度が一致するという情報も用いて話者を照合する話者照合方法並びにそのような工程をプログラムとして記録したコンピュータ読み取り可能な記録媒体であることを特徴とする。
【0015】
かかる構成により、コンピュータ上へ当該プログラムをロードさせ実行することで、本人であるか否かを判断できると共に、人工的に生成された合成音声については人間の音声が本来有するべき揺らぎが全くないものとして識別することができるようになることから、本人と全く関係のない第三者が音声合成装置等を用いて本人になりすます行為を未然に防止することができる話者照合装置を実現することが可能となる。
【0016】
【発明の実施の形態】
(実施の形態1)
以下、本発明の実施の形態1にかかる話者照合装置について、図面を参照しながら説明する。図1は本発明の実施の形態1にかかる話者照合装置の構成図である。
【0017】
図1において、1は個人ID入力部を示し、話者照合時に個人IDを入力するものである。2は個人別音声情報登録部を示し、個人IDごとに音声情報を事前にデータベース化しておくものである。ここでは、音声波形データのみならず、音声データを解析した特徴量についても事前に登録しておく。
【0018】
次に、3は音声入力指示部を示し、話者照合時に利用者が入力すべき音声について指示を出すものである。4は音声入力部を示し、マイク等の入力媒体を通じて、利用者が実際に発声して音声データを入力するものである。
【0019】
音声入力部4では、音声入力指示部3の指示に従って、音声を入力することになる。この場合、同じ発声内容を含む比較的長い音声を一回だけ入力するものであっても良いし、同じ発声内容を二回以上繰り返すものであっても良い。また、同じ発声内容を含んでいる異なる発声内容を入力するものであっても良い。例えば、「前川さん」と「早川さん」と発声させることで、「かわさん」の部分が同一発声内容となることで、比較を行うことが可能となる。かかる入力方法では、利用者が同一音声の照合を行っていると気づきにくく、比較的精度良く照合を行うことが期待できる。
【0020】
したがって、例えば図2に示すように入力音声格納部21を設けることで、前回に入力していた音声データに基づいて発声内容の照合を行うことも考えられる。人間で有れば、時と場所を変えて入力した場合に音声の揺らぎが生じることが自然であることから、揺らぎのほとんど見られない入力について合成音声あるいは録音音声等であるものと判断できるからである。
【0021】
また、5は音声分析部を示し、入力された音声データを分析して、その音声波形データの物理的な特徴量を求めるものである。求まった特徴量に基づいて、登録音声類似度算出部6では個人別音声情報登録部2に登録されている音声データの特徴量と入力音声の音声データの特徴量との第1の類似度を算出し、入力音声類似度算出部7では同一内容の入力音声について音声データの特徴量の第2の類似度を算出する。
【0022】
一般に、従来の話者照合においては、音声の特徴量等に基づいて入力音声と登録音声との第1の類似度を算出することのみで類否判断を行っている。しかし、人間が発声する場合には、その時々の状態や環境に応じて音声に揺らぎが生じ、全く同一の音声として発声することは不可能であることから、一定の許容範囲を定めて、第1の類似度が当該範囲内であれば同一人であるものと判断する等の方法を採用している。
【0023】
したがって、音声合成装置等を用いて、第1の類似度がかかる許容範囲内となるように調整した合成音声を生成することで、第三者が容易に本人になりすますことが可能となる。
【0024】
一方、音声合成装置等で人工的に生成された合成音声については、揺らぎが生じることが無く、何度入力しても同一の音声を入力することができる。したがって、従来の話者照合に加えて、複数回同一の音声を入力しても入力音声間の類似度である第2の類似度が毎回同じ値として算出されるものについても、人間の音声ではなく合成音声のような不自然な音声であると判断することができる。
【0025】
具体的に、類似度の判断基準を音声データ間の照合距離とした場合について、図3を用いて説明する。図3は、音声データ間の照合距離の頻度分布を示すものであり、照合距離が短いほど類似度が高いと判断するものである。
【0026】
図3において、領域Aは個人別音声情報登録部2に登録されている音声データの特徴量と入力された本人の音声データの特徴量との距離の分布を示す領域である。領域Bは同一内容の音声部分における音声データの特徴量に関する照合距離の分布、例えば一回目と二回目の入力音声間における照合距離の分布を示している。領域Cは個人別音声情報登録部2に登録されている音声データの特徴量と詐称者の入力音声の音声データの特徴量との間の照合距離の分布を示している。
【0027】
すなわち、領域A及び領域Cは、個人別音声情報登録部2に登録されている音声データとの照合距離の分布であるのに対し、領域Bは入力された音声データ間の照合距離の分布である点で大きく相違する。
【0028】
まず従来の方法においては、領域A及び領域Cの間で入力された音声が本人の音声であるか否かについて判断していた。すなわち、入力された音声データの照合距離が所定のしきい値であるしきい値Iよりも小さい場合には、入力された音声の類似度が高いものと判断して入力音声が本人の音声であるものと判断する。
【0029】
一方、領域A及び領域Bの間では、入力された音声が自然音声であるか合成音声で有るかを判断することになる。すなわち、入力された音声データ間の照合距離が所定のしきい値であるしきい値IIよりも小さい場合には、入力された音声に人間本来の自然な揺らぎがないものと判断して、入力音声が合成音声や録音音声等の不自然な音声であるものと判断する。
【0030】
次に、登録音声類似度算出部6及び入力音声類似度算出部7における類似度の算出方法について説明する。まず、特定の個人IDに対応する音声データの特徴量と入力された音声データの特徴量が類似しているものと判断するためのしきい値としては、従来から固定した一定の値が用いられることが多い。例えば、図4に示すように、入力された音声と事前に登録されている音声との間で照合距離を計算し、あらかじめ設定したしきい値と比較して、当該しきい値よりも照合距離が同じ若しくは短い場合(図4の“−”)には本人であると、長い場合(図4の“+”)には他人であると判断するものである。
【0031】
かかるしきい値の設定には、以下に示すような方法を用いることが多い。図5は、類似度判断の指標として照合距離を用いた場合において、照合距離を横軸として、本人ではないと棄却する判断が誤りであった場合の確率である本人拒否率FRR(False Rejection error Rate)を縦軸にとったものである。一方、同じく照合距離を横軸として、詐称者であるとする判断が誤りであった場合の確率である他人受入率FAR(False Acceptance error Rate)も縦軸にとる。
【0032】
しきい値を小さな値にすると、詐称者を誤って受理してしまう率FARは減るが、本人を誤って棄却してしまう率FRRが高くなる。逆にしきい値を大きな値とすると、本人を誤って棄却してしまう率FRRは小さくなるが、詐称者を誤って受理してしまう率FARは大きくなる。よって、かかる2つの誤り率の重要度に応じて、しきい値を適切な値に設定するのが望ましい。
【0033】
実験的には事後的にかかる2つの誤り率が等しくなる値をしきい値として評価するのが一般的である。本実施の形態1においては、図3におけるしきい値Iとしては、人間の音声による実験値から、しきい値IIとしては音声合成装置により生成された合成音声による実験値から、それぞれFRRとFARが一致する値をしきい値としている。すなわち、所定のしきい値を定めた場合において、本人同士の音声間距離と本人・他人間の音声間距離の頻度分布曲線(図3)のうち、定めたしきい値からはみ出た部分の面積がFAR、FARを示すことになる。
【0034】
また、入力音声が合成音声等であるか否かを判定するための照合距離の算出方法についても、同様に様々な方法が考えられる。本実施の形態1においては、音声データの特徴量をn次元の特徴パラメータとし、n次空間内における空間内距離として当該照合距離を求めている。ただし、特にこの方法に限定されるものではなく、当該照合距離の算出方法として、DPマッチングを用いることも考えられる。ここで、DPとは動的計画法(Dynamic Programming)を意味している。
【0035】
例えば図6は、同時期に同一に発声された内容に含まれる単語発声に対する同一話者内の距離の頻度分布をDPマッチングを用いて算出したものである。かかる方法によっても判断の対象となる距離分布を求めることが可能である。
【0036】
図7は、DPマッチングを用いた場合におけるDPパスの例示図である。ここで、DPパスとは時間対応付けを行った場合における最小値を選択することを意味する。なお、図7の横軸は同一音声に関する1回目の音声入力に基づいた音声データの特徴パラメータ系列を、縦軸には同一音声に関する2回目の音声入力に基づいた音声データの特徴パラメータ系列を、それぞれ示し、i、jはそれぞれフレーム数を示している。
【0037】
同一の発声部分に関する一回目と二回目の発声について、DPマッチング等を用いて時間対応付け(時間正規化)を行い、時間正規化後の距離を用いて判断する。その距離が極端に小さい場合や極端に大きい場合については、不自然な発声であるものとして棄却する。かかる判断には、DPパスの結果を用いるとより容易に判断することができる。
【0038】
すなわち図7において、人間の自然な発声の場合には、71に示すように一回目と二回目の発声において局所的なDPパスの揺れが生じ、特徴パラメータが完全に一致するということはあり得ない。しかし、音声合成装置等によって人工的に生成された合成音声等の場合には何度入力してもその特徴パラメータは一致していることから、72に示すように一回目と二回目の特徴パラメータは完全に一致する。かかる不自然な発声を検出することで本人になりすますことを防止することが可能となる。
【0039】
そこで、合成音声等であるか否かの照合方法として、登録話者モデルに対する照合過程が同一か否かを調べることも考えられる。図8は照合過程の同一性判断を適用した本発明の一実施例にかかる話者照合装置の構成図である。図8では、類似度算出過程比較部81を入力音声類似度算出部7の代わりに設けている点に特徴を有する。
【0040】
類似度算出過程比較部81では、例えばDPマッチングを用いたので有ればDPパスを、ビタービアルゴリズム(Viterbi algorithm)を用いたHMM(Hidden Markov Model)である場合には、状態遷移をバックトレースした結果を、それぞれの入力音声について調査し比較する。一般に人間の発声の場合においては、発声の長さやスペクトルが異なるために、照合過程が一致することは起こり得ないのに対して、合成音声や録音音声の場合には、登録話者の音声情報に対する照合過程が何回入力しても一致してしまうため、かかる不正入力を検出することが可能となる。
【0041】
そして、総合判断部8においては、登録音声類似度算出部6で算出された個人別音声情報登録部2に登録されている音声データの特徴量と入力音声の音声データの特徴量との類似度と、入力音声類似度算出部7で算出された同一内容の入力音声に関する音声データの特徴量の類似度とに基づいて、総合的に入力された音声が本人のものであるか否かについて判断する。
【0042】
まず、登録音声類似度算出部6で算出された個人別音声情報登録部2に登録されている音声データの特徴量と入力音声の音声データの特徴量との類似度が所定のしきい値よりも小さい、すなわち上述したような方法により求めた照合距離のしきい値Iよりも大きい場合には、人間が本来有する音声発声時の揺らぎの範囲を超えているものとして、入力された音声が本人のものではないと判断される。類似度が所定のしきい値以上、すなわち上述したような方法により求めた照合距離のしきい値I以下である場合には、人間が本来有する音声発声時の揺らぎの範囲内であると判断され、以下の判断に移る。
【0043】
次に、入力音声類似度算出部7で算出された同一内容の入力音声に関する音声データの特徴量の類似度が所定のしきい値以上、すなわち上述したような方法により求めた照合距離のしきい値II以下である場合には、人間が本来有する音声発声時の揺らぎすら生じていない不自然な音声で有るものとして、入力された音声が本人のものではないと判断される。類似度が所定のしきい値より小さい、すなわち上述したような方法により求めた照合距離のしきい値IIより大きい場合には、人間が本来有する音声発声時の揺らぎが生じていると判断され、入力された音声が本人のものであると判断される。
【0044】
最後に、入力された音声が本人のものであるか否かについての判断結果を判断結果出力部9において出力する。出力方法としては、表示装置等へ表示するものであっても良いし、判断結果に応じて稼働するアプリケーション等へファイルとして渡すものであったも良い。
【0045】
次に、人工的な合成音声に対して、一回目と二回目で異なる信号処理を施すことで、人工的に合成音声に揺らぎを付加することで、上述したような合成音声の棄却条件を回避することも考えられる。かかる回避を防止するために、図9に示すように信号処理部を音声入力部4の後処理として設けることで対処する。
【0046】
図9は、かかる方法を実現する本発明の一実施例にかかる話者照合装置の構成図である。図1に比して、音声入力部4の前処理として信号処理部91が付加されている点に特徴を有している。
【0047】
信号処理部91は、音声入力部4から入力された音声すべてについて処理するものではない。対比する音声入力の少なくとも一つについて、想定される信号処理を施し、入力音声と信号処理後の音声について上述したような方法で類似度を判別することで、特徴パラメータが実際には一致している合成音声を擬似的に異なる音声であるものと見せかけた入力音声についても、合成音声であることを検出することができ、さらなるセキュリティ性能の向上に寄与できる。
【0048】
また、音声入力環境は、時間や場所といった周囲の状況によって変動し、同一の音声を同一人が入力した場合であっても周囲の環境が同一であることは考えられないことから、周囲の環境変動による話者の誤認を最小限に止めるべく、入力されてきた音声に適当な信号処理を行うのにも利用可能である。
【0049】
また、信号処理部91において、信号に対する変換処理ではなく、正規化処理を行うことも考えられる。正規化処理としては、音声区間全域に渡って平均化したケプストラム(Cepstrum)の値を、各フレームにおけるケプストラムの値から差し引くことで行うCMN法(Cepstral Mean Normalization)等を用いることが考えられる。正規化処理を行うことで、類似度算出対象となる入力音声を同一環境における音声であるものとして扱うことができ、判断の精度向上が期待できる。なお、正規化処理の手法は特にCMN法に限定されるものではない。
【0050】
以上のように本実施の形態によれば、人工的に生成された合成音声については人間の音声が本来有するべき揺らぎが全くないものとして識別することができるようになることから、本人と全く関係のない第三者が音声合成装置等を用いて本人になりすます行為を未然に防止することが可能となる。
【0051】
次に、本発明の実施の形態にかかる話者照合装置を実現するプログラムの処理の流れについて説明する。図10に本発明の実施の形態にかかる話者照合装置を実現するプログラムの処理の流れ図を示す。
【0052】
図10において、まず事前に登録されている音声情報を引き出すために、照合対象となる利用者の個人IDを入力し、登録されている音声情報を抽出する(ステップS101)。
【0053】
次に、音声の類似度を算出するために、どのような音声を入力するのか指示を出し(ステップS102)、同一の内容について少なくとも二回以上含まれている一又は二以上の音声を入力する(ステップS103)。
【0054】
そして、まず抽出された登録音声と入力された音声との間の第1の類似度を算出する(ステップS104)。算出された第1の類似度が所定のしきい値より小さい場合には(ステップS105:No)、人間の有する自然な揺らぎ以上の相違を有するものと判断して、詐称者による音声であると判断する(ステップS109)。
【0055】
次に、算出された第1の類似度が所定のしきい値以上である場合には(ステップS105:Yes)、二以上入力されている入力音声同士の間における第2の類似度を算出する(ステップS106)。算出された第2の類似度が所定のしきい値以上である場合には(ステップS107:Yes)、人間の有する自然な揺らぎすら有しない不自然な音声であるものと判断して、詐称者による音声であると判断する(ステップS109)。
【0056】
算出された第2の類似度が所定のしきい値よりも小さい場合には(ステップS107:No)、自然な音声による入力であるものと判断して、本人による音声入力であると判断する(ステップS108)。
【0057】
なお、本発明の実施の形態にかかる話者照合装置を実現するプログラムを記憶した記録媒体は、図11に示す記録媒体の例に示すように、CD−ROM112−1やフロッピーディスク112−2等の可搬型記録媒体112だけでなく、通信回線の先に備えられた他の記憶装置111や、コンピュータ113のハードディスクやRAM等の記録媒体114のいずれでも良く、プログラム実行時には、プログラムはローディングされ、主メモリ上で実行される。
【0058】
また、本発明の実施の形態にかかる話者照合装置により生成された個人別音声情報等を記録した記録媒体も、図11に示す記録媒体の例に示すように、CD−ROM112−1やフロッピーディスク112−2等の可搬型記録媒体112だけでなく、通信回線の先に備えられた他の記憶装置111や、コンピュータ113のハードディスクやRAM等の記録媒体114のいずれでも良く、例えば本発明にかかる話者照合装置を利用する際にコンピュータ113により読み取られる。
【0059】
【発明の効果】
以上のように本発明にかかる話者照合装置によれば、人工的に生成された合成音声については人間の音声が本来有するべき揺らぎが全くないものとして識別することができるようになることから、本人と全く関係のない第三者が音声合成装置等を用いて本人になりすます行為を未然に防止することが可能となる。
【図面の簡単な説明】
【図1】 本発明の実施の形態にかかる話者照合装置の構成図
【図2】 本発明の一実施例にかかる話者照合装置の構成図
【図3】 本発明の実施の形態にかかる話者照合装置の原理説明図
【図4】 本発明の実施の形態にかかる話者照合装置におけるしきい値概念説明図
【図5】 本発明の実施の形態にかかる話者照合装置におけるしきい値概念説明図
【図6】 本発明の実施の形態にかかる話者照合装置におけるDPマッチング結果の例示図
【図7】 本発明の実施の形態にかかる話者照合装置におけるDPマッチングの概念説明図
【図8】 本発明の一実施例にかかる話者照合装置の構成図
【図9】 本発明の一実施例にかかる話者照合装置の構成図
【図10】 本発明の実施の形態にかかる話者照合装置における処理の流れ図
【図11】 記録媒体の例示図
【符号の説明】
1 個人ID入力部
2 個人別音声情報登録部
3 音声入力指示部
4 音声入力部
5 音声分析部
6 入力音声類似度算出部
7 登録音声類似度算出部
8 総合判定部
9 判定結果出力部
21 入力音声格納部
81 類似度算出過程比較部
91 信号処理部
111 回線先の記憶装置
112 CD−ROMやフロッピーディスク等の可搬型記録媒体
112−1 CD−ROM
112−2 フロッピーディスク
113 コンピュータ
114 コンピュータ上のRAM/ハードディスク等の記録媒体
Claims (6)
- 音声入力する話者の音声が、予め登録された登録話者の音声と一致するか否かを判定する話者照合装置であって、
入力する発声内容について話者に指示を与える話者入力指示部と、
同一内容の音声部分を含む、前記話者の音声を一又は二以上入力する音声入力部と、
前記音声入力部で入力された音声を分析する音声分析部と、
前記音声入力部で入力された音声と、予め登録されている前記話者の登録音声との類似度を第1の類似度として算出し、入力された一又は二以上の音声のうち、同一の発声内容である二以上の音声部分における相互間の類似度を第2の類似度として算出する入力音声類似度算出部と、
算出された前記第1の類似度が所定のしきい値より小さい場合は本人の音声入力でないものと判定し、前記第1の類似度が前記所定のしきい値以上の場合でも、前記第2の類似度が完全一致に近い所定レベル以上の類似度である場合は、本人の音声入力でないものと判定する判定部を備える、話者照合装置。 - 前記第2の類似度の判断を、登録話者モデルに対する照合過程が同一か否かに基づいて行う請求項1記載の話者照合装置。
- 前記音声入力部で少なくとも二以上の音声が入力された場合、
前記音声入力部で入力された少なくとも二以上の音声について正規化処理を施す請求項1記載の話者照合装置。 - 前記判定部は、算出された前記第1の類似度が所定のしきい値より小さい場合は詐称者者の音声であると判定し、前記第1の類似度が前記所定のしきい値以上の場合でも、前記第2の類似度が完全一致に近い所定レベル以上の類似度である場合は、詐称者の音声であると判断して入力を棄却する請求項1記載の話者照合装置。
- 音声入力する話者の音声が、予め登録された登録話者の音声と一致するか否かを判定する話者照合方法であって、
入力する発声内容について前記話者に指示を与える工程と、
前記話者の同一内容の音声部分を含む音声を一又は二以上入力する工程と、
入力された前記音声を分析する工程と、
前記音声入力部で入力された音声と、予め登録されている前記話者の登録音声との類似度を第1の類似度として算出し、入力された一又は二以上の音声のうち、同一の発声内容である二以上の音声部分における相互間の類似度を第2の類似度として算出する工程と、
算出された前記第1の類似度が所定のしきい値より小さい場合は本人の音声入力でないものと判定し、前記第1の類似度が前記所定のしきい値以上の場合でも、前記第2の類似度が完全一致に近い所定レベル以上の類似度である場合は、本人の音声入力でないものと判定する工程とを含む、話者照合方法。 - 音声入力する話者の音声が、予め登録された登録話者の音声と一致するか否かを判定する話者照合方法を実現するプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
入力する発声内容について前記話者に指示を与えるステップと、
前記話者の同一内容の音声部分を含む音声を一又は二以上入力するステップと、
入力された前記音声を分析するステップと、
前記音声入力部で入力された音声と、予め登録されている前記話者の登録音声との類似度を第1の類似度として算出し、入力された一又は二以上の音声のうち、同一の発声内容である二以上の音声部分における相互間の類似度を第2の類似度として算出するステップと、
前記第1の類似度が所定のしきい値の範囲より小さい場合は本人の音声入力でないものと判定し、前記第1の類似度が前記所定のしきい値以上場合でも、前記第2の類似度が完全一致に近い所定レベル以上の類似度である場合は、本人の音声入力でないものと判定するステップとをコンピュータに実行させる、プログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000081328A JP4440414B2 (ja) | 2000-03-23 | 2000-03-23 | 話者照合装置及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000081328A JP4440414B2 (ja) | 2000-03-23 | 2000-03-23 | 話者照合装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001265387A JP2001265387A (ja) | 2001-09-28 |
JP4440414B2 true JP4440414B2 (ja) | 2010-03-24 |
Family
ID=18598282
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000081328A Expired - Fee Related JP4440414B2 (ja) | 2000-03-23 | 2000-03-23 | 話者照合装置及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4440414B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005013263A1 (ja) * | 2003-07-31 | 2005-02-10 | Fujitsu Limited | 音声認証システム |
KR100826875B1 (ko) | 2006-09-08 | 2008-05-06 | 한국전자통신연구원 | 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치 |
JP5228067B2 (ja) * | 2011-01-17 | 2013-07-03 | 株式会社日立製作所 | 異常行動検知装置 |
US9390245B2 (en) * | 2012-08-02 | 2016-07-12 | Microsoft Technology Licensing, Llc | Using the ability to speak as a human interactive proof |
JP6239826B2 (ja) * | 2013-01-29 | 2017-11-29 | 綜合警備保障株式会社 | 話者認識装置、話者認識方法及び話者認識プログラム |
KR102127126B1 (ko) | 2018-08-03 | 2020-06-26 | 엘지전자 주식회사 | 음성 판독 장치 |
-
2000
- 2000-03-23 JP JP2000081328A patent/JP4440414B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001265387A (ja) | 2001-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7447632B2 (en) | Voice authentication system | |
Naik | Speaker verification: A tutorial | |
Campbell | Speaker recognition: A tutorial | |
JP4672003B2 (ja) | 音声認証システム | |
EP2120232A1 (en) | A random voice print cipher certification system, random voice print cipher lock and generating method thereof | |
US7603275B2 (en) | System, method and computer program product for verifying an identity using voiced to unvoiced classifiers | |
Shah et al. | Biometric voice recognition in security system | |
JPH1083194A (ja) | 話し手照合システムのための2段階群選択方法 | |
Li et al. | Verbal information verification | |
KR101888058B1 (ko) | 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치 | |
JP2004538526A (ja) | 音声登録方法及びそのシステム,音声登録方法及びそのシステムに基づく音声認識方法及びそのシステム | |
JPH1173195A (ja) | 話者の申し出識別を認証する方法 | |
US20100063817A1 (en) | Acoustic model registration apparatus, talker recognition apparatus, acoustic model registration method and acoustic model registration processing program | |
Campbell | Speaker recognition | |
JP4440414B2 (ja) | 話者照合装置及び方法 | |
Ozaydin | Design of a text independent speaker recognition system | |
Ilyas et al. | Speaker verification using vector quantization and hidden Markov model | |
WO2018088534A1 (ja) | 電子機器、電子機器の制御方法及び電子機器の制御プログラム | |
Jayanna et al. | Fuzzy vector quantization for speaker recognition under limited data conditions | |
US7162641B1 (en) | Weight based background discriminant functions in authentication systems | |
Gupta et al. | Text dependent voice based biometric authentication system using spectrum analysis and image acquisition | |
Singh et al. | Principle and applications of speaker recognition security system | |
JP2001350494A (ja) | 照合装置及び照合方法 | |
JP3818063B2 (ja) | 個人認証装置 | |
Nair et al. | A reliable speaker verification system based on LPCC and DTW |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060606 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090508 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090528 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090727 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090903 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091102 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100105 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100107 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130115 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4440414 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130115 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140115 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |