JP2003302999A - 音声による個人認証システム - Google Patents

音声による個人認証システム

Info

Publication number
JP2003302999A
JP2003302999A JP2002108973A JP2002108973A JP2003302999A JP 2003302999 A JP2003302999 A JP 2003302999A JP 2002108973 A JP2002108973 A JP 2002108973A JP 2002108973 A JP2002108973 A JP 2002108973A JP 2003302999 A JP2003302999 A JP 2003302999A
Authority
JP
Japan
Prior art keywords
voice
authentication
words
word
authenticated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002108973A
Other languages
English (en)
Inventor
Katsuya Kita
勝也 北
Makoto Wada
眞 和田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced Media Inc
Original Assignee
Advanced Media Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced Media Inc filed Critical Advanced Media Inc
Priority to JP2002108973A priority Critical patent/JP2003302999A/ja
Publication of JP2003302999A publication Critical patent/JP2003302999A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 本発明は、コンピュータを用いた、音声によ
る個人認証システムにおいて、認証用ボイスプリントを
不正にコピーされない、あるいはされても悪用されない
個人認証を行うこと、また経時変化やパスワードを忘れ
る等の事態にも対処可能であるシステムを提供すること
を目的とする。 【解決手段】 被認証者に音声入力させ個人を特定する
個人認証システムにおいて、(1)予めボイスプリントデ
ータベースに登録されている認証の対象となる複数の単
語と認証の対象とならない単語を含む複数の単語を被認
証者に提示し、(2)被認証者が音声入力した音声データ
を取り込み、前記認証対象の単語に対して認証処理を行
うと共に、前記認証の対象とならない単語を前記ボイス
プリントデータベースに登録する手段、を備えたことを
特徴とする音声による個人認証システムであるとする。

Description

【発明の詳細な説明】
【0001】
【発明が属する技術分野】本発明はコンピュータを用い
た、音声による個人認証システムに関する。
【0002】
【従来の技術】インターネットなどのネット社会では、
一般にパスワードによって個人を認証している。これは
パスワードは個人しか知りえないという前提に立ってい
る。しかしながら、パスワードは盗まれる恐れがあり、
またトライアンドエラーで解読される恐れもある。この
ようなことから、本人以外には持ちえない特徴である身
体的な特徴を利用した個人認証が研究されている。いわ
ゆるバイオメトリクス技術の研究である。この種の技術
に利用される身体的特徴として、掌形、指紋、目の網膜
パターンや虹彩、筆跡、音声などがある。掌形、指紋、
筆跡などは犯罪捜査にも取り入れられている個人を特定
する身体的特徴である。
【0003】音声認証技術(声で個人を特定する技術)
と音声認識技術は一見似ているが、異なるものである。
前者は個人を特定するための技術であり、後者は誰の声
でも同じ内容の発音は同じ意味として解釈できるように
する技術である。そのため音声認では内容に立ち入ら
なくてもよい。一方、音声認では声の質には立ち入る
ことなく、不特定多数の人の声でサンプリングした言葉
(単語)を平均化して辞書化し、その辞書から誰の声で
も同じ内容の発音は同じ言葉として理解する。
【0004】音声処理に関する、コンピュータを用いた
主な最新技術では、音声符号化技術、音声合成技術、音
声認識技術、話者認識技術(本発明が扱おうとしている
音声による個人認証)に大別される。音声符号化技術
は、音声をスペクトル分析してデジタル化し、音声波の
持つ冗長性を取り除いて圧縮化する技術である。音声認
識技術は、音声を言語として認識する技術である。
【0005】音響分析で広く使用されている技術に、ス
ペクトル分析がある。スペクトル分析は音響分析の標準
的な周波数分析で、その中でもとくに広く用いられてい
るものがパワースペクトル分析である。パワースペクト
ル分析では、まず入力された音声信号をデジタル処理で
標本化し、その標本化されたデータをDFT(離散的フ
ーリエ変換)やFFT(高速フーリエ変換)によって計
算して、周波数の成分を求める。その求められた周波数
成分を分析して、音韻論的処理を施すことにより、音声
認識技術や音声認証技術等に応用できるデータが得られ
る。
【0006】大部分のデコード処理においては、サンプ
リングした音声をスペクトル分析した後、ベクトル量子
化によって100種類程度のグループに分類し、ラベル
列として処理できるようにする。そのあとで隠れマルコ
フモデル(HMM)とよばれる統計モデルを用い尤度計
算をしながらデータを分析し、結果を出力する。HMM
は不特定話者による連続音声認識技術の中核を担うモデ
ルであり、音韻モデル(音響モデル)と単語モデル(言
語モデル)のいずれにも利用できる。
【0007】HMMの働きは、入力音声パターンを観測
して最もよくマッチする単語列または音韻列を見つけ出
すことである。言語モデルでは、大量のテキストデータ
をHMM等によって統計的に分析して得られた単語列の
出現確率が用いられる。
【0008】音声認識処理を大きく二つの機能に分割す
るなら、音響分析とデコード処理とからなる。音響分析
では音声の符号化、ノイズ処理、補正等を行う。デコー
ド処理では、音響分析された符号化音声データに対して
音響処理や言語処理によって音声認識を行い、最も確率
の高い単語あるいは文字列抽出する。この音響処理、言
語処理には音響モデル、言語モデルが使用される。また
各モデルに利用される音響パターンや単語あるいは文字
列が登録されているものが辞書であり、辞書を充実する
ことによって認識率の向上につなげることができる。
【0009】図1は、以上の処理を図式化したものであ
る。マイクなどで入力した人間の声(アナログ音声)は
音響分析によって符号化音声x(デジタル化された特徴
量または特徴パラメータ)に変換され、デコード処理プ
ログラム(デコーダー)に渡される。音響モデルより候
補単語列wとその確率P(x|w)を得、言語モデルよ
り確率P(w)を得る。デコーダーでベイズ(Bayes)
則を用いて確率計算をするとした場合、次のような式が
得られる。すなわち、音声パターンx(特徴量x)が観
測されたときの、発音された内容がwである確率(事後
確率)P(w|x)は以下のように計算される。 P(w|x)=P(x|w)P(w)/P(x)
【0010】ここで分母のP(x)はwに無関係である
ために、P(x|w)P(w)が最大となる言語表現w
を求めればよいことになる。P(x|w)は音響モデル
でHMMを用いて計算される。一方、P(w)は言語モ
デルで計算され、トライグラム(N単語連鎖モデル<N
グラム>のN=3の場合)の値から、近似的に P(w)=ΠP(wi|wi-1,wi-2) と計算される。
【0011】ここでΠはiについての階乗を表す。P
(wi)は、言語wi-2、wi-1と来たときに、次にwi
来る確率を表す。P(w)はP(wi)のすべての積に
対して計算し、P(x|w)が最も大きな値を取る単語
列の組み合わせを認識結果として決定する。
【0012】音声認証(音声による個人認証)では、上
記のようなデコード処理はしなくても、登録されている
ボイスプリントと入力音声を直接比較することによって
本人かどうかを認定することができる。
【0013】なお、以下では「音声データ」は符号化音
声データ(デジタル音声データ)を指し、断りがない限
り、被認証者の入力した音声データを意味するものとす
る。また、音声データと照合対象となるボイスプリント
データベースの符号化音声データを「ボイスプリント」
と記す。
【0014】しかしフリートークの中からキーワードを
見つけ出す場合には、デコード処理(デコード)が必要
となる。例えば音声として姓名「スズキイチロウ」が登
録されている場合、「スズキイチロウ」と単独に発音さ
れたときには直接音声比較が行えるが、「わたしはスズ
キイチロウです」と会話形式で言われたときには、キー
ワードとなるスズキイチロウを抽出しなければならな
い。そのときに、デコード処理が必要となる。
【0015】音声を個人認証に利用した公開特許とし
て、『音声辞書作成方法、個人認証装置および記録媒
体』(特開平11-344992)や『認証信号不正使用防止装
置』(特開平08-084190)がある。前者では、予め音声
の特徴となる要因別(性別、年代、声の高低等の音声的
特徴)に作成された複数の不特定話者音声辞書を用い、
新規登録ユーザ登録時に、新規登録ユーザの音声データ
の特徴に最も近い不特定話者音声辞書を選択し、選択さ
れた不特定話者音声辞書を該音声データに基づいて適応
化することで個人用音声辞書を作成する方法が提唱され
ている。また認証時には、被認証者の音声データと個人
用音声辞書とを比較照合することによって本人か否かの
識別を行っている。個人認証にあたって、入力された被
認証者の音声データと個人用音声辞書を比較照合する方
法であることから、従来の個人認証と同じである。
【0016】後者は、音声認識、声紋認識あるいは暗唱
番号のプッシュボタン入力により、ある特定の個人の財
産・情報を管理・運営するセキュリティシステムにおい
て、第三者が特定話者の音声・会話を盗聴かつ録音して
セキュリティシステムに対して不正を働くことを防止す
る装置についての発明である。
【0017】具体的には、予め特定話者を認証するため
の個人認証用暗号あるいは声紋データ(ボイスプリン
ト)を事前に複数用意して認証用データベースに登録し
ておき、電話機を使用して特定話者を認証する場合、認
証プロセスで個人認証用パスワードを特定話者に発音さ
せるか、あるいは不正防止信号を下り回線に対して送出
することにより、第三者が特定話者の音声・会話を盗聴
かつ録音して、個人認証装置に対して不正を働くことを
防止している。不正防止信号による盗聴・録音の防止は
ハード上の技術であり、音声による個人認証とは直接関
係ないが、音声による個人認証では複数のボイスプリン
トをボイスプリントデータを集めたボイスプリントベー
スに登録しておき、認証システム(装置)が登録済みボ
イスプリントから任意に特定のボイスプリントを選択し
て被認証者(この場合は電話の主)に発音させて、入力
音声データをボイスプリントベースに照らし合わせて認
証チェックを行っている。
【0018】
【発明が解決しようとする課題】現在、クレジットカー
ドの個人データをコピーし、偽造クレジットカードを作
成し、悪用する事件が相次いでいる。カード自体が盗ま
れ、悪用されるのと違い、この種の犯罪はカード所有者
自身が気付かないうちにカードが不正使用されているだ
けに始末に悪い。店が不正コピーを行ったり、カード読
取機に盗聴器(電波発信装置)を取り付け、店の人も気
付かないうちに個人データが盗まれるなどのケースもあ
り、防止策の方が後手に回っているのが現状である。カ
ード使用時にカード利用者のサインをチェックするだけ
でも、不正使用の大半は防止できるが、それすらほとん
ど行われていない。仮にサインチェックを実施したとし
ても、サインを見て本人かどうかの判定は一般の人には
難しいし、サインを真似されることも考えられるため、
チェックが形式的になっているのが現状である。
【0019】今日ではコンピュータによる通信といえ
ば、インターネットが中心となっている。インターネッ
トの利点は、専用回線と違い接続経路が固定されないた
め容易に接続できることである。逆の見方をするなら、
不特定多数の経路を通過するために、途中で悪意の第三
者にパスワードを盗まれる危険性もあるわけである。例
えそれが個人を特徴づけるボイスプリントであっても、
コピーしてのちに悪用することは可能である。電話機に
おける不正使用防止ではあるが、従来技術で挙げた『認
証信号不正使用防止装置』のように、予め複数のボイス
プリントを登録しておき、この複数の中から任意のボイ
スプリントを選んで被認証者に発音させる方法は、ボイ
スプリントのコピーによる不正使用を防止する上で有効
である。ただしこの場合、複数のボイスプリントといっ
ても数が限られているし、またボイスプリントそのもの
を発音させているから、盗用しやすいことも確かであ
る。
【0020】以上のような点に鑑み、本発明が解決しよ
うとする課題は、コンピュータを用いた、音声による個
人認証システムにおいて、認証用ボイスプリントを不正
にコピーされない、あるいはされても悪用されない個人
認証を行うこと、また、経時変化、経年変化にも対応
し、ユーザーがパスワードを忘れる事態にも対処可能と
し、本人受け入れ率を下げることなく他人拒否率を上げ
ることができるシステムを提供することを目的とする。
【0021】
【課題を解決するための手段】上記課題を解決するため
に、請求項1に記載された発明は、被認証者に音声入力
させ、入力音声から個人を特定する個人認証システムに
おいて、(1)予めボイスプリントデータベースに登録さ
れている認証の対象となる単語と認証の対象とならない
単語を含む複数の単語を被認証者に提示する手段、(2)
前記被認証者が音声入力した音声データを取り込み、前
記認証対象の単語に対して認証処理を行うと共に、前記
認証の対象とならない単語を前記ボイスプリントデータ
ベースに登録する手段、を備えたことを特徴とする音声
による個人認証システムとする。
【0022】請求項2に記載された発明は、被認証者に
音声入力させ、入力音声から個人を特定する個人認証シ
ステムにおいて、(1)予めボイスプリントデータベース
に登録されている認証の対象となる複数の単語と認証の
対象とならない単語を含む複数の単語を被認証者に提示
する手段、(2)前記被認証者が音声入力した音声データ
を取り込み、前記認証対象の単語に対して認証処理を行
うと共に、前記認証の対象とならない単語を前記ボイス
プリントデータベースに登録する手段、を備えたことを
特徴とする音声による個人認証システムとする。
【0023】請求項3に記載された発明は、前記認証の
対象とならない単語が単語辞書よりランダムに選択され
ることを特徴とする請求項1または2記載の音声による
個人認証システムである。
【0024】請求項4に記載された発明は、前記ボイス
プリントデータベースに登録されている認証の対象とな
る単語の数が初期値から出発して有限の値まで増加する
ことを特徴とする請求項1または2記載の音声による個
人認証システムである。
【0025】請求項5に記載された発明は、前記ボイス
プリントデータベースに登録されている認証の対象とな
る単語の数に上限が設けられ、前記ボイスプリントデー
タベースに登録されている単語が新たに登録される単語
で逐次更新されることを特徴とする請求項1または2記
載の音声による個人認証システムである。
【0026】請求項6に記載された発明は、前記認証の
対象とならない単語を単語辞書より選択して提示するこ
とを特徴とする請求項1または2記載の音声による個人
認証システムである。
【0027】請求項7に記載された発明は、1回の個人
認証に対し、n単語列を発声してもらい、そのうちm単
語を認証用に切り出して、それぞれの認証結果(確率)
を演算し、用いることを特徴とする請求項1または2記
載の音声による個人認証システムである。
【0028】請求項8に記載された発明は、ユーザI
D、パスワード等の発声内容を予め提示できないものを
発声内容として促す場合に、テキスト化もしくは符号化
を行い、直接データベースを検索し、ボイスプリントを
取り出すことを特徴とする請求項1または2記載の音声
による個人認証システムである。
【0029】請求項9に記載された発明は、前記単語の
ボイスプリントを、初期登録数から、増加させることが
できる手段を有する請求項1または2記載の音声による
個人認証システムである。
【0030】請求項10に記載された発明は、他の認証
を併用することを特徴とする請求項1または2記載の音
声による個人認証システムである。
【0031】請求項11に記載された発明は、単語辞書
に登録されていない単語が発話内容に含まれた単語列
を、提示する手段を有した請求項1または2記載の音声
による個人認証システムである。
【0032】請求項12に記載された発明は、病気など
の病的な異常によって音声の特性に変化が生じた場合、
音声認証と音声パスワート゛認証を併用もしくは、音声パ
スワ―ト゛認証を用いて、対応できる手段を有する請求項
1または2記載の音声による個人認証システムである。
【0033】本発明では、認証用音声データを常時変え
る方法と、認証用音声データがどれであるかを被認証者
にも明確にしない方法を用いている。この方法を実現す
るために、常時認証用音声データを追加し、追加した音
声データを新たに認証用音声データとして利用する。そ
して、認証用音声データと認証外音声データを混ぜた単
語列を作り、被認証者に発音させる方法をとる。
【0034】また、本発明では、被認証者の入力した音
声データを単語に切り出し、ダイレクトにボイスプリン
トデータベースから認証用音声データ(ボイスプリン
ト)を取り出し、チェックできるようにする。
【0035】本発明の音声認証システムは、予めボイス
プリントデータベースに登録されている中の認証の対象
となる単語m個を含む、任意のn個の単語を選んで単語
列を作り、被認証者に該単語列を提示し、音声入力装置
より音声入力させ、該入力音声を音響分析して符号化音
声データ(音声データ)を作成して、音響モデル、言語
モデルおよび単語辞書を用いて音声認識分析することに
より元のn個の単語とそれに対応する音声データに分解
する。前記分解単語から個人認証の対象であるm個の単
語を用いてボイスプリントデータベースの中から該単語
に対応するボイスプリントのみを抜き出して、前記のm
個の音声データと比較することによって音声照合する。
【0036】上記のように、m個の単語はすでにボイス
プリントとしてボイスプリントデータベースに登録して
あるデータを任意に選択したものであり、他の(n−
m)個はまったく任意に単語を選択(具体的には単語辞
書より任意選択)したものである。このm個と(n−
m)個を任意に配列して単語列を作成して被認証者に提
示し、発音させる。(n−m)個はまったく任意の単語
選択であるために、ボイスプリントデータベースに登録
されているかも知れないし、いないかも知れない。出来
ればボイスプリントデータベースに登録されていない単
語を選択した方が好ましいが、仮に登録されていたとし
ても問題はない。
【0037】ただし、ボイスプリントデータベースに登
録されていたとしても、(n−m)個は認証の対象にし
ない。このため、被認証者にどの単語が認証の対象にな
っているかがわからない。しかも認証のたびに認証の対
象が変わるために、被認証者には認証用の単語がどれか
を知ることができない。ましてや、第三者にはまったく
無意味な単語列としか映らない。また、n=mの時は、
元のn個の単語を、すべて認証用単語として、使用する
場合であり、そのような使い方が、必要な場合もある。
【0038】声の質は、年を経るごとに変化する。プロ
の歌手の場合でもデビュー当時と現在とを比較すると、
概して低音化している場合が多い。本発明では、このよ
うな音質の経年変化に対しても対応できるように、ボイ
スプリントデータベースに登録済みの音声データに対し
て常時更新を行う。すなわち、音声認証システムが被認
証者を本人と認証した場合、音声認証システムはm個の
音声データを用い、ボイスプリントデータベースに登録
されているボイスプリントを逐次更新する。
【0039】本発明の特徴のもう一つは、ボイスプリン
トデータベースの増殖にある。すなわち、音声認証シス
テムが被認証者を本人と個人認証した場合、音声認証シ
ステムは認証対象外の(n−m)個の単語に対し、単語
がボイスプリントデータベースに登録されていない場合
には、新たに単語をボイスプリントとして、ボイスプリ
ントデータベースに登録する。そしてこの新たに登録さ
れたボイスプリントを新たな認証用ボイスプリントとし
て利用する。もちろん、(n−m)個の単語のうち、ボ
イスプリントデータベースに登録されている単語に対し
ては、音声による個人認証の対象であるm個の音声デー
タと同様に、単語に対応する音声データを用いて、ボイ
スプリントデータベースのボイスプリントを逐次更新す
る。
【0040】なお、新たに登録された単語(音声デー
タ)を新たな認証用ボイスプリントとして使用すると記
したが、新たに登録された音声データをすぐに音声認証
に使用することは避けた方がよいこともある。何度か該
音声データを被認証者に認証対象外の単語として提示し
て発音させ、該音声データがある条件を満たした時点で
認証対象単語(ボイスプリント)として正式に認証の対
象とすることも有効である。
【0041】上記の方法を用いれば、無制限に認証対象
単語を増やすことが可能である。しかし現実問題とし
て、適当な数の言葉をボイスプリントデータベースに登
録しておけば十分である(本発明では保存単語数は規定
しない)。古い方の単語から排除(辞書より破棄)し、
新たな単語を辞書に追加することによって、常にボイス
プリントデータベースを新しいものとしボイスプリント
の固定化を回避することができる。
【0042】本発明はスタンドアロンでの使い方もでき
る。例えば現在、パソコンのシステムを立ち上げるとき
にパスワードを入力させ、パスワードを知らない第三者
にパソコンを使わせない方法がとられている。このパス
ワードを入力する代わりに、本発明の音声による個人認
証を用いることができる。すなわち、本発明の方法を組
み込んだ音声認証用システム(辞書とソフトウェア)を
パソコンに組み込んでおけば、パスワードのキー入力の
代わりに、音声による個人認証が行え、システム起動に
利用することができる。ボイスプリントデータベースは
常に変化しているために本人にもその内容がわからない
し、ましてやパスワードのように他人に盗まれて悪用さ
れることもない。一方、コンピュータ通信への応用は、
以下のように行う。
【0043】ボイスプリントデータベースを管理する個
人認証管理センターと、該管理センターとネット接続さ
れた端末とから構成される場合、端末で個人認証が必要
な時、該管理センターより個人認証用のn個の単語(う
ちm個が個人認証用単語)を送信してもらい、n個の単
語を被個人認証者に音声入力させ、該管理センターに送
信して個人認証を行う。
【0044】上記のコンピュータ通信への応用例とし
て、クレジットカードの個人認証やインターネットでの
個人認証(例えばプロバイダへの接続時のパスワードの
代わりに音声データを用いた認証)などがある。
【0045】
【発明の実施の形態】本発明の実施の形態を図を用いて
説明する。なお以下では、個人認証に用いる個人のボイ
スプリントを登録してあるデータベースをボイスプリン
トデータベースと呼び、音声認識で用いる音声データの
読みが登録されている辞書を単語辞書と呼び、それら単
語のマッチングのための構成規則を定義したものをルー
ルグラマと呼ぶ。本発明で用いる個人認証用のボイスプ
リントは個々の人間が発音する単語列(例えば、「海山
川」)であり、文章化された自然言語(例えば、「認証
文字は海山川です」)も含む。「が」、「です」などの
助詞や助動詞あるいは「むにゃむにゃむにゃ」などの意
味のない単語も可能であり、必ずしも単語辞書に登録さ
れている必要はない。
【0046】図2は、本発明の音声認証の全体的な処理
フローである。ただし、この処理フローにおける音声分
析、音声認識アルゴリズム(デコーダ)、音声認証など
の基本技術は従来技術をそのまま利用している。音声認
識で不特定の人間の声を認識し、音声認証で、個人を特
定する。単語辞書は一般的な単語(名詞のほか動詞、副
詞、形容詞、助詞、助動詞など)を登録した辞書でもよ
い。
【0047】音声認証処理は図に示すように音声分析、
デコーダおよび単語切り出し、音声認証からなる。音声
分析では 音声入力(サンプリング)、A/D変換(デ
ジタル音声データ)および特徴量(ケプストラム係数)
の抽出を行う。音声入力(サンプリング)では、マイク
ロホン等の音声入力デバイスで音声を入力し、ある特定
の時間間隔(サンプリング周期)でサンプリングを行
う。サンプリングは、アナログ波形信号(音声)に含ま
れる成分の最高周波数の2倍以上のサンプリング周波数
(サンプリング周期の逆数)で行う。A/D変換では、
A/D変換器でサンプリングした波形の瞬時値を数値化
する。この数値化をA/D変換という。A/D変換は量
子化ともいう。A/D変換による出力がパルスコードで
ある。特徴量の算出では、パルスコードから特徴的な音
響のみを算出し、補正して特徴量(ケプストラム係数)
を作成し、デコーダに送信される。
【0048】デコーダでは、特徴量(ケプストラム係
数)を入力とし、音響モデル、言語モデル、ルールグラ
マ、単語辞書を用いて分析し、単語切り出し情報と認識
結果を出力する。単語切り出し情報は、単語切り出しに
渡し、そこで切り出された単語の音声データを、音声認
証に渡す。認識結果には、認識した音声のテキスト形式
の文字列及び、文字列を単語に分解した結果のテキスト
形式が含まれており、単語のテキスト形式(もしくはそ
れに該当する形式)を、音声認証に渡す。
【0049】上記の音声認識で抜き出した単語のテキス
ト形式のキーに該当する単語のボイスプリントを取り出
し、前述の単語の音声データを入力として得られたボイ
スプリントと照合して個人認証を行う。出力結果は、正
規化されたスコア(たとえば、0から100まで)が出力と
なる。単に音声認証を行うには、デジタル音声データの
みがあればよいが、検索用の単語のテキスト形式がない
と該当するボイスプリントを探し出すために順にチェッ
クして行かなければならないために、認証時間が非常に
掛かるものとなる。そこで本発明では音声認識の結果の
単語のテキスト形式から、ダイレクトにチェック対象の
ボイスプリントを取り出せるようにしている。
【0050】図3は、ボイスプリントデータベースのデ
ータ形式の一例である。ボイスプリントは50音順に並
べられていて、読みでダイレクト検索が可能となってい
る。ボイスプリントは音声認証用の特徴量であり、入力
された単語(音声認識処理より受け取ったデータ)の音
声データのボイスプリントと比較される。通常複数の単
語が照合の対象となるが、対象となる単語の正規化され
たスコアの閾値(本人受入率の最低値:本人と認める確
率の最低値に対応づけられたスコア)以上の場合のみ照
合した単語のボイスプリントが本人の物であると認め
る。
【0051】言い換えるなら、登録済みのボイスプリン
トと認証対象者のボイスプリントの照合結果が確率(一
致度合い)に対応した正規化されたスコアで出力される
ために、このスコアがある値(閾値)以上の場合を本人
と認証する。図の平均確率は前記の照合結果で得られた
スコアの平均値で、この平均確率が低い単語は、一致度
の悪い単語である。人により、発音の苦手な単語という
ものがあり、平均スコアが閾値よりも大幅に下回る場合
には、ボイスプリントデータベースから外すこともあ
る。
【0052】図の項目の登録日は単語のボイスプリント
をデータベースに登録した年月日、最新更新日はある読
みの単語に対する新しいボイスプリントが登録された日
である。最後に使用された日は、認証用単語として使わ
れた日でもある(最新更新日と最後に使用された日は、
認証拒否などがあるから必ずしも一致するとは限らな
い)。更新といっても、古いボイスプリント(データベ
ースに登録されているボイスプリント)を新しいボイス
プリントで置き換えるのではない。
【0053】そもそも、認証用単語一単語に対しボイス
プリントは、複数登録されており、それら複数のボイス
プリントを照合時に使用することで、被認証者の単語発
声のばらつきに対し頑健な認証を実現している。従っ
て、随時新しいボイスプリントを登録し、古いボイスプ
リントを破棄することで、経時変化、及び経年変化に対
応出来ることが、本発明の特徴でもある。使用回数は、
何度その単語が音声認証に使われたかの度数、拒否回数
は、使用回数中何度本人と判定されなかったかの回数で
ある。この拒否回数の単語が極端に多くなる場合には、
何らかの不正アクセス(例えば、第三者によるアクセ
ス)があったと判断できる。
【0054】n個中m個(m<n)はボイスプリントデ
ータベースより任意に取り出し、(n−m)個は単語辞
書より任意に取り出して、個人認証用の単語列を作る。
このとき、m個の選び方や(n−m)個の選び方にはい
くつかの方法がある。また、(n−m)のうちk(k<
n−m)個の単語は、単語辞書に登録されていなくとも
よい。これは、ルールグラマが、ワイルドカードをサポ
ートしているためである。図4は、技術上(プログラミ
ング上)の手法として個人認証用単語列の作り方の一例
である。ここでは、ボイスプリントデータベースが認証
用単語と認証候補単語から成り立っているとしている。
認証候補単語はボイスプリントの登録数が少なかった
り、使用回数が少なかったり、平均スコアが閾値を大幅
に下回っているために、まだ認証用単語として使用でき
ない単語である。
【0055】ボイスプリントデータベースより任意に取
り出したm個(m>1の場合)の単語に該当する音声認
識済みの切り出された音声を、個々に認証した結果得ら
れる他人拒否率の確率和もしくは確率積の結果とともに
利用することで、個々で得られる他人拒否率を上回る他
人拒否率を実現できるのも本システムの特徴である。
これは、既存のパスワード認証との確率和もしくは確率
積を利用することも可能であり、音声認識を用いたもの
をパスワードとしても良い。
【0056】パスワード認証と音声認証の併用もしく
は、パスワード入力による認証は、病気などの病的な異
常によって突発的に音声の特性が変化した場合に特に有
効である。パスワードの入力方法は、キーボードやタッ
チパネル等の既知の入力装置を使用しても、音声認識を
用いたパスワード入力でもよい。パスワードの提示を促
す方法には、直接パスワード入力をお願いする旨を伝え
る場合と、ある質問に対する答えをパスワードとして入
力を促す場合と、ある質問に対して有限個の解を表示し
その中から選択しそれを数字などのシリアルで入力を促
す場合と、あるメタファーに対する連想を、パスワード
として入力を促す場合とがある。そして、それらの連続
もしくは、組み合わせである場合もある。
【0057】図4では、認証用単語を5個、認証対象外
単語を5個任意に選び、10個の単語からなる個人認証
用単語列を作る場合の例である。任意と記したが、実際
にはまったくの任意ではなく、ある程度のルールをもっ
て単語列を作っている。○△×はそれぞれ単語を表し、
○は認証用単語、△は認証候補単語、×は単語辞書の認
識用単語である。認証用単語及び認証候補単語は、認識
用単語でもある。四つの○は認証用単語から任意に選択
するが、一つの◎は認識用単語のうち、最新更新日が、
3週間よりも以前の単語を選ぶ。
【0058】このような選択方法を行っているのは、ま
ったく任意に選択すると、認証用単語としてボイスプリ
ントに登録してあっても、使われないとボイスプリント
が更新されないために、音声の経時変化及び経年変化に
対応できなくなる恐れがあるからである。通常、3週間
以内であれば、経時変化は起こらない、1ヶ月たつと、
急激に変化が起こり、3ヶ月経つと照合率で10%、認
証率で25%の劣化が生じることもある。認証対象外単
語は認証には使われない単語であるが、認証候補単語か
ら二つと単語辞書から三つ選んでいる。単語辞書から選
んだ単語は任意選択であるから、ボイスプリントデータ
ベースに登録されている単語が存在することもある。
【0059】この10個の単語からできた単語列(単語
はランダムに並べる)は被認証者に提示され、音声入力
してもらう。認識過程では、これら10単語からなる1
単語列を、連続音声認識する。認識が成功すれば、認証
に移る。認証過程では、個々の単語に分解し、認証用単
語(○および◎の単語)で個人認証を行う。ここで本人
でないと判断された場合には、再入力を要求したり、あ
るいはそれ以降の処理を拒否することになる。本人と認
証された場合には、認証用単語の単語のうち、認証候補
単語(△の単語)に関しては、データの更新のために予
め登録されているボイスプリントと照合を行い、図3に
示した項目の更新を行う。ここで平均スコア(一致度)
が閾値を超えた場合には、認証候補単語を認証用単語に
昇格させる。単語辞書から選んだ単語(×の単語)は、
ボイスプリントデータベースに登録されていないときは
必要項目を埋め、ボイスプリントデータベースの認証候
補単語に登録する。ボイスプリントデータベースに登録
されている場合は、データベースの同単語の必要項目を
更新する。
【0060】インターネットなどで音声認証する場合に
は、音声データ(マイクで入力したアナログ音声デー
タ)をそのまま認証システムに送信してもよいが、図2
に示すように音声分析を手元の端末で行い、入力音声デ
ータを特徴量に変換して、データを送信することが好ま
しい。なぜなら認証システムを、サーバ&クライアント
システム化することで処理の分散による認証システム側
の負荷の減少となるだけでなく、音声データを特徴量に
変換することで、データの圧縮が可能となり、インフラ
のナローバンドに対応できる。また特徴量にパリティな
どを付加することによって文字化けのチェックや、暗号
化などの細かな芸当も可能となるからである。
【0061】
【発明の効果】本発明は、認証用単語(認識用単語でも
ある)と認識用単語を混ぜ合わせることによって、認識
用単語は、任意に選択表示可能であることから、単語列
の連続音声認識と併用することで、被認証者の録音した
音声データを認証時に使用するなどの不正認証を防止す
る。さらに、常時認証用単語の並びと単語を変えるため
に、どれが認証用に使われた単語なのかを、被認証者お
よび第三者に知られることなく個人認証がおこなえる方
式である。
【0062】本発明を用いるもう一つの効果は、認証用
単語(ボイスプリント)が認証しながら増殖していくた
めに、被認証者に負担を掛けずに論理上、認証用単語を
無限に増やすことができる。従って、最初は認証用の単
語(ボイスプリント)を一つから始めることもできるた
め、ボイスプリント登録時の手間が至って簡単である。
しかも、使えば使うほど認証用単語が増え、より第三者
に盗用されにくくなるという特徴を持っている。また認
証用単語に昇格させる場合、平均スコア(一致度)の高
い単語に対して行われるために、本人の認証率の高い単
語を有したボイスプリントデータベースとすることがで
きる。
【0063】人間の声は時間、ならびに年とともに変質
する。この変質に対しても、本発明では常時更新を行う
ために、経時変化及び経年変化にもボイスプリントデー
タベースが対応することができる。更新に際して、改め
て被認証者に膨大に膨れ上がっ認証用単語を発音しても
らわなくても、実際に使用している間に自然とボイスプ
リントが更新される。このため、被認証者に負担を掛け
ることもないし、認証システム管理者にも負担を掛ける
こともない。
【0064】本発明は不特定多数の認証用単語を有する
ボイスプリントデータベースが各個人ごとに作られる。
認証過程で認証単語(入力音声データ)をすべての認証
用単語(ボイスプリント)に照らし合わせていたので
は、認証時間が非常に掛かる認証システムとなってしま
う。音声による認証を姓名のみで行う場合には、ボイス
プリントデータベースに登録されている単語(この場合
は固有名詞)は一つであるから、被認証者の氏名がわか
っているときには容易に対象ボイスプリントが取り出せ
る。これに対して本発明のように膨大な数の単語が認証
の対象となる場合には、入力音声データとボイスプリン
トを順次照合していかなければならない。このときの平
均照合回数(音声データが対象のボイスプリントに当た
るまでの照合回数)は登録単語数の1/2の回目とな
る。しかし本発明では、入力音声データを音声認識処理
によって単語(文字列)に変換しているために、ダイレ
クトに照合対象のボイスプリントを引き出せる。これに
よって、認証のための照合時間を短縮することができ
る。
【0065】本発明はスタンドアロンのコンピュータシ
ステムにも、あるいはネット接続されたシステムにでも
応用できる。例えば前者の例としては個人のパソコンを
他人には起動できないようにするための個人認証への応
用、後者の例としてはクレジットカードの個人認証や、
インターネットにおける個人認証への応用である。イン
ターネット上で認証用の音声データ(入力音声データ)
を一つや二つ盗まれた(コピーされた)としても、その
音声データだけを使って個人認証を試みても、本発明の
システム下ではまず本人として認証されることはない。
また何度も第三者が個人認証を試みた場合には、ボイス
プリントデータベースの拒否回数が極端に増大するか
ら、認証システムによって不正アクセスの存在を検知す
ることもできる。
【図面の簡単な説明】
【図1】従来技術の音声認識のシステム構成図である。
【図2】本発明の音声認証のシステム構成図である。
【図3】本発明の音声認証で用いるボイスプリントデー
タベースのデータ形式の例を示す図である。
【図4】本発明の音声認証方法において、被認証者に個
人認証として発音してもらう単語列を作成する方法の例
を説明するための図である。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 和田 眞 東京都豊島区東池袋3丁目1番1号 サン シャイン60 48F 株式会社アドバンス ト・メディア内 Fターム(参考) 5B085 AA08 AE03 AE15 AE23 AE27 BC01 BE01 BE03 BG01 CE03 CE04 5D015 AA03 GG01 GG03

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 被認証者に音声入力させ、入力音声から
    個人を特定する個人認証システムにおいて、(1)予めボ
    イスプリントデータベースに登録されている認証の対象
    となる単語と認証の対象とならない単語を含む複数の単
    語を被認証者に提示する手段、(2)前記被認証者が音声
    入力した音声データを取り込み、前記認証対象の単語に
    対して認証処理を行うと共に、前記認証の対象とならな
    い単語を前記ボイスプリントデータベースに登録する手
    段、を備えたことを特徴とする音声による個人認証シス
    テム。
  2. 【請求項2】 被認証者に音声入力させ、入力音声から
    個人を特定する個人認証システムにおいて、(1)予めボ
    イスプリントデータベースに登録されている認証の対象
    となる複数の単語と認証の対象とならない単語を含む複
    数の単語を被認証者に提示する手段、(2)前記被認証者
    が音声入力した音声データを取り込み、前記認証対象の
    単語に対して認証処理を行うと共に、前記認証の対象と
    ならない単語を前記ボイスプリントデータベースに登録
    する手段、を備えたことを特徴とする音声による個人認
    証システム。
  3. 【請求項3】 前記認証の対象とならない単語が単語辞
    書よりランダムに選択されることを特徴とする請求項1
    または2記載の音声による個人認証システム。
  4. 【請求項4】 前記ボイスプリントデータベースに登録
    されている認証の対象となる単語の数が初期値から出発
    して有限の値まで増加することを特徴とする請求項1ま
    たは2記載の音声による個人認証システム。
  5. 【請求項5】 前記ボイスプリントデータベースに登録
    されている認証の対象となる単語の数に上限が設けら
    れ、前記ボイスプリントデータベースに登録されている
    単語が新たに登録される単語で逐次更新されることを特
    徴とする請求項1または2記載の音声による個人認証シ
    ステム。
  6. 【請求項6】 前記認証の対象とならない単語を単語辞
    書より選択して提示することを特徴とする請求項1また
    は2記載の音声による個人認証システム。
  7. 【請求項7】 1回の個人認証に対し、n単語列を発声
    してもらい、そのうちm単語を認証用に切り出して、そ
    れぞれの認証結果(確率)を演算し、用いることを特徴
    とする請求項1または2記載の音声による個人認証シス
    テム。
  8. 【請求項8】 ユーザID、パスワード等の発声内容を
    予め提示できないものを発声内容として促す場合に、テ
    キスト化もしくは符号化を行い、直接データベースを検
    索し、ボイスプリントを取り出すことを特徴とする請求
    項1または2記載の音声による個人認証システム。
  9. 【請求項9】 前記単語のボイスプリントを、初期登録
    数から、増加させることができる手段を有する請求項1
    または2記載の音声による個人認証システム。
  10. 【請求項10】 他の認証を併用することを特徴とする
    請求項1または2記載の音声による個人認証システム。
  11. 【請求項11】 単語辞書に登録されていない単語が発
    話内容に含まれた単語列を、提示する手段を有した請求
    項1または2記載の音声による個人認証システム。
  12. 【請求項12】 病気などの病的な異常によって音声の
    特性に変化が生じた場合、音声認証と音声パスワート゛認
    証を併用もしくは、音声パスワ―ト゛認証を用いて、対応
    できる手段を有する請求項1または2記載の音声による
    個人認証システム。
JP2002108973A 2002-04-11 2002-04-11 音声による個人認証システム Pending JP2003302999A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002108973A JP2003302999A (ja) 2002-04-11 2002-04-11 音声による個人認証システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002108973A JP2003302999A (ja) 2002-04-11 2002-04-11 音声による個人認証システム

Publications (1)

Publication Number Publication Date
JP2003302999A true JP2003302999A (ja) 2003-10-24

Family

ID=29392562

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002108973A Pending JP2003302999A (ja) 2002-04-11 2002-04-11 音声による個人認証システム

Country Status (1)

Country Link
JP (1) JP2003302999A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006126558A (ja) * 2004-10-29 2006-05-18 Asahi Kasei Corp 音声話者認証システム
JP2011008544A (ja) * 2009-06-25 2011-01-13 Clover Network Com:Kk 本人認証装置および本人認証方法
JPWO2011037134A1 (ja) * 2009-09-24 2013-02-21 日本電信電話株式会社 電子決済方法、システム、サーバ及びそのプログラム
JP2015510147A (ja) * 2012-02-17 2015-04-02 マイクロソフト コーポレーション テキストの音声化及び意味に基づくオーディオhip
JP2017049600A (ja) * 2014-04-01 2017-03-09 グーグル インコーポレイテッド 動的に生成された句を使用するセグメントベースの話者検証
JP2018527609A (ja) * 2015-07-23 2018-09-20 アリババ グループ ホウルディング リミテッド ユーザ声紋モデルを構築するための方法、装置、及びシステム
CN111091835A (zh) * 2019-12-10 2020-05-01 携程计算机技术(上海)有限公司 模型训练的方法、声纹识别的方法、***、设备及介质
CN112053052A (zh) * 2020-08-27 2020-12-08 中信银行股份有限公司 客服业务风险识别方法、装置、设备及存储介质
JP2021064110A (ja) * 2019-10-11 2021-04-22 グローリー株式会社 音声認証装置、音声認証システム、および音声認証方法

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006126558A (ja) * 2004-10-29 2006-05-18 Asahi Kasei Corp 音声話者認証システム
JP2011008544A (ja) * 2009-06-25 2011-01-13 Clover Network Com:Kk 本人認証装置および本人認証方法
JPWO2011037134A1 (ja) * 2009-09-24 2013-02-21 日本電信電話株式会社 電子決済方法、システム、サーバ及びそのプログラム
JP5527857B2 (ja) * 2009-09-24 2014-06-25 日本電信電話株式会社 電子決済方法、システム、サーバ及びそのプログラム
US9177309B2 (en) 2009-09-24 2015-11-03 Nippon Telegraph And Telephone Corporation Electronic settlement method, system, server and program thereof
JP2015510147A (ja) * 2012-02-17 2015-04-02 マイクロソフト コーポレーション テキストの音声化及び意味に基づくオーディオhip
JP2018036675A (ja) * 2014-04-01 2018-03-08 グーグル エルエルシー 動的に生成された句を使用するセグメントベースの話者検証
CN110827833A (zh) * 2014-04-01 2020-02-21 谷歌有限责任公司 使用动态生成的短语的基于段的说话者验证
JP2017516122A (ja) * 2014-04-01 2017-06-15 グーグル インコーポレイテッド 動的に生成された句を使用するセグメントベースの話者検証
US9741348B2 (en) 2014-04-01 2017-08-22 Google Inc. Segment-based speaker verification using dynamically generated phrases
JP2017049600A (ja) * 2014-04-01 2017-03-09 グーグル インコーポレイテッド 動的に生成された句を使用するセグメントベースの話者検証
US10037760B2 (en) 2014-04-01 2018-07-31 Google Llc Segment-based speaker verification using dynamically generated phrases
JP2017058689A (ja) * 2014-04-01 2017-03-23 グーグル インコーポレイテッド 動的に生成された句を使用するセグメントベースの話者検証
US11568879B2 (en) 2014-04-01 2023-01-31 Google Llc Segment-based speaker verification using dynamically generated phrases
US11056120B2 (en) 2014-04-01 2021-07-06 Google Llc Segment-based speaker verification using dynamically generated phrases
CN110827833B (zh) * 2014-04-01 2023-08-15 谷歌有限责任公司 使用动态生成的短语的基于段的说话者验证
US11043223B2 (en) 2015-07-23 2021-06-22 Advanced New Technologies Co., Ltd. Voiceprint recognition model construction
JP2018527609A (ja) * 2015-07-23 2018-09-20 アリババ グループ ホウルディング リミテッド ユーザ声紋モデルを構築するための方法、装置、及びシステム
JP2021064110A (ja) * 2019-10-11 2021-04-22 グローリー株式会社 音声認証装置、音声認証システム、および音声認証方法
JP7339116B2 (ja) 2019-10-11 2023-09-05 グローリー株式会社 音声認証装置、音声認証システム、および音声認証方法
CN111091835B (zh) * 2019-12-10 2022-11-29 携程计算机技术(上海)有限公司 模型训练的方法、声纹识别的方法、***、设备及介质
CN111091835A (zh) * 2019-12-10 2020-05-01 携程计算机技术(上海)有限公司 模型训练的方法、声纹识别的方法、***、设备及介质
CN112053052A (zh) * 2020-08-27 2020-12-08 中信银行股份有限公司 客服业务风险识别方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US7054811B2 (en) Method and system for verifying and enabling user access based on voice parameters
Naik Speaker verification: A tutorial
US7386448B1 (en) Biometric voice authentication
US7447632B2 (en) Voice authentication system
US6510415B1 (en) Voice authentication method and system utilizing same
US9792912B2 (en) Method for verifying the identity of a speaker, system therefore and computer readable medium
US20080270132A1 (en) Method and system to improve speaker verification accuracy by detecting repeat imposters
US20070294083A1 (en) Fast, language-independent method for user authentication by voice
Saquib et al. A survey on automatic speaker recognition systems
KR100297833B1 (ko) 비고정 연속 숫자음을 이용한 화자 검증 시스템 및 그 방법
US20030200447A1 (en) Identification system
CN101772015A (zh) 移动终端语音密码开机的方法
JP2007133414A (ja) 音声の識別能力推定方法及び装置、ならびに話者認証の登録及び評価方法及び装置
CN110827453A (zh) 一种指纹声纹双重认证方法及认证***
Saquib et al. Voiceprint recognition systems for remote authentication-a survey
Folorunso et al. A review of voice-base person identification: state-of-the-art
JP2003302999A (ja) 音声による個人認証システム
Deng et al. {V-Cloak}: Intelligibility-, Naturalness-& {Timbre-Preserving}{Real-Time} Voice Anonymization
JP7339116B2 (ja) 音声認証装置、音声認証システム、および音声認証方法
JP2004094158A (ja) 母音検索を利用した声紋認証装置
Kounoudes et al. Voice biometric authentication for enhancing Internet service security
Reynolds et al. Automatic speaker recognition
US20200143801A1 (en) Dynamic Voice Authentication
JP4245948B2 (ja) 音声認証装置、音声認証方法及び音声認証プログラム
Gupta et al. Text dependent voice based biometric authentication system using spectrum analysis and image acquisition