JPWO2006109515A1

JPWO2006109515A1 - 操作者認識装置、操作者認識方法、および、操作者認識プログラム

Info

Publication number: JPWO2006109515A1
Application number: JP2007512487A
Authority: JP
Inventors: 外山　聡一; 聡一外山; 藤田　育雄; 育雄藤田; 駒村　光弥; 光弥駒村
Original assignee: Pioneer Corp; TechExperts Inc
Current assignee: Pioneer Corp; TechExperts Inc
Priority date: 2005-03-31
Filing date: 2006-03-24
Publication date: 2008-10-23
Anticipated expiration: 2026-03-24
Also published as: US20090254757A1; US7979718B2; JP4588069B2; WO2006109515A1

Abstract

操作者の認識時に誤認識を生じさせやすい特徴量を有するＨＭＭデータなどのデータの登録を排除し、誤認識の可能性をより軽減させて、かつ、安定した認識性能を有する操作者認識装置を提供することにある。話者認識装置１００は、認識処理を行うときに用いるＨＭＭデータを登録する際に、既に登録されたＨＭＭデータによって示される特徴量と類似する発話音声成分の特徴量を有するパスワードのＨＭＭデータの登録を排除し、認識処理時に、誤認識を生じさせることが予想されるＨＭＭデータの登録を許可しないようになっている。

Description

本発明は、ＨＭＭ（Hidden Markov Models）法を用いて話者認識を行う技術分野に属する。

現在、インターネットなどのネットワークの発達およびコンピュータの発達に伴い、ネットワークを用いたサービスの提供、他のコンピュータへのアクセス、または、物理的な鍵の代替え品として、様々な場面で本人確認を行う種々の方法やシステムが研究・開発されている。

このような本人確認を行う代表的なものとして、操作者の発話音声成分または指紋など操作者の生体情報を用いて本人確認を行う方法（以下、「操作者認識方法」という。）があり、具体的には、認識すべき操作者の発話音声成分または指紋などの生体情報の特徴量を予め登録し、当該操作者の認識を行う際に、入力された生体情報の特徴量を抽出し、当該抽出された特徴量と予め登録された特徴量とを比較して操作者の認識を行うようになっている。

例えば、操作者（以下、「話者」ともいう。）の発話音声成分を用いて本人確認を行うものとしては、ＨＭＭ（隠れマルコフモデル）と呼ばれる確率モデル（以下、「ＨＭＭ」という。）を用いるものが知られており、特に、最近では、予め登録するＨＭＭのデータ（以下、「ＨＭＭデータ」という。）を少なくして認識処理の負荷を低減し、かつ、認識力の高いテキスト依存型と呼ばれるＨＭＭデータを用いる認識方法が知られている。

具体的には、このようなテキスト依存型の操作者の認識システム（以下、「テキスト依存型話者認識システム」という。）は、予め操作者毎に、すなわち、話者毎に任意に決めた語句（以下、「パスワード」という。）の複数回の発話から抽出した特徴量から算出された各話者のＨＭＭをＨＭＭデータとしてデータベースに登録するようになっており、当該話者の認識を行う際に、パスワードを話者に発話させ、当該発話された発話音声成分の特徴量とＨＭＭデータによって示される特徴量とを比較することによって話者認識を行うようになっている（例えば、特許文献１）。
特開２００４−２９４７５５号公報

しかしながら、従来の生体情報を用いた操作者認識方法にあっては、テキスト依存型認識システムに代表されるように、予め登録されるＨＭＭデータ自体が他の登録されるＨＭＭデータと類似する場合には、誤認識が生じてしまう場合が多い。例えば、テキスト依存型話者認識システムでは、話者毎に任意に決めたパスワードの文字列が類似し、話者の発話の特徴が類似する場合には、誤認識が生じてしまう。

本発明は、上記の課題の一例を解決するものとして、操作者の認識時に誤認識を生じさせやすい特徴量を有するＨＭＭデータなどのデータの登録を排除し、誤認識の可能性をより軽減させて、かつ、安定した認識性能を有する操作者認識装置、操作者認識方法および操作者認識プログラムを提供することにある。

上記の課題を解決するために、本発明の１つの観点では、認識の対象となる操作者毎に生体情報より得られた登録変更可能な照合用生体情報が予め登録されたデータベースを有し、特定すべき操作者の生体情報と当該照合用生体情報とを比較することによって操作者を認識する操作者認識装置であって、前記生体情報を照合用生体情報として前記データベースに登録する際に、登録すべき生体情報を入力するために用いられる入力手段と、前記入力手段に入力された生体情報に基づいて前記データベースに登録されている各照合用生体情報と比較するための比較対象情報を生成する比較対象情報生成手段と、前記生成された比較対象情報と各前記照合用生体情報とを比較し、当該生成された比較対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出手段と、前記算出された各尤度が基準となる基準尤度以下の場合にのみ、前記比較対象情報を用いて前記データベースを更新する更新手段と、を備える構成を有している。

また、本願の他の観点では、認識の対象となる操作者毎に予めデータベースに登録されている生体情報より得られた登録変更可能な照合用生体情報と、特定すべき操作者の生体情報と、を比較することによって操作者を認識する操作者認識方法であって、前記生体情報を照合用生体情報として前記データベースに登録する際に、入力された登録すべき生体情報を取得して、当該取得された生体情報に基づいて前記データベースに登録されている各照合用生体情報と比較するための比較対象情報を生成する比較対象情報生成工程と、前記生成された比較対象情報と各前記照合用生体情報とを比較し、当該生成された比較対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出工程と、前記算出された各尤度が基準となる基準尤度以下の場合にのみ、前記比較対象情報を用いて前記データベースを更新する更新工程と、を備える構成を有している。

また、本願のさらに他の観点では、コンピュータによって、データベースに予め登録された認識の対象となる操作者毎に生体情報から求めた登録変更可能な照合用生体情報と、特定すべき操作者の生体情報とを比較して操作者を認識する操作者認識プログラムであって、前記コンピュータを、前記生体情報を照合用生体情報として前記データベースに登録する際に、入力された登録すべき生体情報を取得して、当該取得された生体情報に基づいて前記データベースに登録されている各照合用生体情報と比較するための比較対象情報を生成する比較対象情報生成手段、前記生成された比較対象情報と各前記照合用生体情報とを比較し、当該生成された比較対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出手段、前記算出された各尤度が基準となる基準尤度以下の場合にのみ、前記比較対象情報を用いて前記データベースを更新する更新手段、として機能させる構成を有している。

本願に係る操作者認識装置の第１実施形態における話者認識装置の構成を示すブロック図である。第１実施形態のシステム制御部における登録処理の動作を示すフローチャートである。本願に係る操作者認識装置の第２実施形態における指紋認識装置の構成を示すブロック図である。第２実施形態のシステム制御部における登録処理の動作を示すフローチャートである。本願に係る操作者認識装置の第３実施形態における話者認識装置の構成を示すブロック図である。第３実施形態のシステム制御部における登録処理の動作を示すフローチャートである。

符号の説明

１００、５００ … 話者認識装置
１１０ … マイクロホン
１２０ … 入力処理部
１３０、３２０ … 特徴量抽出部
１４０、３３０ … データベース
１５０、３４０、５２０ … 尤度算出部
１６０ … 登録判定部
１７０ … 表示部
１８０ … 表示制御部
１９０ … スピーカ
２００ … 拡声制御部
２１０、３６０、５１０ … データ生成部
２２０、３５０ … 認識処理部
２３０ … 操作部
２４０、３７０、５３０ … システム制御部
２５０ … ＲＯＭ／ＲＡＭ
３００ … 指紋認識装置
３１０ … 指紋検出部

次に、本発明に好適な実施の形態について、図面に基づいて説明する。

以下に説明する実施形態は、テキスト依存型話者認識装置（以下、単に「話者認識装置」という。）または指紋認識装置に対して本願の操作者認識装置、操作者認識方法および操作者認識プログラムを適用した場合の実施形態である。また、以下の各実施形態では、尤度および各閾値については、正規化された値であることを前提に説明する。

〔第１実施形態〕
始めに、図１〜図２を用いて本願の操作者認識装置の第１実施形態を、話者認識装置を用いて説明する。

まず、図１を用いて本願の話者認識装置の構成について説明する。なお、図１は、本願に係る話者認識装置の構成を示すブロック図である。

本実施形態の話者認識装置１００は、認識の対象となる各操作者毎に、当該操作者を特定するためのパスワードを複数回発話させ、当該操作者によって発話された発話音声に基づいて生成されたＨＭＭデータを予め登録するようになっており、話者を特定して認識する処理（以下、「認識処理」という。）を行うときに当該登録されている各ＨＭＭデータと任意の操作者から発せされたパスワードにおける発話音声の音声成分とに基づいてパスワードを発した操作者、すなわち、話者を特定して認識するようになっている。

特に、本実施形態の話者認識装置１００は、認識処理を行うときに用いるＨＭＭデータを登録する際に、既に登録されたＨＭＭデータによって示される特徴量と類似する発話音声成分の特徴量を有するパスワードのＨＭＭデータの登録を排除し、認識処理時に、誤認識を生じさせることが予想されるＨＭＭデータの登録を許可しないようになっている。

具体的には、本実施形態の話者認識装置１００は、ＨＭＭデータを登録する処理（以下、「登録処理」という。）を行う際に、操作者の登録を希望するパスワードの発話音声成分から特徴量を抽出するとともに、この抽出された特徴量と既に登録されている各ＨＭＭデータとの尤度をそれぞれ算出し、この算出された各尤度と予め定められた閾値とに基づいて、当該登録を希望するパスワードの登録の可否を判断するようになっている。そして、この話者認識装置１００は、算出された各尤度が予め定められた閾値以下の場合に、当該操作者の登録を希望するパスワードの登録を許可するようになっており、登録が許可されると、当該登録が許可されたパスワードの発話音声を複数回取得し、当該取得された複数回のパスワードの発話音声における特徴量に基づいてＨＭＭデータを学習させつつ、生成し、当該生成されたＨＭＭデータの登録を行うようになっている。

この話者認識装置１００は、図１に示すように、話者のパスワードにおける発話音声が入力されるマイクロホン１１０と、入力されたパスワードの発話音声の音声信号に対して所定の処理を行う入力処理部１２０と、パスワードの発話音声の音声信号に基づいて当該発話音声における音声成分（以下、「発話音声成分」という。）の特徴量を抽出する特徴量抽出部１３０と、話者が予め定めたパスワードのＨＭＭデータが予め複数登録されているデータベース１４０と、データベース１４０に登録された各ＨＭＭデータと抽出された発話音声成分の特徴量との後述する尤度を算出する尤度算出部１５０と、を備え、認識処理時および登録処理時に入力された発話音声成分と登録されている各ＨＭＭデータとに基づいて後述するように、尤度を算出するようになっている。

また、この話者認識装置１００は、登録処理を行う際に、算出された各尤度に基づいて話者の認識を行うためのパスワードとして当該話者が定めたパスワードの登録の可否を判定する登録判定部１６０と、当該登録判定部１６０の判定結果を表示する表示部１７０と、表示部１７０を制御する表示制御部１８０と、登録判定部１６０の判定結果を告知するスピーカ１９０と、当該スピーカ１９０を制御する拡声制御部２００と、パスワードとして当該話者が定めたパスワードをＨＭＭデータとして登録することが許可された場合に、ＨＭＭデータを学習させつつ生成するデータ生成部２１０と、を備えている。

さらに、この話者認識装置１００は、抽出されたパスワードの特徴量とデータベース１４０に既に登録されたＨＭＭデータに基づいて認識処理を行う認識処理部２２０と、各種操作を行うために用いられる操作部２３０と、装置全体を制御するとともに、ＨＭＭデータを登録する際に、または、認識処理を実行する際に各部を制御するシステム制御部２４０と、各部を制御する際に用いられるＲＯＭ／ＲＡＭ２５０と、を備えている。

なお、例えば、本実施形態のマイクロホン１１０は、本発明の入力手段を構成するとともに、入力手段は、本発明の比較対象情報生成手段を構成し、特徴量抽出部１３０は、本発明の比較対象情報生成手段および抽出手段を構成する。また、例えば、本実施形態のデータベース１４０は、本発明のデータベース１４０を構成し、尤度算出部１５０は、本発明の算出手段を構成する。さらに、例えば、本実施形態の表示部１７０およびスピーカ１９０は、本発明の告知手段を構成し、データ生成部２１０は、本発明の更新手段および第２更新手段を構成する。

マイクロホン１１０には、認識処理を行う際に、または、登録処理を行う際に、操作者、すなわち、話者が登録を希望するパスワードの発話音声が入力されるようになっており、このマイクロホン１１０は、入力されたパスワードの発話音声を電気的な音声信号に変換し、入力処理部１２０に出力するようになっている。

入力処理部１２０には、マイクロホン１１０から出力された音声信号が入力されるようになっており、この入力処理部１２０は、入力された音声信号に対して、所定の信号レベルに増幅させるとともに、デジタル信号に変換するようになっている。

また、この入力処理部１２０は、入力された音声信号の発話音声部分の音声区間を示す音声信号を切り出すとともに、この切り出された音声区間の音声信号を予め設定された時間間隔毎のフレームに分割し、分割された各フレームの音声信号を特徴量抽出部１３０に出力するようになっている。

特徴量抽出部１３０には、パスワードの発話音声がマイクロホン１１０に入力される毎に、各フレームに分割された音声信号が入力されるようになっており、この特徴量抽出部１３０は、システム制御部２４０の制御の下、入力された各フレーム毎に音声信号を分析するとともに、当該フレーム毎の音声信号に基づいて発話音声成分の特徴量を抽出し、当該抽出された各フレームの特徴量を特徴量データとして尤度算出部１５０または後述するように当該パスワードの登録が許可された場合にデータ生成部２１０に出力するようになっている。

具体的には、特徴量抽出部１３０は、入力された各フレームの音声信号に基づいて、一定時間毎に、かつ、各周波数毎におけるパワーを示すスペクトル包絡の情報、または、このパワースペクトルの対数をとって逆フーリエ変換したものケプストラムの情報を各フレームの発話音声成分の特徴量として抽出するとともに、当該抽出した各特徴量をベクトル化して特徴量データを生成し、当該生成された尤度算出部１５０またはデータ生成部２１０に出力するようになっている。

なお、本実施形態の特徴量抽出部１３０は、データ生成部２１０においてＨＭＭデータを学習させつつ生成する場合に、各フレーム毎に分割された音声信号が入力される毎に、当該入力された音声信号に基づいて発話音声成分の特徴量を抽出し、データ生成部２１０に出力するようになっている。

データベース１４０には、操作者を特定するためのパスワードの当該操作者における発話音声成分に基づいて生成されたＨＭＭデータが各操作者毎に、当該各操作者の名称に対応付けて予め登録されている。

なお、このＨＭＭは、一定時間毎の各周波数毎におけるパワーを示すスペクトル包絡のデータまたはこのパワースペクトルの対数をとって逆フーリエ変換したケプストラムのデータを有する確率モデルを示すようになっている。具体的には、このＨＭＭは、ある状態からある状態に状態の遷移の確率を示す状態遷移確率と状態が遷移するときに観測されるベクトル（フレーム毎の特徴量ベクトル）の確率を出力する出力確率の２つのパラメータを有するとともに、発話音声の任意の区間毎に遷移する状態の集まりを表し、非定常信号源を定常信号の連結で表わす統計的信号源モデルである。

尤度算出部１５０には、パスワード一発話分の全フレームのベクトル特徴量の時系列データが特徴量データとして入力されるようになっており、この尤度算出部１５０は、システム制御部２４０の制御の下、入力されたパスワード一発話分の全フレームの時系列に並んだ特徴量とデータベース１４０に格納されている各ＨＭＭデータに基づき尤度を算出するようになっている。

具体的には、尤度算出部１５０は、ＨＭＭが初期状態から時間の進行と共に状態を遷移する毎にベクトルを出力し、最終状態に達したときに入力されたパスワード一発話分の全フレームの時系列に並んだ特徴量データが出力される確率を計算するようになっている。そして、この尤度算出部１５０は、当該算出された確率を尤度として算出するようになっている。

一方、この尤度算出部１５０は、上述のように算出された各話者のＨＭＭ毎の尤度において最も高い尤度（以下、「最大尤度」という。）を検索し、この最大尤度を尤度データとして登録判定部１６０または認識処理部２２０の何れかに出力するようになっている。

なお、この尤度算出部１５０は、登録処理を行っている際には、当該最も高い尤度を尤度データとして登録判定部１６０に出力するとともに、認識処理を行っている際には、算出された各尤度のうち最も高い尤度を尤度データとして認識処理部２２０に出力するようになっている。

登録判定部１６０には、登録処理を行っている際に、尤度算出部１５０から出力された操作者が登録を希望するパスワードの尤度データが入力されるようになっており、この登録判定部１６０は、入力された尤度データに基づいて、当該尤度データの算出の基になったパスワードのデータベース１４０への登録の可否を判定し、当該判定結果をシステム制御部２４０に通知するようになっている。

具体的には、この登録判定部１６０は、予め設定された登録判定用の閾値（以下、「登録判定用閾値」という。）と入力された尤度データによって示される尤度とを比較し、当該尤度が閾値以下の場合には、データベース１４０に類似するパスワードが登録されていないものと判断して、当該尤度データの算出の基になったパスワードのデータベース１４０への登録を許可する判定（以下、単に、「登録許可の判定」という。）を行うようになっている。

一方、この登録判定部１６０は、予め設定された閾値と入力された尤度データによって示される尤度とを比較し、当該尤度が閾値より大きい場合には、データベース１４０に類似するパスワードが登録されているものと判断して、当該尤度データの算出の基になったパスワードのデータベース１４０への登録を許可しない不許可の旨の判定（以下、単に、「登録不許可の判定」という。）を行うようになっている。

なお、システム制御部２４０は、後述するように、登録許可の判定が通知された場合には、当該登録許可の旨を表示部１７０およびスピーカ１９０を介して操作者に告知するとともに、登録許可の対象となったパスワードにおけるＨＭＭデータを生成する処理を実行するようになっている。また、このシステム制御部２４０は、登録不許可の判定が通知された場合には、当該登録許可の旨を表示部１７０およびスピーカ１９０を介して操作者に告知するとともに、パスワードの再入力を操作者に促す告知を行うようになっている。

データ生成部２１０には、登録処理を行っている際に操作者が登録を希望するパスワードの登録が許可された場合に、パスワードの登録の可否の判断前に特徴量抽出部１３０にて抽出された当該パスワードの特徴量データと、当該パスワードの登録が許可された後に、複数回パスワードが入力され、特徴量抽出部１３０にて当該パスワードが入力される毎に抽出されたパスワードの特徴量データが入力されるようになっている。また、このデータ生成部２１０は、入力された各特徴量データに基づいて、ＨＭＭデータを学習させつつ生成し、当該生成されたＨＭＭデータを操作者の名称に関連づけてデータベース１４０に登録するようになっている。

具体的には、本実施形態のデータ生成部２１０は、入力された複数の特徴量データに基づいて、一定時間毎の各周波数毎におけるパワーを示すスペクトル包絡のデータまたはこのパワースペクトルの対数をとって逆フーリエ変換したケプストラムのデータを有する確率モデルを学習させつつ生成し、当該生成された確率モデルをＨＭＭデータとしてデータベース１４０に登録するようになっている。

表示部１７０は、例えば、ＣＲＴ、液晶表示素子またはＥＬ（Electro Luminescence）素子によって構成され、表示制御部１８０の制御にしたがって種々の表示を行うようになっており、特に、本実施形態の表示部１７０は、操作者が入力した登録を希望するパスワードの登録の可否などの種々の表示を行うようになっている。

表示制御部１８０は、システム制御部２４０の制御の下、表示部１７０の表示制御を行うようになっており、特に、本実施形態の表示制御部１８０は、操作者が入力した登録を希望するパスワードの登録の可否を告知するためおよびパスワードの変更を操作者に告知するための表示データを生成し、当該生成された表示データを表示部１７０に表示出力するようになっている。

スピーカ１９０は、拡声制御部２００の制御にしたがって種々の告知を行う際に所定の音声が拡声させるようになっており、特に、本実施形態のスピーカ１９０は、操作者が入力した登録を希望するパスワードの登録の可否を行う際に用いられるようになっている。

拡声制御部２００は、システム制御部２４０の制御の下、スピーカ１９０の拡声制御を行うようになっており、特に、本実施形態の拡声制御部２００は、操作者が入力した登録を希望するパスワードの登録の可否を告知するためおよびパスワードの変更を操作者に告知するための音声データを生成し、当該生成された音声データをスピーカ１９０から拡声出力するようになっている。

認識処理部２２０には、認識処理を行っている際に、尤度算出部１５０において算出された最大尤度を示す尤度データが入力されるようになっており、この認識処理部２２０は、入力された最大尤度に基づいて、操作者の認識、すなわち、話者の認識を行うようになっている。

例えば、本実施形態の認識処理部２２０は、入力された尤度データにおける最大尤度が予め設定された認識処理用の閾値（以下、「認識処理用閾値」という。）以上であるか否かを判定し、当該最大尤度が認識処理用閾値以上の場合には、当該尤度を算出する際に用いたＨＭＭデータに対応付けて登録されている操作者を、当該認識処理においてパスワードを発話した操作者、すなわち、話者であると認識し、当該認識結果をシステム制御部２４０に出力するようになっている。

なお、本実施形態の認識処理部２２０は、当該最大尤度が認識処理用閾値より小さい場合には、当該認識処理においてパスワードを発話した操作者がデータベース１４０に登録されている何れの操作者にも該当しないとしてその旨をシステム制御部２４０に出力するようになっている。また、この認識処理用閾値は、登録判定用閾値より大きい値が用いられるようになっている。

操作部２３０は、各種確認ボタン及び数字キー等の多数のキーを含むキーボード、または、タッチパネル等の入力インターフェースにより構成されており、特に、本実施形態では、登録処理を行う際に、または、認識処理を行う際に、所定の操作を行うようになっている。

システム制御部２４０は、主に中央演算処理装置（ＣＰＵ）によって構成されるとともに、キー入力ポート、表示制御ポート等の各種入出力ポートを含み、登録処理および認識処理のための全般的な機能を総括的に制御するようになっている。

このシステム制御部２４０は、登録処理および認識処理を行う際に、ＲＯＭ／ＲＡＭ２５０に格納される制御プログラムを読み出して各処理を実行し、当該ＲＯＭ／ＲＡＭ２５０に処理中のデータを一時的に保持するようになっている。

なお、本実施形態のシステム制御部２４０における登録処理の動作の詳細については後述する。

ＲＯＭ／ＲＡＭ２５０には、所定の動作を行う際の制御プログラムが記憶されているとともに、各部を制御する際に用いられるデータが一時的に記憶されるようになっている。

次に、図２を用いて本実施形態のシステム制御部２４０における登録処理の動作について説明する。

なお、図２は、本実施形態のシステム制御部２４０における登録処理の動作を示すフローチャートである。また、以下の動作において、データベース１４０には、複数の操作者のＨＭＭデータが予め登録されているものとする。

まず、操作部２３０を介して操作者によってパスワードのＨＭＭデータを登録する登録処理を実行する指示が入力され、システム制御部２４０が当該登録処理の実行指示を検出すると（ステップＳ１１）、当該システム制御部２４０は、表示制御部１８０および拡声制御部２００を制御して、表示部１７０およびスピーカ１９０によってパスワードの入力を促すための告知（以下、「入力指示の告知」という。）をさせる（ステップＳ１２）。

次いで、システム制御部２４０は、特徴量抽出部１３０に、マイクロホン１１０および入力処理部１２０を介して入力されたパスワードの発話音声成分に対して特徴量を抽出するための指示を行う（ステップＳ１３）。

このとき、特徴量抽出部１３０は、当該ステップＳ１３の指示が為されると、マイクロホン１１０に操作者のパスワードの音声が入力され、入力処理部１２０にて分割された各フレーム毎の音声成分に対して上述のように特徴量を抽出し、当該抽出されたパスワード一発話分の全フレームの特徴量の時系列データを特徴量データとして尤度算出部１５０に出力する。

次いで、システム制御部２４０は、尤度算出部１５０に入力された各フレーム毎の特徴量とデータベース１４０に格納されている各ＨＭＭデータを比較して入力されたパスワードの発話音声成分全体の特徴量と各ＨＭＭデータの特徴量とのそれぞれの尤度を算出し、当該算出された各尤度のうち最大尤度を尤度データとして登録判定部１６０に出力させる（ステップＳ１４）。

次いで、システム制御部２４０は、登録判定部１６０に最大尤度と登録判定用閾値とを比較させ、入力されたパスワードの登録の可否を判定し（ステップＳ１５）、登録判定部１６０によって最大尤度が登録判定用閾値より大きいと判断された場合には、表示制御部１８０およぎ拡声制御部２００を制御して、表示部１７０およびスピーカ１９０にて登録するパスワード、すなわち、登録するパスワードの変更を促すための告知（以下、「変更指示の告知」という。）をさせ（ステップＳ１６）、ステップＳ１３の処理に移行する。

一方、登録判定部１６０によって最大尤度が登録判定用閾値以下と判断された場合には、システム制御部２４０は、表示制御部１８０および拡声制御部２００を制御して、表示部１７０およびスピーカ１９０にて登録可能の告知を行わせる（ステップＳ１７）。

次いで、システム制御部２４０は、データ生成部２１０に特徴量抽出部１３０から入力されたパスワードの特徴量を取得させて当該パスワードにおけるＨＭＭデータを生成させるとともに（ステップＳ１８）、表示制御部１８０および拡声制御部２００を制御して、表示部１７０およびスピーカ１９０にて登録するパスワードの入力を促すための告知（以下、「再入力指示の告知」という。）を行わせる（ステップＳ１９）。

次いで、システム制御部２４０は、ステップＳ１３の処理と同様に、特徴量抽出部１３０に、マイクロホン１１０および入力処理部１２０を介して入力されたパスワードの発話音声成分に対して特徴量を抽出するための指示を行う（ステップＳ２０）。

このとき、特徴量抽出部１３０は、上述の処理と同様に、マイクロホン１１０に操作者のパスワードの音声が入力され、入力処理部１２０にて分割された各フレーム毎の音声成分に対して上述のように特徴量を抽出し、当該抽出されたパスワード一発話分の全フレームの特徴量の時系列データを特徴量データとしてデータ生成部２１０に出力する。

このとき、システム制御部２４０が未だ予め定められた回数のパスワードの入力がないと判断すると、当該システム制御部２４０は、ステップＳ２０の処理に移行し、システム制御部２４０が未だ予め定められた回数のパスワードの入力があったと判断すると、当該システム制御部２４０は、データ生成部２１０にＨＭＭデータの学習を指示する。

次いで、システム制御部２４０は、データ生成部２１０に入力された特徴量データに基づいて生成されたＨＭＭデータを学習させ（ステップＳ２１）、生成されたＨＭＭデータを、パスワードを入力した操作者に対応付けてデータベース１４０に登録させ（ステップＳ２３）、本動作を終了させる。

以上のように本実施形態の話者認識装置１００は、認識の対象となる操作者毎に登録変更可能なパスワードの発話音声成分の特徴量から学習したＨＭＭデータが予め登録されたデータベース１４０を有し、特定すべき操作者のパスワードの発話音声成分の特徴量と当該ＨＭＭデータとを比較することによって操作者を認識する話者認識装置１００であって、パスワードの音声成分における特徴量から学習するＨＭＭデータをデータベース１４０に登録する際に、登録すべきパスワードの音声成分における特徴量を入力するために用いられるマイクロホン１１０と、入力されたパスワードの音声成分から特徴量を抽出する特徴量抽出部１３０と、抽出された特徴量と照合用の各操作者のパスワードの発話音声成分の特徴量から学習されたＨＭＭデータとを比較し、当該抽出された特徴量と当該照合用の各操作者のパスワードの発話音声成分における特徴量から学習されたＨＭＭデータとの尤度をそれぞれ算出する尤度算出部１５０と、算出された各尤度が基準となる登録判定用閾値以下の場合に、抽出されたパスワードの発話音声における音声成分の特徴量に基づいて生成されるＨＭＭデータを用いてデータベース１４０を更新するデータ生成部２１０と、を備える構成を有している。

この構成により、本実施形態の話者認識装置１００は、操作者が希望するパスワードの発話音声に基づくＨＭＭデータを登録する際に、入力されたパスワードの発話音声成分から抽出された特徴量とデータベース１４０に登録された各ＨＭＭデータの尤度を算出し、当該算出された尤度が基準となる登録判定用閾値以下の場合に、登録を希望するパスワードの発話音声成分の特徴量に基づいて生成されるＨＭＭデータを用いてデータベース１４０を更新する。

したがって、本実施形態の話者認識装置１００は、操作者の認識時に誤認識を生じさせやすい特徴量に基づくＨＭＭデータなどのデータの登録を排除し、誤認識の可能性をより軽減させて、かつ、安定した認識性能を提供することができる。

また、本実施形態の話者認識装置１００は、尤度算出部１５０が、初回に入力されたパスワードの音声成分における特徴量に基づいて照合用の各パスワードの音声成分における特徴量との各尤度を算出するとともに、算出された初回に入力されたパスワードの音声成分における特徴量に基づく各尤度が登録判定用閾値以下の場合に、データ生成部２１０が、抽出された全登録用パスワード発話の特徴量に基づいて一つのＨＭＭデータを生成し、当該生成されたＨＭＭデータを用いてデータベース１４０を更新する構成を有している。

この構成により、複数回行わなければならない登録発話のうち初回の発話のみで登録可否の判定がなされるので、パスワードの再入力が生じた場合であっても、操作者における負荷を軽減させることができる。

なお、本実施形態では、データ生成部２１０は、パスワードの登録が許可された後に、複数回入力されたパスワードの発話音声成分における特徴量に基づいて、ＨＭＭを学習させるようになっているが、複数回のパスワード発話の任意の複数の発話に対して登録可否の判定を行うようにしても良い。この場合には、登録不可の判定が尤度の算出に用いない入力された複数回の発話音声における特徴量データは、例えば、ＲＯＭ／ＲＡＭ２５０に一時的に記憶されるようになっている。

また、本実施形態では、登録判定部１６０において、登録が不許可と判断された場合に、再度、登録を希望するパスワードが入力されるようになっており、当該登録判定部１６０において許可が為されない限り、登録を希望するパスワードの再入力が指示されるようになっているが、当該パスワードの再入力に回数の制限を設けるようにしてもよい。

この場合には、システム制御部２４０は、パスワードの変更指示を行う毎に、算出された最大尤度をＲＯＭ／ＲＡＭ２５０に記憶し、予め定められた回数の再入力を行っても、登録を希望するパスワードの登録が許可されない場合には、例えば本発明の記憶手段として機能する当該ＲＯＭ／ＲＡＭ２５０に記憶された最大尤度のうち、最小となる最大尤度のパスワードを選択し、データ生成部２１０に、当該選択されたパスワードにおけるＨＭＭデータを、入力された発話音声の特徴量に基づいて、学習させつつ生成させ、生成させたＨＭＭデータをデータベース１４０に登録させるようになっている。また、この場合には、上述と同様に、システム制御部２４０は、登録を希望するパスワードを入力する毎に、複数回の発話音声の入力を行わせるように表示部１７０およびスピーカ１９０を介して操作者に指示するようになっている。したがって、このように、パスワードの再入力を制限することによって、登録処理時における操作者の負担を軽減させることができる。そして、この場合に、登録の対象となったパスワードにおいて登録判定を行う際に算出された尤度に基づいて、すなわち、登録判定用閾値より大きい値を有する最大尤度に基づいて、認識処理用閾値を変更するようになっている。例えば、この場合は、システム制御部２４０は、最大尤度より所定の値大きい認識処理用閾値を算出し、認識処理部２２０に格納するようになっている。

また、上述のように、パスワードの発話音声における入力を制限する点に変えて、算出された最大尤度をＲＯＭ／ＲＡＭ２５０に記憶するとともに、前回に入力されたパスワードにおける最大尤度より今回に入力されたパスワードにおける最大尤度が大きい場合に、前回に入力されたパスワードにおける発話音声に基づいてＨＭＭデータを学習させつつ生成するようにしてよい。このように、パスワードの再入力を所定の基準にて制限することによって、上述と同様に、登録処理時における操作者の負担を軽減させることができる。そして、この場合に、上述と同様に、登録の対象となったパスワードにおいて登録判定を行う際に算出された尤度に基づいて、すなわち、登録判定用閾値より大きい値を有する最大尤度に基づいて、認識処理用閾値を変更するようになっている。例えば、この場合は、システム制御部２４０は、最大尤度より所定の値大きい認識処理用閾値を算出し、認識処理部２２０に格納するようになっている。

なお、ここでは照合用生体情報としてＨＭＭデータを用いて尤度として信号生成確率を用いた例を示したが、照合用生体情報としてＧＭＭ（Gaussian Mixture Model）を用いて尤度として信号生成確率を用いる方法、動的計画法を用いる場合照合用生体情報として照合用パターンを用い尤度としてパターン間距離の逆数を用いる方法や、ニューラルネットを用いる場合照合用生体情報としてニューラルネットワークを用い尤度としてネットワーク出力を用いる方法など様々な方法も本構成で実現できる。

また近年、携帯電話やインターネット等のデータ通信を応用した分散型音声認識が開発研究されている。これは、端末側でマイクとＣＰＵなどの演算器を持ち、発話音声を特徴量に変換してデータ通信によりサーバに伝送する。サーバでは受信した特徴量に対し音声認識処理を行う結果を求めたり、求めた結果でデータ検索を行うなどする。そして求めた結果やデータ検索結果等を再度データ通信を利用して端末に伝送し、端末側でユーザに音声や画像で通知するなど利用する、というものである。このような構成を本発明にも用いることができる。この場合、入力処理部・特徴量抽出部・表示部・スピーカを端末側で受け持ち、データ生成・データベース・尤度算出部・登録判定部・認識処理部をサーバ側で受け持つような構成とすることも可能である。

また、本実施形態では、システム制御部２４０によって、登録処理を行うようになっているが、操作者毎のＨＭＭデータが複数登録されるデータベース１４０を有する話者認識装置１００にコンピュータおよび記録媒体を備え、この記録媒体に上述の登録処理を実行する制御プログラムを格納し、このコンピュータで当該登録処理を行うプログラムを読み込むことによって上述と同様の登録処理を行うようにしてもよい。

〔第２実施形態〕
次に、図３および図４を用いて本願の操作者認識装置の第２実施形態を、指紋認識装置を用いて説明する。

本実施形態の指紋認識装置は、第１実施形態の話者認識装置においてパスワードの発話音声における特徴量を用いて認識処理を行う点に代えて、操作者の指紋の特徴量を用いる点に特徴がある。

すなわち、各操作者において指紋は、指の数だけ存在するため、各操作者において変更可能な生体情報の一つである。また、この指紋は、指紋の画像（以下、「指紋画像」という。）として取り込み、当該指紋画像に基づいて指紋隆線の分岐点および端点の位置などの特徴点を解析することによって当該指紋画像の特徴量を抽出することができる。したがって、本実施形態の指紋認識装置は、指紋画像を取得し、当該取得された指紋画像を解析することによって特徴量を抽出することができるとともに、当該特徴量をデータベース１４０に予め登録すれば、第１実施形態と同様に、尤度を算出することができ、かつ、認識処理を行うことができるようになっている。

なお、本実施形態においては、上述の構成以外の構成は第１実施形態と同様の構成を有しており、同一の部材には同一の符号を付してその説明を省略する。

まず、図３を用いて本願の指紋認識装置３００の構成について説明する。なお、図３は、本願に係る指紋認識装置３００の構成を示すブロック図である。

本実施形態の指紋認識装置３００は、図３に示すように、操作者の指紋を画像として検出する指紋検出部３１０と、入力された指紋画像に基づいて当該指紋の特徴量を抽出する特徴量抽出部３２０と、操作者の指紋の特徴量を示す指紋データが予め複数登録されているデータベース３３０と、データベース３３０に登録された各指紋データと抽出された指紋画像における特徴量との尤度を算出する尤度算出部３４０と、抽出された指紋画像の特徴量とデータベース３３０に既に登録された指紋データに基づいて認識処理を行う認識処理部３５０と、パスワードとして当該操作者が定めた指紋を指紋データとして登録することが許可された場合に、指紋データを生成するデータ生成部３６０と、を備えている。

また、この指紋認識部は、第１実施形態と同様に、登録判定部１６０と、表示部１７０と、表示制御部１８０と、スピーカ１９０と、拡声制御部２００と、操作部２３０と、システム制御部３７０と、ＲＯＭ／ＲＡＭ２５０と、を備えている。

なお、例えば、本実施形態の指紋検出部３１０は、本発明の入力手段を構成するとともに、特徴量抽出部３２０は、本発明の比較対象情報生成手段および抽出手段を構成する。また、例えば、本実施形態のデータベース３３０は、本発明のデータベース３３０を構成し、尤度算出部３４０は、本発明の算出手段を構成する。さらに、例えば、本実施形態の表示部１７０およびスピーカ１９０は、本発明の告知手段を構成し、データ生成部３６０は、本発明の登録手段および第２登録手段を構成する。

指紋検出部３１０は、操作者の指を接触させる接触部を有し、登録処理時または認識処理時に、指が接触部に接触された際に、光学式または静電容量式などの指紋センサーを用いて当該指の指紋を指紋画像として撮像し、指紋画像を指紋画像データとして特徴量抽出部３２０に出力するようになっている。

特徴量抽出部３２０には、入力された操作者の指における指紋画像データが入力されるようになっており、この特徴量抽出部３２０は、入力された指紋画像データに基づいて、上述のように、指紋隆線の分岐点および端点の位置など特徴量を抽出するようになっている。そして、この特徴量抽出部３２０は、抽出された特徴量を特徴量データとして尤度算出部３４０またはデータ生成部３６０に出力するようになっている。

データベース３３０には、操作者を特定するためのパスワードとして当該操作者の指紋画像に基づいて生成された指紋データが、各操作者毎に、当該各操作者の名称に対応付けて予め登録されている。

尤度算出部３４０には、特徴量抽出部３２０にて抽出された特徴量データが入力されるようになっており、この尤度算出部３４０は、システム制御部３７０の制御の下、特徴量データの各特徴量とデータベース３３０に格納されている各指紋データによって示される特徴量とを比較し、入力された特徴量と各指紋データの特徴量とのそれぞれの尤度を算出し、この算出された各尤度において最も高い最大尤度を尤度データとして認識処理部３５０または登録判定部１６０の何れかに出力するようになっている。

なお、この尤度算出部３４０は、第１実施形態と同様に、認識処理を行っている際には、算出された各尤度のうち最も高い尤度を尤度データとして認識処理部３５０に出力するとともに、登録処理を行っている際には、当該最も高い尤度を尤度データとして登録判定部１６０に出力するようになっている。

認識処理部３５０には、認識処理を行っている際に、尤度算出部３４０において算出された最大尤度を示す尤度データが入力されるようになっており、この認識処理部３５０は、入力された最大尤度に基づいて、操作者の認識、すなわち、話者の認識を行うようになっている。

データ生成部２１０は、登録処理を行っている際に操作者が登録を希望するパスワードとしての指紋の登録が許可された場合に、特徴量抽出部３２０にて抽出された当該指紋画像の特徴量データを取得し、取得された特徴量データに基づいて、指紋データを生成するようになっており、生成された指紋データを操作者の名称に関連づけてデータベース３３０に登録するようになっている。

次に、図４を用いて本実施形態のシステム制御部３７０における登録処理の動作について説明する。

なお、図４は、本実施形態のシステム制御部３７０における登録処理の動作を示すフローチャートである。また、以下の動作において、データベース３３０には、複数の操作者の指紋データが予め登録されているものとする。

まず、操作部２３０を介して操作者によってパスワードとしての指紋データを登録する登録処理を実行する指示が入力され、システム制御部３７０が当該登録処理の実行指示を検出すると（ステップＳ３１）、当該システム制御部３７０は、表示制御部１８０および拡声制御部２００を制御して、表示部１７０およびスピーカ１９０によってパスワードを入力する旨、すなわち、指紋の検出を促すための告知（以下、「検出指示の告知」という。）をさせる（ステップＳ３２）。

次いで、システム制御部３７０は、指紋検出部３１０に接触部に接触された指の指紋の画像を撮像させる（ステップＳ３３）。

次いで、システム制御部３７０は、特徴量抽出部３２０に、撮像された指紋画像データに基づいて特徴量を抽出させ、当該抽出された特徴量を特徴量データとして尤度算出部３４０に出力させる（ステップＳ３４）。

次いで、システム制御部３７０は、尤度算出部３４０に入力された特徴量データとデータベース３３０に格納されている各指紋データの各特徴量とを比較して入力された指紋画像データにおける特徴量と各指紋データの特徴量とのそれぞれの尤度を算出し、当該算出された各尤度のうち最大尤度を尤度データとして登録判定部１６０に出力させる（ステップＳ３５）。

次いで、システム制御部３７０は、登録判定部１６０に最大尤度と登録判定用閾値とを比較させ、入力された指紋の登録の可否を判定し（ステップＳ３６）、登録判定部１６０によって最大尤度が登録判定用閾値より大きいと判断された場合には、表示制御部１８０およぎ拡声制御部２００を制御して、表示部１７０およびスピーカ１９０にて登録する指紋の変更を告知させ（ステップＳ３７）、ステップＳ３３の処理に移行する。

一方、登録判定部１６０によって最大尤度が登録判定用閾値以下と判断された場合には、システム制御部３７０は、表示制御部１８０および拡声制御部２００を制御して、表示部１７０およびスピーカ１９０にて登録可能である旨の告知を行わせる（ステップＳ３８）。

次いで、システム制御部３７０は、データ生成部３６０に特徴量抽出部３２０から撮像された指紋画像データの特徴量を取得させて指紋データを生成させるとともに（ステップＳ３９）、当該生成された指紋データを入力した操作者に対応付けてデータベース３３０に登録させ（ステップＳ４０）、本動作を終了させる。

以上のように本実施形態の指紋認識装置３００は、認識の対象となる操作者毎に登録変更可能な指紋の特徴量が指紋データとして予め登録されたデータベース３３０を有し、特定すべき操作者の指紋の特徴量と当該指紋データとを比較することによって操作者を認識する指紋認識装置３００であって、操作者の指の指紋の特徴量を指紋データとしてデータベース３３０に登録する際に、登録すべき指紋を画像データとして検出する指紋検出部３１０と、検出された指紋画像データから特徴量を抽出する特徴量抽出部３２０と、抽出された指紋画像データの特徴量と照合用の各指紋データの特徴量とを比較し、当該抽出された特徴量と当該照合用の各指紋データの特徴量との特性が類似する割合を示す尤度をそれぞれ算出する尤度算出部３４０と、算出された各尤度が基準となる登録判定用閾値以下の場合に、抽出された指紋画像データの特徴量に基づいて生成される指紋データを用いてデータベース３３０を更新するデータ生成部３６０と、を備える構成を有している。

この構成により、本実施形態の指紋認識装置３００は、操作者が希望する指紋に基づく指紋データを登録する際に、検出された指紋画像データから抽出された特徴量とデータベース３３０に登録された各指紋データにおける特徴量との特性が類似する割合を示す尤度を算出し、当該算出された尤度が基準となる登録判定用閾値以下の場合に、登録を希望する指紋の特徴量に基づいて生成される指紋データを用いてデータベース３３０を更新する。

したがって、本実施形態の指紋認識装置３００は、第１実施形態と同様に、操作者の認識時に誤認識を生じさせやすい特徴量を有する指紋データなどのデータの登録を排除し、誤認識の可能性をより軽減させて、かつ、安定した認識性能を提供することができる。

また、本実施形態の指紋認識装置３００は、算出された各尤度の少なくとも一の尤度が登録判定用閾値より大きい場合に、操作者に対して、検出された指紋画像データの特徴量と異なる特徴量を有する当該指紋画像データの特徴量の再入力を告知する表示部１７０およびスピーカ１９０を更に備える構成を有している。

この構成により、本実施形態の指紋認識装置３００は、算出された各尤度の少なくとも一の尤度が登録判定用閾値より大きい場合に、操作者に対して、検出された指紋画像データの特徴量と異なる特徴量を有する当該指紋画像データの特徴量の再入力を告知する。

したがって、本実施形態の指紋認識装置３００は、第１実施形態と同様に、操作者のパスワードとして登録すべき指紋画像データの再入力を操作者に告知することができるので、当該パスワードを必ず登録させることができる。

また、本実施形態では、登録判定部１６０において、登録が不許可と判断された場合に、再度、登録を希望するパスワードとしての指紋画像データが検出されるようになっており、当該登録判定部１６０において許可が為されない限り、登録を希望する指紋画像データの再検出が指示されるようになっているが、当該指紋画像データの再検出に回数の制限を設けるようにしてもよい。

この場合には、システム制御部３７０は、指紋の変更指示を行う毎に、算出された最大尤度をＲＯＭ／ＲＡＭ２５０に記憶し、予め定められた回数の再入力を行っても、登録を希望する指紋の登録が許可されない場合には、例えば本発明の記憶手段として機能する当該ＲＯＭ／ＲＡＭ２５０に記憶された最大尤度うち、最小となる最大尤度の指紋画像データを選択し、データ生成部３６０に、当該選択された指紋画像データに基づいて指紋データ生成させ、生成させた指紋データを用いてデータベース３３０を更新させるようになっている。

また、本実施形態では、システム制御部３７０によって、登録処理を行うようになっているが、操作者毎の指紋データが複数登録されるデータベース３３０を有する指紋認識装置３００にコンピュータおよび記録媒体を備え、この記録媒体に上述の登録処理を実行する制御プログラムを格納し、このコンピュータで当該登録処理を行うプログラムを読み込むことによって上述と同様の登録処理を行うようにしてもよい。

〔第３実施形態〕
次に、図５及び図６を用いて本願の操作者認識装置の第３実施形態を、話者認識装置を用いて説明する。

本実施形態の話者認識装置は、第１実施形態の話者認識装置がＨＭＭデータの登録処理を行う際に、操作者の登録を希望するパスワードの発話音声成分から特徴量を抽出するとともに、この抽出された特徴量と既に登録されている各ＨＭＭデータとの尤度をそれぞれ算出し、この算出された各尤度と予め定められた閾値とに基づいて、当該登録を希望するパスワードの登録の可否を判断するのに対し、ＨＭＭデータの登録処理を行う際に、操作者の登録を希望するパスワードの発話音声成分から特徴量を抽出するとともに、この抽出された特徴量から生成するＨＭＭデータと既に登録されている各ＨＭＭデータとの尤度をそれぞれ算出し、この算出された各尤度と予め定められた閾値とに基づいて、当該登録を希望するパスワードの登録の可否を判断する点に特徴がある。

まず、図５を用いて本願の話者認識装置５００の構成について説明する。図５は、本願に係る話者認識装置５００の構成を示すブロック図である。

なお、本実施形態の話者認識装置は、上述の構成以外の構成は第１実施形態の話者認識装置と同様の構成を有しており、同一の部材及び動作については同一の符号を付してその説明を省略する。

本実施形態の話者認識装置５００は、特に、登録処理を行う際に、操作者の登録を希望するパスワードの発話音声を複数回取得し、当該取得された複数回のパスワードの発話音声における特徴量に基づいて学習しつつ生成したＨＭＭデータと、既に登録されている各ＨＭＭデータとの尤度をそれぞれ算出し、この算出された各尤度と予め定められた閾値とに基づいて、当該登録を希望するパスワードの登録の可否を判断するようになっている。そして、この話者認識装置５００は、算出された各尤度が予め定められた閾値以下の場合に、当該操作者の登録を希望するパスワードの登録を許可するようになっており、登録が許可されると、当該生成されたＨＭＭデータの登録を行うようになっている。

この話者認識装置５００は、図５に示すように、特徴抽出部１３０によって抽出された話者のパスワードにおける発話音声成分の特徴量からＨＭＭデータを学習しつつ生成するデータ生成部５１０と、データ生成部５１０によって学習しつつ生成されたＨＭＭデータとデータベース１４０に登録された各ＨＭＭデータとの尤度を算出する尤度算出部５２０と、を備えている。

また、この話者認識装置５００は、第１実施形態と同様に、マイクロホン１１０と、入力処理部１２０と、特徴量抽出部１３０と、データベース１４０と、登録判定部１６０と、表示部１７０と、表示制御部１８０と、スピーカ１９０と、拡声制御部２００と、認識処理部２２０と、操作部２３０と、システム制御部５３０と、ＲＯＭ／ＲＡＭ２５０と、を備えている。

なお、例えば、尤度算出部５２０は、本発明の算出手段を構成する。さらに、例えば、本実施形態の表示部１７０およびスピーカ１９０は、本発明の告知手段を構成し、データ生成部５１０は、本発明の比較対象情報生成手段、更新手段および第２更新手段を構成する。

データ生成部５１０には、登録処理を行っている際に、特徴量抽出部１３０にて抽出された当該パスワードの特徴量データが入力され、データ生成部５１０は、入力された各特徴量データに基づいて、ＨＭＭデータを学習させつつ生成して、当該生成されたＨＭＭデータを尤度算出部５２０に出力するようになっている。

尤度算出部５２０は、登録処理を行っている際に、データ生成部５１０より入力されたＨＭＭデータとデータベース１４０に格納されている各ＨＭＭデータに基づいて、尤度を算出して、算出した各話者のＨＭＭ毎の尤度における最大尤度を検索し、この最大尤度を尤度データとして登録判定部１６０に出力するようになっている。

ＨＭＭデータ間の尤度として、例えばＨＭＭデータ間の距離の逆数を用いることができる。ＨＭＭデータ間の距離を比較する尺度（以下、「距離尺度」と称することがある）としては、例えば、Kullbackの情報量によるものを用いることができる（文献（信学技法 SP94-16『クラスタリングによるＨＭＭ間の距離尺度の研究』（１５頁〜２０頁）参照）。以下、当該文献を参考に説明を行う。

例えば、登録処理の際にデータ生成部５１０で生成されたＨＭＭデータをλ_０とし、λ_０算出時に用いた発話音声の特徴量系列をＸ_Ｔとし、データベース１４０に登録されているＨＭＭデータをλとすると、下記（１）式、（２）式を用いることにより発話音声毎のλ_０とλの距離値Ｄを算出することができる。さらに、当該算出した発話音声毎の距離値Ｄの平均を算出することにより、操作者が希望するパスワードの発話音声に基づくＨＭＭデータとデータベース１４０に登録された各ＨＭＭデータとの距離値を求めることができる。

また、比較するＨＭＭデータが共に同じ状態数である場合には、同じく上記文献に挙げられている下記（５）式、（６）式、（７）式より算出される距離尺度を用いることもできる。この場合には、時間の進行と共に遷移する状態毎に分布間の距離値を算出して、全状態の距離値を平均することによりＨＭＭデータ間の距離値を求めることができる。このとき、第ｉ番目の状態のＮ次元ガウス分布の平均、分散をそれぞれ下記（３）式、（４）式とし、登録処理の際にデータ生成部５１０で生成されたＨＭＭデータのi番目の状態をｍ_1i、データベース１４０に登録されているＨＭＭデータのi番目の状態をｍ_2iとする。

さらに、上記（５）式、（６）式、（７）式を用いて混合分布における距離値を算出する場合には、例えば、各状態において最も混合比の大きい分布をその状態を代表とする分布として選択することにより、単一分布と同様に上記（５）式、（６）式、（７）式から距離値を算出することができる。例えば、混合数をＭとして、比較する一方のＨＭＭデータ１の状態をｉ、混合ｋの分布の平均を下記（８）式、混合ｋの分布の分散を下記（９）式、混合比を下記（１０）式とする。また、比較する他方のＨＭＭデータ２の状態をｉ、混合ｋの分布の平均を下記（１１）式、混合ｋの分布の分散を下記（１２）式、混合比を下記（１３）式とする。この場合において、下記（１４）式、（１５）式とすると、下記（１６）式、（１７）式、（１８）式より距離値を算出することができる。

なお、認識処理の方式としてＤＰマッチングを用いる場合には、比較する２つの標準パターンの内一方をテンプレートとし、他方を照合パラメータとしてマッチングを行うことにより、ＨＭＭを用いた場合のＨＭＭデータ間の距離に相当する標準パターン間の距離を算出することができる。また、他の様々なＨＭＭデータ間の尤度を算出する方法を本発明に適用することができる。

一方、この尤度算出部５２０は、登録処理を行っている際には、上記のように登録処理の際にデータ生成部５１０で生成されたＨＭＭデータとデータベース１４０に登録されている各ＨＭＭデータとの尤度を計算し当該最も高い尤度を尤度データとして登録判定部１６０に出力するとともに、認識処理を行っている際には、実施例１で示したように入力されたパスワード一発話分の全フレームの時系列に並んだ特徴量とデータベース１４０に格納されている各ＨＭＭデータに基づき算出された各尤度のうち最も高い尤度を尤度データとして認識処理部２２０に出力するようになっている。

なお、システム制御部５３０は、登録判定部１６０より登録許可の判定が通知された場合には、当該登録許可の旨を表示部１７０およびスピーカ１９０を介して操作者に告知するとともに、登録許可の対象となったパスワードにおけるＨＭＭデータをデータベース１４０に登録させる。また、このシステム制御部５３０は、登録判定部１６０より登録不許可の判定が通知された場合には、当該登録許可の旨を表示部１７０およびスピーカ１９０を介して操作者に告知するとともに、パスワードの再入力を操作者に促す告知を行うようになっている。

次に、図６を用いて本実施形態のシステム制御部５３０における登録処理の動作について説明する。

なお、図６は、本実施形態のシステム制御部５３０における登録処理の動作を示すフローチャートである。また、以下の動作において、データベース１４０には、複数の操作者のＨＭＭデータが予め登録されているものとする。

まず、操作部２３０を介して操作者によってパスワードのＨＭＭデータを登録する登録処理を実行する指示が入力され、システム制御部５３０が当該登録処理の実行指示を検出すると（ステップＳ１１）、当該システム制御部５３０は、表示制御部１８０および拡声制御部２００を制御して、表示部１７０およびスピーカ１９０によってパスワードの入力指示の告知をさせる（ステップＳ１２）。

次いで、システム制御部５３０は、特徴量抽出部１３０に、マイクロホン１１０および入力処理部１２０を介して入力されたパスワードの発話音声成分に対して特徴量を抽出するための指示を行う（ステップＳ１３）。

このとき、特徴量抽出部１３０は、当該ステップＳ１３の指示が為されると、マイクロホン１１０に操作者のパスワードの音声が入力され、入力処理部１２０にて分割された各フレーム毎の音声成分より特徴量を抽出し、当該抽出されたパスワード一発話分の全フレームの特徴量の時系列データを特徴量データとしてデータ生成部５１０に出力する。

次いで、システム制御部５３０は、データ生成部５１０に、特徴量抽出部１３０から入力されたパスワードの特徴量データを取得させて当該パスワードにおけるＨＭＭデータを生成させる（ステップＳ５１）。

次いで、システム制御部５３０は、表示制御部１８０および拡声制御部２００を制御して、表示部１７０およびスピーカ１９０にてパスワードの再入力指示の告知を行わせる（ステップＳ５２）。

次いで、システム制御部５３０は、ステップＳ１３の処理と同様に、特徴量抽出部１３０に、マイクロホン１１０および入力処理部１２０を介して入力されたパスワードの発話音声成分に対して特徴量を抽出するための指示を行う（ステップＳ５３）。特徴量抽出部１３０は、当該ステップＳ５３の指示が為されると、マイクロホン１１０に操作者のパスワードの音声が入力され、入力処理部１２０にて分割された各フレーム毎の音声成分より特徴量を抽出し、当該抽出されたパスワード一発話分の全フレームの特徴量の時系列データを特徴量データとしてデータ生成部５１０に出力する。

次いで、システム制御部５３０は、データ生成部５１０に特徴量抽出部１３０から入力されたパスワードの特徴量データを取得させてＨＭＭデータの学習を指示する（ステップＳ５４）。

次いで、システム制御部５３０は、予め定められた回数のパスワードの入力がされたか否かを判断する（ステップＳ５５）。このとき、システム制御部５３０は、予め定められた回数のパスワードの入力がされていないと判断すると、ステップＳ５２の処理に移行して、以降、予め定められた回数のパスワードの入力がされるまでステップＳ５２〜ステップＳ５４の処理を繰り返す。

一方、システム制御部５３０は、データ生成部５１０に学習させたＨＭＭデータを尤度算出部５２０に出力させ、次いで、尤度算出部５２０に対して尤度算出部５２０に入力されたＨＭＭデータとデータベース１４０に格納されている各ＨＭＭデータとのそれぞれの尤度を算出し、当該算出された各尤度のうち最大尤度を尤度データとして登録判定部１６０に出力させる（ステップＳ５６）。

次いで、システム制御部５３０は、登録判定部１６０に対して当該最大尤度と登録判定用閾値とを比較させて、入力されたパスワードの登録の可否を判定させる（ステップＳ５７）。このとき、システム制御部５３０は、登録判定部１６０によって最大尤度が登録判定用閾値より大きいと判断された場合には、データ生成部５１０に学習させつつ生成させたＨＭＭデータを破棄させて（ステップＳ５８）、表示制御部１８０および拡声制御部２００を制御して、表示部１７０およびスピーカ１９０にて登録するパスワードの変更指示の告知をさせ（ステップＳ５９）、ステップＳ１３の処理に移行する。

一方、システム制御部５３０は、登録判定部１６０によって最大尤度が登録判定用閾値以下と判断された場合には、表示制御部１８０および拡声制御部２００を制御して、表示部１７０およびスピーカ１９０にて登録可能の告知を行わせる（ステップＳ６０）。

次いで、システム制御部５３０は、データ生成部５１０に対して学習させつつ生成させた当該パスワードにおけるＨＭＭデータを、パスワードを入力した操作者に対応付けてデータベース１４０に登録させて（ステップＳ６１）、本動作を終了させる。

以上のように本実施形態の話者認識装置５００は、認識の対象となる操作者毎に登録変更可能なパスワードの発話音声成分の特徴量から学習したＨＭＭデータが予め登録されたデータベース１４０を有し、特定すべき操作者のパスワードの発話音声成分の特徴量と当該ＨＭＭデータとを比較することによって操作者を認識する話者認識装置５００であって、パスワードの音声成分における特徴量から学習したＨＭＭデータをデータベース１４０に登録する際に、登録すべきパスワードの音声成分における特徴量を入力するために用いられるマイクロホン１１０と、入力されたパスワードの音声成分から特徴量を抽出する特徴量抽出部１３０と、抽出された特徴量より学習して生成されたＨＭＭデータにおける特徴量と照合用の各ＨＭＭデータにおける特徴量とを比較し、当該抽出された特徴量より学習して生成された登録すべきＨＭＭデータと当該照合用の各ＨＭＭデータとの尤度をそれぞれ算出する尤度算出部５２０と、算出された各尤度が基準となる登録判定用閾値以下の場合に、生成されたＨＭＭデータを用いてデータベース１４０を更新するデータ生成部５１０と、を備える構成を有している。

この構成により、本実施形態の話者認識装置５００は、操作者が希望するパスワードの発話音声に基づくＨＭＭデータを登録する際に、入力されたパスワードの発話音声成分から抽出された特徴量より学習して生成されたＨＭＭデータとデータベース１４０に登録されている各ＨＭＭデータとの尤度を算出し、当該算出された尤度が基準となる登録判定用閾値以下の場合に、登録を希望するパスワードの発話音声成分の特徴量より生成されたＨＭＭデータを用いてデータベース１４０を更新する。

したがって、本実施形態の話者認識装置５００は、第１実施形態と同様に、操作者の認識時に誤認識を生じさせやすい特徴量に基づくＨＭＭデータなどのデータの登録を排除し、誤認識の可能性をより軽減させて、かつ、安定した認識性能を提供することができる。

この場合には、システム制御部５３０は、パスワードの変更指示を行う毎に、算出された最大尤度をＲＯＭ／ＲＡＭ２５０に記憶し、予め定められた回数の再入力を行っても、登録を希望するパスワードの登録が許可されない場合には、例えば本発明の記憶手段として機能する当該ＲＯＭ／ＲＡＭ２５０に記憶された最大尤度のうち、最小となる最大尤度のパスワードを選択し、データ生成部５１０に、入力された発話音声の特徴量に基づいて生成させた当該選択されたパスワードにおけるＨＭＭデータを用いてデータベース１４０を更新させるようになっている。また、この場合には、システム制御部５３０は、登録を希望するパスワードを入力する毎に、複数回の発話音声の入力を行わせるように表示部１７０およびスピーカ１９０を介して操作者に指示するようになっている。したがって、このように、パスワードの再入力を制限することによって、登録処理時における操作者の負担を軽減させることができる。そして、この場合に、登録の対象となったパスワードにおいて登録判定を行う際に算出された尤度に基づいて、すなわち、登録判定用閾値より大きい値を有する最大尤度に基づいて、認識処理用閾値を変更するようになっている。例えば、この場合は、システム制御部５３０は、最大尤度より所定の値大きい認識処理用閾値を算出し、認識処理部２２０に格納するようになっている。

また、上述のように、パスワードの発話音声における入力を制限する点に代えて、算出された最大尤度をＲＯＭ／ＲＡＭ２５０に記憶するとともに、前回に入力されたパスワードにおける最大尤度より今回に入力されたパスワードにおける最大尤度が大きい場合に、前回に入力されたパスワードにおける発話音声に基づいて生成したＨＭＭデータを用いてデータベース１４０を更新させるようにしてもよい。このように、パスワードの再入力を所定の基準にて制限することによって、登録処理時における操作者の負担を軽減させることができる。そして、この場合に、登録の対象となったパスワードにおいて登録判定を行う際に算出された尤度に基づいて、すなわち、登録判定用閾値より大きい値を有する最大尤度に基づいて、認識処理用閾値を変更するようになっている。例えば、この場合は、システム制御部５３０は、最大尤度より所定の値大きい認識処理用閾値を算出し、認識処理部２２０に格納するようになっている。

なお、上記実施形態においては、生体情報を音声成分情報及び指紋情報として説明したが、生体情報とは、顔画像、掌形画像、指画像、虹彩情報、静脈情報などの生体から取得可能な個人を特定するために用いられる情報を含むものである。

なお、本発明は、上記実施形態に限定されるものではない。上記実施形態は、例示であり、本発明の特許請求の範囲に記載された技術的思想と実質的に同一な構成を有し、同様な作用効果を奏するものは、いかなるものであっても本発明の技術的範囲に包含される。

また、２００５年３月３１日に出願された明細書、特許請求の範囲、図面、要約を含む日本の特許出願（No.2005-101369）の全ての開示は、その全てを参照することよって、ここに組み込まれる。

【０００２】
音声成分の特徴量とＨＭＭデータによって示される特徴量とを比較することによって話者認識を行うようになっている（例えば、特許文献１）。
［特許文献１］
特開２００４−２９４７５５号公報
［発明の開示］
［発明が解決しようとする課題］
［０００６］
しかしながら、従来の生体情報を用いた操作者認識方法にあっては、テキスト依存型認識システムに代表されるように、予め登録されるＨＭＭデータ自体が他の登録されるＨＭＭデータと類似する場合には、誤認識が生じてしまう場合が多い。例えば、テキスト依存型話者認識システムでは、話者毎に任意に決めたパスワードの文字列が類似し、話者の発話の特徴が類似する場合には、誤認識が生じてしまう。
［０００７］
本発明は、上記の課題の一例を解決するものとして、操作者の認識時に誤認識を生じさせやすい特徴量を有するＨＭＭデータなどのデータの登録を排除し、誤認識の可能性をより軽減させて、かつ、安定した認識性能を有する操作者認識装置、操作者認識方法および操作者認識プログラムを提供することにある。
［課題を解決するための手段］
［０００８］
上記の課題を解決するために、本発明の１つの観点では、認識の対象となる操作者毎に生体情報より得られた登録変更可能な照合用生体情報が予め登録されたデータベースを有し、特定すべき操作者の生体情報と当該照合用生体情報とを比較することによって操作者を認識する操作者認識装置であって、前記生体情報を照合用生体情報として前記データベースに登録する際に、登録すべき生体情報を入力するために用いられる入力手段と、前記入力手段に入力された生体情報に基づいて前記データベースに登録されている各照合用生体情報と比較するための比較対象情報を生成する比較対象情報生成手段と、前記生成された比較対象情報と各前記照合用生体情報とを比較し、当該生成された比較対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出手段と、前記算出された各尤度の少なくとも一の尤度が基準となる基準尤度より大きい場合に、前記操作者に対して、前記入力された生体情報と異なる特徴量を有する当該生体情報の再入力を告知する告知手段と、前記入力された各生体情報を一時的に記憶するとともに、当該入力された生体情報毎に前記基準尤度より大きい尤度のうち少なくとも最大の尤度を示す最大尤度を記憶する記憶手段と、予め定められた回数の前記生体情報の再入力が行われた場合であって、前記入力された何れの生体情報に基づく尤度も前記基準尤度より大きい場合に、前記記憶された各生体情報における最大尤度のうち、最小となる最大尤度を有する生体情報に基づいて生成された前記比較対象情報を用いて前記データベースを更新する更新手段と、を備える構成を有している。
［０００９］
また、本願の他の観点では、認識の対象となる操作者毎に生体情報より得られた登

【０００３】
録変更可能な照合用生体情報が予め登録されたデータベースを有し、特定すべき操作者の生体情報と当該照合用生体情報とを比較することによって操作者を認識する操作者認識装置であって、前記生体情報を照合用生体情報として前記データベースに登録する際に、登録すべき生体情報を入力するために用いられる入力手段と、前記入力手段に入力された生体情報に基づいて前記データベースに登録されている各照合用生体情報と比較するための比較対象情報を生成する比較対象情報生成手段と、前記生成された比較対象情報と各前記照合用生体情報とを比較し、当該生成された比較対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出手段と、前記算出された各尤度の少なくとも一の尤度が基準となる基準尤度より大きい場合に、前記操作者に対して、前記入力された生体情報と異なる特徴量を有する当該生体情報の再入力を告知する告知手段と、前記入力された各生体情報を一時的に記憶するとともに、当該入力された生体情報毎に前記基準尤度より大きい尤度のうち少なくとも最大の尤度を示す最大尤度を記憶する記憶手段と、前記生体情報の再入力が行われた場合であって、前回に入力された生体情報における最大尤度より今回に入力された生体情報における最大尤度が大きい場合に、当該前回に入力された生体情報に基づいて生成された前記比較対象情報を用いて前記データベースを更新する更新手段と、備える構成を有している。
［００１０］
また、本願のさらに他の観点では、認識の対象となる操作者毎に予めデータベースに登録されている生体情報より得られた登録変更可能な照合用生体情報と、特定すべき操作者の生体情報と、を比較することによって操作者を認識する操作者認識方法であって、前記生体情報を照合用生体情報として前記データベースに登録する際に、入力された登録すべき生体情報に基づいて前記データベースに登録されている各照合用生体情報と比較するための比較対象情報を生成する比較対象情報生成工程と、前記生成された比較対象情報と各前記照合用生体情報とを比較し、当該生成された比較対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出工程と、前記算出された各尤度の少なくとも一の尤度が基準となる基準尤度より大きい場合に、前記操作者に対して、前記入力された生体情報と異なる特徴量を有する当該生体情報の再入力を告知する告知工程と、前記入力された各生体情報を一時的に記憶するとともに、当該入力された生体情報毎に前記基準尤度より大きい尤度のうち少なくとも最大の尤度を示す最大尤度を記憶する記憶工程と、予め定められた回数の前記生体情報の再入力が行われた場合であって、前記入力された何れの生体情報に基づく尤度も前記基準尤度より大きい場合に、前記記憶された各生体情報における最大尤度のうち、最小となる最大尤度を有する生体情報に基づいて生成された前記比較対象情報を用いて前記データベースを更新する更新工程と、を備える構成を有している。
また、本願のさらに他の観点では、認識の対象となる操作者毎に予めデータベースに登録されている生体情報より得られた登録変更可能な照合用生体情報と、特定すべき操作者の生体情報と、を比較することによって操作者を認識する操作者認識方法であって、前記生体情報を照合用生体情報として前記データベースに登録する際に、入力された登録すべき生体情報に基づいて前記データベースに登録されている各照合用生体情報と比較するための比較対象情報を生成する比較対象情報生成工程と、前記生成された比較対象情報と各前記照合用生体情報とを比較し、当該生成された比較対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出工程と、前記算出された各尤度の少なくとも一の尤度が基準となる基準尤度より大きい場合に、前記操作者に対して、前記入力された生体情報と異なる特徴量を有する当該生体情報の再入力を告知する告知工程と、前記入力された各生体情報を一時的に記憶するとともに、当該入力された生体情報毎に前記基準尤度より大きい尤度のうち少なくとも最大の尤度を示す最大尤度を記憶する記憶工程と、前記生体情報の再入力が行われた場合であって、前回に入力された生体情報における最大尤度より今回に入力された生体情報における最大尤度が大きい場合に、当該前回に入力された生体情報に基づいて生成された前記比較対象情報を用いて前記データベースを更新する更新工程と、を備える構成を有している。
また、本願のさらに他の観点では、コンピュータによって、データベースに予め登録された認識の対象となる操作者毎に生体情報から求めた登録変更可能な照合用生体情報と、特定すべき操作者の生体情報とを比較して操作者を認識する操作者認識プログラムであって、前記コンピュータを、前記生体情報を照合用生体情報として前記データベースに登録する際に、入力された登録すべき生体情報に基づいて前記データベースに登録されている各照合用生体情報と比較するための比較対象情報を生成する比較対象情報生成手段、前記生成された比較対象情報と各前記照合用生体情報とを比較し、当該生成された比較対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出手段、前記算出された各尤度の少なくとも一の尤度が基準となる基準尤度より大きい場合に、前記操作者に対して、前記入力された生体情報と異なる特徴量を有する当該生体情報の再入力を告知する告知手段、前記入力された各生体情報を一時的に記憶するとともに、当該入力された生体情報毎に前記基準尤度より大きい尤度のうち少なくとも最大の尤度を示す最大尤度を記憶する記憶手段、予め定められた回数の前記生体情報の再入力が行われた場合であって、前記入力された何れの生体情報に基づく尤度も前記基準尤度より大きい場合に、前記記憶された各生体情報における最大尤度のうち、最小となる最大尤度を有する生体情報に基づいて生成された前記比較対象情報を用いて前記データベースを更新する更新手段、として機能させる構成を有している。
また、本願のさらに他の観点では、コンピュータによって、データベースに予め登録された認識の対象となる操作者毎に生体情報から求めた登録変更可能な照合用生体情報と、特定すべき操作者の生体情報とを比較して操作者を認識する操作者認識プログラムであって、前記コンピュータを、前記生体情報を照合用生体情報として前記データベースに登録する際に、入力された登録すべき生体情報に基づいて前記データベースに登録されている各照合用生体情報と比較するための比較対象情報を生成する比較対象情報生成手段、前記生成された比較対象情報と各前記照合用生体情報とを比較し、当該生成された比較対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出手段、前記算出された各尤度の少なくとも一の尤度が基準となる基準尤度より大きい場合に、前記操作者に対して、前記入力された生体情報と異なる特徴量を有する当該生体情報の再入力を告知する告知手段、前記入力された各生体情報を一時的に記憶するとともに、当該入力された生体情報毎に前記基準尤度より大きい尤度のうち少なくとも最大の尤度を示す最大尤度を記憶する記憶手段、前記生体情報の再入力が行われた場合であって、前回に入力された生体情報における最大尤度より今回に入力された生体情報における最大尤度が大きい場合に、当該前回に入力された生体情報に基づいて生成された前記比較対象情報を用いて前記データベースを更新する更新手段、として機能させる構成を有している。
［図面の簡単な説明］
［００１１］
［図１］
本願に係る操作者認識装置の第１実施形態における話者認識装置の構成を示すブロック図である。
［図２］
第１実施形態のシステム制御部における登録処理の動作を示すフローチャートである。
［図３］
本願に係る操作者認識装置の第２実施形態における指紋認識装置の構成を示すブロック図である。

【０００６】
になっており、登録が許可されると、当該登録が許可されたパスワードの発話音声を複数回取得し、当該取得された複数回のパスワードの発話音声における特徴量に基づいてＨＭＭデータを学習させつつ、生成し、当該生成されたＨＭＭデータの登録を行うようになっている。
［００２０］
この話者認識装置１００は、図１に示すように、話者のパスワードにおける発話音声が入力されるマイクロホン１１０と、入力されたパスワードの発話音声の音声信号に対して所定の処理を行う入力処理部１２０と、パスワードの発話音声の音声信号に基づいて当該発話音声における音声成分（以下、「発話音声成分」という。）の特徴量を抽出する特徴量抽出部１３０と、話者が予め定めたパスワードのＨＭＭデータが予め複数登録されているデータベース１４０と、データベース１４０に登録された各ＨＭＭデータと抽出された発話音声成分の特徴量との後述する尤度を算出する尤度算出部１５０と、を備え、認識処理時および登録処理時に入力された発話音声成分と登録されている各ＨＭＭデータとに基づいて後述するように、尤度を算出するようになっている。
［００２１］
また、この話者認識装置１００は、登録処理を行う際に、算出された各尤度に基づいて話者の認識を行うためのパスワードとして当該話者が定めたパスワードの登録の可否を判定する登録判定部１６０と、当該登録判定部１６０の判定結果を表示する表示部１７０と、表示部１７０を制御する表示制御部１８０と、登録判定部１６０の判定結果を告知するスピーカ１９０と、当該スピーカ１９０を制御する拡声制御部２００と、パスワードとして当該話者が定めたパスワードをＨＭＭデータとして登録することが許可された場合に、ＨＭＭデータを学習させつつ生成するデータ生成部２１０と、を備えている。
［００２２］
さらに、この話者認識装置１００は、抽出されたパスワードの特徴量とデータベース１４０に既に登録されたＨＭＭデータに基づいて認識処理を行う認識処理部２２０と、各種操作を行うために用いられる操作部２３０と、装置全体を制御するとともに、ＨＭＭデータを登録する際に、または、認識処理を実行する際に各部を制御するシステム制御部２４０と、各部を制御する際に用いられるＲＯＭ／ＲＡＭ２５０と、を備えている。
［００２３］
なお、例えば、本実施形態のマイクロホン１１０は、本発明の入力手段を構成し、特徴量抽出部１３０

【０００７】
は、本発明の比較対象情報生成手段および抽出手段を構成する。また、例えば、本実施形態のデータベース１４０は、本発明のデータベース１４０を構成し、尤度算出部１５０は、本発明の算出手段を構成する。さらに、例えば、本実施形態の表示部１７０およびスピーカ１９０は、本発明の告知手段を構成し、データ生成部２１０は、本発明の更新手段を構成する。
［００２４］
マイクロホン１１０には、認識処理を行う際に、または、登録処理を行う際に、操作者、すなわち、話者が登録を希望するパスワードの発話音声が入力されるようになっており、このマイクロホン１１０は、入力されたパスワードの発話音声を電気的な音声信号に変換し、入力処理部１２０に出力するようになっている。
［００２５］
入力処理部１２０には、マイクロホン１１０から出力された音声信号が入力されるようになっており、この入力処理部１２０は、入力された音声信号に対して、所定の信号レベルに増幅させるとともに、デジタル信号に変換するようになっている。
［００２６］
また、この入力処理部１２０は、入力された音声信号の発話音声部分の音声区間を示す音声信号を切り出すとともに、この切り出された音声区間の音声信号を予め設定された時間間隔毎のフレームに分割し、分割された各フレームの音声信号を特徴量抽出部１３０に出力するようになっている。
［００２７］
特徴量抽出部１３０には、パスワードの発話音声がマイクロホン１１０に入力される毎に、各フレームに分割された音声信号が入力されるようになっており、この特徴量抽出部１３０は、システム制御部２４０の制御の下、入力された各フレーム毎に音声信号を分析するとともに、当該フレーム毎の音声信号に基づいて発話音声成分の特微量を抽出し、当該抽出された各フレームの特徴量を特徴量データとして尤度算出部１５０または後述するように当該パスワードの登録が許可された場合にデータ生成部２１０に出力するようになっている。
［００２８］
具体的には、特徴量抽出部１３０は、入力された各フレームの音声信号に基づいて、一定時間毎に、かつ、各周波数毎におけるパワーを示すスペクトル包絡の情報、または、このパワースペクトルの対数をとって逆フーリエ変換したものケプストラムの情報を各フレームの発話音声成分の特徴量として抽出するとともに、当該抽出した各特徴量をベクトル化して特徴量データを生成し、当該生成された尤度算出部１５０また

【００１８】
は、本願に係る指紋認識装置３００の構成を示すブロック図である。
［００８４］
本実施形態の指紋認識装置３００は、図３に示すように、操作者の指紋を画像として検出する指紋検出部３１０と、入力された指紋画像に基づいて当該指紋の特徴量を抽出する特徴量抽出部３２０と、操作者の指紋の特徴量を示す指紋データが予め複数登録されているデータベース３３０と、データベース３３０に登録された各指紋データと抽出された指紋画像における特徴量との尤度を算出する尤度算出部３４０と、抽出された指紋画像の特徴量とデータベース３３０に既に登録された指紋データに基づいて認識処理を行う認識処理部３５０と、パスワードとして当該操作者が定めた指紋を指紋データとして登録することが許可された場合に、指紋データを生成するデータ生成部３６０と、を備えている。
［００８５］
また、この指紋認識部は、第１実施形態と同様に、登録判定部１６０と、表示部１７０と、表示制御部１８０と、スピーカ１９０と、拡声制御部２００と、操作部２３０と、システム制御部３７０と、ＲＯＭ／ＲＡＭ２５０と、を備えている。
［００８６］
なお、例えば、本実施形態の指紋検出部３１０は、本発明の入力手段を構成するとともに、特徴量抽出部３２０は、本発明の比較対象情報生成手段および抽出手段を構成する。また、例えば、本実施形態のデータベース３３０は、本発明のデータベース３３０を構成し、尤度算出部３４０は、本発明の算出手段を構成する。さらに、例えば、本実施形態の表示部１７０およびスピーカ１９０は、本発明の告知手段を構成し、データ生成部３６０は、本発明の更新手段を構成する。
［００８７］
指紋検出部３１０は、操作者の指を接触させる接触部を有し、登録処理時または認識処理時に、指が接触部に接触された際に、光学式または静電容量式などの指紋センサーを用いて当該指の指紋を指紋画像として撮像し、指紋画像を指紋画像データとして特徴量抽出部３２０に出力するようになっている。
［００８８］
特徴量抽出部３２０には、入力された操作者の指における指紋画像データが入力されるようになっており、この特微量抽出部３２０は、入力された指紋画像データに基づいて、上述のように、指紋隆線の分岐点および端点の位置など特徴量を抽出するようになっている。そして、この特徴量抽出部３２０は、抽出された特徴量を特徴量データとして尤度算出部３４０またはデータ生成部３６０に出力するようになっている。

【００２４】
部１７０と、表示制御部１８０と、スピーカ１９０と、拡声制御部２００と、認識処理部２２０と、操作部２３０と、システム制御部５３０と、ＲＯＭ／ＲＡＭ２５０と、を備えている。
［０１１９］
なお、例えば、尤度算出部５２０は、本発明の算出手段を構成する。さらに、例えば、本実施形態の表示部１７０およびスピーカ１９０は、本発明の告知手段を構成し、データ生成部５１０は、本発明の比較対象情報生成手段及び更新手段を構成する。
［０１２０］
データ生成部５１０には、登録処理を行っている際に、特徴量抽出部１３０にて抽出された当該パスワードの特徴量データが入力され、データ生成部５１０は、入力された各特徴量データに基づいて、ＨＭＭデータを学習させつつ生成して、当該生成されたＨＭＭデータを尤度算出部５２０に出力するようになっている。
［０１２１］
尤度算出部５２０は、登録処理を行っている際に、データ生成部５１０より入力されたＨＭＭデータとデータベース１４０に格納されている各ＨＭＭデータに基づいて、尤度を算出して、算出した各話者のＨＭＭ毎の尤度における最大尤度を検索し、この最大尤度を尤度データとして登録判定部１６０に出力するようになっている。
［０１２２］
ＨＭＭデータ間の尤度として、例えばＨＭＭデータ間の距離の逆数を用いることができる。ＨＭＭデータ間の距離を比較する尺度（以下、「距離尺度」と称することがある）としては、例えば、Ｋｕｌｌｂａｃｋの情報量によるものを用いることができる（文献（信学技法ＳＰ９４−１６『クラスタリングによるＨＭＭ間の距離尺度の研究』（１５頁〜２０頁）参照）。以下、当該文献を参考に説明を行う。
［０１２３］
例えば、登録処理の際にデータ生成部５１０で生成されたＨＭＭデータをλ０とし、λ０算出時に用いた発話音声の特徴量系列をＸＴとし、データベース１４０に登録されているＨＭＭデータをλとすると、下記（１）式、（２）式を用いることにより発話音声毎のλ０とλの距離値Ｄを算出することができる。さらに、当該算出した発話音声毎の距離値Ｄの平均を算出することにより、操作者が希望するパスワードの発話音声に基づくＨＭＭデータとデータベース１４０に登録された各ＨＭＭデータとの距離値を求めることができる。
［０１２４］
［数１］

Claims

認識の対象となる操作者毎に生体情報より得られた登録変更可能な照合用生体情報が予め登録されたデータベースを有し、特定すべき操作者の生体情報と当該照合用生体情報とを比較することによって操作者を認識する操作者認識装置であって、
前記生体情報を照合用生体情報として前記データベースに登録する際に、登録すべき生体情報を入力するために用いられる入力手段と、
前記入力手段に入力された生体情報に基づいて前記データベースに登録されている各照合用生体情報と比較するための比較対象情報を生成する比較対象情報生成手段と、
前記生成された比較対象情報と各前記照合用生体情報とを比較し、当該生成された比較対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出手段と、
前記算出された各尤度が基準となる基準尤度以下の場合にのみ、前記比較対象情報を用いて前記データベースを更新する更新手段と、
を備えることを特徴とする操作者認識装置。
請求項１に記載の操作者認識装置において、
前記比較対象情報生成手段が、前記入力手段に入力された生体情報から前記比較対象情報である特徴量を抽出して、
前記算出手段が、前記抽出された特徴量と各前記照合用生体情報における特徴量とを比較し、当該抽出された特徴量と各前記照合用生体情報における特徴量との尤度をそれぞれ算出して、
前記更新手段が、前記比較対象情報に基づいて前記照合用生体情報を生成し、当該生成した照合用生体情報を用いて前記データベースを更新することを特徴とする操作者認識装置。
請求項２に記載の操作者認識装置において、
前記算出された各尤度の少なくとも一の尤度が前記基準尤度より大きい場合に、前記操作者に対して、前記入力された生体情報と異なる特徴量を有する当該生体情報の再入力を告知する告知手段を更に備えることを特徴とする操作者認識装置。
請求項３に記載の操作者認識装置において、
前記入力された各生体情報を一時的に記憶するとともに、当該入力された生体情報毎に前記基準尤度より大きい尤度のうち少なくとも最大の尤度を示す最大尤度を記憶する記憶手段と、
予め定められた回数の前記生体情報の再入力が行われた場合であって、前記入力された何れの生体情報に基づく尤度も前記基準尤度より大きい場合に、前記記憶された各生体情報における最大尤度のうち、最小となる最大尤度を有する生体情報の特徴量から生成された前記照合用生体情報を用いて前記データベースを更新する第２更新手段と、を更に備えることを特徴とする操作者認識装置。
請求項３に記載の操作者認識装置において、
前記入力された各生体情報を一時的に記憶するとともに、当該入力された生体情報毎に前記基準尤度より大きい尤度のうち少なくとも最大の尤度を示す最大尤度を記憶する記憶手段と、
前記生体情報の再入力が行われた場合であって、前回に入力された生体情報における最大尤度より今回に入力された生体情報における最大尤度が大きい場合に、当該前回に入力された生体情報の特徴量から生成された前記照合用生体情報を用いて前記データベースを更新する第２更新手段と、を更に備えることを特徴とする操作者認識装置。
請求項２乃至５の何れか一項に記載の操作者認識装置において、
前記入力手段に同一の操作者における同一の生体情報が複数回入力され、当該入力された複数の同一の生体情報に基づいて生成される前記照合用生体情報が用いられて前記データベースが更新される場合に、
前記更新手段及び前記第２更新手段が、前記入力された複数の同一の生体情報から抽出される各特徴量に基づいて一の前記照合用生体情報を生成し、当該生成した照合用生体情報を用いて前記データベースを更新することを特徴とする操作者認識装置。
請求項６に記載の操作者認識装置において、
前記比較対象情報生成手段が、前記入力手段に初回に入力された生体情報から前記比較対象情報である特徴量を抽出して、
前記算出手段が、前記初回に入力された生体情報から抽出された特徴量と各前記照合用生体情報における特徴量との各尤度をそれぞれ算出するとともに、
前記算出された初回に入力された生体情報に基づく各尤度が基準尤度以下の場合に、
前記更新手段及び前記第２更新手段が、前記初回に入力された生体情報と同一の生体情報から抽出される各特徴量に基づいて一の前記照合用生体情報を生成して、当該生成した照合用生体情報を用いて前記データベースを更新することを特徴とする操作者認識装置。
請求項１に記載の操作者認識装置において、
前記入力手段に入力された生体情報から特徴量を抽出する抽出手段を更に備え、
前記比較対象情報生成手段が、前記抽出された特徴量に基づいて、前記比較対象情報として前記照合用生体情報を生成して、
前記算出手段が、前記生成された照合用生体情報における特徴量と各前記照合用生体情報における特徴量とを比較し、当該生成された照合用生体情報における特徴量と各当該照合用生体情報における特徴量との尤度をそれぞれ算出して、
前記更新手段が、前記算出された各尤度が基準となる基準尤度以下の場合にのみ、前記生成された照合用生体情報を用いて前記データベースを更新することを特徴とする操作者認識装置。
請求項８に記載の操作者認識装置において、
前記算出された各尤度の少なくとも一の尤度が前記基準尤度より大きい場合に、前記操作者に対して、前記照合用生体情報を生成するために入力された生体情報と異なる特徴量を有する当該生体情報の再入力を告知する告知手段を更に備えることを特徴とする操作者認識装置。
請求項９に記載の操作者認識装置において、
前記入力された各生体情報に基づいて生成された各前記照合用生体情報を一時的に記憶するとともに、当該照合用生体情報毎に前記基準尤度より大きい尤度のうち少なくとも最大の尤度を示す最大尤度を記憶する記憶手段と、
予め定められた回数の前記生体情報の再入力が行われた場合であって、前記入力された何れの生体情報に基づく尤度も前記基準尤度より大きい場合に、前記記憶された各前記照合用生体情報における最大尤度のうち、最小となる最大尤度を有する前記照合用生体情報を用いて前記データベースを更新する第２更新手段と、を更に備えることを特徴とする操作者認識装置。
請求項９に記載の操作者認識装置において、
前記入力された各生体情報に基づいて生成された各前記照合用生体情報を一時的に記憶するとともに、当該照合用生体情報毎に前記基準尤度より大きい尤度のうち少なくとも最大の尤度を示す最大尤度を記憶する記憶手段と、
前記生体情報の再入力が行われた場合であって、前回に生成した前記照合用生体情報における最大尤度より今回に生成した前記照合用生体情報における最大尤度が大きい場合に、当該前回に生成した前記照合用生体情報を用いて前記データベースを更新する第２更新手段と、を更に備えることを特徴とする操作者認識装置。
請求項８乃至１１の何れか一項に記載の操作者認識装置において、
前記入力手段に同一の操作者における同一の生体情報が複数回入力され、当該入力された複数の同一の生体情報に基づいて生成される前記照合用生体情報が用いられて前記データベースが更新される場合に、
前記抽出手段が、前記入力された複数の同一の生体情報における各特徴量を抽出するとともに、
前記比較対象情報生成手段が、前記抽出された各特徴量に基づいて、一の前記照合用生体情報を生成することを特徴とする操作者認識装置。
請求項１乃至１２の何れか一項に記載の操作者認識装置において、
前記データベースには、前記操作者毎に所定のパスワードにおける音声成分の情報を示す音声成分情報が前記照合用生体情報として登録されているとともに、
前記入力手段には、前記操作者が特定のパスワードを発話した際の音声成分情報が前記生体情報として入力されることを特徴とする操作者認識装置。
請求項１乃至１３の何れか一項に記載の操作者認識装置において、
前記データベースには、前記操作者毎に前記操作者の特定の指紋の情報を示す指紋情報が前記照合用生体情報として複数登録されているとともに、
前記入力手段には、前記操作者の指紋情報が前記生体情報として入力されることを特徴とする操作者認識装置。
認識の対象となる操作者毎に予めデータベースに登録されている生体情報より得られた登録変更可能な照合用生体情報と、特定すべき操作者の生体情報と、を比較することによって操作者を認識する操作者認識方法であって、
前記生体情報を照合用生体情報として前記データベースに登録する際に、入力された登録すべき生体情報を取得して、当該取得された生体情報に基づいて前記データベースに登録されている各照合用生体情報と比較するための比較対象情報を生成する比較対象情報生成工程と、
前記生成された比較対象情報と各前記照合用生体情報とを比較し、当該生成された比較対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出工程と、
前記算出された各尤度が基準となる基準尤度以下の場合にのみ、前記比較対象情報を用いて前記データベースを更新する更新工程と、
を備えることを特徴とする操作者認識方法。
コンピュータによって、データベースに予め登録された認識の対象となる操作者毎に生体情報から求めた登録変更可能な照合用生体情報と、特定すべき操作者の生体情報とを比較して操作者を認識する操作者認識プログラムであって、
前記コンピュータを、
前記生体情報を照合用生体情報として前記データベースに登録する際に、入力された登録すべき生体情報を取得して、当該取得された生体情報に基づいて前記データベースに登録されている各照合用生体情報と比較するための比較対象情報を生成する比較対象情報生成手段、
前記生成された比較対象情報と各前記照合用生体情報とを比較し、当該生成された比較対象情報と各当該照合用生体情報との尤度をそれぞれ算出する算出手段、
前記算出された各尤度が基準となる基準尤度以下の場合にのみ、前記比較対象情報を用いて前記データベースを更新する更新手段、
として機能させることを特徴とする操作者認識プログラム。