JP2011203992A

JP2011203992A - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP2011203992A
Application number: JP2010070495A
Authority: JP
Inventors: Kiyoto Ichikawa; 清人市川; Kazumi Aoyama; 一美青山
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-03-25
Filing date: 2010-03-25
Publication date: 2011-10-13
Also published as: CN102201055A; US8416998B2; US20110235870A1

Abstract

【課題】顔識別技術のみを利用した場合よりも高いセキュリティレベルを実現する。
【解決手段】この個人認証開錠装置１０は、認証対象者の顔を撮像して顔識別を行うとともに、認証対象者の唇の動きに基づいて発声されたパスワードを認識し、顔識別の結果とパスワードの認識結果に基づいて個人認証を行う。そして、個人認証開錠装置１０は、認証結果に従い、例えばセキュリティエリアに入場するためのドアを開錠したりする。なお、認証対象者は、実際に音声を発することなく無音の状態で、パスワードを発声しているときと同様に唇などを動かすようにするものとする。これにより、パスワードが聞かれてしまうことによって漏洩してしまう事態を抑止することができる。本発明は、例えば、個人認証装置に適用できる。
【選択図】図１

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関し、特に、顔識別とパスワード発話時の読唇による発話認識とを組み合わせることにより個人認証の精度を向上させるようにした情報処理装置、情報処理方法、およびプログラムに関する。

近年、画像認識技術が発達しており、その一分野である顔識別技術についても実用可能なレベルに到達しており、例えば、セキュリティエリアに入場するための鍵の開錠を制御するためなどの認証装置等に利用されている。

また、顔識別技術に加えて、例えば、暗証番号やパスワードなどを入力させたり、ＩＤカードによる認証を追加したり（例えば、特許文献１）、発声されたパスワードを音声認識しその真偽を判断する認証を追加したりする（例えば、特許文献２）ことによって、セキュリティレベルをより向上させる提案がなされている。

特開２００９−２５９２６９号公報特開平９−１７９５８３号公報

上述したように、顔識別技術に加えて、他の認証技術（例えば、暗証番号やパスワードなどの入力、ＩＤカードの提示、パスワードの音声認識など）を利用することにより、セキュリティレベルを向上させることが可能である。

しかしながら、暗証番号やパスワードなどを入力させるためにはキーボード等の入力デバイスが必要になるし、ＩＤカードの提示を追加するには、そのために必要な読取装置などが必要となる。

また、発声されたパスワードを音声認識するには、マイクロホンなどの音声入力デバイスが必要となるだけでなく、その発話を聞かれてしまうことによるパスワードの漏洩が起こり得る。

本発明はこのような状況に鑑みてなされたものであり、撮像部以外の入力デバイスを必要とすることなく、顔識別技術のみを利用した場合よりも高いセキュリティレベルを実現できるようにするものである。

本発明の一側面である情報処理装置は、認証対象者を撮像して得られるビデオ信号に基づいて個人認証を行う情報処理装置において、前記認証対象者または登録者を撮像して前記ビデオ信号を生成する撮像手段と、登録モードにて、前記登録者を撮像して得られた前記ビデオ信号の画像上の前記登録者の顔の特徴量を算出する第１の特徴量算出手段と、登録モードにて、任意のパスワードを発声する前記登録者を撮像して得られた前記ビデオ信号の画像上の前記登録者の唇の時系列の特徴量を算出する第２の特徴量算出手段と、算出された前記登録者の前記顔の特徴量に、算出された前記任意のパスワードを発声したときの前記唇の時系列の特徴量を対応付けてデータベースに登録する登録手段と、認証モードにて、前記認証対象者を撮像して得られる前記ビデオ信号の画像上の顔の特徴量を算出し、前記データベースを参照して、前記認証対象者の顔を識別する識別手段と、認証モードにて、発声中の前記認証対象者を撮像して得られた前記ビデオ信号の画像上の前記認証対象者の唇の時系列の特徴量を算出し、前記データベースを参照して、前記認証対象者の発話内容を認識する認識手段と、前記認証対象者の顔の識別結果、および前記認証対象者の発話内容の認識結果に基づき、前記認証対象者の個人認証を行う認証手段とを含む。

前記認識手段は、算出した前記認証対象者の唇の時系列の特徴量が、前記データベースに登録済みの前記登録者が任意のパスワードを発声したときの前記唇の時系列の特徴量と一致するか否かに基づいて、前記認証対象者の発話内容を認識するようにすることができる。

前記認識手段は、さらに、認証モードにて、発声中の前記登録者を撮像して得られた前記ビデオ信号の画像上の前記登録者の唇の時系列の特徴量を算出し、前記データベースを参照して、前記登録者の発話内容を認識するようにすることができ、本発明の一側面である情報処理装置は、認識された前記登録者の発話内容に従い、前記認証モードから、前記登録モードに切り替えるモード切替手段をさらに含むことができる。

前記第１の特徴量算出手段は、登録モードにて、発声中の前記登録者を撮像して得られた前記ビデオ信号の画像上の前記登録者の顔の特徴量を算出し、前記識別手段は、認証モードにて、発声中の前記認証対象者を撮像して得られる前記ビデオ信号の画像上の顔の特徴量を算出し、前記データベースを参照して、前記認証対象者の顔を識別するようにすることができる。

本発明の一側面である情報処理方法は、認証対象者を撮像して得られるビデオ信号に基づいて個人認証を行う情報処理装置の情報処理方法において、前記情報処理装置による、登録モードにて、前記登録者を撮像して得られた前記ビデオ信号の画像上の前記登録者の顔の特徴量を算出する第１の特徴量算出ステップと、登録モードにて、任意のパスワードを発声する前記登録者を撮像して得られた前記ビデオ信号の画像上の前記登録者の唇の時系列の特徴量を算出する第２の特徴量算出ステップと、算出された前記登録者の前記顔の特徴量に、算出された前記任意のパスワードを発声したときの前記唇の時系列の特徴量を対応付けてデータベースに登録する登録ステップと、認証モードにて、前記認証対象者を撮像して得られる前記ビデオ信号の画像上の顔の特徴量を算出し、前記データベースを参照して、前記認証対象者の顔を識別する識別ステップと、認証モードにて、発声中の前記認証対象者を撮像して得られた前記ビデオ信号の画像上の前記認証対象者の唇の時系列の特徴量を算出し、前記データベースを参照して、前記認証対象者の発話内容を認識する認識ステップと、前記認証対象者の顔の識別結果、および前記認証対象者の発話内容の認識結果に基づき、前記認証対象者の個人認証を行う認証ステップとを含む。

本発明の一側面であるプログラムは、認証対象者を撮像して得られるビデオ信号に基づいて個人認証を行う情報処理装置の制御用のプログラムであって、登録モードにて、前記登録者を撮像して得られた前記ビデオ信号の画像上の前記登録者の顔の特徴量を算出する第１の特徴量算出ステップと、登録モードにて、任意のパスワードを発声する前記登録者を撮像して得られた前記ビデオ信号の画像上の前記登録者の唇の時系列の特徴量を算出する第２の特徴量算出ステップと、算出された前記登録者の前記顔の特徴量に、算出された前記任意のパスワードを発声したときの前記唇の時系列の特徴量を対応付けてデータベースに登録する登録ステップと、認証モードにて、前記認証対象者を撮像して得られる前記ビデオ信号の画像上の顔の特徴量を算出し、前記データベースを参照して、前記認証対象者の顔を識別する識別ステップと、認証モードにて、発声中の前記認証対象者を撮像して得られた前記ビデオ信号の画像上の前記認証対象者の唇の時系列の特徴量を算出し、前記データベースを参照して、前記認証対象者の発話内容を認識する認識ステップと、前記認証対象者の顔の識別結果、および前記認証対象者の発話内容の認識結果に基づき、前記認証対象者の個人認証を行う認証ステップとを含む処理を情報処理装置のコンピュータに実行させる。

本発明の一側面においては、登録モードにて、登録者を撮像して得られたビデオ信号の画像上の登録者の顔の特徴量が算出され、登録モードにて、任意のパスワードを発声する登録者を撮像して得られたビデオ信号の画像上の登録者の唇の時系列の特徴量が算出され、算出された登録者の顔の特徴量に、算出された任意のパスワードを発声したときの唇の時系列の特徴量が対応付けられてデータベースに登録される。また、認証モードにて、認証対象者を撮像して得られるビデオ信号の画像上の顔の特徴量が算出され、データベースが参照されて、認証対象者の顔が識別され、認証モードにて、発声中の認証対象者を撮像して得られたビデオ信号の画像上の認証対象者の唇の時系列の特徴量が算出され、データベースが参照されて、認証対象者の発話内容が認識される。そして、認証対象者の顔の識別結果、および認証対象者の発話内容の認識結果に基づき、認証対象者の個人認証が行われる。

本発明の一側面によれば、撮像部以外の入力デバイスを必要とすることなく、顔識別技術のみを利用した場合よりも高いセキュリティレベルを実現できる。

本発明を適用した個人認証開錠装置の構成例を示すブロック図である。個人認証処理を説明するフローチャートである。顔登録処理を説明するフローチャートである。発話登録処理を説明するフローチャートである。コンピュータの構成例を示すブロック図である。

以下、発明を実施するための最良の形態（以下、実施の形態と称する）について、図面を参照しながら詳細に説明する。

＜１．実施の形態＞
［個人認証開錠装置の構成例］
図１は、本発明の実施の形態である個人認証開錠装置の構成例を示している。この個人認証開錠装置１０は、認証対象者の顔を撮像して顔識別を行うとともに、認証対象者の唇の動きに基づいて発声されたパスワードを認識し、顔識別の結果とパスワードの認識結果に基づいて個人認証を行う。そして、個人認証開錠装置１０は、認証結果に従い、例えばセキュリティエリアに入場するためのドアを開錠したりする。

なお、認証対象者は、実際に音声を発することなく無音の状態で、パスワードを発声しているときと同様に唇などを動かすようにするものとする。これにより、パスワードが聞かれてしまうことによって漏洩してしまう事態を抑止することができる。

以下の説明において、発話とは、上述したように無音状態で唇を動かすことを指すものとする。なお、音声を発して発話した場合でもパスワードなどの認識は可能である。ただし、当然ながらその場合、発した音声を聞かれてしまうことによるパスワードの漏洩は抑止できない。

個人認証開錠装置１０は、制御部１１、撮像部１２、画像処理部１３、表示制御部１４、ディスプレイ１５、および開錠部１６から構成される。

制御部１１は、個人認証開錠装置１０の全体を制御する。特に、制御部１１は、画像処理部１３から入力される発話認識結果に基づいて、画像処理部１３の動作モード（登録モード、または認証モード）を設定する。また、制御部１１は、アラート表示のための画像信号を発生して表示制御部１４に出力し、ディスプレイ１５に表示させる。さらに、制御部１１は、画像処理部１３から入力される顔識別結果および発話内容に基づき、個人認証の成否を判断し、個人認証結果（成否）を開錠部１６に通知する。

なお、画像処理部１３の動作モード（登録モード、または認証モード）の切替をユーザが指示するためのスイッチなどを設け、当該スイッチに対するユーザの操作に従い、画像処理部１３の動作モードを設定するようにしてもよい。

撮像部１２は、動画像を撮像可能なデジタルビデオカメラなどからなり、パスワードを発声する認証対象者を撮像し、その結果得られるビデオ信号を画像処理部１３および表示制御部１４に出力する。

画像処理部１３は、顔領域検出部２１、顔登録部２２、発話登録部２３、特徴量データベース(DB)２４、および顔識別・発話認識部２５から構成される。画像処理部１３は、登録モード、または認証モードの状態で動作する。

顔領域検出部２１は、撮像部１２から入力されるビデオ信号の映像から認証対象者の顔を含む領域（顔領域）を検出する。そして、顔領域検出部２１は、登録モードにおいては、検出した顔領域を顔登録部２２および発話登録部２３に出力し、認証モードにおいては、顔識別・発話認識部２５に出力する。また、顔領域検出部２１は、撮像部１２から入力されるビデオ信号の映像から人の顔を検出できない場合、または複数の顔を検出した場合、その旨を制御部１１に通知する。

顔登録部２２は、登録モードにおいて、顔領域検出部２１から入力される顔領域に基づき、その特徴量を算出して特徴量ＤＢ２４に登録する。顔の特徴量を算出する方法としては、既存の任意の方法を適用することができる。その一例としては、例えば、本出願人が提案済みの方法（特開２００９−５３９１６公報として公開済み）を挙げることができる。具体的には、要するに、予めＸ人の顔画像を用意して所定の手法によりそれぞれの特徴量を算出しておき、登録者の顔に対しては、Ｘ人の顔それぞれに対してどの程度似ているかを示す値を算出することにより、Ｘ次元の特徴量を算出するようにしている。さらに、このＸ次元の特徴量を、より少ない次元に圧縮する手法も存在する。

発話登録部２３は、顔領域検出部２１から入力される顔領域に基づき、パスワードを発声しているときの唇を検出し、その動きの特徴量（時系列の特徴量）を算出し、顔の特徴量と対応付けて特徴量ＤＢ２４に登録する。唇の動きの特徴量を算出する方法としては、既存の任意の方法を適用することができる。その一例としては、例えば、本出願人が提案済みの方法（特願２００９−１５４９２４）を挙げることができる。具体的には、要するに、発声される音と唇の形（口形素）との対応を学習しておき、登録者がパスワードを発声したときの唇の動きの特徴量を、口形素の時系列変化として得るようにしている。

特徴量ＤＢ２４には、登録された認証対象者の顔の特徴量と、それに対応付けて発話者（登録された認証対象者）がパスワードを発話中の唇の時系列の特徴量が登録される。また、特徴量ＤＢ２４には、予め学習により得られている、不特定の話者が登録を指示するためのコマンド（「登録」、「顔登録」、または「パスワード登録」）を発声したときの唇の時系列の特徴量が予め登録されているものとする。

顔識別・発話認識部２５は、認証モードにおいて、顔登録部２２と同様に、顔領域検出部２１から入力される顔領域に基づき、その特徴量を算出し、特徴量ＤＢ２４を参照することにより、認証対象者の顔が登録済みであるか否かを判定する。また、顔識別・発話認識部２５は、認証モードにおいて、発話登録部２３と同様に、顔領域検出部２１から入力される顔領域のうちの唇の動きに基づき、認証対象者が発声しているときの唇の時系列の特徴量を算出し、特徴量ＤＢ２４を参照することにより発話内容を認識する。そして、顔識別・発話認識部２５は、顔識別結果および発話認識結果（発話内容）を制御部１１に通知する。

表示制御部１４は、撮像部１２から入力されるビデオ信号に、制御部１１から適宜入力されるアラート表示のための画像信号を重畳してディスプレイ１５に供給する。ディスプレイ１５は、表示制御部１４から入力されるビデオ信号に基づく映像を表示する。認証対象者は、ディスプレイ１５に表示される自身の顔をみることによりその位置を調整しつつ、所定のコマンドまたはパスワードを発声することになる。

開錠部１６は、制御部１１から個人認証の成功が通知された場合、例えばセキュリティエリアのドアの鍵などを開錠する。

［動作説明］
次に、個人認証開錠装置１０の動作について、例えば、認証対象者が自身の顔とパスワードを登録した後、改めて自身の認証を受けて鍵を開錠させる場合について説明する。図２は、個人認証開錠装置１０による個人認証処理を説明するフローチャートである。

この個人認証処理は、個人認証開錠装置１０の電源がオンとされたときに開始され、その後、電源がオフとされるまで継続して実行される。

ステップＳ１において、制御部１１は、画像処理部１３を認証モードに設定する。撮像部１２は、撮像を開始し、その結果得られるビデオ信号を画像処理部１３および表示制御部１４に出力する。表示制御部１４は、撮像部１２から入力されたビデオ信号の映像をディスプレイ１５に表示させる。顔領域検出部２１は、撮像部１２から継続的に入力されているビデオ信号を監視し、その映像から人物（認証対象者）の顔を１つだけ検出したか否かを判定する。

ステップＳ１で、人物の顔が検出されない場合、または複数の顔が検出された場合、処理はステップＳ２に進められる。ステップＳ２において、制御部１１は、例えば「１人だけ写るようにしてください」などのアラート表示の画像信号を発生して表示制御部１４に出力する。表示制御部１４は、このアラート表示を撮像部１２からのビデオ信号に重畳し、その映像をディスプレイ１５に表示させる。

ここで、撮像部１２の撮像範囲に未登録の認証対象者が入ると、その顔が検出されることによって、処理はステップＳ１からステップＳ３に進められる。

ステップＳ３において、顔領域検出部２１は、撮像部１２からのビデオ信号から検出した認証対象者の顔領域を顔識別・発話認識部２５に出力する。顔識別・発話認識部２５は、顔領域のうちの唇の時系列の特徴量を算出し、特徴量ＤＢ２４を参照することにより発話内容を認識する。ただし、この段階での発話内容の認識は、登録を指示するためのコマンド（「登録」、「顔登録」、または「パスワード登録」）、またはそれ以外であるかが判定できる程度の精度でよい（後述するステップＳ５の発話認識よりも低い精度でもよい）。そして、顔識別・発話認識部２５は、発話認識結果（発話内容）を制御部１１に通知する。

ステップＳ４において、制御部１１は、認証対象者の発話内容が、登録を指示するためのコマンド（「登録」、「顔登録」、または「パスワード登録」）であるか否かを判定する。登録を指示するためのコマンドであると判定された場合、処理はステップＳ９に進められる。反対に、否と判定された場合には、処理がステップＳ５に進められる。

いまの場合、認証対象者はコマンドやパスワードを発声していないので、処理はステップＳ５に進められる。

ステップＳ５において、顔識別・発話認識部２５は、顔領域検出部２１から入力されている顔領域の特徴量を算出し、特徴量ＤＢ２４を参照することにより、認証対象者の顔が登録済みであるか否かを判定する。なお、顔領域の特徴量は、動画像の１フレームから算出してもよいし、または数フレームから時系列の特徴量として算出するようにしてもよい。

さらに、顔識別・発話認識部２５は、顔領域のうちの唇の時系列の特徴量を算出し、特徴量ＤＢ２４を参照することにより、顔識別結果の顔に対応付けられているものと一致するか（その差異が所定の閾値以下であるか）否かを判定する。すなわち、発話されたパスワードが、登録済みの顔に対応付けられたパスワードと一致するか否かを判定する。そして、顔識別・発話認識部２５は、顔識別結果および発話認識結果（いまの場合、パスワードと一致するか否かの情報）を制御部１１に通知する。

ステップＳ６において、制御部１１は、顔識別・発話認識部２５から通知された顔識別結果および発話認識結果を統合し、ステップＳ７において、個人認証が成功したか否かを判断する。具体的には、顔識別結果にて登録済み顔であると判定され、且つ、発話認識結果が登録済みの顔に対応してするパスワードと一致する場合のみ、個人認証が成功したと判断して処理をステップＳ１８に進め、それ以外の場合、処理をステップＳ８に進める。

いまの場合、認証対象者は未登録であり、または発話内容も不明（発話していない）ので、個人認証は失敗したと判断されて、処理はステップＳ８に進められる。ステップＳ８において、制御部１１は、例えば「個人認証失敗」などのアラート表示の画像信号を発生して表示制御部１４に出力する。表示制御部１４は、このアラート表示を撮像部１２からのビデオ信号に重畳し、その映像をディスプレイ１５に表示させる。この後、処理はステップＳ１に戻されて、それ以降が繰り返される。

再びステップＳ１において、認証対象者が撮像範囲から移動していなければ、処理はステップＳ３に進められる。ここで、未登録の認証対象者が、登録を指示するためのコマンド（例えば、「顔登録」）を発声すると、その発話内容が認識される。そして、ステップＳ４において、処理がステップＳ９に進められる。

ステップＳ９において、制御部１１は、画像処理部１１を登録モードに設定する。さらに、制御部１１は、認識対象者（すなわち、登録者）の発話内容が「顔登録」であるか否かを判定し、「顔登録」である場合、処理をステップＳ１０に進める。なお、登録者の発話内容が「顔登録」ではない場合、処理はステップＳ１２に進められる。

いまの場合、発話内容は「顔登録」であると認識されているはずなので、処理はステップＳ１０に進められる。

ステップＳ１０において、顔領域検出部２１は、撮像部１２からのビデオ信号から検出した認証対象者の顔領域を顔登録部２２に出力する。顔登録部２２は、顔領域検出部２１から入力された顔領域に基づき、その特徴量を算出する。このとき、例えば「メガネを外してください」、「正面（または右側、左側など）を向いてください」などのアラート表示をディスプレイ１５に表示させるようにしてもよい。ステップＳ１１において、顔登録部２２は、算出した顔の特徴量を特徴量ＤＢ２４に登録させる。

ステップＳ１０およびＳ１１における処理（以下、顔登録処理）について詳述する。図３は、顔登録処理を説明するフローチャートである。

顔登録部２２は、ステップＳ３１において、顔領域検出部２１から入力された顔領域から顔の各パーツ（眉毛、目、鼻、口など）を検出する。次に、ステップＳ３２において、検出された各パーツの位置に基づいて、顔全体の位置や向きを調整する。ステップＳ３３においては、位置や向きを調整した顔全体を含むように改めて顔領域を切り出し、ステップＳ３４において、その特徴量を計算して特徴量ＤＢ２４に出力する。ステップＳ３５において、特徴量ＤＢ２４は、顔登録部２２から入力された顔の特徴量を登録する。

上述したようにして顔（の特徴量）の登録を終えた後、例えば「顔登録終了」などのアラート表示をディスプレイ１５に表示させるようにして、処理は図２のステップＳ１に戻される。

再びステップＳ１において、認証対象者が撮像範囲から移動していなければ、処理はステップＳ３に進められる。ここで、顔のみ登録済みの認証対象者（登録者）が、パスワードの登録を指示するためのコマンド「パスワード登録」を発声すると、その発話内容が認識される。そして、ステップＳ４において、処理がステップＳ９に進められる。

ステップＳ９では、いまの場合、登録者の発話内容が「顔登録」ではないので、処理はステップＳ１２に進められる。

ステップＳ１２において、制御部１１は、登録者の発話内容が「パスワード登録」であるか否かを判定し、「パスワード登録」である場合、処理をステップＳ１３に進める。なお、登録者の発話内容が「パスワード登録」ではない場合、すわなち、発話内容が「登録」である場合、処理はステップＳ１６に進められる。

いまの場合、発話内容は「パスワード登録」であると認識されているはずなので、処理はステップＳ１３に進められる。

ステップＳ１３において、制御部１１は、例えば「登録するパスワードを話してください」などのアラート表示をディスプレイ１５に表示させる。これに応じて認証対象者が任意のパスワードを発声すると、その映像が撮像されて顔領域が発話登録部２３に入力される。

ステップＳ１４において、発話登録部２３は、入力されている顔領域に基づき、認証対象者がパスワードを発声しているときの唇を検出し、その動きの特徴量（時系列の特徴量）を算出する。さらに、ステップＳ１５において、算出した唇の動きの特徴量を、ステップＳ１１で登録した登録者の顔の特徴量と対応付けて特徴量ＤＢ２４に登録させる。

ステップＳ１４およびＳ１５における処理（以下、発話登録処理）について詳述する。図４は、発話登録処理を説明するフローチャートである。

発話登録部２３は、ステップＳ４１において、顔領域検出部２１から入力された顔領域から唇を含む唇領域を検出し、ステップＳ４２において、顔領域から唇領域を切り出す。さらに、ステップＳ４３において、時系列の唇領域のうち、唇が動いている発話区間を切り出して、ステップＳ４４において、発話区間の唇領域について、その特徴量を計算して特徴量ＤＢ２４に出力する。ステップＳ４５において、特徴量ＤＢ２４は、発話登録部２３から入力された唇の時系列の特徴量を、ステップＳ１１で登録した顔の特徴量と対応付けて登録する。

上述したようにしてパスワード（の時系列の特徴量）の登録を終えた後、例えば「パスワード登録終了」などのアラート表示をディスプレイ１５に表示させるようにして、処理は図２のステップＳ１に戻される。

これ以降、当該認証対象者は顔とパスワードが登録済みであるので、正しいパスワードを発声することによって個人認証を成功させることができる。

なお、上述した例では、顔登録とパスワード登録とを分けて登録する場合を例に説明したが、顔登録とパスワード登録とを一括して行うことも可能である。その場合、ステップＳ３の段階で、認証対象者が登録を指示するためのコマンドとして「登録」を発声すればよい。これにより、処理はステップＳ４，Ｓ９，Ｓ１２，Ｓ１６の順に進められて、ステップＳ１６およびＳ１７において、上述した顔登録処理とパスワード登録処理が連続的に行われる、または一括して行われる。

ただし、ステップＳ１６およびＳ１７において、顔登録処理とパスワード登録処理とが一括して行われる場合には、パスワードを発声しているとき、すなわち、唇を動かしているときの顔の特徴量が算出される。このように、唇を動かしているときの顔の特徴量は、発声してないときの顔の特徴量に比較して、認証対象者の特徴をより個性的に表していると考えられる。したがって、顔登録処理だけを行った場合に比較して、顔登録処理とパスワード登録処理とを一括して行った方が、個人認証の精度をより上げることができると考えられる。

再び、ステップＳ１に戻り、顔とパスワードが登録済みである当該認証対象者が撮像部１２の撮像範囲で、正しいパスワードを発声すると、処理はステップＳ１，Ｓ４，Ｓ５の順に進められる。

ステップＳ５では、認証対象者の顔の特徴量が算出されて登録済みであるか否かが判定される。いまの場合、登録済みと判定される。また、発話内容（パスワード）の時系列の特徴量が算出されて、登録済みの顔と対応付けて登録済みのものと一致するか否かが判定される。いまの場合、一致すると判定される。

ステップＳ６では、いまの場合、顔識別結果にて登録の人物であると判定され、且つ、発話認識結果が登録済みの人物に対応するパスワードと一致すると判定されているので、個人認証が成功したと判断されて、処理はステップＳ１８に進められる。

ステップＳ１８において、制御部１１は、個人認証が成功した旨を開錠部１６に通知する。これに応じて、開錠部１６は、例えばセキュリティエリアのドアの鍵などを開錠する。以上で、個人認証処理は一旦終了される。

以上に説明した個人認証処理によれば、撮像部１２以外の入力デバイスを必要とすることなく、顔識別だけを行う場合に比較して高い精度で個人認証を行うことができる。

これにより、認証対象者は、両手で荷物を持っている場合などでも顔さえ写る様にすれば、個人認証を受けることができる。

また、パスワード発声時の唇の時系列の特徴量を、発話者の顔の特徴量に対応付けているので、単にパスワードを文字列として認識しその一致を判定する場合に比較して、より高い精度で個人認証を行うことができる。

さらに、パスワードを発声する際、実際には音声を発することなく無音で行うようにしているので、盗聴などによるパスワードの漏洩を抑止することができる。これに加えて、雑音環境下においても、発話によるパスワード入力が可能となる。

またさらに、認証対象者（登録者）は任意の言葉、さらには文字列によって表記できないような音声であってもパスワードとして登録することができる。

ただし、上述した説明によれば、登録を指示するためのコマンドを知っていれば、誰でもが自身の顔とパスワードを登録できてしまう。そこで、例えば、管理者の顔の特徴量と、当該管理者が登録を指示するためのコマンドを発声したときの唇の動きの時系列の特徴量とを対応付けて登録しておくようにする。そして、登録時にのみ、管理者が登録を指示するためのコマンドを発話した後、認証対象者（登録者）が顔とパスワードとを登録するようにしてもよい。

なお、本発明は、本実施の形態のように鍵を開錠する装置のみならず、個人認証の成否に従って所定の処理を実行するあらゆる装置に適用することができる。

ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図５は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

このコンピュータ１００において、CPU（Central Processing Unit）１０１，ROM（Read Only Memory）１０２，RAM（Random Access Memory）１０３は、バス１０４により相互に接続されている。

バス１０４には、さらに、入出力インタフェース１０５が接続されている。入出力インタフェース１０５には、キーボード、マウス、マイクロホンなどよりなる入力部１０６、ディスプレイ、スピーカなどよりなる出力部１０７、ハードディスクや不揮発性のメモリなどよりなる記憶部１０８、ネットワークインタフェースなどよりなる通信部１０９、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア１１１を駆動するドライブ１１０が接続されている。

以上のように構成されるコンピュータ１００では、CPU１０１が、例えば、記憶部１０８に記憶されているプログラムを、入出力インタフェース１０５およびバス１０４を介して、RAM１０３にロードして実行することにより、上述した一連の処理が行われる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであってもよいし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであってもよい。

また、プログラムは、１台のコンピュータにより処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであってもよい。

なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

１０個人認証開錠装置，１１制御部，１２撮像部，１３画像処理部，１４表示制御部，１５ディスプレイ，１６開錠部，２１顔領域検出部，２２顔登録部，２３発話登録部，２４顔識別・発話認識部，２５特徴量ＤＢ，１００コンピュータ，１０１ CPU

Claims

認証対象者を撮像して得られるビデオ信号に基づいて個人認証を行う情報処理装置において、
前記認証対象者または登録者を撮像して前記ビデオ信号を生成する撮像手段と、
登録モードにて、前記登録者を撮像して得られた前記ビデオ信号の画像上の前記登録者の顔の特徴量を算出する第１の特徴量算出手段と、
登録モードにて、任意のパスワードを発声する前記登録者を撮像して得られた前記ビデオ信号の画像上の前記登録者の唇の時系列の特徴量を算出する第２の特徴量算出手段と、
算出された前記登録者の前記顔の特徴量に、算出された前記任意のパスワードを発声したときの前記唇の時系列の特徴量を対応付けてデータベースに登録する登録手段と、
認証モードにて、前記認証対象者を撮像して得られる前記ビデオ信号の画像上の顔の特徴量を算出し、前記データベースを参照して、前記認証対象者の顔を識別する識別手段と、
認証モードにて、発声中の前記認証対象者を撮像して得られた前記ビデオ信号の画像上の前記認証対象者の唇の時系列の特徴量を算出し、前記データベースを参照して、前記認証対象者の発話内容を認識する認識手段と、
前記認証対象者の顔の識別結果、および前記認証対象者の発話内容の認識結果に基づき、前記認証対象者の個人認証を行う認証手段と
を含む情報処理装置。
前記認識手段は、算出した前記認証対象者の唇の時系列の特徴量が、前記データベースに登録済みの前記登録者が任意のパスワードを発声したときの前記唇の時系列の特徴量と一致するか否かに基づいて、前記認証対象者の発話内容を認識する
請求項１に記載の情報処理装置。
前記認識手段は、さらに、認証モードにて、発声中の前記登録者を撮像して得られた前記ビデオ信号の画像上の前記登録者の唇の時系列の特徴量を算出し、前記データベースを参照して、前記登録者の発話内容を認識し、
認識された前記登録者の発話内容に従い、前記認証モードから、前記登録モードに切り替えるモード切替手段を
さらに含む請求項２に記載の情報処理装置。
前記第１の特徴量算出手段は、登録モードにて、発声中の前記登録者を撮像して得られた前記ビデオ信号の画像上の前記登録者の顔の特徴量を算出し、
前記識別手段は、認証モードにて、発声中の前記認証対象者を撮像して得られる前記ビデオ信号の画像上の顔の特徴量を算出し、前記データベースを参照して、前記認証対象者の顔を識別する
請求項２に記載の情報処理装置。
認証対象者を撮像して得られるビデオ信号に基づいて個人認証を行う情報処理装置の情報処理方法において、
前記情報処理装置による、
登録モードにて、前記登録者を撮像して得られた前記ビデオ信号の画像上の前記登録者の顔の特徴量を算出する第１の特徴量算出ステップと、
登録モードにて、任意のパスワードを発声する前記登録者を撮像して得られた前記ビデオ信号の画像上の前記登録者の唇の時系列の特徴量を算出する第２の特徴量算出ステップと、
算出された前記登録者の前記顔の特徴量に、算出された前記任意のパスワードを発声したときの前記唇の時系列の特徴量を対応付けてデータベースに登録する登録ステップと、
認証モードにて、前記認証対象者を撮像して得られる前記ビデオ信号の画像上の顔の特徴量を算出し、前記データベースを参照して、前記認証対象者の顔を識別する識別ステップと、
認証モードにて、発声中の前記認証対象者を撮像して得られた前記ビデオ信号の画像上の前記認証対象者の唇の時系列の特徴量を算出し、前記データベースを参照して、前記認証対象者の発話内容を認識する認識ステップと、
前記認証対象者の顔の識別結果、および前記認証対象者の発話内容の認識結果に基づき、前記認証対象者の個人認証を行う認証ステップと
を含む情報処理方法。
認証対象者を撮像して得られるビデオ信号に基づいて個人認証を行う情報処理装置の制御用のプログラムであって、
登録モードにて、前記登録者を撮像して得られた前記ビデオ信号の画像上の前記登録者の顔の特徴量を算出する第１の特徴量算出ステップと、
登録モードにて、任意のパスワードを発声する前記登録者を撮像して得られた前記ビデオ信号の画像上の前記登録者の唇の時系列の特徴量を算出する第２の特徴量算出ステップと、
算出された前記登録者の前記顔の特徴量に、算出された前記任意のパスワードを発声したときの前記唇の時系列の特徴量を対応付けてデータベースに登録する登録ステップと、
認証モードにて、前記認証対象者を撮像して得られる前記ビデオ信号の画像上の顔の特徴量を算出し、前記データベースを参照して、前記認証対象者の顔を識別する識別ステップと、
認証モードにて、発声中の前記認証対象者を撮像して得られた前記ビデオ信号の画像上の前記認証対象者の唇の時系列の特徴量を算出し、前記データベースを参照して、前記認証対象者の発話内容を認識する認識ステップと、
前記認証対象者の顔の識別結果、および前記認証対象者の発話内容の認識結果に基づき、前記認証対象者の個人認証を行う認証ステップと
を含む処理を情報処理装置のコンピュータに実行させるプログラム。