本明細書で開示するシステムおよび方法のいくつかの構成は、パスワード強度評価と音声ベースの生体認証のための示唆を提供する。認証のために音声を使用するとき、ユーザは、発声するためのパスワードを設定することを欲する場合がある。しかしながら、同じパスワードが図らずも発せられたときに誰かがそのシステムに割り込むことができないように、そのパスワードが、ボイスの質(voice timbre)に関して十分に特異であるかどうかを知ることは困難である場合がある。発声されたパスワードが、任意に設定されたパスワードではなく、ユーザ自身に特有の生体的差異を含むならば、より良いであろう。追加の手段が利用可能であるならば、それらは、セキュリティを強化するために適切に利用され得る。
本明細書で開示するシステムおよび方法は、ユーザが十分に特異なパスワードを選択し得るように、「特異性」の強度を評価するための手法を提供し得る。いくつかの構成では、本明細書で開示するシステムおよび方法は、ユーザの強化された特異性を保持する発声を使用するいくつかの候補を示唆することができる。本明細書で開示するシステムおよび方法は、ユーザ自身の強化された特異性を保持する発声を使用することによるばかりでなく、いくつかの構成における1つまたは複数の他の利用可能なモダリティを活用することによって、いくつかの候補を示唆することができる。
いくつかの話者検証システムは、話者データを普遍背景モデル(UBM)に適合させることによって、話者モデルを訓練する。検証の段階において、話者モデルとUBMとの間で観察されたフレームの尤度比が、計算され得る。すべての発声/文のフレームにわたる要約統計量が、音声フレームが本当の話者からのものであるかどうかを決定するために計算され得る。しかしながら、発声/音素/音節ごと、またはさらにフレームごとの「局所的」尤度は、いくつかは高い弁別を有するが、いくつかは有さないことを示す。十分な弁別を有さない部分は、他のモデルによっても説明される部分として解釈されてよく、それは、検証性能に悪影響を及ぼすことを意味する。または、それは、ターゲットモデルによって見られないデータとして説明されてよく、ユーザによって反復されることが困難であることを意味する。したがって、十分に強力であると同時に容易に再生可能なパスワードを有することが有益であり得る。
次に、類似の参照番号が機能的に類似の要素を示す場合がある図を参照して、様々な構成を説明する。概して、本明細書で、図面で全般に説明され、例示されるシステムおよび方法は、種々多様な異なる構成で配列および設計され得る。したがって、図面に表すような、いくつかの構成の以下のより詳細な説明は、特許請求される範囲を限定することを意図せず、システムおよび方法を単に表す。
図1は、オーディオパスワードの強度を評価するためのシステムおよび方法が実施され得る電子デバイス102の一構成を例示するブロック図である。電子デバイス102の例は、スマートフォン、セルラーフォン、タブレットデバイス、コンピュータ(たとえば、ラップトップコンピュータ、デスクトップコンピュータ、など)、ゲーミングシステム、自動車用電子コンソール、携帯情報端末(PDA)、などを含む。
電子デバイス102は、1つまたは複数のマイクロフォン104、パスワード評価モジュール108、パスワードフィードバックモジュール112、および1つまたは複数の出力デバイス116を含む。マイクロフォン104は、音響信号を電子信号に変換する1つまたは複数のトランスデューサであり得る。1つまたは複数の出力デバイス116は、電子デバイス102からの出力を供給するためのデバイスであり得る。1つまたは複数の出力デバイス116の例は、ディスプレイ(たとえば、ディスプレイパネル、タッチスクリーン)、スピーカ(たとえば、電子信号を音響信号に変換するトランスデューサ)、触覚デバイス(たとえば、力、動きおよび/または振動を生み出すデバイス)、などを含む。「モジュール」は、ハードウェア(たとえば、回路)の中、またはハードウェアとソフトウェアの組合せ(たとえば、命令を有するプロセッサ)の中で実装され得る。たとえば、パスワード評価モジュール108および/またはパスワードフィードバックモジュール112は、ハードウェアの中、またはハードウェアとソフトウェアの組合せの中で実装され得る。
1つまたは複数のマイクロフォン104は、パスワード評価モジュール108に結合され得る。パスワード評価モジュール108は、パスワードフィードバックモジュール112に結合され得る。パスワードフィードバックモジュール112は、1つまたは複数の出力デバイス116に結合され得る。本明細書で使用する「結合する」という用語および関連する用語は、1つの構成要素が別の構成要素に(たとえば、介在構成要素なしに)直接接続されるか、または(たとえば、1つまたは複数の介在構成要素を用いて)間接的に接続されることを意味する場合がある。図中に描かれた矢印および/または線は、結合を示し得る。
1つまたは複数のマイクロフォン104は、オーディオ信号106を捕捉することができる。たとえば、1つまたは複数のマイクロフォン104は、音響信号を捕捉し、それを電子オーディオ信号106に変換することができる。オーディオ信号106は、オーディオパスワードを含み得る。オーディオパスワードは、ユーザのアイデンティティを検証するために、1つまたは複数の音(たとえば、音素、音節、語、句、文、発声など、1つまたは複数の音声成分)を含み得る。たとえば、オーディオパスワードは、ユーザを識別するために使用され得る1つまたは複数の特性(たとえば、生体的特性、音質、など)を含み得る。オーディオ信号106は、パスワード評価モジュール108に供給され得る。
パスワード評価モジュール108は、1つまたは複数のマイクロフォン104によって捕捉されたオーディオ信号106を取得(たとえば、受信)し得る。上記で説明したように、オーディオ信号106は、オーディオパスワードを含み得る。パスワード評価モジュール108は、オーディオ信号106の1つまたは複数の特異な特性を測定することに基づいて、オーディオパスワードの強度を評価し得る。「強度」というパスワードは、パスワードがどれほどセキュアであるかを示すプロパティであり得る。たとえば、強いオーディオパスワード(たとえば、高い強度を有するオーディオパスワード)は、詐称者が自然に模倣または複製することが非常に困難であるかまたはほとんど不可能であり得、ここで詐称者は、真のユーザとして識別されない。しかしながら、弱いオーディオパスワード(たとえば、低い強度を有するオーディオパスワード)は、詐称者が自然に模倣または複製することがより容易であり得、ここで詐称者は、間違って真のユーザとして識別される。いくつかの構成では、オーディオパスワード強度は、特異性に関して表現され得る。たとえば、オーディオパスワードの1つまたは複数の音声成分がより特異であるほど、パスワードはより強くなる。しかしながら、オーディオパスワードの1つまたは複数の音声成分の特異性が低いほど、パスワードはより弱くなる。したがって、オーディオパスワード強度は定量化され得、弱から強までの程度において変動する。たとえば、より特異な音声成分は、あまり特異でない音声成分より高く(たとえば、より強く)採点され得る。
いくつかの構成では、パスワード評価モジュール108は、1つまたは複数の全体的音声モデル(たとえば、UBM)からの特異性または相違の程度を用いて、オーディオパスワードの1つまたは複数の音声成分(たとえば、発声、音素、など)の強度を評価し得る。全体的音声モデルは、一群の人々の音声を表す音声モデル(たとえば、統計的音声モデル)であり得る。1つまたは複数のUBMは、全体的音声モデルの一例である。
いくつかの構成では、パスワード評価モジュール108は、複数の全体的音声モデル(たとえば、UBM)を利用し得る。たとえば、複数の全体的音声モデルは、ユーザの入力、および/または地理的位置(たとえば、郵便番号、都市、郡、州、国、など)、性別、年齢、言語、地域方言などの特性に基づいて利用(たとえば、選択、および/または適合、など)され得る。ユーザの特性は、ユーザの音声の音響特性に影響を及ぼし得る。いくつかの構成では、ユーザ提供情報が記憶された全体的音声モデルと適合しない場合、電子デバイス102はユーザに通知し得、および/または適切なモデルがユーザの承認のもとで代わりに使用され得る。特異性を測定するために、より詳細に適合される全体的音声モデル(たとえば、UBM)を使用することによって、電子デバイス102(たとえば、パスワード評価モジュール108)は、より正確な特異性測定値および/またはスコアを供給することができる。いくつかの構成では、電子デバイス102(たとえば、パスワード評価モジュール108)は、参画している1人または複数のユーザのデータに基づいて、対応する全体的音声モデル(たとえば、UBM)を更新することができる。
いくつかの構成では、パスワード評価モジュール108は、オーディオ信号106の1つまたは複数の特性(たとえば、特異な特性)を次のように測定することに基づいて、オーディオパスワードの強度を評価し得る。パスワード評価モジュール108は、オーディオ信号106から1つまたは複数の特徴(たとえば、特徴ベクトル)を抽出し得る。たとえば、パスワード評価モジュール108は、オーディオ信号106に基づいて、1つまたは複数のメル周波数ケプストラル係数(MFCC)を決定し得る。いくつかの構成では、MFCCは、オーディオ信号106のメル周波数平滑化スペクトルの対数振幅に離散コサイン変換(DCT)を適用することによって取得される係数であり得る。本明細書で開示するシステムおよび方法によれば、話者/音声認識に利用され得る任意のまたはすべての特徴が、使用のために抽出され得る。MFCCはそのようなアプリケーションにおいて使用される妥当な特徴ベクトルであり得るので、MFCCは、一例として与えられる。いくつかの構成では、本明細書で開示するシステムおよび方法に従って抽出および/または利用される特徴は、決定論的特徴(たとえば、データにかかわらず、特徴が取得される方法が、固定され得ることを意味する)に限定されるものではない。たとえば、特徴ベクトルは、いくつかの手法におけるディープニューラルネットワークなど、データドリブン手法を使用して抽出(たとえば、学習)され得る。
パスワード評価モジュール108は、1つまたは複数の全体的音声モデル(たとえば、UBM)に基づいてオーディオ信号106の特異性測定値を取得することができる。特異性測定値は、オーディオ信号106(たとえば、オーディオパスワード)における特異性を示し得る。たとえば、特異性測定値は、オーディオ信号106(たとえば、オーディオパスワード)の時間期間にわたって変化する場合がある。いくつかの構成では、特異性測定値は、各音声成分(たとえば、音素、音節、語、など)および/またはオーディオ信号106(たとえば、オーディオパスワード)のフレームにおいて取得され得る。いくつかの構成では、オーディオ信号106(たとえば、入力波)は、特異性測定値および/またはパスワード強度スコアを取得するために利用され得る特徴ベクトル(たとえば、MFCC)に変換され得る。
いくつかの構成では、特異性測定値は、オーディオ信号106と全体的音声モデルとの間の尤度比であり得る。たとえば、尤度比は、式(1)に従って決定され得る。
式(1)では、tは時間であり、Xはオーディオ信号(またはたとえば、オーディオ信号に基づく特徴ベクトル)であり、λtargetはターゲット(たとえば、真のユーザ)モデルであり、λgenericは全体的音声モデル(たとえば、UBM)であり、p(X|λtarget)は、Xが真のユーザに対応する確率であり、p(X|λgeneric)は、Xが全体的ユーザ(たとえば、詐称者、真でないユーザ、など)に対応する確率である。全体的名称(たとえば、λgeneric)は、詐称者および/または真でないユーザ、などのモデルであり得る。詐称者および/または真でないユーザのモデルは、実際のユーザモデルを比較するために利用され得る。実際のユーザモデルを比較することは、計算上高負荷であり、および/または消耗的であり得るので、いくつかの階層が、探索範囲(たとえば、性別、年齢、位置、など)を規定するために利用され得る。追加または代替として、全体的名称(たとえば、λgeneric)は、非ユーザ依存モデル(たとえば、全体的音声モデル)であり得る。非ユーザ依存モデルは、比較を簡略化するために利用されてよく、そこにおいて、1モデルだけが比較のために必要となり得る。電子デバイス102および/またはリモートデバイス(たとえば、リモートサーバ)における全体的モデル(たとえば、λgeneric)は、(たとえば、必要な場合に)更新され得ることに留意されたい。いくつかの例では、全体的モデルは、1つまたは複数のモデルパラメータ(たとえば、平均および/または混合の重み(mean and/or mixing weights))を更新することによって更新され得る。更新することは、周期的(たとえば、定期的)に実施されてよく、および/または非周期的(たとえば、要望に応じて、更新決定に基づいて、など)に実施されてもよい。
他の構成では、特異性測定値(たとえば、尤度比)は、任意の非減少関数fとして一般化され得る。たとえば、特異性測定値は、式(2)に従って決定され得る。
いくつかの構成では、全体的音声モデルは、次のように取得および/または更新され得る。全体的音声モデルは、(たとえば、真のユーザではなく)他のユーザの音声をモデル化することができる。いくつかの構成では、全体的音声モデルは、他のユーザの「常時適合モデル」であり得る。追加または代替として、オーディオ信号106(たとえば、オーディオパスワード)は、他のユーザが(たとえば、同じリモートサーバを有する)同じシステムを使用している場合、他のユーザのためのモデルと(たとえば、電子デバイス102またはリモートデバイスによって)比較され得る。これは、いくつかの構成では、オーディオ信号106をUBMと比較する代わりに実施され得る。
複雑さはこの手法に伴う1つの問題であり得るが、複雑さは、探索範囲を絞り込むことによって縮小され得る。たとえば、性別、年齢、地域方言を含む言語などの基本的情報検索が、最初に実施され得る。追加または代替として、電子デバイス102またはリモートデバイス(たとえば、サーバ)は、ユーザの居住地の物理的領域またはその何らかの履歴を突き止めようとする場合がある。次いで、オーディオ信号106(たとえば、オーディオパスワード)は、静的または動的に変化していることがある、(たとえば、性別、年齢、言語、地域方言、物理的領域、などの)同じカテゴリーを有する他のものに対する、実際のモデルの十分に小さいセットと比較され得る。電子デバイス102は、(たとえば、居住地の領域または彼/彼女が話す言語、などに応じて)パスワードに対する異なる示唆を(ユーザに)動的に提供し得る。
いくつかの構成では、全体的音声モデルは、複数のモデルに基づく場合がある。たとえば、全体的音声モデルは、元の単一のUBMから更新された高い尤度を有する混合ガウスモデル(Gaussian Mixture Model)(GMM)状態に基づいて、複数のUBMをクラスタ化することに基づく場合がある。追加または代替として、全体的音声モデルは、物理的領域が使用され得る(たとえば、サンディエゴ、92121)ことに基づくグルーピングに基づく場合があり、ユーザのモデルは、同じ領域にいる人々に対するモデルと比較され得る。
パスワード評価モジュール108は、特異性測定値に基づいて1つまたは複数のパスワード強度スコアを決定し得る。パスワード強度スコアは、オーディオパスワードの強度を示すことができる。たとえば、パスワード強度スコアは、全オーディオパスワードの強度の表示であり得る。追加または代替として、1つまたは複数のサブレベルパスワード強度スコアが決定され得る。いくつかの構成では、パスワード強度スコアは、特異性測定値の要約統計量に基づいて決定され得る。
いくつかの構成では、パスワード強度スコアは、特異性測定値自体であり得る。追加または代替として、パスワード強度スコアを決定することは、特異性測定値の部分を組み合わせること(たとえば、合計すること)を含み得る。追加または代替として、パスワード強度スコアを決定することは、特異性測定値をマッピングすること、特異性測定値の1つまたは複数の部分をマッピングすること、ならびに/あるいは1つまたは複数の要約統計量を数値(たとえば、割合)、語(たとえば、「弱い」、「適度の」、「強い」、など)、および/またはいくつかの他のインジケータ(たとえば、色、形、など)にマッピングすることを含み得る。
いくつかの構成では、パスワード強度スコアは、特異性測定値であり得る。たとえば、式(1)および/または式(2)は、パスワード強度スコアを取得するために利用され得る。tは、要約統計量の長さを決定し得ることに留意されたい。たとえば、いくつかの小さい定数t(たとえば、フレーム長さ)が、特異性測定値(たとえば、連続的スコア)を取得するために使用され得る。小さい定数tを用いて取得される特異性測定値の一例が、図3に関して説明される。
いくつかの構成では、パスワード強度スコアを決定することは、特異性測定値の部分を組み合わせること(たとえば、合計すること、平均化すること、など)を含み得る。たとえば、パスワード評価モジュール108は、パスワード強度スコアを決定するために特異性測定値の一定期間にわたって組み合わせる(たとえば、合計する、平均化する、など)ことができる。たとえば、パスワード評価モジュール108は、平滑化スコアを得るために、全特異性測定値または特異性測定値の1つまたは複数の十分に長い時間フレームを使用し得る。この平滑化スコアは、パスワード強度スコアの一例であり得る。
いくつかの構成では、tが十分に長い場合、パスワード強度スコアは、特異性測定値の部分を組み合わせることなく、特異性測定値自体であり得る。しかしながら、音声成分レベル(たとえば、音素レベル)の特異性を推奨および/またはアクセスするために利用され得る、1つまたは複数の(たとえば、音素レベルにおける)音声成分に対応する特異性測定値の部分を取得することは有益であり得る。次いで、特異性測定値のこれらの部分は、全パスワード強度スコアを決定するために組み合わされ得る。
いくつかの構成では、1つまたは複数のサブレベルパスワード強度が、取得され得る。たとえば、サブレベルパスワード強度の各々は、特異性測定値の部分である場合があり、またはそれに基づく場合がある。これは、特異性測定値を音声成分(たとえば、音素)レベルに絞り込むために有益であり得る。追加または代替として、パスワード評価モジュール108は、(たとえば、特異性測定値のすべてではなく)特異性測定値の一部を組み合わせること(たとえば、合計すること、平均化すること、など)によって1つまたは複数のサブレベルパスワード強度を取得し得る。たとえば、パスワード評価モジュール108は、音声成分にそれぞれ対応する特異性測定値の部分を組み合わせ得る。一手法では、パスワード評価モジュール108は、より大きいセット(たとえば、語、句、文、など)の中で音素に対応する特異性測定値の部分を合計および/または平均化し得る。このようにして、1つまたは複数のより高いレベル(たとえば、語レベル、句レベル、文レベル、など)のパスワード強度スコアが、決定され得る。
いくつかの構成では、パスワード強度スコアを決定することは、パスワード強度スコアを、数値(たとえば、10%、43%、65%、90%、など)、語(たとえば、「弱い」、「適度の」、「強い」、など)、および/またはいくつかの他のインジケータ(たとえば、赤、黄、緑、など)として表現すること、ならびに/あるいは、パスワード強度スコアをそれら(上記の数値、語、および/またはインジケータ)にマッピングすることを含み得る。たとえば、パスワード評価モジュール108は、パスワード強度スコアを決定するために、特異性測定値(および/または特異性測定値の部分)の要約統計量と何らかの因子(たとえば、100)とを乗算する場合がある。追加または代替として、パスワード評価モジュール108は、パスワード強度スコアを決定するために、特異性測定値、特異性測定値の部分、および/または特異性測定値の要約統計量に基づいて、特定の数値、語、および/または何らかの他のインジケータを選択(たとえば、検索)することができる。たとえば、パスワード評価モジュール108は、特異性測定値、特異性測定値の一部もしくは複数部分、および/または特異性測定値に基づく1つまたは複数の量(たとえば、合計、平均、統計データ、など)に基づいて、パスワード強度スコアを決定することができる。パスワード強度スコアを決定するために、これらの量のうちの1つまたは複数が、1つまたは複数のしきい値と比較され得、および/またはこれらの量のうちの1つまたは複数に基づいて、パスワード強度スコアが(たとえば、表の中で)検索され得る。
いくつかの構成では、パスワード評価モジュール108は、オーディオパスワードが、(たとえば、任意の確率に従って、ユーザ選好に従って、および/または詐称者がオーディオパスワードを発声することによって真のユーザとして合格する可能性を非常に低くさせるのに十分に)十分に強いかどうかを決定し得る。たとえば、パスワード評価モジュール108は、パスワード強度スコアとある値とを比較し得る。たとえば、その値は、前のパスワード強度スコアおよび/またはしきい値であり得る。その値は、静的(たとえば、事前定義されている)および/または動的であり得る。いくつかの構成では、その値は、製造者によって設定されてよく、および/またはユーザによって構成されてもよい。その値は、数値(たとえば、60%、80%、90%、など)として、および/または語(たとえば、「適度の」、「強い」、など)として表現され得る。その値は、パスワード強度が十分であると見なされるかまたは十分でないと見なされるかを表す決定点を確立することができる。
いくつかの構成では、パスワード強度スコアは、オーディオパスワードと組み合わされた1つまたは複数の追加の認証入力を考慮に入れることができる。たとえば、オーディオパスワードが英数字コードまたは指紋走査とともに使用される場合、強度スコアは、利用される場合、オーディオパスワードと1つまたは複数の追加の認証入力との組合せによって提供される追加の認証強度を反映することができる。
いくつかの構成では、電子デバイス102(たとえば、パスワード評価モジュール108)は、1つまたは複数の追加の認証入力を受信し得る。たとえば、いくつかの構成は、ビデオ、ジャイロ/加速度センサ、キーボード、指紋センサなど、他のモダリティの使用を可能にする場合がある。いくつかの手法では、1つまたは複数のそのようなモダリティは、特異性または弁別の強度をあまり持たない1つまたは複数の(句、文、などの)部分に対して利用され得る。たとえば、ユーザが低い特異性を有する語(たとえば、低い弁別スコアを有する「学校」という語)を発するとき、電子デバイス102は、1つまたは複数の追加の認証入力を取得または受信することができる。
1つまたは複数の追加の認証入力の例は、次のように与えられる。電子デバイス102がジェスチャー認識を有する構成では、電子デバイス102は、ユーザによるジェスチャー(たとえば、タッチスクリーンパターン、タッチパッドパターン、カメラにによって捕捉される視覚的な手のジェスチャーパターン、など)入力を受信し得る。ジェスチャーは、ユーザが作成してよく、または事前定義されてもよい。電子デバイス102がカメラを含む構成では、電子デバイス102は、ユーザの顔、目、鼻、唇、顔の形など、ユーザの1つまたは複数の画像、ならびに/あるいはオーディオ信号106を伴う虹彩など、より特異な情報を捕捉することができる。たとえば、電子デバイス102中に含まれるカメラは、ユーザの顔の全部または一部を捕捉するために、(たとえば、ユーザによって)向きを決められ得る。
電子デバイス102が1つまたは複数の動きセンサおよび/または方位センサ(たとえば、ジャイロ、加速度計、傾斜計、など)を含む構成では、電子デバイス102は、動きおよび/または方位の情報を取得することができる。たとえば、ユーザは、ユーザが作成した方法または事前定義された方法で電子デバイス102(たとえば、電話)を方向づけるおよび/または移動させることができる。たとえば、電子デバイス102は、オーディオ信号106とともにジャイロおよび/または加速度計のセンサ情報を符号化することができる。
電子デバイス102が物理的またはソフトウェアのキーパッドまたはキーボードを含む構成では、電子デバイス102は、オーディオ信号106とともに、(たとえば、ユーザによってタイプされた)数値コード、テキストおよび/または英数字ストリングを受信し得る。電子デバイス102が指紋センサを含む構成では、電子デバイス102は、(たとえば、ユーザが指紋センサに触れるか、またはそれを保持するとき)指紋を受信し得る。
電子デバイス102が複数のマイクロフォン104を含む構成では、電子デバイス102は、オーディオ信号106の空間指向性情報を取得(たとえば、受信および/または決定)することができる。たとえば、ユーザは、電子デバイス102に対する一連の方向(たとえば、上、下、左、右、前、後、右上、左下、など)にオーディオパスワードを話すことができる。たとえば、ユーザは、第1の語を電子デバイス102の下に向かって言い、第2の語を電子デバイス102の上に向かって言い、第3の語を電子デバイス102の左に向かって言い、第4の語を電子デバイス102の右に向かって言うことができる。
1つまたは複数の追加の認証入力は、タイミングおよび/またはシーケンスの制約のもとで、または制約なしに、利用され得る。いくつかの例では、1つまたは複数の追加の認証入力は、オーディオ信号106が受信される前、途中、または受信された後の任意の時間に電子デバイス102によって取得され得る。
他の例では、電子デバイス102は、1つまたは複数の追加の認証入力が、オーディオ信号106の受信に対して一定のタイミング制約のもとで、および/または一定のシーケンスにおいて受信されることを必要とする(または必要とするように構成される)場合がある。一例では、電子デバイス102は、1つまたは複数の追加の認証入力が、オーディオ信号106が受信される前、途中、および/または後の時間期間内に受信されることを必要とする(または必要とするように構成される)場合がある。たとえば、電子デバイス102は、追加の認証入力がオーディオパスワードのより弱い音声成分の間に受信されることを必要とする場合がある。たとえば、「オアシスは蜃気楼であった(the oasis was a mirage)」というオーディオパスワードに対して、「であった(was a)」の部分は、オーディオパスワードの別の部分よりも特異でないかまたはより弱い場合があることを仮定する。電子デバイス102は、追加の認証入力(たとえば、テキスト、数値コード、英数字ストリング、空間指向性および/または追加の生体入力(指紋走査、ユーザの顔または虹彩のカメラ画像など))が、ユーザが「であった(was a)」を発する間に受信されることを必要とする(または必要とするように構成される)場合がある。追加または代替として、電子デバイス102は、追加の認証入力が特定のシーケンスにおいて(たとえば、音声成分の前、音声成分の後、音声成分の間、他の追加の認証入力を伴うシーケンス中、など)受信されることを必要とする(または必要とするように構成される)場合がある。
いくつかの構成では、電子デバイス102(たとえば、パスワード評価モジュール108)は、オーディオ信号106および/または追加の認証入力を低下させる場合がある。たとえば、電子デバイス102は、オーディオ信号106から情報を除去する(たとえば、オーディオ信号106をダウンサンプリングする、その1部または複数部分をフィルタで除去する)場合がある。追加または代替として、電子デバイス102は、指紋走査からの情報またはユーザの顔または虹彩の画像からの情報を除去する場合がある。この手法の1つの便益は、ユーザが、彼らのセキュリティまたはプライバシーのために、正確なまたは高品質の情報(たとえば、音声サンプル、走査された指紋、画像、などの正確なまたは高品質の生体情報、など)を共有することを欲しない場合があることである。したがって、低下された情報は、捕捉された情報の簡略化または低下されたバージョンであり得る。いくつかの構成では、単一のモダリティまたは入力タイプ(たとえば、ボイスまたは音声、指紋、虹彩走査、など)だけの低下された情報は、信頼できるユーザ識別に使用され得ない。しかしながら、複数のモダリティまたは入力タイプからの低下された情報の組合せは、依然として強い認証を提供することができる。したがって、「虹彩」または「指紋」の走査は、低下されないバージョンがそれ自体、高い特異性強度を提供し得るとしても、ボイスパスワードのような追加のモダリティを利用することができる。
パスワード評価モジュール108は、評価情報110をパスワードフィードバックモジュール112に提供し得る。評価情報110は、パスワード強度を示す情報および/またはパスワード評価において取得される情報を含み得る。たとえば、評価情報110は、抽出された特徴、特異性測定値、パスワード強度スコア、および/または他の情報を含み得る。
パスワードフィードバックモジュール112は、パスワードフィードバック114を供給し得る。たとえば、パスワードフィードバックモジュール112は、オーディオパスワードの強度の評価に基づいて、オーディオパスワードが弱いことをユーザに通知し得る。パスワードフィードバック114を供給することは、ユーザが十分に強いオーディオパスワードを決定(たとえば、選択、供給、または作成)することを可能にする場合がある。パスワードフィードバック114は、パスワード強度スコア、1つまたは複数の音声成分候補(たとえば、推奨または示唆された音声成分)、1つまたは複数の示唆されたアクション、および/または1つまたは複数のメッセージを含み得る。たとえば、パスワードフィードバック114は、パスワード強度スコアと、オーディオパスワードが弱いことを示すメッセージとを含み得る。追加または代替として、パスワードフィードバック114は、ユーザがより強いオーディオパスワードを作成するために利用し得る1つまたは複数の示唆された音声成分を含み得る。いくつかの構成では、電子デバイス102は、示唆された音声成分から成る、示唆された合成の(たとえば、知られていない)語をパスワードフィードバック114として供給することができる。追加または代替として、パスワードフィードバック114は、ユーザが追加の認証入力(たとえば、テキスト、数値コード、英数字ストリング、特別な指向性、追加の生体入力(たとえば、顔走査、虹彩走査、指紋、など))を提供できる示唆されたアクションを含み得る。
いくつかの構成では、パスワードフィードバックモジュール112は、1つまたは複数のパスワード示唆を提供し得る。たとえば、電子デバイス102(たとえば、パスワードフィードバックモジュール112)は、1つまたは複数の他のモデル(たとえば、全体的音声モデル、汎用モデル、UBM、など)から十分に高い特異性または相違を有する1つまたは複数の音声成分(たとえば、発声、音素、など)を識別し得る。たとえば、パスワードフィードバックモジュール112は、音声認識と話者検証とのシステムのペアを介して各現象に対するユーザのボイスの特異性に基づいて1つまたは複数の音声成分を識別し得る。次いで、パスワードフィードバックモジュール112は、ユーザがパスワードを作成するために1つまたは複数の候補音声成分を選択し得るような高い「特異性」を有する、いくつかの可能性のある候補音声成分(たとえば、音素、音節、発声、パスワード、など)を生成し得る。たとえば、電子デバイス102は、「あなたは、/アー(ah)/、/ク(k)/、...、<三角形の(triangular)>、<クアルコム(qualcomm)>、...、を使用できる」のようにパスワードフィードバック114を表示し得る。追加または代替として、ユーザによって発せられたパスワードに対して、それをより強化するために、詳細なパスワードフィードバック114が供給される場合がある(たとえば、「あなたのパスワードは60%の強度を有する。発声/エー(eh)/は/アー(ah)/、...で置き換えられ得る」)。
いくつかの構成では、電子デバイス102(たとえば、パスワードフィードバックモジュール112)は、マルチモダリティを有するパスワード示唆を提供し得る。たとえば、上記で説明したように、パスワードフィードバックモジュール112は、1つまたは複数の追加の認証入力(たとえば、テキスト、数値コード、英数字ストリング、空間指向性、追加の生体入力(たとえば、顔走査、虹彩走査、指紋、など))を示唆するパスワードフィードバック114を供給し得る。
いくつかの構成では、パスワードフィードバックモジュール112は、パスワードフィードバック114を生成するために、次の動作のうちの1つまたは複数を実施し得る。パスワードフィードバックモジュール112は、1つまたは複数の抽出された特徴に基づいて音声認識を実施し得る。たとえば、パスワードフィードバックモジュール112は、1つまたは複数の抽出された特徴に基づいて、1つまたは複数の認識された音声成分を決定し得る。入力に基づいて時間整合を有する現象のシーケンスを提供する任意の知られている音声認識器は、1つまたは複数の認識された音声成分を決定するために利用され得る。利用され得る音声認識器の一例は、隠れマルコフモデルツールキット(HTK)である。
パスワードフィードバックモジュール112は、特異性測定値と1つまたは複数の認識された音声成分とを整合させ得る。たとえば、パスワードフィードバックモジュール112は、1つまたは複数の認識された音声成分の発生と特異性測定値とを時間的に整合させ得る。いくつかの構成では、各音声成分(たとえば、音素)の境界に対する時間整合は、音声認識の副産物のうちの1つである。特に、パスワードフィードバックモジュール112は、整合された音声および特異性を作成するために、認識された音声成分(たとえば、音素)と、対応する時間期間の間の特異性測定値とに対する境界情報を利用し得る。たとえば、パスワードフィードバックモジュール112は、音声認識によって提供された音声成分境界によって示されるように、特異性測定値の1つまたは複数の時間的な点を音声成分境界として示し得る。
パスワードフィードバックモジュール112は、特異性測定値に基づいて1つまたは複数の音声成分を分類し得る。たとえば、パスワードフィードバックモジュール112は、1つまたは複数の音声成分の各々の特異性(たとえば、強さまたは弱さ)を決定し得る。いくつかの構成では、パスワードフィードバックモジュール112は、整合された音声成分の各々における特異性測定値(またはたとえば、平均、最大、最小など、特異性測定値に基づく何らかの値)と、1つまたは複数のしきい値とを比較し得る。音声成分に対応する特異性測定値(または特異性測定値に基づく値)がしきい値より大きい場合、対応する音声成分は、十分に特異であるまたは十分に強いとして分類され得る。いくつかの構成では、十分に特異であるまたは十分に強い(たとえば、しきい値より大きい)として分類される音声成分は、パスワードフィードバック114において示唆として供給され得る。さらに、同様の音声成分および/または発声、語、句、ならびに/あるいは音声成分または同様の音声成分を含むパスワードは、パスワードフィードバック114において示唆として供給され得る。
パスワードフィードバックモジュール112は、パスワードフィードバック114を1つまたは複数の出力デバイス116に供給し得る。したがって、1つまたは複数の出力デバイス116は、パスワードフィードバック114をユーザに中継または伝達することができる。たとえば、出力デバイス116(たとえば、ディスプレイ、タッチスクリーン、スピーカ、など)は、オーディオパスワードの強度と関連付けられたラベルを中継し得る。一手法では、ディスプレイパネルは、パスワード強度スコアを表示し得る。追加または代替として、スピーカは、パスワード強度スコア(たとえば、「あなたのパスワードは弱い」、「あなたのパスワードは60%の強度である」、など)を示す(たとえば、テキストから音声への)音響信号を出力し得る。
いくつかの構成では、出力デバイス116は、1つまたは複数の示唆を中継し得る。たとえば、表示パネルは、音素、音節、語、発声および/または句(たとえば、「/アー(ah)/、/エー(eh)/、/ク(k)/、/三角形の(triangular)/、/蜃気楼(mirage)/」)など、1つまたは複数の示唆された音声成分を表示し得る。追加または代替として、スピーカは、1つまたは複数の示唆(たとえば、「あなたのパスワードに/アー(ah)/、/エー(eh)/、/ク(k)/、/三角形の(triangular)/、/蜃気楼(mirage)/、および/または追加の入力タイプを追加してください」)を中継するために、音響信号を出力し得る。
いくつかの構成では、パスワードフィードバック114は、1つまたは複数のグラフィカルユーザインターフェース(GUI)を介して供給され得る。たとえば、ラベル(たとえば、パスワード強度スコア)、1つまたは複数の示唆、および/または1つまたは複数のメッセージが、GUI上に提示され得る。いくつかの構成では、GUIはまた、ユーザ入力を受信するためのインターフェースを提供し得る。たとえば、ユーザは、GUIを介して1つまたは複数の示唆(たとえば、1つまたは複数の候補音声成分、合成語、示唆されたパスワード、1つまたは複数の追加の認証入力オプション、など)を選択し得る。
いくつかの構成では、電子デバイス102は、検証モジュール(図示せず)を含み得る。検証モジュールは、オーディオパスワードに基づいて、話しているユーザが真のユーザであるか否かを検証し得る。検証手順は、パスワード評価手順と別個であってよいことに留意されたい。たとえば、検証は、パスワード(たとえば、オーディオパスワードおよび/または1つまたは複数の追加の認証入力)が設定されるまでは発生しない。したがって、本明細書で開示するパスワードの評価および示唆は、たとえば、パスワードが設定された後でのみ発生し得るパスワード検証とは別個である手順を含み得る。
図2は、オーディオパスワードの強度を評価するための方法200の一構成を例示する流れ図である。図1に関して説明する電子デバイス102は、方法200を実施し得る。
電子デバイス102は、1つまたは複数のマイクロフォン104によって捕捉されたオーディオ信号106を取得し得る202。これは、図1に関して上記で説明したように成し遂げられ得る。オーディオ信号106は、オーディオパスワードを含み得る。
電子デバイス102は、オーディオ信号106の1つまたは複数の特性(たとえば、特異な特性)を測定することに基づいて、オーディオパスワードの強度を評価し得る204。これは、図1に関して上記で説明したように成し遂げられ得る。たとえば、電子デバイス102は、1つまたは複数の全体的音声モデル(たとえば、UBM)からの特異性または相違の程度を用いて、オーディオパスワードの1つまたは複数の音声成分(たとえば、発声、音素、など)の強度を評価し得る204。いくつかの構成では、上記で説明したように、パスワード評価モジュール108は、複数の全体的音声モデル(たとえば、UBM)を利用し得る。たとえば、複数の全体的音声モデルは、ユーザの入力、および/または地理的位置(たとえば、郵便番号、都市、郡、州、国、など)、性別、年齢、言語、地域方言などの特性に基づいて利用(たとえば、選択、および/または適合、など)され得る。
いくつかの構成では、電子デバイス102は、オーディオ信号106の1つまたは複数の特異な特性を次のように測定することに基づいて、オーディオパスワードの強度を評価し得る204。電子デバイス102は、オーディオ信号106から1つまたは複数の特徴を抽出し得る。電子デバイス102は、1つまたは複数の全体的音声モデル(たとえば、UBM)に基づいてオーディオ信号106の特異性測定値を取得することができる。電子デバイス102は、特異性測定値に基づいてパスワード強度スコアを決定し得る。
いくつかの構成では、電子デバイス102は、オーディオパスワードが十分に強いかどうかを(たとえば、任意の確率に従って、ユーザ選好に従って、および/または詐称者がオーディオパスワードを発声することによって真のユーザとして合格する可能性を非常に低くするのに十分に)決定し得る。たとえば、パスワード評価モジュール108は、パスワード強度スコアを、ある値と比較し得る。その値は、前のパスワード強度スコアおよび/またはしきい値であり得る。
電子デバイス102は、パスワードフィードバック114を供給し得る。これは、図1に関して上記で説明したように成し遂げられ得る。たとえば、電子デバイス102は、(たとえば、パスワード強度スコアがある値より大きくないとき)オーディオパスワードの強度の評価に基づいて、オーディオパスワードが弱いことをユーザに通知し得る206。パスワードフィードバック114は、パスワード強度スコア、1つまたは複数の音声成分候補(たとえば、推奨または示唆された音声成分)、1つまたは複数の示唆されたアクション、および/または1つまたは複数のメッセージを含み得る。たとえば、パスワードフィードバック114は、パスワード強度スコアと、オーディオパスワードが弱いことを示すメッセージとを含み得る。追加または代替として、パスワードフィードバック114は、ユーザがより強いオーディオパスワードを作成するために利用し得る1つまたは複数の示唆された音声成分を含み得る。追加または代替として、パスワードフィードバック114は、ユーザが追加の認証入力(たとえば、テキスト、数値コード、英数字ストリング、特別な指向性、追加の生体入力(たとえば、顔走査、虹彩走査、指紋、など))を提供できる示唆されたアクションを含み得る。
パスワードフィードバック114は、1つまたは複数の出力デバイス116に供給され得る。したがって、図1に関して上記で説明したように、1つまたは複数の出力デバイス116は、パスワードフィードバック114(たとえば、ラベル、1つまたは複数の示唆された音声成分、1つまたは複数の示唆されたアクション、など)をユーザに中継または伝達し得る。
電子デバイス102は、ユーザ入力を随意に検証することができる。たとえば、電子デバイス102は、パスワード(たとえば、オーディオパスワードおよび/または追加の認証入力)が設定された後、ユーザ入力を受信し得る。電子デバイス102は、ユーザ入力が十分に(たとえば、十分に高い確率で)パスワードと適合するかどうかを決定し得る。オーディオパスワード検証への1つの手法は、図9に関して提供される。ユーザ入力が、(たとえば、しきい値の確率に対して、および/または追加の認証入力に対する1つもしくは追加の基準に従って)パスワードに十分に適合する場合、電子デバイス102は、アクセスを容認することができる。たとえば、電子デバイス102は、ユーザ入力がパスワードに十分に適合する場合、ユーザが1つまたは複数の機能(たとえば、アプリケーション、呼び出し、など)にアクセスすることを許可し得る。
図3は、特異性測定値の一例を例示するグラフを含む。特に、図3は、グラフA 318a、グラフB 318b、およびグラフC 318cを含む。グラフA 318aの垂直軸はメル周波数スケールで示され、グラフA 318aの水平軸は時間(フレーム)で示される。グラフB 318bの垂直軸は尤度比を示し、グラフB 318bの水平軸は時間(フレーム)で示される。グラフC 318cの垂直軸は尤度比を示し、グラフC 318cの水平軸は時間(フレーム)で示される。
グラフA 318aは、オーディオ信号の時間にわたるメル周波数におけるスペクトログラムを示す。オーディオ信号は、句(たとえば、オーディオパスワード)「オアシスは蜃気楼であった(the oasis was a mirage)」を含む。音声成分A 320は、発声「であった(was a)」を含む。音声成分B 322は、語「蜃気楼(mirage)」の中の発声「アー(ah)」を含む。
グラフB 318bは、経時的に真のユーザ(たとえば、認証されるべき真の話者またはユーザ)に対する特異性測定値(たとえば、尤度比)の一例を示す。特異性測定値は、グラフA 318aに対応する。この例では、特異性測定値は、真のユーザの音声(たとえば、ユーザ音声モデル)とUBMとの間の尤度比である。グラフB 318bにおいて観察され得るように、音声成分A 320(たとえば、「であった(was a)」)は、低い特異性を有する。しかしながら、音声成分B 322(たとえば、「蜃気楼(mirage)」の中の「アー(ah)」)は、真のユーザに対する高い特異性を有する。
グラフC 318cは、経時的な詐称者に対する特異性測定値(たとえば、尤度比)の一例を示す。特異性測定値は、グラフA 318aに対応する。この例では、特異性測定値は、詐称者の音声(たとえば、詐称者の音声モデル)とUBMとの間の尤度比である。グラフC 318cにおいて観察され得るように、音声成分A 320(たとえば、「であった(was a)」)および音声成分B 322は、低い特異性を有する。図3に示すように、真のユーザに対して上昇した特異性(たとえば、尤度比)を与えるが、詐称者に対して低い尤度比を与える音声成分(たとえば、音素、音節、語、など)は、より強いパスワードを作成するために利用され得る。
図4は、オーディオパスワードの強度を評価するためのシステムおよび方法が実施され得る電子デバイス402のより具体的な構成を例示するブロック図である。図4に関して説明する電子デバイス402は、図1に関して説明した電子デバイス102の一例であり得る。
電子デバイス402は、1つまたは複数のマイクロフォン404、パスワード評価モジュール408、パスワードフィードバックモジュール412、および1つまたは複数の出力デバイス416を含む。電子デバイス402に含まれる構成要素のうちの1つまたは複数は、図1に関して説明した電子デバイス102に含まれる構成要素のうちの1つまたは複数に対応し得、および/またはそれらと同様に機能し得る。
電子デバイス402は、通信モジュール436を随意に含み得る。通信モジュール436は、電子デバイス402が、1つまたは複数のリモートデバイス(たとえば、他の電子デバイス、基地局、サーバ、コンピュータ、ネットワークインフラ、など)と通信することを可能にする場合がある。通信モジュール436は、ワイヤレスおよび/またはワイヤード通信を提供し得る。たとえば、通信モジュール436は、1つまたは複数のワイヤレス仕様(たとえば、第3世代パートナーシッププロジェクト(3GPP)仕様、電気電子技術者協会(IEEE)802.11仕様、など)に従って、1つまたは複数の他のデバイスとワイヤレスに通信し得る。追加または代替として、通信モジュール436は、ワイヤードリンクを介して(たとえば、イーサネット(登録商標)、ワイヤライン通信、などを介して)他のデバイスと通信し得る。
1つまたは複数のマイクロフォン404は、オーディオ信号406を捕捉することができる。オーディオ信号406は、オーディオパスワードを含み得る。オーディオパスワードは、ユーザのアイデンティティを検証するために、1つまたは複数の音(たとえば、音素、音節、語、句、文、発声など、1つまたは複数の音声成分)を含み得る。オーディオ信号406は、パスワード評価モジュール408に供給され得る。
パスワード評価モジュール408は、特徴抽出モジュール424、特異性測定モジュール428、および/またはパスワード強度スコアリングモジュール432を含み得る。
パスワード評価モジュール408(たとえば、特徴抽出モジュール424)は、1つまたは複数のマイクロフォン404によって捕捉されたオーディオ信号406を取得(たとえば、受信)し得る。特徴抽出モジュール424は、抽出された特徴426を取得するために、オーディオ信号406から1つまたは複数の特徴を抽出し得る。これは、図1に関して上記で説明したように成し遂げられ得る。たとえば、特徴抽出モジュール424は、オーディオ信号406に基づいて1つまたは複数のMFCCを決定し得る。MFCCは、抽出された特徴426の一例であり得る。特徴抽出モジュール424は、特異性測定モジュール428に結合され得る。特徴抽出モジュール424は、抽出された特徴426を特異性測定モジュール428に供給し得る。
特異性測定モジュール428は、1つまたは複数の全体的音声モデル(たとえば、UBM)に基づいてオーディオ信号406の特異性測定値430を取得することができる。いくつかの構成では、特異性測定値は、オーディオ信号406と全体的音声モデルとの間の尤度比であり得る。図3におけるグラフB 318bは、特異性測定値430(たとえば、尤度比)の一例を示す。いくつかの構成では、電子デバイス402は、特異性測定値430をローカルに決定(たとえば、計算)し得る。たとえば、電子デバイス402は、特異性測定値430を決定するために利用され得る1つまたは複数の全体的音声モデルをローカルに記憶し得る。他の構成では、電子デバイス402は、リモートデバイス(たとえば、サーバ、中央サーバ)から特異性測定値430を受信し得る。たとえば、リモートデバイス(たとえば、サーバ、中央サーバ)は、特異性測定値430をリモートに決定するために使用され得る1つまたは複数の全体的音声モデルを記憶し得る。
いくつかの構成では、全体的音声モデルは、図1に関して上記で説明したように取得および/または更新され得る。たとえば、電子デバイス402および/またはリモートデバイス(たとえば、サーバ)は、全体的音声モデルを取得および/または更新することができる。いくつかの構成では、電子デバイス402は、全体的音声モデルを取得および/または更新することができる。たとえば、電子デバイス402(たとえば、特異性測定モジュール428)は、全体的音声モデルのために事前定義されたデータを記憶し得る。電子デバイス402は、通信モジュール436を介してリモートデバイス(たとえば、サーバ、中央サーバ、など)からデータを受信することによって、全体的音声モデルを随意に更新することができる。
いくつかの構成では、電子デバイス402(たとえば、特異性測定モジュール428)は、ユーザ特性(たとえば、性別、年齢、位置、など)を受信および/または決定することができる。たとえば、特異性測定モジュール428は、ユーザ特性を、1つまたは複数の入力デバイスを介するユーザによる入力として取得し得る。電子デバイス402(たとえば、特異性測定モジュール428)は、全体的音声モデル(たとえば、UBM)更新要求をリモートデバイス(たとえば、サーバ、中央サーバ、など)に随意に送ることができる。いくつかの手法では、全体的音声モデル更新要求は、ユーザ特性の1つまたは複数のインジケータを含み得る。リモートデバイスは、(たとえば、ユーザ特性に基づいて)電子デバイス402の全体的音声モデルに対する更新を随意に決定し得る。リモートデバイスは、全体的音声モデル(たとえば、UBM)更新データを電子デバイス402に送ることができる。全体的音声モデル更新データは、ユーザ特性に基づくことができ、ユーザ特性は、電子デバイス402(たとえば、特異性測定モジュール428)によって使用される全体的音声モデルを適合させるかまたは修正するために、電子デバイス402によって利用され得る。
いくつかの構成では、電子デバイス402は、特異性測定値要求をリモートデバイスに送ることができる。たとえば、特異性測定モジュール428は、特異性測定値要求をリモートデバイス(たとえば、サーバ)に送り得る通信モジュール436に特異性測定値要求を供給し得る。特異性測定値要求は、オーディオ信号106(たとえば、抽出された特徴426)についての情報を含み得る。この手法では、リモートデバイス(たとえば、サーバ)は、1つまたは複数の全体的音声モデル(たとえば、UBM)に基づいて特異性測定値430(たとえば、尤度比)を決定(たとえば、計算)することができる。電子デバイス402(たとえば、通信モジュール436)は、特異性測定値430を受信し、特異性測定値430を特異性測定モジュール428に供給することができる。
いくつかの構成では、リモートデバイスは、ユーザ情報(たとえば、位置、年齢、性別、など)に基づいて、その全体的音声モデルを取得、維持する、および/または適合させることができることに留意されたい。ユーザ情報は、電子デバイス402、1つまたは複数の他のデバイス、および/または1つまたは複数のサードパーティからリモートデバイスによって受信され得る。次いで、リモートデバイスは、特異性測定値を電子デバイス402に送ることができる。
特異性測定モジュール428は、特異性測定値430をパスワード強度スコアリングモジュール432に供給し得る。パスワード強度スコアリングモジュール432は、特異性測定値430に基づいて1つまたは複数のパスワード強度スコア434を決定し得る。これは、図1に関して上記で説明したように成し遂げられ得る。たとえば、パスワード強度スコアは特異性測定値であってよく、および/またはパスワード強度スコアを決定することは、特異性測定値の部分を組み合わせる(たとえば、合計する、平均化する、など)ことを含み得る。追加または代替として、パスワード強度スコアを決定することは、特異性測定値をマッピングすること、特異性測定値の1つまたは複数の部分をマッピングすること、ならびに/あるいは1つまたは複数の要約統計量を数値(たとえば、割合)、語(たとえば、「弱い」、「適度の」、「強い」、など)、および/または何らかの他のインジケータ(たとえば、色、形、など)にマッピングすることを含み得る。
図1に関して上記で説明したように、パスワード強度スコアリングモジュール432は、オーディオパスワードが十分に強いかどうかを決定し得る。たとえば、パスワード強度スコアリングモジュール432は、パスワード強度スコア434と、1つまたは複数の値(たとえば、前のパスワード強度スコアおよび/またはしきい値)とを比較し得る。いくつかの構成では、パスワード強度スコアは、オーディオパスワードと組み合わされた1つまたは複数の追加の認証入力(たとえば、空間指向性、テキスト、数値コード、英数字ストリング、追加の生態入力、など)を反映し得る。いくつかの構成では、電子デバイス402(たとえば、パスワード評価モジュール408)は、オーディオ信号406および/または追加の認証入力を低下させる場合がある。
パスワード評価モジュール408は、評価情報をパスワードフィードバックモジュール412に供給し得る。たとえば、評価情報410は、抽出された特徴426、特異性測定値430、パスワード強度スコア434、および/または他の情報を含み得る。
パスワードフィードバックモジュール412は、音声認識モジュール438、整合モジュール442、および/または音声成分分類モジュール446を随意に含み得る。音声認識モジュール438は、1つまたは複数の抽出された特徴426に基づいて音声認識を実施し得る。たとえば、パスワードフィードバックモジュール412は、1つまたは複数の抽出された特徴426に基づいて、1つまたは複数の認識された音声成分440を決定し得る。これは、図1に関して上記で説明したように成し遂げられ得る。音声認識モジュール438は、認識された音声成分440を整合モジュール442に供給し得る。
整合モジュール442は、特異性測定値430と1つまたは複数の認識された音声成分440とを整合させ得る。たとえば、整合モジュール442は、整合された音声および特異性444を作成するために、1つまたは複数の認識された音声成分440の発生と特異性測定値とを時間的に整合させ得る。これは、図1に関して上記で説明したように成し遂げられ得る。整合モジュール442は、整合された音声および特異性444を音声成分分類モジュール446に供給し得る。
音声成分分類モジュール446は、特異性測定値430に基づいて1つまたは複数の音声成分(たとえば、認識された音声成分440)を分類し得る。たとえば、パスワードフィードバックモジュール412は、整合された音声および特異性444における、1つまたは複数の認識された音声成分の各々の特異性(たとえば、強さまたは弱さ)を決定し得る。いくつかの構成では、パスワードフィードバックモジュール412は、整合された音声成分の各々における特異性測定値(またはたとえば、平均、最大、最小など、特異性測定値に基づく何らかの値)と、1つまたは複数のしきい値とを比較し得る。音声成分に対応する特異性測定値(または特異性測定値に基づく値)がしきい値より大きい場合、対応する音声成分は、十分に特異であるまたは十分に強いとして分類され得る。いくつかの構成では、十分に特異であるまたは十分に強いとして分類された(たとえば、しきい値より大きい)音声成分は、示唆としてパスワードフィードバック414に供給され得る。さらに、同様の音声成分および/または発声、語、句、ならびに/あるいは音声成分または同様の音声成分を含むパスワードは、示唆としてパスワードフィードバック414に供給され得る。
パスワードフィードバックモジュール412は、パスワードフィードバック414を1つまたは複数の出力デバイス416に供給し得る。パスワードフィードバック414は、パスワード強度スコア、1つまたは複数の音声成分候補(たとえば、推奨または示唆された音声成分)、1つまたは複数の示唆されたアクション(たとえば、1つまたは複数の追加の認証入力を示唆すること)、および/または1つまたは複数のメッセージを含み得る。したがって、1つまたは複数の出力デバイス416は、パスワードフィードバック414をユーザに中継または伝達することができる。これは、図1に関して上記で説明したように成し遂げられ得る。たとえば、出力デバイス416は、パスワードフィードバック414をテキスト、画像および/または音として出力し得る。出力は、ラベル(たとえば、パスワード強度スコア)、1つまたは複数の音声成分候補(たとえば、推奨または示唆された音声成分)、1つまたは複数の示唆されたアクション(たとえば、1つまたは複数の追加の認証入力を示唆すること)、および/または1つまたは複数のメッセージを中継し得る。
図5は、オーディオパスワードの強度を評価するための方法500のより具体的な構成を例示する流れ図である。図1および図4に関して説明した電子デバイス102、402のうちの1つまたは複数は、方法500を実施し得る。
電子デバイス402は、事前訓練に基づいて1つまたは複数の候補音声成分を随意に供給し得る502。事前訓練に基づいて1つまたは複数の候補音声成分を供給すること502の一例は、図10に関して説明される。
電子デバイス402は、1つまたは複数のマイクロフォン404によって捕捉されたオーディオ信号406を取得し得る504。これは、図1、図2および図4のうちの1つまたは複数に関して上記で説明したように成し遂げられ得る。オーディオ信号106は、オーディオパスワードを含み得る。オーディオパスワードは、ユーザのアイデンティティを検証するために、1つまたは複数の音(たとえば、音素、音節、語、句、文、発声など、1つまたは複数の音声成分)を含み得る。
電子デバイス402は、抽出された特徴426を取得するために、オーディオ信号406から1つまたは複数の特徴を抽出し得る506。これは、図1および図4のうちの1つまたは複数に関して上記で説明したように成し遂げられ得る。たとえば、電子デバイス402は、オーディオ信号406に基づいて1つまたは複数のMFCCを決定し得る。MFCCは、抽出された特徴426の一例であり得る。
電子デバイス402は、1つまたは複数の全体的音声モデル(たとえば、UBM)に基づいてオーディオ信号406の特異性測定値430を取得することができる508。これは、図1〜図4のうちの1つまたは複数に関して上記で説明したように成し遂げられ得る。いくつかの構成では、特異性測定値は、オーディオ信号406と全体的音声モデルとの間の尤度比であり得る。いくつかの構成では、電子デバイス402は、特異性測定値430をローカルに決定(たとえば、計算)することができる。たとえば、電子デバイス402は、特異性測定値430を決定するために利用され得る1つまたは複数の全体的音声モデル(たとえば、ローカルUBM)をローカルに記憶し得る。他の構成では、電子デバイス402は、リモートデバイス(たとえば、サーバ、中央サーバ)から特異性測定値430を受信し得る。たとえば、リモートデバイス(たとえば、サーバ、中央サーバ)は、特異性測定値430をリモートに決定するために使用され得る1つまたは複数の全体的音声モデルを記憶し得る。いくつかの構成では、電子デバイス402は、特異性測定値要求をリモートデバイスに送ることができる。特異性測定値要求は、オーディオ信号406(たとえば、抽出された特徴426)についての情報を含み得る。この手法では、リモートデバイス(たとえば、サーバ)は、1つまたは複数の全体的音声モデル(たとえば、UBM)に基づいて特異性測定値430(たとえば、尤度比)を決定(たとえば、計算)することができる。電子デバイス402は、特異性測定値430を受信し得る。
電子デバイス402は、特異性測定値430に基づいてパスワード強度スコア434を決定し得る510。これは、図1および図4のうちの1つまたは複数に関して上記で説明したように成し遂げられ得る。
電子デバイス402は、パスワード強度スコアがある値より大きいかどうかを決定し得る512。これは、図1および図4のうちの1つまたは複数に関して上記で説明したように成し遂げられ得る。たとえば、電子デバイス402は、パスワード強度スコア434とある値(たとえば、前のパスワード強度スコアおよび/またはしきい値)とを比較し得る。
パスワード強度スコア434がその値(たとえば、前のパスワード強度スコアおよび/またはしきい値)より大きい場合、電子デバイス402は、オーディオ信号406に基づいてパスワードを設定し得る516。いくつかの構成では、電子デバイス402は、オーディオ信号406を記憶し、および/またはオーディオ信号406をパスワードとして指示することができる。追加または代替として、電子デバイス402は、オーディオ信号406に含まれる認識された音声成分の組合せをパスワードとして記憶および/または指示し得る。
パスワード強度スコア434がその値より大きくない(たとえば、その値以下である)場合、電子デバイス402は、パスワードフィードバックを供給し得る514。これは、図1、図2および図4のうちの1つまたは複数に関して上記で説明したように成し遂げられ得る。たとえば、電子デバイス402は、パスワードフィードバック414を供給および/または出力し得る。パスワードフィードバック414は、パスワード強度スコア、1つまたは複数の音声成分候補(たとえば、推奨または示唆された音声成分)、1つまたは複数の示唆されたアクション(たとえば、1つまたは複数の追加の認証入力を示唆すること)、および/または1つまたは複数のメッセージを含み得る。たとえば、電子デバイス402は、パスワードフィードバック414をテキスト、画像および/または音として出力し得る。出力は、ラベル(たとえば、パスワード強度スコア)、1つまたは複数の音声成分候補(たとえば、推奨または示唆された音声成分)、1つまたは複数の示唆されたアクション(たとえば、1つまたは複数の追加の認証入力を示唆すること)、および/または1つまたは複数のメッセージを中継し得る。
図6は、オーディオパスワードの強度を評価するための方法600の別のより具体的な構成を例示する流れ図である。特に、この構成は、1つまたは複数の示唆を供給するために実施され得る動作の一例を提供する。図1および図4に関して説明した電子デバイス102、402のうちの1つまたは複数は、方法600を実施し得る。
電子デバイス402は、事前訓練に基づいて1つまたは複数の候補音声成分を随意に供給し得る602。事前訓練に基づいて1つまたは複数の候補音声成分を供給すること602の一例は、図10に関して説明される。
電子デバイス402は、1つまたは複数のマイクロフォン404によって捕捉されたオーディオ信号406を取得し得る604。これは、図1、図2、図4および図5のうちの1つまたは複数に関して上記で説明したように成し遂げられ得る。
電子デバイス402は、抽出された特徴426を取得するために、オーディオ信号406から1つまたは複数の特徴を抽出し得る606。これは、図1、図4および図5のうちの1つまたは複数に関して上記で説明したように成し遂げられ得る。
電子デバイス402は、1つまたは複数の全体的音声モデル(たとえば、UBM)に基づいてオーディオ信号406の特異性測定値430を取得することができる608。これは、図1、図4および図5のうちの1つまたは複数に関して上記で説明したように成し遂げられ得る。
電子デバイス402は、特異性測定値430に基づいてパスワード強度スコア434を決定し得る610。これは、図1、図4および図5のうちの1つまたは複数に関して上記で説明したように成し遂げられ得る。
電子デバイス402は、パスワード強度スコアがある値より大きいかどうかを決定し得る612。これは、図1、図4および図5のうちの1つまたは複数に関して上記で説明したように成し遂げられ得る。
パスワード強度スコア434がその値(たとえば、前のパスワード強度スコアおよび/またはしきい値)より大きい場合、電子デバイス402は、オーディオ信号406に基づいてパスワードを設定し得る622。これは、図5に関して上記で説明したように成し遂げられ得る。
パスワード強度スコア434がその値より大きくない(たとえば、その値以下である)場合、電子デバイス402は、1つまたは複数の抽出された特徴426に基づいて音声認識を実施し得る614。たとえば、電子デバイス402は、1つまたは複数の抽出された特徴426に基づいて、1つまたは複数の認識された音声成分440を決定し得る。これは、図1に関して上記で説明したように成し遂げられ得る。
電子デバイス402は、特異性測定値430と1つまたは複数の認識された音声成分440とを整合させ得る616。たとえば、電子デバイス402は、整合された音声および特異性444を作成するために、1つまたは複数の認識された音声成分の発生と特異性測定値とを時間的に整合させ得る。これは、図1および図4のうちの1つまたは複数に関して上記で説明したように成し遂げられ得る。
電子デバイス402は、特異性測定値430に基づいて1つまたは複数の音声成分(たとえば、認識された音声成分440)を分類し得る618。たとえば、電子デバイス402は、整合された音声および特異性444における、1つまたは複数の認識された音声成分の各々の特異性(たとえば、強さまたは弱さ)を決定し得る。いくつかの構成では、パスワードフィードバックモジュール412は、整合された音声成分の各々における特異性測定値(またはたとえば、平均、最大、最小など、特異性測定値に基づく何らかの値)と、1つまたは複数のしきい値とを比較し得る。音声成分に対応する特異性測定値(または特異性測定値に基づく値)がしきい値より大きい場合、対応する音声成分は、十分に特異であるまたは十分に強いとして分類され得る。いくつかの構成では、十分に特異であるまたは十分に強いとして分類された(たとえば、しきい値より大きい)音声成分は、示唆としてパスワードフィードバック414に供給され得る620。さらに、同様の音声成分および/または発声、語、句、ならびに/あるいは音声成分または同様の音声成分を含むパスワードは、示唆としてパスワードフィードバック414に供給され得る620。
電子デバイス402は、パスワードフィードバックを供給し得る620。これは、図1、図4および図5のうちの1つまたは複数に関して上記で説明したように成し遂げられ得る。たとえば、電子デバイス402は、パスワードフィードバック414を供給および/または出力し得る。パスワードフィードバック414は、パスワード強度スコア、1つまたは複数の音声成分候補(たとえば、推奨または示唆された音声成分)、1つまたは複数の示唆されたアクション(たとえば、1つまたは複数の追加の認証入力を示唆すること)、および/または1つまたは複数のメッセージを含み得る。たとえば、電子デバイス402は、パスワードフィードバック414をテキスト、画像および/または音として出力し得る。出力は、ラベル(たとえば、パスワード強度スコア)、1つまたは複数の音声成分候補(たとえば、推奨または示唆された音声成分)、1つまたは複数の示唆されたアクション(たとえば、1つまたは複数の追加の認証入力を示唆すること)、および/または1つまたは複数のメッセージを中継し得る。いくつかの構成では、電子デバイス402は、示唆された音声成分から成る、示唆された合成の(たとえば、知られていない)語をパスワードフィードバックとして供給することができる620。
図7は、オーディオパスワードの強度を評価するための方法700の別のより具体的な構成を例示する流れ図である。特に、この構成は、他のユーザのモデルを用いるパスワード強度評価および示唆のために実施され得る動作の一例を提供する。図1および図4に関して説明した電子デバイス102、402のうちの1つまたは複数は、方法700を実施し得る。
電子デバイス402は、事前訓練に基づいて1つまたは複数の候補音声成分を随意に供給し得る702。事前訓練に基づいて1つまたは複数の候補音声成分を供給すること702の一例は、図10に関して説明される。
電子デバイス402は、1つまたは複数のマイクロフォン404によって捕捉されたオーディオ信号406を取得し得る704。これは、図1、図2、および図4〜図6のうちの1つまたは複数に関して上記で説明したように成し遂げられ得る。
電子デバイス402は、抽出された特徴426を取得するために、オーディオ信号406から1つまたは複数の特徴を抽出し得る706。これは、図1および図4〜図6のうちの1つまたは複数に関して上記で説明したように成し遂げられ得る。
電子デバイス402は、特異性測定値要求を(たとえば、リモートデバイスに)送ることができる708。これは、図4に関して上記で説明したように成し遂げられ得る。たとえば、電子デバイス402は、特異性測定値要求をワイヤードおよび/またはワイヤレス通信を介してリモートデバイス(たとえば、サーバ)に送ることができる。特異性測定値要求は、オーディオ信号406(たとえば、抽出された特徴426)についての情報を含み得る。この手法では、リモートデバイス(たとえば、サーバ)は、1つまたは複数の全体的音声モデル(たとえば、UBM、他のユーザの音声モデル、など)に基づいて特異性測定値430(たとえば、尤度比)を決定(たとえば、計算)することができる。いくつかの構成では、リモートデバイスは、ユーザ情報(たとえば、位置、年齢、性別、など)に基づいて、その全体的音声モデルを取得、維持する、および/または適合させることができることに留意されたい。ユーザ情報は、電子デバイス402、1つまたは複数の他のデバイス、および/または1つまたは複数のサードパーティからリモートデバイスによって受信され得る。次いで、リモートデバイスは、特異性測定値を電子デバイス402に送ることができる。
電子デバイス402(たとえば、通信モジュール436)は、特異性測定値430を受信し得る710。たとえば、電子デバイス402は、特異性測定値430をワイヤードおよび/またはワイヤレス通信を介してリモートデバイス(たとえば、サーバ)から受信し得る710。
電子デバイス402は、特異性測定値430に基づいてパスワード強度スコア434を決定し得る712。これは、図1および図4〜図6のうちの1つまたは複数に関して上記で説明したように成し遂げられ得る。
電子デバイス402は、パスワード強度スコアがある値より大きいかどうかを決定し得る714。これは、図1および図4〜図6のうちの1つまたは複数に関して上記で説明したように成し遂げられ得る。
パスワード強度スコア434がその値(たとえば、前のパスワード強度スコアおよび/またはしきい値)より大きい場合、電子デバイス402は、オーディオ信号406に基づいてパスワードを設定し得る724。これは、図5および図6のうちの1つまたは複数に関して上記で説明したように成し遂げられ得る。
パスワード強度スコア434がその値より大きくない(たとえば、その値以下である)場合、電子デバイス402は、1つまたは複数の抽出された特徴426に基づいて音声認識を随意に実施し得る716。これは、図1および図6のうちの1つまたは複数に関して上記で説明したように成し遂げられ得る。
電子デバイス402は、特異性測定値430と1つまたは複数の認識された音声成分440とを随意に整合させ得る718。これは、図1、図4および図6のうちの1つまたは複数に関して上記で説明したように成し遂げられ得る。
電子デバイス402は、特異性測定値430に基づいて1つまたは複数の音声成分(たとえば、認識された音声成分440)を随意に分類し得る720。これは、図1、図4および図6のうちの1つまたは複数に関して上記で説明したように成し遂げられ得る。
電子デバイス402は、パスワードフィードバックを供給し得る722。これは、図1および図4〜図6のうちの1つまたは複数に関して上記で説明したように成し遂げられ得る。
図8は、オーディオパスワードの強度を評価するための方法800の別のより具体的な構成を例示する流れ図である。特に、この構成は、全体的音声モデルを更新するために実施され得る動作の一例を提供する。図1および図4に関して説明した電子デバイス102、402のうちの1つまたは複数は、方法800を実施し得る。
電子デバイス402は、事前訓練に基づいて1つまたは複数の候補音声成分を随意に供給し得る802。事前訓練に基づいて1つまたは複数の候補音声成分を供給すること802の一例は、図10に関して説明される。
電子デバイス402は、1つまたは複数のマイクロフォン404によって捕捉されたオーディオ信号406を取得し得る804。これは、図1、図2および図4〜図7のうちの1つまたは複数に関して上記で説明したように成し遂げられ得る。
電子デバイス402は、抽出された特徴426を取得するために、オーディオ信号406から1つまたは複数の特徴を抽出し得る806。これは、図1および図4〜図7のうちの1つまたは複数に関して上記で説明したように成し遂げられ得る。
電子デバイス402は、1つまたは複数のユーザ特性を取得し得る808。ユーザ特性の例は、地理的位置(たとえば、郵便番号、都市、郡、州、国、など)、性別、年齢、言語、および/または地域方言、などを含む。たとえば、電子デバイス402は、1つまたは複数のユーザ特性を示す(たとえば、ユーザからの)1つまたは複数の入力を受信し得る。追加または代替として、電子デバイス402は、1つまたは複数のユーザ特性を1つまたは複数のセンサから取得し得る808。たとえば、電子デバイス402は、マイクロフォン404から捕捉された音声に基づいてユーザの性別、言語および/または地域方言を決定し得る。追加または代替として、電子デバイス402は、マイクロフォン404から捕捉された音声に基づいてユーザの年齢を推定し得る。追加または代替として、電子デバイス402は、全地球測位システム(GPS)モジュールからのデータに基づいて地理的位置を決定し得る。追加または代替として、電子デバイス402は、1つまたは複数のユーザ特性をリモートデバイス(たとえば、サービスプロバイダのサーバ)から要求し得る。
電子デバイス402は、1つまたは複数のユーザ特性に基づいて全体的音声モデルを更新し得る810。これは、図1および図4のうちの1つまたは複数に関して上記で説明したように成し遂げられ得る。たとえば、電子デバイス402および/またはリモートデバイス(たとえば、サーバ)は、全体的音声モデルを更新し得る810。いくつかの構成では、電子デバイス402は、ユーザ特性に基づいて全体的音声モデルをローカルに更新し得る810。たとえば、電子デバイス402は、全体的音声モデルに対して事前定義されたデータを随意に記憶し得、全体的音声モデルを、電子デバイス402は、ユーザの特性に類似する特性を有する他のユーザのデータのみを含めることによってローカルに更新し得る810。
電子デバイス402は、通信モジュール436を介して、ユーザ特性をリモートデバイス(たとえば、サーバ)に送ることおよび/またはリモートデバイス(たとえば、サーバ、中央サーバ、など)からデータを受信することによって、ユーザ特性に基づいて全体的音声モデルを随意に更新し得る810。たとえば、電子デバイス402は、全体的音声モデル(たとえば、UBM)更新要求をリモートデバイス(たとえば、サーバ、中央サーバ、など)に送ることができる。いくつかの手法では、全体的音声モデル更新要求は、ユーザ特性の1つまたは複数のインジケータを含み得る。いくつかの構成では、リモートデバイスは、ユーザ特性に基づいてリモートデバイス上に記憶された1つまたは複数の全体的音声モデルを更新し得る。追加または代替として、リモートデバイスは、(たとえば、ユーザ特性に基づいて)電子デバイス402の全体的音声モデルに対する更新を随意に決定し得る。リモートデバイスは、全体的音声モデル(たとえば、UBM)更新データを電子デバイス402に送ることができる。
電子デバイス402は、1つまたは複数の全体的音声モデル(たとえば、UBM)に基づいてオーディオ信号406の特異性測定値430を取得することができる812。これは、図1および図4〜図7のうちの1つまたは複数に関して上記で説明したように成し遂げられ得る。
電子デバイス402は、特異性測定値430に基づいてパスワード強度スコア434を決定し得る814。これは、図1および図4〜図7のうちの1つまたは複数に関して上記で説明したように成し遂げられ得る。
電子デバイス402は、パスワード強度スコアがある値より大きいかどうかを決定し得る816。これは、図1および図4〜図7のうちの1つまたは複数に関して上記で説明したように成し遂げられ得る。
パスワード強度スコア434がその値(たとえば、前のパスワード強度スコアおよび/またはしきい値)より大きい場合、電子デバイス402は、オーディオ信号406に基づいてパスワードを設定し得る826。これは、図5〜図7のうちの1つまたは複数に関して上記で説明したように成し遂げられ得る。
パスワード強度スコア434がその値より大きくない(たとえば、その値以下である)場合、電子デバイス402は、1つまたは複数の抽出された特徴426に基づいて音声認識を随意に実施し得る818。これは、図1、図6および図7のうちの1つまたは複数に関して上記で説明したように成し遂げられ得る。
電子デバイス402は、特異性測定値430と1つまたは複数の認識された音声成分440とを随意に整合させ得る820。これは、図1、図4、図6および図7のうちの1つまたは複数に関して上記で説明したように成し遂げられ得る。
電子デバイス402は、特異性測定値430に基づいて1つまたは複数の音声成分(たとえば、認識された音声成分440)を随意に分類し得る822。これは、図1、図4、図6および図7のうちの1つまたは複数に関して上記で説明したように成し遂げられ得る。
電子デバイス402は、パスワードフィードバックを供給し得る824。これは、図1および図4〜図7のうちの1つまたは複数に関して上記で説明したように成し遂げられ得る。
図9は、話者(たとえば、ユーザ)認識モデルの一例を例示するブロック図である。話者認識モデルは、テキスト非依存話者認識に基づき得る。1つのモデルは、MFCCおよびUBM-GMMに基づく。これは、GMMを使用してUBMを訓練するステップを含む。図9に示すように、訓練するステップ948は、全体的音声モデル生成952に対する音声訓練950を利用するステップを含み得る。
いくつかの手法では、話者登録954は、全体的音声モデル(たとえば、UBM)に対する最大事後確率(maximum a posteriori)(MAP)適合を使用して実施され得る。図9に示すように、登録954(たとえば、適合)は、ユーザ音声モデル生成958に対してユーザ音声956を利用するステップを含み得る。
いくつかの手法では、各音声発声962は、全体的音声モデル(たとえば、UBM)と登録された話者モデルの各々との間で尤度比を比較することによって検証され得る。図9に示すように、各発声962は、検証964手順において利用され得る。たとえば、検証964手順は、式(1)および/または式(2)に従って実施され得る。たとえば、検証964手順は、
に従って実施されてよく、ここで、tは時間であり、Xは発声962またはオーディオ信号であり、λtargetはターゲット(たとえば、真のユーザ音声)モデルであり、λgenericは全体的音声モデル(たとえば、UBM)であり、p(X|λtarget)は、Xが真のユーザに対応する確率であり、p(X|λgeneric)は、Xが一般的ユーザ(たとえば、詐称者、真でないユーザ、非ユーザ依存モデル、または全体的音声モデル)に対応する確率であり、θは検証しきい値である。複数の話者が識別されるとき、最も高い尤度を生み出す話者が、選択され得る。追加または代替として、他の分類器(たとえば、サポートベクトルマシンまたはニューラルネットワーク)が、利用され得る。
図10は、事前訓練に基づいて1つまたは複数の候補音声成分を供給するための方法1000の一構成を例示する流れ図である。たとえば、図10に関して説明した手順のうちの1つまたは複数が、登録に対する事前訓練において利用され得る。たとえば、登録に対する事前訓練は、(たとえば、図5〜図8のうちの1つまたは複数に関して説明したステップ502、602、702および802のうちの1つまたは複数において)評価のためのオーディオパスワードを受信する前に発生し得る。
登録および比較についてのさらなる詳細が、以下で与えられる。ユーザを登録するための1つの手法は、全体的音声モデル(たとえば、UBM)からのユーザのモデルを適合させるのに十分な音素を提供するために、しばらくの間、ユーザに話させることを含む場合がある。いくつかの構成では、電子デバイス102、402は、訓練時間を最小化するために、いくつかの事前定義された音声学的にバランスをとられた文を提供し得る。追加または代替として、ユーザは、(たとえば、全体的音声モデルを十分に訓練し、ユーザの音声モデルに適合させるために)十分長いスクリプトを読む場合がある。
追加または代替として、ユーザはそのデバイスの所有者(たとえば、真のユーザ)であるものと仮定して、電子デバイス102、402は、呼の間にユーザのデータ(たとえば、音声)を収集することができる。データサイズに関して一定のレベルに到達すると、電子デバイス102、402は、ボイスパスワードが可能にされ得ることをユーザに通告または通知する(たとえば、メッセージを表示する、メッセージを与える音声を出力する)ことができる。いくつかの構成では、電子デバイスは、ユーザの音声モデルの更新を継続することができる。このようにして、経時的なユーザの音質の変化(たとえば、年齢依存性変化)が、モニタされ得る。
図1および図4のうちの1つまたは複数に関して説明した電子デバイス102、402のうちの1つまたは複数は、方法1000を実施し得る。図10に関して説明したように、事前訓練または登録の間に実施される手順のうちの1つまたは複数は、(たとえば、図1、図2および図4〜図8のうちの1つまたは複数に関して説明したように)オーディオパスワードを取得および評価するときに実施される手順のうちの1つまたは複数に類似する場合があるが、図10に関して説明した手順のうちの1つまたは複数は、上記で説明したようにオーディオパスワードを取得するときに遂行される手順とは別個に、および/またはその前に遂行され得ることに留意されたい。
電子デバイス402は、ユーザオーディオ信号406を受信し得る1002。たとえば、ユーザオーディオ信号406は、1つまたは複数のマイクロフォン404によって捕捉され得る。ユーザオーディオ信号406は、たとえば、ユーザがスクリプトを読む間、または電話呼を行う間に受信され得る。
電子デバイス402は、ユーザオーディオ信号406が良好な音響条件において受信されたかどうかを決定し得る1004。たとえば、電子デバイス402は、ユーザオーディオ信号406の信号対雑音比(SNR)を決定し得る。SNRがSNRしきい値を超える場合、電子デバイス402は、ユーザオーディオ信号406が良好な音響条件において受信されたものと決定し得る1004。SNRがSNRしきい値を超えない(たとえば、しきい値以下である)場合、電子デバイス402は、ユーザオーディオ信号406が良好な音響条件において受信されなかったものと決定し得る1004。ユーザオーディオ信号406が良好な音響条件において受信されなかった場合、電子デバイス402は、受信されたユーザオーディオ信号406を破棄し、後続のユーザオーディオ信号406を受信するステップ1002に戻ることができる。
ユーザオーディオ信号406が良好な音響条件において受信された場合、電子デバイス402は、抽出された特徴426を取得するためにオーディオ信号406から1つまたは複数の特徴を抽出することができる1006。たとえば、電子デバイス402は、オーディオ信号406に基づいて1つまたは複数のMFCCを決定し得る。
電子デバイス402は、1つまたは複数の全体的音声モデル(たとえば、UBM)に基づいてオーディオ信号406の特異性測定値430を決定し得る1008。いくつかの構成では、特異性測定値は、オーディオ信号406と全体的音声モデルとの間の尤度比であり得る。いくつかの構成では、電子デバイス402は、特異性測定値430をローカルに決定(たとえば、計算)し得る。他の構成では、電子デバイス402は、リモートデバイス(たとえば、サーバ)から特異性測定値430を要求し、受信することができる。
電子デバイス402は、1つまたは複数の抽出された特徴426に基づいて音声認識を実施し得る1010。たとえば、電子デバイス402は、1つまたは複数の抽出された特徴426に基づいて、1つまたは複数の認識された音声成分440を決定し得る。
電子デバイス402は、特異性測定値430と1つまたは複数の認識された音声成分440とを整合させ得る1012。たとえば、電子デバイス402は、整合された音声および特異性444を作成するために、1つまたは複数の認識された音声成分の発生と特異性測定値とを時間的に整合させ得る。
電子デバイス420は、1つまたは複数の音声成分(たとえば、認識された音声成分)に対する特異性統計量を更新し得る1014。たとえば、電子デバイス402は、その音声成分に対応する特異性測定値に基づいて、音声成分に対する特異性統計量を更新し得る1014。いくつかの構成では、電子デバイス402は、1つまたは複数の認識された音声成分に対応する特異性測定値(またはたとえば、最大、最小もしくは平均などの特異性測定値に基づく値)を、それらが捕捉され、認識されたときに記憶することができる。その後、認識された音声成分が取得されるときごとに、電子デバイス402は、特異性統計量を更新し得る。たとえば、電子デバイス402は、記憶された特異性測定値(または値)および現在の特異性測定値(または値)に基づいて、何らかの統計的測定値(たとえば、平均、など)を計算し得る。次いで、電子デバイス402は、更新された統計的測定値を記憶し得る。
電子デバイス402は、1つまたは複数の音声成分を登録し得る1016。たとえば、電子デバイス402は、1つまたは複数の認識された音声成分の各々に対するデータを記憶し得る。追加または代替として、電子デバイス402は、(たとえば、音声成分が、しきい値より大きい、対応する特異性測定値または特異性統計量を有する場合)認識された音声成分のうちの1つまたは複数を、パスワードを推奨するのに十分に特異であるまたは強いとして指定し得る。いくつかの構成では、たとえば、電子デバイス402は、パスワード評価のためにオーディオパスワードを最初に受信する前に、1つまたは複数の示唆された音声成分を提供し得る。
電子デバイス402は、ユーザ音声モデルを適合させ得る1018。たとえば、電子デバイス402は、音素データおよび/またはユーザ音声モデルの重みを更新することによって、(たとえば、最初に全体的音声モデルに基づくことができる)ユーザ音声モデルを適合させるまたは修正することができる。いくつかの構成では、ユーザ音声モデルを適合させること1018は、1つまたは複数のモデルパラメータ(たとえば、GMM成分)を更新することを含み得る。具体的には、適合1018は、GMMの平均および/または混合の重みを更新することによって実施され得る。
電子デバイス402は、ユーザ音声モデルがユーザの音声を正確に説明するのに十分なデータが存在するかどうかを決定し得る1020。たとえば、電子デバイス402は、ユーザ音声モデルが真のユーザの音声を正確に反映するのに十分に洗練されるように、しきい値数および/またはいくつかの音素が捕捉されたかどうかを決定し得る。十分なデータがない場合、電子デバイス402は、ユーザオーディオ信号を受信するステップ1002を継続することができる。
十分なデータがある場合、電子デバイス402は、ユーザ音声モデルを提供し得る1022。たとえば、電子デバイス402は、上記で説明したように、ユーザ音声モデルを、オーディオパスワード強度評価および/または示唆のために利用可能にすることができる。ユーザ音声モデルは使用のために提供され得る1022が、方法1000は、ユーザ音声モデルをさらに適合および/または洗練させるために、何度もおよび/または連続的に反復され得ることに留意されたい。
図11は、オーディオパスワードの強度を評価するためのシステムおよび方法が実施され得る電子デバイス1102の別のより具体的な構成を例示するブロック図である。図11に関して説明する電子デバイス1102は、図1および図4に関して説明した電子デバイス102、402のうちの1つまたは複数の一例であり得る。
電子デバイス1102は、1つまたは複数のマイクロフォン1104、パスワード評価モジュール1108、パスワードフィードバックモジュール1112、および1つまたは複数の出力デバイス1116を含む。電子デバイス1102に含まれる構成要素のうちの1つまたは複数は、図1および図4のうちの1つまたは複数に関して説明した電子デバイス102、402のうちの1つまたは複数に含まれる構成要素のうちの1つまたは複数に対応し得、および/またはそれらと同様に機能し得る。
電子デバイス1102は、1つまたは複数の入力デバイス1166を含み得る。入力デバイス1166の例は、タッチスクリーン、タッチパッド、画像センサ(たとえば、カメラ)、キーボード(たとえば、物理的および/またはソフトウェアキーボード)、キーパッド(たとえば、物理的および/またはソフトウェアキーパッド)、指紋スキャナ、追加のマイクロフォン、方位センサ(たとえば、傾斜センサ)、動きセンサ(たとえば、加速度計)、GPSモジュール、圧力センサ、などを含む。1つまたは複数の入力デバイス1166は、1つまたは複数の入力1168を取得または受信することができる。1つまたは複数の入力1168は、パスワード評価モジュール1108に供給され得る。
1つまたは複数のマイクロフォン1104は、オーディオ信号1106を捕捉することができる。オーディオ信号1106は、オーディオパスワードを含み得る。オーディオ信号1106は、パスワード評価モジュール1108に供給され得る。
パスワード評価モジュール1108は、1つまたは複数のマイクロフォン1104によって捕捉されたオーディオ信号1106を取得(たとえば、受信)し得る。上記で説明したように、オーディオ信号1106は、オーディオパスワードを含み得る。パスワード評価モジュール1108は、オーディオ信号1106の1つまたは複数の特異な特性を測定することに基づいて、オーディオパスワードの強度を評価し得る。これは、図1、図2および図4〜図8のうちの1つまたは複数に関して上記で説明したように成し遂げられ得る。
パスワード評価モジュール1108は、追加の認証入力評価モジュール1170を随意に含み得る。追加の認証入力評価モジュール1170は、オーディオパスワードと組み合わされた1つまたは複数の追加の認証入力1168を考慮に入れることができる。たとえば、オーディオパスワードが英数字コードまたは指紋走査とともに使用される場合、強度スコアは、利用される場合、オーディオパスワードと1つまたは複数の追加の認証入力との組合せによって提供される追加の認証強度を反映することができる。いくつかの構成では、電子デバイス1102(たとえば、パスワード評価モジュール1108)は、1つまたは複数の追加の認証入力1168を取得し得る。たとえば、いくつかの構成は、ビデオ、ジャイロ/加速度センサ、キーボード、指紋センサなど、他のモダリティの使用を可能にする場合がある。いくつかの手法では、1つまたは複数のそのようなモダリティは、特異性または弁別の強度をあまり持たない1つまたは複数の(句、文、などの)部分に対して利用され得る。たとえば、ユーザが低い特異性を有する語(たとえば、弁別スコアをあまり持たない「学校」という語)を発するとき、電子デバイス1102は、1つまたは複数の追加の認証入力1168を取得または受信することができる。
1つまたは複数の追加の認証入力1168の例は、次のように与えられる。電子デバイス1102がジェスチャー認識を有する構成では、電子デバイス1102は、ユーザによるジェスチャー(たとえば、タッチスクリーンパターン、タッチパッドパターン、カメラにによって捕捉される視覚的な手のジェスチャーパターン、など)入力を受信し得る。ジェスチャーは、ユーザが作成してよく、または事前定義されてもよい。電子デバイス1102がカメラを含む構成では、電子デバイス1102は、ユーザの顔、目、鼻、唇、顔の形など、ユーザの1つまたは複数の画像、ならびに/あるいはオーディオ信号1106を伴う虹彩など、より特異な情報を捕捉することができる。たとえば、電子デバイス1102中に含まれるカメラは、ユーザの顔の全部または一部を捕捉するために、(たとえば、ユーザによって)向きを決められ得る。
電子デバイス1102が1つまたは複数の動きセンサおよび/または方位センサ(たとえば、ジャイロ、加速度計、傾斜計、など)を含む構成では、電子デバイス1102は、動きおよび/または方位の情報を取得することができる。たとえば、ユーザは、ユーザが作成した方法または事前定義された方法で電子デバイス1102(たとえば、電話)を方向づけるおよび/または移動させることができる。たとえば、電子デバイス1102は、オーディオ信号1106とともにジャイロおよび/または加速度計のセンサ情報を符号化することができる。
電子デバイス1102が物理的またはソフトウェアの(たとえば、タッチスクリーンまたはディスプレイ上の)キーパッドまたはキーボードを含む構成では、電子デバイス1102は、オーディオ信号1106とともに、(たとえば、ユーザによってタイプされた)数値コード、テキストおよび/または英数字ストリングを受信し得る。電子デバイス1102が指紋センサを含む構成では、電子デバイス1102は、(たとえば、ユーザが指紋センサに触れるかまたはそれを保持するとき)指紋を受信し得る。
電子デバイス1102が複数のマイクロフォン1104を含む構成では、電子デバイス1102は、オーディオ信号1106の空間指向性情報を取得(たとえば、受信および/または決定)することができる。たとえば、ユーザは、電子デバイス1102に対する一連の方向(たとえば、上、下、左、右、前、後、右上、左下、など)にオーディオパスワードを話すことができる。たとえば、ユーザは、第1の語を電子デバイス1102の下に向かって言い、第2の語を電子デバイス1102の上に向かって言い、第3の語を電子デバイス1102の左に向かって言い、第4の語を電子デバイス1102の右に向かって言うことができる。
空間指向性情報に関する追加の詳細は、以下で提供される。いくつかの構成では、電子デバイス1102は、セキュリティのために空間オーディオの統合を利用することができる。たとえば、電子デバイス1102をロック解除するために、ユーザは、(たとえば、電子デバイス1102(たとえば、電話)に対して)一定の空間区画(spatial sector)または異なる空間区画内にシーケンスを発声することができる。
電子デバイス1102(たとえば、図11に示していない検証モジュール)は、ユーザを(話者認識を用いて)識別し、空間に話す方向のシーケンスが正しいかどうかを識別することができる。十分に高い話者認識尤度と正しい空間のシーケンスの組合せによってのみ、電子デバイス1102がロック解除されることになる。たとえば、電子デバイス1102は、空間的音声/話者認識の特徴のいくつかの構成における検証を次のように実施し得る。電子デバイス1102は、プロンプトを初期化し、電子デバイス1102の前から発声を受信し、電子デバイス1102の左から発声を受信し、電子デバイス1102の上から発声を受信し、電子デバイス1102の左から発声を受信することができる。初期プロンプトの後、(複数のマイクロフォンを有する)電子デバイス1102は、空間音声ピックアップの所定のシーケンスを与える。これらの構成では、ユーザは、オーディオパスワード(たとえば、文)を正しい空間区画に発声するシーケンスを知ることが必要となる場合がある。たとえば、ユーザは、「私の好物」-区画切り替え-「ペットの」-区画切り替え-「名前は」-区画切り替え-「バーニー」と言うことができる。
いくつかの構成では、各空間区画における発声のタイミングおよび/または持続時間は、検証手順の一部(たとえば、前区画に2秒、上区画に5秒、右区画に3秒、など)であり得る。たとえば、電子デバイス1102は、ボイスプロンプトを介してまたはボタンもしくはスクリーンの押下を検出することによって、ボイス記録プロセスを開始し得る。電子デバイス1102は、所定のシーケンス(たとえば、活性化された空間区画および/または各空間区画のタイミング(持続時間)のシーケンス)に従って異なる空間区画における聞き取りを開始し得る。電子デバイス1102が、各空間区画(の文脈依存性または非依存性の発声)において真のユーザを認識する場合、電子デバイス1102は、アクセスを許可する。
より具体的には、電子デバイス1102は、以下の方法または手順に従って動作し得る。電子デバイス1102は、ボイスプロンプトを用いておよび/または(たとえば、ボタンまたはタッチスクリーンの)入力が受信されたときに、ボイス記録を開始し得る。電子デバイス1102は、所定のシーケンスに従って異なる空間区画における聞き取りを開始し得る。たとえば、電子デバイス1102は、活性化された空間区画のシーケンスにおいて音声を受信し得る。いくつかの構成では、電子デバイス1102は、各空間区画におけるタイミング(たとえば、持続時間)のシーケンスに従って音声を受信し得る。
電子デバイス1102が、各空間区画(の文脈依存性または非依存性の発声)において真のユーザ(たとえば、所望の話者)を認識する場合、電子デバイス1102は、アクセスを許可する。たとえば、電子デバイス1102は、ユーザが、電子デバイス1102のより多くの機能(たとえば、アプリケーション、音声呼、など)にアクセスすることを可能にする場合がある。
一例では、ユーザは、デバイスに対する1つの一定方向からパスワード、パスフレーズ、または語のシーケンス(たとえば、文)を発声することができる。別の例では、ユーザは、一連の方向において文の部分を発声することができる。追加または代替として、ユーザは、一定のタイミングで文の異なる部分を発声することを要求される場合がある。追加または代替として、複数のユーザのボイスが利用される場合がある。たとえば、金庫をロック解除するために、第1のユーザが、電子金庫の左からパスワードを発声しながら、第2のユーザが、電子金庫の右からパスワードを発声する場合がある。空間音声セキュリティの特徴は、他の方策(たとえば、顔認識、指紋認識、など)とは独立に、またはそれらとの組合せで、実施され得る。
いくつかの構成では、1つまたは複数の追加の認証入力と組み合わされたオーディオパスワードは、(たとえば、オーディオパスワードと、1つまたは複数の追加の認証入力1168とを組み合わされた)パスワードが設定されるために、複数の基準に合格することを要求される場合がある。たとえば、パスワード評価モジュール1108は、オーディオパスワードが最小の特異性をもたらすこと、および1つまたは複数の追加の認証入力1168が1つまたは複数の追加の基準を満たすことを要求する場合がある。特異性しきい値および/または1つまたは複数の追加の基準が、重みづけられる場合がある。
いくつかの構成では、追加の認証入力評価モジュール1170は、オーディオ信号1106および/または1つまたは複数の追加の認証入力1168に基づいて、1つまたは複数のしきい値を度外視する場合がある。たとえば、指紋走査が追加の認証強度を与える場合、パスワード評価モジュール1108は、より低い特異性しきい値またはオーディオパスワード強度を要求する場合がある。追加または代替として、オーディオ信号1106が高い特異性を与える場合、パスワード評価モジュール1108は、より低い強度が追加の認証入力1168によって与えられることを要求する場合がある。たとえば、オーディオ信号1106が比較的良好な特異性を提供する場合、パスワード評価モジュール1108は、2桁の数値コードが使用されることを示唆する場合がある。しかしながら、オーディオ信号1106が比較的弱い特異性を提供する場合、パスワード評価モジュール1108は、4桁の数値コードおよび/または指紋走査が使用されることを示唆する場合がある。
1つまたは複数の追加の認証入力1168は、タイミングおよび/またはシーケンスの制約のもとで、または制約なしに利用され得る。いくつかの例では、1つまたは複数の追加の認証入力1168は、オーディオ信号1106が受信される前、途中、または受信された後の任意の時間に電子デバイス1102によって取得され得る。
他の例では、電子デバイス1102は、1つまたは複数の追加の認証入力1168が、オーディオ信号1106の受信に対して一定のタイミング制約のもとでおよび/または一定のシーケンスにおいて受信されることを要求する(または要求するように構成される)場合がある。一例では、電子デバイス1102は、1つまたは複数の追加の認証入力1168が、オーディオ信号1106が受信される前、途中、および/または受信された後の時間期間内に受信されることを要求する(または要求するように構成される)場合がある。たとえば、電子デバイス1102は、追加の認証入力1168がオーディオパスワードのより弱い音声成分の間に受信されることを要求する場合がある。追加または代替として、電子デバイス1102は、追加の認証入力1168が、特定のシーケンス(たとえば、音声成分の前、音声成分の後、音声成分の間、他の追加の認証入力を伴うシーケンス、など)において受信されることを要求する(または要求するように構成される)場合がある。いくつかの構成では、電子デバイス1102は、1つまたは複数の追加の認証入力1168を、複雑性が増加する順序で加える(および/または加えるように示唆する)場合がある。追加または代替として、電子デバイス1102は、パスワード(たとえば、1つまたは複数の追加の認証入力1168と組み合わされたオーディオパスワード)が最小限必要とされる強度を超えるまで、1つまたは複数の追加の認証入力1168が加えられることを要求する場合がある。
いくつかの構成では、パスワード評価モジュール1108は、入力低下モジュール1172を随意に含み得る。入力低下モジュール1172は、オーディオ信号1106および/または追加の認証入力1168を低下させる場合がある。たとえば、パスワード評価モジュール1108は、オーディオ信号1106から情報を除去する(たとえば、オーディオ信号1106をダウンサンプリングする、その1部または複数部分をフィルタで除去する)場合がある。追加または代替として、パスワード評価モジュール1108は、指紋走査からの情報またはユーザの顔または虹彩の画像からの情報を除去する場合がある。
パスワード評価モジュール1108は、評価情報1110をパスワードフィードバックモジュール1112に供給し得る。評価情報1110は、パスワード強度を示す情報および/またはパスワード評価において取得される情報を含み得る。たとえば、評価情報1110は、抽出された特徴、特異性測定値、パスワード強度スコア、および/または他の情報を含み得る。
パスワードフィードバックモジュール1112は、パスワードフィードバック1114を供給し得る。たとえば、パスワードフィードバックモジュール1112は、オーディオパスワードの強度の評価に基づいて、オーディオパスワードが弱いことをユーザに通知し得る。パスワードフィードバック1114を供給することは、ユーザが十分に強いオーディオパスワードを決定(たとえば、選択、供給、または作成)することを可能にする場合がある。パスワードフィードバック1114は、パスワード強度スコア、1つまたは複数の音声成分候補(たとえば、推奨または示唆された音声成分)、1つまたは複数の示唆されたアクション、および/または1つまたは複数のメッセージを含み得る。たとえば、パスワードフィードバック1114は、パスワード強度スコアと、オーディオパスワードが弱いことを示すメッセージとを含み得る。追加または代替として、パスワードフィードバック1114は、ユーザがより強いオーディオパスワードを作成するために利用し得る1つまたは複数の示唆された音声成分を含み得る。いくつかの構成では、電子デバイス1102は、示唆された音声成分から成る、示唆された合成の(たとえば、知られていない)語をパスワードフィードバック1114として供給することができる。追加または代替として、パスワードフィードバック1114は、ユーザが追加の認証入力(たとえば、テキスト、数値コード、英数字ストリング、特別な指向性、追加の生体入力(たとえば、顔走査、虹彩走査、指紋、など))を提供できる示唆されたアクションを含み得る。
いくつかの構成では、パスワードフィードバックモジュール1112は、1つまたは複数のパスワード示唆を提供し得る。たとえば、電子デバイス1102(たとえば、パスワードフィードバックモジュール1112)は、1つまたは複数の他のモデル(たとえば、全体的音声モデル、汎用モデル、UBM、など)から十分に高い特異性または相違を有する1つまたは複数の音声成分(たとえば、発声、音素、など)を識別し得る。たとえば、パスワードフィードバックモジュール1112は、音声認識と話者検証とのシステムのペアを介して各現象に対するユーザのボイスの特異性に基づいて、1つまたは複数の音声成分を識別し得る。次いで、パスワードフィードバックモジュール1112は、ユーザがパスワードを作成するために1つまたは複数の候補音声成分を選択し得るような高い「特異性」を有する、いくつかの可能性のある候補音声成分(たとえば、音素、音節、発声、パスワード、など)を生成し得る。たとえば、電子デバイス1102は、「あなたは、/アー(ah)/、/ク(k)/、...、<三角形の(triangular)>、<クアルコム(qualcomm)>、...、を使用することができる」のようにパスワードフィードバック1114を表示し得る。追加または代替として、ユーザによって発せられたパスワードに対して、それをより強化するために、詳細なパスワードフィードバック1114が供給される場合がある(たとえば、「あなたのパスワードは60%の強度を有する。発声/エー(eh)/は/アー(ah)/、...で置き換えられ得る」)。
いくつかの構成では、電子デバイス1102(たとえば、パスワードフィードバックモジュール1112)は、マルチモダリティを有するパスワード示唆を提供し得る。上記で説明したように、たとえば、パスワードフィードバックモジュール1112は、1つまたは複数の追加の認証入力1168(たとえば、テキスト、数値コード、英数字ストリング、特別な指向性、追加の生体入力(たとえば、顔走査、虹彩走査、指紋、など))を示唆するパスワードフィードバック1114を供給することができる。
パスワードフィードバックモジュール1112は、パスワードフィードバック1114を1つまたは複数の出力デバイス1116に供給し得る。したがって、1つまたは複数の出力デバイス1116は、パスワードフィードバック1114をユーザに中継または伝達することができる。たとえば、出力デバイス1116(たとえば、ディスプレイ、タッチスクリーン、スピーカ、など)は、オーディオパスワードの強度と関連付けられたラベル1174を中継し得る。いくつかの構成では、これは、図1に関して説明した1つまたは複数のGUIを介して成し遂げられ得る。一手法では、ディスプレイパネルは、パスワード強度スコアを表示し得る。追加または代替として、スピーカは、パスワード強度スコア(たとえば、「あなたのパスワードは弱い」、「あなたのパスワードは60%の強度である」、など)を示す(たとえば、テキストから音声への)音響信号を出力し得る。
いくつかの構成では、出力デバイス1116は、1つまたは複数の示唆(たとえば、候補音声成分1176、追加の認証入力オプション1178、など)を中継し得る。たとえば、表示パネルは、音素、音節、語、発声および/または句(たとえば、「/アー(ah)/、/エー(eh)/、/ク/、/三角形の(triangular)/、/蜃気楼(mirage)/」)など、1つまたは複数の候補音声成分1176を表示し得る。追加または代替として、スピーカは、1つまたは複数の示唆(たとえば、「あなたのパスワードに/アー(ah)/、/エー(eh)/、/ク(k)/、/三角形の(triangular)/、/蜃気楼(mirage)/、および/または追加の入力タイプを追加してください」)を中継するために、音響信号を出力し得る。
セキュリティのためのオーディオパスワード(たとえば、独立したオーディオパスワードおよび/または空間指向性などの1つまたは複数の追加の認証入力1168を有するオーディオパスワード)の使用は、多くの異なるタイプの電子デバイス1102(それは、たとえば、マイクロフォン1104のアレイを含み得る)に適用され得る。たとえば、このセキュリティの特徴は、スマートフォン、タブレットデバイス、電子ドアロック、ドアセンサ、カメラ、スマートキー、ラップトップコンピュータ、デスクトップコンピュータ、ゲーミングシステム、自動車、売店の支払い(たとえば、取引を認証する一方法として)、テレビジョン、オーディオデバイス(たとえば、mp3プレーヤ、iPod(登録商標)、コンパクトディスク(CD)プレーヤ、など)、オーディオ/ビデオデバイス(たとえば、デジタルビデオレコーダ(DVR)、ブルーレイプレーヤ、デジタルビデオディスク(DVD)プレーヤ、など)、家庭電化製品、サーモスタット、金庫、などに適用され得る。追加または代替として、このセキュリティの特徴は、リモートに(たとえば、リモートデバイスに)適用され得る。たとえば、ユーザは、オーディオパスワード(たとえば、文、パスフレーズ、パスワード、など)をスマートフォンに与えることができ、スマートフォンは、認証資格またはコマンドを電子ドアロックに供給して、ドア(たとえば、家のドア、自動車のドア、事務所のドア、など)をロック解除することができる。別の例では、ユーザは、空間音声コードをスマートフォン、ラップトップまたはタブレットに与え、ウェブサイト認証、取引(たとえば、購買、バンキング)認証のためにリモートサーバを認証することができる。
図12は、オーディオパスワードの強度を評価するための方法1200のより具体的な構成を例示する流れ図である。図1、図4および図11に関して説明した電子デバイス102、402、1102のうちの1つまたは複数は、方法1200を実施し得る。
電子デバイス1102は、1つまたは複数のマイクロフォン1104によって捕捉されたオーディオ信号1106を取得し得る1202。これは、図1、図2、図4〜図8および図11のうちの1つまたは複数に関して上記で説明したように成し遂げられ得る。オーディオ信号1106は、オーディオパスワードを含み得る。
電子デバイス1102は、少なくとも1つの追加の認証入力1168を取得し得る。これは、複数の図(たとえば、図1、図4および図11)のうちの1つまたは複数に関して上記で説明したように成し遂げられ得る。たとえば、電子デバイスは、テキスト、数値コード、英数字ストリング、空間指向性、および/または(指紋走査、ユーザの顔または虹彩のカメラ画像などの)追加の生体入力など、1つまたは複数の追加の認証入力1168を取得し得る1204。
電子デバイス1102は、オーディオ信号1106および/または追加の認証入力1168を随意に低下させる得る1206。これは、複数の図(たとえば、図1、図4および図11)のうちの1つまたは複数に関して上記で説明したように成し遂げられ得る。たとえば、電子デバイス1102は、オーディオ信号1106から情報を除去する(たとえば、オーディオ信号1106をダウンサンプリングする、その1部または複数部分をフィルタで除去する)場合がある。追加または代替として、パスワード評価モジュール1108は、指紋走査からの情報またはユーザの顔または虹彩の画像からの情報を除去する場合がある。
電子デバイス1102は、少なくとも1つの追加の認証入力1168と組み合わされたオーディオパスワードの強度を評価する場合がある1208。たとえば、電子デバイス1102は、1つまたは複数の追加の認証入力1168を、オーディオパスワードと組み合わせて考慮に入れることができる。たとえば、オーディオパスワードが英数字コードまたは指紋スキャンとともに使用される場合、強度スコアは、オーディオパスワードと1つまたは複数の追加の認証入力との組合せによって提供される追加の認証強度を反映することができる。
電子デバイス1102は、少なくとも1つの追加の認証入力1168と組み合わされたオーディオパスワードの強度が弱い場合、パスワードフィードバック1114を供給する場合がある1210。これは、図1、図2、図4〜図8および図11のうちの1つまたは複数に関して上記で説明したように成し遂げられ得る。たとえば、電子デバイス1102は、少なくとも1つの追加の認証入力1168と組み合わされたオーディオパスワードの強度の評価に基づいて(たとえば、パスワード強度スコアがある値より大きくないとき)オーディオパスワードが弱いことをユーザに通知し得る1206。パスワードフィードバック1114は、パスワード強度スコア、1つまたは複数の音声成分候補(たとえば、推奨または示唆された音声成分)、1つまたは複数の示唆されたアクション、および/または1つまたは複数のメッセージを含み得る。たとえば、パスワードフィードバック1114は、パスワード強度スコアと、オーディオパスワードが弱いことを示すメッセージとを含み得る。追加または代替として、パスワードフィードバック1114は、ユーザがより強いオーディオパスワードを作成するために利用し得る1つまたは複数の示唆された音声成分を含み得る。追加または代替として、パスワードフィードバック1114は、ユーザが追加の認証入力1168(たとえば、テキスト、数値コード、英数字ストリング、空間指向性、追加の生体入力(たとえば、顔走査、虹彩走査、指紋、など))を提供できる示唆されたアクションを含み得る。
図13は、オーディオパスワードの強度を評価するためのシステムおよび方法が実施され得るワイヤレス通信デバイス1302の一構成を例示するブロック図である。図13に示すワイヤレス通信デバイス1302は、本明細書で説明する電子デバイス102、402、1102のうちの1つまたは複数の一例であり得る。ワイヤレス通信デバイス1302は、アプリケーションプロセッサ1384を含むことが可能である。アプリケーションプロセッサ1384は、一般に、命令を処理(たとえば、プログラムを実行)して、ワイヤレス通信デバイス1302上で機能を実行する。アプリケーションプロセッサ1384は、オーディオコーダ/デコーダ(コーデック)1382と結合され得る。
オーディオコーデック1382は、オーディオ信号をコーディングおよび/または復号するために使用され得る。オーディオコーデック1382は、少なくとも1つのスピーカ1335、イヤピース1337、出力ジャック1339、および/または少なくとも1つのマイクロフォン1380に結合され得る。スピーカ1335は、電気または電子信号を音響信号に変換する、1つもしくは複数の電子音響変換器を含み得る。たとえば、スピーカ1335を使用して、音楽を再生すること、またはスピーカフォン会話を出力することなどができる。イヤピース1337は、音響信号(たとえば、音声信号)をユーザに出力するために使用され得る別のスピーカまたは電子音響変換器であってよい。たとえば、ユーザだけが音響信号を確実に聞くことができるように、イヤピース1337を使用することができる。出力ジャック1339を使用して、ヘッドフォンなど、音声を出力するための他のデバイスはワイヤレス通信デバイス1302と結合され得る。一般に、スピーカ1335、イヤピース1337、および/または出力ジャック1339を使用して、オーディオコーデック1382から音響信号を出力することができる。少なくとも1つのマイクロフォン1380は、(ユーザのボイスなどの)音響信号を、オーディオコーデック1382に提供される電気または電子信号に変換する、音響電子変換器であってよい。
いくつかの構成では、オーディオコーデック1382は、パスワード評価モジュール1308aおよび/またはパスワードフィードバックモジュール1312aを含み得る。追加または代替として、アプリケーションプロセッサ1384は、パスワード評価モジュール1308bおよび/またはパスワードフィードバックモジュール1312bを含み得る。パスワード評価モジュール1308a-bおよび/またはパスワードフィードバックモジュール1312a-bは、図1、図4および図11のうちの1つまたは複数に関して上記で説明したパスワード評価モジュール108、408、1108および/またはパスワードフィードバックモジュール112、412、1112の例であり得る。他の構成では、パスワード評価モジュール1308aおよびパスワードフィードバックモジュール1312aのうちの1つまたは複数は、オーディオコーデック1382およびアプリケーションプロセッサ1384とは別個にワイヤレス通信デバイス1302上で実施され得る。
アプリケーションプロセッサ1384は電力管理回路1394と結合されてもよい。電力管理回路1394の一例は、ワイヤレス通信デバイス1302の電力消費を管理するために使用され得る電力管理集積回路(PMIC)である。電力管理回路1394は電池1396と結合され得る。電池1396は、一般に、電力をワイヤレス通信デバイス1302に提供することができる。たとえば、バッテリー1396および/または電力管理回路1394は、ワイヤレス通信デバイス1302内に含まれる要素のうちの少なくとも1つに結合され得る。
アプリケーションプロセッサ1384は、入力を受信するための少なくとも1つの入力デバイス1398に結合され得る。入力デバイス1398の例は、赤外線センサ、画像センサ、加速度計、タッチセンサ、キーパッドなどを含む。入力デバイス1398は、ワイヤレス通信デバイス1302とのユーザ相互作用を可能にし得る。アプリケーションプロセッサ1384は1つまたは複数の出力デバイス1301と結合されてもよい。出力デバイス1301の例は、プリンタ、プロジェクタ、スクリーン、触覚デバイスなどを含む。出力デバイス1301は、ワイヤレス通信デバイス1302が、ユーザが経験することができる出力を生み出すことを可能にし得る。
アプリケーションプロセッサ1384はアプリケーションメモリ1303と結合され得る。アプリケーションメモリ1303は、電子情報を記憶することができる任意の電子デバイスであってよい。アプリケーションメモリ1303の例は、ダブルデータレートシンクロナスダイナミックランダムアクセスメモリ(DDRAM)、シンクロナスダイナミックランダムアクセスメモリ(SDRAM)、フラッシュメモリなどを含む。アプリケーションメモリ1303は、アプリケーションプロセッサ1384に記憶を提供することができる。たとえば、アプリケーションメモリ1303は、アプリケーションプロセッサ1384上で実行するプログラムの機能性に関するデータおよび/または命令を記憶することができる。
アプリケーションプロセッサ1384はディスプレイコントローラ1305と結合され得、次に、ディスプレイコントローラ1305はディスプレイ1307と結合され得る。ディスプレイコントローラ1305は、ディスプレイ1307上に画像を生成するために使用されるハードウェアブロックであり得る。たとえば、ディスプレイコントローラ1305は、命令および/またはデータをアプリケーションプロセッサ1384から、ディスプレイ1307上に提示され得る画像に変換することができる。ディスプレイ1307の例は、液晶画面(LCD)パネル、発光ダイオード(LED)パネル、陰極線管(CRT)ディスプレイ、プラズマディスプレイなどを含む。
アプリケーションプロセッサ1384はベースバンドプロセッサ1386と結合され得る。ベースバンドプロセッサ1386は、一般に、通信信号を処理する。たとえば、ベースバンドプロセッサ1386は、受信信号を復調および/または復号することができる。加えて、またはその代わりに、ベースバンドプロセッサ1386は、送信を準備する際に信号を符号化および/または変調することができる。
ベースバンドプロセッサ1386はベースバンドメモリ1309と結合され得る。ベースバンドメモリ1309は、SDRAM、DDRAM、フラッシュメモリなど、電子情報を記憶することができる任意の電子デバイスであり得る。ベースバンドプロセッサ1386は、ベースバンドメモリ1309から情報(たとえば、命令および/もしくはデータ)を読み取ること、ならびに/またはベースバンドメモリ1309に情報を書き込むことができる。加えて、またはその代わりに、ベースバンドプロセッサ1386は、ベースバンドメモリ1309内に記憶された命令および/またはデータを使用して、通信動作を実行することができる。
ベースバンドプロセッサ1386は無線周波数(RF)トランシーバ1388と結合され得る。RFトランシーバ1388は、電力増幅器1390および1つまたは複数のアンテナ1392に結合され得る。RFトランシーバ1388は、無線周波数信号を送信および/または受信することができる。たとえば、RFトランシーバ1388は、電力増幅器1390と、少なくとも1つのアンテナ1392とを使用して、RF信号を送信することができる。RFトランシーバ1388はまた、1つまたは複数のアンテナ1392を使用して、RF信号を受信することができる。
図14は、電子デバイス1402において使用することができる様々な構成要素を示す。図示する構成要素は、同じ物理構造内に、または別個の筐体もしくは構造中に置かれ得る。図14に関して説明した電子デバイス1402は、本明細書で説明する電子デバイス102、402、1102およびワイヤレス通信デバイス1302のうちの1つまたは複数に従って実装され得る。電子デバイス1402は、プロセッサ1417を含む。プロセッサ1417は、汎用のシングルチップマイクロプロセッサまたはマルチチップマイクロプロセッサ(たとえばARM)、専用マイクロプロセッサ(たとえば、デジタル信号プロセッサ(DSP))、マイクロコントローラ、プログラマブルゲートアレイなどであってよい。プロセッサ1417は、中央演算処理装置(CPU)と呼ばれ得る。図14の電子デバイス1402中に単一のプロセッサ1417のみが示されているが、代替構成では、プロセッサの組合せ(たとえば、ARMとDSP)が使用され得る。
電子デバイス1402は、プロセッサ1417と電子通信するメモリ1411も含む。つまり、プロセッサ1417は、メモリ1411から情報を読み取り、かつ/またはメモリ1411に情報を書き込むことができる。メモリ1411は、電子情報を記憶することができる任意の電子構成要素であってよい。メモリ1411は、これらの組合せを含めて、ランダムアクセスメモリ(RAM)、読出し専用メモリ(ROM)、磁気ディスク記憶媒体、光記憶媒体、RAM内のフラッシュメモリデバイス、プロセッサに含まれるオンボードメモリ、プログラマブル読出し専用メモリ(PROM)、消去可能プログラマブル読出し専用メモリ(EPROM)、電子的に消去可能PROM(EEPROM)、レジスタなどであってよい。
データ1415aおよび命令1413aはメモリ1411に記憶され得る。命令1413aは、1つまたは複数のプログラム、ルーチン、サブルーチン、機能、手順などを含み得る。命令1413aは、単一のコンピュータ可読ステートメントまたは多くのコンピュータ可読ステートメントを含み得る。命令1413aは、上で説明した方法、機能および手順のうちの1つまたは複数を実施するためにプロセッサ1417によって実行可能であり得る。命令1413aを実行することは、メモリ1411に記憶されたデータ1415aの使用を伴う場合がある。図14は、プロセッサ1417にロードされるいくつかの命令1413bおよびデータ1415b(それらは命令1413aおよびデータ1415aから生じ得る)を示す。
電子デバイス1402はまた、他の電子デバイスと通信するための1つまたは複数の通信インターフェース1421を含み得る。通信インターフェース1421は、ワイヤード通信技術、ワイヤレス通信技術、または両方に基づき得る。異なるタイプの通信インターフェース1421の例には、シリアルポート、パラレルポート、ユニバーサルシリアルバス(USB)、イーサネット(登録商標)アダプタ、電気電子技術者協会(IEEE)1494バスインターフェース、小型コンピュータシステムインターフェース(SCSI)バスインターフェース、赤外線(IR)通信ポート、Bluetooth(登録商標)ワイヤレス通信アダプタ、第3世代パートナーシッププロジェクト(3GPP)トランシーバ、IEEE802.11(「WiFi」)トランシーバ、などがある。たとえば、通信インターフェース1421は、ワイヤレス信号を送受信するために、1つまたは複数のアンテナ(図示せず)に結合され得る。
電子デバイス1402はまた、1つまたは複数の入力デバイス1423および1つまたは複数の出力デバイス1427を含み得る。異なる種類の入力デバイス1423の例には、キーボード、マウス、マイクロフォン、リモコンデバイス、ボタン、ジョイスティック、トラックボール、タッチパッド、ライトペンなどがある。たとえば、電子デバイス1402は、音響信号を捕捉するための1つまたは複数のマイクロフォン1425を含み得る。一構成では、マイクロフォン1425は、音響信号(たとえば、音声、発話)を電気または電子信号にコンバートするトランスデューサであってよい。異なる種類の出力デバイス1427の例には、スピーカ、プリンタなどがある。たとえば、電子デバイス1402は、1つまたは複数のスピーカ1429を含み得る。一構成では、スピーカ1429は、電気または電子信号を音響信号にコンバートするトランスデューサであってよい。電子デバイス1402に通常含まれ得る1つの特定のタイプの出力デバイスが、ディスプレイデバイス1431である。本明細書で開示する構成とともに使われるディスプレイデバイス1431は、たとえば陰極線管(CRT)、液晶ディスプレイ(LCD)、発光ダイオード(LED)、気体プラズマ、エレクトロルミネセンスなど、どの適切な画像投射技術も使用することができる。メモリ1411に記憶されたデータを、ディスプレイデバイス1431上に示されるテキスト、グラフィックス、および/または動画像(必要に応じて)にコンバートするためのディスプレイコントローラ1433も設けられてよい。
電子デバイス1402の様々な構成要素は、1つまたは複数のバスによって互いに結合することができ、それらのバスとしては、電力バス、制御信号バス、ステータス信号バス、データバスなどを含むことができる。わかりやすいように、図14で様々なバスはバスシステム1419として例示する。図14は、電子デバイス1402のただ1つの可能な構成を示していることに留意されたい。他の様々なアーキテクチャおよび構成要素が使用されてもよい。
上記の説明では、時として参照番号が様々な用語に関連して使用されている。用語が参照番号に関して使用されるとき、これは、図面のうちの1つまたは複数で示す特定の要素を指すことを意味する場合がある。用語が参照番号なしで使用されるとき、これは任意の特定の図面に限定せずに、一般に、その用語を指すことを意味する場合がある。
「判断すること」という用語は、幅広い動作を包含し、したがって、「判断すること」は、計算すること、演算すること、処理すること、導出すること、調査すること、探索すること(たとえば、表、データベース、または他のデータ構造の中を探索すること)、確認することなどを含み得る。また、「決定すること」は、受信すること(たとえば、情報を受信すること)、アクセスすること(たとえば、メモリ内のデータにアクセスすること)などを含み得る。また、「決定すること」は、解決すること、選択すること、選ぶこと、確立することなどを含み得る。
「〜に基づいて」という句は、別段に明記されていない限り、「〜のみに基づいて」ということを意味しない。言い換えれば、「〜に基づいて」という句は、「〜のみに基づいて」と「少なくとも〜に基づいて」の両方を表す。
本明細書で説明する構成のうちの任意の1つに関して説明した特徴、機能、手順、構成要素、要素、構造などのうちの1つまたは複数は、互換可能な場合、本明細書で説明した他の構成のいずれかに関して説明した機能、手順、構成要素、要素、構造などのうちの1つまたは複数と組み合わせられ得ることに留意されたい。言い換えると、本明細書に記載した、機能、プロシージャ、構成要素、要素などのどの互換可能な組合せも、本明細書で開示したシステムおよび方法に従って実装され得る。
本明細書で説明した機能は、プロセッサ可読媒体上またはコンピュータ可読媒体上に1つもしくは複数の命令として記憶され得る。「コンピュータ可読媒体」という用語は、コンピュータまたはプロセッサによってアクセスされ得る任意の利用可能な媒体を指す。限定ではなく、例として、そのような媒体は、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、電気的消去可能リードオンリーメモリ(EEPROM)、フラッシュメモリ、コンパクトディスクリードオンリーメモリ(CD-ROM)もしくは他の光ディスクストレージ、磁気ディスクストレージデバイスもしくは他の磁気ストレージデバイス、あるいは所望のプログラムコードを命令またはデータ構造の形で記憶するために使用可能であり、かつコンピュータによってアクセス可能な任意の他の媒体を含み得る。本明細書で使用する場合、ディスク(disk)およびディスク(disc)は、コンパクトディスク(CD)、レーザーディスク(登録商標)、光ディスク、デジタル多用途ディスク(DVD)、フロッピーディスク、およびブルーレイ(登録商標)ディスクを含み、ディスク(disk)は、通常、磁気的にデータを再生し、ディスク(disc)は、レーザーで光学的にデータを再生する。コンピュータ可読媒体は有形および非一時的であり得ることに留意されたい。「コンピュータプログラム製品」という用語は、コンピューティングデバイスまたはプロセッサによって実行され、処理され、または計算され得る、コードまたは命令(たとえば、「プログラム」)と組み合わされたコンピューティングデバイスまたはプロセッサを指す。本明細書で使用する場合、「コード」という用語は、コンピューティングデバイスまたはプロセッサによって実行可能な、ソフトウェア、命令、コード、またはデータを指し得る。
ソフトウェアまたは命令は、送信媒体上でも送信され得る。たとえば、ウェブサイト、サーバ、または他の遠隔ソースから、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL)、または赤外線、無線、およびマイクロ波などのワイヤレス技術を使用してソフトウェアが送信される場合には、上記の同軸ケーブル、光ファイバケーブル、ツイストペア、DSL、または赤外線、無線、およびマイクロ波などのワイヤレス技術は、送信媒体の定義に含まれる。
本明細書で開示される方法は、説明した方法を達成するための1つまたは複数のステップまたはアクションを含む。方法ステップおよび/またはアクションは、特許請求の範囲を逸脱することなく互いに交換され得る。言い換えれば、説明されている方法の適切な操作のために、ステップまたはアクションの特定の順序が必要とされない限り、特定のステップおよび/またはアクションの順序および/または使用は、特許請求の範囲から逸脱することなく修正され得る。
特許請求の範囲は、上で説明した厳密な構成および構成要素に限定されないことを理解されたい。様々な修正、変更、および変形は、特許請求の範囲から逸脱することなく、本明細書で説明したシステム、方法、および装置の構成、操作、および細部において行われ得る。