JP4221379B2

JP4221379B2 - 音声特性に基づく電話発信者の自動識別

Info

Publication number: JP4221379B2
Application number: JP2005005572A
Authority: JP
Inventors: パスコビチアンドレイ
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2004-02-12
Filing date: 2005-01-12
Publication date: 2009-02-12
Anticipated expiration: 2025-01-12
Also published as: KR101120716B1; KR20060041829A; PT1564722E; US20050180547A1; SI1564722T1; PL1564722T3; EP1564722B1; DK1564722T3; CY1113168T1; JP2005227758A; CN1655235A; US7231019B2; CN1655235B; ES2391454T3; EP1564722A1

Description

本発明は、音声特性に基づいて、着信電話の発信者を自動的に識別するコンピュータによって実行される方法および装置に関する。詳細には、本発明は着信電話を経路指定およびスクリーニングするためのコンピュータによる音声認識技法に関する。

電話通信システムでは、自動的に出力される入力促進信号（ｐｒｏｍｐｔ）に対する発信者（ｃａｌｌｅｒ）の応答に基づく呼の経路指定または事前スクリーニングのため、通常、コールセンタが使用される。そのような入力促進信号応答機構は、通常、発信者が所望の呼の着信者（ｒｅｃｉｐｉｅｎｔ）または情報データベースに経路指定される前に、多数の入力促進信号がうまく通過しなければならないため時間がかかるものである。また、そのような機構は、発信者が入力促進信号コマンドに正しく従うことを前提とする。発信者が入力促進信号コマンドに従わない場合、呼が正確に経路指定されない可能性がある。同様に、呼スクリーニング機構は、発信者がスクリーニング入力促進信号に正直に応答して対応することに左右される。これにより、発信者および着信者が呼を正確かつ効率的に経路指定し、スクリーニングすることが困難になる。

"CSR-III Text Language Model", University of Pennsylvania, 1994

したがって、音声認識システムにより呼経路指定プロセスを支援するよう、提案がなされている。しかし、そのような音声認識システムもまた、発信者が予め定められた入力促進信号に応答しなければならない入力促進信号応答機構に左右される。たとえば、このようなシステムは、発信者が発信者名を述べ、および／または呼の主題もしくは所望の着信者の身元を表す予め定められた単語もしくは単語列を述べることを要求するかもしれない。この場合も、これらのシステムは、発信者が予め定められた入力促進信号に正しく応答する場合だけ効果的であるにすぎない。また、様々な発信者についての音声入力特性は広範にわたることを考えると、話声の内容を決定するために使用される音声認識モデルは、内容を正確に区切る必要がある。したがって、そのようなシステムでは、依然として時間がかかり、あるいは不正確であって、非協力的な発信者は容易にそのようなシステムを迂回することができるのである。

したがって、音声特性に基づいて着信電話を自動的に予めスクリーニングし、経路指定する改善された方法および装置が望まれている。

本発明の一実施形態は、発信者から着信者への呼の発信者を識別する方法を目的とする。音声入力が発信者から受け取られ、その音声入力の特性が複数の音響モデルに適用され、複数のそれぞれの音響スコアを得る。この複数の音響モデルは、一般音響モデルと、任意の以前識別された発信者の音響モデル群とを含む。発信者は、複数の音響スコアに基づいて、以前識別された発信者の１人として、または新しい発信者として識別される。発信者が新しい発信者として識別された場合、その新しい発信者について新しい音響モデルが生成され、この音響モデルは、その新しい発信者固有のものとなる。

本発明の別の実施形態は、発信者から着信者への呼の発信者を識別するためのシステムを目的とする。このシステムは、発信者から音声入力を受け取るためのレシーバと、複数の音響モデルを記憶するための音響モデル貯蔵器（ｒｅｐｏｓｉｔｏｒｙ）とを含む。この複数の音響モデルは、一般音響モデルと、任意の以前識別された発信者の音響モデル群とを含む。このシステムはさらに、音声入力の特性を複数の音響モデルに適用し、複数のそれぞれの音響スコアを生成するための、および複数の音響スコアに基づいて発信者を以前識別された発信者の１人、または新しい発信者として識別するためのモデルを含む。音響モデル生成器は、一般音響モデルに対する音響スコアが、複数の以前識別された発信者の音響モデル群に対する音響スコアより良好である場合に、新しい発信者のための新しい音響モデルを生成する。

本発明の別の実施形態は、コンピュータによって実行されると、呼の発信者を識別する方法を実行するコンピュータ実行可能命令を含むコンピュータ読取可能な媒体を目的とする。この方法は、発信者から音声入力を受け取るステップと、音声入力の特性を複数の音響モデルに適用し、複数のそれぞれの音響スコアを得るステップとを含む。この複数の音響モデルは、一般音響モデルと、任意の以前識別された発信者の音響モデル群とを含む。発信者は、複数の音響スコアに基づいて、以前識別された発信者の１人として、または新しい発信者として識別される。発信者が新しい発信者として識別された場合、その新しい発信者について新しい音響モデルが生成され、この音響モデルは、その新しい発信者固有のものとなる。

本発明のさらに別の実施形態は、音声入力が発信者から受け取られる発信者を識別する方法を目的とする。音声入力は、発信者に依存しない一般音響モデルを使用して、一連の認識済み話声単位に区切られる。音声入力の特性は、一般音響モデルと任意の以前識別された発信者の音響モデル群とを含む複数の音響モデル内で、認識済み話声単位の一連の話声単位モデルに適用される。発信者は、音声入力の特性が複数の音響モデルにどれだけ良好に合致するかに基づいて、複数の以前識別された発信者の１人として、または新しい発信者として識別される。

図１ならびに関連の検討は、本発明を実施することができる好適なコンピューティング環境を簡単に、一般的に述べるよう意図されている。必ずしも必要ではないが、本発明の実施形態について、少なくとも一部にはパーソナルコンピュータまたは他のコンピューティングデバイスによって実行されるプログラムモジュールなどのコンピュータ実行可能命令の一般的な文脈で説明する。一般に、プログラムモジュールは、特定のタスクを実行する、あるいは特定の抽象データタイプを実施するルーチンプログラム、オブジェクト、コンポーネント、データ構造などを含む。さらに、本発明は、ハンドヘルドデバイス、マルチプロセッサシステム、マイクロプロセッサをベースとする、またはプログラム可能な家電、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータなどが含まれる他のコンピュータシステム構成と共に実施することができることを、当業者なら理解できるであろう。また、本発明は、通信ネットワークを介してリンクされた遠隔処理デバイスによってタスクが実行される分散コンピューティング環境内で実施することもできる。分散コンピューティング環境では、プログラムモジュールは、ローカルと遠隔双方のメモリ記憶デバイス内に位置することができる。

図１を参照すると、本発明の一実施形態を実施するための例示的なシステムは、処理装置（ＣＰＵ）２１、システムメモリ２２、およびシステムメモリ２２を含む様々なシステム構成要素を処理装置２１に結合するシステムバス２３を含め、従来のパーソナルコンピュータ２０の形態で汎用コンピューティングデバイスを含んでいる。システムバス２３は、様々なバスアーキテクチャのいずれかを使用する、メモリバスまたはメモリコントローラ、周辺機器バス、およびローカルバスを含むいくつかのタイプのバス構造のいずれかとすることができる。システムメモリ２２は、読出し専用メモリ（ＲＯＭ）２４およびランダムアクセスメモリ（ＲＡＭ）２５を含む。起動中などにパーソナルコンピュータ２０内の要素間で情報を転送するのを助ける基本ルーチンを含む基本入出力システム（ＢＩＯＳ）２６は、ＲＯＭ２４内に記憶されている。パーソナルコンピュータ２０はさらに、ハードディスク（図示せず）との間で読出しおよび書込みをするハードディスクドライブ２７、取外し式磁気ディスク２９との間で読出しまたは書込みをする磁気ディスクドライブ２８、ＣＤＲＯＭまたは他の光媒体など取外し式光ディスク３１との間で読出しまたは書込みをする光ディスクドライブ３０を含む。ハードディスクドライブ２７、磁気ディスクドライブ２８、光ディスクドライブ３０は、それぞれハードディスクドライブインターフェース３２、磁気ディスクドライブインターフェース３３、光ドライブインターフェース３４によってシステムバス２３に接続される。ドライブとその関連コンピュータ読取可能な媒体は、パーソナルコンピュータ２０のためのコンピュータ読取可能命令、データ構造、プログラムモジュール、および他のデータの不揮発性記憶を実現する。

本明細書に述べられている例示的な環境は、ハードディスク、取外し式磁気ディスク２９、および取外し式光ディスク３１を使用するが、磁気カセット、フラッシュメモリカード、デジタルビデオディスク、ベルヌーイカートリッジ、ランダムアクセスメモリ（ＲＡＭ）、読出し専用メモリ（ＲＯＭ）など、コンピュータによってアクセス可能なデータを記憶することができる他のタイプのコンピュータ読取可能な媒体もまた、この例示的な動作環境内で使用することができることを、当業者なら理解すべきである。

いくつかのプログラムモジュールは、ハードディスク、磁気ディスク２９、光ディスク３１、ＲＯＭ２４、またはＲＡＭ２５に記憶することができ、オペレーティングシステム３５、１つまたは複数のアプリケーションプログラム３６、他のプログラムモジュール３７、およびプログラムデータ３８を含む。ユーザは、キーボード４０、ポインティングデバイス４２、およびマイクロフォン４３などローカル入力デバイスを介して、パーソナルコンピュータ２０にコマンドおよび情報を入力することができる。他の入力デバイス（図示せず）には、ジョイスティック、ゲームパッド、衛星パラボラアンテナ、スキャナなどが含まれることがあり得る。これら、および他の入力デバイスは、しばしばシステムバス２３に結合されたシリアルポートインターフェース４６を介して処理装置２１に接続されるが、サウンドカード、パラレルポート、ゲームポート、またはユニバーサルシリアルバス（ＵＳＢ）など、他のインターフェースによって接続することもできる。また、モニタ４７または他のタイプのディスプレイデバイスも、ビデオアダプタ４８などのインターフェースを介して、システムバス２３に接続される。パーソナルコンピュータは、モニタ４７に加えて、一般に、スピーカ４５およびプリンタ（図示せず）など他の周辺出力デバイスを含むことができる。

パーソナルコンピュータ２０は、遠隔コンピュータ４９など、１つまたは複数の遠隔コンピュータへの論理接続を使用して、ネットワーク環境内で動作することができる。遠隔コンピュータ４９は、別のパーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークＰＣ、ピアデバイス、または他のネットワークノードとすることができ、図１にはメモリ記憶デバイス５０が示されているだけであるが、一般に、パーソナルコンピュータ２０に関連して上述した要素の多数または全部を含む。図１に示されている論理接続は、ローカルエリアネットワーク（ＬＡＮ）５１および広域ネットワーク（ＷＡＮ）５２を含む。そのようなネットワーク環境は、事務所、全社コンピュータネットワーク、イントラネットおよびインターネットで普通である。

パーソナルコンピュータ２０は、ＬＡＮネットワーク環境内で使用されるとき、ネットワークインターフェースまたはアダプタ５３を介してローカルネットワーク５１に接続される。パーソナルコンピュータ２０は、ＷＡＮネットワーク環境内で使用されるとき、一般に、インターネットなど広域ネットワーク５２を介して通信を確立するためのモデム５４、または他の手段を含む。モデム５４は、内部にあっても外部にあってもよく、シリアルポートインターフェース４６を介してシステムバス２３に接続される。ネットワーク環境では、パーソナルコンピュータ２０に関して示されているプログラムモジュール、またはその一部分を、遠隔メモリ記憶デバイスに記憶することができる。図のネットワーク接続は例示的なものであり、コンピュータ間で通信リンクを確立する他の手段を使用することができることは理解されよう。たとえば、無線通信リンクをネットワークの１つまたは複数の部分間で確立することができる。

図１は、例示的な環境を示しているが、本発明はデジタルコンピューティング環境に限定されない。具体的には、本発明はアナログデバイス、または混合信号（アナログおよびデジタル）デバイス上で動作することができる。さらに、本発明は、たとえば単一の集積回路上で実施することができる。モジュールは、ハードウェア、ソフトウェア、またはハードウェアとソフトウェアの組合せで実施することができる。

上記で説明したように、コンピュータ２０は、一般に様々なコンピュータ読取可能な媒体を含む。コンピュータ読取可能な媒体は、コンピュータ２０によってアクセスすることができる任意の使用可能な媒体とすることができ、揮発性媒体と不揮発性媒体、取外し式媒体と固定式媒体を共に含む。限定的なものではなく例を挙げると、コンピュータ読取可能な媒体は、コンピュータ記憶媒体と通信媒体を含むことができる。コンピュータ記憶媒体は、コンピュータ読取可能命令、データ構造、プログラムモジュール、または他のデータなど、情報を記憶するための任意の方法または技術で実施される揮発性と不揮発性、取外し式と固定式の媒体を含む。コンピュータ記憶媒体には、それだけには限らないが、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ、もしくは他のメモリ技術、ＣＤ−ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）、もしくは他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置、もしくは他の磁気記憶デバイス、または、所望の情報を記憶するために使用することができ、コンピュータ２０によってアクセスすることができる任意の他の媒体が含まれる。通信媒体は、一般に、コンピュータ読取可能命令、データ構造、プログラムモジュール、または他のデータを、搬送波または他の移送機構など変調データ信号に統合し、任意の情報送達媒体を含む。「変調データ信号」という用語は、情報を信号に符号化するようにその特性の１つまたは複数が設定された、または変化した信号を意味する。限定的なものではなく例を挙げると、通信媒体には、有線ネットワークまたは直接配線接続など有線媒体と、音響、ＲＦ、赤外線、および他の無線媒体など無線媒体とが含まれる。上記のいずれかの組合せもまた、コンピュータ読取可能な媒体の範囲内に含めるべきである。

図２は、本発明の一実施形態による発信者を識別するための、図１を参照して述べられている一般的な環境内で実施することができるモジュール１００のシステムのより詳細なブロック図を示す図である。システム１００は、発信者から着信者への呼の入力話声信号を受け取るためのレシーバ１０２を含む。入力話声信号は、アナログ信号またはデジタル信号の任意の形態とすることができる。入力話声信号は、任意の伝送媒体を介して任意の通信方法によってレシーバ１０２に伝送することができる。「着信者」は、たとえば、個人、個人のグループ、呼を経路指定する位置、または情報データベースとすることができる。

レシーバ１０２には、伝送されつつあるタイプの話声入力信号を受け取るための任意の好適なレシーバが含まれることがある。たとえば、電話対応パーソナルコンピュータ（ＰＣ）や電話追加ポケットＰＣ（ＰｈｏｎｅＡｄｄｉｔｉｏｎＰｏｃｋｅｔＰＣ）の登場と共に、レシーバ１０２は、ＬＡＮ５１に結合するためのネットワークアダプタ５３、または、モデム５４およびＷＡＮ５２に結合するためのシリアルポートインターフェース４６を含むことができる。

入力話声信号がアナログ信号である場合、システム１００は、その信号を一連のデジタル値に変換するためのアナログ−デジタル変換器（Ａ／Ｄ）１０４を含む。一実施形態において、Ａ／Ｄ変換器１０４は、１６ｋＨｚでアナログ信号をサンプリングし、それにより、１秒当たり１６キロビットの話声データを生成する。しかし、任意の他のサンプリングレートを使用することができる。

入力話声信号のサンプルを表すデジタル信号は、コンピュータ２０に供給される。コンピュータ２０は、特徴抽出モジュール１０６、音声認識器（たとえば、デコーダ）１０７、トレーナモジュール１０８、語彙集モジュール１０５、言語モデル貯蔵器１１０、音響モデル貯蔵器１１１、発信者識別モジュール１１２、呼ルータ１１３、入力促進信号応答モジュール１１４を含む。コンピュータ２０の要素は、たとえば、Ｉ／Ｏデバイス１１５およびＩ／Ｏデバイス１１６に結合される。

システム１００全体、またはシステム１００の一部は、図１に示されている環境内で実施することができることに留意されたい。特徴抽出モジュール１０６およびトレーナモジュール１０８は、コンピュータ２０内のハードウェアモジュール、または図１に開示されているＣＰＵ２１または別の好適なプロセッサによってアクセス可能な情報記憶デバイスのいずれかに記憶されたソフトウェアモジュールとすることができる。さらに、語彙集記憶モジュール１０５、音響モデル１１１、言語モデル１１０もまた、図１に示されている好適なメモリデバイスのいずれかに記憶されることが好ましい。さらに、探索エンジン１０７は、ＣＰＵ２１内で実施することができ、ＣＰＵ２１は、１つまたは複数のプロセッサを含むことも、パーソナルコンピュータ２０によって使用される専用音声認識プロセッサによって実施することもできる。さらに、出力デバイス１１５およびＩ／Ｏデバイス１１６には、たとえば、キーボード４０、ポインティングデバイス４２、モニタ４７、プリンタ、または図１に示されているメモリデバイスのいずれかなど、図１に示されているＩ／Ｏデバイスのいずれかが含まれることがある。

レシーバ１０２によって受け取られ、またはＡ／Ｄ変換器１０４により生成されたデジタル信号は、特徴抽出モジュール１０６に送られる。一実施形態において、特徴抽出モジュール１０６は、デジタル信号に対してスペクトル分析を実行し、周波数スペクトルの各周波数帯域について大きさ値を計算する従来のアレイプロセッサを含む。

特徴抽出モジュール１０６は、デジタル信号をフレームに分割し、このフレームの各々は複数のデジタルサンプルを含む。一実施形態において、各フレームは、持続時間が約１０ミリ秒である。次いで、フレームは、複数の周波数帯域についてスペクトル特性を反映する特徴ベクトルに符号化される。離散的かつ半連続的な隠れマルコフモデル化の場合、特徴抽出モジュール１０６はまた、ベクトル量子化技法と、トレーニングデータから抽出されたコードブックとを使用して、特徴ベクトルを１つまたは複数のコードワードに符号化する。したがって、特徴抽出モジュール１０６は、その出力部で、各発話について特徴ベクトル（またはコードワード）を提供する。特徴抽出モジュール１０６は、たとえば約１０ミリ秒ごとに１特徴ベクトルの割合で特徴ベクトルを提供することが好ましい。

特徴抽出モジュールの例には、線形予測符号化（ＬＰＣ）、ＬＰＣによって導出されたケプストラム、ＰＬＰ（ＰｅｒｃｅｐｔｉｖｅＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ）、聴覚モデル特徴抽出、およびメル周波数ケプストラム係数（ＭＦＣＣ）特徴抽出を実行するためのモジュールが含まれる。本発明は、これらの特徴抽出モジュールに限定されないこと、また本発明の文脈にそう限りで他のモジュールを使用することができることに留意されたい。

特徴抽出モジュール１０６によって生成された特徴ベクトルのストリームは、音声認識器１０７に送られ、音声認識器１０７は、特徴ベクトルのストリーム、貯蔵器１１１内の１つまたは複数の音響モデル、貯蔵器１１０内の１つまたは複数の言語モデル、および語彙集１０５に基づいて、単語または音素など、最も可能性の高い一連の話声単位を特定する。発信者識別モジュール１１２は、音声入力の特徴ベクトルを、貯蔵器１１１内に記憶され、音声認識器１０７によって識別された話声単位の一般モデルと発信者固有モデルに適用することによって、新しい発信者、または以前識別された発信者の１人として発信者を識別する。一実施形態において、発信者識別モジュール１１２はまた、貯蔵器１１０内に記憶された一般言語モデルと発信者固有言語モデルを使用して特定時の助けとする。モジュール１１２は、発信者の身元、および／または最も可能性の高い発話された単語列のテキストを呼ルータ１１３に出力し、またはこれらの結果を、たとえば図１に示されているメモリデバイスの１つに記憶する。結果は、Ｉ／Ｏデバイス１１５を介してユーザまたはオペレータに出力することもできる。次いで、呼ルータ１１３は、発信者の身元、および／または呼の内容に基づいて、呼をスクリーニングする、あるいは呼を１つまたは複数の選択された宛先に経路指定することができる。

音響モデルは、一連の特徴ベクトルが一連の仮定された話声単位内に見られる特定の一連の音響単位によって生成される可能性がどれだけ高いかを示すモデルである。本発明のいくつかの実施形態では、各話声単位には、セノン（ｓｅｎｏｎｅ）、音素、ダイフォン（ｄｉｐｈｏｎｅ）、音節、または単語など、任意の一般に使用される音響単位を含めることができる。各話声単位を１組の副次的単位の組合せとする実施形態もある。

上述のように、音響モデル貯蔵器１１１は、以前識別された各発信者について少なくとも１つの音響モデルと、広範な話者の話声特性を表す一般モデルとを含む。各音響モデルは、隠れマルコフモデル（ＨＭＭ）など、検出すべき複数の予め定められた話声単位の１組のモデルを含む。たとえば、各ＨＭＭは、単一の音素をモデル化することができる。一実施形態において、音声認識器１０７は、特徴抽出モジュール１０６から受け取った特徴ベクトルを一般音響モデルに適用してその特徴ベクトルを表し、したがって発信者から受け取った発話を表す最も可能性の高い音素を決定するのである。

通常の音響モデルは、トレーニングされた後、一連の入力特徴ベクトルを復号するために使用される。たとえば、図２では、そのようなトレーニングは、トレーニングテキスト１１８、その音響モデルからの過去のモデルパラメータ、特徴抽出モジュール１０６からのトレーニング特徴ベクトルに基づいて、トレーナ１０８によって実行することができる。本発明のいくつかの実施形態において、一般音響モデルは、一般的な１組の話者を表す一般トレーニングテキストを使用してトレーニングされる。次いで、この一般音響モデルを使用し、その発信者について生成された各組の特徴ベクトルを用いてＨＭＭが更新される発信者固有音響モデルを形成することができる。一実施形態において、１つまたは複数の音素からなる発話など単一の発話に基づいて、特定の発信者について一意的な音響モデルを生成することができる。より多くの呼および発話がその発信者から受け取られると、その発信者のための対応する音響モデルは、引き続き更新される。

音声認識器エンジン１０７はまた、入力データによって表された最も可能性の高い単語または単語列を特定する際の助けとなるように、貯蔵器１１０内に記憶された１つまたは複数の言語モデルにアクセスすることができる。貯蔵器１１０は、一般的な発信者に依存しない言語モデル、および／または複数の発信者固有言語モデルを記憶することができる。一実施形態において、各言語モデルは、文脈自由文法（ＣＦＧ）、またはトライグラム（ｔｒｉｇｒａｍ）など統計的Ｎグラム（ｎ−ｇｒａｍ）モデルを含む。トライグラムモデルは、単語列の３語分節の組合せ確率に基づいて単語列の確率を決定する。そのような言語モデルは、下記でより詳しく説明するように、以前識別された各発信者について一意的なモデルを提供するために修正することができる。発信者固有言語モデルは、特定の発信者によって使用される単語または主題を識別する際、コンピュータ２０を支援するため使用することができる。

一般言語モデルは、たとえばＮｏｒｔｈＡｍｅｒｉｃａｎＢｕｓｉｎｅｓｓＮｅｗｓから導出され、および出版物（非特許文献１参照）でより詳しく述べられている６０，０００語トライグラム言語モデルを含むことができる。

図３〜５は、本発明の一実施形態に従って使用することができる１組の特徴ベクトルの形成、および隠れマルコフモデルの詳細を示す。図３は、発信者から受け取られた音響入力「ＷＡＶ」を時間に応じて示す波形図である。上述のように、音響入力は、たとえば各々１０ミリ秒の複数のフレームに分割される。特徴抽出モジュール１０６は、図４に示されているように、ｋ＝１、２、．．．の場合、各１０ミリ秒フレームについて１組の特徴ベクトルＯ［ｋ］を生成する。特徴ベクトルＯ［ｋ］は、最もよく音響入力ＷＡＶの高速フーリエ変換の何らかの形に変形され、１０ミリ秒のスロットでウィンドウ化される。ＦＦＴ係数は、ピッチ、および話者のボーカルキャビティ（ｖｏｃａｌｃａｖｉｔｙ）など話声特性を反映する。次いで、これらの特徴ベクトルは、それぞれの音響モデルの隠れマルコフモデルに適用することができる。

図５は、１つの話声単位（たとえば、音素、セノン、トライフォンなど）について基本的な隠れマルコフモデル（ＨＭＭ）を示す状態図である。基本ＨＭＭモデルは、言語に依存しない単位であり、発話の音響特性を表す。各状態は、現在の状態のままであるか、あるいはモデル内の次の状態に遷移することができる。各話声単位は、図５でＳ１、Ｓ２、Ｓ３という符号が付けられた、その話声単位について「開始」状態、「主」状態、「終了」状態を表す３つの状態を有する。各状態は、図５に示されている矢印に沿って、その状態のままであるか、あるいは次の状態に遷移することができるだけである。ある状態から次の状態への遷移は、現在の状態をＳ１とすれば、状態Ｓ１から状態Ｓ２への遷移の条件付き確率を表す確率Ｐ（Ｓ２｜Ｓ１）を有する。また、ｉ＝１〜３の場合、各状態は確率分布Ｂ［ｉ］を有し、確率分布Ｂ［ｉ］は、任意の考えられる特徴ベクトルを観測する尤度を反映する任意の特徴ベクトルＯ［ｋ］の「出力に対する確率」（０と１の間の数）を表す。たとえば、この確率分布は、ガウス分布とすることができる。

貯蔵器１１１内の各音響モデルは、各音素についてそのような隠れマルコフモデルの集成物を含む。たとえば、音素「Ｂ」が先行し音素「Ｈ」が続く音素「ＡＸ」（「ｂａｈ」におけるように、記法Ｂ−ＡＸ＋Ｈ）は、「Ｌ」が先行し「Ｈ」が続く全く同じ「ＡＸ」（「ｂｌａｈ」の最後の部分におけるように、記法Ｌ−ＡＸ＋Ｈ）と異なる。

既存の音響モデルを使用して音声認識を実行する際、システムの初期状態は、確率１を有するＳ１であり、確率Ｐ［ｉ｜ｊ］および確率密度Ｂ［ｉ］は、ＨＭＭにおける各状態について既知である。音素を認識すると、音響入力は一連の特徴ベクトルｏ［ｋ］に変換され、音声認識器１０７（図２に示す）は、現行のＨＭＭモデルとすれば、確率Ｐ（ｏ［ｋ］｜モデル）が何であるか判定する。

換言すれば、音声認識器１０７は、その一連の入力特徴ベクトルによって表される音が、実際に考察中の現行ＨＭＭによってモデル化された音素である可能性がどれだけ高いかを判定する。最も確率が高いＨＭＭによってモデル化された音素が、発話された音素として特定される。

一般モデルをトレーニングし、または発信者固有モデルを更新するなど、音響モデルをトレーニングするとき、音響入力ＷＡＶ、したがってその一連の特徴ベクトルＯ［ｋ］が既知であることが仮定される。音声認識器１０７（または、発信者識別モジュール１１２）は、各音素についてＯ［ｋ］出力列を観測する確率が最も高くなるモデル（各状態についてＰ’［ｉ｜ｊ］およびＢ’［ｉ］）を生成する。たとえば、一実施形態において、発信者識別モジュール１１２は、一般音響モデルを更新し、またはその他の方法で適合させるためにバウム−ウェルチ（Ｂａｕｍ−Ｗｅｌｃｈ）ＨＭＭ再推定法を使用して特定の話者の特性を反映させる。たとえば、特定の話者のための音響モデルは、最初に一般音響モデルの一般ＨＭＭモデルを含むことができ、次いで現在の呼で発生した音素のためのＨＭＭモデルをバウム−ウェルチＨＭＭ再推定法によって更新し、その発信者の話声特性を反映させることができる。

図６は、本発明の一実施形態において使用することができる単純化された言語モデルの一例を示す図である。トライグラム言語モデルを構築する場合、第１のステップは、代表する言語の多数のテキストを収集することである。第２のステップは、各単語Ｗについての頻度カウントＰ１［Ｗ］、各バイグラム（２つの単語）についてのＰ２［Ｗ｜Ｗ０］、各トライグラムについてのＰ３［Ｗ｜Ｗ１，Ｗ２］を構築することである。音声認識器はまた、それぞれの言語において考えられる単語のリストを有する単語辞書（ＷＤ）によって制限されることになる。次いで、割引技法（ｄｉｓｃｏｕｎｔｉｎｇｓｔｒａｔｅｇｙ）を使用し、単語辞書内のあらゆる単語について確率Ｐ［Ｗ｜Ｗ１，Ｗ０］を構築する。割引技法は、考えられる２または３語列をすべて使用するのを回避するために使用される。なぜなら、２または３語列の数が非常に多いからである。単語辞書内の単語はすべて、図５に示されているものと同様な音素ＨＭＭによって特徴付けられる音素群に分解される。

次いで、音素ＨＭＭを共に結合し、各々のスタート状態（Ｓ１）に入る初期確率をＨＭＭモデルからＰ［Ｗ｜Ｗ１，Ｗ０］に従って調整することによって、マスタＨＭＭが生成される。図６に示す単純な例では、「ａｔ」と「ｔｈｅ」という２つの単語だけが見られ、これらの単語の各１回だけ見られている。したがって、マスタＨＭＭは、初期確率「１」と、「ＡＸ」音素ＨＭＭおよび「ＴＨ」音素ＨＭＭへの遷移確率「０．５」とを有する異なる開始状態Ｓ０を有することになる。２つの単語があるだけなので、「ＡＸ」ＨＭＭは、「Ｔ」ＨＭＭへの遷移確率１．０を有し、「ＴＨ」ＨＭＭは、「ＥＨ」ＨＭＭへの遷移確率１．０を有する。「ＴＨ」ＨＭＭおよび「ＥＨ」ＨＭＭは、終了状態Ｓ３に遷移する。

本発明の一実施形態において、一般言語モデルを適合させることにより、一意的に識別された各発信者について一意的な言語モデルが生成される。認識された句を、その発信者の着信から収集されたその「多数のテキスト」と共に使用することによって一般言語モデルを適合させる。このプロセスは、新しい単語を発見するのではなく、新しい確率Ｐ［Ｗ｜Ｗ１，Ｗ０］を発見するものである。すなわち、いずれの場合も特定の発信者は、ある単語の組合せを別の単語の組合せより多く使用する可能性が高いからである。また、あらゆる実施形態において、従来の意味での「単語」を収集する必要はない。一実施形態において、言語モデルは、ＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎから入手可能な、その書取言語モデル（ｄｉｃｔａｔｉｏｎｌａｎｇｕａｇｅｍｏｄｅｌ）を有するＭＳＲｅｃｏｇｎｉｚｅｒと同様に「単語」を収集する。代替の実施形態において、言語モデルは、その発音言語モデル（ｐｒｏｎｕｎｃｉａｔｉｏｎｌａｎｇｕａｇｅｍｏｄｅｌ）を有するＭＳＲｅｃｏｇｎｉｚｅｒと同様に、「単語」として、単に「音素」または音素の小グループを収集することができる。後述する実施形態は、発信者が名前など未知の単語を発話したときでも音素列の有用な確率を提供するという利点を有するが、精度はより低い。

図７は、たとえば、コンピュータ読取可能な媒体に命令として記憶し、コンピュータ２０（図１に示す）によって実行することができるコンピュータにより実施されるプロセス２００を示すフローチャートである。プロセス２００は、本発明の一実施形態に従って、識別された各発信者について一意的な音響モデルを生成することにより、１つまたは複数の着信者への電話呼の発信者を識別する。

ステップ２０１で、着信が発信者から受け取られる。ステップ２０２で、従来のｃａｌｌｅｒＩＤシステムを使用し、着信した電話番号を取り込む。その電話番号が、以前規定された信頼される電話番号と合致する場合、システムは、ステップ２０３で信頼される電話番号が検出されたことを示す信号を出力する。ｃａｌｌｅｒＩＤシステムは、信頼されるソースから到着する呼を識別し、このソースから受け取られた呼がプロセス２００によって遅れることのないよう、プロセス２００からの早く抜けるために使用することができる。ステップ２０３で生成された信号は、着信を特定のメールボックスに経路指定するため、呼が着信者の電話対応デバイスに経路指定されるようにするなどによって、任意の適切な形で使用することができる。

着信電話番号が信頼できない場合、あるいは、システムがステップ２０２を含むように構成されていない場合、ステップ２０４で、既知の音素列に分節化するために音声入力が音声認識器モジュール１０７（図２）に適用される。特徴抽出モジュール１０６（やはり図２に示す）は、音声入力から対応する特徴ベクトルを生成し、その特徴ベクトルを一般的な文脈自由文法（ＣＦＧ）モジュールおよび（図７で「Ｉ−ＡＭ」という符号が付けられている）発信者に依存しない一般音響モデルに適用する。文脈自由文法モジュールは、たとえば自由形式の書取（ｄｉｃｔａｔｉｏｎ）モデルまたは発音推計モデルを含むことができる。ＣＦＧは、任意の発話の認識を可能にする。発話が適度に正確な音素分節を発生する限り、ＣＦＧが発話のテキスト形態を生成することが必要である。

発信者に依存しない一般音響モデルＩ−ＡＭは、任意の発信者について機能することが可能なモデルを含むことができる。そのような一般音響モデルは、男性、女性、子供の発信者について機能する「性別に依存しない」音響モデルと呼ばれることがある。

音声認識器は、ＣＦＧおよび発信者に依存しない一般音響モデルＩ−ＡＭを使用して、音声入力を一連の認識済み音素に区切る。

たとえば、音声入力が「Ｉａｍｃａｌｌｉｎｇ．．．」を含む場合、音声認識器は、その発話のテキスト形態（「Ｉａｍｃａｌｌｉｎｇ．．．」）と、それに加えて音素分節（「ＩＸ＜ｓｉｌ＞ＡＸＭ＜ｓｉｌ＞ＣＡＸＬＩＸＮＧ」）を生成する。

ステップ２０５で、発信者識別モジュール１１２（図２）は、発信者が新しい発信者か、それとも以前識別された発信者かを判定する。このプロセスは、図８に関連して下記でより詳しく述べる。発信者が新しい発信者である場合、プロセス２００はステップ２０６に移行し、発信者識別モジュール１１２は、新しい音響モデルＡＭ［ｉ］を音響モデル貯蔵器１１１（図２）に追加し、モデル番号変数ＮＵＭＭＯＤＥＬＳ（すなわち、以前識別された発信者の数）を１だけ増分する。発信者識別モジュール１１２は、一般音響モデルＡＭ［０］のコピーを作成し、次いで、上述のように、着信内の発信者によって発話された任意の音素のＨＭＭ群を更新することによって、新しい音響モデルＡＭ［ｉ］を生成する。

ステップ２０７で、発信者識別モジュール１１２は、「新しい発信者」を示す信号を出力するが、この信号は、望まれるように呼を方向付けするため、呼経路指定モジュール１１３（図２）または別の呼管理システムによって使用することができる。発信者識別モジュール１１２はまた、話声入力を表すサウンドファイル、および（ステップ２０４で認識された場合）対応するテキストを記憶することができる。

一実施形態において、発信者識別モジュール１１２は、ステップ２０８で、Ｉ／Ｏデバイス１１５（図２）を介して発信者／テキスト認識の手動見直しを依頼する。ユーザまたはシステムオペレータは、呼のテキストを見直し、呼の音を聞きかつ／または発信者識別を閲覧し、Ｉ／Ｏデバイス１１５を介して任意の訂正を行うことができる。たとえば、ユーザは、呼を見直して廃棄することができ、または識別モジュールによって作成された分類を受け入れ、もしくは拒絶することができる。ステップ２０７の後で、プロセス２００はステップ２０１に戻り、別の着信を受け取る。

ステップ２０５で発信者識別モジュール１１２が発信者を新しい発信者でないと識別した場合、プロセス２００はステップ２１０に移行し、以前識別された発信者の誰が再び発信したか特定する。発信者識別モジュール１１２は、着信の発話内の話声特性に最も密接に合致する発信者固有音響モデルを決定する。一実施形態において、発信者識別モジュール１１２は、その音声特性（たとえば、特徴ベクトル）を各発信者固有音響モデル内の対応するＨＭＭに適用し、図８でより詳しく述べるように、ｊ＝１〜ＮＵＭＭＯＤＥＬＳの場合、最良の音響スコアを有する音響モデルＡＭ［ｊ］を識別する。ステップ２１１で、発信者識別モジュール１１２は、「発信者ｊが検出された」ことを示す信号を出力するが、ただし「ｊ」は、ステップ２１０で最良の音響スコアを有する音響モデルに対応する。

図８は、本発明の一実施形態による図７のステップ２０５における新しい発信者または以前識別された発信者の検出を示すフローチャートである。プロセスは、ステップ３００でステップ２０５に入る。ステップ３０１で、発信者識別モジュール１１２は、以前識別された発信者用の音響モデルの数ＮＵＭＭＯＤＥＬＳが０より大きいかどうか判定する。大きくない場合、現在の着信の発信者は新しい発信者であり、プロセス２０５は、ステップ３０２で抜ける。以前識別された発信者の数が０より大きい場合、現行の発信者は、新しい発信者か、あるいは以前識別された発信者の１人である可能性がある。次いで、プロセスは、ステップ３０３に移行する。

ステップ３０３で、発信者識別モジュール１１２は、ｊ＝０〜ＮＵＭＭＯＤＥＬＳの場合、音響モデル貯蔵器１１１内の各音響モデルＡＭ［ｊ］の元で、現行の発話について音響または「アルファ」スコアＡＭ［ｊ］を計算するが、ここで、モデルＡＭ［０］は、発信者に依存しない一般モデルＩ−ＡＭである。アルファスコアは、「フォワードパススコア（ｆｏｒｗａｒｄ−ｐａｓｓｓｃｏｒｅ）」として知られ、図７のステップ２０４で、音響モデルＡＭ［ｊ］を使用している間に（発信者に依存しないモデルＡＭ［０］によって）生成された分節に対して音声認識器デコーダまたは探索木を動作させることから得られる音響スコアである。

ステップ３０４で、発信者識別モジュール１１２は、一般音響モデルＡＭ［０］についてアルファスコアＡ［０］が最大（または、そうでない場合、最良）のアルファスコアを有するか否かを判定する。現行の発話がどの発信者固有音響モデルよりも一般音響モデルとよく合致する場合には、その発信者が新しい発信者として識別され、プロセスは、ステップ３０５で抜ける。一般音響モデルについてのアルファスコアＡ［０］が最大のアルファスコアでない場合、その発信者が以前識別された発信者の１人として識別され、発信者識別モジュール１１２は、特定の発信者を識別するためにステップ３０６に移行する。

変数「ｋ」が、アルファスコアＡ［ｊ］が最大になるインデックスに等しい（ｋ＝ａｒｇｍａｘ（ａ［ｊ］））と仮定すると、発信者「ｋ」がその発信者として識別され、発信者「ｋ」用の対応する発信者固有音響モデルＡＭ［ｋ］は、新しい発話の話声特性を反映するために更新される。このようにして、以前識別された発信者から着信が受け取られるたびに、その発信者用の対応する音響モデルは、その発信者の話声特性をよりよく表すように、その呼に含まれる音響単位に基づいてさらにトレーニングされる。発信者固有音響モデルが更新された後で、プロセスは、ステップ３０７で抜ける。

一実施形態において、発信者固有音響モデルＡＭ［ｋ］は、従来の音声認識または書取ソフトウェアで一般的であるように多数の発話および発話の繰返しによってトレーニングされることなく、わずか１つの発話で作成または更新することができる。単一の発話トレーニングは、ＭｉｃｒｏｓｏｆｔＭＳＲｅｃｏｇｎｉｚｅｒなど現在使用可能な音声認識ソフトウェアを用いて、サウンド入力を数回繰り返し、それをＭＳＲｅｃｏｇｎｉｚｅｒに繰り返し適用することによって、または単一の発話でトレーニングするようにＭＳＲｅｃｏｇｎｉｚｅｒを再構成することによって行うことができる。他のタイプの音声認識器またはデコーダを代替の実施形態において使用することもできる。

代替の実施形態において、ステップ３０４は、２つのサブセクションなど、いくつかのサブセクションに現行の音声入力を分割し、２つのサブセクションについて各音響モデルで２つのアルファスコアＡ０［ｊ］およびＡ１［ｊ］を計算することによって、さらに洗練させることができる。ステップ３０４は、Ａ０［ｊ］とＡ１［ｊ］が共に同じインデックスＫに対して最大である（ａｒｇｍａｘ（ＡＭ［ｋ］））ときだけ、「いいえ」（一般モデルが最高の音響スコアを有していない）を返すことになる。このプロセスは、音声入力内に複数の話者がいる呼をふるい分けるため、また識別プロセスをさらに洗練させるために有用となる可能性がある。

図９は、（音響によってではなく）呼の内容によってユーザを検出するために発信者固有の言語モデル（ＰＣＦＧ：ｐｒｏｂａｂｉｌｉｓｔｉｃＣＦＧ）をトレーニングするためのプロセス４００を示すフローチャートである。プロセス４００は、発信者識別の精度を高めるため、または発信者を識別する代替方法として図７に示されているプロセス２００と共に使用することができる。ステップ４０１で、着信が受け取られる。ステップ４０２で、プロセス４００は、図７に示す音響発信者識別プロセスを実行することによって音響発信者識別を得る。ステップ４０３で、プロセス４００は、（図２の音声認識器１０７によって区切られた）認識された呼の「テキスト」を、対応する発信者固有言語モデル用のその発信者のテキスト貯蔵器に追加する。ステップ４０３は、図６を参照して述べられている「多数のテキストを収集する」ステップに対応する。

ステップ４０４で、プロセス４００は、特定の発信者用のテキスト貯蔵器内に、言語モデルＬＭ（ｉ）をトレーニングするために十分な単語があるか否かを判定する。十分ではない場合、プロセス４００はステップ４０１に戻り、その発信者から他の着信を受け取る。十分な数の単語がある場合、プロセス４００は、図６に関連して説明したプロセスに従って（発信者「ｉ］について）新しい言語モデルＬＭ［ｉ］をトレーニングし、ステップ４０５で、ＬＭ［ｉ］を言語モデル貯蔵器１１０に追加する。次いで、プロセス４００は、発信者固有言語モデルの数ＮＵＭＬＭＭＯＤＥＬＳを１だけ増分する。

プロセス４００は、ステップ４０６で「新しい言語モデル」を示す信号を出力し、ステップ４０７でシステムユーザに呼およびテキスト認識の手動見直しを依頼することができる。ユーザは、Ｉ／Ｏデバイス１１５（図２に示す）を介してデータを見直し、改訂することができる。次いで、プロセス４００はステップ４０１に戻り、他の着信を受け取る。

プロセス４００は、図７に示されている音響発信者識別プロセスをどのように使用し、各一意的な発信者について対応する言語モデルを構築することができるかを示す。言語モデルを使用して発信者を識別するために、十分な言語モデルがトレーニングされた後で、発信者識別モジュール１１２は、一般音響モデルと共に、および各発信者固有言語モデルＬＭ［ｉ］を順に活性化して、単に音声認識器モジュール１０７を実行することができる。確率が最も高いテキスト認識を生成する言語モデルが、現行の発信者に対応する。

発信者固有言語モデルを使用して発信者を識別することは、現行の呼の発信者固有言語モデルＬＭ［ｉ］の１つに対する意味類似性を識別することになる。しかし、現行の発信者が、発信者「ｉ」が語った同じ主題について語る異なる発信者（発信者「ｉ」でない）であると言えるかもしれない。したがって、発信者固有言語モデルは、一意的な発信者を正しく識別するため、発信者固有音響モデルと共に使用することが好ましい。たとえば、結果を識別システムにレポートするとき、図７に示されている音響発信者識別プロセスを、図９でトレーニングされた言語モデル発信者識別プロセスより重く加重することができる。たとえば、２つの識別方法により異なる結果が生成される場合、言語モデル検出結果は、スコアの最も高い音響モデルの発信者固有音響スコアより、はるかに高い確率を有する場合だけ使用されることになる。この場合も、コールセンタのシステムユーザまたはオペレータは、音響モデル識別サブシステムまたは言語モデル識別サブシステムによって作成されたどの分類をも覆すことができる。

図７〜図９に示されている発信者識別プロセスは、「新しい発信者」として誤認された発信者について、複数の音響モデルおよび言語モデルを作成することができる。これは、たとえば、同じ発信者からの２つ以上の異なる呼の音素または主題が重なり合わないとき行われる可能性がある。音響モデルおよび言語モデルが、以前識別された発信者からの各連続する新しい呼を用いて引き続きトレーニングされて、同じ発信者に対応するモデルが互いに重なり合うことになり、マージすることができる。発信者識別システムは、発信者固有モデルをすべて定期的に見直し、予め定められた基準に基づいてモデルをマージすべきかどうか判定するマージモジュールを含むことができる。この基準として、たとえば特徴ベクトルの所与の集合についてのモデル確率の類似性を用いることができる。

より具体的には、一般に、音素ＨＭＭは、平均ベクトルおよび分散行列によって決定された（特徴ベクトル空間内の）多次元ガウス分布を使用して状態遷移確率をモデル化する。マージモジュールは、前記平均ベクトルおよび／または分散行列を、ユーザごとの対応する音素について単にクラスタ化し、（通常のユークリッド距離と異なり、確率関数分離（ｐｒｏｂａｂｉｌｉｔｙｆｕｎｃｔｉｏｎｓｅｐａｒａｔｉｏｎ）を比較するのに最も適したＢｈａｔｔａｃｈａｒｙａ距離など距離関数を使用して）それらが、マージされるだけ十分に近いか否かを確かめることができるであろう。

さらに、発信者識別システムは、（たとえば、すでにトレーニング済みの２つのＡＭが互いに非常に近いことを学習した後で）「前駆」ＡＭ（図８のステップ３０６でトレーニングモジュールへの入力として使用されるもの）、ならびにトレーニングするために使用されるＷＡＶ（現行ユーザ入力）を記憶し、その２人の発信者からのサンプル音声入力を（図７のステップ２０８のように）「手動見直し」した後だけトレーニングを適用することができる。これにより、トレーニング済み発信者固有ＡＭが、誤った発信者からの音声入力の供給を受けることにより徐々に劣化することが防止される。正確に何が「非常に近い」かは、ユーザ識別タスクの任意の使用可能なコーパス（十分に大勢の人に属する多数の電話呼／ＷＡＶファイル）を使用して、実験的に定量化することができる。

上述の発信者識別プロセスの１つの利点は、システムが、発信者からのわずか１つの発話で発信者を識別することが可能であることである。その発信者からの他の呼を識別するために、その発話から新しい発信者固有音響モデルが作成される。また、システムは、着信呼の経路指定をするために使用されるどの入力促進信号応答機構にも発信者が協力しない場合でも、発信者を識別することが可能となる。その発話が入力促進信号に対する適正な回答であろうとなかろうと、どの発話の音響特性もその発信者についてモデル化される。さらに、システムは、識別プロセスに対して発信者の注意を喚起することなしに発信者を識別することが可能である。このシステムを使用し、たとえばテレマーケティングの望ましくない呼を、既知の発信者からの所望の呼から容易にふるい分けることができる。

また、大規模コールセンタは、正しい着信者または情報データベースに呼をより効率的に経路指定するために、本システムを使用することができる。一部のコールセンタは、発信者が、正しい宛先に経路指定される前に入力促進信号の長い迷路をうまく通過することを必要とする。本システムは、発信者の声紋と、以前の呼の着信者または主題とに基づいて、入力促進信号応答機構からの迅速な出口を以前識別された発信者に提供することができる。そのような発信者識別システムに対して、多数の他の応用例が存在する。

以上、本発明について、好ましい実施形態を参照して述べたが、本発明の精神および範囲から逸脱することなしに、形態および詳細に変更を加えることができることを、当業者なら理解するであろう。

本発明の一実施形態による従来型パーソナルコンピュータの形態で本発明を実施するための例示的なシステムのブロック図である。本発明の一実施形態による発信者を識別するためのモジュール群システムのより詳細なブロック図である。発信者から受け取られた音響入力「ＷＡＶ」を時間に応じて示す波形図である。図３に示されている音響入力について生成された１組の特徴ベクトルを示す図である。１つの話声単位について基本的な隠れマルコフモデル（ＨＭＭ）を示す状態図である。本発明の一実施形態において使用することができる単純化された言語モデルの一例を示す図である。本発明の一実施形態による着信者への電話呼の発信者を識別するためのコンピュータによって実施されるプロセスを示すフローチャートである。本発明の一実施形態によるプロセス内での新しい発信者または以前識別された発信者の検出処理を示すフローチャートである。本発明の一実施形態による呼の内容によって発信者を検出するために発信者固有の言語モデルをトレーニングするためのプロセスを示すフローチャートである。

符号の説明

２０コンピュータ
２２メモリ
２３システムバス
２７ハードディスクドライブ
２８磁気ディスクドライブ
２９取外し式記憶装置
３０光ディスクドライブ
３１光ディスク
３２インターフェース
３３インターフェース
３４インターフェース
３５オペレーティングシステム
３６アプリケーションプログラム
３７プログラムモジュール
３８プログラムデータ
４０キーボード
４２ポインティングデバイス
４３マイクロフォン
４５スピーカ
４６シリアルポートインターフェース
４７モニタ
４８ビデオアダプタ
４９遠隔コンピュータ
５０メモリ
５３ネットワークアダプタ
５４モデム
１０２レシーバ
１０５語彙集
１０７音声認識器
１０８トレーナ
１１０言語モデル
１１１音響モデル
１１３呼ルータ
１１４入力促進信号応答
１１８トレーニングテキスト

Claims

発信者から着信者への呼において前記発信者を識別する方法であって、
（ａ）音声入力を前記発信者から受け取るステップと、
（ｂ）複数の話声単位の発信者に依存しないモデルを含む一般音響モデルと、以前識別された発信者の音響モデル群とを含む複数の音響モデル群に、前記音声入力の特性を適用して複数のそれぞれの音響スコアを得るステップと、
（ｃ）前記複数の音響スコアに基づいて、前記以前識別された発信者のうちの１人か、または新しい発信者と、前記発信者を識別するステップと、
（ｄ）前記ステップ（ｃ）で前記発信者が新しい発信者と識別された場合、前記新しい発信者について、前記一般音響モデルの発信者に依存しないモデルから新しい音響モデルを生成し、前記新しい発信者から受け取られた前記音声入力の特性を表すように、前記音声入力内に含まれる前記話声単位に基づいて前記発信者に依存しないモデルを修正して、前記新しい発信者についての新しい音響モデルおよび任意の前記以前識別された発信者の音響モデル群が同一の複数の話声単位を有するようにするステップと、
（ｅ）以前、ともにマージするため識別された前記発信者の音響モデル群であることを特定するユーザ入力促進信号を生成するステップと
を備えたことを特徴とする方法。
前記識別するステップ（ｃ）は、
（ｃ）（１）前記それぞれの音響モデルが前記一般音響モデルより、良い音響スコアの場合、前記発信者を前記以前識別された発信者の１人と識別するステップと、
（ｃ）（２）前記一般音響モデルが前記複数の以前識別された発信者の音響モデル群より、良い音響スコアの場合、前記発信者を新しい発信者と識別するステップと
を含むことを特徴とする請求項１に記載の方法。
前記ステップ（ａ）は、前記一般音響モデルを使用して、前記音声入力を一連の認識済み話声単位に区切るステップを含み、
前記複数の音響モデルの各々は、前記ステップ（ａ）で区切られた前記話声単位のモデルを含み、
前記ステップ（ｂ）は、前記複数の音響モデルについて前記ステップ（ａ）で区切られた前記話声単位の一連のモデルに、前記音声入力の特性を適用するステップを含むことを特徴とする請求項１に記載の方法。
（ｆ）前記ステップ（ｃ）で前記発信者が前記以前識別された発信者の１人と識別された場合、前記音声入力の前記特性に基づいて、前記音声入力内に含まれる前記話声単位のモデルを修正することによって、前記以前識別された発信者用の前記それぞれの音響モデルを更新するステップ
をさらに備えたことを特徴とする請求項１に記載の方法。
前記ステップ（ｆ）は、単に一つの発話に基づいて、前記音声入力内に含まれる話声単位のモデルを修正するステップを含むことを特徴とする請求項４に記載の方法。
（ｆ）前記新しい音響モデルが前記ステップ（ｂ）における前記複数の音響モデルの１つになり、前記新しい発信者が以前識別された発信者として含まれるように、前記新しい音響モデルを、前記複数の音響モデルと共に音響モデル貯蔵器に記憶するステップ
をさらに備えたことを特徴とする請求項１に記載の方法。
前記ステップ（ａ）ないし（ｃ）が、前記発信者が識別されつつあることに対して前記呼の間に前記発信者の注意を喚起することなしに実行されることを特徴とする請求項１に記載の方法。
前記ステップ（ｂ）は、前記音声入力をサブセクションに分割するステップと、各サブセクションの前記特性を前記複数の音響モデルに適用し、各サブセクションにおける前記特性がそれぞれの音響モデルにどれだけ良好に合致するかを表す複数のそれぞれの音響スコアを得るステップとを含み、
前記ステップ（ｃ）は、各サブセクションについて、該サブセクションについての最良の音響スコアを有する前記音響モデルを識別するステップと、サブセクションのすべてについての最良の音響スコアが、同じ以前識別された発信者に対応する場合だけ、前記発信者を前記以前識別された発信者の１人と識別するステップとを含むことを特徴とする請求項１に記載の方法。
（ｆ）前記以前識別された発信者の各々について、該発信者からの前記音声入力に基づいて発信者固有言語モデルを維持するステップと、
（ｇ）前記音声入力の前記特性を、前記一般音響モデルと前記発信者固有言語モデルの各々とに適用し、複数の認識済み話声単位列を生成するステップと、
（ｈ）他の前記認識済み話声単位列の確率に対して最高の確率を有する認識済み話声単位列を選択するステップと、
（ｉ）少なくとも一部には前記最高の確率を有する前記認識済み話声単位列に基づいて、前記発信者を識別するステップと
をさらに備えたことを特徴とする請求項１に記載の方法。
（ｊ）前記ステップ（ｉ）で識別された前記発信者が、前記ステップ（ｃ）で識別された前記発信者と異なる場合、前記音声入力、前記認識済み話声単位列、前記識別された発信者、前記ステップ（ｃ）で識別された前記発信者の音響モデル、および前記ステップ（ｉ）で識別された前記発信者の発信者固有言語モデルのうち少なくとも１つを示すユーザ入力促進信号を生成するステップをさらに備えたことを特徴とする請求項９に記載の方法。
（ｆ）前記以前識別された発信者の前記複数の音響モデル間で距離尺度を使用し、ともにマージするため前記所定の種類の音響モデルにフラグを立てるステップをさらに備えたことを特徴とする請求項１に記載の方法。
発信者から着信者への呼において前記発信者を識別するシステムであって、
音声入力を前記発信者から受け取るためのレシーバと、
複数の話声単位の発信者に依存しないモデルを含む一般音響モデルと、任意の以前識別された発信者の音響モデル群とを有する複数の音響モデルを含む音響モデル貯蔵器と、
複数のそれぞれの音響スコアを得るため、前記複数の音響モデルに前記音声入力の特性を適用する手段と、
前記複数の音響スコアに基づいて、前記以前識別された発信者の１人か、または新しい発信者と、前記発信者を識別する手段と、
前記一般音響モデルが前記複数の以前識別された発信者の前記音響モデル群より、良い音響スコアの場合、前記新しい発信者について、前記一般音響モデルの発信者に依存しないモデルから新しい音響モデルを生成し、前記新しい発信者から受け取られた前記音声入力の特性を表すように、前記音声入力内に含まれる前記話声単位に基づいて発信者に依存しないモデルを修正して、前記新しい発信者についての新しい音響モデルおよび任意の前記以前識別された発信者の音響モデル群が同一の複数の話声単位を有するようにする音響モデル生成手段と
以前、ともにマージするため識別された前記発信者の音響モデル群であることを特定するユーザ入力促進信号を生成する手段と
を備えたことを特徴とするシステム。
前記一般音響モデルを使用して、前記音声入力を一連の認識済み話声単位に区切る音声認識器をさらに備え、
前記複数の音響モデルの各々は、前記音声認識器によって認識された前記話声単位のモデルを含み、
前記適用する手段は、前記複数の音響モデルについて、前記音声認識器によって区切られた前記話声単位の一連のモデルに前記音声入力の特性を適用する手段を含むことを特徴とする請求項１２に記載のシステム。
前記発信者が前記以前識別された発信者の１人と識別された場合、前記音声入力の特性に基づいて、前記音声入力内に含まれる前記話声単位のモデルを修正することによって、前記以前識別された発信者用のそれぞれの音響モデルを更新する音響モデル更新モジュールをさらに備えたことを特徴とする請求項１２に記載のシステム。
前記音響モデル更新モジュールは、前記発信者からの単なる一つの発話に基づいて、前記音声入力内に含まれる前記話声単位のモデルを修正することが可能であることを特徴とする請求項１４に記載のシステム。
前記音響モデル生成手段は、前記新しい音響モデルが前記複数の音響モデルの１つになり、前記新しい発信者が以前識別された発信者として含まれるように、前記新しい音響モデルを前記音響モデル貯蔵器に記憶することを特徴とする請求項１２に記載のシステム。
前記呼の間に前記発信者が識別されつつあることに対して前記発信者の注意を喚起することなしに、前記音声入力を受け取り、および前記発信者を識別するように構成されることを特徴とする請求項１２に記載のシステム。
前記適用する手段は、前記音声入力をサブセクションに分割し、および各サブセクションの前記特性を前記複数の音響モデルに適用して各サブセクションにおける前記特性がそれぞれの音響モデルにどれだけ良好に合致するかを表す複数のそれぞれの音響スコアを得る手段を含み、
前記識別する手段は、各サブセクションについて、該サブセクションについての最良の音響スコアを有する前記音響モデルを識別し、およびすべてのサブセクションについての最良の音響スコアが、同じ以前識別された発信者に対応する場合だけ、前記発信者を前記以前識別された発信者の１人と識別する手段を含むことを特徴とする請求項１２に記載のシステム。
前記以前識別された発信者の各々について、該発信者からの前記音声入力に基づいて発信者固有言語モデルを記憶する言語モデル貯蔵器と、
前記音声入力の特性を、前記一般音響モデルと前記発信者固有言語モデルの各々とに適用し、複数の認識済み話声単位列を生成する手段と、
他の前記認識済み話声単位列の確率に対して最高の確率を有する前記認識済み話声単位列を選択する手段とをさらに備え、
前記識別する手段は、少なくとも一部には前記最高の確率を有する前記認識済み話声単位列に基づいて、前記発信者を識別することを特徴とする請求項１２に記載のシステム。
前記識別する手段は、（１）前記音声入力、すなわち最高の確率を有する前記認識済み話声単位列、（２）最高の確率を有する前記認識済み話声単位列を生成する前記発信者固有言語モデル、および（３）最高の確率を有する前記発信者固有言語モデルが最良の音響スコアを有する前記音響モデルと異なる発信者に対応する場合の前記最良の音響スコアを有する前記音響モデル、のうち少なくとも１つを示すユーザ入力促進信号を生成する手段を含むことを特徴とする請求項１９に記載のシステム。
前記複数の音響モデル間の距離尺度に基づいて、ともにマージするために前記所定の種類の音響モデルにフラグを立てる手段をさらに備えたことを特徴とする請求項１２に記載のシステム。
発信者から着信者への呼において前記発信者を識別する方法であって、
（ａ）音声入力を前記発信者から受け取るステップと、
（ｂ）複数の話声単位の発信者に依存しないモデルを含む、発信者に依存しない一般音響モデルを使用して、前記音声入力を一連の認識済み話声単位に区切るステップと、
（ｃ）一般音響モデルと任意の以前識別された発信者の音響モデル群とを含む複数の音響モデル内で、前記認識済み話声単位の一連の話声単位モデルに前記音声入力の特性を適用するステップと、
（ｄ）前記音声入力の前記特性が前記複数の音響モデルにどれだけ良好に合致するかに基づいて、複数の以前識別された発信者の１人、または新しい発信者と前記発信者を識別し、前記発信者が新しい発信者と識別された場合、前記新しい発信者から受け取られた前記音声入力の特性を表すように、前記音声入力内に含まれる前記話声単位に基づいて発信者に依存しないモデルを修正することによって、前記新しい発信者について、前記一般音響モデルの発信者に依存しないモデルから新しい音響モデルを生成し、前記新しい発信者についての新しい音響モデルおよび任意の前記以前識別された発信者の音響モデル群が同一の複数の話声単位を有するようにするステップと、
（ｅ）前記以前識別された発信者の各々について、該発信者からの前記音声入力に基づいて発信者固有言語モデルを維持するステップと、
（ｆ）前記音声入力の前記特性を、前記一般音響モデルと前記発信者固有言語モデルの各々とに適用し、複数の認識済み話声単位列を生成するステップと、
（ｇ）他の前記認識済み話声単位列の確率に対して最高の確率を有する前記認識済み話声単位列を選択するステップと、
（ｈ）前記最高の確率を有する認識済み話声単位列に基づいて、前記発信者を識別するステップと、
（ｉ）前記ステップ（ｈ）において識別された前記発信者がステップ（ｄ）で識別された前記発信者と異なる場合、前記音声入力、前記認識済み話声単位列、前記識別された発信者、前記ステップ（ｄ）で識別された前記発信者の音響モデル、および前記ステップ（ｈ）で識別された前記発信者の発信者固有言語モデルのうち少なくとも１つを示すユーザ入力促進信号を生成するステップと
を備えたことを特徴とする方法。
（ｊ）前記新しい音響モデルが前記ステップ（ｃ）における前記複数の音響モデルの１つになり、前記新しい発信者が以前識別された発信者として含まれるように、前記新しい音響モデルを、前記複数の音響モデルと共に音響モデル貯蔵器に記憶するステップと
をさらに備えたことを特徴とする請求項２２に記載の方法。
（ｊ）前記以前識別された発信者の前記複数の音響モデル間で距離尺度を使用し、ともにマージするために所定の種類の音響モデルにフラグを付するステップをさらに備えたことを特徴とする請求項２２に記載の方法。