JP4221379B2 - 音声特性に基づく電話発信者の自動識別 - Google Patents

音声特性に基づく電話発信者の自動識別 Download PDF

Info

Publication number
JP4221379B2
JP4221379B2 JP2005005572A JP2005005572A JP4221379B2 JP 4221379 B2 JP4221379 B2 JP 4221379B2 JP 2005005572 A JP2005005572 A JP 2005005572A JP 2005005572 A JP2005005572 A JP 2005005572A JP 4221379 B2 JP4221379 B2 JP 4221379B2
Authority
JP
Japan
Prior art keywords
caller
acoustic
model
acoustic model
models
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005005572A
Other languages
English (en)
Other versions
JP2005227758A (ja
JP2005227758A5 (ja
Inventor
パスコビチ アンドレイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2005227758A publication Critical patent/JP2005227758A/ja
Publication of JP2005227758A5 publication Critical patent/JP2005227758A5/ja
Application granted granted Critical
Publication of JP4221379B2 publication Critical patent/JP4221379B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/12Score normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/16Hidden Markov models [HMM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Telephonic Communication Services (AREA)
  • Sub-Exchange Stations And Push- Button Telephones (AREA)

Description

本発明は、音声特性に基づいて、着信電話の発信者を自動的に識別するコンピュータによって実行される方法および装置に関する。詳細には、本発明は着信電話を経路指定およびスクリーニングするためのコンピュータによる音声認識技法に関する。
電話通信システムでは、自動的に出力される入力促進信号(prompt)に対する発信者(caller)の応答に基づく呼の経路指定または事前スクリーニングのため、通常、コールセンタが使用される。そのような入力促進信号応答機構は、通常、発信者が所望の呼の着信者(recipient)または情報データベースに経路指定される前に、多数の入力促進信号がうまく通過しなければならないため時間がかかるものである。また、そのような機構は、発信者が入力促進信号コマンドに正しく従うことを前提とする。発信者が入力促進信号コマンドに従わない場合、呼が正確に経路指定されない可能性がある。同様に、呼スクリーニング機構は、発信者がスクリーニング入力促進信号に正直に応答して対応することに左右される。これにより、発信者および着信者が呼を正確かつ効率的に経路指定し、スクリーニングすることが困難になる。
"CSR-III Text Language Model", University of Pennsylvania, 1994
したがって、音声認識システムにより呼経路指定プロセスを支援するよう、提案がなされている。しかし、そのような音声認識システムもまた、発信者が予め定められた入力促進信号に応答しなければならない入力促進信号応答機構に左右される。たとえば、このようなシステムは、発信者が発信者名を述べ、および/または呼の主題もしくは所望の着信者の身元を表す予め定められた単語もしくは単語列を述べることを要求するかもしれない。この場合も、これらのシステムは、発信者が予め定められた入力促進信号に正しく応答する場合だけ効果的であるにすぎない。また、様々な発信者についての音声入力特性は広範にわたることを考えると、話声の内容を決定するために使用される音声認識モデルは、内容を正確に区切る必要がある。したがって、そのようなシステムでは、依然として時間がかかり、あるいは不正確であって、非協力的な発信者は容易にそのようなシステムを迂回することができるのである。
したがって、音声特性に基づいて着信電話を自動的に予めスクリーニングし、経路指定する改善された方法および装置が望まれている。
本発明の一実施形態は、発信者から着信者への呼の発信者を識別する方法を目的とする。音声入力が発信者から受け取られ、その音声入力の特性が複数の音響モデルに適用され、複数のそれぞれの音響スコアを得る。この複数の音響モデルは、一般音響モデルと、任意の以前識別された発信者の音響モデル群とを含む。発信者は、複数の音響スコアに基づいて、以前識別された発信者の1人として、または新しい発信者として識別される。発信者が新しい発信者として識別された場合、その新しい発信者について新しい音響モデルが生成され、この音響モデルは、その新しい発信者固有のものとなる。
本発明の別の実施形態は、発信者から着信者への呼の発信者を識別するためのシステムを目的とする。このシステムは、発信者から音声入力を受け取るためのレシーバと、複数の音響モデルを記憶するための音響モデル貯蔵器(repository)とを含む。この複数の音響モデルは、一般音響モデルと、任意の以前識別された発信者の音響モデル群とを含む。このシステムはさらに、音声入力の特性を複数の音響モデルに適用し、複数のそれぞれの音響スコアを生成するための、および複数の音響スコアに基づいて発信者を以前識別された発信者の1人、または新しい発信者として識別するためのモデルを含む。音響モデル生成器は、一般音響モデルに対する音響スコアが、複数の以前識別された発信者の音響モデル群に対する音響スコアより良好である場合に、新しい発信者のための新しい音響モデルを生成する。
本発明の別の実施形態は、コンピュータによって実行されると、呼の発信者を識別する方法を実行するコンピュータ実行可能命令を含むコンピュータ読取可能な媒体を目的とする。この方法は、発信者から音声入力を受け取るステップと、音声入力の特性を複数の音響モデルに適用し、複数のそれぞれの音響スコアを得るステップとを含む。この複数の音響モデルは、一般音響モデルと、任意の以前識別された発信者の音響モデル群とを含む。発信者は、複数の音響スコアに基づいて、以前識別された発信者の1人として、または新しい発信者として識別される。発信者が新しい発信者として識別された場合、その新しい発信者について新しい音響モデルが生成され、この音響モデルは、その新しい発信者固有のものとなる。
本発明のさらに別の実施形態は、音声入力が発信者から受け取られる発信者を識別する方法を目的とする。音声入力は、発信者に依存しない一般音響モデルを使用して、一連の認識済み話声単位に区切られる。音声入力の特性は、一般音響モデルと任意の以前識別された発信者の音響モデル群とを含む複数の音響モデル内で、認識済み話声単位の一連の話声単位モデルに適用される。発信者は、音声入力の特性が複数の音響モデルにどれだけ良好に合致するかに基づいて、複数の以前識別された発信者の1人として、または新しい発信者として識別される。
図1ならびに関連の検討は、本発明を実施することができる好適なコンピューティング環境を簡単に、一般的に述べるよう意図されている。必ずしも必要ではないが、本発明の実施形態について、少なくとも一部にはパーソナルコンピュータまたは他のコンピューティングデバイスによって実行されるプログラムモジュールなどのコンピュータ実行可能命令の一般的な文脈で説明する。一般に、プログラムモジュールは、特定のタスクを実行する、あるいは特定の抽象データタイプを実施するルーチンプログラム、オブジェクト、コンポーネント、データ構造などを含む。さらに、本発明は、ハンドヘルドデバイス、マルチプロセッサシステム、マイクロプロセッサをベースとする、またはプログラム可能な家電、ネットワークPC、ミニコンピュータ、メインフレームコンピュータなどが含まれる他のコンピュータシステム構成と共に実施することができることを、当業者なら理解できるであろう。また、本発明は、通信ネットワークを介してリンクされた遠隔処理デバイスによってタスクが実行される分散コンピューティング環境内で実施することもできる。分散コンピューティング環境では、プログラムモジュールは、ローカルと遠隔双方のメモリ記憶デバイス内に位置することができる。
図1を参照すると、本発明の一実施形態を実施するための例示的なシステムは、処理装置(CPU)21、システムメモリ22、およびシステムメモリ22を含む様々なシステム構成要素を処理装置21に結合するシステムバス23を含め、従来のパーソナルコンピュータ20の形態で汎用コンピューティングデバイスを含んでいる。システムバス23は、様々なバスアーキテクチャのいずれかを使用する、メモリバスまたはメモリコントローラ、周辺機器バス、およびローカルバスを含むいくつかのタイプのバス構造のいずれかとすることができる。システムメモリ22は、読出し専用メモリ(ROM)24およびランダムアクセスメモリ(RAM)25を含む。起動中などにパーソナルコンピュータ20内の要素間で情報を転送するのを助ける基本ルーチンを含む基本入出力システム(BIOS)26は、ROM24内に記憶されている。パーソナルコンピュータ20はさらに、ハードディスク(図示せず)との間で読出しおよび書込みをするハードディスクドライブ27、取外し式磁気ディスク29との間で読出しまたは書込みをする磁気ディスクドライブ28、CD ROMまたは他の光媒体など取外し式光ディスク31との間で読出しまたは書込みをする光ディスクドライブ30を含む。ハードディスクドライブ27、磁気ディスクドライブ28、光ディスクドライブ30は、それぞれハードディスクドライブインターフェース32、磁気ディスクドライブインターフェース33、光ドライブインターフェース34によってシステムバス23に接続される。ドライブとその関連コンピュータ読取可能な媒体は、パーソナルコンピュータ20のためのコンピュータ読取可能命令、データ構造、プログラムモジュール、および他のデータの不揮発性記憶を実現する。
本明細書に述べられている例示的な環境は、ハードディスク、取外し式磁気ディスク29、および取外し式光ディスク31を使用するが、磁気カセット、フラッシュメモリカード、デジタルビデオディスク、ベルヌーイカートリッジ、ランダムアクセスメモリ(RAM)、読出し専用メモリ(ROM)など、コンピュータによってアクセス可能なデータを記憶することができる他のタイプのコンピュータ読取可能な媒体もまた、この例示的な動作環境内で使用することができることを、当業者なら理解すべきである。
いくつかのプログラムモジュールは、ハードディスク、磁気ディスク29、光ディスク31、ROM24、またはRAM25に記憶することができ、オペレーティングシステム35、1つまたは複数のアプリケーションプログラム36、他のプログラムモジュール37、およびプログラムデータ38を含む。ユーザは、キーボード40、ポインティングデバイス42、およびマイクロフォン43などローカル入力デバイスを介して、パーソナルコンピュータ20にコマンドおよび情報を入力することができる。他の入力デバイス(図示せず)には、ジョイスティック、ゲームパッド、衛星パラボラアンテナ、スキャナなどが含まれることがあり得る。これら、および他の入力デバイスは、しばしばシステムバス23に結合されたシリアルポートインターフェース46を介して処理装置21に接続されるが、サウンドカード、パラレルポート、ゲームポート、またはユニバーサルシリアルバス(USB)など、他のインターフェースによって接続することもできる。また、モニタ47または他のタイプのディスプレイデバイスも、ビデオアダプタ48などのインターフェースを介して、システムバス23に接続される。パーソナルコンピュータは、モニタ47に加えて、一般に、スピーカ45およびプリンタ(図示せず)など他の周辺出力デバイスを含むことができる。
パーソナルコンピュータ20は、遠隔コンピュータ49など、1つまたは複数の遠隔コンピュータへの論理接続を使用して、ネットワーク環境内で動作することができる。遠隔コンピュータ49は、別のパーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークPC、ピアデバイス、または他のネットワークノードとすることができ、図1にはメモリ記憶デバイス50が示されているだけであるが、一般に、パーソナルコンピュータ20に関連して上述した要素の多数または全部を含む。図1に示されている論理接続は、ローカルエリアネットワーク(LAN)51および広域ネットワーク(WAN)52を含む。そのようなネットワーク環境は、事務所、全社コンピュータネットワーク、イントラネットおよびインターネットで普通である。
パーソナルコンピュータ20は、LANネットワーク環境内で使用されるとき、ネットワークインターフェースまたはアダプタ53を介してローカルネットワーク51に接続される。パーソナルコンピュータ20は、WANネットワーク環境内で使用されるとき、一般に、インターネットなど広域ネットワーク52を介して通信を確立するためのモデム54、または他の手段を含む。モデム54は、内部にあっても外部にあってもよく、シリアルポートインターフェース46を介してシステムバス23に接続される。ネットワーク環境では、パーソナルコンピュータ20に関して示されているプログラムモジュール、またはその一部分を、遠隔メモリ記憶デバイスに記憶することができる。図のネットワーク接続は例示的なものであり、コンピュータ間で通信リンクを確立する他の手段を使用することができることは理解されよう。たとえば、無線通信リンクをネットワークの1つまたは複数の部分間で確立することができる。
図1は、例示的な環境を示しているが、本発明はデジタルコンピューティング環境に限定されない。具体的には、本発明はアナログデバイス、または混合信号(アナログおよびデジタル)デバイス上で動作することができる。さらに、本発明は、たとえば単一の集積回路上で実施することができる。モジュールは、ハードウェア、ソフトウェア、またはハードウェアとソフトウェアの組合せで実施することができる。
上記で説明したように、コンピュータ20は、一般に様々なコンピュータ読取可能な媒体を含む。コンピュータ読取可能な媒体は、コンピュータ20によってアクセスすることができる任意の使用可能な媒体とすることができ、揮発性媒体と不揮発性媒体、取外し式媒体と固定式媒体を共に含む。限定的なものではなく例を挙げると、コンピュータ読取可能な媒体は、コンピュータ記憶媒体と通信媒体を含むことができる。コンピュータ記憶媒体は、コンピュータ読取可能命令、データ構造、プログラムモジュール、または他のデータなど、情報を記憶するための任意の方法または技術で実施される揮発性と不揮発性、取外し式と固定式の媒体を含む。コンピュータ記憶媒体には、それだけには限らないが、RAM、ROM、EEPROM、フラッシュメモリ、もしくは他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)、もしくは他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置、もしくは他の磁気記憶デバイス、または、所望の情報を記憶するために使用することができ、コンピュータ20によってアクセスすることができる任意の他の媒体が含まれる。通信媒体は、一般に、コンピュータ読取可能命令、データ構造、プログラムモジュール、または他のデータを、搬送波または他の移送機構など変調データ信号に統合し、任意の情報送達媒体を含む。「変調データ信号」という用語は、情報を信号に符号化するようにその特性の1つまたは複数が設定された、または変化した信号を意味する。限定的なものではなく例を挙げると、通信媒体には、有線ネットワークまたは直接配線接続など有線媒体と、音響、RF、赤外線、および他の無線媒体など無線媒体とが含まれる。上記のいずれかの組合せもまた、コンピュータ読取可能な媒体の範囲内に含めるべきである。
図2は、本発明の一実施形態による発信者を識別するための、図1を参照して述べられている一般的な環境内で実施することができるモジュール100のシステムのより詳細なブロック図を示す図である。システム100は、発信者から着信者への呼の入力話声信号を受け取るためのレシーバ102を含む。入力話声信号は、アナログ信号またはデジタル信号の任意の形態とすることができる。入力話声信号は、任意の伝送媒体を介して任意の通信方法によってレシーバ102に伝送することができる。「着信者」は、たとえば、個人、個人のグループ、呼を経路指定する位置、または情報データベースとすることができる。
レシーバ102には、伝送されつつあるタイプの話声入力信号を受け取るための任意の好適なレシーバが含まれることがある。たとえば、電話対応パーソナルコンピュータ(PC)や電話追加ポケットPC(Phone Addition Pocket PC)の登場と共に、レシーバ102は、LAN51に結合するためのネットワークアダプタ53、または、モデム54およびWAN52に結合するためのシリアルポートインターフェース46を含むことができる。
入力話声信号がアナログ信号である場合、システム100は、その信号を一連のデジタル値に変換するためのアナログ−デジタル変換器(A/D)104を含む。一実施形態において、A/D変換器104は、16kHzでアナログ信号をサンプリングし、それにより、1秒当たり16キロビットの話声データを生成する。しかし、任意の他のサンプリングレートを使用することができる。
入力話声信号のサンプルを表すデジタル信号は、コンピュータ20に供給される。コンピュータ20は、特徴抽出モジュール106、音声認識器(たとえば、デコーダ)107、トレーナモジュール108、語彙集モジュール105、言語モデル貯蔵器110、音響モデル貯蔵器111、発信者識別モジュール112、呼ルータ113、入力促進信号応答モジュール114を含む。コンピュータ20の要素は、たとえば、I/Oデバイス115およびI/Oデバイス116に結合される。
システム100全体、またはシステム100の一部は、図1に示されている環境内で実施することができることに留意されたい。特徴抽出モジュール106およびトレーナモジュール108は、コンピュータ20内のハードウェアモジュール、または図1に開示されているCPU21または別の好適なプロセッサによってアクセス可能な情報記憶デバイスのいずれかに記憶されたソフトウェアモジュールとすることができる。さらに、語彙集記憶モジュール105、音響モデル111、言語モデル110もまた、図1に示されている好適なメモリデバイスのいずれかに記憶されることが好ましい。さらに、探索エンジン107は、CPU21内で実施することができ、CPU21は、1つまたは複数のプロセッサを含むことも、パーソナルコンピュータ20によって使用される専用音声認識プロセッサによって実施することもできる。さらに、出力デバイス115およびI/Oデバイス116には、たとえば、キーボード40、ポインティングデバイス42、モニタ47、プリンタ、または図1に示されているメモリデバイスのいずれかなど、図1に示されているI/Oデバイスのいずれかが含まれることがある。
レシーバ102によって受け取られ、またはA/D変換器104により生成されたデジタル信号は、特徴抽出モジュール106に送られる。一実施形態において、特徴抽出モジュール106は、デジタル信号に対してスペクトル分析を実行し、周波数スペクトルの各周波数帯域について大きさ値を計算する従来のアレイプロセッサを含む。
特徴抽出モジュール106は、デジタル信号をフレームに分割し、このフレームの各々は複数のデジタルサンプルを含む。一実施形態において、各フレームは、持続時間が約10ミリ秒である。次いで、フレームは、複数の周波数帯域についてスペクトル特性を反映する特徴ベクトルに符号化される。離散的かつ半連続的な隠れマルコフモデル化の場合、特徴抽出モジュール106はまた、ベクトル量子化技法と、トレーニングデータから抽出されたコードブックとを使用して、特徴ベクトルを1つまたは複数のコードワードに符号化する。したがって、特徴抽出モジュール106は、その出力部で、各発話について特徴ベクトル(またはコードワード)を提供する。特徴抽出モジュール106は、たとえば約10ミリ秒ごとに1特徴ベクトルの割合で特徴ベクトルを提供することが好ましい。
特徴抽出モジュールの例には、線形予測符号化(LPC)、LPCによって導出されたケプストラム、PLP(Perceptive Linear Prediction)、聴覚モデル特徴抽出、およびメル周波数ケプストラム係数(MFCC)特徴抽出を実行するためのモジュールが含まれる。本発明は、これらの特徴抽出モジュールに限定されないこと、また本発明の文脈にそう限りで他のモジュールを使用することができることに留意されたい。
特徴抽出モジュール106によって生成された特徴ベクトルのストリームは、音声認識器107に送られ、音声認識器107は、特徴ベクトルのストリーム、貯蔵器111内の1つまたは複数の音響モデル、貯蔵器110内の1つまたは複数の言語モデル、および語彙集105に基づいて、単語または音素など、最も可能性の高い一連の話声単位を特定する。発信者識別モジュール112は、音声入力の特徴ベクトルを、貯蔵器111内に記憶され、音声認識器107によって識別された話声単位の一般モデルと発信者固有モデルに適用することによって、新しい発信者、または以前識別された発信者の1人として発信者を識別する。一実施形態において、発信者識別モジュール112はまた、貯蔵器110内に記憶された一般言語モデルと発信者固有言語モデルを使用して特定時の助けとする。モジュール112は、発信者の身元、および/または最も可能性の高い発話された単語列のテキストを呼ルータ113に出力し、またはこれらの結果を、たとえば図1に示されているメモリデバイスの1つに記憶する。結果は、I/Oデバイス115を介してユーザまたはオペレータに出力することもできる。次いで、呼ルータ113は、発信者の身元、および/または呼の内容に基づいて、呼をスクリーニングする、あるいは呼を1つまたは複数の選択された宛先に経路指定することができる。
音響モデルは、一連の特徴ベクトルが一連の仮定された話声単位内に見られる特定の一連の音響単位によって生成される可能性がどれだけ高いかを示すモデルである。本発明のいくつかの実施形態では、各話声単位には、セノン(senone)、音素、ダイフォン(diphone)、音節、または単語など、任意の一般に使用される音響単位を含めることができる。各話声単位を1組の副次的単位の組合せとする実施形態もある。
上述のように、音響モデル貯蔵器111は、以前識別された各発信者について少なくとも1つの音響モデルと、広範な話者の話声特性を表す一般モデルとを含む。各音響モデルは、隠れマルコフモデル(HMM)など、検出すべき複数の予め定められた話声単位の1組のモデルを含む。たとえば、各HMMは、単一の音素をモデル化することができる。一実施形態において、音声認識器107は、特徴抽出モジュール106から受け取った特徴ベクトルを一般音響モデルに適用してその特徴ベクトルを表し、したがって発信者から受け取った発話を表す最も可能性の高い音素を決定するのである。
通常の音響モデルは、トレーニングされた後、一連の入力特徴ベクトルを復号するために使用される。たとえば、図2では、そのようなトレーニングは、トレーニングテキスト118、その音響モデルからの過去のモデルパラメータ、特徴抽出モジュール106からのトレーニング特徴ベクトルに基づいて、トレーナ108によって実行することができる。本発明のいくつかの実施形態において、一般音響モデルは、一般的な1組の話者を表す一般トレーニングテキストを使用してトレーニングされる。次いで、この一般音響モデルを使用し、その発信者について生成された各組の特徴ベクトルを用いてHMMが更新される発信者固有音響モデルを形成することができる。一実施形態において、1つまたは複数の音素からなる発話など単一の発話に基づいて、特定の発信者について一意的な音響モデルを生成することができる。より多くの呼および発話がその発信者から受け取られると、その発信者のための対応する音響モデルは、引き続き更新される。
音声認識器エンジン107はまた、入力データによって表された最も可能性の高い単語または単語列を特定する際の助けとなるように、貯蔵器110内に記憶された1つまたは複数の言語モデルにアクセスすることができる。貯蔵器110は、一般的な発信者に依存しない言語モデル、および/または複数の発信者固有言語モデルを記憶することができる。一実施形態において、各言語モデルは、文脈自由文法(CFG)、またはトライグラム(trigram)など統計的Nグラム(n−gram)モデルを含む。トライグラムモデルは、単語列の3語分節の組合せ確率に基づいて単語列の確率を決定する。そのような言語モデルは、下記でより詳しく説明するように、以前識別された各発信者について一意的なモデルを提供するために修正することができる。発信者固有言語モデルは、特定の発信者によって使用される単語または主題を識別する際、コンピュータ20を支援するため使用することができる。
一般言語モデルは、たとえばNorth American Business Newsから導出され、および出版物(非特許文献1参照)でより詳しく述べられている60,000語トライグラム言語モデルを含むことができる。
図3〜5は、本発明の一実施形態に従って使用することができる1組の特徴ベクトルの形成、および隠れマルコフモデルの詳細を示す。図3は、発信者から受け取られた音響入力「WAV」を時間に応じて示す波形図である。上述のように、音響入力は、たとえば各々10ミリ秒の複数のフレームに分割される。特徴抽出モジュール106は、図4に示されているように、k=1、2、...の場合、各10ミリ秒フレームについて1組の特徴ベクトルO[k]を生成する。特徴ベクトルO[k]は、最もよく音響入力WAVの高速フーリエ変換の何らかの形に変形され、10ミリ秒のスロットでウィンドウ化される。FFT係数は、ピッチ、および話者のボーカルキャビティ(vocal cavity)など話声特性を反映する。次いで、これらの特徴ベクトルは、それぞれの音響モデルの隠れマルコフモデルに適用することができる。
図5は、1つの話声単位(たとえば、音素、セノン、トライフォンなど)について基本的な隠れマルコフモデル(HMM)を示す状態図である。基本HMMモデルは、言語に依存しない単位であり、発話の音響特性を表す。各状態は、現在の状態のままであるか、あるいはモデル内の次の状態に遷移することができる。各話声単位は、図5でS1、S2、S3という符号が付けられた、その話声単位について「開始」状態、「主」状態、「終了」状態を表す3つの状態を有する。各状態は、図5に示されている矢印に沿って、その状態のままであるか、あるいは次の状態に遷移することができるだけである。ある状態から次の状態への遷移は、現在の状態をS1とすれば、状態S1から状態S2への遷移の条件付き確率を表す確率P(S2|S1)を有する。また、i=1〜3の場合、各状態は確率分布B[i]を有し、確率分布B[i]は、任意の考えられる特徴ベクトルを観測する尤度を反映する任意の特徴ベクトルO[k]の「出力に対する確率」(0と1の間の数)を表す。たとえば、この確率分布は、ガウス分布とすることができる。
貯蔵器111内の各音響モデルは、各音素についてそのような隠れマルコフモデルの集成物を含む。たとえば、音素「B」が先行し音素「H」が続く音素「AX」(「bah」におけるように、記法B−AX + H)は、「L」が先行し「H」が続く全く同じ「AX」(「blah」の最後の部分におけるように、記法L−AX + H)と異なる。
既存の音響モデルを使用して音声認識を実行する際、システムの初期状態は、確率1を有するS1であり、確率P[i|j]および確率密度B[i]は、HMMにおける各状態について既知である。音素を認識すると、音響入力は一連の特徴ベクトルo[k]に変換され、音声認識器107(図2に示す)は、現行のHMMモデルとすれば、確率P(o[k]|モデル)が何であるか判定する。
換言すれば、音声認識器107は、その一連の入力特徴ベクトルによって表される音が、実際に考察中の現行HMMによってモデル化された音素である可能性がどれだけ高いかを判定する。最も確率が高いHMMによってモデル化された音素が、発話された音素として特定される。
一般モデルをトレーニングし、または発信者固有モデルを更新するなど、音響モデルをトレーニングするとき、音響入力WAV、したがってその一連の特徴ベクトルO[k]が既知であることが仮定される。音声認識器107(または、発信者識別モジュール112)は、各音素についてO[k]出力列を観測する確率が最も高くなるモデル(各状態についてP’[i|j]およびB’[i])を生成する。たとえば、一実施形態において、発信者識別モジュール112は、一般音響モデルを更新し、またはその他の方法で適合させるためにバウム−ウェルチ(Baum−Welch)HMM再推定法を使用して特定の話者の特性を反映させる。たとえば、特定の話者のための音響モデルは、最初に一般音響モデルの一般HMMモデルを含むことができ、次いで現在の呼で発生した音素のためのHMMモデルをバウム−ウェルチHMM再推定法によって更新し、その発信者の話声特性を反映させることができる。
図6は、本発明の一実施形態において使用することができる単純化された言語モデルの一例を示す図である。トライグラム言語モデルを構築する場合、第1のステップは、代表する言語の多数のテキストを収集することである。第2のステップは、各単語Wについての頻度カウントP1[W]、各バイグラム(2つの単語)についてのP2[W|W0]、各トライグラムについてのP3[W|W1,W2]を構築することである。音声認識器はまた、それぞれの言語において考えられる単語のリストを有する単語辞書(WD)によって制限されることになる。次いで、割引技法(discounting strategy)を使用し、単語辞書内のあらゆる単語について確率P[W|W1,W0]を構築する。割引技法は、考えられる2または3語列をすべて使用するのを回避するために使用される。なぜなら、2または3語列の数が非常に多いからである。単語辞書内の単語はすべて、図5に示されているものと同様な音素HMMによって特徴付けられる音素群に分解される。
次いで、音素HMMを共に結合し、各々のスタート状態(S1)に入る初期確率をHMMモデルからP[W|W1,W0]に従って調整することによって、マスタHMMが生成される。図6に示す単純な例では、「at」と「the」という2つの単語だけが見られ、これらの単語の各1回だけ見られている。したがって、マスタHMMは、初期確率「1」と、「AX」音素HMMおよび「TH」音素HMMへの遷移確率「0.5」とを有する異なる開始状態S0を有することになる。2つの単語があるだけなので、「AX」HMMは、「T」HMMへの遷移確率1.0を有し、「TH」HMMは、「EH」HMMへの遷移確率1.0を有する。「TH」HMMおよび「EH」HMMは、終了状態S3に遷移する。
本発明の一実施形態において、一般言語モデルを適合させることにより、一意的に識別された各発信者について一意的な言語モデルが生成される。認識された句を、その発信者の着信から収集されたその「多数のテキスト」と共に使用することによって一般言語モデルを適合させる。このプロセスは、新しい単語を発見するのではなく、新しい確率P[W|W1,W0]を発見するものである。すなわち、いずれの場合も特定の発信者は、ある単語の組合せを別の単語の組合せより多く使用する可能性が高いからである。また、あらゆる実施形態において、従来の意味での「単語」を収集する必要はない。一実施形態において、言語モデルは、Microsoft Corporationから入手可能な、その書取言語モデル(dictation language model)を有するMS Recognizerと同様に「単語」を収集する。代替の実施形態において、言語モデルは、その発音言語モデル(pronunciation language model)を有するMS Recognizerと同様に、「単語」として、単に「音素」または音素の小グループを収集することができる。後述する実施形態は、発信者が名前など未知の単語を発話したときでも音素列の有用な確率を提供するという利点を有するが、精度はより低い。
図7は、たとえば、コンピュータ読取可能な媒体に命令として記憶し、コンピュータ20(図1に示す)によって実行することができるコンピュータにより実施されるプロセス200を示すフローチャートである。プロセス200は、本発明の一実施形態に従って、識別された各発信者について一意的な音響モデルを生成することにより、1つまたは複数の着信者への電話呼の発信者を識別する。
ステップ201で、着信が発信者から受け取られる。ステップ202で、従来のcallerIDシステムを使用し、着信した電話番号を取り込む。その電話番号が、以前規定された信頼される電話番号と合致する場合、システムは、ステップ203で信頼される電話番号が検出されたことを示す信号を出力する。callerIDシステムは、信頼されるソースから到着する呼を識別し、このソースから受け取られた呼がプロセス200によって遅れることのないよう、プロセス200からの早く抜けるために使用することができる。ステップ203で生成された信号は、着信を特定のメールボックスに経路指定するため、呼が着信者の電話対応デバイスに経路指定されるようにするなどによって、任意の適切な形で使用することができる。
着信電話番号が信頼できない場合、あるいは、システムがステップ202を含むように構成されていない場合、ステップ204で、既知の音素列に分節化するために音声入力が音声認識器モジュール107(図2)に適用される。特徴抽出モジュール106(やはり図2に示す)は、音声入力から対応する特徴ベクトルを生成し、その特徴ベクトルを一般的な文脈自由文法(CFG)モジュールおよび(図7で「I−AM」という符号が付けられている)発信者に依存しない一般音響モデルに適用する。文脈自由文法モジュールは、たとえば自由形式の書取(dictation)モデルまたは発音推計モデルを含むことができる。CFGは、任意の発話の認識を可能にする。発話が適度に正確な音素分節を発生する限り、CFGが発話のテキスト形態を生成することが必要である。
発信者に依存しない一般音響モデルI−AMは、任意の発信者について機能することが可能なモデルを含むことができる。そのような一般音響モデルは、男性、女性、子供の発信者について機能する「性別に依存しない」音響モデルと呼ばれることがある。
音声認識器は、CFGおよび発信者に依存しない一般音響モデルI−AMを使用して、音声入力を一連の認識済み音素に区切る。
たとえば、音声入力が「I am calling...」を含む場合、音声認識器は、その発話のテキスト形態(「I am calling...」)と、それに加えて音素分節(「IX<sil>AX M<sil>C AX L IX N G」)を生成する。
ステップ205で、発信者識別モジュール112(図2)は、発信者が新しい発信者か、それとも以前識別された発信者かを判定する。このプロセスは、図8に関連して下記でより詳しく述べる。発信者が新しい発信者である場合、プロセス200はステップ206に移行し、発信者識別モジュール112は、新しい音響モデルAM[i]を音響モデル貯蔵器111(図2)に追加し、モデル番号変数NUMMODELS(すなわち、以前識別された発信者の数)を1だけ増分する。発信者識別モジュール112は、一般音響モデルAM[0]のコピーを作成し、次いで、上述のように、着信内の発信者によって発話された任意の音素のHMM群を更新することによって、新しい音響モデルAM[i]を生成する。
ステップ207で、発信者識別モジュール112は、「新しい発信者」を示す信号を出力するが、この信号は、望まれるように呼を方向付けするため、呼経路指定モジュール113(図2)または別の呼管理システムによって使用することができる。発信者識別モジュール112はまた、話声入力を表すサウンドファイル、および(ステップ204で認識された場合)対応するテキストを記憶することができる。
一実施形態において、発信者識別モジュール112は、ステップ208で、I/Oデバイス115(図2)を介して発信者/テキスト認識の手動見直しを依頼する。ユーザまたはシステムオペレータは、呼のテキストを見直し、呼の音を聞きかつ/または発信者識別を閲覧し、I/Oデバイス115を介して任意の訂正を行うことができる。たとえば、ユーザは、呼を見直して廃棄することができ、または識別モジュールによって作成された分類を受け入れ、もしくは拒絶することができる。ステップ207の後で、プロセス200はステップ201に戻り、別の着信を受け取る。
ステップ205で発信者識別モジュール112が発信者を新しい発信者でないと識別した場合、プロセス200はステップ210に移行し、以前識別された発信者の誰が再び発信したか特定する。発信者識別モジュール112は、着信の発話内の話声特性に最も密接に合致する発信者固有音響モデルを決定する。一実施形態において、発信者識別モジュール112は、その音声特性(たとえば、特徴ベクトル)を各発信者固有音響モデル内の対応するHMMに適用し、図8でより詳しく述べるように、j=1〜NUMMODELSの場合、最良の音響スコアを有する音響モデルAM[j]を識別する。ステップ211で、発信者識別モジュール112は、「発信者jが検出された」ことを示す信号を出力するが、ただし「j」は、ステップ210で最良の音響スコアを有する音響モデルに対応する。
図8は、本発明の一実施形態による図7のステップ205における新しい発信者または以前識別された発信者の検出を示すフローチャートである。プロセスは、ステップ300でステップ205に入る。ステップ301で、発信者識別モジュール112は、以前識別された発信者用の音響モデルの数NUMMODELSが0より大きいかどうか判定する。大きくない場合、現在の着信の発信者は新しい発信者であり、プロセス205は、ステップ302で抜ける。以前識別された発信者の数が0より大きい場合、現行の発信者は、新しい発信者か、あるいは以前識別された発信者の1人である可能性がある。次いで、プロセスは、ステップ303に移行する。
ステップ303で、発信者識別モジュール112は、j=0〜NUMMODELSの場合、音響モデル貯蔵器111内の各音響モデルAM[j]の元で、現行の発話について音響または「アルファ」スコアAM[j]を計算するが、ここで、モデルAM[0]は、発信者に依存しない一般モデルI−AMである。アルファスコアは、「フォワードパススコア(forward−pass score)」として知られ、図7のステップ204で、音響モデルAM[j]を使用している間に(発信者に依存しないモデルAM[0]によって)生成された分節に対して音声認識器デコーダまたは探索木を動作させることから得られる音響スコアである。
ステップ304で、発信者識別モジュール112は、一般音響モデルAM[0]についてアルファスコアA[0]が最大(または、そうでない場合、最良)のアルファスコアを有するか否かを判定する。現行の発話がどの発信者固有音響モデルよりも一般音響モデルとよく合致する場合には、その発信者が新しい発信者として識別され、プロセスは、ステップ305で抜ける。一般音響モデルについてのアルファスコアA[0]が最大のアルファスコアでない場合、その発信者が以前識別された発信者の1人として識別され、発信者識別モジュール112は、特定の発信者を識別するためにステップ306に移行する。
変数「k」が、アルファスコアA[j]が最大になるインデックスに等しい(k=argmax(a[j]))と仮定すると、発信者「k」がその発信者として識別され、発信者「k」用の対応する発信者固有音響モデルAM[k]は、新しい発話の話声特性を反映するために更新される。このようにして、以前識別された発信者から着信が受け取られるたびに、その発信者用の対応する音響モデルは、その発信者の話声特性をよりよく表すように、その呼に含まれる音響単位に基づいてさらにトレーニングされる。発信者固有音響モデルが更新された後で、プロセスは、ステップ307で抜ける。
一実施形態において、発信者固有音響モデルAM[k]は、従来の音声認識または書取ソフトウェアで一般的であるように多数の発話および発話の繰返しによってトレーニングされることなく、わずか1つの発話で作成または更新することができる。単一の発話トレーニングは、Microsoft MS Recognizerなど現在使用可能な音声認識ソフトウェアを用いて、サウンド入力を数回繰り返し、それをMS Recognizerに繰り返し適用することによって、または単一の発話でトレーニングするようにMS Recognizerを再構成することによって行うことができる。他のタイプの音声認識器またはデコーダを代替の実施形態において使用することもできる。
代替の実施形態において、ステップ304は、2つのサブセクションなど、いくつかのサブセクションに現行の音声入力を分割し、2つのサブセクションについて各音響モデルで2つのアルファスコアA0[j]およびA1[j]を計算することによって、さらに洗練させることができる。ステップ304は、A0[j]とA1[j]が共に同じインデックスKに対して最大である(argmax(AM[k]))ときだけ、「いいえ」(一般モデルが最高の音響スコアを有していない)を返すことになる。このプロセスは、音声入力内に複数の話者がいる呼をふるい分けるため、また識別プロセスをさらに洗練させるために有用となる可能性がある。
図9は、(音響によってではなく)呼の内容によってユーザを検出するために発信者固有の言語モデル(PCFG:probabilistic CFG)をトレーニングするためのプロセス400を示すフローチャートである。プロセス400は、発信者識別の精度を高めるため、または発信者を識別する代替方法として図7に示されているプロセス200と共に使用することができる。ステップ401で、着信が受け取られる。ステップ402で、プロセス400は、図7に示す音響発信者識別プロセスを実行することによって音響発信者識別を得る。ステップ403で、プロセス400は、(図2の音声認識器107によって区切られた)認識された呼の「テキスト」を、対応する発信者固有言語モデル用のその発信者のテキスト貯蔵器に追加する。ステップ403は、図6を参照して述べられている「多数のテキストを収集する」ステップに対応する。
ステップ404で、プロセス400は、特定の発信者用のテキスト貯蔵器内に、言語モデルLM(i)をトレーニングするために十分な単語があるか否かを判定する。十分ではない場合、プロセス400はステップ401に戻り、その発信者から他の着信を受け取る。十分な数の単語がある場合、プロセス400は、図6に関連して説明したプロセスに従って(発信者「i]について)新しい言語モデルLM[i]をトレーニングし、ステップ405で、LM[i]を言語モデル貯蔵器110に追加する。次いで、プロセス400は、発信者固有言語モデルの数NUMLMMODELSを1だけ増分する。
プロセス400は、ステップ406で「新しい言語モデル」を示す信号を出力し、ステップ407でシステムユーザに呼およびテキスト認識の手動見直しを依頼することができる。ユーザは、I/Oデバイス115(図2に示す)を介してデータを見直し、改訂することができる。次いで、プロセス400はステップ401に戻り、他の着信を受け取る。
プロセス400は、図7に示されている音響発信者識別プロセスをどのように使用し、各一意的な発信者について対応する言語モデルを構築することができるかを示す。言語モデルを使用して発信者を識別するために、十分な言語モデルがトレーニングされた後で、発信者識別モジュール112は、一般音響モデルと共に、および各発信者固有言語モデルLM[i]を順に活性化して、単に音声認識器モジュール107を実行することができる。確率が最も高いテキスト認識を生成する言語モデルが、現行の発信者に対応する。
発信者固有言語モデルを使用して発信者を識別することは、現行の呼の発信者固有言語モデルLM[i]の1つに対する意味類似性を識別することになる。しかし、現行の発信者が、発信者「i」が語った同じ主題について語る異なる発信者(発信者「i」でない)であると言えるかもしれない。したがって、発信者固有言語モデルは、一意的な発信者を正しく識別するため、発信者固有音響モデルと共に使用することが好ましい。たとえば、結果を識別システムにレポートするとき、図7に示されている音響発信者識別プロセスを、図9でトレーニングされた言語モデル発信者識別プロセスより重く加重することができる。たとえば、2つの識別方法により異なる結果が生成される場合、言語モデル検出結果は、スコアの最も高い音響モデルの発信者固有音響スコアより、はるかに高い確率を有する場合だけ使用されることになる。この場合も、コールセンタのシステムユーザまたはオペレータは、音響モデル識別サブシステムまたは言語モデル識別サブシステムによって作成されたどの分類をも覆すことができる。
図7〜図9に示されている発信者識別プロセスは、「新しい発信者」として誤認された発信者について、複数の音響モデルおよび言語モデルを作成することができる。これは、たとえば、同じ発信者からの2つ以上の異なる呼の音素または主題が重なり合わないとき行われる可能性がある。音響モデルおよび言語モデルが、以前識別された発信者からの各連続する新しい呼を用いて引き続きトレーニングされて、同じ発信者に対応するモデルが互いに重なり合うことになり、マージすることができる。発信者識別システムは、発信者固有モデルをすべて定期的に見直し、予め定められた基準に基づいてモデルをマージすべきかどうか判定するマージモジュールを含むことができる。この基準として、たとえば特徴ベクトルの所与の集合についてのモデル確率の類似性を用いることができる。
より具体的には、一般に、音素HMMは、平均ベクトルおよび分散行列によって決定された(特徴ベクトル空間内の)多次元ガウス分布を使用して状態遷移確率をモデル化する。マージモジュールは、前記平均ベクトルおよび/または分散行列を、ユーザごとの対応する音素について単にクラスタ化し、(通常のユークリッド距離と異なり、確率関数分離(probability function separation)を比較するのに最も適したBhattacharya距離など距離関数を使用して)それらが、マージされるだけ十分に近いか否かを確かめることができるであろう。
さらに、発信者識別システムは、(たとえば、すでにトレーニング済みの2つのAMが互いに非常に近いことを学習した後で)「前駆」AM(図8のステップ306でトレーニングモジュールへの入力として使用されるもの)、ならびにトレーニングするために使用されるWAV(現行ユーザ入力)を記憶し、その2人の発信者からのサンプル音声入力を(図7のステップ208のように)「手動見直し」した後だけトレーニングを適用することができる。これにより、トレーニング済み発信者固有AMが、誤った発信者からの音声入力の供給を受けることにより徐々に劣化することが防止される。正確に何が「非常に近い」かは、ユーザ識別タスクの任意の使用可能なコーパス(十分に大勢の人に属する多数の電話呼/WAVファイル)を使用して、実験的に定量化することができる。
上述の発信者識別プロセスの1つの利点は、システムが、発信者からのわずか1つの発話で発信者を識別することが可能であることである。その発信者からの他の呼を識別するために、その発話から新しい発信者固有音響モデルが作成される。また、システムは、着信呼の経路指定をするために使用されるどの入力促進信号応答機構にも発信者が協力しない場合でも、発信者を識別することが可能となる。その発話が入力促進信号に対する適正な回答であろうとなかろうと、どの発話の音響特性もその発信者についてモデル化される。さらに、システムは、識別プロセスに対して発信者の注意を喚起することなしに発信者を識別することが可能である。このシステムを使用し、たとえばテレマーケティングの望ましくない呼を、既知の発信者からの所望の呼から容易にふるい分けることができる。
また、大規模コールセンタは、正しい着信者または情報データベースに呼をより効率的に経路指定するために、本システムを使用することができる。一部のコールセンタは、発信者が、正しい宛先に経路指定される前に入力促進信号の長い迷路をうまく通過することを必要とする。本システムは、発信者の声紋と、以前の呼の着信者または主題とに基づいて、入力促進信号応答機構からの迅速な出口を以前識別された発信者に提供することができる。そのような発信者識別システムに対して、多数の他の応用例が存在する。
以上、本発明について、好ましい実施形態を参照して述べたが、本発明の精神および範囲から逸脱することなしに、形態および詳細に変更を加えることができることを、当業者なら理解するであろう。
本発明の一実施形態による従来型パーソナルコンピュータの形態で本発明を実施するための例示的なシステムのブロック図である。 本発明の一実施形態による発信者を識別するためのモジュール群システムのより詳細なブロック図である。 発信者から受け取られた音響入力「WAV」を時間に応じて示す波形図である。 図3に示されている音響入力について生成された1組の特徴ベクトルを示す図である。 1つの話声単位について基本的な隠れマルコフモデル(HMM)を示す状態図である。 本発明の一実施形態において使用することができる単純化された言語モデルの一例を示す図である。 本発明の一実施形態による着信者への電話呼の発信者を識別するためのコンピュータによって実施されるプロセスを示すフローチャートである。 本発明の一実施形態によるプロセス内での新しい発信者または以前識別された発信者の検出処理を示すフローチャートである。 本発明の一実施形態による呼の内容によって発信者を検出するために発信者固有の言語モデルをトレーニングするためのプロセスを示すフローチャートである。
符号の説明
20 コンピュータ
22 メモリ
23 システムバス
27 ハードディスクドライブ
28 磁気ディスクドライブ
29 取外し式記憶装置
30 光ディスクドライブ
31 光ディスク
32 インターフェース
33 インターフェース
34 インターフェース
35 オペレーティングシステム
36 アプリケーションプログラム
37 プログラムモジュール
38 プログラムデータ
40 キーボード
42 ポインティングデバイス
43 マイクロフォン
45 スピーカ
46 シリアルポートインターフェース
47 モニタ
48 ビデオアダプタ
49 遠隔コンピュータ
50 メモリ
53 ネットワークアダプタ
54 モデム
102 レシーバ
105 語彙集
107 音声認識器
108 トレーナ
110 言語モデル
111 音響モデル
113 呼ルータ
114 入力促進信号応答
118 トレーニングテキスト

Claims (24)

  1. 発信者から着信者への呼において前記発信者を識別する方法であって、
    (a)音声入力を前記発信者から受け取るステップと、
    (b)複数の話声単位の発信者に依存しないモデルを含む一般音響モデルと、以前識別された発信者の音響モデル群とを含む複数の音響モデル群に、前記音声入力の特性を適用して複数のそれぞれの音響スコアを得るステップと、
    (c)前記複数の音響スコアに基づいて、前記以前識別された発信者のうちの1人か、または新しい発信者と、前記発信者を識別するステップと、
    (d)前記ステップ(c)で前記発信者が新しい発信者と識別された場合、前記新しい発信者について、前記一般音響モデルの発信者に依存しないモデルから新しい音響モデルを生成し、前記新しい発信者から受け取られた前記音声入力の特性を表すように、前記音声入力内に含まれる前記話声単位に基づいて前記発信者に依存しないモデルを修正して、前記新しい発信者についての新しい音響モデルおよび任意の前記以前識別された発信者の音響モデル群が同一の複数の話声単位を有するようにするステップと、
    (e)以前、ともにマージするため識別された前記発信者の音響モデル群であることを特定するユーザ入力促進信号を生成するステップと
    を備えたことを特徴とする方法。
  2. 前記識別するステップ(c)は、
    (c)(1)前記それぞれの音響モデルが前記一般音響モデルより、良い音響スコアの場合、前記発信者を前記以前識別された発信者の1人と識別するステップと、
    (c)(2)前記一般音響モデルが前記複数の以前識別された発信者の音響モデル群より、良い音響スコアの場合、前記発信者を新しい発信者と識別するステップと
    を含むことを特徴とする請求項1に記載の方法。
  3. 前記ステップ(a)は、前記一般音響モデルを使用して、前記音声入力を一連の認識済み話声単位に区切るステップを含み、
    前記複数の音響モデルの各々は、前記ステップ(a)で区切られた前記話声単位のモデルを含み、
    前記ステップ(b)は、前記複数の音響モデルについて前記ステップ(a)で区切られた前記話声単位の一連のモデルに、前記音声入力の特性を適用するステップを含むことを特徴とする請求項1に記載の方法。
  4. (f)前記ステップ(c)で前記発信者が前記以前識別された発信者の1人と識別された場合、前記音声入力の前記特性に基づいて、前記音声入力内に含まれる前記話声単位のモデルを修正することによって、前記以前識別された発信者用の前記それぞれの音響モデルを更新するステップ
    をさらに備えたことを特徴とする請求項1に記載の方法。
  5. 前記ステップ(f)は、単に一つの発話に基づいて、前記音声入力内に含まれる話声単位のモデルを修正するステップを含むことを特徴とする請求項4に記載の方法。
  6. (f)前記新しい音響モデルが前記ステップ(b)における前記複数の音響モデルの1つになり、前記新しい発信者が以前識別された発信者として含まれるように、前記新しい音響モデルを、前記複数の音響モデルと共に音響モデル貯蔵器に記憶するステップ
    をさらに備えたことを特徴とする請求項1に記載の方法。
  7. 前記ステップ(a)ないし(c)が、前記発信者が識別されつつあることに対して前記呼の間に前記発信者の注意を喚起することなしに実行されることを特徴とする請求項1に記載の方法。
  8. 前記ステップ(b)は、前記音声入力をサブセクションに分割するステップと、各サブセクションの前記特性を前記複数の音響モデルに適用し、各サブセクションにおける前記特性がそれぞれの音響モデルにどれだけ良好に合致するかを表す複数のそれぞれの音響スコアを得るステップとを含み、
    前記ステップ(c)は、各サブセクションについて、該サブセクションについての最良の音響スコアを有する前記音響モデルを識別するステップと、サブセクションのすべてについての最良の音響スコアが、同じ以前識別された発信者に対応する場合だけ、前記発信者を前記以前識別された発信者の1人と識別するステップとを含むことを特徴とする請求項1に記載の方法。
  9. (f)前記以前識別された発信者の各々について、該発信者からの前記音声入力に基づいて発信者固有言語モデルを維持するステップと、
    (g)前記音声入力の前記特性を、前記一般音響モデルと前記発信者固有言語モデルの各々とに適用し、複数の認識済み話声単位列を生成するステップと、
    (h)他の前記認識済み話声単位列の確率に対して最高の確率を有する認識済み話声単位列を選択するステップと、
    (i)少なくとも一部には前記最高の確率を有する前記認識済み話声単位列に基づいて、前記発信者を識別するステップと
    をさらに備えたことを特徴とする請求項1に記載の方法。
  10. (j)前記ステップ(i)で識別された前記発信者が、前記ステップ(c)で識別された前記発信者と異なる場合、前記音声入力、前記認識済み話声単位列、前記識別された発信者、前記ステップ(c)で識別された前記発信者の音響モデル、および前記ステップ(i)で識別された前記発信者の発信者固有言語モデルのうち少なくとも1つを示すユーザ入力促進信号を生成するステップをさらに備えたことを特徴とする請求項9に記載の方法。
  11. (f)前記以前識別された発信者の前記複数の音響モデル間で距離尺度を使用し、ともにマージするため前記所定の種類の音響モデルにフラグを立てるステップをさらに備えたことを特徴とする請求項1に記載の方法。
  12. 発信者から着信者への呼において前記発信者を識別するシステムであって、
    音声入力を前記発信者から受け取るためのレシーバと、
    複数の話声単位の発信者に依存しないモデルを含む一般音響モデルと、任意の以前識別された発信者の音響モデル群とを有する複数の音響モデルを含む音響モデル貯蔵器と、
    複数のそれぞれの音響スコアを得るため、前記複数の音響モデルに前記音声入力の特性を適用する手段と、
    前記複数の音響スコアに基づいて、前記以前識別された発信者の1人か、または新しい発信者と、前記発信者を識別する手段と、
    前記一般音響モデルが前記複数の以前識別された発信者の前記音響モデル群より、良い音響スコアの場合、前記新しい発信者について、前記一般音響モデルの発信者に依存しないモデルから新しい音響モデルを生成し、前記新しい発信者から受け取られた前記音声入力の特性を表すように、前記音声入力内に含まれる前記話声単位に基づいて発信者に依存しないモデルを修正して、前記新しい発信者についての新しい音響モデルおよび任意の前記以前識別された発信者の音響モデル群が同一の複数の話声単位を有するようにする音響モデル生成手段と
    以前、ともにマージするため識別された前記発信者の音響モデル群であることを特定するユーザ入力促進信号を生成する手段と
    を備えたことを特徴とするシステム。
  13. 前記一般音響モデルを使用して、前記音声入力を一連の認識済み話声単位に区切る音声認識器をさらに備え、
    前記複数の音響モデルの各々は、前記音声認識器によって認識された前記話声単位のモデルを含み、
    前記適用する手段は、前記複数の音響モデルについて、前記音声認識器によって区切られた前記話声単位の一連のモデルに前記音声入力の特性を適用する手段を含むことを特徴とする請求項12に記載のシステム。
  14. 前記発信者が前記以前識別された発信者の1人と識別された場合、前記音声入力の特性に基づいて、前記音声入力内に含まれる前記話声単位のモデルを修正することによって、前記以前識別された発信者用のそれぞれの音響モデルを更新する音響モデル更新モジュールをさらに備えたことを特徴とする請求項12に記載のシステム。
  15. 前記音響モデル更新モジュールは、前記発信者からの単なる一つの発話に基づいて、前記音声入力内に含まれる前記話声単位のモデルを修正することが可能であることを特徴とする請求項14に記載のシステム。
  16. 前記音響モデル生成手段は、前記新しい音響モデルが前記複数の音響モデルの1つになり、前記新しい発信者が以前識別された発信者として含まれるように、前記新しい音響モデルを前記音響モデル貯蔵器に記憶することを特徴とする請求項12に記載のシステム。
  17. 前記呼の間に前記発信者が識別されつつあることに対して前記発信者の注意を喚起することなしに、前記音声入力を受け取り、および前記発信者を識別するように構成されることを特徴とする請求項12に記載のシステム。
  18. 前記適用する手段は、前記音声入力をサブセクションに分割し、および各サブセクションの前記特性を前記複数の音響モデルに適用して各サブセクションにおける前記特性がそれぞれの音響モデルにどれだけ良好に合致するかを表す複数のそれぞれの音響スコアを得る手段を含み、
    前記識別する手段は、各サブセクションについて、該サブセクションについての最良の音響スコアを有する前記音響モデルを識別し、およびすべてのサブセクションについての最良の音響スコアが、同じ以前識別された発信者に対応する場合だけ、前記発信者を前記以前識別された発信者の1人と識別する手段を含むことを特徴とする請求項12に記載のシステム。
  19. 前記以前識別された発信者の各々について、該発信者からの前記音声入力に基づいて発信者固有言語モデルを記憶する言語モデル貯蔵器と、
    前記音声入力の特性を、前記一般音響モデルと前記発信者固有言語モデルの各々とに適用し、複数の認識済み話声単位列を生成する手段と、
    他の前記認識済み話声単位列の確率に対して最高の確率を有する前記認識済み話声単位列を選択する手段とをさらに備え、
    前記識別する手段は、少なくとも一部には前記最高の確率を有する前記認識済み話声単位列に基づいて、前記発信者を識別することを特徴とする請求項12に記載のシステム。
  20. 前記識別する手段は、(1)前記音声入力、すなわち最高の確率を有する前記認識済み話声単位列、(2)最高の確率を有する前記認識済み話声単位列を生成する前記発信者固有言語モデル、および(3)最高の確率を有する前記発信者固有言語モデルが最良の音響スコアを有する前記音響モデルと異なる発信者に対応する場合の前記最良の音響スコアを有する前記音響モデル、のうち少なくとも1つを示すユーザ入力促進信号を生成する手段を含むことを特徴とする請求項19に記載のシステム。
  21. 前記複数の音響モデル間の距離尺度に基づいて、ともにマージするために前記所定の種類の音響モデルにフラグを立てる手段をさらに備えたことを特徴とする請求項12に記載のシステム。
  22. 発信者から着信者への呼において前記発信者を識別する方法であって、
    (a)音声入力を前記発信者から受け取るステップと、
    (b)複数の話声単位の発信者に依存しないモデルを含む、発信者に依存しない一般音響モデルを使用して、前記音声入力を一連の認識済み話声単位に区切るステップと、
    (c)一般音響モデルと任意の以前識別された発信者の音響モデル群とを含む複数の音響モデル内で、前記認識済み話声単位の一連の話声単位モデルに前記音声入力の特性を適用するステップと、
    (d)前記音声入力の前記特性が前記複数の音響モデルにどれだけ良好に合致するかに基づいて、複数の以前識別された発信者の1人、または新しい発信者と前記発信者を識別し、前記発信者が新しい発信者と識別された場合、前記新しい発信者から受け取られた前記音声入力の特性を表すように、前記音声入力内に含まれる前記話声単位に基づいて発信者に依存しないモデルを修正することによって、前記新しい発信者について、前記一般音響モデルの発信者に依存しないモデルから新しい音響モデルを生成し、前記新しい発信者についての新しい音響モデルおよび任意の前記以前識別された発信者の音響モデル群が同一の複数の話声単位を有するようにするステップと、
    (e)前記以前識別された発信者の各々について、該発信者からの前記音声入力に基づいて発信者固有言語モデルを維持するステップと、
    (f)前記音声入力の前記特性を、前記一般音響モデルと前記発信者固有言語モデルの各々とに適用し、複数の認識済み話声単位列を生成するステップと、
    (g)他の前記認識済み話声単位列の確率に対して最高の確率を有する前記認識済み話声単位列を選択するステップと、
    (h)前記最高の確率を有する認識済み話声単位列に基づいて、前記発信者を識別するステップと、
    (i)前記ステップ(h)において識別された前記発信者がステップ(d)で識別された前記発信者と異なる場合、前記音声入力、前記認識済み話声単位列、前記識別された発信者、前記ステップ(d)で識別された前記発信者の音響モデル、および前記ステップ(h)で識別された前記発信者の発信者固有言語モデルのうち少なくとも1つを示すユーザ入力促進信号を生成するステップと
    を備えたことを特徴とする方法。
  23. (j)前記新しい音響モデルが前記ステップ(c)における前記複数の音響モデルの1つになり、前記新しい発信者が以前識別された発信者として含まれるように、前記新しい音響モデルを、前記複数の音響モデルと共に音響モデル貯蔵器に記憶するステップと
    をさらに備えたことを特徴とする請求項22に記載の方法。
  24. (j)前記以前識別された発信者の前記複数の音響モデル間で距離尺度を使用し、ともにマージするために所定の種類の音響モデルにフラグを付するステップをさらに備えたことを特徴とする請求項22に記載の方法。
JP2005005572A 2004-02-12 2005-01-12 音声特性に基づく電話発信者の自動識別 Expired - Fee Related JP4221379B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/777,322 US7231019B2 (en) 2004-02-12 2004-02-12 Automatic identification of telephone callers based on voice characteristics

Publications (3)

Publication Number Publication Date
JP2005227758A JP2005227758A (ja) 2005-08-25
JP2005227758A5 JP2005227758A5 (ja) 2008-02-14
JP4221379B2 true JP4221379B2 (ja) 2009-02-12

Family

ID=34701375

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005005572A Expired - Fee Related JP4221379B2 (ja) 2004-02-12 2005-01-12 音声特性に基づく電話発信者の自動識別

Country Status (11)

Country Link
US (1) US7231019B2 (ja)
EP (1) EP1564722B1 (ja)
JP (1) JP4221379B2 (ja)
KR (1) KR101120716B1 (ja)
CN (1) CN1655235B (ja)
CY (1) CY1113168T1 (ja)
DK (1) DK1564722T3 (ja)
ES (1) ES2391454T3 (ja)
PL (1) PL1564722T3 (ja)
PT (1) PT1564722E (ja)
SI (1) SI1564722T1 (ja)

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007536810A (ja) 2004-05-03 2007-12-13 ソマティック テクノロジーズ インコーポレイテッド 個別化された音響警報を提供するシステム及び方法
US7640159B2 (en) * 2004-07-22 2009-12-29 Nuance Communications, Inc. System and method of speech recognition for non-native speakers of a language
US8036893B2 (en) * 2004-07-22 2011-10-11 Nuance Communications, Inc. Method and system for identifying and correcting accent-induced speech recognition difficulties
US8099279B2 (en) * 2005-02-09 2012-01-17 Microsoft Corporation Interactive clustering method for identifying problems in speech applications
US7643995B2 (en) * 2005-02-09 2010-01-05 Microsoft Corporation Method of automatically ranking speech dialog states and transitions to aid in performance analysis in speech applications
US7574358B2 (en) * 2005-02-28 2009-08-11 International Business Machines Corporation Natural language system and method based on unisolated performance metric
US7453992B2 (en) * 2005-04-14 2008-11-18 International Business Machines Corporation System and method for management of call data using a vector based model and relational data structure
US20060262115A1 (en) * 2005-05-02 2006-11-23 Shapiro Graham H Statistical machine learning system and methods
US20090024183A1 (en) 2005-08-03 2009-01-22 Fitchmun Mark I Somatic, auditory and cochlear communication system and method
US7908132B2 (en) * 2005-09-29 2011-03-15 Microsoft Corporation Writing assistance using machine translation techniques
US8175874B2 (en) * 2005-11-17 2012-05-08 Shaul Shimhi Personalized voice activity detection
KR100717385B1 (ko) * 2006-02-09 2007-05-11 삼성전자주식회사 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템
US8625749B2 (en) * 2006-03-23 2014-01-07 Cisco Technology, Inc. Content sensitive do-not-disturb (DND) option for a communication system
US8396711B2 (en) * 2006-05-01 2013-03-12 Microsoft Corporation Voice authentication system and method
ES2286943B1 (es) * 2006-05-19 2008-10-16 Agnitio, S.L. Procedimiento de identificacion de voz.
US20080010065A1 (en) * 2006-06-05 2008-01-10 Harry Bratt Method and apparatus for speaker recognition
US7809170B2 (en) * 2006-08-10 2010-10-05 Louisiana Tech University Foundation, Inc. Method and apparatus for choosing and evaluating sample size for biometric training process
US8086461B2 (en) 2007-06-13 2011-12-27 At&T Intellectual Property Ii, L.P. System and method for tracking persons of interest via voiceprint
US8229085B2 (en) * 2007-07-31 2012-07-24 At&T Intellectual Property I, L.P. Automatic message management utilizing speech analytics
US8219404B2 (en) * 2007-08-09 2012-07-10 Nice Systems, Ltd. Method and apparatus for recognizing a speaker in lawful interception systems
WO2009078256A1 (ja) * 2007-12-18 2009-06-25 Nec Corporation 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
US20090190735A1 (en) * 2008-01-24 2009-07-30 General Motors Corporation Method and system for enhancing telematics services
JP5024154B2 (ja) * 2008-03-27 2012-09-12 富士通株式会社 関連付け装置、関連付け方法及びコンピュータプログラム
WO2010042631A2 (en) 2008-10-10 2010-04-15 Fastow Richard M Real-time data pattern analysis system and method of operation thereof
US8818802B2 (en) * 2008-10-10 2014-08-26 Spansion Llc Real-time data pattern analysis system and method of operation thereof
JP5042194B2 (ja) * 2008-10-27 2012-10-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 話者テンプレートを更新する装置及び方法
US8391445B2 (en) * 2008-11-10 2013-03-05 International Business Machines Corporation Caller identification using voice recognition
US8645140B2 (en) * 2009-02-25 2014-02-04 Blackberry Limited Electronic device and method of associating a voice font with a contact for text-to-speech conversion at the electronic device
US8160877B1 (en) * 2009-08-06 2012-04-17 Narus, Inc. Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
CN102117614B (zh) * 2010-01-05 2013-01-02 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
US8442827B2 (en) * 2010-06-18 2013-05-14 At&T Intellectual Property I, L.P. System and method for customized voice response
TWI403304B (zh) * 2010-08-27 2013-08-01 Ind Tech Res Inst 隨身語能偵知方法及其裝置
CN102779509B (zh) * 2011-05-11 2014-12-03 联想(北京)有限公司 语音处理设备和语音处理方法
CN102781075B (zh) * 2011-05-12 2016-08-24 中兴通讯股份有限公司 一种降低移动终端通话功耗的方法及移动终端
US20130158996A1 (en) * 2011-12-19 2013-06-20 Spansion Llc Acoustic Processing Unit
US9147401B2 (en) * 2011-12-21 2015-09-29 Sri International Method and apparatus for speaker-calibrated speaker detection
US9147400B2 (en) * 2011-12-21 2015-09-29 Sri International Method and apparatus for generating speaker-specific spoken passwords
CN102522084B (zh) * 2011-12-22 2013-09-18 广东威创视讯科技股份有限公司 一种将语音数据转换为文本文件的方法和***
AU2013203139B2 (en) * 2012-01-24 2016-06-23 Auraya Pty Ltd Voice authentication and speech recognition system and method
US9711167B2 (en) * 2012-03-13 2017-07-18 Nice Ltd. System and method for real-time speaker segmentation of audio interactions
RU2598601C2 (ru) * 2012-03-30 2016-09-27 Сони Корпорейшн Устройство обработки данных, способ обработки данных и программа
JP5957269B2 (ja) * 2012-04-09 2016-07-27 クラリオン株式会社 音声認識サーバ統合装置および音声認識サーバ統合方法
US20140088965A1 (en) * 2012-09-27 2014-03-27 Polaris Wireless, Inc. Associating and locating mobile stations based on speech signatures
CN103856626A (zh) * 2012-11-29 2014-06-11 北京千橡网景科技发展有限公司 个性声音的定制方法和装置
US9294616B2 (en) 2013-06-30 2016-03-22 International Business Machines Corporation Identifying a contact based on a voice communication session
US20150046164A1 (en) * 2013-08-07 2015-02-12 Samsung Electronics Co., Ltd. Method, apparatus, and recording medium for text-to-speech conversion
CN103578467B (zh) * 2013-10-18 2017-01-18 威盛电子股份有限公司 声学模型的建立方法、语音辨识方法及其电子装置
KR102225404B1 (ko) * 2014-05-23 2021-03-09 삼성전자주식회사 디바이스 정보를 이용하는 음성인식 방법 및 장치
JP6596924B2 (ja) * 2014-05-29 2019-10-30 日本電気株式会社 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム
CH709795B1 (fr) * 2014-06-18 2021-02-26 Katia Sa Procédé et système de filtrage d'appels téléphoniques entrants indésirables.
EP3010017A1 (en) 2014-10-14 2016-04-20 Thomson Licensing Method and apparatus for separating speech data from background data in audio communication
CN104821934B (zh) * 2015-03-20 2018-11-20 百度在线网络技术(北京)有限公司 基于人工智能的声纹登录方法和装置
US9485354B1 (en) * 2015-05-08 2016-11-01 Marchex, Inc. Identifying call features and associations to detect call traffic pumping and take corrective action
US10529328B2 (en) * 2015-06-22 2020-01-07 Carnegie Mellon University Processing speech signals in voice-based profiling
CN105096941B (zh) * 2015-09-02 2017-10-31 百度在线网络技术(北京)有限公司 语音识别方法以及装置
US10750251B2 (en) * 2015-09-03 2020-08-18 Nec Corporation Information providing apparatus, information providing method, and storage medium
CN105513597B (zh) * 2015-12-30 2018-07-10 百度在线网络技术(北京)有限公司 声纹认证处理方法及装置
US10672388B2 (en) * 2017-12-15 2020-06-02 Mitsubishi Electric Research Laboratories, Inc. Method and apparatus for open-vocabulary end-to-end speech recognition
JP6996627B2 (ja) * 2018-06-27 2022-01-17 日本電気株式会社 情報処理装置、制御方法、及びプログラム
CN108962261A (zh) * 2018-08-08 2018-12-07 联想(北京)有限公司 信息处理方法、信息处理装置和蓝牙耳机
RU2744063C1 (ru) 2018-12-18 2021-03-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и система определения говорящего пользователя управляемого голосом устройства
US11962718B2 (en) * 2022-01-04 2024-04-16 Centurylink Intellectual Property Llc Automated robocall detection

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3050934B2 (ja) * 1991-03-22 2000-06-12 株式会社東芝 音声認識方式
US5710866A (en) 1995-05-26 1998-01-20 Microsoft Corporation System and method for speech recognition using dynamically adjusted confidence measure
US5825977A (en) * 1995-09-08 1998-10-20 Morin; Philippe R. Word hypothesizer based on reliably detected phoneme similarity regions
US6088669A (en) * 1997-01-28 2000-07-11 International Business Machines, Corporation Speech recognition with attempted speaker recognition for speaker model prefetching or alternative speech modeling
US5946654A (en) * 1997-02-21 1999-08-31 Dragon Systems, Inc. Speaker identification using unsupervised speech models
US5893059A (en) * 1997-04-17 1999-04-06 Nynex Science And Technology, Inc. Speech recoginition methods and apparatus
EP0949827A1 (fr) * 1998-04-07 1999-10-13 Koninklijke Philips Electronics N.V. Equipment téléphonique, système de communications radio et procédé d'identification de l'appelant
US6141641A (en) 1998-04-15 2000-10-31 Microsoft Corporation Dynamically configurable acoustic model for speech recognition system
US6292799B1 (en) * 1998-06-05 2001-09-18 Netnumber.Com, Inc. Method and apparatus to automatically address a voice mail reply to a voice mail message
US6684186B2 (en) * 1999-01-26 2004-01-27 International Business Machines Corporation Speaker recognition using a hierarchical speaker model tree
US6978238B2 (en) * 1999-07-12 2005-12-20 Charles Schwab & Co., Inc. Method and system for identifying a user by voice
US20010037198A1 (en) * 2000-02-01 2001-11-01 Into Voice Corporation Method and system for providing texts for voice requests
US6629073B1 (en) 2000-04-27 2003-09-30 Microsoft Corporation Speech recognition method and apparatus utilizing multi-unit models
US6754626B2 (en) * 2001-03-01 2004-06-22 International Business Machines Corporation Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context
US7440900B2 (en) 2002-03-15 2008-10-21 Microsoft Corporation Voice message processing system and method
US7162421B1 (en) * 2002-05-06 2007-01-09 Nuance Communications Dynamic barge-in in a speech-responsive system

Also Published As

Publication number Publication date
KR101120716B1 (ko) 2012-03-23
KR20060041829A (ko) 2006-05-12
PT1564722E (pt) 2012-09-25
US20050180547A1 (en) 2005-08-18
SI1564722T1 (sl) 2012-11-30
PL1564722T3 (pl) 2013-01-31
EP1564722B1 (en) 2012-08-08
DK1564722T3 (da) 2012-09-03
CY1113168T1 (el) 2016-04-13
JP2005227758A (ja) 2005-08-25
CN1655235A (zh) 2005-08-17
US7231019B2 (en) 2007-06-12
CN1655235B (zh) 2012-01-25
ES2391454T3 (es) 2012-11-26
EP1564722A1 (en) 2005-08-17

Similar Documents

Publication Publication Date Title
JP4221379B2 (ja) 音声特性に基づく電話発信者の自動識別
US11496582B2 (en) Generation of automated message responses
US11580991B2 (en) Speaker based anaphora resolution
JP4351385B2 (ja) 連続および分離音声を認識するための音声認識システム
US10522134B1 (en) Speech based user recognition
US6542866B1 (en) Speech recognition method and apparatus utilizing multiple feature streams
Zissman et al. Automatic language identification
US6856956B2 (en) Method and apparatus for generating and displaying N-best alternatives in a speech recognition system
Chen et al. Advances in speech transcription at IBM under the DARPA EARS program
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
EP2048655B1 (en) Context sensitive multi-stage speech recognition
US10176809B1 (en) Customized compression and decompression of audio data
Rabiner et al. An overview of automatic speech recognition
Aggarwal et al. Acoustic modeling problem for automatic speech recognition system: conventional methods (Part I)
US20130289987A1 (en) Negative Example (Anti-Word) Based Performance Improvement For Speech Recognition
US20040006469A1 (en) Apparatus and method for updating lexicon
Lee et al. A survey on automatic speech recognition with an illustrative example on continuous speech recognition of Mandarin
Flemotomos et al. Role annotated speech recognition for conversational interactions
Wu et al. Application of simultaneous decoding algorithms to automatic transcription of known and unknown words
Ishaq Voice activity detection and garbage modelling for a mobile automatic speech recognition application
Raj et al. Design and implementation of speech recognition systems
Bouwman et al. Using information on lexical stress for utterance verification
Dua et al. Implementation and performance evaluation of speaker adaptive continuous Hindi ASR using tri-phone based acoustic modelling
Chi-Yan et al. SUBWORD UNITS FOR A MANDARIN KEYWORD SPOTTING SYSTEM

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071221

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071221

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20071221

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20080507

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080624

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080924

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081017

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081117

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111121

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4221379

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111121

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121121

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131121

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees