JP4855701B2 - 意味管理を用いた言語モデル適応 - Google Patents

意味管理を用いた言語モデル適応 Download PDF

Info

Publication number
JP4855701B2
JP4855701B2 JP2005101016A JP2005101016A JP4855701B2 JP 4855701 B2 JP4855701 B2 JP 4855701B2 JP 2005101016 A JP2005101016 A JP 2005101016A JP 2005101016 A JP2005101016 A JP 2005101016A JP 4855701 B2 JP4855701 B2 JP 4855701B2
Authority
JP
Japan
Prior art keywords
data
class
gram
adaptive
background
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005101016A
Other languages
English (en)
Other versions
JP2005292832A (ja
Inventor
アチェロ アレジャンドロ
アイ.ケルバ シプリアン
マハジャン ミラインド
タム イーチュン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2005292832A publication Critical patent/JP2005292832A/ja
Application granted granted Critical
Publication of JP4855701B2 publication Critical patent/JP4855701B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • AHUMAN NECESSITIES
    • A44HABERDASHERY; JEWELLERY
    • A44BBUTTONS, PINS, BUCKLES, SLIDE FASTENERS, OR THE LIKE
    • A44B19/00Slide fasteners
    • A44B19/24Details
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10FAUTOMATIC MUSICAL INSTRUMENTS
    • G10F5/00Details or accessories
    • G10F5/02Actions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Machine Translation (AREA)

Description

本発明は、言語処理で用いられる言語モデルに関する。詳細には、本発明は、所望のドメインに言語モデルを適応させることに関する。
自動音声認識(ASR:automatic speech recognition)などの言語処理システムは、しばしば、トレーニングおよびテストデータと実際のドメインデータとの間の不一致に由来するエラーによる性能劣化を扱わなければならないことが多い。よく知られているように、音声認識システムは、音響モデルおよび統計言語モデル(LM:language model)を用いて認識を提供する。音響モデルの新しいドメインへの適応は、限られた成功でしか取り組まれておらず、言語モデルの適応は、満足のいく成果を達成していない。
統計言語モデル(LM)は、単語系列の事前確率推定を提供する。LMは、最も可能性の高い単語系列の仮説探索(hypothesis search)をガイドするので、ASRおよびその他の形態の言語処理において重要な構成要素である。よいLMは、優れた言語処理性能のために不可欠であることが知られている。
広く、LMはテストデータに類似していると期待される大量のトレーニングデータから集められた、平滑化されたNグラム統計(n−gram stastistics)を使用する。しかしながら、類似性の定義はゆるく、対象となるある所与のドメインにどのデータソースを使用すべきかの決定は、ほとんどの場合試行錯誤により、普通、モデル作成者に委ねられる。
常に、トレーニングまたはテストデータと実際のドメインまたは「インドメイン(in−domain)」データとの間には不一致が存在し、それによりエラーがもたらされる。不一致の1つの源は、テストデータ中の語彙外の単語(out−of vocabulary words)に由来するものである。例えば、元々1つの航空会社のために設計された飛行機旅行情報システムは、問題の会社によってサービスが提供される都市名、空港名などでの不一致のために、別の会社に対してはうまく機能しないことがある。
別の潜在的な不一致の源は、異なる言語スタイルに由来するものである。例えば、ニュースドメインでの言語スタイルは、飛行機旅行情報ドメインとは異なる。ニュースワイヤやその他の一般的テキストでトレーニングされた言語モデルは、飛行機旅行情報ドメインではあまりうまく機能しないことがある。
Frederick Jelinek and Robert Mercer, "Interpolated Estimation of Markov Source Parameters from Sparse Data," In E. Gelsema and L. Kanal, editors, Pattern Recognition in Practice, pages 381-397, 1980
異なる技法を用いて大量のバックグラウンドデータでトレーニングされたLMを適応させるために様々なアプローチが試されてきたが、どれも優れた結果を達成しておらず、ゆえに、LM適応における改善が絶えず必要とされている。前述の問題の1つまたは複数に対処する方法があれば役立つであろう。
言語モデルを適応させるための方法および装置が提供される。この方法および装置は、インドメイン意味情報(in−domain semantic information)を利用して言語モデルの管理されたクラスベースの適応(supervised class−based adaptation)を提供する。
一般に、適応を行うのに使用されるリソースは、一般のテキストを示すバックグラウンドデータと、選択されたドメインで使用され、クラスに編成された意味エンティティのセットから導出される。別の実施形態では、モデル化される選択されたドメインを示す適応データも使用される。
前記の別の実施形態では、そのようなデータは、意味エンティティのセットのクラスに相関され、一般のテキストを示すバックグラウンドデータに基づくバックグラウンドNグラムクラスカウントデータと、意味エンティティのセットのクラスに相関され、モデル化される選択されたドメインを示す適応データに基づく適応Nグラムクラスカウントデータとを備える。このデータから、そして意味エンティティのセットを使用して、バックグラウンドワードカウントデータおよび適応ワードカウントデータを計算し、適応データおよび意味項目のセットのドメインに言語モデルを適応させるためのベースとして使用することができる。
本発明は、言語モデル適応のシステムおよび方法に関する。しかしながら、本発明をより詳細に論じる前に、本発明を使用することのできる1つの例示的な環境について論じることにする。
図1に、本発明を実施することのできる適したコンピューティング環境100の一例を示す。コンピューティングシステム環境100は、適したコンピューティング環境の一例にすぎず、本発明の使用または機能の範囲に関していかなる限定を示唆するものではない。また、コンピューティング環境100は、例示的な動作環境100に示す構成要素のいずれか1つまたはその組合せに関するいかなる依存性または要件を有するものと解釈されるべきではない。
本発明は、数多くの他の汎用または専用のコンピューティングシステム環境または構成で動作する。本発明と共に使用するのに適すると考えられる周知のコンピューティングシステム、環境、および/または構成の例には、それだけに限られないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な民生用電子機器、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、上記のシステムまたはデバイスのいずれかを含む分散コンピューティング環境などが含まれる。
本発明は、コンピュータにより実行される、プログラムモジュールなどのコンピュータ実行可能命令の一般的コンテキストで説明することができる。一般に、プログラムモジュールには、特定のタスクを行い、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。当業者は、本明細書の説明および/または図をコンピュータ実行可能命令として実施することができ、それは、以下で論じる任意の形態のコンピュータ可読媒体上で具体化することができる。
本発明は、通信ネットワークを介してリンクされたリモート処理装置によってタスクが行われる分散コンピューティング環境で実施することもできる。分散コンピューティング環境では、プログラムモジュールは、メモリ記憶装置を含むローカルとリモート両方のコンピュータ記憶媒体に位置することがある。
図1を参照すると、本発明を実施するための例示的なシステムは、コンピュータ110の形態の汎用コンピューティングデバイスを含む。コンピュータ110の構成要素には、それだけに限られないが、処理装置120、システムメモリ130、およびシステムメモリを含む様々なシステム構成要素を処理装置120に結合するシステムバス121が含まれ得る。システムバス121は、メモリバスまたはメモリコントローラ、周辺バス、および様々なバスアーキテクチャのいずれかを使用したローカルバスを含むいくつかのタイプのバス構造のいずれでもよい。例として、限定ではなく、そのようなアーキテクチャには、ISA(Industry Standard Architecture)バス、MCA(Micro Channel Architecutre)バス、拡張ISA(EISA)バス、VESA(Video Electronics Standards Association)ローカルバス、およびメザニンバスとも呼ばれるPCI(Peripheral Component Interconnect)バスが含まれる。
コンピュータ110は、通常、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ110によってアクセスすることができる任意の利用可能な媒体とすることができ、それには揮発性媒体と不揮発性媒体の両方、リムーバブル媒体と非リムーバブル媒体の両方が含まれる。例として、限定ではなく、コンピュータ可読媒体には、コンピュータ記憶媒体および通信媒体が含まれ得る。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュールまたはその他のデータなどの情報を記憶するための任意の方法または技術で実施された、揮発性および不揮発性の両方、リムーバブルおよび非リムーバブルの両方の媒体が含まれる。コンピュータ記憶媒体には、それだけに限られないが、RAM、ROM、EEPROM、フラッシュメモリなどのメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)などの光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶などの磁気記憶装置、または所望の情報の格納に使用でき、コンピュータ110によってアクセスすることができる他の任意の媒体が含まれる。通信媒体は、通常、コンピュータ可読命令、データ構造、プログラムモジュールまたはその他のデータを、搬送波WAVまたは他のトランスポート機構などの変調データ信号に具体化し、任意の情報配信媒体を含む。「変調データ信号」という用語は、信号に情報を符号化するような形でその特性の1つまたは複数が設定または変更された信号を意味する。例として、限定ではなく、通信媒体には、有線ネットワークや直接配線接続などの有線媒体、および音響、RF、赤外線、その他の無線媒体などの無線媒体が含まれる。上記のいずれの組合せも、コンピュータ可読媒体の範囲内に含まれるべきである。
システムメモリ130は、読取り専用メモリ(ROM)131やランダムアクセスメモリ(RAM)132などの揮発性および/または不揮発性メモリの形態のコンピュータ記憶媒体を含む。起動時などに、コンピュータ110内の要素間の情報転送を助ける基本ルーチンが入った基本入出力システム(BIOS)133は、通常、ROM131に格納される。RAM132は、通常、処理装置120によって直ちにアクセス可能であり、そして/または現在処理されているデータおよび/またはプログラムモジュールを収容する。例として、限定ではなく、図1に、オペレーティングシステム134、アプリケーションプログラム135、その他のプログラムモジュール136、およびプログラムデータ137を示す。
コンピュータ110は、他のリムーバブル/非リムーバブル、揮発性/不揮発性コンピュータ記憶媒体を含むことができる。例にすぎないが、図1に、非リムーバブルの不揮発性磁気媒体との間で読取りまたは書込みを行うハードディスクドライブ141、リムーバブルの不揮発性磁気ディスク152との間で読取りまたは書込みを行う磁気ディスクドライブ151、およびCD−ROMや他の光媒体など、リムーバブルの不揮発性光ディスク156との間で読取りまたは書込みを行う光ディスクドライブ155を示す。例示的な動作環境で使用することのできる他のリムーバブル/非リムーバブル、揮発性/不揮発性のコンピュータ記憶媒体には、それだけに限られないが、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、ソリッドステートRAM、ソリッドステートROMなどが含まれる。ハードディスクドライブ141は、通常、インターフェース140などの非リムーバブルメモリインターフェースを介してシステムバス121に接続され、磁気ディスクドライブ151および光ディスクドライブ155は、通常、インターフェース150などのリムーバブルメモリインターフェースによってシステムバス121に接続される。
前述し、図1に示すドライブおよび関連するコンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュールおよびコンピュータ110のその他のデータのストレージを提供する。図1では、例えば、ハードディスクドライブ141は、オペレーティングシステム144、アプリケーションプログラム145、その他のプログラムモジュール146、およびプログラムデータ147を格納するものとして示されている。これらのコンポーネントは、オペレーティングシステム134、アプリケーションプログラム135、その他のプログラムモジュール136、およびプログラムデータ137と同じでも、異なっていてもよいことに留意されたい。オペレーティングシステム144、アプリケーションプログラム145、その他のプログラムモジュール146、およびプログラムデータ147には、少なくともそれらが異なるコピーであることを示すために、図では異なる番号が付与されている。
ユーザは、キーボード162や、マイクロフォン163などの入力装置、マウス、トラックボール、タッチパッドといったポインティングデバイス161を介してコンピュータ110にコマンドおよび情報を入力することができる。他の入力装置(図示せず)には、ジョイスティック、ゲームパッド、衛星アンテナ、スキャナなどが含まれることがある。上記およびその他の入力装置は、システムバスに結合されたユーザ入力インターフェース160を介して処理装置120に接続されるが、パラレルポート、ゲームポート、ユニバーサルシリアルバス(USB)といった他のインターフェースおよびバス構造によって接続することもできる。モニタ191または他の種類の表示装置もビデオインターフェース190などのインターフェースを介してシステムバス121に接続される。モニタ191に加えて、コンピュータはスピーカ197やプリンタ196など他の周辺出力装置を含むこともでき、それらは、出力周辺インターフェース195を介して接続することができる。
コンピュータ110は、リモートコンピュータ180など、1つまたは複数のリモートコンピュータへの論理接続を使用してネットワーク化された環境で動作することができる。リモートコンピュータ180は、パーソナルコンピュータ、ハンドヘルド装置、サーバ、ルータ、ネットワークPC、ピアデバイスおよびその他の共通ネットワークノードとすることができ、通常、コンピュータ110に関連して上述した要素の多くまたはすべてを含む。図1に示す論理接続には、ローカルエリアネットワーク(LAN)171およびワイドエリアネットワーク(WAN)173が含まれるが、他のネットワークを含むこともある。そのようなネットワーク環境は、オフィス、企業規模のコンピュータネットワーク、イントラネットおよびインターネットで一般的である。
LANネットワーク環境で使用されるとき、コンピュータ110はネットワークインターフェースまたはアダプタ170を介してLAN171に接続される。WANネットワーク環境で使用されるとき、コンピュータ110は、通常、モデム172、またはインターネットなどのWAN173を介して通信を確立するための他の手段を含む。モデム172は、内蔵でも外付けでもよく、ユーザ入力インターフェース160または他の適当な機構を介してシステムバス121に接続することができる。ネットワーク化環境では、コンピュータ110に関連して示すプログラムモジュール、またはその部分は、リモートメモリ記憶装置に格納することもできる。例として、限定ではなく、図1に、リモートアプリケーションプログラム185をリモートコンピュータ180上にあるものとして示す。図示したネットワーク接続は例示的なものであり、コンピュータ間で通信を確立する他の手段を使用できることが理解されるであろう。
本発明は、図1との関連で説明したようなコンピュータシステム上で実行できることに留意すべきである。しかしながら、本発明は、サーバや、メッセージ処理専用のコンピュータでも、本発明の異なる部分が分散コンピューティングシステムの異なる部分で実行される分散システムでも実行することができる。
上に示したように、本発明は、言語モデル適応のためのシステムおよび方法に関するものである。適応を行うのに使用されるリソースは、適応される必要のあるバックグラウンドLMを含む。一般に、バックグラウンドLMは、それだけに限られないが、ニュース記事など、バックグラウンドトレーニングデータの大きなコーパスから得られる。このバックグラウンドトレーニングデータを使用して、バックグラウンド言語モデルのためのNグラム統計が得られる。
意味データベースまたは意味情報は、適応のための管理された情報(supervised information)を提供する。この説明では、意味データベースは意味エンティティ(クラス)のリストを広く、模式的に表し、それらがインドメイン自然言語テキストにおいて遭遇するのと同じ形態であると想定される具現化(realizations)のリストを各エンティティが伴う。例えば、意味データベースは、複数のクラスについて一般的に明確に定義された意味エンティティのリストの形態とすることができる。例えば、以下に一例として使用するように、予約を行う旅行情報を得るために航空会社によって使用される音声認識における言語モデルの意味項目には、その航空会社によってサービスが提供される都市および飛行先の様々な空港のリストが含まれ得る。意味エンティティおよびクラスの別の例は、企業の従業員、当月の日、当年の月のリストとすることができ、それらは、おそらく、スケジューリング用途のインドメインに含まれるであろう。
意味クラスは、開いたクラスと閉じたクラスに分類することができる。開いたクラス中のクラスメンバは、ドメイン間で変化するが、閉じたクラス中のクラスメンバは変化しない。例えば、飛行機旅行用途での意味クラスは以下のものとすることができるであろう。
開いたクラス:{AIRLINE(航空会社)、AIRPORT(空港)、CITY(都市)、STATE(州)}
閉じたクラス:{DAYS(日)、MONTH(月)、INTERVAL(間隔)、CLASS OF SERVICE(サービスクラス)、ZONE(ゾーン)、FOOD SERVICE(フードサービス)、GROUND SERVICE(地上サービス)}
用途ごとに、意味クラスの数およびタイプは大きく変化する可能性がある。しかしながら、飛行機旅行用途などいくつかの用途では、その意味クラスが特定されると、その意味エンティティまたは単語(word)レベルの具現化だけで、別の航空会社による使用のためにその言語モデルを本質的に適応させるために変更する必要のあるすべてとすることができる。
言語モデル適応で使用されるオプションの第3のリソースは適応データである。適応データは、インドメインのアプリケーションでのクラスの使用例となりうるセンテンス(sentences)、フレーズ(phrases)、テキストセグメント(text segements)などの形態の実際のまたはインドメインのデータを備える。バックグラウンドデータに比べて、適応データは、普通、バックグラウンドデータより何桁も少ない。一実施形態では、インドメインデータは、適応開発データ(adaptation developement data)と適応トレーニングデータ(adaptation training data)にサブ分割される。適応トレーニングデータは、バックグラウンドトレーニングセットと組み合わされてより大きなトレーニングセットになり、両セットからのNグラムカウントは等しい重みで混合される(ただし、他の混合スキームも可能であり、Nグラムカウントは、MAP適応などのように、異なる重みで混合することもできる)。適応開発データは、厳密に、バックグラウンド言語モデルおよび適応言語モデルの両方を平滑化するために使用される。開発セットからのNグラムは、バックグラウンド/適応言語モデルには含められない。
例示的な実施形態では、すべてのデータセットは単語レベルの自然言語テキストである。
(クラスベースの適応)
管理された意味情報(supervised semantic information)がクラスベースの言語モデルの使用を通じて言語モデルに組み込まれる。簡潔には、単一の意味クラスcに属する新しい単語wの確率推定は以下のように行うことができる。
Pr(w|w)=Pr(w|c)・Pr(c|w) (1)
ここで、Pr(w|c)=Pr(w|c)というモデルリングを前提とする。
例えば、Pr(city name(都市名)|fly to(へ飛行))は以下を用いて推定される。
Pr(city name|fly to)=Pr(city name|CITY(都市))・Pr(CITY|fly to)
ここで、Pr(CITY|fly to)は、意味クラスでタグ付けされたトレーニングデータを用いて推定され、Pr(city name|CITY)は、インドメイン意味データベースを用いて適応される。以前のインドメイン知識が利用可能である場合、よくある都市名は、まれな都市名より高い確率で割り当てることができ、そうでなければ、都市名の一様分布が想定される。クラスベースの適応アプローチを用いることの利点は以下の通りである。
単語コンテキストを仮定した意味クラスの確率はうまく推定することができる。上記の例では、Pr(city name|fly to)は、トレーニングデータおよび適応データで非常に類似していると考えられる。
インドメイン意味データを用いてPr(w|c)を適応させることにより、高速LM適応を行なうことができる。適応された確率Pr(w|c)は、ドメイン特有の言語モデルを再トレーニングする新しいトレーニングテキストを収集することなく、カウント「w」と組み合わされる。
語句(word phrases)が意味クラスにカプセル化されるので、より広範な単語コンテキストで確率推定を実現することができる。例えば、5グラム「los angeles to new york」は、トライグラム(trigrams)「los angeles to」、「angeles to new」および「to new york」のシーケンスとしてモデル化されるよりも直感的に満足の行くクラストライグラム「CITY to CITY」としてモデル化される。
(適応手順)
図2に例示的な適応手順200を示す。図3Aおよび3Bに、手順200を行うための例示的システム300を示す。上に示したように、適応データの使用はオプションであるが、本発明の別の実施形態である。両方を用いた実施形態について以下に説明するが、これは必須または限定とみなすべきではない。また、説明に進む前に、手順200およびシステム300が、一般に同時にバックグラウンドデータおよびオプションの適応データ上で動作するものとして記述されていることに留意されたい。しかしながら、これは、理解を簡単にするためであり、必要または限定とみなすべきではない。
ステップ202は、一般に、バックグラウンドデータおよび適応データの両方のためにタグ付けデータを得ることを表している。例示した実施形態では、これは、202に示すように単語レベルのデータをタグ付けすることを含む。特に、トレーニング(バックグラウンドおよび適応)データが、図2のステップ202で意味クラスと先ずタグ付けされる。当然ながら、タグ付けされたデータが存在する場合、このステップは不要である。図3Aでは、意味データベースが301で示され、トレーニングデータはコーパス302および304にあり、この場合、タグ付けはタガー306によって行われる。
タガー306は、コーパス302および304によって提供された単語レベルのテキストを変更し、そこで認識された意味エンティティのクラスを示すタグを付加する。例えば、「fly from san francisco to」が与えられ、「san francisco」が意味クラス「CITY」に属すると知っている場合、タガー306からの出力は、「fly from CITY to」になることになる。意味エンティティのいくつかが対応する意味クラスで置き換えられた単語レベルのトレーニングデータは308および310で示されている。
一実施形態では、タグ付けにヒューリスティックス(heuristics)を適用することができる。そのようなヒューリスティックスは、タグ付けのための単純な文字列マッチングアプローチを含んでもよい。タガー306は、所与のデータベースエントリをテキスト中の単語のシーケンスと合致させ、そのようにして特定された最長のフレーズにクラスラベルを割り当てる。別の実施形態では、単語のあいまい性が異なるクラス間で発生した場合、その語句はタグなしのままとされる。別の実施形態では、各意味クラス候補に確率を割り当てることによって、ソフトなタグ付けを行うことができるであろう。
ステップ202でタグ付けが行われた後、タグ付けデータが、別途、提供されない場合、手順はステップ204に進んですべてのトレーニングテキストからクラスNグラムカウントを収集し、そうでない場合は、タグ付けデータに含まれる固有のNグラムをカウントする。図3Aで、このステップは収集モジュール312によって行われる。
クラスNグラムカウントのプルーニングを備えるオプションのステップ206を必要に応じて行うこともできる。クラスベースの適応では、クラスNグラムが単語Nグラムに拡張されると、言語モデルのサイズは、各意味クラス中の要素数によって強く影響される。例えば、クラストライグラム「PERSON joins COMPANY(「人」が「会社」に入社する)」(この場合、「PERSON」および「COMPANY」が意味クラスを含む)は、「PERSON」と「COMPANY」がそれぞれ何千ものクラス要素を含むとき何百万もの単語トライグラムを生じる。それゆえ、言語モデルプルーニングが、言語モデルのサイズを扱いやすくするために必要になることがある。一実施形態では、複数の意味クラスを含むNグラムは廃棄される。計算リソースが利用可能であれば、それらを保持することもできるであろう。加えて、単語Nグラムに拡張する前に、クラスNグラムのカウントカットオフプルーニングを用いることができる。図3Aには、収集モジュール312がプルーニングモジュール314を使用することによってこの機能を行うものしてと示されている。収集モジュール312からの出力は、図3Bに示すバックグラウンドNグラムカウントデータ316および適応Nグラムカウントデータ318を備える。
ステップ208で、クラスNグラムが意味データベース301を用いて単語Nグラムに拡張される。図3Bでは、このステップはワードNグラムジェネレータ320によって行われる。一実施形態では、ワードNグラムジェネレータ320は、以下の拡張アルゴリズムを実施し、バックグラウンドNグラムワードカウントデータ322および適応Nグラムワードカウントデータ324を生成することができる。
(a)クラスNグラムを仮定し、クラスタグをそのクラス要素のそれぞれによって置き換える。
例えば、クラストライグラム「analyst for COMPANY」は、単語4グラム「analyst for x.y.」を作成することができ、ここで、「x.y.」は意味データベース中の会社名(Verizon Wirelessなど)である。
(b)クラスNグラムカウントから単語Nグラムカウントを算出する。
単語Nグラムカウントは、Pr(word|class)に応じて、その対応するクラスNグラムカウントの一部として算出される。
意味クラス「COMPANY」の確率が、
Pr(microsoft|COMPANY)=0.5
Pr(oracle|COMPANY)=0.25
Pr(verizon wireless|COMPANY)=0.25
であり、
Nグラム「analyst for COMPANY」が5カウントであった
と想定すると、
単語レベルのNグラムカウントデータは、
「analyst for microsoft」=2.5
「analyst for oracle」=1.25
「analyst for verizon wireless」=1.25
になるであろう。
上記の例では、生成された単語4グラム「analyst for x.y.」のカウントは、
#(「analyst for COMPANY」)・Pr(「x.y.」|COMPANY)
に等しい。
(c)しかしながら、クラスベースのNグラムは、マルチワード(multi−word)意味エントリのために特定のNグラムのトレーニングと動作しない単語レベルのNグラムを生成することができることに留意されたい。例えば、3ワードのNグラム言語モデルが望まれていると想定すると、「analyst for verizon wireless」は正しい形態のものではない。この状況では、スライディングウィンドウを用いてより低次の単語Nグラムが生成される。上記の例では、「analyst for verizon」も1.25のカウントを有するであろうし、「for verizon wireless」も1.25のカウントを有するであろう。
しかしながら、クラスがNグラム中の他の場所、すなわち、右端の位置以外に現れた場合、マルチワード意味項目拡張(multi−word semantic item expansion)について二重カウンティングを避けるのに以下のステップを行うことができる。先の例と同様に、拡張に関するステップ(a)と計算に関するステップ(b)が同じ方式で行われる。しかし、ステップ(c)は行われず、むしろ、Nグラムのコンテキストは、拡張後に所望の数の右端の単語だけを取ることにより短縮される。
例として、カウント5を有する「COMPANY analyst said」のクラストライグラムを、
Pr(microsoft|COMPANY)=0.5
Pr(oracle|COMPANY)=0.25
Pr(verizon wireless|COMPANY)=0.25
の意味クラス「COMPANY」の同じ確率で想定すると、その単語レベルのNグラムデータは、
「microsoft analyst said」=2.5
「oracle analyst said」=1.25
「wireless analyst said」=1.25
になり、ここで、「wireless analyst said」は、トライグラムに右端の3ワードだけを取ることにより実現されたものである。
意味データベース301がタガー306およびワードNグラムジェネレータ320と共に動作可能である場合が示されているが、データベース301のインスタンスのそれぞれでの内容は、多くの用途で異なることがあり、それによりこの方法がより役立つことを理解されたい。
ステップ210で、言語モデル326が、バックグラウンドデータおよびオプションの適応データの生成された単語Nグラムカウントを用いてトレーニングされ、ここでは、トレーニングモジュール328によって行われる。必要ならば、単語Nグラムに関してカウントカットオフプルーニングを行って言語モデルのサイズをさらに低減することもできる。
トレーニングは、Nグラム相対頻度推定(n−gram relative frequency estimates)を平滑化することを含むことができる。例えば、参照により本明細書に組み込まれる非特許文献1に記載されている削除補間法(deleted−interpolation method)を、Nグラム相対頻度推定を平滑化するために使用することができる。簡潔には、この再帰的削除補間式(recursive deleted−interpolation formula)は以下のように定義される。
Figure 0004855701
ここで、
Figure 0004855701
は単語Nグラムの相対頻度を表し、
Figure 0004855701
は前のn−1語に及ぶ単語履歴である。異なるコンテキスト順で均一な単語分布1/VのNグラムモデルが線形に補間される。補間重み
Figure 0004855701
は、周知の最尤法を用いて推定することができる。データのまばらさのために、補間重みは、普通、単語コンテキストをクラスにグループ化することにより推定パラメータ数を低減するために結び付けられる。1つの可能な方法は、ある所与の単語コンテキストの出現数に基づいてパラメータをバケット化することである。
ステップ210により、管理された言語モデル適応を完了し、この例では、削除補間された言語モデルが提供される。言語処理システムにおける削除補間された言語モデルの実装は、標準ARPA形式のバックオフ言語モデルへの変換を含んでもよい。2004年3月26日に出願された「REPRESENTATION OF A DELETED INTERPOLATION N−GRAM LANGUAGE MODEL IN ARPA STANDARD FORMAT」というタイトルの同時継続中の米国特許出願に、ARPA形式への変換の一例について記載されており、それをワンパスシステムに用いることができる。
本発明を特定の実施形態を参照して説明してきたが、本発明の精神および範囲を逸脱することなく、形態および詳細に変更を加えることができることを当業者は理解するであろう。
本発明を実施することのできる一般的なコンピューティング環境を示すブロック図である。 言語モデルを適応させるための流れ図である。 言語モデルを適応させるためのシステムを示すブロック図である。 言語モデルを適応させるためのシステムを示すブロック図である。
符号の説明
100 コンピューティング環境
110 コンピュータ
120 処理装置
130 システムメモリ
131 ROM
132 RAM
133 BIOS
134 オペレーティングシステム
135 アプリケーションプログラム
136 その他のプログラムモジュール
137 プログラムデータ
140 非リムーバブル不揮発性メモリインターフェース
141 ハードディスクドライブ
144 オペレーティングシステム
145 アプリケーションプログラム
146 その他のプログラムモジュール
147 プログラムデータ
150 リムーバブル不揮発性メモリインターフェース
151 磁気ディスクドライブ
152 リムーバブルの不揮発性磁気ディスク
155 光ディスクドライブ
156 リムーバブルの不揮発性光ディスク
160 ユーザ入力インターフェース
161 ポインティング装置
162 キーボード
163 マイクロフォン
170 ネットワークインターフェース
171 ローカルエリアネットワーク
172 モデム
173 ワイドエリアネットワーク
180 リモートコンピュータ
185 リモートアプリケーションプログラム
190 ビデオインターフェース
191 モニタ
195 出力周辺インターフェース
196 プリンタ
197 スピーカ
300 例示的システム
301 意味データベース
302 バックグラウンドデータ
304 適応データ
306 タガー
308 タグ付けしたバックグラウンド
310 タグ付けした適応
312 収集モジュール
314 プルーニングモジュール
316 バックグラウンドN−グラムクラスカウントデータ
318 適応N−グラムクラスカウントデータ
320 ワードN−グラムジェネレータ
322 バックグラウンドN−グラムワードカウントデータ
324 適応N−グラムワードカウントデータ
326 適応された言語モデル
328 トレーニングモジュール

Claims (13)

  1. コンピュータシステム上でNグラム言語モデルを新しいドメインに適応させる方法であって、
    コンピュータシステムが、前記新しいドメインに向けられていない一般的テキストフレーズを示すバックグラウンドデータを受け取ることと、
    コンピュータシステムが、前記新しいドメインで使用され、クラスに編成された意味エンティティのセットを受け取ることと、
    コンピュータシステムが、前記バックグラウンドデータ、前記意味エンティティおよびそのクラスに基づいてバックグラウンドNグラムクラスカウントデータを生成することと、
    コンピュータシステムが、前記新しいドメインで使用されるテキストフレーズを示す適応データを受け取ることと、
    コンピュータシステムが、前記適応データ、前記意味エンティティおよびそのクラスに基づいて適応Nグラムクラスカウントデータを生成することと、
    コンピュータシステムが、前記バックグラウンドNグラムクラスカウントデータ、前記意味エンティティおよびそのクラスに基づいてバックグラウンドNグラムワードデータを生成することと、
    コンピュータシステムが、前記適応Nグラムクラスカウントデータ、前記意味エンティティおよびそのクラスに基づいて適応Nグラムワードデータを生成することと
    コンピュータシステムが、前記バックグラウンドNグラムワードデータおよび前記適応Nグラムワードデータに基づいて言語モデルをトレーニングすることと
    を備えることを特徴とする方法。
  2. コンピュータシステムが、前記言語モデルをトレーニングする前に、複数のクラスを含む前記バックグラウンドNグラムクラスカウントデータまたは前記適応Nグラムクラスカウントデータをプルーニングすることをさらに備えることを特徴とする請求項1に記載の方法。
  3. バックグラウンドNグラムワードデータを生成することは、各データエントリが選択された数のワードを備えるマルチワード意味エンティティのバックグラウンドNグラムワードデータを生成することを備えることを特徴とする請求項1に記載の方法。
  4. 適応Nグラムワードデータを生成することは、各データエントリが選択された数のワードを備えるマルチワード意味エンティティの適応Nグラムワードデータを生成することを備えることを特徴とする請求項3に記載の方法。
  5. 前記バックグラウンドデータ、前記意味エンティティおよびそのクラスに基づいてバックグラウンドNグラムクラスカウントデータを生成することは、前記意味エンティティおよびそのクラスに基づいてワードレベルのバックグラウンドデータをタグ付けすることを備えることを特徴とする請求項3に記載の方法。
  6. 前記適応データ、前記意味エンティティおよびそのクラスに基づいて適応Nグラムクラスカウントデータを生成することは、前記意味エンティティおよびそのクラスに基づいてワードレベルの適応データをタグ付けすることを備えることを特徴とする請求項4に記載の方法。
  7. 前記バックグラウンドデータ、前記意味エンティティおよびそのクラスに基づいてバックグラウンドNグラムクラスカウントデータを生成することは、前記タグ付けされたバックグラウンドデータの固有のクラスレベルNグラムをカウントすることを備えることを特徴とする請求項5に記載の方法。
  8. 前記適応データ、前記意味エンティティおよびそのクラスに基づいて適応Nグラムクラスカウントデータを生成することは、前記タグ付けされた適応データの固有のクラスレベルNグラムをカウントすることを備えることを特徴とする請求項6に記載の方法。
  9. 前記バックグラウンドデータ、前記意味エンティティおよびそのクラスに基づいてバックグラウンドNグラムクラスカウントデータを生成することは、前記タグ付けされたバックグラウンドデータからいくつかのクラスNグラムを廃棄することを備えることを特徴とする請求項7に記載の方法。
  10. 前記適応データ、前記意味エンティティおよびそのクラスに基づいて適応Nグラムクラスカウントデータを生成することは、前記タグ付けされた適応データからいくつかのクラスNグラムを廃棄することを備えることを特徴とする請求項8に記載の方法。
  11. 言語モデルを生成するステップをコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であって、前記ステップは、
    選択されたドメインで使用され、クラスに編成された意味エンティティのセットを受け取るステップと、
    前記意味エンティティのセットのクラスに相関され、一般テキストを示すバックグラウンドデータに基づくバックグラウンドNグラムクラスカウントデータを受け取るステップと、
    前記意味エンティティのセットのクラスに相関され、モデル化される選択されたドメインを示す適応データに基づく適応Nグラムクラスカウントデータを受け取るステップと、
    前記バックグラウンドNグラムクラスカウントデータおよび前記意味エンティティのセットに基づいてバックグラウンドワードカウントデータを算出するステップと、
    前記適応Nグラムクラスカウントデータおよび前記意味エンティティのセットに基づいて適応ワードカウントデータを算出するステップと、
    前記バックグラウンドワードカウントデータおよび前記適応ワードカウントデータに基づいて言語モデルをトレーニングするステップと
    を備えたことを特徴とするコンピュータ読み取り可能な記録媒体。
  12. 前記言語モデルをトレーニングするステップは、Nグラム相対頻度を平滑化するステップを備えたことを特徴とする請求項11に記載のコンピュータ読み取り可能な記録媒体。
  13. 平滑化するステップは、削除補間アルゴリズムを使用するステップを備えたことを特徴とする請求項12に記載のコンピュータ読み取り可能な記録媒体。
JP2005101016A 2004-03-31 2005-03-31 意味管理を用いた言語モデル適応 Expired - Fee Related JP4855701B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/814,906 US7478038B2 (en) 2004-03-31 2004-03-31 Language model adaptation using semantic supervision
US10/814,906 2004-03-31

Publications (2)

Publication Number Publication Date
JP2005292832A JP2005292832A (ja) 2005-10-20
JP4855701B2 true JP4855701B2 (ja) 2012-01-18

Family

ID=34887730

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005101016A Expired - Fee Related JP4855701B2 (ja) 2004-03-31 2005-03-31 意味管理を用いた言語モデル適応

Country Status (5)

Country Link
US (1) US7478038B2 (ja)
EP (1) EP1582998A3 (ja)
JP (1) JP4855701B2 (ja)
KR (1) KR101122954B1 (ja)
CN (1) CN1677487B (ja)

Families Citing this family (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7996219B2 (en) 2005-03-21 2011-08-09 At&T Intellectual Property Ii, L.P. Apparatus and method for model adaptation for spoken language understanding
US8433558B2 (en) 2005-07-25 2013-04-30 At&T Intellectual Property Ii, L.P. Methods and systems for natural language understanding using human knowledge and collected data
US8924212B1 (en) * 2005-08-26 2014-12-30 At&T Intellectual Property Ii, L.P. System and method for robust access and entry to large structured data using voice form-filling
US8825482B2 (en) 2005-09-15 2014-09-02 Sony Computer Entertainment Inc. Audio, video, simulation, and user interface paradigms
US7574349B2 (en) * 2006-03-29 2009-08-11 Xerox Corporation Statistical language-model based system for detection of missing attachments
JPWO2007138875A1 (ja) * 2006-05-31 2009-10-01 日本電気株式会社 音声認識用単語辞書・言語モデル作成システム、方法、プログラムおよび音声認識システム
US20080071533A1 (en) * 2006-09-14 2008-03-20 Intervoice Limited Partnership Automatic generation of statistical language models for interactive voice response applications
US8972268B2 (en) 2008-04-15 2015-03-03 Facebook, Inc. Enhanced speech-to-speech translation system and methods for adding a new word
US9128926B2 (en) 2006-10-26 2015-09-08 Facebook, Inc. Simultaneous translation of open domain lectures and speeches
US8090570B2 (en) 2006-10-26 2012-01-03 Mobile Technologies, Llc Simultaneous translation of open domain lectures and speeches
US9070363B2 (en) * 2007-10-26 2015-06-30 Facebook, Inc. Speech translation with back-channeling cues
US11222185B2 (en) 2006-10-26 2022-01-11 Meta Platforms, Inc. Lexicon development via shared translation database
US7856351B2 (en) * 2007-01-19 2010-12-21 Microsoft Corporation Integrated speech recognition and semantic classification
US8886545B2 (en) * 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US20110054896A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Sending a communications header with voice recording to send metadata for use in speech recognition and formatting in mobile dictation application
US20080312934A1 (en) * 2007-03-07 2008-12-18 Cerra Joseph P Using results of unstructured language model based speech recognition to perform an action on a mobile communications facility
US20110054900A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Hybrid command and control between resident and remote speech recognition facilities in a mobile voice-to-speech application
US20110054898A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Multiple web-based content search user interface in mobile search application
US20110054895A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Utilizing user transmitted text to improve language model in mobile dictation application
US20110054894A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Speech recognition through the collection of contact information in mobile dictation application
US8635243B2 (en) 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
US20090030697A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using contextual information for delivering results generated from a speech recognition facility using an unstructured language model
US8838457B2 (en) 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US20080221902A1 (en) * 2007-03-07 2008-09-11 Cerra Joseph P Mobile browser environment speech processing facility
US20080288252A1 (en) * 2007-03-07 2008-11-20 Cerra Joseph P Speech recognition of speech recorded by a mobile communication facility
US20090030691A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using an unstructured language model associated with an application of a mobile communication facility
US20110054897A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Transmitting signal quality information in mobile dictation application
US20090030688A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Tagging speech recognition results based on an unstructured language model for use in a mobile communication facility application
US10056077B2 (en) * 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
US8949266B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US20090030687A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Adapting an unstructured language model speech recognition system based on usage
US8996379B2 (en) * 2007-03-07 2015-03-31 Vlingo Corporation Speech recognition text entry for software applications
US8949130B2 (en) * 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
US20090030685A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using speech recognition results based on an unstructured language model with a navigation system
US8886540B2 (en) * 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US20110054899A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Command and control utilizing content information in a mobile voice-to-speech application
CN101271450B (zh) * 2007-03-19 2010-09-29 株式会社东芝 裁剪语言模型的方法及装置
US8682660B1 (en) * 2008-05-21 2014-03-25 Resolvity, Inc. Method and system for post-processing speech recognition results
US8380503B2 (en) 2008-06-23 2013-02-19 John Nicholas and Kristin Gross Trust System and method for generating challenge items for CAPTCHAs
US8752141B2 (en) * 2008-06-27 2014-06-10 John Nicholas Methods for presenting and determining the efficacy of progressive pictorial and motion-based CAPTCHAs
TWI383752B (zh) 2008-10-28 2013-02-01 Ind Tech Res Inst 結合語音辨識功能之食品製造裝置
US9646603B2 (en) * 2009-02-27 2017-05-09 Longsand Limited Various apparatus and methods for a speech recognition system
US8229743B2 (en) * 2009-06-23 2012-07-24 Autonomy Corporation Ltd. Speech recognition system
US8380520B2 (en) 2009-07-30 2013-02-19 Industrial Technology Research Institute Food processor with recognition ability of emotion-related information and emotional signals
US8190420B2 (en) * 2009-08-04 2012-05-29 Autonomy Corporation Ltd. Automatic spoken language identification based on phoneme sequence patterns
US8577670B2 (en) * 2010-01-08 2013-11-05 Microsoft Corporation Adaptive construction of a statistical language model
CN102132945B (zh) * 2010-01-21 2014-04-02 财团法人工业技术研究院 结合语意辨识功能的食品制造装置
US8527534B2 (en) 2010-03-18 2013-09-03 Microsoft Corporation Bootstrap and adapt a document search engine
US8838433B2 (en) 2011-02-08 2014-09-16 Microsoft Corporation Selection of domain-adapted translation subcorpora
US8521523B1 (en) * 2012-06-20 2013-08-27 Google Inc. Selecting speech data for speech recognition vocabulary
US9697821B2 (en) * 2013-01-29 2017-07-04 Tencent Technology (Shenzhen) Company Limited Method and system for building a topic specific language model for use in automatic speech recognition
US9892115B2 (en) 2013-06-11 2018-02-13 Facebook, Inc. Translation training with cross-lingual multi-media support
US9400783B2 (en) * 2013-11-26 2016-07-26 Xerox Corporation Procedure for building a max-ARPA table in order to compute optimistic back-offs in a language model
RU2592395C2 (ru) * 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Разрешение семантической неоднозначности при помощи статистического анализа
RU2642343C2 (ru) * 2013-12-19 2018-01-24 Общество с ограниченной ответственностью "Аби Продакшн" Автоматическое построение семантического описания целевого языка
US20150254233A1 (en) * 2014-03-06 2015-09-10 Nice-Systems Ltd Text-based unsupervised learning of language models
US9972311B2 (en) * 2014-05-07 2018-05-15 Microsoft Technology Licensing, Llc Language model optimization for in-domain application
US9679558B2 (en) 2014-05-15 2017-06-13 Microsoft Technology Licensing, Llc Language modeling for conversational understanding domains using semantic web resources
US9437189B2 (en) 2014-05-29 2016-09-06 Google Inc. Generating language models
KR102167719B1 (ko) * 2014-12-08 2020-10-19 삼성전자주식회사 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
US9734826B2 (en) 2015-03-11 2017-08-15 Microsoft Technology Licensing, Llc Token-level interpolation for class-based language models
RU2618374C1 (ru) * 2015-11-05 2017-05-03 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Выявление словосочетаний в текстах на естественном языке
CN109145145A (zh) 2017-06-16 2019-01-04 阿里巴巴集团控股有限公司 一种数据更新方法、客户端及电子设备
WO2022252203A1 (en) * 2021-06-04 2022-12-08 Citrix Systems, Inc. Interpretation risk detection

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5258909A (en) * 1989-08-31 1993-11-02 International Business Machines Corporation Method and apparatus for "wrong word" spelling error detection and correction
US5267345A (en) * 1992-02-10 1993-11-30 International Business Machines Corporation Speech recognition apparatus which predicts word classes from context and words from word classes
EP0602296A1 (en) * 1992-12-17 1994-06-22 International Business Machines Corporation Adaptive method for generating field dependant models for intelligent systems
EP1152398B1 (en) * 1992-12-31 2005-02-16 Apple Computer, Inc. A speech recognition system
US5467425A (en) * 1993-02-26 1995-11-14 International Business Machines Corporation Building scalable N-gram language models using maximum likelihood maximum entropy N-gram models
US5651095A (en) * 1993-10-04 1997-07-22 British Telecommunications Public Limited Company Speech synthesis using word parser with knowledge base having dictionary of morphemes with binding properties and combining rules to identify input word class
US5752052A (en) * 1994-06-24 1998-05-12 Microsoft Corporation Method and system for bootstrapping statistical processing into a rule-based natural language parser
US5937384A (en) 1996-05-01 1999-08-10 Microsoft Corporation Method and system for speech recognition using continuous density hidden Markov models
US6188976B1 (en) * 1998-10-23 2001-02-13 International Business Machines Corporation Apparatus and method for building domain-specific language models
DE59901575D1 (de) * 1998-10-27 2002-07-04 Siemens Ag Verfahren und anordnung zur klassenbildung für ein sprachmodell basierend auf linguistischen klassen
KR100771574B1 (ko) * 1999-07-03 2007-10-30 더 트러스티스 오브 콜롬비아 유니버시티 인 더 시티 오브 뉴욕 복수의 디지털 정보 신호를 인덱싱하는 방법
WO2002029783A1 (en) 2000-09-30 2002-04-11 Intel Corporation Method and system for using rule-based knowledge to build a class-based domain specific statistical language model
US7043422B2 (en) * 2000-10-13 2006-05-09 Microsoft Corporation Method and apparatus for distribution-based language model adaptation
JP3961780B2 (ja) * 2001-05-15 2007-08-22 三菱電機株式会社 言語モデル学習装置およびそれを用いた音声認識装置
US7080004B2 (en) * 2001-12-05 2006-07-18 Microsoft Corporation Grammar authoring system

Also Published As

Publication number Publication date
KR101122954B1 (ko) 2012-06-20
CN1677487A (zh) 2005-10-05
KR20060045069A (ko) 2006-05-16
CN1677487B (zh) 2010-06-16
JP2005292832A (ja) 2005-10-20
EP1582998A2 (en) 2005-10-05
US7478038B2 (en) 2009-01-13
US20050228641A1 (en) 2005-10-13
EP1582998A3 (en) 2008-01-23

Similar Documents

Publication Publication Date Title
JP4855701B2 (ja) 意味管理を用いた言語モデル適応
US7379867B2 (en) Discriminative training of language models for text and speech classification
JP4724377B2 (ja) 自然言語理解(NLU)システムにおける規則ベース文法に関するスロットおよび前終端記号(preterminal)に関する統計モデル
US9934778B2 (en) Conversion of non-back-off language models for efficient speech decoding
JP4974470B2 (ja) Arpa標準フォーマットによる、削除補間nグラム言語モデルの表現
US7624006B2 (en) Conditional maximum likelihood estimation of naïve bayes probability models
US7493251B2 (en) Using source-channel models for word segmentation
Chen Bayesian grammar induction for language modeling
JP5379155B2 (ja) Cjk名前検出
JP4215418B2 (ja) 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム
JP4738753B2 (ja) 文法オーサリングにおけるセグメント化あいまい性(segmentationambiguity)の自動的な解決
JP5770753B2 (ja) Cjk名前検出
JP3836607B2 (ja) 音声認識のための統計的言語モデル作成装置
Zitouni et al. Statistical language modeling based on variable-length sequences
Simunec et al. N-gram Based Croatian Language Network
US7231349B2 (en) Method and apparatus for compressing asymmetric clustering language models
JP7327523B2 (ja) 生成装置、生成方法及び生成プログラム
Jeong et al. Improving speech recognition and understanding using error-corrective reranking
Roukos Natural language understanding
JP2003248496A (ja) 言語モデルの適応化方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080314

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110415

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110711

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110914

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111021

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111027

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141104

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees