JPH06318096A

JPH06318096A - 言語モデリング・システム及び言語モデルを形成する方法

Info

Publication number: JPH06318096A
Application number: JP6006881A
Authority: JP
Inventors: Raymond Lau; レイモンド・ロウ; Ronald Rosenfeld; ロナルド・ローゼンフェルド; Salim Roukos; サリム・ロウコス
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1993-02-26
Filing date: 1994-01-26
Publication date: 1994-11-15
Anticipated expiration: 2012-11-17
Also published as: US5640487A; US5467425A; JP2677758B2

Abstract

(57)【要約】【目的】言語モデリング・システムのメモリ所要量およ
び収斂時間を大幅に低減する。【構成】各ｎグラムは互いに交差しないｎ個のクラスの
１つと関連される。各ｎグラムについて訓練データ中で
各ｎグラムが生起する回数がカウントされる。ｎグラム
はクラスに分離され、補数カウントが決定される。この
カウントおよび補数カウントを用いて各クラスにつき１
つのこの因子が決定される。この因子を用いて、先行２
ワードが生起している条件のもとでワードが生起する確
率、すなわち言語モデル確率が決定される。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明はｎ−グラム言語モデルに
関するものであり、更に具体的に言うと、音声認識装
置、言語翻訳装置、スペル検査装置、光学的文字認識装
置およびｎワード列の推定を生成しこれのスコアを取る
ようなその他の装置に関するものである。

【０００２】

【従来の技術】以前のデータに基づいて結果を予測する
ために言語モデルが多くの分野で用いられてきた。音声
認識に関して言えば連続発声の小規模語彙を認識する製
品は過去１０年にわたって市場に存在している。しかし
ながらより一層重要な目標は制限のない連続発声の音声
を認識する能力のある音声認識システムを開発すること
である。

【０００３】ある種の自動音声認識装置や自動言語翻訳
装置や自動スペル訂正装置は次の式（１）で与えられる
モデルに従って動作することが知られている。

【０００４】

【数１】

【０００５】このモデルにおいてｗは１つまたは一連の
複数のワード、例えば英語のワードを表すワード列推定
である。項ｐ（ｗ）はワード列推定の生起確率である。
変数ｙは観測された信号であり、ｐ（ｙ）は観測信号の
生起確率である。ｐ（ｗ｜ｙ）は観測信号ｙが生起して
いるとの条件のもとでのワード列ｗの生起確率である。
ｐ（ｙ｜ｗ）はワード列ｗが生起しているとの条件のも
とでの観測信号ｙの生起確率である。

【０００６】自動音声認識に関してはｙは音響信号であ
る。これについては、IEEE Transactions on Pattern A
nalysis and Machine Intelligence PAMI５巻、第２
号、１９８３年３月、第１７９乃至１９０頁のL.R.Bahl
著「連続音声認識のための最大尤度手法」を参照された
い。自動言語翻訳に関してはｙはワード列推定の言語と
は異なる別の言語中のワード列である。これについて
は、Computational Linguistics 第１６巻、第２号、１
９９０年６月、第７９乃至８５頁のP.F.Brown著「AStat
istical Approach to Machine Translation」を参照さ
れたい。自動スペル訂正に関しては、ｙは完璧でない可
能性のあるタイピストによって入れられた文字の列であ
る。これについては、Information Processing & Manag
ement第２７巻、第５号、第５１７乃至５２２頁のE.May
s他著の「Context Based Spelling Correction]を参照
されたい。

【０００７】これらの３つの適用例の全てにおいて、信
号ｙが与えられたとき、この信号ｙを生じさせた英語の
ワード列ｗを決定しようとする。一般に多くの異なるワ
ード列が同じ信号ｙを生じさせることがある。観測信号
ｙが与えられたときの最大条件付き確率を有するワード
列ｗを選ぶことによってモデルは間違ったワード列を選
ぶ確率を最小にする。

【０００８】式（１）に示されたように、観測信号ｙが
与えられたときのワード列ｗの条件付き確率は次の３つ
の項の組み合わせである。つまり（ｉ）ワード列ｗの確
率、掛ける（ｉｉ）ワード列ｗが意図される時に生起す
る筈の観測信号ｙの確率、割る（ｉｉｉ）信号ｙを観測
する確率である。

【０００９】自動音声認識の場合、推定のワード列ｗが
与えられたときの音響信号ｙの確率はワード列ｗの音響
モデルを用いて推定される。自動言語翻訳の場合、推定
の英語翻訳ワード列ｗが与えられたときの他の言語中の
ワード列の確率はワード列ｗの翻訳モデルを用いて推定
される。自動スペル訂正の場合、推定のワード列ｗが与
えられたときの、完璧でない可能性のあるタイピストに
より入れられた文字列ｙの確率はワード列ｗのタイプミ
ス・モデルを用いて推定される。

【００１０】これらの形式の適用例において、ワード列
ｗの確率は次の式（２）に従ってモデル化され得る。

【００１１】ｐ（ｗ₁ ^k）＝ｐ（ｗ₁）ｐ（ｗ₂｜ｗ₁）．．ｐ（ｗ_k｜ｗ₁ ^k-1）・・・（２）ここでｗ₁ ^kは一連のワードｗ₁，ｗ₂，．．．．．ｗ_kを
表す。

【００１２】条件付き確率ｐ（ｗ_k｜ｗ₁ ^k-1）におい
て、項ｗ₁ ^k-1は履歴または予測子フィーチュアと呼ば
れ、ワード列の最初の（ｋ−１）ワードを表す。履歴中
の各ワードは予測子ワードである。項ｗ_kは予測フィー
チュアまたはカテゴリ・フィーチュアと呼ばれる。

【００１３】式（２）中の条件付き確率を推定する機構
は言語モデルである。言語モデルは限られた訓練テキス
ト（訓練データ）から条件付き確率を推定する。訓練テ
キストが大である程言語モデル中のパラメータ数が多く
なり、言語モデルからの予測が一層正確かつ厳密にな
る。

【００１４】上述のように言語モデルの目的はワード列
に確率を付与することである。例えばバイグラムｗ₁ｗ₂
が丁度生起したという条件のもとでトリグラムｗ₁ｗ₂ｗ
₃の確率を付与することである。

【００１５】従来成功であった言語モデルは、IEEE Tra
nsactions on Pattern Analysis and Machine Intellig
ence、第ＰＡＭＩー５巻、第２号、１９８３年３月、第
１７９乃至１９０頁の、Bahl他著「A Maximum Likeliho
od Approach to ContinuoussSpeech Recognition」に述
べられたような補間削除に基づくトリグラム・モデルで
ある。

【００１６】このトリグラム・モデルは削除された補間
に基づいている。このモデルは，（ａ）トリグラムｉｄ
ｗ₁ｗ₂ｗ₃およびそのカウントｃ（ｗ₁ｗ₂ｗ₃）、
（ｂ）バイグラムｉｄｗ₂ｗ₃およびそのカウントｃ
（ｗ₂ｗ₃）、（ｃ）ユニグラムｉｄｗ₃およびそのカ
ウントｃ（ｗ₃）、を与える記録を貯蔵することを必要
とする。所与のトリグラムのカウントは訓練データ中の
この所与トリグラムの生起回数である。このモデルには
可成りの無駄が存在する。というのは、特定のバイグラ
ムはトリグラム・カウントの一部として、かつバイグラ
ム・カウントの一部として含まれることがあり、つまり
所与のｗ₂ｗ₃が２度カウントされて所要の貯蔵スペース
を増加させるからである。この無駄は次の式（３）によ
って示されており、これはバイグラム・カウントが対応
するトリグラム・カウントの和であることを示してい
る。

【００１７】

【数２】

【００１８】このトリグラム・モデルにより次のワード
に付与される確率は次の式（４）により示される。

【００１９】

【数３】

【００２０】ここでｖはワード数で表した語彙のサイ
ズ、Ｎはワード数で表した訓練データのサイズ、λ
_i（ｉ＝０、．．３）は平滑化パラメータである。この
平滑化パラメータは訓練データの一部を用いて推測され
る。訓練データのある部分、例えば５パーセントは訓練
データとしては使用されない。その代わりにデータのこ
の部分は保留、すなわち言語モデルを訓練するのには用
いられない。この保留データはその代わりに平滑化パラ
メータを微細調整するのに用いられる。平滑化パラメー
タはこの保留データの尤度を最大にすることによって推
測される。この手順はIEEE Transactions on Pattern A
nalysis and Machine Intelligence、第ＰＡＭＩー５
巻、第２号、１９８３年３月、第１７９乃至１９０頁
の、Bahl他著「A Maximum Likelihood Approach to Con
tinuouss Speech Recognition」にもっと詳しく述べら
れている。

【００２１】

【発明が解決しようとする課題】トリグラムに基づく言
語モデルの貯蔵のための必要条件はトリグラム記録貯蔵
装置によっておおかた決められる。性能を大して低下さ
せることなく言語モデルのメモリ必要条件を減少させる
方法及びシステムが必要とされる。

【００２２】

【課題を解決するための手段】本発明は言語モデルを創
生するためのシステムおよび方法である。本発明のシス
テムおよび方法は離散的ワードの形で訓練データを受け
入れる手段を有する。区切りスペースは非重複クラスに
分割される。カウントは訓練データ中の全てのクラスに
ついて調べられる。説明を簡単にするためにトリグラム
について説明する。第１の閾値より大なるカウントを持
つ全てのトリグラムはそれ自身のクラスに置かれる。残
余の全ての推定バイグラム・クラスについて補数カウン
トが調べられる。各推定バイグラム・クラスは、そのト
リグラム等価形が以前にどのクラスにも関連されていな
いようなバイグラムより成る。第２の閾値より大なる補
数カウントを持つ全ての推定バイグラム・クラスはクラ
スと名付けられる。これらクラスの各々は、同じｗ₂ｗ₃
を各々有する潜在的には多数のトリグラムから成る。残
余の全ての推定ユニグラム・クラスについて補数カウン
トが調べられる。各推定ユニグラム・クラスは、そのト
リグラムまたはバイグラム等価形が以前にどのクラスに
も関連されていないようなユニグラムｗ₃より成る。第
３の閾値より大なる補数カウントを持つ全てのユニグラ
ムはクラスと名付けられる。これらクラスの各々は、同
じｗ₃を各々有する潜在的には多数のトリグラムから成
る。残余の推定ユニグラム・クラスについて補数カウン
トが総計され、この総計がデフォルト制約と名付けられ
る。このデフォルト制約は区切りスペース中のデフォル
ト・クラスである。クラス・カウント・メモリ場所に貯
蔵されるこのクラス・カウントおよび補数カウントを用
いて各クラスについて因子が決定され、この因子が、先
行２ワードが与えられたという条件のもとでワードを予
測する相対強度を表す。本発明の言語モデルシステムお
よび方法は次にこれらの因子を用いて、先行２ワードが
生起しているという条件のもとで所与ワードが生起する
確率を決定する。

【００２３】

【実施例】本発明のシステムおよび方法はスケーラブル
なｎグラム言語モデルの構築を含む。また本発明はメモ
リ貯蔵の必要条件を低減し性能を改善することにより旧
来の言語モデルを改良するものである。

【００２４】本発明のシステムおよび方法は、言語翻訳
機（例えばフランス語から英語）、スペル検査システ
ム、光学的文字認識（ＯＣＲ）、および音声認識を含む
多くの分野で使用されうる。本発明の好適な実施例は音
声認識に関するものであるが、その他の多くの分野でも
本発明の利点を活用できることは言うまでもない。

【００２５】図ｌは本発明の好適な実施例が動作する環
境を示す。本発明の好適な実施例はコンピュータ・プラ
ットフォーム上で動作する。コンピュータ・プラットフ
ォーム１０４は幾つかのハードウエア装置１１２を含ん
であり、これには１台または複数台の中央処理装置（Ｃ
ＰＵ）１１６、ランダム・アクセス・メモリ（ＲＡＭ）
１１４、および入出力（Ｉ／Ｏ）インターフェース１１
８が含まれる。コンピュータ・プラットフォーム１０４
はオペレーティング・システム１０８を含み、またマイ
クロインストラクション・コード１１０を含んでも良
い。音声認識システム１０３はマイクロインストラクシ
ョン・コード１１０の一部であっても良く、あるいはオ
ペレーティング・システムを介して実行されるアプリケ
ーション・プログラムであっても良い。端末装置１２
６、データ貯蔵装置１３０および印刷装置１３４等の種
々の周辺機器がコンピュータ・プラットフォーム１０４
に接続されうる。

【００２６】図２は音声認識システムのより詳細な記述
を示す。ユーザ・インターフェース２０２は音声発声に
対応する電気的アナログ信号を発生するためのマイクロ
フォンを含んでよい。ユーザ・インターフェース２０２
にはアナログーディジタル変換器が含まれても良い。ユ
ーザ・インターフェース２０２は信号処理装置２０４に
結合される。信号処理装置２０４はユーザ・インターフ
ェース２０２から電気的信号出力を受け取り、特徴ベク
トル信号の集合を発生する。信号処理装置２０４はアナ
ログーディジタル変換器およびスペクトル・アナライザ
等の電気的要素を含むことができる。ユーザ・インター
フェース２０２の出力は信号処理装置２０４に結合され
る。

【００２７】各時間間隔、つまり各フレームについて信
号処理装置２０４は音声のｎ個の特性を調べる。ｎ個の
特性の値に基づいてｎ要素の特徴ベクトル信号が定義さ
れる。本発明の好適な実施例において、信号処理装置２
０４は音声信号から一連の特徴ベクトルを抽出する。特
徴ベクトルの１形式は信号の周波数に基づいて抽出され
うる。これは例えば音響パラメータ・ベクトル信号であ
る。信号処理装置２０４による音声信号の測定およびス
ペクトル分析は周波数に依存する特徴ベクトルを生成す
る。スペクトル分析は異なる周波数の複数（ｎ）の帯
域、例えば約２０帯域、において単位時間毎に音声信号
のエネルギを測定するものである。この単位時間、すな
わちフレームは小さなものである。従って、多くの（約
１００）特徴ベクトルの生成が毎秒毎に生じる。

【００２８】信号処理装置２０４の出力はラベル付与装
置２０６に結合される。各特徴ベクトルについてラベル
付与装置２０６はラベル・アルファベットの全てのラベ
ルについてスコアを計算しこれをラベルに関連させる。
ラベル付与装置２０６は各特徴ベクトルに最高値スコア
を持ったラベルを付与する。各ラベルのスコアおよびラ
ベル付与された特徴ベクトルはラベル付与装置２０６か
らの出力である。ラベル付与装置２０６は符合器２０８
に結合される。符合器２０８は探索制御装置２１０、高
速符合器２１２、言語モデラー２１４および細密符合器
２１６より成る。探索制御装置２１０は符合器の他のモ
ジュール、すなわち高速符合器２１２、言語モデラー２
１４および細密符合器２１６の活動を制御する。高速符
合器２１２は探索制御装置２１０に結合される。高速符
合器２１２は特徴ベクトルによって音声が表されるとき
候補ワードのリストを決定する。言語モデラー２１４は
探索制御装置２１０に結合される。言語モデラー２１４
は特定の履歴、すなわちｎ−１個のワードの特定のシー
ケンスに着目する。このワードは音声認識モジュールの
以前の出力であり、候補ワードのリストが高速符合器２
１２により決定され１つまたは複数の先行ワードに基づ
いてこのワード・リストの最も見込みのあるサブセット
が選択される。細密符合器２１６は探索制御装置２１０
に結合される。細密符合器は高速符合器２１２よりも細
密な音響モデルを使用して言語モデラー２１４により決
定されるサブセットのどのワードが音声に基づく最も正
確な確率を有するかを決定する。

【００２９】図３は言語モデラーのより詳細な形を示
す。メモリ装置３０２は１つのデータ貯蔵装置、例えば
フロッピー・ディスクまたはランダム・アクセス・メモ
リ（ＲＡＭ）、またはこれの組み合わせであって良い。
本発明の好適な実施例ではメモリ装置３０２としてコン
ピュータの内部ランダム・アクセス・メモリが使用され
る。本発明はスケーラブルなｎグラム言語モデルを構築
する方法およびシステムに関するものである。本発明の
好適な実施例において、トリグラム、すなわちｎが３に
等しいもの、が言語モデルの基礎であるが、ｎの他の値
も考慮されうる。

【００３０】トリグラム・クラス生成器３０４はメモリ
装置３０２およびバイグラム・クラス生成器３０６に結
合される。バイグラム・クラス生成器３０６はメモリ装
置３０２およびユニグラム・クラス生成器３０８に結合
される。ユニグラム・クラス生成器３０８はメモリ装置
３０２およびデフォールト制約生成器３１０に結合され
る。デフォールト制約生成器３１０はメモリ装置３０２
および因子決定器３１２に結合される。因子決定器３１
２はメモリ装置３０２および確率決定器３１４に結合さ
れる。確率決定器はメモリ装置３０２に結合される。

【００３１】言語モデラー２１４の目的は、確率を用い
て、音響情報に直接基づくことなく、直近先行ワードの
数に基づいて現ワードの可能な選択の集合を決定するこ
とにある。このことは次の式（５）に示される。

【００３２】ｐ（ｗ₃｜ｗ₂，ｗ₁）（５）ここで、ｗ₃は現ワード、ｗ₂は現ワードに直ちに先行す
るワード、ｗ₁はｗ₂に直ちに先行するワードである。

【００３３】ｐ（ｗ₃｜ｗ₂，ｗ₁）は２つの先行ワード
がｗ₁ｗ₂であるときにｗ₃が生起する確率を表す。

【００３４】高速符合器２１２は候補ワードのリストを
決定する。これらの候補ワードの各々につき言語モデラ
ー２１４は先行するｎ−１ワード、つまり先行２ワード
が与えられたときに所与のワードが生起する確率を決定
する（この好適な実施例ではトリグラムが用いられるの
で）。本発明は前述の補間削除に基づくトリグラム・モ
デルを含む従来の言語モデラーに比べて性能の実質的な
増加をもたらす。トリグラム・モデルの場合、３つの閾
値が選ばれる。本発明は各閾値に関して自由度を与え
る。これらの閾値は言語モデルによる使用のために利用
できるメモリの容量の関数である。利用可能なメモリ容
量が大である程閾値は低くて良い。この閾値は最小値、
例えば２と５の間の最小値よりも常に大であることが必
要である。この最小値はこの後に述べるように、言語モ
デルの適正な性能を維持するために必要とされる。

【００３５】言語モデラーを訓練するに当たって、訓練
データが入力される。訓練データ中の３ワードの各シー
ケンスはトリグラムと呼ばれる。カウンタが訓練データ
中の各トリグラムの生起をその都度記録する。所与トリ
グラムのカウントは訓練データ中のこの所与のトリグラ
ムの生起数である。この後の説明により、本発明により
一層正確で効率的な言語モデルが提供されることが判る
であろう。このため保留データは必要でない。

【００３６】図４ないし図７は本発明の方法を詳細に示
す。トリグラム・クラス生成器３０４において所与のト
リグラムについてのカウントがステップ４０２で前述の
ようにして決定される。このカウントはメモリ装置３０
２に貯蔵される。ステップ４０４でトリグラム・クラス
生成器３０４は各トリグラム毎にそのカウントが第１の
閾値よりも大であるかどうかを調べる。カウントが第１
の閾値よりも大であるならば、トリグラム・クラス生成
器３０４はステップ４０６でこの所与のトリグラムにト
リグラム集合Ｓ₁₂₃を関連づける。集合Ｓ₁₂₃に関連づけ
られたトリグラムは全て１つのクラスに所属する。この
クラスは、信頼できるカウントを持つものとみなされる
トリグラムを表す。カウントに信頼性があるのは前述の
ようにそのカウントが最小閾値を超過しているからであ
る。システムのメモリ必要条件を低減するためにはこの
閾値は最小値を超過するものであっても良い。本発明に
よりこれがどのようにして行われるのかについての例が
以下に述べられる。閾値のこのような増加は集合Ｓ₁₂₃
から幾つかの信頼性あるトリグラムを除外する結果をも
たらすが、このようなことが生じてもシステムの性能は
それほど影響されない。これはこのように除外されたト
リグラムは多分残余の集合Ｓ₂₃、Ｓ₃（後述）に適正に
モデル化されることになるからである。ステップ４０２
−４０６はステップ４０８ですべてのトリグラムについ
て繰り返される。

【００３７】集合Ｓ₁₂₃を完成した後、全ての推定バイ
グラム・クラスに対してバイグラム・クラス生成器３０
６により補数カウントが決定される。ステップ４０９で
全ての非分類トリグラムが推定バイグラム・クラスに関
連づけられる。ステップ４０９で全ての非分類トリグラ
ム、つまりこれまでどのクラスにも関連づけられなかっ
たトリグラム、が一緒に纏められて推定バイグラム・ク
ラスに入れられる。各推定バイグラム・クラスは最後の
２ワード、つまりｗ₂ｗ₃、が同じである全ての非分類ト
リグラムより成る。所与の推定バイグラム・クラスに対
する補数カウントはステップ４１０で所与の推定バイグ
ラム・クラスに関連づけられた全てのトリグラムのカウ
ントを合計することによって決定される。言い換える
と、推定バイグラム・クラスの補数カウントは、同じバ
イグラムｗ₂ｗ₃を持つ集合Ｓ₁₂₃中のクラスに関連づけ
られないすべてのトリグラムのカウントである。このこ
とは次の式（６）に示される。

【００３８】

【数４】

【００３９】今後トリグラムｗｗ₂ｗ₃（ここでｗは、ｗ
ｗ₂ｗ₃が集合Ｓ₁₂₃のどのクラスにも関連づけられない
ような任意のワードである）はバイグラムと呼ばれる。

【００４０】ステップ４１２で推定バイグラム・クラス
の各々についてその補数カウントが第２の閾値よりも大
であるかどうかの決定が行われる。補数カウントが第２
の閾値よりも大であるならば、この補数カウントおよび
クラス・メンバをメモリ場所に保管することにより所与
の推定バイグラム・クラスがクラスの形に変換される。
ステップ４１４でこの新しいクラスはまたバイグラム集
合Ｓ₂₃とも関連づけられる。このバイグラム集合は多く
のクラスを含むことができ、各クラスは各々同じｗ₂ｗ₃
を有する多分多数のトリグラムから成る。ステップ４１
０−４１４はステップ４１６ですべての推定バイグラム
・クラスに対して繰り返される。

【００４１】集合Ｓ₂₃を完成した後ユニグラム・クラス
生成器３０８ですべての推定ユニグラム・クラスについ
て補数カウントが決定される。ステップ４１７ですべて
の非分類トリグラムが推定ユニグラム・クラスに関連づ
けられる。推定ユニグラム・クラスとはすべての非分類
トリグラムに基づいて存在するすべての潜在的クラスの
ことである。各推定ユニグラム・クラスは最後のワード
ｗ₃が同一であるすべての非分類トリグラムを含んでい
る。ステップ４１８でこのクラスに関連づけられたすべ
てのトリグラムを合計することにより所与の推定ユニグ
ラム・クラスに対する補数カウントが決定される。所与
の推定ユニグラム・クラスの補数カウントを決定する別
の方法は、まだどのクラスにも変換されていない同一最
終ワードｗ₃を持つすべての推定バイグラム・クラスを
合計することである。この方法は式（７）に示される。

【００４２】

【数５】

【００４３】今後トリグラムｗｗｗ₃（ここでｗはｗｗ
ｗ₃が集合Ｓ₁₂₃またはＳ₂₃中のどのクラスにも関連づけ
られないような任意のワードである）はユニグラムと呼
ばれる。

【００４４】各推定ユニグラム・クラスについてその補
数カウントが第３の閾値よりも大であるかどうかの決定
がステップ４２０で行われる。補数カウントが第３の閾
値よりも大であるならば、補数カウントおよびクラス・
メンバをメモリ場所に保管することにより推定ユニグラ
ム・クラスがクラスに変換される。この新しいクラスは
ステップ４２２でユニグラム集合Ｓ₃にも関連づけられ
る。ユニグラム集合は多数のクラスを含むことがあり、
このようなクラスは各々同じｗ₃を有する潜在的に多数
のトリグラムから成る。ステップ４１８−４２２はステ
ップ４２４ですべての推定バイグラム・クラスに対して
繰り返される。

【００４５】本発明のシステムおよび方法は補間削除に
基づくトリグラム・モデルと異なり各トリグラム、バイ
グラムおよびユニグラムに唯一のクラスを関連づける。
従って各トリグラムは１回だけしかカウントされない。
これは本発明が言語モデルのメモリ必要条件を低減する
１つの手法である。

【００４６】この処理の後でもまだどのクラスにも関連
づけられないトリグラムが幾つか残ることがある。この
ような残りのトリグラムはデフォールト・クラスに所属
する。集合Ｓ₃にないすべての推定ユニグラム・クラス
に対する補数カウントは式（８）に示すようにステップ
４２６においてデフォールト制約生成器３１０で合計さ
れる。合計カウントはメモリ装置３０２に貯蔵され、こ
れはデフォールト制約と呼ばれる。

【００４７】

【数６】

【００４８】デフォールト・カウントなる用語は、クラ
スのカウント、つまりトリグラム集合中のクラスのカウ
ント、バイグラム集合中のクラスの補数カウント、ユニ
グラム集合中のクラスの補数カウントおよびデフォール
ト制約のことを指す。クラスのカウントは、モデル、例
えば後述の一般化された反復スケーリング・モデルまた
は勾配降下モデルが用いる制約である。すべてのトリグ
ラムは唯一のクラスに所属する。各クラスは因子ｆ
_w1w2w3を関連づけられている。この因子の値は特定のク
ラス内のすべてのトリグラムについて同じである。

【００４９】トリグラムの各クラスにはある因子が関連
づけられる。これらの因子を決定するのに用いられる方
法を以下に説明する。ステップ４２８で一旦因子が決定
されると、ステップ４３０で確率決定器３１４が、トリ
グラムｗ₁ｗ₂ｗ₃に関連づけられた因子を、同一のｗ₁ｗ
₂を持ったトリグラムに関連づけられた因子の合計で割
ることにより次のワードの確率を決定する。このことは
式（９）に示される。

【００５０】

【数７】

【００５１】これらの因子は、確率モデルが、訓練デー
タ中に観測されるクラス・カウントに符合する期待値を
クラスのカウントについて発生し、かつ特定の区切りが
あたえられたとして訓練データに最大確率を付与するよ
うに、選ばれなければならない。訓練データを観測する
可能性はこの因子の凸関数であるから、因子を決定する
反復的方法として、各ステップで可能性を増大させるも
のであるならば、如何なる方法でも、例えばヒル・クラ
イミングのような方法でも、最適な因子に収斂すること
が保証される。因子を反復的に調整するための公式を更
新させるのに勾配降下法を用いることができる。このア
ルゴリズムの詳細な検討のためにはCambridge Universi
ty Press発行、W.T.Vetterling他著の「Numerical Reci
pes, Example Book」を参照されたい。因子を決定する
ためのもう一つの方法は一般化された反復スケーリング
（ＧＩＳ、Generalized Iterative Scaling）法であ
る。本発明の特徴的事項は誘導されたカウント、例えば
制約カウントまたはクラス・カウント、がステップ４２
８に示されたように因子決定器３１２において因子を決
定するための反復的方法の中に取り込まれることであ
る。ＧＩＳアルゴリズムの詳細な検討のためには、The
Annals of Mathematical Statistics 第４３巻、第５
号、第１４７０−１４８０頁（１９７２年）のJ.N.Darr
och他著「Generalized Iterative Scaling for Log-Lin
ear Models」を参照されたい。

【００５２】式（１０）はステップ４２８の第１反復の
後での因子の値を与える。

【００５３】

【数８】

【００５４】ここでＨは全トリグラムの履歴の集合であ
る。例えばＳ₁₂₃中のトリグラムに対してＨはすべての
ｗ₁ｗ₂の集合であり、これはｗ₃を伴った場合クラスｗ₁
ｗ₂ｗ₃に所属することになる。ｎ（ｗ₁ｗ₂ｗ₃）はクラ
スｗ₁ｗ₂ｗ₃中のすべてのトリグラムのカウントに等し
い。ｎ（ｗ₁ｗ₂）はクラスｗ₁ｗ₂の履歴を有するすべて
のトリグラムのカウントに等しい。

【００５５】式（１１）は式（１０）の１例を示す。

【００５６】

【数９】

【００５７】式（１１）は後で述べる表７に基づくもの
である。訓練データは多数の潜在的区切りの中の任意の
１つが存在するように操作される。区切りは閾値の特定
の集合を用いて決定される。異なる閾値が選ばれると異
なる区切りが決定される。これらの閾値により訓練デー
タのトリグラムがクラスに関連づけられることが可能と
なる。表７において区切りはトリグラム・クラスに対す
る閾値３、バイリグラム・クラスに対する閾値３および
ユニグラム・クラスに対する閾値２を用いて決定され
る。各クラスに関連づけられたトリグラムが表８に示さ
れている。以下に表７及び表８についてより詳細な分析
をする。式（１１）において分子はユニグラム集合のク
ラスに関連づけられたすべてのトリグラムのカウントに
等しい。分母は、分子の任意のトリグラム、すなわち
（２、２、ｗ），（２，３，ｗ）と同じｗ₁ｗ₂を有する
すべてのトリグラムのカウントの合計に等しい。そのカ
ウントが分母において考察されたトリグラムはユニグラ
ム集合に関連づけられる必要はない。式（１１）はこの
特定の区切りのクラス（ｗ、ｗ、ｗ₃）に関連づけられ
た因子の値の近似値を与える。

【００５８】すべての制約カウントが決定された後、集
合Ｓ₁₂₃，Ｓ₂₃，Ｓ₃およびデフォールト制約は因子決定
器３１２において１からＫの連続番号を与えられる。従
ってｆ_iはｉ番目のトリグラムがそのメンバとなってい
るクラスに関連づけられた因子を指す。

【００５９】一般化された反復スケーリング・アルゴリ
ズムがステップ４２８で因子を決定するために用いられ
るときには、ステップ４３０が最後のステップとなる。
即ち１反復で収斂する。他のアルゴリズム、例えば勾配
降下アルゴリズムが使用されるならば、ステップ４３４
に示されるように収斂が生じるまでステップ４３０−４
３２が繰り返される。各反復毎に因子ｆ_iは、訓練デー
タ中に制約が生じる確率ｄ（ｉ）に因子ｆ_iを乗じるこ
とによりステップ４３２で因子決定器３１２において更
新される。この積は次に式（９）により決められるモデ
ルによる予測値ｍ（ｉ）で除算される。この更新は式
（１２）に示される。

【００６０】

【数１０】

【００６１】最初の反復に対してｆ_i ^oldは１に等しい。
変数ｄ（ｉ）は訓練データ中にトリグラムが生じる確率
を表す。訓練データのサイズはＮワードである。トリグ
ラムが集合Ｓ₁₂₃中のクラスに関連づけられているなら
ばｄ（ｉ）は式（１３）を用いて決定される。トリグラ
ムが集合Ｓ₂₃中のクラスに関連づけられているならばｄ
（ｉ）は式（１４）を用いて決定される。トリグラムが
集合Ｓ₃中のクラスに関連づけられているならばｄ
（ｉ）は式（１５）を用いて決定される。トリグラムが
どの集合のクラスにも関連づけられておらず、従ってそ
の補数カウントがデフォールト制約に含まれているなら
ばｄ（ｉ）は式（１６）を用いて決定される。

【００６２】

【数１１】

【００６３】

【数１２】

【００６４】モデルにより予測されるｉ番目の制約に対
する確率は式（９）により決定される。ここで古い因
子、すなわち式（１２）を用いて更新される前の因子の
値、が用いられる。

【００６５】区切りスペースの非重複クラスについての
本発明の定義は、一般に用いられるシステムに比べて相
当に早い収斂速度をもたらす。例えば、補間削除に基づ
くトリグラム・モデルが典型的には４０乃至５０回の反
復を必要とするのに比べて本発明では２、３回の反復の
後に収斂する。一般化された反復スケーリングアルゴリ
ズムを用いて因子を決定するときには１反復で収斂す
る。

【００６６】以下の表１ないし９は本発明の１例を示す表１において９つのトリグラムｗ₁ｗ₂ｗ₃およびそれら
のカウント（ｃ）は訓練データの所与の集合に基づくも
のとして示されている。図を見やすくするために各ワー
ドは数字で示されている。ステップ４０２の結果はカウ
ント（ｃ）の欄に示されている。各トリグラムについて
のカウントが第１の閾値、この例では２となる、よりも
大であるかどうかについての決定がステップ４０４でト
リグラム集合生成器３０４でなされる。このテストを満
足するトリグラムはステップ４０６で集合Ｓ₁₂₃中のク
ラスに置かれる。これらのトリグラムは、カウントが５
の（２、２、１）およびカウントが３の（２、３、２）
である。このほかに閾値よりも大なるカウントを持つト
リグラムはない。

【００６７】表２は集合Ｓ₁₂₃に含まれないトリグラムのグループを
示す。これらのバイグラムからバイグラム集合生成器３
０６はステップ４１０で各推定バイグラム・クラス毎に
補数カウントを計算する。ステップ４１０の結果を表３
に示す。

【００６８】ステップ４１２において各推定バイグラム・クラスの補
数カウントが第２の閾値（この場合２となる）と比較さ
れる。推定バイグラム・クラスの補数カウントが第２の
閾値よりも大であるならば推定クラスが１つのクラスに
変換され、ステップ４１４で集合Ｓ₁₂₃に関連づけられ
る。集合Ｓ₂₃は、カウントが３のクラス（ｗ，３，４）
およびカウントがこれまた３のクラス（ｗ，２，１）よ
り成る。本発明では各トリグラムは１回しかカウントさ
れないのでトリグラム（ｗ，２，１）に対するカウント
はトリグラム（２、２、１）からのカウントを含まない
ことに注意されたい。閾値よりも大なる補数カウントを
持つその他のバイグラムはない。

【００６９】表４は集合Ｓ₂₃に関連づけられない推定バ
イグラム・クラスを示す表５は集合Ｓ₁₂₃に関連づけられたクラスにも、また集
合Ｓ₂₃に関連づけられたクラスにも含まれないトリグラ
ムのグループを示す。トリグラムのこの分類されないグ
ループはユニグラムと定義されたことを想起されたい。

【００７０】これらのユニグラムからユニグラム集合生成器３０８が
ステップ４１８で各推定ユニグラム・クラスについて補
数カウントを計算する。ステップ４１８の結果は表６に
示される。

【００７１】ステップ４２０において各推定ユニグラム・クラスの補
数カウントが、この例では３である第３の閾値と比較さ
れる。推定ユニグラム・クラスの補数カウントが第３の
閾値よりも大であるならば推定ユニグラム・クラスはス
テップ４２２で１つにクラスに変換され、集合Ｓ₃に関
連づけられる。推定ユニグラム・クラス（ｗ，ｗ，４）
および（ｗ，ｗ，８）は共に補数カウント２を有する。
トリグラム（２、３、４）および（７、３、４）はＳ
₁₂₃のクラスに既に関連づけられているので、これらは
本発明では他の集合のクラスに関連づけられる資格がな
い事に留意されたい。このことは各トリグラムが１回し
かカウントされないことを保証する。ステップ４２０の
テストを満足するトリグラムはこの他にはない。従っ
て、集合Ｓ₃は空である。すなわち集合Ｓ₃中にクラスは
ない。

【００７２】デフォールト制約補数カウントＣＣ₀はス
テップ４２６でデフォールト制約生成器３１０において
決定される。集合Ｓ₃に関連づけられないすべての推定
ユニグラム・クラスの補数カウントが合計される。この
例では２つの推定ユニグラム・クラスが集合Ｓ₃に関連
づけられていない。これらの推定ユニグラム・クラスの
各々は補数カウント２を有する。従って補数カウントＣ
Ｃ₀は４、即ち２＋２に等しい。

【００７３】従来の方法に対する本発明の改良点は本発
明がトリグラム記録の数を大いに減少させる点にある。
この減少は、本発明が従来のモデルと同じ性能を与える
のにより少ないトリグラムしか必要としないより効率的
なモデルを与えるからである。

【００７４】この結果言語モデルに必要とされるメモリ
スペースが低減される。この低減の１つの理由は各トリ
グラムが１つのクラスにしか関連づけられないためであ
る。このように冗長性がないため、より効率的なモデル
がもたらされ、言語モデルのために必要なトリグラム記
録の数が減少される結果となる。

【００７５】言語モデリング・システムにより使用する
ために利用可能なメモリの割り当ては変動する。本発明
は適正な性能を得るために必要とするメモリ・スペース
に関し柔軟性があると言う点において従来のシステムよ
りも改良されている。本発明において、メモリ装置３０
２におけるｎグラムの貯蔵はｎグラムがどのクラスに関
連づけられるのかに応じて変わる。例えばトリグラムを
効率的に貯蔵するためには以下の構成が用いられ得る。

【００７６】（ａ）Ｓ₁₂₃、すなわちｗ₁ｗ₂ｗ₃、に関連
づけられるクラスに対して、各ｗ₁ｗ₂の組み合わせは１
回だけ貯蔵され、この情報は同じｗ₁ｗ₂を有するすべて
のトリグラムに対して共用される。各クラスについてｗ
₃または識別子がクラスの因子ｆ_w1w2w3と共に保管され
る必要がある。従ってＳ₁₂₃に関連づけられる各クラス
について２つの情報が貯蔵されなければならない。

【００７７】（ｂ）Ｓ₂₃、つまりｗ₂ｗ₃に関連づけられ
るクラスについては、各ｗ₂は１回だけ貯蔵され、この
情報は同じｗ₂を有するすべてのクラスに対して共用さ
れる。各クラスについてｗ₃または識別子がクラスの因
子ｆ_w2w3と共に保管される必要がある。従ってＳ₂₃に関
連づけられる各クラスについて２つの情報が貯蔵されな
ければならない。

【００７８】（ｃ）Ｓ₃に関連づけられるクラスについ
ては、ｗ₃またはその識別子がクラスの因子ｆ_w3と共に
保管される必要がある。従ってＳ₃に関連づけられる各
クラスについて２つの情報が貯蔵されなければならな
い。

【００７９】（ｄ）デフォールト制約についてはその値
のみが貯蔵されるだけでよい。

【００８０】トリグラム貯蔵の正確な構成は本発明のメ
モリ必要条件の柔軟性程重要でない。トリグラム記録フ
ァイルのサイズは集合Ｓ₁₂₃のクラス記録によって支配
される。これはこの集合にはその他の集合よりも相当に
多いクラスが通常は存在するからである。本発明は閾値
を大きくすることによって集合Ｓ₁₂₃中のクラスに関連
づけられたトリグラムの数を大いに減少させる。また本
発明は区切りスペース中の非重複クラスを利用すること
により、従来の方法に比べて貯蔵スペースを大いに減少
させる。説明を簡単にするため、集合Ｓ₁₂₃、集合
Ｓ₂₃、および集合Ｓ₃中の各クラスにつき２つの情報が
貯蔵されなければならず、またデフォールト制約につい
て１つの情報が貯蔵されなければならないものと仮定す
る。

【００８１】表７の例を用いてもし第１及び第２の閾値が３に等しく
設定され、第３の閾値が２に等しく設定されるならば、
その結果表８の集合が生じる。

【００８２】表８Ｓ₁₂₃ Ｓ₂₃ Ｓ₃ 補数カウントＣＣ₀ （１、１、１）なし（ｗ，ｗ，３）＝０（１、１、２）｛（２、２、３）、（３、３、３）｝（２、１、２）（２、１、３）（２、２、１）（３、１、１）メモリ必要条件の点から言えば表８に示された結果は、
Ｓ₁₂₃に６クラス、Ｓ₃に１クラス、即ち（３、３、２）
に等しい閾値であるならば１５個の情報を必要とする。
即ち、（６クラスｘ２）＋（０クラスｘ２）＋（１クラスｘ
２）＋１＝１５。

【００８３】補間されたトリグラム言語モデルを用いる
と、上述のように表７の例は表９に示した貯蔵スペース
を必要とする。

【００８４】表９Ｓ₁₂₃ Ｓ₂₃ Ｓ₃ 補数カウントＣＣ₀ （１、１、１）（ｗ，１，１）（ｗ，ｗ，１）０（１、１、２）（ｗ，１，２）（ｗ，ｗ，２）（２、１、２）（ｗ，１，３）（ｗ，ｗ，３）（２、１、３）（ｗ，２，３）（２、２、３）（ｗ，３，３）（３、１、１）（ｗ，２，１）（３、３、３）（２、２、１）すべてのトリグラム、すべてのバイグラム、およびすべ
てのユニグラムが貯蔵される。これは３５の情報を必要
とする。すなわち、（８トリグラムｘ２）＋（６バイグラムｘ２）＋（３ユ
ニグラムｘ２）＋１＝３５この例を用いて本発明のシステム及び方法は約５７パー
セントのメモリを節約する。

【００８５】４３５２４ワードの語彙および５００００
００ワードの訓練母体による実験において、第１閾値３
を用いて１９５２３５のトリグラム制約、第２閾値３を
用いて１６０３４０のバイグラム制約、第３閾値２を用
いて３５６１５のユニグラム制約を得た。その結果得ら
れたモデルは約４５１０００ワードの独立したテスト母
体に１６９の混同を有した。概略的に述べると、言語モ
デルの混同とは、任意所与の２ワードの後に確率的に生
起しうる選択肢の平均数を表すものである。このモデル
は約３９１０００ｘ２個のデータ、つまり７８２０００
個のデータを貯蔵することを必要とする。トリグラム、
バイグラム、およびユニグラムにつき同じ閾値を用いた
とき、従って同じ貯蔵必要条件の場合、但し補間された
トリグラム言語モデルによる場合、得られる混同は２８
２であった。本システムの混同に合わせるために、上述
の補間された言語モデルは本発明のメモリ条件の約９倍
の大きさのメモリ条件を有している。この例で０の閾値
を用いると、補完されたトリグラム・モデルは１７０の
混同を有し、これは本発明の混同と大略合致する。この
閾値の場合、補完されたトリグラム・モデルは約２５１
７０００のトリグラム、９３９０００のバイグラム、お
よび４８０００のユニグラムを貯蔵する必要がある。こ
れは合計３５０４０００ｘ２、つまり７００８０００個
のデータに相当する。

【００８６】

【発明の効果】従来の方法に対する本発明の改良点は本
発明がトリグラム記録の数を大いに減少させる点にあ
る。この減少は、本発明が従来のモデルと同じ性能を与
えるのにより少ないトリグラムしか必要としないより効
率的なモデルを与えるからである。

【００８７】この結果言語モデルに必要とされるメモリ
スペースが低減される。この低減の１つの理由は各トリ
グラムが１つのクラスにしか関連づけられないためであ
る。このように冗長性がないため、より効率的なモデル
がもたらされ、言語モデルのために必要なトリグラム記
録の数が減少される結果となる。

【００８８】言語モデリング・システムにより使用する
ために利用可能なメモリの割り当ては変動する。本発明
は適正な性能を得るために必要とするメモリ・スペース
に関し柔軟性があると言う点において従来のシステムよ
りも改良されている。

【図面の簡単な説明】

【図１】本発明の音声認識システムを組み込んだコンピ
ュータ・システムを示す。

【図２】本発明の音声認識システムを構成するモヂュー
ルをより詳細に示す。

【図３】言語モデルを構成するモヂュールをより詳細に
示す。

【図４】図５ないし図７と連結して本発明の言語モデル
作成の方法を示す流れ図。

【図５】図４、図６および図７と連結して本発明の言語
モデル作成の方法を示す流れ図。

【図６】図４、図５および図７と連結して本発明の言語
モデル作成の方法を示す流れ図。

【図７】図４ないし図６と連結して本発明の言語モデル
作成の方法を示す流れ図。

───────────────────────────────────────────────────── フロントページの続き (72)発明者ロナルド・ローゼンフェルドアメリカ合衆国ペンシルバニア州、ピッツバーグ、マーベリー・ロード 2326番地 (72)発明者サリム・ロウコスアメリカ合衆国ニューヨーク州、スカースデール、ジュニパー・ロード 160番地

Claims

【特許請求の範囲】

【請求項１】一連のｎグラムの形に分割された訓練テキ
ストの形でデータを受け取るコンピュータ利用言語モデ
リング・システムであって、各ｎグラムが一連のｎワー
ドから成り、各ｎグラムが自身に関連するカウントを有
し、その履歴がその最初のｎ−１ワードであるものにお
いて、先行するｎ−１ワードが与えられたものとして予測ワー
ドの条件付き確率を決定するための言語モデリング手段
を具備し、該言語モデリング手段が、上記データを貯蔵するためのメモリ手段と、各ｎグラム内の各ワードを調べ、所与ｎグラムの１また
は複数ワードの識別に基づいて各ｎグラムを１または複
数のクラスに分類して各ｎグラムを１または複数のクラ
スに正確に関連づけるための上記メモリ手段に結合され
た分離手段であって、各クラスは自身に１または複数の
同じｎグラムを関連させており、該同じｎグラムは同じ
予測ワードおよびｘ個の先行ワードを有し、各クラスは
ｎグラムのクラスを決定するときに用いられるｘの値に
基づいて１または複数の集合により識別される如き分離
手段と、上記クラスの各々について因子を決定するために上記分
離手段の出力および上記メモリ手段に結合された因子手
段であって、該因子は先行ｎ−１ワードが与えられたと
きに上記予測ワードを予測する相対的強度を表し、各因
子の値は、所与クラスに関連する各ｎグラムのカウント
の合計の、上記予測ワードが後続するならば上記所与ク
ラスに属する筈のすべての（ｎ−１）グラムのカウント
の合計に対する比にほぼ等しいものであるところの因子
手段と、先行する（ｎ−１）ワードの特定シーケンスが生起した
ときの上記予測ワードが生起する条件付き確率を上記因
子を用いて決定するために上記ユーザ・インターフェー
スの出力に結合された条件付き確率手段であって、所与
のｎグラムが関連されているクラスに関連する因子を第
１因子とし該所与のｎグラムが上記予測ワードおよび該
予測ワードの履歴に等しいものとして、該条件付き確率
は、上記第１因子の、１または複数の因子の合計に対す
る比にほぼ等しく、該１または複数の因子は語彙中の任
意のワードが後続する（ｎ−１）ワードの上記特定シー
ケンスを用いて得られるｎグラムのすべてのクラスに関
連されるものである条件付き確率手段と、より成る言語モデリング・システム。
【請求項２】発生音の形で入力データを受け入れるため
のユーザ・インターフェースと、上記発生音に基づいて一連の特徴ベクトルを生成するた
め上記ユーザ・インターフェースの出力に結合された信
号処理装置と、上記一連の特徴ベクトルにラベル・アルファベットから
のラベルを付与するため上記信号処理装置に結合された
ラベル付与手段と、所与の時点までに発声された上記発声音を表す推定ワー
ド列の１または複数のシーケンスを生成しかつ更新する
ために上記ラベル付与手段の出力に結合された符合手段
であって、（ａ）可能性ある推定ワード列の上記シーケンスを貯蔵
するための第２メモリ手段と、（ｂ）音響符合手段および上記言語モデリング手段の動
作シーケンスを制御し、該音響符合手段から得られるワ
ード選択肢のなかから選んだ現ワードを表す信号の形で
上記言語モデリング手段への入力を制御するため、上記
音響符合手段、上記言語モデリング手段および上記第２
メモリ手段に結合された検索制御手段を有する符合手段
と、を更に具備し、上記第２メモリ手段から先行する（ｎ−１）ワードのシ
ーケンスが得られ、該先行する（ｎ−１）ワードは推定
ワード列の１シーケンス中の最後の（ｎ−１）ワードで
あり、上記推定ワード列のシーケンスは上記符合手段の
以前の出力から得られたものであり、上記音響符合手段は、上記ラベル付与された特徴ベクト
ルを表す可能性が高いワード選択肢の数を減少させるよ
うに音響パラメータ・ベクトルを上記ラベル付与された
特徴ベクトル信号と比較するため上記検索制御手段に結
合され、上記ワード選択肢は上記検索制御手段に与えら
れ、該検索制御手段は上記ワード選択肢の各々を上記言
語モデリング手段への入力として与え、上記言語モデリ
ング手段は上記ワード選択肢の各々についてスコアを決
定し、該スコアは推定ワード列の各シーケンスが生起し
ているものとしたときの上記ワード選択肢の各々につい
ての条件付き確率の推定値であり、推定ワード列の上記
シーケンスの各々は上記検索制御手段から上記言語モデ
リング手段への入力である、ことを特徴とする請求項（１）の言語モデリング・シス
テム。
【請求項３】上記分離手段は、第１閾値を越えるカウントを有する各ｎグラムをそれ自
身のクラスに分類するための第１分類手段と、該第１分類手段の出力および上記メモリ手段に結合され
た第１ワード列カウンタ／分類器手段であって、（ａ）以前に分類されなかったすべてのｎグラムを用い
て１または複数の推定クラスの各々について第１補数カ
ウントを決定する第１補数カウント手段であって、上記
推定クラスは以前に分類されなかったすべてのｎグラム
の最後の（ｎ−１）ワードに基づいて存在し得るクラス
である如き補数カウント手段と、（ｂ）各ｎグラムの対応する推定クラスの補数カウント
が第２の閾値より大であるとき各ｎグラムを１または複
数の第１追加クラスに分類するため上記第１補数カウン
ト手段に結合された第２分類手段であって、上記第１追
加クラスの各々は以前に分類されなかったｎグラムの各
々を自身に関連づけられ、特定のクラス中の各ｎグラム
は同一の最後の（ｎ−１）ワードを有する如き分類手段
と、を有するカウンタ／分類器手段と、上記クラスの何れにも関連されないすべての上記ｎグラ
ムのカウントの合計を表す値を決定するため上記メモリ
手段に結合されたデフォールト制約手段と、を更に具備することを特徴とする請求項（１）の言語モ
デリング・システム。
【請求項４】上記第１ワード列カウンタ／分類器手段と
上記デフォールト制約手段との間でこれらに対して縦続
接続された１または複数の追加ワード列カウンタ／分類
器手段であって、各追加ワード列カウンタ／分類器手段
が、これまで分類されていない上記ｎグラムの全てを用いて
１または複数の追加推定クラスの各々について補数カウ
ントを決定するための第２補数カウント手段と、各ｎグラムに対応する推定クラスの補数カウントが追加
の閾値よりも大である時各ｎグラムを１または複数の第
２の追加クラスに分類するため、上記第２補数カウント
手段に結合された第３分類手段であって、上記１または
複数の第２の追加クラスの各々は以前に分類されなかっ
た１または複数のｎグラムを自身に関連づけさせ、特定
のクラスの各ｎグラムは同一の最後のｘワードを有し、
ｘは上記第１の追加ワード列カウンタ／分類器手段に対
して（ｎ−２）でありその後各追加のワード列カウンタ
／分類器手段毎に１を減じられるものである如き分類手
段と、より成ることを特徴とする請求項（３）の言語モデリン
グ・システム。
【請求項５】メモリ・モジュールに貯蔵され一連のｎグ
ラムの形に分割された訓練テキストの形でデータを受け
取るスケーラブルな言語モデリング・システムを形成す
る方法であって、各ｎグラムがメモリ・ユニット中で表
される一連のｎワードから成り、ｎグラムの履歴がその
最初の（ｎ−１）ワードであるものにおいて、（１）上記各ｎグラムについて第１のカウントを決定す
るためｎグラムを表す各メモリ場所を検索して該第１の
カウント値を第１カウント・メモリ場所に貯蔵するステ
ップと、（２）所与のｎグラムの上記第１カウントを第１閾値を
表す第１所定メモリ場所と比較して、上記所与のｎグラ
ムの上記第１カウントが上記第１閾値より大であるなら
ば所与のｎグラムの上記第１カウントを、上記所与のｎ
グラムをその唯一のメンバとして有する第１クラスに対
するカウントを表す第１クラス・カウント・メモリ場所
により識別するステップと、（３）すべてのｎグラムに対して上記ステップ（２）を
繰り返すステップと、（４）１または複数の第１推定クラスの各々について第
１補数カウントを決定するため以前に分類されていない
すべてのｎグラムを表すすべてのメモリ場所を検索する
ステップであって、各推定クラスは同一の最後のワード
を有する以前に分類されていない１または複数のｎグラ
ムを有し、上記第１補数カウントが第１補数カウント・
メモリ場所に貯蔵される如きステップと、（５）上記１または複数の第１推定クラスのうちの所与
の推定クラスの上記第１補数カウントを第２閾値を表す
第２の所定メモリ場所にある値と比較して、上記第１補
数カウントが上記第２閾値よりも大であるならば上記第
１補数カウントを上記所与の推定クラスに対する上記第
１補数カウントを表す追加のクラス・カウント・メモリ
場所により識別し、上記所与の推定クラスはその補数カ
ウントが上記第２の閾値よりも大であるとき、クラスで
あるものと決定される如きステップと、（６）上記ステップ（４）で決定される推定クラスのす
べてについて上記ステップ（５）を繰り返すステップ
と、（７）クラスであるものと決定されていないすべての推
定クラスの補数カウント値をプロセッサにおいて合計
し、この合計をデフォールト制約クラスを表すデフォー
ルト制約カウント・メモリ場所に貯蔵するステップと、（８）上記プロセッサ中で上記第１カウント、後続する
補数カウントと、上記デフォールト制約とをそれぞれ表
す上記第１カウント・メモリ場所、補数カウント・メモ
リ場所および上記デフォールト制約メモリ場所にある値
を操作して、該操作の結果の値を因子の集合を表す因子
メモリ場所に貯蔵するステップであって、クラスに関連
される各因子は先行する（ｎ−１）ワードが与えられた
ときワードを予測する相対的強度を表し、各因子の値は
所与のクラスに関連するすべてのｎグラムのカウントの
合計の、任意の他のワードが後続するとき所与クラスに
所属する筈のすべての（ｎ−１）グラムの合計に対する
比にほぼ等しくなる如きステップと、（９）上記プロセッサにおいて上記因子メモリ場所の値
を操作し、その結果として、特定の（ｎ−１）ワードが
以前に生起しているものとしたときの特定のワードが生
起する確率を生じるステップと、とより成る言語モデリング・システムを形成する方法
【請求項６】ステップ（４）における第１補数カウント
の決定は、同一の最後の（ｎ−１）ワードを有する以前
にどのクラスにも分類されていないすべてのｎグラムに
ついての上記第１カウント・メモリ場所の値をプロセッ
サ中で合計することを含む請求項５記載の方法。
【請求項７】１または複数の追加の推定クラスの各々に
ついての追加の補数カウントを決定するため、以前に分
類されていない上記ｎグラムのすべてを表すすべてのメ
モリ場所を検索するステップ（６ａ）をステップ（６）
の直後に有し、上記１または複数の追加の推定クラス
は、以前に分類されていないすべてのｎグラムの最後の
（ｎ−ｘ）ワードに基づいて存在する可能性のあるクラ
スであり、ｘはステップ（６ａ）が最初に実行されると
き２に等しく、ステップ（６ａ）が更に実行される都度
１だけ減じられ、各推定クラスは同一の最後のワード
（ｎ−ｘ）を有する以前に分類されていない１または複
数のｎグラムを有し、上記追加の補数カウントは追加の
補数カウント・メモリ場所に貯蔵されることを特徴とす
る請求項５に記載の方法。
【請求項８】上記１または複数の追加の推定クラスの内
の所与の推定クラスに対する追加の補数カウントを、追
加の閾値を表す追加の所定メモリ場所にある値と比較
し、上記追加の補数カウントが上記追加の閾値よりも大
であるときは上記追加の補数カウントを所与の推定クラ
スに対する追加の補数カウントを表す第２の追加のクラ
ス・カウント・メモリ場所により識別し、上記所与の推
定クラスをその補数カウントが上記追加の閾値よりも大
であるときクラスであるものと決定するステップ（６
ｂ）をステップ（６ａ）の直後に有する請求項７記載の
方法。
【請求項９】ステップ（６ａ）におけるすべての推定ク
ラスについてステップ（６ｂ）を繰り返すステップ（６
ｃ）をステップ（６ｂ）の直後に有することを特徴とす
る請求項８記載の方法。
【請求項１０】（ｎ−ｘ）が１に等しくなるまでステッ
プ（６ａ）ないし（６ｃ）を繰り返すステップ（６ｄ）
をステップ（６ｃ）の直後に有することを特徴とする請
求項９記載の方法。
【請求項１１】使用されるべきメモリのスペースを決定
するステップ（１ａ）をステップ（２）の前に有するこ
とを特徴とする請求項５記載の方法。
【請求項１２】上記決定されたメモリのスペースに基づ
いて上記閾値および特定の区切りを決定するステップ
（１ｂ）をステップ（１ａ）の次に有することを特徴と
する請求項１０記載の方法。
【請求項１３】ステップ（８）がログ・リニア・モデル
のための一般化された反復スケーリング手法を用いて上
記第１カウント・メモリ場所および補数カウント・メモ
リ場所にある値を操作することを含むことを特徴とする
請求項５記載の方法。
【請求項１４】ステップ（８）が勾配降下モデルを用い
て上記第１カウント・メモリ場所および補数カウント・
メモリ場所にある値を操作することを含むことを特徴と
する請求項５記載の方法。
【請求項１５】上記因子の各々を更新するため上記因子
メモリ場所に貯蔵された上記値を操作するステップ（１
０）をステップ（９）の次に有することを特徴とする請
求項５記載の方法。
【請求項１６】因子の値が収斂するまでステップ（９）
および（１０）を繰り返すことを特徴とする請求項１５
記載の方法。
【請求項１７】収斂が１回の反復で得られることを特徴
とする請求項１６記載の方法。