JPH06318096A - 言語モデリング・システム及び言語モデルを形成する方法 - Google Patents

言語モデリング・システム及び言語モデルを形成する方法

Info

Publication number
JPH06318096A
JPH06318096A JP6006881A JP688194A JPH06318096A JP H06318096 A JPH06318096 A JP H06318096A JP 6006881 A JP6006881 A JP 6006881A JP 688194 A JP688194 A JP 688194A JP H06318096 A JPH06318096 A JP H06318096A
Authority
JP
Japan
Prior art keywords
class
count
word
gram
complement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6006881A
Other languages
English (en)
Other versions
JP2677758B2 (ja
Inventor
Raymond Lau
レイモンド・ロウ
Ronald Rosenfeld
ロナルド・ローゼンフェルド
Salim Roukos
サリム・ロウコス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH06318096A publication Critical patent/JPH06318096A/ja
Application granted granted Critical
Publication of JP2677758B2 publication Critical patent/JP2677758B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】言語モデリング・システムのメモリ所要量およ
び収斂時間を大幅に低減する。 【構成】各nグラムは互いに交差しないn個のクラスの
1つと関連される。各nグラムについて訓練データ中で
各nグラムが生起する回数がカウントされる。nグラム
はクラスに分離され、補数カウントが決定される。この
カウントおよび補数カウントを用いて各クラスにつき1
つのこの因子が決定される。この因子を用いて、先行2
ワードが生起している条件のもとでワードが生起する確
率、すなわち言語モデル確率が決定される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明はn−グラム言語モデルに
関するものであり、更に具体的に言うと、音声認識装
置、言語翻訳装置、スペル検査装置、光学的文字認識装
置およびnワード列の推定を生成しこれのスコアを取る
ようなその他の装置に関するものである。
【0002】
【従来の技術】以前のデータに基づいて結果を予測する
ために言語モデルが多くの分野で用いられてきた。音声
認識に関して言えば連続発声の小規模語彙を認識する製
品は過去10年にわたって市場に存在している。しかし
ながらより一層重要な目標は制限のない連続発声の音声
を認識する能力のある音声認識システムを開発すること
である。
【0003】ある種の自動音声認識装置や自動言語翻訳
装置や自動スペル訂正装置は次の式(1)で与えられる
モデルに従って動作することが知られている。
【0004】
【数1】
【0005】このモデルにおいてwは1つまたは一連の
複数のワード、例えば英語のワードを表すワード列推定
である。項p(w)はワード列推定の生起確率である。
変数yは観測された信号であり、p(y)は観測信号の
生起確率である。p(w|y)は観測信号yが生起して
いるとの条件のもとでのワード列wの生起確率である。
p(y|w)はワード列wが生起しているとの条件のも
とでの観測信号yの生起確率である。
【0006】自動音声認識に関してはyは音響信号であ
る。これについては、IEEE Transactions on Pattern A
nalysis and Machine Intelligence PAMI5巻、第2
号、1983年3月、第179乃至190頁のL.R.Bahl
著「連続音声認識のための最大尤度手法」を参照された
い。自動言語翻訳に関してはyはワード列推定の言語と
は異なる別の言語中のワード列である。これについて
は、Computational Linguistics 第16巻、第2号、1
990年6月、第79乃至85頁のP.F.Brown著「AStat
istical Approach to Machine Translation」を参照さ
れたい。自動スペル訂正に関しては、yは完璧でない可
能性のあるタイピストによって入れられた文字の列であ
る。これについては、Information Processing & Manag
ement第27巻、第5号、第517乃至522頁のE.May
s他著の「Context Based Spelling Correction]を参照
されたい。
【0007】これらの3つの適用例の全てにおいて、信
号yが与えられたとき、この信号yを生じさせた英語の
ワード列wを決定しようとする。一般に多くの異なるワ
ード列が同じ信号yを生じさせることがある。観測信号
yが与えられたときの最大条件付き確率を有するワード
列wを選ぶことによってモデルは間違ったワード列を選
ぶ確率を最小にする。
【0008】式(1)に示されたように、観測信号yが
与えられたときのワード列wの条件付き確率は次の3つ
の項の組み合わせである。つまり(i)ワード列wの確
率、掛ける(ii)ワード列wが意図される時に生起す
る筈の観測信号yの確率、割る(iii)信号yを観測
する確率である。
【0009】自動音声認識の場合、推定のワード列wが
与えられたときの音響信号yの確率はワード列wの音響
モデルを用いて推定される。自動言語翻訳の場合、推定
の英語翻訳ワード列wが与えられたときの他の言語中の
ワード列の確率はワード列wの翻訳モデルを用いて推定
される。自動スペル訂正の場合、推定のワード列wが与
えられたときの、完璧でない可能性のあるタイピストに
より入れられた文字列yの確率はワード列wのタイプミ
ス・モデルを用いて推定される。
【0010】これらの形式の適用例において、ワード列
wの確率は次の式(2)に従ってモデル化され得る。
【0011】 p(w1 k)=p(w1)p(w2|w1)..p(wk|w1 k-1) ・・・(2) ここでw1 kは一連のワードw1,w2,.....wk
表す。
【0012】条件付き確率p(wk|w1 k-1)におい
て、項w1 k-1は履歴または予測子フィーチュアと呼ば
れ、ワード列の最初の(k−1)ワードを表す。履歴中
の各ワードは予測子ワードである。項wkは予測フィー
チュアまたはカテゴリ・フィーチュアと呼ばれる。
【0013】式(2)中の条件付き確率を推定する機構
は言語モデルである。言語モデルは限られた訓練テキス
ト(訓練データ)から条件付き確率を推定する。訓練テ
キストが大である程言語モデル中のパラメータ数が多く
なり、言語モデルからの予測が一層正確かつ厳密にな
る。
【0014】上述のように言語モデルの目的はワード列
に確率を付与することである。例えばバイグラムw12
が丁度生起したという条件のもとでトリグラムw12
3の確率を付与することである。
【0015】従来成功であった言語モデルは、IEEE Tra
nsactions on Pattern Analysis and Machine Intellig
ence、第PAMIー5巻、第2号、1983年3月、第
179乃至190頁の、Bahl他著「A Maximum Likeliho
od Approach to ContinuoussSpeech Recognition」に述
べられたような補間削除に基づくトリグラム・モデルで
ある。
【0016】このトリグラム・モデルは削除された補間
に基づいている。このモデルは,(a)トリグラムid
123およびそのカウントc(w123)、
(b)バイグラムid w23およびそのカウントc
(w23)、(c)ユニグラムid w3およびそのカ
ウントc(w3)、を与える記録を貯蔵することを必要
とする。所与のトリグラムのカウントは訓練データ中の
この所与トリグラムの生起回数である。このモデルには
可成りの無駄が存在する。というのは、特定のバイグラ
ムはトリグラム・カウントの一部として、かつバイグラ
ム・カウントの一部として含まれることがあり、つまり
所与のw23が2度カウントされて所要の貯蔵スペース
を増加させるからである。この無駄は次の式(3)によ
って示されており、これはバイグラム・カウントが対応
するトリグラム・カウントの和であることを示してい
る。
【0017】
【数2】
【0018】このトリグラム・モデルにより次のワード
に付与される確率は次の式(4)により示される。
【0019】
【数3】
【0020】ここでvはワード数で表した語彙のサイ
ズ、Nはワード数で表した訓練データのサイズ、λ
i(i=0、..3)は平滑化パラメータである。この
平滑化パラメータは訓練データの一部を用いて推測され
る。訓練データのある部分、例えば5パーセントは訓練
データとしては使用されない。その代わりにデータのこ
の部分は保留、すなわち言語モデルを訓練するのには用
いられない。この保留データはその代わりに平滑化パラ
メータを微細調整するのに用いられる。平滑化パラメー
タはこの保留データの尤度を最大にすることによって推
測される。この手順はIEEE Transactions on Pattern A
nalysis and Machine Intelligence、第PAMIー5
巻、第2号、1983年3月、第179乃至190頁
の、Bahl他著「A Maximum Likelihood Approach to Con
tinuouss Speech Recognition」にもっと詳しく述べら
れている。
【0021】
【発明が解決しようとする課題】トリグラムに基づく言
語モデルの貯蔵のための必要条件はトリグラム記録貯蔵
装置によっておおかた決められる。性能を大して低下さ
せることなく言語モデルのメモリ必要条件を減少させる
方法及びシステムが必要とされる。
【0022】
【課題を解決するための手段】本発明は言語モデルを創
生するためのシステムおよび方法である。本発明のシス
テムおよび方法は離散的ワードの形で訓練データを受け
入れる手段を有する。区切りスペースは非重複クラスに
分割される。カウントは訓練データ中の全てのクラスに
ついて調べられる。説明を簡単にするためにトリグラム
について説明する。第1の閾値より大なるカウントを持
つ全てのトリグラムはそれ自身のクラスに置かれる。残
余の全ての推定バイグラム・クラスについて補数カウン
トが調べられる。各推定バイグラム・クラスは、そのト
リグラム等価形が以前にどのクラスにも関連されていな
いようなバイグラムより成る。第2の閾値より大なる補
数カウントを持つ全ての推定バイグラム・クラスはクラ
スと名付けられる。これらクラスの各々は、同じw23
を各々有する潜在的には多数のトリグラムから成る。残
余の全ての推定ユニグラム・クラスについて補数カウン
トが調べられる。各推定ユニグラム・クラスは、そのト
リグラムまたはバイグラム等価形が以前にどのクラスに
も関連されていないようなユニグラムw3より成る。第
3の閾値より大なる補数カウントを持つ全てのユニグラ
ムはクラスと名付けられる。これらクラスの各々は、同
じw3を各々有する潜在的には多数のトリグラムから成
る。残余の推定ユニグラム・クラスについて補数カウン
トが総計され、この総計がデフォルト制約と名付けられ
る。このデフォルト制約は区切りスペース中のデフォル
ト・クラスである。クラス・カウント・メモリ場所に貯
蔵されるこのクラス・カウントおよび補数カウントを用
いて各クラスについて因子が決定され、この因子が、先
行2ワードが与えられたという条件のもとでワードを予
測する相対強度を表す。本発明の言語モデルシステムお
よび方法は次にこれらの因子を用いて、先行2ワードが
生起しているという条件のもとで所与ワードが生起する
確率を決定する。
【0023】
【実施例】本発明のシステムおよび方法はスケーラブル
なnグラム言語モデルの構築を含む。また本発明はメモ
リ貯蔵の必要条件を低減し性能を改善することにより旧
来の言語モデルを改良するものである。
【0024】本発明のシステムおよび方法は、言語翻訳
機(例えばフランス語から英語)、スペル検査システ
ム、光学的文字認識(OCR)、および音声認識を含む
多くの分野で使用されうる。本発明の好適な実施例は音
声認識に関するものであるが、その他の多くの分野でも
本発明の利点を活用できることは言うまでもない。
【0025】図lは本発明の好適な実施例が動作する環
境を示す。本発明の好適な実施例はコンピュータ・プラ
ットフォーム上で動作する。コンピュータ・プラットフ
ォーム104は幾つかのハードウエア装置112を含ん
であり、これには1台または複数台の中央処理装置(C
PU)116、ランダム・アクセス・メモリ(RAM)
114、および入出力(I/O)インターフェース11
8が含まれる。コンピュータ・プラットフォーム104
はオペレーティング・システム108を含み、またマイ
クロインストラクション・コード110を含んでも良
い。音声認識システム103はマイクロインストラクシ
ョン・コード110の一部であっても良く、あるいはオ
ペレーティング・システムを介して実行されるアプリケ
ーション・プログラムであっても良い。端末装置12
6、データ貯蔵装置130および印刷装置134等の種
々の周辺機器がコンピュータ・プラットフォーム104
に接続されうる。
【0026】図2は音声認識システムのより詳細な記述
を示す。ユーザ・インターフェース202は音声発声に
対応する電気的アナログ信号を発生するためのマイクロ
フォンを含んでよい。ユーザ・インターフェース202
にはアナログーディジタル変換器が含まれても良い。ユ
ーザ・インターフェース202は信号処理装置204に
結合される。信号処理装置204はユーザ・インターフ
ェース202から電気的信号出力を受け取り、特徴ベク
トル信号の集合を発生する。信号処理装置204はアナ
ログーディジタル変換器およびスペクトル・アナライザ
等の電気的要素を含むことができる。ユーザ・インター
フェース202の出力は信号処理装置204に結合され
る。
【0027】各時間間隔、つまり各フレームについて信
号処理装置204は音声のn個の特性を調べる。n個の
特性の値に基づいてn要素の特徴ベクトル信号が定義さ
れる。本発明の好適な実施例において、信号処理装置2
04は音声信号から一連の特徴ベクトルを抽出する。特
徴ベクトルの1形式は信号の周波数に基づいて抽出され
うる。これは例えば音響パラメータ・ベクトル信号であ
る。信号処理装置204による音声信号の測定およびス
ペクトル分析は周波数に依存する特徴ベクトルを生成す
る。スペクトル分析は異なる周波数の複数(n)の帯
域、例えば約20帯域、において単位時間毎に音声信号
のエネルギを測定するものである。この単位時間、すな
わちフレームは小さなものである。従って、多くの(約
100)特徴ベクトルの生成が毎秒毎に生じる。
【0028】信号処理装置204の出力はラベル付与装
置206に結合される。各特徴ベクトルについてラベル
付与装置206はラベル・アルファベットの全てのラベ
ルについてスコアを計算しこれをラベルに関連させる。
ラベル付与装置206は各特徴ベクトルに最高値スコア
を持ったラベルを付与する。各ラベルのスコアおよびラ
ベル付与された特徴ベクトルはラベル付与装置206か
らの出力である。ラベル付与装置206は符合器208
に結合される。符合器208は探索制御装置210、高
速符合器212、言語モデラー214および細密符合器
216より成る。探索制御装置210は符合器の他のモ
ジュール、すなわち高速符合器212、言語モデラー2
14および細密符合器216の活動を制御する。高速符
合器212は探索制御装置210に結合される。高速符
合器212は特徴ベクトルによって音声が表されるとき
候補ワードのリストを決定する。言語モデラー214は
探索制御装置210に結合される。言語モデラー214
は特定の履歴、すなわちn−1個のワードの特定のシー
ケンスに着目する。このワードは音声認識モジュールの
以前の出力であり、候補ワードのリストが高速符合器2
12により決定され1つまたは複数の先行ワードに基づ
いてこのワード・リストの最も見込みのあるサブセット
が選択される。細密符合器216は探索制御装置210
に結合される。細密符合器は高速符合器212よりも細
密な音響モデルを使用して言語モデラー214により決
定されるサブセットのどのワードが音声に基づく最も正
確な確率を有するかを決定する。
【0029】図3は言語モデラーのより詳細な形を示
す。メモリ装置302は1つのデータ貯蔵装置、例えば
フロッピー・ディスクまたはランダム・アクセス・メモ
リ(RAM)、またはこれの組み合わせであって良い。
本発明の好適な実施例ではメモリ装置302としてコン
ピュータの内部ランダム・アクセス・メモリが使用され
る。本発明はスケーラブルなnグラム言語モデルを構築
する方法およびシステムに関するものである。本発明の
好適な実施例において、トリグラム、すなわちnが3に
等しいもの、が言語モデルの基礎であるが、nの他の値
も考慮されうる。
【0030】トリグラム・クラス生成器304はメモリ
装置302およびバイグラム・クラス生成器306に結
合される。バイグラム・クラス生成器306はメモリ装
置302およびユニグラム・クラス生成器308に結合
される。ユニグラム・クラス生成器308はメモリ装置
302およびデフォールト制約生成器310に結合され
る。デフォールト制約生成器310はメモリ装置302
および因子決定器312に結合される。因子決定器31
2はメモリ装置302および確率決定器314に結合さ
れる。確率決定器はメモリ装置302に結合される。
【0031】言語モデラー214の目的は、確率を用い
て、音響情報に直接基づくことなく、直近先行ワードの
数に基づいて現ワードの可能な選択の集合を決定するこ
とにある。このことは次の式(5)に示される。
【0032】 p(w3|w2,w1) (5) ここで、w3は現ワード、w2は現ワードに直ちに先行す
るワード、w1はw2に直ちに先行するワードである。
【0033】p(w3|w2,w1)は2つの先行ワード
がw12であるときにw3が生起する確率を表す。
【0034】高速符合器212は候補ワードのリストを
決定する。これらの候補ワードの各々につき言語モデラ
ー214は先行するn−1ワード、つまり先行2ワード
が与えられたときに所与のワードが生起する確率を決定
する(この好適な実施例ではトリグラムが用いられるの
で)。本発明は前述の補間削除に基づくトリグラム・モ
デルを含む従来の言語モデラーに比べて性能の実質的な
増加をもたらす。トリグラム・モデルの場合、3つの閾
値が選ばれる。本発明は各閾値に関して自由度を与え
る。これらの閾値は言語モデルによる使用のために利用
できるメモリの容量の関数である。利用可能なメモリ容
量が大である程閾値は低くて良い。この閾値は最小値、
例えば2と5の間の最小値よりも常に大であることが必
要である。この最小値はこの後に述べるように、言語モ
デルの適正な性能を維持するために必要とされる。
【0035】言語モデラーを訓練するに当たって、訓練
データが入力される。訓練データ中の3ワードの各シー
ケンスはトリグラムと呼ばれる。カウンタが訓練データ
中の各トリグラムの生起をその都度記録する。所与トリ
グラムのカウントは訓練データ中のこの所与のトリグラ
ムの生起数である。この後の説明により、本発明により
一層正確で効率的な言語モデルが提供されることが判る
であろう。このため保留データは必要でない。
【0036】図4ないし図7は本発明の方法を詳細に示
す。トリグラム・クラス生成器304において所与のト
リグラムについてのカウントがステップ402で前述の
ようにして決定される。このカウントはメモリ装置30
2に貯蔵される。ステップ404でトリグラム・クラス
生成器304は各トリグラム毎にそのカウントが第1の
閾値よりも大であるかどうかを調べる。カウントが第1
の閾値よりも大であるならば、トリグラム・クラス生成
器304はステップ406でこの所与のトリグラムにト
リグラム集合S123を関連づける。集合S123に関連づけ
られたトリグラムは全て1つのクラスに所属する。この
クラスは、信頼できるカウントを持つものとみなされる
トリグラムを表す。カウントに信頼性があるのは前述の
ようにそのカウントが最小閾値を超過しているからであ
る。システムのメモリ必要条件を低減するためにはこの
閾値は最小値を超過するものであっても良い。本発明に
よりこれがどのようにして行われるのかについての例が
以下に述べられる。閾値のこのような増加は集合S123
から幾つかの信頼性あるトリグラムを除外する結果をも
たらすが、このようなことが生じてもシステムの性能は
それほど影響されない。これはこのように除外されたト
リグラムは多分残余の集合S23、S3(後述)に適正に
モデル化されることになるからである。ステップ402
−406はステップ408ですべてのトリグラムについ
て繰り返される。
【0037】集合S123を完成した後、全ての推定バイ
グラム・クラスに対してバイグラム・クラス生成器30
6により補数カウントが決定される。ステップ409で
全ての非分類トリグラムが推定バイグラム・クラスに関
連づけられる。ステップ409で全ての非分類トリグラ
ム、つまりこれまでどのクラスにも関連づけられなかっ
たトリグラム、が一緒に纏められて推定バイグラム・ク
ラスに入れられる。各推定バイグラム・クラスは最後の
2ワード、つまりw23、が同じである全ての非分類ト
リグラムより成る。所与の推定バイグラム・クラスに対
する補数カウントはステップ410で所与の推定バイグ
ラム・クラスに関連づけられた全てのトリグラムのカウ
ントを合計することによって決定される。言い換える
と、推定バイグラム・クラスの補数カウントは、同じバ
イグラムw23を持つ集合S123中のクラスに関連づけ
られないすべてのトリグラムのカウントである。このこ
とは次の式(6)に示される。
【0038】
【数4】
【0039】今後トリグラムww23(ここでwは、w
23が集合S123のどのクラスにも関連づけられない
ような任意のワードである)はバイグラムと呼ばれる。
【0040】ステップ412で推定バイグラム・クラス
の各々についてその補数カウントが第2の閾値よりも大
であるかどうかの決定が行われる。補数カウントが第2
の閾値よりも大であるならば、この補数カウントおよび
クラス・メンバをメモリ場所に保管することにより所与
の推定バイグラム・クラスがクラスの形に変換される。
ステップ414でこの新しいクラスはまたバイグラム集
合S23とも関連づけられる。このバイグラム集合は多く
のクラスを含むことができ、各クラスは各々同じw23
を有する多分多数のトリグラムから成る。ステップ41
0−414はステップ416ですべての推定バイグラム
・クラスに対して繰り返される。
【0041】集合S23を完成した後ユニグラム・クラス
生成器308ですべての推定ユニグラム・クラスについ
て補数カウントが決定される。ステップ417ですべて
の非分類トリグラムが推定ユニグラム・クラスに関連づ
けられる。推定ユニグラム・クラスとはすべての非分類
トリグラムに基づいて存在するすべての潜在的クラスの
ことである。各推定ユニグラム・クラスは最後のワード
3が同一であるすべての非分類トリグラムを含んでい
る。ステップ418でこのクラスに関連づけられたすべ
てのトリグラムを合計することにより所与の推定ユニグ
ラム・クラスに対する補数カウントが決定される。所与
の推定ユニグラム・クラスの補数カウントを決定する別
の方法は、まだどのクラスにも変換されていない同一最
終ワードw3を持つすべての推定バイグラム・クラスを
合計することである。この方法は式(7)に示される。
【0042】
【数5】
【0043】今後トリグラムwww3(ここでwはww
3が集合S123またはS23中のどのクラスにも関連づけ
られないような任意のワードである)はユニグラムと呼
ばれる。
【0044】各推定ユニグラム・クラスについてその補
数カウントが第3の閾値よりも大であるかどうかの決定
がステップ420で行われる。補数カウントが第3の閾
値よりも大であるならば、補数カウントおよびクラス・
メンバをメモリ場所に保管することにより推定ユニグラ
ム・クラスがクラスに変換される。この新しいクラスは
ステップ422でユニグラム集合S3にも関連づけられ
る。ユニグラム集合は多数のクラスを含むことがあり、
このようなクラスは各々同じw3を有する潜在的に多数
のトリグラムから成る。ステップ418−422はステ
ップ424ですべての推定バイグラム・クラスに対して
繰り返される。
【0045】本発明のシステムおよび方法は補間削除に
基づくトリグラム・モデルと異なり各トリグラム、バイ
グラムおよびユニグラムに唯一のクラスを関連づける。
従って各トリグラムは1回だけしかカウントされない。
これは本発明が言語モデルのメモリ必要条件を低減する
1つの手法である。
【0046】この処理の後でもまだどのクラスにも関連
づけられないトリグラムが幾つか残ることがある。この
ような残りのトリグラムはデフォールト・クラスに所属
する。集合S3にないすべての推定ユニグラム・クラス
に対する補数カウントは式(8)に示すようにステップ
426においてデフォールト制約生成器310で合計さ
れる。合計カウントはメモリ装置302に貯蔵され、こ
れはデフォールト制約と呼ばれる。
【0047】
【数6】
【0048】デフォールト・カウントなる用語は、クラ
スのカウント、つまりトリグラム集合中のクラスのカウ
ント、バイグラム集合中のクラスの補数カウント、ユニ
グラム集合中のクラスの補数カウントおよびデフォール
ト制約のことを指す。クラスのカウントは、モデル、例
えば後述の一般化された反復スケーリング・モデルまた
は勾配降下モデルが用いる制約である。すべてのトリグ
ラムは唯一のクラスに所属する。各クラスは因子f
w1w2w3を関連づけられている。この因子の値は特定のク
ラス内のすべてのトリグラムについて同じである。
【0049】トリグラムの各クラスにはある因子が関連
づけられる。これらの因子を決定するのに用いられる方
法を以下に説明する。ステップ428で一旦因子が決定
されると、ステップ430で確率決定器314が、トリ
グラムw123に関連づけられた因子を、同一のw1
2を持ったトリグラムに関連づけられた因子の合計で割
ることにより次のワードの確率を決定する。このことは
式(9)に示される。
【0050】
【数7】
【0051】これらの因子は、確率モデルが、訓練デー
タ中に観測されるクラス・カウントに符合する期待値を
クラスのカウントについて発生し、かつ特定の区切りが
あたえられたとして訓練データに最大確率を付与するよ
うに、選ばれなければならない。訓練データを観測する
可能性はこの因子の凸関数であるから、因子を決定する
反復的方法として、各ステップで可能性を増大させるも
のであるならば、如何なる方法でも、例えばヒル・クラ
イミングのような方法でも、最適な因子に収斂すること
が保証される。因子を反復的に調整するための公式を更
新させるのに勾配降下法を用いることができる。このア
ルゴリズムの詳細な検討のためにはCambridge Universi
ty Press発行、W.T.Vetterling他著の「Numerical Reci
pes, Example Book」を参照されたい。因子を決定する
ためのもう一つの方法は一般化された反復スケーリング
(GIS、Generalized Iterative Scaling)法であ
る。本発明の特徴的事項は誘導されたカウント、例えば
制約カウントまたはクラス・カウント、がステップ42
8に示されたように因子決定器312において因子を決
定するための反復的方法の中に取り込まれることであ
る。GISアルゴリズムの詳細な検討のためには、The
Annals of Mathematical Statistics 第43巻、第5
号、第1470−1480頁(1972年)のJ.N.Darr
och他著「Generalized Iterative Scaling for Log-Lin
ear Models」を参照されたい。
【0052】式(10)はステップ428の第1反復の
後での因子の値を与える。
【0053】
【数8】
【0054】ここでHは全トリグラムの履歴の集合であ
る。例えばS123中のトリグラムに対してHはすべての
12の集合であり、これはw3を伴った場合クラスw1
23に所属することになる。n(w123)はクラ
スw123中のすべてのトリグラムのカウントに等し
い。n(w12)はクラスw12の履歴を有するすべて
のトリグラムのカウントに等しい。
【0055】式(11)は式(10)の1例を示す。
【0056】
【数9】
【0057】式(11)は後で述べる表7に基づくもの
である。訓練データは多数の潜在的区切りの中の任意の
1つが存在するように操作される。区切りは閾値の特定
の集合を用いて決定される。異なる閾値が選ばれると異
なる区切りが決定される。これらの閾値により訓練デー
タのトリグラムがクラスに関連づけられることが可能と
なる。表7において区切りはトリグラム・クラスに対す
る閾値3、バイリグラム・クラスに対する閾値3および
ユニグラム・クラスに対する閾値2を用いて決定され
る。各クラスに関連づけられたトリグラムが表8に示さ
れている。以下に表7及び表8についてより詳細な分析
をする。式(11)において分子はユニグラム集合のク
ラスに関連づけられたすべてのトリグラムのカウントに
等しい。分母は、分子の任意のトリグラム、すなわち
(2、2、w),(2,3,w)と同じw12を有する
すべてのトリグラムのカウントの合計に等しい。そのカ
ウントが分母において考察されたトリグラムはユニグラ
ム集合に関連づけられる必要はない。式(11)はこの
特定の区切りのクラス(w、w、w3)に関連づけられ
た因子の値の近似値を与える。
【0058】すべての制約カウントが決定された後、集
合S123,S23,S3およびデフォールト制約は因子決定
器312において1からKの連続番号を与えられる。従
ってfiはi番目のトリグラムがそのメンバとなってい
るクラスに関連づけられた因子を指す。
【0059】一般化された反復スケーリング・アルゴリ
ズムがステップ428で因子を決定するために用いられ
るときには、ステップ430が最後のステップとなる。
即ち1反復で収斂する。他のアルゴリズム、例えば勾配
降下アルゴリズムが使用されるならば、ステップ434
に示されるように収斂が生じるまでステップ430−4
32が繰り返される。各反復毎に因子fiは、訓練デー
タ中に制約が生じる確率d(i)に因子fiを乗じるこ
とによりステップ432で因子決定器312において更
新される。この積は次に式(9)により決められるモデ
ルによる予測値m(i)で除算される。この更新は式
(12)に示される。
【0060】
【数10】
【0061】最初の反復に対してfi oldは1に等しい。
変数d(i)は訓練データ中にトリグラムが生じる確率
を表す。訓練データのサイズはNワードである。トリグ
ラムが集合S123中のクラスに関連づけられているなら
ばd(i)は式(13)を用いて決定される。トリグラ
ムが集合S23中のクラスに関連づけられているならばd
(i)は式(14)を用いて決定される。トリグラムが
集合S3中のクラスに関連づけられているならばd
(i)は式(15)を用いて決定される。トリグラムが
どの集合のクラスにも関連づけられておらず、従ってそ
の補数カウントがデフォールト制約に含まれているなら
ばd(i)は式(16)を用いて決定される。
【0062】
【数11】
【0063】
【数12】
【0064】モデルにより予測されるi番目の制約に対
する確率は式(9)により決定される。ここで古い因
子、すなわち式(12)を用いて更新される前の因子の
値、が用いられる。
【0065】区切りスペースの非重複クラスについての
本発明の定義は、一般に用いられるシステムに比べて相
当に早い収斂速度をもたらす。例えば、補間削除に基づ
くトリグラム・モデルが典型的には40乃至50回の反
復を必要とするのに比べて本発明では2、3回の反復の
後に収斂する。一般化された反復スケーリングアルゴリ
ズムを用いて因子を決定するときには1反復で収斂す
る。
【0066】以下の表1ないし9は本発明の1例を示す 表1において9つのトリグラムw123およびそれら
のカウント(c)は訓練データの所与の集合に基づくも
のとして示されている。図を見やすくするために各ワー
ドは数字で示されている。ステップ402の結果はカウ
ント(c)の欄に示されている。各トリグラムについて
のカウントが第1の閾値、この例では2となる、よりも
大であるかどうかについての決定がステップ404でト
リグラム集合生成器304でなされる。このテストを満
足するトリグラムはステップ406で集合S123中のク
ラスに置かれる。これらのトリグラムは、カウントが5
の(2、2、1)およびカウントが3の(2、3、2)
である。このほかに閾値よりも大なるカウントを持つト
リグラムはない。
【0067】 表2は集合S123に含まれないトリグラムのグループを
示す。これらのバイグラムからバイグラム集合生成器3
06はステップ410で各推定バイグラム・クラス毎に
補数カウントを計算する。ステップ410の結果を表3
に示す。
【0068】 ステップ412において各推定バイグラム・クラスの補
数カウントが第2の閾値(この場合2となる)と比較さ
れる。推定バイグラム・クラスの補数カウントが第2の
閾値よりも大であるならば推定クラスが1つのクラスに
変換され、ステップ414で集合S123に関連づけられ
る。集合S23は、カウントが3のクラス(w,3,4)
およびカウントがこれまた3のクラス(w,2,1)よ
り成る。本発明では各トリグラムは1回しかカウントさ
れないのでトリグラム(w,2,1)に対するカウント
はトリグラム(2、2、1)からのカウントを含まない
ことに注意されたい。閾値よりも大なる補数カウントを
持つその他のバイグラムはない。
【0069】表4は集合S23に関連づけられない推定バ
イグラム・クラスを示す 表5は集合S123に関連づけられたクラスにも、また集
合S23に関連づけられたクラスにも含まれないトリグラ
ムのグループを示す。トリグラムのこの分類されないグ
ループはユニグラムと定義されたことを想起されたい。
【0070】 これらのユニグラムからユニグラム集合生成器308が
ステップ418で各推定ユニグラム・クラスについて補
数カウントを計算する。ステップ418の結果は表6に
示される。
【0071】 ステップ420において各推定ユニグラム・クラスの補
数カウントが、この例では3である第3の閾値と比較さ
れる。推定ユニグラム・クラスの補数カウントが第3の
閾値よりも大であるならば推定ユニグラム・クラスはス
テップ422で1つにクラスに変換され、集合S3に関
連づけられる。推定ユニグラム・クラス(w,w,4)
および(w,w,8)は共に補数カウント2を有する。
トリグラム(2、3、4)および(7、3、4)はS
123のクラスに既に関連づけられているので、これらは
本発明では他の集合のクラスに関連づけられる資格がな
い事に留意されたい。このことは各トリグラムが1回し
かカウントされないことを保証する。ステップ420の
テストを満足するトリグラムはこの他にはない。従っ
て、集合S3は空である。すなわち集合S3中にクラスは
ない。
【0072】デフォールト制約補数カウントCC0はス
テップ426でデフォールト制約生成器310において
決定される。集合S3に関連づけられないすべての推定
ユニグラム・クラスの補数カウントが合計される。この
例では2つの推定ユニグラム・クラスが集合S3に関連
づけられていない。これらの推定ユニグラム・クラスの
各々は補数カウント2を有する。従って補数カウントC
0は4、即ち2+2に等しい。
【0073】従来の方法に対する本発明の改良点は本発
明がトリグラム記録の数を大いに減少させる点にある。
この減少は、本発明が従来のモデルと同じ性能を与える
のにより少ないトリグラムしか必要としないより効率的
なモデルを与えるからである。
【0074】この結果言語モデルに必要とされるメモリ
スペースが低減される。この低減の1つの理由は各トリ
グラムが1つのクラスにしか関連づけられないためであ
る。このように冗長性がないため、より効率的なモデル
がもたらされ、言語モデルのために必要なトリグラム記
録の数が減少される結果となる。
【0075】言語モデリング・システムにより使用する
ために利用可能なメモリの割り当ては変動する。本発明
は適正な性能を得るために必要とするメモリ・スペース
に関し柔軟性があると言う点において従来のシステムよ
りも改良されている。本発明において、メモリ装置30
2におけるnグラムの貯蔵はnグラムがどのクラスに関
連づけられるのかに応じて変わる。例えばトリグラムを
効率的に貯蔵するためには以下の構成が用いられ得る。
【0076】(a)S123、すなわちw123、に関連
づけられるクラスに対して、各w12の組み合わせは1
回だけ貯蔵され、この情報は同じw12を有するすべて
のトリグラムに対して共用される。各クラスについてw
3または識別子がクラスの因子fw1w2w3と共に保管され
る必要がある。従ってS123に関連づけられる各クラス
について2つの情報が貯蔵されなければならない。
【0077】(b)S23、つまりw23に関連づけられ
るクラスについては、各w2は1回だけ貯蔵され、この
情報は同じw2を有するすべてのクラスに対して共用さ
れる。各クラスについてw3または識別子がクラスの因
子fw2w3と共に保管される必要がある。従ってS23に関
連づけられる各クラスについて2つの情報が貯蔵されな
ければならない。
【0078】(c)S3に関連づけられるクラスについ
ては、w3またはその識別子がクラスの因子fw3と共に
保管される必要がある。従ってS3に関連づけられる各
クラスについて2つの情報が貯蔵されなければならな
い。
【0079】(d)デフォールト制約についてはその値
のみが貯蔵されるだけでよい。
【0080】トリグラム貯蔵の正確な構成は本発明のメ
モリ必要条件の柔軟性程重要でない。トリグラム記録フ
ァイルのサイズは集合S123のクラス記録によって支配
される。これはこの集合にはその他の集合よりも相当に
多いクラスが通常は存在するからである。本発明は閾値
を大きくすることによって集合S123中のクラスに関連
づけられたトリグラムの数を大いに減少させる。また本
発明は区切りスペース中の非重複クラスを利用すること
により、従来の方法に比べて貯蔵スペースを大いに減少
させる。説明を簡単にするため、集合S123、集合
23、および集合S3中の各クラスにつき2つの情報が
貯蔵されなければならず、またデフォールト制約につい
て1つの情報が貯蔵されなければならないものと仮定す
る。
【0081】 表7の例を用いてもし第1及び第2の閾値が3に等しく
設定され、第3の閾値が2に等しく設定されるならば、
その結果表8の集合が生じる。
【0082】 表8 S123233 補数カウント CC0 (1、1、1) なし (w,w,3)= 0 (1、1、2) {(2、2、3)、(3、3、3)} (2、1、2) (2、1、3) (2、2、1) (3、1、1) メモリ必要条件の点から言えば表8に示された結果は、
123に6クラス、S3に1クラス、即ち(3、3、2)
に等しい閾値であるならば15個の情報を必要とする。
即ち、 (6クラスx2)+(0クラスx2)+(1クラスx
2)+1=15。
【0083】補間されたトリグラム言語モデルを用いる
と、上述のように表7の例は表9に示した貯蔵スペース
を必要とする。
【0084】 表9 S123233 補数カウントCC0 (1、1、1) (w,1,1) (w,w,1) 0 (1、1、2) (w,1,2) (w,w,2) (2、1、2) (w,1,3) (w,w,3) (2、1、3) (w,2,3) (2、2、3) (w,3,3) (3、1、1) (w,2,1) (3、3、3) (2、2、1) すべてのトリグラム、すべてのバイグラム、およびすべ
てのユニグラムが貯蔵される。これは35の情報を必要
とする。すなわち、 (8トリグラムx2)+(6バイグラムx2)+(3ユ
ニグラムx2)+1=35 この例を用いて本発明のシステム及び方法は約57パー
セントのメモリを節約する。
【0085】43524ワードの語彙および50000
00ワードの訓練母体による実験において、第1閾値3
を用いて195235のトリグラム制約、第2閾値3を
用いて160340のバイグラム制約、第3閾値2を用
いて35615のユニグラム制約を得た。その結果得ら
れたモデルは約451000ワードの独立したテスト母
体に169の混同を有した。概略的に述べると、言語モ
デルの混同とは、任意所与の2ワードの後に確率的に生
起しうる選択肢の平均数を表すものである。このモデル
は約391000x2個のデータ、つまり782000
個のデータを貯蔵することを必要とする。トリグラム、
バイグラム、およびユニグラムにつき同じ閾値を用いた
とき、従って同じ貯蔵必要条件の場合、但し補間された
トリグラム言語モデルによる場合、得られる混同は28
2であった。本システムの混同に合わせるために、上述
の補間された言語モデルは本発明のメモリ条件の約9倍
の大きさのメモリ条件を有している。この例で0の閾値
を用いると、補完されたトリグラム・モデルは170の
混同を有し、これは本発明の混同と大略合致する。この
閾値の場合、補完されたトリグラム・モデルは約251
7000のトリグラム、939000のバイグラム、お
よび48000のユニグラムを貯蔵する必要がある。こ
れは合計3504000x2、つまり7008000個
のデータに相当する。
【0086】
【発明の効果】従来の方法に対する本発明の改良点は本
発明がトリグラム記録の数を大いに減少させる点にあ
る。この減少は、本発明が従来のモデルと同じ性能を与
えるのにより少ないトリグラムしか必要としないより効
率的なモデルを与えるからである。
【0087】この結果言語モデルに必要とされるメモリ
スペースが低減される。この低減の1つの理由は各トリ
グラムが1つのクラスにしか関連づけられないためであ
る。このように冗長性がないため、より効率的なモデル
がもたらされ、言語モデルのために必要なトリグラム記
録の数が減少される結果となる。
【0088】言語モデリング・システムにより使用する
ために利用可能なメモリの割り当ては変動する。本発明
は適正な性能を得るために必要とするメモリ・スペース
に関し柔軟性があると言う点において従来のシステムよ
りも改良されている。
【図面の簡単な説明】
【図1】本発明の音声認識システムを組み込んだコンピ
ュータ・システムを示す。
【図2】本発明の音声認識システムを構成するモヂュー
ルをより詳細に示す。
【図3】言語モデルを構成するモヂュールをより詳細に
示す。
【図4】図5ないし図7と連結して本発明の言語モデル
作成の方法を示す流れ図。
【図5】図4、図6および図7と連結して本発明の言語
モデル作成の方法を示す流れ図。
【図6】図4、図5および図7と連結して本発明の言語
モデル作成の方法を示す流れ図。
【図7】図4ないし図6と連結して本発明の言語モデル
作成の方法を示す流れ図。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ロナルド・ローゼンフェルド アメリカ合衆国ペンシルバニア州、ピッツ バーグ、マーベリー・ロード 2326番地 (72)発明者 サリム・ロウコス アメリカ合衆国ニューヨーク州、スカース デール、ジュニパー・ロード 160番地

Claims (17)

    【特許請求の範囲】
  1. 【請求項1】一連のnグラムの形に分割された訓練テキ
    ストの形でデータを受け取るコンピュータ利用言語モデ
    リング・システムであって、各nグラムが一連のnワー
    ドから成り、各nグラムが自身に関連するカウントを有
    し、その履歴がその最初のn−1ワードであるものにお
    いて、 先行するn−1ワードが与えられたものとして予測ワー
    ドの条件付き確率を決定するための言語モデリング手段
    を具備し、該言語モデリング手段が、 上記データを貯蔵するためのメモリ手段と、 各nグラム内の各ワードを調べ、所与nグラムの1また
    は複数ワードの識別に基づいて各nグラムを1または複
    数のクラスに分類して各nグラムを1または複数のクラ
    スに正確に関連づけるための上記メモリ手段に結合され
    た分離手段であって、各クラスは自身に1または複数の
    同じnグラムを関連させており、該同じnグラムは同じ
    予測ワードおよびx個の先行ワードを有し、各クラスは
    nグラムのクラスを決定するときに用いられるxの値に
    基づいて1または複数の集合により識別される如き分離
    手段と、 上記クラスの各々について因子を決定するために上記分
    離手段の出力および上記メモリ手段に結合された因子手
    段であって、該因子は先行n−1ワードが与えられたと
    きに上記予測ワードを予測する相対的強度を表し、各因
    子の値は、所与クラスに関連する各nグラムのカウント
    の合計の、上記予測ワードが後続するならば上記所与ク
    ラスに属する筈のすべての(n−1)グラムのカウント
    の合計に対する比にほぼ等しいものであるところの因子
    手段と、 先行する(n−1)ワードの特定シーケンスが生起した
    ときの上記予測ワードが生起する条件付き確率を上記因
    子を用いて決定するために上記ユーザ・インターフェー
    スの出力に結合された条件付き確率手段であって、所与
    のnグラムが関連されているクラスに関連する因子を第
    1因子とし該所与のnグラムが上記予測ワードおよび該
    予測ワードの履歴に等しいものとして、該条件付き確率
    は、上記第1因子の、1または複数の因子の合計に対す
    る比にほぼ等しく、該1または複数の因子は語彙中の任
    意のワードが後続する(n−1)ワードの上記特定シー
    ケンスを用いて得られるnグラムのすべてのクラスに関
    連されるものである条件付き確率手段と、 より成る言語モデリング・システム。
  2. 【請求項2】発生音の形で入力データを受け入れるため
    のユーザ・インターフェースと、 上記発生音に基づいて一連の特徴ベクトルを生成するた
    め上記ユーザ・インターフェースの出力に結合された信
    号処理装置と、 上記一連の特徴ベクトルにラベル・アルファベットから
    のラベルを付与するため上記信号処理装置に結合された
    ラベル付与手段と、 所与の時点までに発声された上記発声音を表す推定ワー
    ド列の1または複数のシーケンスを生成しかつ更新する
    ために上記ラベル付与手段の出力に結合された符合手段
    であって、 (a)可能性ある推定ワード列の上記シーケンスを貯蔵
    するための第2メモリ手段と、 (b)音響符合手段および上記言語モデリング手段の動
    作シーケンスを制御し、該音響符合手段から得られるワ
    ード選択肢のなかから選んだ現ワードを表す信号の形で
    上記言語モデリング手段への入力を制御するため、上記
    音響符合手段、上記言語モデリング手段および上記第2
    メモリ手段に結合された検索制御手段を有する符合手段
    と、 を更に具備し、 上記第2メモリ手段から先行する(n−1)ワードのシ
    ーケンスが得られ、該先行する(n−1)ワードは推定
    ワード列の1シーケンス中の最後の(n−1)ワードで
    あり、上記推定ワード列のシーケンスは上記符合手段の
    以前の出力から得られたものであり、 上記音響符合手段は、上記ラベル付与された特徴ベクト
    ルを表す可能性が高いワード選択肢の数を減少させるよ
    うに音響パラメータ・ベクトルを上記ラベル付与された
    特徴ベクトル信号と比較するため上記検索制御手段に結
    合され、上記ワード選択肢は上記検索制御手段に与えら
    れ、該検索制御手段は上記ワード選択肢の各々を上記言
    語モデリング手段への入力として与え、上記言語モデリ
    ング手段は上記ワード選択肢の各々についてスコアを決
    定し、該スコアは推定ワード列の各シーケンスが生起し
    ているものとしたときの上記ワード選択肢の各々につい
    ての条件付き確率の推定値であり、推定ワード列の上記
    シーケンスの各々は上記検索制御手段から上記言語モデ
    リング手段への入力である、 ことを特徴とする請求項(1)の言語モデリング・シス
    テム。
  3. 【請求項3】上記分離手段は、 第1閾値を越えるカウントを有する各nグラムをそれ自
    身のクラスに分類するための第1分類手段と、 該第1分類手段の出力および上記メモリ手段に結合され
    た第1ワード列カウンタ/分類器手段であって、 (a)以前に分類されなかったすべてのnグラムを用い
    て1または複数の推定クラスの各々について第1補数カ
    ウントを決定する第1補数カウント手段であって、上記
    推定クラスは以前に分類されなかったすべてのnグラム
    の最後の(n−1)ワードに基づいて存在し得るクラス
    である如き補数カウント手段と、 (b)各nグラムの対応する推定クラスの補数カウント
    が第2の閾値より大であるとき各nグラムを1または複
    数の第1追加クラスに分類するため上記第1補数カウン
    ト手段に結合された第2分類手段であって、上記第1追
    加クラスの各々は以前に分類されなかったnグラムの各
    々を自身に関連づけられ、特定のクラス中の各nグラム
    は同一の最後の(n−1)ワードを有する如き分類手段
    と、 を有するカウンタ/分類器手段と、 上記クラスの何れにも関連されないすべての上記nグラ
    ムのカウントの合計を表す値を決定するため上記メモリ
    手段に結合されたデフォールト制約手段と、 を更に具備することを特徴とする請求項(1)の言語モ
    デリング・システム。
  4. 【請求項4】上記第1ワード列カウンタ/分類器手段と
    上記デフォールト制約手段との間でこれらに対して縦続
    接続された1または複数の追加ワード列カウンタ/分類
    器手段であって、各追加ワード列カウンタ/分類器手段
    が、 これまで分類されていない上記nグラムの全てを用いて
    1または複数の追加推定クラスの各々について補数カウ
    ントを決定するための第2補数カウント手段と、 各nグラムに対応する推定クラスの補数カウントが追加
    の閾値よりも大である時各nグラムを1または複数の第
    2の追加クラスに分類するため、上記第2補数カウント
    手段に結合された第3分類手段であって、上記1または
    複数の第2の追加クラスの各々は以前に分類されなかっ
    た1または複数のnグラムを自身に関連づけさせ、特定
    のクラスの各nグラムは同一の最後のxワードを有し、
    xは上記第1の追加ワード列カウンタ/分類器手段に対
    して(n−2)でありその後各追加のワード列カウンタ
    /分類器手段毎に1を減じられるものである如き分類手
    段と、 より成ることを特徴とする請求項(3)の言語モデリン
    グ・システム。
  5. 【請求項5】メモリ・モジュールに貯蔵され一連のnグ
    ラムの形に分割された訓練テキストの形でデータを受け
    取るスケーラブルな言語モデリング・システムを形成す
    る方法であって、各nグラムがメモリ・ユニット中で表
    される一連のnワードから成り、nグラムの履歴がその
    最初の(n−1)ワードであるものにおいて、 (1)上記各nグラムについて第1のカウントを決定す
    るためnグラムを表す各メモリ場所を検索して該第1の
    カウント値を第1カウント・メモリ場所に貯蔵するステ
    ップと、 (2)所与のnグラムの上記第1カウントを第1閾値を
    表す第1所定メモリ場所と比較して、上記所与のnグラ
    ムの上記第1カウントが上記第1閾値より大であるなら
    ば所与のnグラムの上記第1カウントを、上記所与のn
    グラムをその唯一のメンバとして有する第1クラスに対
    するカウントを表す第1クラス・カウント・メモリ場所
    により識別するステップと、 (3)すべてのnグラムに対して上記ステップ(2)を
    繰り返すステップと、 (4)1または複数の第1推定クラスの各々について第
    1補数カウントを決定するため以前に分類されていない
    すべてのnグラムを表すすべてのメモリ場所を検索する
    ステップであって、各推定クラスは同一の最後のワード
    を有する以前に分類されていない1または複数のnグラ
    ムを有し、上記第1補数カウントが第1補数カウント・
    メモリ場所に貯蔵される如きステップと、 (5)上記1または複数の第1推定クラスのうちの所与
    の推定クラスの上記第1補数カウントを第2閾値を表す
    第2の所定メモリ場所にある値と比較して、上記第1補
    数カウントが上記第2閾値よりも大であるならば上記第
    1補数カウントを上記所与の推定クラスに対する上記第
    1補数カウントを表す追加のクラス・カウント・メモリ
    場所により識別し、上記所与の推定クラスはその補数カ
    ウントが上記第2の閾値よりも大であるとき、クラスで
    あるものと決定される如きステップと、 (6)上記ステップ(4)で決定される推定クラスのす
    べてについて上記ステップ(5)を繰り返すステップ
    と、 (7)クラスであるものと決定されていないすべての推
    定クラスの補数カウント値をプロセッサにおいて合計
    し、この合計をデフォールト制約クラスを表すデフォー
    ルト制約カウント・メモリ場所に貯蔵するステップと、 (8)上記プロセッサ中で上記第1カウント、後続する
    補数カウントと、上記デフォールト制約とをそれぞれ表
    す上記第1カウント・メモリ場所、補数カウント・メモ
    リ場所および上記デフォールト制約メモリ場所にある値
    を操作して、該操作の結果の値を因子の集合を表す因子
    メモリ場所に貯蔵するステップであって、クラスに関連
    される各因子は先行する(n−1)ワードが与えられた
    ときワードを予測する相対的強度を表し、各因子の値は
    所与のクラスに関連するすべてのnグラムのカウントの
    合計の、任意の他のワードが後続するとき所与クラスに
    所属する筈のすべての(n−1)グラムの合計に対する
    比にほぼ等しくなる如きステップと、 (9)上記プロセッサにおいて上記因子メモリ場所の値
    を操作し、その結果として、特定の(n−1)ワードが
    以前に生起しているものとしたときの特定のワードが生
    起する確率を生じるステップと、 とより成る言語モデリング・システムを形成する方法
  6. 【請求項6】ステップ(4)における第1補数カウント
    の決定は、同一の最後の(n−1)ワードを有する以前
    にどのクラスにも分類されていないすべてのnグラムに
    ついての上記第1カウント・メモリ場所の値をプロセッ
    サ中で合計することを含む請求項5記載の方法。
  7. 【請求項7】1または複数の追加の推定クラスの各々に
    ついての追加の補数カウントを決定するため、以前に分
    類されていない上記nグラムのすべてを表すすべてのメ
    モリ場所を検索するステップ(6a)をステップ(6)
    の直後に有し、上記1または複数の追加の推定クラス
    は、以前に分類されていないすべてのnグラムの最後の
    (n−x)ワードに基づいて存在する可能性のあるクラ
    スであり、xはステップ(6a)が最初に実行されると
    き2に等しく、ステップ(6a)が更に実行される都度
    1だけ減じられ、各推定クラスは同一の最後のワード
    (n−x)を有する以前に分類されていない1または複
    数のnグラムを有し、上記追加の補数カウントは追加の
    補数カウント・メモリ場所に貯蔵されることを特徴とす
    る請求項5に記載の方法。
  8. 【請求項8】上記1または複数の追加の推定クラスの内
    の所与の推定クラスに対する追加の補数カウントを、追
    加の閾値を表す追加の所定メモリ場所にある値と比較
    し、上記追加の補数カウントが上記追加の閾値よりも大
    であるときは上記追加の補数カウントを所与の推定クラ
    スに対する追加の補数カウントを表す第2の追加のクラ
    ス・カウント・メモリ場所により識別し、上記所与の推
    定クラスをその補数カウントが上記追加の閾値よりも大
    であるときクラスであるものと決定するステップ(6
    b)をステップ(6a)の直後に有する請求項7記載の
    方法。
  9. 【請求項9】ステップ(6a)におけるすべての推定ク
    ラスについてステップ(6b)を繰り返すステップ(6
    c)をステップ(6b)の直後に有することを特徴とす
    る請求項8記載の方法。
  10. 【請求項10】(n−x)が1に等しくなるまでステッ
    プ(6a)ないし(6c)を繰り返すステップ(6d)
    をステップ(6c)の直後に有することを特徴とする請
    求項9記載の方法。
  11. 【請求項11】使用されるべきメモリのスペースを決定
    するステップ(1a)をステップ(2)の前に有するこ
    とを特徴とする請求項5記載の方法。
  12. 【請求項12】上記決定されたメモリのスペースに基づ
    いて上記閾値および特定の区切りを決定するステップ
    (1b)をステップ(1a)の次に有することを特徴と
    する請求項10記載の方法。
  13. 【請求項13】ステップ(8)がログ・リニア・モデル
    のための一般化された反復スケーリング手法を用いて上
    記第1カウント・メモリ場所および補数カウント・メモ
    リ場所にある値を操作することを含むことを特徴とする
    請求項5記載の方法。
  14. 【請求項14】ステップ(8)が勾配降下モデルを用い
    て上記第1カウント・メモリ場所および補数カウント・
    メモリ場所にある値を操作することを含むことを特徴と
    する請求項5記載の方法。
  15. 【請求項15】上記因子の各々を更新するため上記因子
    メモリ場所に貯蔵された上記値を操作するステップ(1
    0)をステップ(9)の次に有することを特徴とする請
    求項5記載の方法。
  16. 【請求項16】因子の値が収斂するまでステップ(9)
    および(10)を繰り返すことを特徴とする請求項15
    記載の方法。
  17. 【請求項17】収斂が1回の反復で得られることを特徴
    とする請求項16記載の方法。
JP6006881A 1993-02-26 1994-01-26 言語モデリング・システムを形成する方法 Expired - Fee Related JP2677758B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US023543 1993-02-26
US08/023,543 US5467425A (en) 1993-02-26 1993-02-26 Building scalable N-gram language models using maximum likelihood maximum entropy N-gram models

Publications (2)

Publication Number Publication Date
JPH06318096A true JPH06318096A (ja) 1994-11-15
JP2677758B2 JP2677758B2 (ja) 1997-11-17

Family

ID=21815739

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6006881A Expired - Fee Related JP2677758B2 (ja) 1993-02-26 1994-01-26 言語モデリング・システムを形成する方法

Country Status (2)

Country Link
US (2) US5467425A (ja)
JP (1) JP2677758B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004246368A (ja) * 2003-02-13 2004-09-02 Microsoft Corp テキストから単語誤り率を予測するための方法および装置
JP2004362584A (ja) * 2003-06-03 2004-12-24 Microsoft Corp テキストおよび音声の分類のための言語モデルの判別トレーニング

Families Citing this family (224)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US5467425A (en) * 1993-02-26 1995-11-14 International Business Machines Corporation Building scalable N-gram language models using maximum likelihood maximum entropy N-gram models
DE19501599C1 (de) * 1995-01-20 1996-05-02 Daimler Benz Ag Verfahren zur Spracherkennung
IT1279171B1 (it) * 1995-03-17 1997-12-04 Ist Trentino Di Cultura Sistema di riconoscimento di parlato continuo
US5677990A (en) * 1995-05-05 1997-10-14 Panasonic Technologies, Inc. System and method using N-best strategy for real time recognition of continuously spelled names
DE19516099C2 (de) * 1995-05-05 2003-07-03 Philips Intellectual Property Verfahren zum Bestimmen von Sprachmodellwerten
AU5969896A (en) * 1995-06-07 1996-12-30 International Language Engineering Corporation Machine assisted translation tools
US5991720A (en) * 1996-05-06 1999-11-23 Matsushita Electric Industrial Co., Ltd. Speech recognition system employing multiple grammar networks
US5828999A (en) * 1996-05-06 1998-10-27 Apple Computer, Inc. Method and system for deriving a large-span semantic language model for large-vocabulary recognition systems
US5835888A (en) * 1996-06-10 1998-11-10 International Business Machines Corporation Statistical language model for inflected languages
US6151575A (en) * 1996-10-28 2000-11-21 Dragon Systems, Inc. Rapid adaptation of speech models
US6212498B1 (en) 1997-03-28 2001-04-03 Dragon Systems, Inc. Enrollment in speech recognition
US6167377A (en) * 1997-03-28 2000-12-26 Dragon Systems, Inc. Speech recognition language models
US5999893A (en) * 1997-05-02 1999-12-07 The United States Of America As Represented By The Secretary Of The Navy Classification system and method using combined information testing
US6073091A (en) * 1997-08-06 2000-06-06 International Business Machines Corporation Apparatus and method for forming a filtered inflected language model for automatic speech recognition
US6021384A (en) * 1997-10-29 2000-02-01 At&T Corp. Automatic generation of superwords
US6092038A (en) * 1998-02-05 2000-07-18 International Business Machines Corporation System and method for providing lossless compression of n-gram language models in a real-time decoder
US6038535A (en) * 1998-03-23 2000-03-14 Motorola, Inc. Speech classifier and method using delay elements
US6049767A (en) * 1998-04-30 2000-04-11 International Business Machines Corporation Method for estimation of feature gain and training starting point for maximum entropy/minimum divergence probability models
JP3004254B2 (ja) * 1998-06-12 2000-01-31 株式会社エイ・ティ・アール音声翻訳通信研究所 統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置
US6163768A (en) 1998-06-15 2000-12-19 Dragon Systems, Inc. Non-interactive enrollment in speech recognition
US6144958A (en) * 1998-07-15 2000-11-07 Amazon.Com, Inc. System and method for correcting spelling errors in search queries
DE19842404A1 (de) * 1998-09-16 2000-03-23 Philips Corp Intellectual Pty Verfahren zur Schätzung von Auftrittswahrscheinlichkeiten für Sprachvokabularelemente
US6188976B1 (en) * 1998-10-23 2001-02-13 International Business Machines Corporation Apparatus and method for building domain-specific language models
US6292772B1 (en) * 1998-12-01 2001-09-18 Justsystem Corporation Method for identifying the language of individual words
US7904187B2 (en) 1999-02-01 2011-03-08 Hoffberg Steven M Internet appliance system and method
JP2002539528A (ja) 1999-03-05 2002-11-19 キヤノン株式会社 データベース注釈付け及び検索
US6928404B1 (en) * 1999-03-17 2005-08-09 International Business Machines Corporation System and methods for acoustic and language modeling for automatic speech recognition with large vocabularies
US6658151B2 (en) * 1999-04-08 2003-12-02 Ricoh Co., Ltd. Extracting information from symbolically compressed document images
US6618697B1 (en) * 1999-05-14 2003-09-09 Justsystem Corporation Method for rule-based correction of spelling and grammar errors
DE60026637T2 (de) * 1999-06-30 2006-10-05 International Business Machines Corp. Verfahren zur Erweiterung des Wortschatzes eines Spracherkennungssystems
US7310600B1 (en) 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
US6882970B1 (en) * 1999-10-28 2005-04-19 Canon Kabushiki Kaisha Language recognition using sequence frequency
CN1329861C (zh) 1999-10-28 2007-08-01 佳能株式会社 模式匹配方法和装置
DE19957430A1 (de) * 1999-11-30 2001-05-31 Philips Corp Intellectual Pty Verfahren zur Erzeugung eines Maximum-Entropie-Sprachmodells
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US6490549B1 (en) 2000-03-30 2002-12-03 Scansoft, Inc. Automatic orthographic transformation of a text stream
GB0011798D0 (en) * 2000-05-16 2000-07-05 Canon Kk Database annotation and retrieval
US6556990B1 (en) * 2000-05-16 2003-04-29 Sun Microsystems, Inc. Method and apparatus for facilitating wildcard searches within a relational database
GB0015233D0 (en) * 2000-06-21 2000-08-16 Canon Kk Indexing method and apparatus
GB0023930D0 (en) 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval
GB0027178D0 (en) 2000-11-07 2000-12-27 Canon Kk Speech processing system
GB0028277D0 (en) 2000-11-20 2001-01-03 Canon Kk Speech processing system
WO2002082310A1 (en) * 2001-04-03 2002-10-17 Intel Corporation Method, apparatus, and system for building a compact language model for large vocabulary continuous speech recognition (lvcsr) system
JP2002373163A (ja) * 2001-04-13 2002-12-26 Mitsubishi Electric Corp 最大エントロピーモデル生成方法および装置ならびにそれを用いた自然言語処理方法および装置
US7031910B2 (en) * 2001-10-16 2006-04-18 Xerox Corporation Method and system for encoding and accessing linguistic frequency data
US7526424B2 (en) * 2002-03-20 2009-04-28 Microsoft Corporation Sentence realization model for a natural language generation system
US7143035B2 (en) * 2002-03-27 2006-11-28 International Business Machines Corporation Methods and apparatus for generating dialog state conditioned language models
US7107207B2 (en) * 2002-06-19 2006-09-12 Microsoft Corporation Training machine learning by sequential conditional generalized iterative scaling
US7028038B1 (en) 2002-07-03 2006-04-11 Mayo Foundation For Medical Education And Research Method for generating training data for medical text abbreviation and acronym normalization
US20050004799A1 (en) * 2002-12-31 2005-01-06 Yevgenly Lyudovyk System and method for a spoken language interface to a large database of changing records
US8442331B2 (en) 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US7707039B2 (en) 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US7812860B2 (en) 2004-04-01 2010-10-12 Exbiblio B.V. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US7406416B2 (en) * 2004-03-26 2008-07-29 Microsoft Corporation Representation of a deleted interpolation N-gram language model in ARPA standard format
US7478038B2 (en) * 2004-03-31 2009-01-13 Microsoft Corporation Language model adaptation using semantic supervision
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US7894670B2 (en) 2004-04-01 2011-02-22 Exbiblio B.V. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US20060081714A1 (en) 2004-08-23 2006-04-20 King Martin T Portable scanning device
US7990556B2 (en) 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US20060098900A1 (en) 2004-09-27 2006-05-11 King Martin T Secure data gathering from rendered documents
US8146156B2 (en) 2004-04-01 2012-03-27 Google Inc. Archive of text captures from rendered documents
US8874504B2 (en) 2004-12-03 2014-10-28 Google Inc. Processing techniques for visual capture data from a rendered document
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US8489624B2 (en) 2004-05-17 2013-07-16 Google, Inc. Processing techniques for text capture from a rendered document
WO2005122143A1 (ja) * 2004-06-08 2005-12-22 Matsushita Electric Industrial Co., Ltd. 音声認識装置および音声認識方法
US7716219B2 (en) * 2004-07-08 2010-05-11 Yahoo ! Inc. Database search system and method of determining a value of a keyword in a search
US8346620B2 (en) 2004-07-19 2013-01-01 Google Inc. Automatic modification of web pages
US7478081B2 (en) * 2004-11-05 2009-01-13 International Business Machines Corporation Selection of a set of optimal n-grams for indexing string data in a DBMS system under space constraints introduced by the system
US20060253273A1 (en) * 2004-11-08 2006-11-09 Ronen Feldman Information extraction using a trainable grammar
EP1672531A3 (en) 2004-12-14 2008-10-15 International Business Machines Corporation Method and apparatus for generation of text documents
US20060155530A1 (en) * 2004-12-14 2006-07-13 International Business Machines Corporation Method and apparatus for generation of text documents
US7680659B2 (en) * 2005-06-01 2010-03-16 Microsoft Corporation Discriminative training for language modeling
US8433558B2 (en) 2005-07-25 2013-04-30 At&T Intellectual Property Ii, L.P. Methods and systems for natural language understanding using human knowledge and collected data
US8700404B1 (en) 2005-08-27 2014-04-15 At&T Intellectual Property Ii, L.P. System and method for using semantic and syntactic graphs for utterance classification
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7565372B2 (en) * 2005-09-13 2009-07-21 Microsoft Corporation Evaluating and generating summaries using normalized probabilities
US7707027B2 (en) * 2006-04-13 2010-04-27 Nuance Communications, Inc. Identification and rejection of meaningless input during natural language classification
EP2067119A2 (en) 2006-09-08 2009-06-10 Exbiblio B.V. Optical scanners, such as hand-held optical scanners
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7774197B1 (en) 2006-09-27 2010-08-10 Raytheon Bbn Technologies Corp. Modular approach to building large language models
US7809719B2 (en) * 2007-02-08 2010-10-05 Microsoft Corporation Predicting textual candidates
US7912700B2 (en) 2007-02-08 2011-03-22 Microsoft Corporation Context based word prediction
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US7925602B2 (en) * 2007-12-07 2011-04-12 Microsoft Corporation Maximum entropy model classfier that uses gaussian mean values
KR100922897B1 (ko) * 2007-12-11 2009-10-20 한국전자통신연구원 Mdct 영역에서 음질 향상을 위한 후처리 필터장치 및필터방법
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20090299732A1 (en) * 2008-05-29 2009-12-03 Nokia Corporation Contextual dictionary interpretation for translation
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
EP2202656A1 (en) 2008-12-23 2010-06-30 Axel Springer Digital TV Guide GmbH Context-based recommender system
WO2010096193A2 (en) 2009-02-18 2010-08-26 Exbiblio B.V. Identifying a document by performing spectral analysis on the contents of the document
US8447066B2 (en) 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
US8990235B2 (en) 2009-03-12 2015-03-24 Google Inc. Automatically providing content associated with captured information, such as information captured in real-time
GB0905457D0 (en) 2009-03-30 2009-05-13 Touchtype Ltd System and method for inputting text into electronic devices
US9424246B2 (en) 2009-03-30 2016-08-23 Touchtype Ltd. System and method for inputting text into electronic devices
GB0917753D0 (en) 2009-10-09 2009-11-25 Touchtype Ltd System and method for inputting text into electronic devices
US10191654B2 (en) 2009-03-30 2019-01-29 Touchtype Limited System and method for inputting text into electronic devices
US9189472B2 (en) 2009-03-30 2015-11-17 Touchtype Limited System and method for inputting text into small screen devices
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
DE112011100329T5 (de) 2010-01-25 2012-10-31 Andrew Peter Nelson Jerram Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8484023B2 (en) * 2010-09-24 2013-07-09 Nuance Communications, Inc. Sparse representation features for speech recognition
US8713024B2 (en) 2010-11-22 2014-04-29 Microsoft Corporation Efficient forward ranking in a search engine
US9342582B2 (en) * 2010-11-22 2016-05-17 Microsoft Technology Licensing, Llc Selection of atoms for search engine retrieval
US8620907B2 (en) 2010-11-22 2013-12-31 Microsoft Corporation Matching funnel for large document index
US8478704B2 (en) 2010-11-22 2013-07-02 Microsoft Corporation Decomposable ranking for efficient precomputing that selects preliminary ranking features comprising static ranking features and dynamic atom-isolated components
US9195745B2 (en) 2010-11-22 2015-11-24 Microsoft Technology Licensing, Llc Dynamic query master agent for query execution
US9529908B2 (en) 2010-11-22 2016-12-27 Microsoft Technology Licensing, Llc Tiering of posting lists in search engine index
US9424351B2 (en) 2010-11-22 2016-08-23 Microsoft Technology Licensing, Llc Hybrid-distribution model for search engine indexes
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8953885B1 (en) * 2011-09-16 2015-02-10 Google Inc. Optical character recognition
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US8374865B1 (en) * 2012-04-26 2013-02-12 Google Inc. Sampling training data for an automatic speech recognition system based on a benchmark classification distribution
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8983211B2 (en) * 2012-05-14 2015-03-17 Xerox Corporation Method for processing optical character recognizer output
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN103076893B (zh) * 2012-12-31 2016-08-17 百度在线网络技术(北京)有限公司 一种用于实现语音输入的方法与设备
DE212014000045U1 (de) 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014189399A1 (en) 2013-05-22 2014-11-27 Axon Doo A mixed-structure n-gram language model
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
DE112014002747T5 (de) 2013-06-09 2016-03-03 Apple Inc. Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的***和方法
AU2014306221B2 (en) 2013-08-06 2017-04-06 Apple Inc. Auto-activating smart responses based on activities from remote devices
US20150373087A1 (en) * 2013-11-06 2015-12-24 Empire Technology Development Llc Communication of application microarchitecture attributes between datacenters
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
GB201610984D0 (en) 2016-06-23 2016-08-10 Microsoft Technology Licensing Llc Suppression of input images
US20190156942A1 (en) * 2016-07-15 2019-05-23 Koninklijke Philips N.V. Apparatus for assessing medical device quality
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
KR102637338B1 (ko) * 2017-01-26 2024-02-16 삼성전자주식회사 번역 보정 방법 및 장치와 번역 시스템
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
CN108509490B (zh) * 2018-02-09 2020-10-02 中国农业大学 一种网络热点话题发现方法及***
US10540447B2 (en) 2018-03-20 2020-01-21 Wipro Limited Method and device for N-gram identification and extraction
US11341340B2 (en) * 2019-10-01 2022-05-24 Google Llc Neural machine translation adaptation

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4831550A (en) * 1986-03-27 1989-05-16 International Business Machines Corporation Apparatus and method for estimating, from sparse data, the probability that a particular one of a set of events is the next event in a string of events
US4817156A (en) * 1987-08-10 1989-03-28 International Business Machines Corporation Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker
US5293584A (en) * 1992-05-21 1994-03-08 International Business Machines Corporation Speech recognition system for natural language translation
US5467425A (en) * 1993-02-26 1995-11-14 International Business Machines Corporation Building scalable N-gram language models using maximum likelihood maximum entropy N-gram models

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004246368A (ja) * 2003-02-13 2004-09-02 Microsoft Corp テキストから単語誤り率を予測するための方法および装置
JP4528535B2 (ja) * 2003-02-13 2010-08-18 マイクロソフト コーポレーション テキストから単語誤り率を予測するための方法および装置
JP2004362584A (ja) * 2003-06-03 2004-12-24 Microsoft Corp テキストおよび音声の分類のための言語モデルの判別トレーニング
JP4571822B2 (ja) * 2003-06-03 2010-10-27 マイクロソフト コーポレーション テキストおよび音声の分類のための言語モデルの判別トレーニング
KR101143030B1 (ko) * 2003-06-03 2012-05-11 마이크로소프트 코포레이션 자연어 입력을 분류하는 컴퓨터 구현 방법

Also Published As

Publication number Publication date
US5640487A (en) 1997-06-17
US5467425A (en) 1995-11-14
JP2677758B2 (ja) 1997-11-17

Similar Documents

Publication Publication Date Title
JP2677758B2 (ja) 言語モデリング・システムを形成する方法
JP3696231B2 (ja) 言語モデル生成蓄積装置、音声認識装置、言語モデル生成方法および音声認識方法
Mangu et al. Finding consensus among words: lattice-based word error minimization.
US7395205B2 (en) Dynamic language model mixtures with history-based buckets
EP0570660B1 (en) Speech recognition system for natural language translation
JP3004254B2 (ja) 統計的シーケンスモデル生成装置、統計的言語モデル生成装置及び音声認識装置
US6542866B1 (en) Speech recognition method and apparatus utilizing multiple feature streams
JP4141495B2 (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
EP1922653B1 (en) Word clustering for input data
US6178401B1 (en) Method for reducing search complexity in a speech recognition system
JP4105841B2 (ja) 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体
JPH05289692A (ja) ワードを予測する会話認識装置用言語生成装置及び方法
EP0847041A2 (en) Method and apparatus for speech recognition performing noise adaptation
JPH08278794A (ja) 音声認識装置および音声認識方法並びに音声翻訳装置
Bazzi et al. A multi-class approach for modelling out-of-vocabulary words
US4876720A (en) Speech recognition system
EP1887562B1 (en) Speech recognition by statistical language model using square-root smoothing
JP3961780B2 (ja) 言語モデル学習装置およびそれを用いた音声認識装置
Pilar Subword Dictionary Learning and Segmentation Techniques for Automatic Speech Recognition in Tamil and Kannada
Biadsy et al. Backoff inspired features for maximum entropy language models
Khassanov et al. Unsupervised and efficient vocabulary expansion for recurrent neural network language models in asr
JP2001188557A (ja) 最大エントロピ音声モデルの生成方法
JP2006107353A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
Li et al. A comparative study of speech segmentation and feature extraction on the recognition of different dialects
Siu et al. Integrating a context-dependent phrase grammar in the variable n-gram framework

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees