JPH11296515A - Language model approximation learning device, its method and storage medium recording approximation learning program - Google Patents

Language model approximation learning device, its method and storage medium recording approximation learning program

Info

Publication number
JPH11296515A
JPH11296515A JP10099488A JP9948898A JPH11296515A JP H11296515 A JPH11296515 A JP H11296515A JP 10099488 A JP10099488 A JP 10099488A JP 9948898 A JP9948898 A JP 9948898A JP H11296515 A JPH11296515 A JP H11296515A
Authority
JP
Japan
Prior art keywords
model
gram
learning
bayesian
approximation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10099488A
Other languages
Japanese (ja)
Inventor
Yasunari Maeda
康成 前田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP10099488A priority Critical patent/JPH11296515A/en
Publication of JPH11296515A publication Critical patent/JPH11296515A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

PROBLEM TO BE SOLVED: To express by parameters of a number smaller than a true model and to learn an approximate model approximate to the true model by outputting a low-order n-gram approximate model approximate to a true n-gram model from learning data with Kullback Leibler(KL) information quantity as an evalua tion scale. SOLUTION: In the approximation learning device of a language model expressing by a parameter, an n-gram Bayesian learning means 100 receives a word group as learning data to calculate a Bayesian estimated value concerning KL information quantity with a true n-gram model corresponding to the language model to output an n-gram Bayesian estimated model. A low-order n-gram learning means 200 receives the n-gram Bayesian estimated model learned by the means 100 and calculates the low-order n-gram approximation model expressed by the number of parameters smaller than the n-gram Bayesian estimated model with the KL information quantity as the evaluating scale.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、自然言語処理にお
ける言語モデルの近似学習に係わり、特に、言語モデル
として多重マルコフ連鎖であるn−gramモデルが仮
定される場合に、できる限り真の言語モデルに近く、パ
ラメータ数の少ない近似モデルを学習する装置及び方法
に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to approximation learning of a language model in natural language processing, and more particularly, to a language model which is as true as possible when an n-gram model which is a multiple Markov chain is assumed as the language model. And an apparatus and method for learning an approximate model having a small number of parameters.

【0002】[0002]

【従来の技術】自然言語処理を行うためには、その言語
モデルを学習する必要がある。多くの場合、言語モデル
として多重マルコフ連鎖であるn−gramモデルが採
用されている。n−gramとは、文章中に隣接して現
れるn個の単語の組の次に現れる単語の出現頻度の統計
を表す。多重マルコフ連鎖を学習する手法として、従
来、漸近的に真のモデルが同定されるような様々な手法
が提案されている。例えば、Matsushima, Inazumi, Hir
asawa,"A Class of Distortionless Codes Designed by
Bayes Decision Theory", IEEE Trans. IT, Vol.37, N
o.5, Sept., pp.1288-1293(1991) 又は、松嶋、平
澤、”FSMX情報源のユニヴァーサル符号につい
て”、第18回情報理論とその応用シンポジウム、pp.3
77-380(1995)に記載されているようなベイズ統計学に基
づくベイズ符号では、パラメータの事前分布にベータ分
布を仮定し、KL情報量に関するベイズ推定量を用いる
ことによって、真の分布と推定した分布との間の距離で
あるKL情報量が有限の学習データに対してベイズ基準
の下で最小になるモデルが学習される。
2. Description of the Related Art In order to perform natural language processing, it is necessary to learn a language model. In many cases, an n-gram model that is a multiple Markov chain is adopted as a language model. The n-gram represents statistics of the frequency of appearance of a word that appears next to a set of n words that appear adjacently in a sentence. Conventionally, as a method of learning a multiple Markov chain, various methods for asymptotically identifying a true model have been proposed. For example, Matsushima, Inazumi, Hir
asawa, "A Class of Distortionless Codes Designed by
Bayes Decision Theory ", IEEE Trans. IT, Vol. 37, N
o.5, Sept., pp.1288-1293 (1991) or Matsushima and Hirasawa, "About Universal Codes of FSMX Sources", 18th Information Theory and Its Application Symposium, pp.3
In Bayesian codes based on Bayesian statistics as described in 77-380 (1995), a true distribution is estimated by assuming a beta distribution as a prior distribution of parameters and using a Bayesian estimator for KL information. A model is learned in which the KL information amount, which is the distance from the obtained distribution, is minimized under finite learning data under the Bayes criterion.

【0003】KL情報量に関するベイズ推定量は、The Bayesian estimator for the KL information amount is:

【0004】[0004]

【数1】 (Equation 1)

【0005】によって示される。但し、ai は情報源ア
ルファベット、xM は学習データ、θは多重マルコフ連
鎖を支配する連続パラメータ、α(ai |an )はベー
タ分布のパラメータ、n(ai |an )は頻度カウンタ
ーで学習データ中で系列an の後にai が生起した回
数、p(ai |an ,xM )は学習データxM による系
列an の後にai が生起する確率の推定値を表す。
[0005] Here, a i is an information source alphabet, x M is learning data, θ is a continuous parameter governing multiple Markov chains, α (a i | a n ) is a parameter of a beta distribution, and n (a i | a n ) is a frequency. number of a i has occurred after the sequence a n in the training data at the counter, p (a i | a n , x M) is an estimate of the probability that a i is occurring after the sequence a n by the learning data x M Represent.

【0006】また、KL情報量は、The KL information amount is

【0007】[0007]

【数2】 (Equation 2)

【0008】で示される。但し、θ* は多重マルコフ連
鎖を支配する真のパラメータ、π(a n ,θ* )は、連
立方程式、
[0008] Where θ*Is a multiple Markov ream
The true parameter governing the chain, π (a n, Θ*)
Standing equations,

【0009】[0009]

【数3】 (Equation 3)

【0010】を解くことによって求められるθ* により
支配されるマルコフ連鎖の状態an の定常分布を表す。
しかし、学習した確率モデルを汎用コンピュータ等に実
装しようとした場合、真のモデルと同じ次数のモデルを
そのまま実装したのでは、そのモデルを表現するパラメ
ータが膨大なメモリ量を占める。そこで、最初に真のモ
デルと同じ次数のモデルを学習し、次に、真のモデルよ
りも少ないパラメータ数のモデルで学習し直す形の言語
モデルの近似学習手法が提案されている。
[0010] represents the stationary distribution of state a n of the Markov chain which is governed by is theta * determined by solving.
However, when trying to implement the learned probability model on a general-purpose computer or the like, if a model of the same order as the true model is implemented as it is, the parameters expressing the model occupy a huge amount of memory. Therefore, there has been proposed an approximate learning method of a language model in which a model having the same order as a true model is first learned, and then learning is performed using a model having a smaller number of parameters than the true model.

【0011】このような従来の近似学習手法において、
学習する際の評価尺度は真のモデルと近似モデルとの差
を的確に表現できているとは言えない。例えば、Brown,
"Class-Based n-gram models of Natural Language",
Computational Linguistics,Vol.18, No.4, pp.467-479
(1992)において提案された手法では、以下の式、
In such a conventional approximation learning method,
The evaluation scale at the time of learning cannot be said to accurately represent the difference between the true model and the approximate model. For example, Brown,
"Class-Based n-gram models of Natural Language",
Computational Linguistics, Vol. 18, No. 4, pp. 467-479
In the method proposed in (1992), the following equation:

【0012】[0012]

【数4】 (Equation 4)

【0013】のように、左辺のn−1重マルコフ連鎖で
あるn−gramモデルが右辺のクラスによるn−1重
マルコフ連鎖と、クラス毎の単語の多項分布との組合せ
によって近似される。但し、wi は、単語
As described above, the n-gram model which is the n-1 double Markov chain on the left side is approximated by a combination of the n-1 double Markov chain by the class on the right side and the polynomial distribution of words for each class. Where w i is the word

【0014】[0014]

【外1】 [Outside 1]

【0015】であり、ci は、クラスAnd c i is the class

【0016】[0016]

【外2】 [Outside 2]

【0017】を表わす。図9は2−gramモデルの場
合の従来の近似学習手法の動作原理を説明する図であ
る。ステップ101において学習データを入力し、ステ
ップ102において、学習データに基づいて最尤推定量
## EQU1 ## FIG. 9 is a diagram for explaining the operation principle of the conventional approximation learning method in the case of the 2-gram model. In step 101, learning data is input. In step 102, the maximum likelihood estimator is

【0018】[0018]

【数5】 (Equation 5)

【0019】を用いて2−gramモデルを学習する。
ステップ3において、|W|個のクラスを用意し、各単
語wi に一つのクラスを割り当て、ステップ104にお
いて、タイムカウンタを0に設定する。次に、ステップ
105において、Ci を時点tの分割Cとすると、以下
の(6)式、
Is used to learn a 2-gram model.
In step 3, | W | classes are prepared, one class is assigned to each word w i , and in step 104, the time counter is set to zero. Next, in step 105, assuming that C i is a division C at the time point t, the following equation (6) is obtained.

【0020】[0020]

【数6】 (Equation 6)

【0021】で示されるクラス間の平均相互情報量の減
少量を最小にするような二つのクラス
Two classes that minimize the reduction of the average mutual information between the classes represented by

【0022】[0022]

【外3】 [Outside 3]

【0023】をマージすることによって、パラメータ数
の減少に伴う尤度関数の値の減少をなるべく小さくする
ような構成(分割C)を貪欲アルゴリズムによって逐次
的に求める。尚、推定量として相対頻度による最尤推定
量が使用される。ステップ106において、タイムカウ
ンタが更新され、ステップ107においてタイムカウン
タの値を用いて、ステップ105がT回繰り返される。
ステップ105をT回繰り返すことにより、クラス数を
|W|−T個に減少させ得る。パラメータ数に関して言
うと、元の2−gramモデルが|W|(|W|−1)
個のパラメータを必要とするのに対し、近似学習後は
(|W|−T)(|W|−1)+(|W|−T)(|W
|−T−1)個のパラメータでモデルが表現され得る。
The configuration (division C) that minimizes the decrease in the value of the likelihood function due to the decrease in the number of parameters by merging is sequentially obtained by the greedy algorithm. Note that the maximum likelihood estimator based on the relative frequency is used as the estimator. In step 106, the time counter is updated, and in step 107, step 105 is repeated T times using the value of the time counter.
By repeating step 105 T times, the number of classes can be reduced to | W | -T. In terms of the number of parameters, the original 2-gram model is | W | (| W | -1)
While approximation learning requires (| W | -T) (| W | -1) + (| W | -T) (| W
The model can be represented by | -T-1) parameters.

【0024】[0024]

【発明が解決しようとする課題】しかしながら、上記従
来技術の近似学習手法によると、次のような問題点があ
る。第1に、ステップ102において最尤推定量が利用
されているが、最尤推定量は、有限のサンプル数の下で
は、高々推定誤差の分散を最小にする程度の保証しかな
い推定量である。そのため、最尤推定量を用いて2−g
ramモデルを学習しても充分な保証が得られない。
However, according to the above-described prior art approximation learning method, there are the following problems. First, although the maximum likelihood estimator is used in step 102, the maximum likelihood estimator is an estimator that has no guarantee that the variance of the estimation error is minimized at most under a limited number of samples. . Therefore, using the maximum likelihood estimator, 2-g
Learning the ram model does not provide a sufficient guarantee.

【0025】第2に、最尤法は、本質的にモデルを固定
して尤度関数の値を最大化させる手法である。ところ
が、ステップ105では、クラスをマージすることによ
ってモデルを変化させながら、尤度関数の値ができる限
り大きくなるようなクラスの構成を求めている。そのた
め、(6)式の平均相互情報量を評価尺度として用いる
ことの理論的妥当性が保証されない。
Second, the maximum likelihood method is a method of essentially fixing a model and maximizing the value of a likelihood function. However, in step 105, while changing the model by merging the classes, a class configuration that maximizes the value of the likelihood function is obtained. Therefore, the theoretical validity of using the average mutual information of Expression (6) as an evaluation scale is not guaranteed.

【0026】第3に、ステップ102及びステップ10
5において、最尤推定量を用いているが、最尤推定量の
場合、観測回数が0回の単語に対するパラメータの推定
値が0になってしまうというゼロ頻度問題に対処できな
いので、ゼロ頻度問題に対処するため別の補正手段を設
ける必要がある。以上の第1〜第3の問題点により、従
来の近似学習法により学習された近似モデルは元の2−
gramモデルに対して必ずしも近いモデルであるとは
限らない。このことは、一般化したn−gramモデル
に対しても同様に言える。
Third, step 102 and step 10
5, the maximum likelihood estimator is used. However, in the case of the maximum likelihood estimator, the zero frequency problem that the parameter estimation value for a word whose observation number is 0 becomes 0 cannot be dealt with. It is necessary to provide another correction means in order to cope with the above. According to the above first to third problems, the approximate model learned by the conventional approximate learning method is the original 2-
The model is not always close to the gram model. This can be similarly applied to the generalized n-gram model.

【0027】従って、本発明は、上記従来技術の問題点
に鑑み、より厳密な評価尺度を導入することによって、
真のモデルよりも少ない数のパラメータで表現され、か
つ、真のモデルに近い近似モデルを学習する言語モデル
の近似学習装置及び方法の提供を目的とする。また、本
発明は、言語モデルの近似学習プログラムを記録した記
録媒体の提供を目的とする。
Accordingly, the present invention has been made in view of the above-mentioned problems of the prior art, by introducing a more strict evaluation scale,
An object of the present invention is to provide a language model approximation learning device and method for learning an approximation model that is expressed by a smaller number of parameters than a true model and is close to the true model. Another object of the present invention is to provide a recording medium on which a language model approximate learning program is recorded.

【0028】[0028]

【課題を解決するための手段】図1は本発明の原理構成
図である。本発明によるパラメータで表現される言語モ
デルの近似学習装置は、単語系列を学習データとして受
け、上記言語モデルに対応した真のn−gramモデル
とのKL(カルバック・ライブラー)情報量に関するベ
イズ推定量を算出して、n−gramベイズ推定モデル
を出力するn−gramベイズ学習手段100と、上記
n−gramベイズ学習手段100によって学習された
n−gramベイズ推定モデルを受け、KL情報量を評
価尺度として、上記n−gramベイズ推定モデルより
も少ないパラメータ数で表現された低次n−gram近
似モデルを算出する低次n−gram学習手段200と
により構成され、上記学習データからKL情報量を評価
尺度にして上記真のn−gramモデルに近い低次n−
gram近似モデルを出力することを特徴とする。
FIG. 1 is a block diagram showing the principle of the present invention. The approximation learning apparatus for a language model represented by a parameter according to the present invention receives a word sequence as learning data, and performs Bayesian estimation on a KL (Kulbach-Leibler) information amount with a true n-gram model corresponding to the language model. N-gram Bayes learning means 100 for calculating the amount and outputting an n-gram Bayes estimation model; and receiving the n-gram Bayes estimation model learned by the n-gram Bayes learning means 100, and evaluating the KL information amount. A low-order n-gram learning means 200 for calculating a low-order n-gram approximation model represented by a smaller number of parameters than the n-gram Bayesian estimation model as a scale is used to calculate the KL information amount from the learning data. A low-order n- that is close to the true n-gram model as an evaluation scale
It is characterized by outputting a gram approximate model.

【0029】図2は本発明の原理を説明するためのフロ
ーチャートである。本発明の言語モデルの近似学習方法
は、単語系列を学習データとして入力する段階10と、
上記言語モデルに対応した真のn−gramモデルとの
KL情報量に関するベイズ推定量を算出してn−gra
mベイズ推定モデルを学習する段階20と、上記学習さ
れたn−gramベイズ推定モデルを受け、KL情報量
を評価尺度として、上記n−gramベイズ推定モデル
よりも少ないパラメータ数で表現された低次n−gra
m近似モデルを学習する段階30と、上記学習により得
られた上記真のn−gramモデルに近い低次n−gr
am近似モデルを出力する段階40とからなる。
FIG. 2 is a flowchart for explaining the principle of the present invention. The language model approximation learning method according to the present invention includes a step 10 of inputting a word sequence as learning data;
A Bayesian estimator for the KL information amount with a true n-gram model corresponding to the above language model is calculated and n-gram
Step 20 of learning the m-bays estimation model, and receiving the learned n-gram Bayesian estimation model, and using the KL information amount as an evaluation scale, the lower order expressed with a smaller number of parameters than the n-gram Bayesian estimation model n-gra
learning 30 an m-approximation model, and a low-order n-gr close to the true n-gram model obtained by the learning.
and outputting an am approximation model.

【0030】従って、本発明の言語モデルの近似学習装
置及び方法による近似学習手法は、第1に、KL情報量
に関するベイズ推定量を用いたn−gramベイズ推定
モデルに基づいているので、KL情報量に関して真のモ
デルに近い低次n−gram近似モデルが最終的に出力
される。第2に、本発明によれば、n−gramベイズ
推定モデルに基づいて低次n−gram近似モデルを求
める際にも、モデル間の距離を示すKL情報量を評価尺
度として利用しているので、最終的に出力される低次n
−gram近似モデルもKL情報量に関して真のモデル
に近いものとなる。第3に、本発明によれば、ベイズ推
定量を用いているので、事前分布の設定の仕方によっ
て、ゼロ頻度問題に対処することが可能である。
Therefore, the approximation learning method using the language model approximation learning apparatus and method of the present invention is based on the n-gram Bayesian estimation model using the Bayesian estimator for the KL information amount. A low-order n-gram approximation model that is close to the true model in terms of quantity is finally output. Second, according to the present invention, the KL information amount indicating the distance between models is used as an evaluation scale even when a low-order n-gram approximate model is obtained based on the n-gram Bayesian estimation model. , The low order n finally output
The -gram approximation model is also close to the true model with respect to the KL information amount. Third, according to the present invention, since the Bayesian estimator is used, it is possible to address the zero frequency problem by setting a prior distribution.

【0031】また、本発明は、パラメータで表現される
言語モデルの近似学習プログラムを記録した記録媒体で
あって、単語系列を学習データとして受け、上記言語モ
デルに対応した真のn−gramモデルとのKL情報量
に関するベイズ推定量を算出して、n−gramベイズ
推定モデルを学習させるプロセスと、KL情報量を評価
尺度として、上記n−gramベイズ推定モデルよりも
少ないパラメータ数で表現された低次n−gram近似
モデルを算出させるプロセスとにより構成され、上記学
習データからKL情報量を評価尺度にして上記真のn−
gramモデルに近い低次n−gram近似モデルを出
力させることを特徴とする言語モデルの近似学習プログ
ラムを記録した記録媒体である。
Further, the present invention is a recording medium on which an approximate learning program for a language model represented by a parameter is recorded. The recording medium receives a word sequence as learning data and generates a true n-gram model corresponding to the language model. Calculating the Bayesian estimator for the KL information amount and learning the n-gram Bayesian estimation model, and using the KL information amount as an evaluation scale, the low-level expression expressed with a smaller number of parameters than the n-gram Bayesian estimation model. Calculating the next n-gram approximation model using the KL information amount as an evaluation scale from the learning data.
This is a recording medium on which a language model approximation learning program characterized by outputting a low-order n-gram approximation model close to a gram model is recorded.

【0032】[0032]

【発明の実施の形態】図3は本発明による言語モデルの
近似学習装置の好ましい一実施例の構成図である。同図
に示す如く、本発明の言語モデルの近似学習装置は、n
−gramベイズ学習部100と、低次n−gram学
習部200とからなる。n−gramベイズ学習部10
0は、頻度算出器110と、ベイズ推定量算出器120
と、ベータ分布パラメータテーブル130とからなる。
低次n−gram学習部200は、クラスマージ器21
0と、KL情報量算出器220とからなる。
FIG. 3 is a block diagram showing a preferred embodiment of a language model approximation learning apparatus according to the present invention. As shown in the figure, the language model approximation learning apparatus of the present invention has n
It comprises a -gram Bayes learning unit 100 and a low-order n-gram learning unit 200. n-gram Bayesian learning unit 10
0 is the frequency calculator 110 and the Bayesian estimator calculator 120
And a beta distribution parameter table 130.
The low-order n-gram learning unit 200 includes the class merge unit 21
0 and a KL information amount calculator 220.

【0033】最初に、図4に示されたn−gramベイ
ズ学習部100の動作フローチャートを参照して、n−
gramベイズ学習部100の動作を説明する。まず、
学習データの単語系列が与えられる(ステップ50)。
この学習データは、例えば、通常の文章である「自然
文」を形態素解析にかけ、形態素毎に分かち書きするこ
とにより形成される。学習データの単語系列が与えられ
た頻度算出器110は、頻度カウンタn(wi
n-1 )、即ち、学習データ中において系列wn-1 の後
に単語wi が生起した回数を算出する(ステップ5
2)。
First, referring to the operation flowchart of the n-gram Bayes learning unit 100 shown in FIG.
The operation of the gram Bayes learning unit 100 will be described. First,
A word sequence of the learning data is provided (step 50).
The learning data is formed, for example, by subjecting a “natural sentence”, which is a normal sentence, to a morphological analysis, and separating and writing each morpheme. The frequency calculator 110 word sequence of training data is given, the frequency counter n (w i |
w n-1 ), that is, the number of occurrences of the word w i after the series w n-1 in the learning data is calculated (step 5).
2).

【0034】ベイズ推定量算出器120は、頻度カウン
タが与えられると、ベータ分布パラメータテーブル13
0に記憶されている事前分布を表わすベータ分布のパラ
メータα(wi |wn-1 )を読み取る(ステップ5
4)。ベイズ推定量算出器120は、次に、以下の式、
When given a frequency counter, the Bayesian estimator calculator 120 calculates the beta distribution parameter table 13
Parameter of the beta distribution representing the prior distributions stored in the 0 alpha | reading (w i w n-1) ( Step 5
4). Bayesian estimator calculator 120 then calculates the following equation:

【0035】[0035]

【数7】 (Equation 7)

【0036】で示されるKL情報量に関するベイズ推定
量を算出し(ステップ56)、n−gramベイズ推定
モデル、即ち、真のモデルと推定したモデルとの間の距
離であるKL情報量が有限の学習データに対してベイズ
基準の下で最小になるモデルを出力する(ステップ5
8)。次に、図5に示された低次n−gram学習部2
00の動作フローチャートを参照して、低次n−gra
m学習部200の動作を説明する。最初に、クラスマー
ジ器210は、ベイズ推定量算出器120から出力され
たn−gramベイズ推定モデルを読み込む(ステップ
60)。
A Bayesian estimator is calculated for the KL information amount represented by (step 56), and the KL information amount, which is the distance between the n-gram Bayesian estimation model, ie, the true model and the estimated model, is finite. Output a model that minimizes the learning data under the Bayes criterion (step 5)
8). Next, the low-order n-gram learning unit 2 shown in FIG.
00, the lower-order n-gra
The operation of the m learning unit 200 will be described. First, the class merger 210 reads the n-gram Bayesian estimation model output from the Bayesian estimator calculator 120 (step 60).

【0037】次に、クラスマージ器210は、|W|
n-1 個のクラスを用意し、各単語系列wn-1 に一つのク
ラスを割り当て(ステップ62)、タイムカウンタtを
0に設定する(ステップ64)。ここで、本発明の好ま
しい一実施例では、「単語の系列の集合」が「クラス」
に分割され、一方、上記の従来技術の近似学習手法の場
合、「単語の集合」を「クラス」に分割することに注意
する必要がある。本発明の好ましい一実施例によれば、
真のモデルに合わせた長さの系列の集合を考えているの
に対し、従来の手法では常に長さ1の系列、即ち、「単
語」の集合しか考慮していない。
Next, the class merger 210 calculates | W |
The n-1 classes are prepared, one class is assigned to each word sequence w n-1 (step 62), and the time counter t is set to 0 (step 64). Here, in one preferred embodiment of the present invention, the "set of a series of words" is "class".
On the other hand, in the case of the above-described approximate learning method of the related art, it is necessary to note that the "set of words" is divided into "classes". According to a preferred embodiment of the present invention,
While a set of sequences having a length matching the true model is considered, the conventional method always considers only a sequence of length 1, that is, a set of "words".

【0038】次に、クラスマージ器210は、KL情報
量算出器220によって算出される式、
Next, the class merger 210 calculates an expression calculated by the KL information amount calculator 220,

【0039】[0039]

【数8】 (Equation 8)

【0040】で示される量、即ち、二つのクラスをマー
ジすることによるKL情報量の増加量を最小にするよう
な二つのクラス、
In other words, two classes that minimize the amount of increase in the amount of KL information due to merging of the two classes,

【0041】[0041]

【外4】 [Outside 4]

【0042】をマージすることによって、なるべく真の
モデルに近いクラスの構成(分割C)を貪欲アルゴリズ
ムにより逐次的に求める(ステップ66)。但し、上式
(8)において、p(・|・,t)は時点tにおける近
似モデル(時点0では、n−gramベイズ推定モデル
に対応している)を表し、π(ci,t)は時点tにお
けるクラスci の定常分布を表わす。また、p(wk
i∪cj ,t+1)はマージする二つのクラス
(ci ,cj )を固定した下で、KL情報量の増加量を
最小にする推定値であり、以下の式、
Then, the configuration (division C) of the class as close as possible to the true model is sequentially obtained by the greedy algorithm (step 66). However, in the above equation (8), p (· | ·, t) denotes the approximate model at time t (At time 0, corresponding to the n-gram Bayesian estimation model), π (c i, t ) Represents the stationary distribution of class c i at time t. Also, p (w k |
c i ∪c j , t + 1) is an estimated value that minimizes the increase in the amount of KL information while fixing the two classes (c i , c j ) to be merged.

【0043】[0043]

【数9】 (Equation 9)

【0044】によって求められる。上記の(9)式から
分かるように、本発明の好ましい一実施例によれば、定
常分布で加重平均をとることによって、マージ操作毎に
伴うKL情報量の増加量を最小にする。尚、時点0のπ
(ci ,0)は以下の(10)式及び(11)式、
Is obtained by As can be seen from the above equation (9), according to a preferred embodiment of the present invention, the amount of increase in the amount of KL information associated with each merge operation is minimized by taking a weighted average with a stationary distribution. Note that π at time point 0
(C i , 0) is the following equation (10) and equation (11):

【0045】[0045]

【数10】 (Equation 10)

【0046】による連立方程式を解くことによって求め
られる。また、時点1以降の定常分布は、マージされた
クラスについては、式、 π(ci ∪cj ,t+1)=π(ci ,t)+π(cj ,t) (12) によって更新される。その他のクラスについては、次
式、 π(ci ,t+1)=π(ci ,t) (13) の通り、定常分布は変化しない。
Is obtained by solving the simultaneous equations Further, stationary distribution point 1 or later, for the merged class, the formula, π (c i ∪c j, t + 1) = π (c i, t) + π (c j, t) is updated by (12) You. For the other classes, the stationary distribution does not change, as in the following equation: π (c i , t + 1) = π (c i , t) (13)

【0047】マージされないクラスについて、p(wk
|ci ,t+1)は、次式、 p(wk |ci ,t+1)=p(wk |ci ,t) (14) の通り変化しない。尚、クラスマージ器210と、KL
情報量算出器220との間では、図3に示される如く、
(8)式のKL情報量を算出するために必要な分布情報
及びKL情報量の受け渡しが行われる。
For classes that are not merged, p (w k
| C i , t + 1) does not change as follows: p (w k | c i , t + 1) = p (w k | c i , t) (14) The class merge unit 210 and the KL
Between the information amount calculator 220 and the information amount calculator 220, as shown in FIG.
The distribution information and the KL information amount necessary for calculating the KL information amount in Expression (8) are transferred.

【0048】タイムカウンタは更新され(ステップ6
8)、タイムカウンタの値がTと一致したか否かが判定
され(ステップ68)、一致しない場合、ステップ66
に戻り、ステップ66がT回繰り返される。ステップ6
6をT回繰り返すことにより、クラス数を|W|n-1
T個に減少させた低次n−gram近似モデルが求めら
れる。パラメータ数に関して言うと、元のn−gram
モデルが|W|n-1 (|W|−1)個のパラメータを必
要とするのに対し、近似学習後の低次n−gram近似
モデルは、(|W|n-1 −T)(|W|−1)個のパラ
メータで表現できる。最終的にこの低次n−gram近
似モデルがクラスマージ器210から出力される。
The time counter is updated (step 6).
8) It is determined whether or not the value of the time counter matches T (step 68).
And step 66 is repeated T times. Step 6
6 is repeated T times, so that the number of classes is | W | n-1
A low-order n-gram approximate model reduced to T pieces is obtained. In terms of the number of parameters, the original n-gram
While the model requires | W | n−1 (| W | −1) parameters, the low-order n-gram approximation model after approximation learning has (| W | n−1 −T) ( | W | -1) parameters. Finally, the low-order n-gram approximation model is output from the class merger 210.

【0049】図6は本発明の一実施例による言語モデル
の学習システムの構成図である。言語モデルの学習シス
テムは、自然文が入力され、自然文を形態素に分離し、
形態素毎に分かち書きすることにより、学習データを生
成する形態素解析部50を有する。本例の学習システム
は、学習データが入力され、言語モデルに対応した真の
n−gramモデルとのKL情報量に関するベイズ推定
量を算出して、n−gramベイズ推定モデルを出力す
るn−gramベイズ学習部100を更に有する。ま
た、上記学習システムは、上記n−gramベイズ学習
部100によって学習されたn−gramベイズ推定モ
デルを受け、KL情報量を評価尺度として、上記n−g
ramベイズ推定モデルよりも少ないパラメータ数で表
現された低次n−gram近似モデルを算出する低次n
−gram学習部200を更に有する。本例の言語モデ
ルの学習システムを用いることにより、言語モデルを生
成すべき言語で記述された通常の文章のような自然文を
用いて、その言語の言語モデルの近似モデルを学習する
ことができる。
FIG. 6 is a block diagram of a language model learning system according to one embodiment of the present invention. The language model learning system receives natural sentences, separates them into morphemes,
It has a morphological analysis unit 50 that generates learning data by writing separately for each morpheme. The learning system of the present example receives learning data, calculates a Bayesian estimator regarding the KL information amount with a true n-gram model corresponding to a language model, and outputs an n-gram Bayesian estimation model. A Bayesian learning unit 100 is further provided. Further, the learning system receives the n-gram Bayesian estimation model learned by the n-gram Bayesian learning unit 100, and uses the KL information amount as an evaluation scale to evaluate the n-gram Bayesian estimation model.
low-order n for calculating a low-order n-gram approximation model represented by a smaller number of parameters than the ram Bayesian estimation model
Further, it has a gram learning unit 200. By using the language model learning system of this example, an approximate model of the language model of the language can be learned using a natural sentence such as a normal sentence described in a language in which the language model is to be generated. .

【0050】図7は本発明の他の実施例による文書ファ
イル圧縮システムの構成図である。この実施例による文
書ファイル圧縮システムは、図6を参照して説明した言
語モデルの学習システムを包含し、入力された文書ファ
イルを圧縮して、圧縮された文書ファイルを出力するシ
ステムである。文書ファイル圧縮システムは、自然文で
ある文書ファイルが入力され、学習データを生成する形
態素解析部50と、上記n−gramベイズ学習部10
0と、上記低次n−gram学習部200とからなる。
また、文書ファイル圧縮システムは、上記形態素解析部
50及び上記低次n−gram学習部200に接続さ
れ、学習データ及び低次n−gram近似モデルを受け
取り、近似モデルを利用して、分かち書きされたデータ
を圧縮し、圧縮された文書ファイルを出力する文書ファ
イル圧縮部300を更に有する。
FIG. 7 is a block diagram of a document file compression system according to another embodiment of the present invention. The document file compression system according to this embodiment includes the language model learning system described with reference to FIG. 6, and is a system that compresses an input document file and outputs a compressed document file. The document file compression system includes a morphological analysis unit 50 that receives a document file as a natural sentence and generates learning data, and the n-gram Bayesian learning unit 10.
0 and the lower-order n-gram learning unit 200.
Further, the document file compression system is connected to the morphological analysis unit 50 and the low-order n-gram learning unit 200, receives the learning data and the low-order n-gram approximation model, and is divided and written using the approximation model. It further includes a document file compression unit 300 that compresses data and outputs a compressed document file.

【0051】従来の文書圧縮技術は、文書ファイルを
0、1の系列として圧縮しているが、上記本発明の他の
実施例による文書圧縮システムは、形態素の系列として
文書を圧縮する点に特徴がある。圧縮の際に使用する確
率モデルを、圧縮させるべき文書ファイルに合わせて学
習することができるので、従来の文書圧縮技術よりも高
い圧縮効率を達成することが可能である。
Although the conventional document compression technique compresses a document file as a series of 0 and 1, the document compression system according to another embodiment of the present invention is characterized in that a document is compressed as a series of morphemes. There is. Since the probability model used for compression can be learned according to the document file to be compressed, it is possible to achieve higher compression efficiency than the conventional document compression technology.

【0052】また、言語モデルの近似学習装置の構成
は、上記の実施例で説明された例に限定されることな
く、言語モデルの近似学習装置の各々の構成要件をソフ
トウェア(プログラム)で構築し、ディスク装置等に格
納しておき、必要に応じて言語モデルの近似学習装置の
コンピュータにインストールして近似モデルの学習を行
うことも可能である。さらに、構築されたプログラムを
フロッピーディスクやCD−ROM等の可搬記憶媒体に
格納し、このようなシステムを用いる場面で汎用的に使
用することも可能である。
Further, the configuration of the language model approximation learning device is not limited to the example described in the above embodiment, and each component requirement of the language model approximation learning device is constructed by software (program). It can be stored in a disk device or the like, and installed in a computer of the language model approximation learning device as needed to perform approximation model learning. Further, the constructed program can be stored in a portable storage medium such as a floppy disk or a CD-ROM, and can be used for general purposes in a case where such a system is used.

【0053】本発明は、上記の実施例に限定されること
なく、特許請求の範囲内で種々変更・応用が可能であ
る。
The present invention is not limited to the above embodiments, but can be variously modified and applied within the scope of the claims.

【0054】[0054]

【実施例】図8は本発明による言語モデルの近似学習手
法のシミュレーション結果説明図である。本例では、真
のモデルとして|W|=10と、次式、
FIG. 8 is an explanatory diagram of a simulation result of the approximation learning method of a language model according to the present invention. In this example, | W | = 10 as a true model,

【0055】[0055]

【数11】 [Equation 11]

【0056】のような単純マルコフ連鎖の遷移確率行列
を有する2−gramモデルを仮定し、従来技術の近似
学習手法と、本発明による近似学習手法とをシミュレー
ションによって比較する。上記(15)式中のθ* は遷
移確率行列を支配する真のパラメータである。また、上
記本発明の好ましい一実施例によるベイズ推定量算出部
120でベイズ推定量を算出する際に、事前分布が一様
分布になるようにベータ分布パラメータテーブル130
のパラメータを設定している。
Assuming a 2-gram model having a simple Markov chain transition probability matrix as described above, the approximation learning method of the prior art and the approximation learning method of the present invention are compared by simulation. Θ * in the above equation (15) is a true parameter that governs the transition probability matrix. When calculating the Bayesian estimator in the Bayesian estimator calculator 120 according to a preferred embodiment of the present invention, the beta distribution parameter table 130 is used so that the prior distribution is uniform.
Parameters are set.

【0057】シミュレーションは、上記(15)式によ
る単純マルコフ連鎖から学習データを作成し、作成され
た学習データを基に従来技術の近似学習手法及び本発明
による近似学習手法で夫々に近似モデルを学習し、クロ
スエントロピーを用いて評価することにより行われる。
クロスエントロピーは分布の近さの評価として屡々使用
される評価尺度である。尚、エントロピーは理論的限界
値(真のモデル)であり、クロスエントロピーの値が低
いほど、真のモデルに近い近似モデルであると評価され
る。図8に本発明45として示される如く、本発明の近
似学習手法の場合、真のモデルが90個のパラメータを
持つのに対し、5個のクラスで表現することによって4
5個まで減少させられたパラメータで表現される近似モ
デルが得られる。一方、同図に従来65として示される
従来技術の近似学習手法の場合に、5個のクラスを用い
ることにより、パラメータの個数が65個まで減少させ
られる。また、同図に従来48として示される従来技術
の近似学習手法の場合に、4個のクラスを用いることに
より、パラメータの個数が48個まで減少させられてい
る。図8において、縦軸は評価尺度であるクロスエント
ロピー、横軸は学習データの長さを表わす。同図から分
かるように、本発明による近似モデルは、パラメータ数
の多い従来の近似学習手法よりも真のモデルに近い近似
モデルを学習する。即ち、本発明は、従来技術よりも少
ないパラメータで、より真のモデルに近い近似モデルを
学習することに成功している。また、本発明による近似
モデルのクロスエントロピーは、学習データの長さが長
くなるにつれて、単調減少することが分かる。
In the simulation, learning data is created from a simple Markov chain according to the above equation (15), and an approximate model is learned based on the created learning data by the approximate learning method of the prior art and the approximate learning method of the present invention. Then, evaluation is performed using cross entropy.
Cross-entropy is a rating scale often used as a measure of closeness of distribution. Note that entropy is a theoretical limit value (true model), and the lower the value of cross entropy, the closer to the true model the closer the model is evaluated. As shown in FIG. 8 as the present invention 45, in the case of the approximation learning method of the present invention, while the true model has 90 parameters, the true model has 4 parameters by expressing it in 5 classes.
An approximation model represented by the parameters reduced to five is obtained. On the other hand, in the case of the conventional approximation learning method shown as 65 in the same drawing, the number of parameters can be reduced to 65 by using five classes. Also, in the case of the conventional approximation learning method shown as conventional 48 in the figure, the number of parameters is reduced to 48 by using four classes. In FIG. 8, the vertical axis represents cross-entropy, which is an evaluation scale, and the horizontal axis represents the length of learning data. As can be seen from the figure, the approximate model according to the present invention learns an approximate model that is closer to the true model than the conventional approximate learning method having a large number of parameters. That is, the present invention succeeds in learning an approximate model closer to a true model with fewer parameters than in the related art. Also, it can be seen that the cross-entropy of the approximation model according to the present invention monotonically decreases as the length of the learning data increases.

【0058】[0058]

【発明の効果】上述のように、本発明によれば、KL情
報量に関するベイズ推定量を算出して、n−gramベ
イズ推定モデルを学習し、学習されたn−gramベイ
ズ推定モデルを受け、KL情報量を評価尺度として、上
記n−gramベイズ推定モデルよりも少ないパラメー
タ数で表現された低次n−gram近似モデルを学習す
るので、単語系列からなる学習データから真のモデルに
近い低次n−gram近似モデルを提示することが可能
になる。
As described above, according to the present invention, the Bayesian estimator for the KL information amount is calculated, the n-gram Bayesian estimating model is learned, and the learned n-gram Bayesian estimating model is received. Since a low-order n-gram approximation model represented by a smaller number of parameters than the n-gram Bayesian estimation model is learned using the KL information amount as an evaluation scale, a low-order n-gram approximation model close to a true model is obtained from the learning data composed of word sequences. It is possible to present an n-gram approximation model.

【0059】また、近似モデルを表現するパラメータの
個数が減少するので、近似モデルを実装するために必要
とされるメモリ容量が削減される利点が得られる。
Further, since the number of parameters representing the approximate model is reduced, there is an advantage that the memory capacity required for implementing the approximate model is reduced.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の原理構成図である。FIG. 1 is a principle configuration diagram of the present invention.

【図2】本発明の原理を説明するフローチャートであ
る。
FIG. 2 is a flowchart illustrating the principle of the present invention.

【図3】本発明による言語モデルの近似学習装置の好ま
しい一実施例の構成図である。
FIG. 3 is a block diagram of a preferred embodiment of a language model approximation learning apparatus according to the present invention.

【図4】本発明の好ましい一実施例によるn−gram
ベイズ学習部の動作フローチャートである。
FIG. 4 shows an n-gram according to a preferred embodiment of the present invention.
It is an operation flowchart of a Bayesian learning unit.

【図5】本発明の好ましい一実施例による低次n−gr
am学習部の動作フローチャートである。
FIG. 5 shows a lower order n-gr according to a preferred embodiment of the present invention.
It is an operation flowchart of an am learning unit.

【図6】本発明の一実施例による言語モデルの学習シス
テムの構成図である。
FIG. 6 is a configuration diagram of a language model learning system according to an embodiment of the present invention.

【図7】本発明の他の実施例による文書ファイル圧縮シ
ステムの構成図である。
FIG. 7 is a configuration diagram of a document file compression system according to another embodiment of the present invention.

【図8】本発明による言語モデルの近似学習手法のシミ
ュレーション結果説明図である。
FIG. 8 is an explanatory diagram of a simulation result of a language model approximation learning method according to the present invention.

【図9】従来の近似学習手法の動作原理の説明図であ
る。
FIG. 9 is an explanatory diagram of the operation principle of a conventional approximation learning method.

【符号の説明】[Explanation of symbols]

100 n−gramベイズ学習手段 200 低次n−gram学習手段 100 n-gram Bayes learning means 200 low-order n-gram learning means

Claims (9)

【特許請求の範囲】[Claims] 【請求項1】 パラメータで表現される言語モデルの近
似学習を行う装置において、 単語系列を学習データとして受け、上記言語モデルに対
応した真のn−gramモデルとのKL(カルバック・
ライブラー)情報量に関するベイズ推定量を算出して、
n−gramベイズ推定モデルを学習するn−gram
ベイズ学習手段と、 上記n−gramベイズ学習手段によって学習されたn
−gramベイズ推定モデルを受け、KL情報量を評価
尺度として、上記n−gramベイズ推定モデルよりも
少ないパラメータ数で表現された低次n−gram近似
モデルを算出する低次n−gram学習手段とにより構
成され、 上記学習データからKL情報量を評価尺度にして上記真
のn−gramモデルに近い低次n−gram近似モデ
ルを出力することを特徴とする、言語モデルの近似学習
装置。
1. An apparatus for performing approximate learning of a language model represented by a parameter, comprising: receiving a word sequence as learning data; and performing a KL (Kulbach / Kulbach) with a true n-gram model corresponding to the language model.
Liver) calculates a Bayesian estimator for the amount of information,
n-gram for learning an n-gram Bayesian estimation model
Bayes learning means; n learned by the n-gram Bayes learning means
A low-order n-gram learning means for receiving the -gram Bayesian estimation model and calculating a low-order n-gram approximate model represented by a smaller number of parameters than the n-gram Bayesian estimation model using the KL information amount as an evaluation scale; And outputting a low-order n-gram approximate model close to the true n-gram model using the KL information amount as an evaluation scale from the learning data.
【請求項2】 上記n−gramベイズ学習手段は、 上記学習データ中の単語系列(wn-l )の後に単語(w
i )が生起した回数を算出する頻度算出手段と、 上記単語系列(wn-l )の後に上記単語(wi )が生起
する事前分布のパラメータを記憶する分布パラメータテ
ーブルから上記事前分布のパラメータを読み取り、上記
頻度算出手段で算出された回数と、上記事前分布のパラ
メータとを用いて、上記真のモデルと上記推定されたn
−gramベイズ推定モデルとの間の距離を表すKL情
報量が上記学習データに対してベイズ基準の下で最小に
なるようにKL情報量に関するベイズ推定量を算出する
ベイズ推定量算出手段とからなることを特徴とする請求
項1記載の言語モデルの近似学習装置。
2. The n-gram Bayesian learning means includes: a word (w nl ) after a word sequence (w nl ) in the learning data;
Reading and frequency calculation means for i) calculates the number of times of occurrence, the parameters of the prior distribution from distribution parameter table storing parameters for the prior distribution of the word (w i) is occurring after the word sequence (w nl) Using the number of times calculated by the frequency calculation means and the parameter of the prior distribution, the true model and the estimated n
A Bayesian estimator calculating means for calculating a Bayesian estimator relating to the KL information amount so that the KL information amount representing a distance from the gram Bayesian estimation model is minimized under the Bayesian criterion with respect to the learning data. The language model approximation learning device according to claim 1, wherein:
【請求項3】 上記低次n−gram学習手段は、 長さn−1の単語系列毎に割り当てられたクラスに対
し、二つのクラスをマージする前の低次n−gram近
似モデルと、マージした後の低次n−gram近似モデ
ルとの間のKL情報量の増加量を算出するKL情報量算
出手段と、 上記KL情報量算出手段によって算出されたKL情報量
の増加量を最小に抑えるように二つのクラスをマージす
るクラスマージ手段とからなり、 上記n−gramベイズ学習手段から受けた上記n−g
ramベイズ推定モデルを最初の上記前の低次n−gr
am近似モデルとして利用し、上記真のn−gramモ
デルに近いクラスの構成を順次に得ることを特徴とする
請求項1又は2記載の言語モデルの近似学習装置。
3. A low-order n-gram approximation model before merging two classes with respect to a class assigned to each word sequence having a length of n-1. KL information amount calculation means for calculating an increase amount of the KL information amount between the low order n-gram approximation model after the above, and an increase amount of the KL information amount calculated by the KL information amount calculation means is minimized. And a class merging means for merging the two classes as described above. The ng received from the n-gram Bayes learning means
The ram Bayesian estimation model is first reduced to the previous lower order n-gr
3. The approximation learning apparatus for a language model according to claim 1, wherein the apparatus is used as an am approximation model, and sequentially obtains a class configuration close to the true n-gram model.
【請求項4】 パラメータで表現された言語モデルを近
似学習する方法において、 単語系列を学習データとして入力する段階と、 上記言語モデルに対応した真のn−gramモデルとの
KL情報量に関するベイズ推定量を算出してn−gra
mベイズ推定モデルを学習する段階と、 上記学習されたn−gramベイズ推定モデルを受け、
KL情報量を評価尺度として、上記n−gramベイズ
推定モデルよりも少ないパラメータ数で表現された低次
n−gram近似モデルを学習する段階と、 上記学習により得られた上記真のn−gramモデルに
近い低次n−gram近似モデルを出力する段階とから
なることを特徴とする、言語モデルの近似学習方法。
4. A method for approximately learning a language model represented by parameters, comprising the steps of: inputting a word sequence as learning data; and performing Bayesian estimation on the KL information amount of a true n-gram model corresponding to the language model. Calculate the amount and n-gra
learning an m-bays estimation model; receiving the learned n-gram Bayesian estimation model;
Learning a low-order n-gram approximate model represented by a smaller number of parameters than the n-gram Bayesian estimation model, using the KL information amount as an evaluation scale; and the true n-gram model obtained by the learning. And outputting a low-order n-gram approximation model close to the language model.
【請求項5】 上記n−gramベイズ推定モデルを学
習する段階は、学習データ中において単語系列
(wn-1 )の後に単語(wi )が生起した回数 を算出する段階と、 事前分布を表わすベータ分布のパラメータを読み取る段
階と、 上記KL情報量に関するベイズ推定量を算出する段階
と、 真のモデルと推定したモデルとの間の距離であるKL情
報量が有限の学習データに対してベイズ基準の下で最小
になる上記n−gramベイズ推定モデルを出力する段
階とからなることを特徴とする請求項4記載の言語モデ
ルの近似学習方法。
Wherein the step of learning the n-gram Bayesian estimation model includes the steps of calculating the number of times the word (w i) has occurred after the word sequence (w n-1) during the training data, the prior distribution Reading the parameters of the beta distribution to be represented, calculating the Bayesian estimator for the KL information amount, and calculating the Bayesian estimator for the learning data in which the distance between the true model and the estimated model is finite. Outputting the n-gram Bayesian estimation model which is minimized under a criterion.
【請求項6】 上記低次n−gramモデルを学習する
段階は、 上記n−gramベイズ推定モデルを読み込む段階と、 長さn−1の各単語系列に一つのクラスを割り当てる段
階と、 KL情報量の増加量を最小にするような二つのクラスを
マージすることによって、なるべく真のモデルに近いク
ラスの構成を逐次的に求め、クラス数が減少させられた
低次n−gram近似モデルを算出する段階と、 上記低次n−gram近似モデルが出力される段階とか
らなることを特徴とする請求項4又は5記載の言語モデ
ルの近似学習方法。
6. The step of learning the low-order n-gram model, the step of reading the n-gram Bayesian estimation model, the step of assigning one class to each word sequence of length n−1, By merging two classes that minimize the amount of increase, the configuration of classes that are as close as possible to the true model is sequentially obtained, and a low-order n-gram approximation model with a reduced number of classes is calculated. The approximation learning method for a language model according to claim 4, further comprising: performing a step of outputting the low-order n-gram approximation model.
【請求項7】 パラメータで表現される言語モデルの近
似学習プログラムを記録した記録媒体であって、 単語系列を学習データとして受け、上記言語モデルに対
応した真のn−gramモデルとのKL(カルバック・
ライブラー)情報量に関するベイズ推定量を算出して、
n−gramベイズ推定モデルを学習させるプロセス
と、 KL情報量を評価尺度として、上記n−gramベイズ
推定モデルよりも少ないパラメータ数で表現された低次
n−gram近似モデルを算出させるプロセスとにより
構成され、 上記学習データからKL情報量を評価尺度にして上記真
のn−gramモデルに近い低次n−gram近似モデ
ルを出力させることを特徴とする言語モデルの近似学習
プログラムを記録した記録媒体。
7. A recording medium storing an approximate learning program for a language model represented by parameters, which receives a word sequence as learning data, and performs a KL (Kullback) comparison with a true n-gram model corresponding to the language model.・
Liver) calculates a Bayesian estimator for the amount of information,
a process of learning an n-gram Bayesian estimation model; and a process of calculating a low-order n-gram approximation model represented by a smaller number of parameters than the n-gram Bayesian estimation model using the KL information amount as an evaluation scale. A recording medium storing a language model approximate learning program characterized by outputting a low-order n-gram approximate model close to the true n-gram model using the KL information amount as an evaluation scale from the learning data.
【請求項8】 上記学習データ中の単語系列(wn-l
の後に単語(wi )が生起した回数を算出させるプロセ
スと、 上記単語系列(wn-l )の後に上記単語(wi )が生起
する事前分布のパラメータを記憶する分布パラメータテ
ーブルから上記事前分布のパラメータを読み取り、上記
頻度算出手段で算出された回数と、上記事前分布のパラ
メータとを用いて、上記真のモデルと上記推定されたn
−gramベイズ推定モデルとの間の距離を表すKL情
報量が上記学習データに対してベイズ基準の下で最小に
なるようにKL情報量に関するベイズ推定量を算出させ
るプロセスとを更に有することを特徴とする請求項7記
載の言語モデルの近似学習プログラムを記録した記録媒
体。
8. A word sequence (w nl ) in the learning data
Of the process of word (w i) is to calculate the number of times that has occurred after, the distribution parameter table storing parameters for the prior distribution of the word (w i) is occurring after the word sequence (w nl) of the prior distribution The parameter is read, and the true model and the estimated n are calculated using the number of times calculated by the frequency calculation means and the parameter of the prior distribution.
Calculating a Bayesian estimator for the KL information amount such that the KL information amount representing the distance from the gram Bayesian estimation model is minimized under the Bayesian criterion for the learning data. A recording medium storing the language model approximate learning program according to claim 7.
【請求項9】 長さn−1の単語系列毎に割り当てられ
たクラスに対し、二つのクラスをマージする前の低次n
−gram近似モデルと、マージした後の低次n−gr
am近似モデルとの間のKL情報量の増加量を算出させ
るプロセスと、 上記算出されたKL情報量の増加量を最小に抑えるよう
に二つのクラスをマージするプロセスとを更に有し、 上記n−gramベイズ推定モデルを最初の上記前の低
次n−gram近似モデルとして利用し、上記真のn−
gramモデルに近いクラスの構成を順次に得ることを
特徴とする請求項7又は8記載の言語モデルの近似学習
プログラムを記録した記録媒体。
9. A low-order n before merging two classes with respect to a class assigned to each word sequence having a length of n-1.
-Gram approximate model and low-order n-gr after merging
further comprising: a process for calculating an increase in the amount of KL information between the am approximation model; and a process for merging two classes so as to minimize the calculated increase in the amount of KL information; Using the gram Bayesian estimation model as the first previous lower order n-gram approximation model, and using the true n-
9. A recording medium storing a language model approximate learning program according to claim 7, wherein a class configuration close to a gram model is sequentially obtained.
JP10099488A 1998-04-10 1998-04-10 Language model approximation learning device, its method and storage medium recording approximation learning program Pending JPH11296515A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10099488A JPH11296515A (en) 1998-04-10 1998-04-10 Language model approximation learning device, its method and storage medium recording approximation learning program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10099488A JPH11296515A (en) 1998-04-10 1998-04-10 Language model approximation learning device, its method and storage medium recording approximation learning program

Publications (1)

Publication Number Publication Date
JPH11296515A true JPH11296515A (en) 1999-10-29

Family

ID=14248699

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10099488A Pending JPH11296515A (en) 1998-04-10 1998-04-10 Language model approximation learning device, its method and storage medium recording approximation learning program

Country Status (1)

Country Link
JP (1) JPH11296515A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004302470A (en) * 2003-03-31 2004-10-28 Microsoft Corp Method of noise estimation using incremental bayes learning
US7374783B2 (en) * 2004-07-27 2008-05-20 Miyoshi Kasei, Inc. Powders coated with specific lipoamino acid composition and cosmetics containing the same

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004302470A (en) * 2003-03-31 2004-10-28 Microsoft Corp Method of noise estimation using incremental bayes learning
US7374783B2 (en) * 2004-07-27 2008-05-20 Miyoshi Kasei, Inc. Powders coated with specific lipoamino acid composition and cosmetics containing the same

Similar Documents

Publication Publication Date Title
KR102117160B1 (en) A text processing method and device based on ambiguous entity words
CN112115706B (en) Text processing method and device, electronic equipment and medium
CN110033760B (en) Modeling method, device and equipment for speech recognition
CN108920461B (en) Multi-type entity extraction method and device containing complex relationships
WO2022121251A1 (en) Method and apparatus for training text processing model, computer device and storage medium
CN103854643B (en) Method and apparatus for synthesizing voice
WO2019156101A1 (en) Device for estimating deterioration factor of speech recognition accuracy, method for estimating deterioration factor of speech recognition accuracy, and program
CN115831102A (en) Speech recognition method and device based on pre-training feature representation and electronic equipment
CN113780418B (en) Data screening method, system, equipment and storage medium
CN112652299B (en) Quantification method and device of time series speech recognition deep learning model
JP7211103B2 (en) Sequence labeling device, sequence labeling method, and program
CN110413779B (en) Word vector training method, system and medium for power industry
CN112527967A (en) Text matching method, device, terminal and storage medium
CN111048065A (en) Text error correction data generation method and related device
JPH11296515A (en) Language model approximation learning device, its method and storage medium recording approximation learning program
JP6633556B2 (en) Acoustic model learning device, speech recognition device, acoustic model learning method, speech recognition method, and program
CN112530416B (en) Speech recognition method, apparatus, device and computer readable medium
JPH11143875A (en) Device and method for automatic word classification
WO2024150422A1 (en) Speech recognition device, speech recognition method, and program
WO2024150423A1 (en) Language model training device, language model training method, and program
WO2022244047A1 (en) Learning device, learning method, and program
CN115146049B (en) Question and answer retrieval method, model training method, device, equipment and storage medium
JP6852167B2 (en) Confusion network distributed representation generation device, confusion network classification device, confusion network distributed representation generation method, confusion network classification method, program
JP2017090731A (en) Voice recognition result compression device, voice recognition result compression method, and program
CN110619869B (en) Method and apparatus for training hybrid language recognition models