JP3043625B2 - Word classification processing method, word classification processing device, and speech recognition device - Google Patents

Word classification processing method, word classification processing device, and speech recognition device

Info

Publication number
JP3043625B2
JP3043625B2 JP8198950A JP19895096A JP3043625B2 JP 3043625 B2 JP3043625 B2 JP 3043625B2 JP 8198950 A JP8198950 A JP 8198950A JP 19895096 A JP19895096 A JP 19895096A JP 3043625 B2 JP3043625 B2 JP 3043625B2
Authority
JP
Japan
Prior art keywords
class
words
classes
word
storage device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP8198950A
Other languages
Japanese (ja)
Other versions
JPH09282321A (en
Inventor
明 潮田
仁 飯田
Original Assignee
株式会社エイ・ティ・アール音声翻訳通信研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社エイ・ティ・アール音声翻訳通信研究所 filed Critical 株式会社エイ・ティ・アール音声翻訳通信研究所
Priority to JP8198950A priority Critical patent/JP3043625B2/en
Publication of JPH09282321A publication Critical patent/JPH09282321A/en
Application granted granted Critical
Publication of JP3043625B2 publication Critical patent/JP3043625B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、音声認識装置、形
態素解析装置、及び構文解析装置のための単語分類処理
方法及び単語分類処理装置、並びに、上記単語分類処理
装置を備えた音声認識装置に関する。
The present invention relates to a word classification processing method and a word classification processing device for a speech recognition device, a morphological analysis device and a syntax analysis device, and a speech recognition device provided with the word classification processing device. .

【0002】[0002]

【従来の技術】単語の分類体系は、音声認識装置、形態
素解析装置や構文解析装置において処理を円滑に行う上
で非常に重要な知識の1つである。この単語の分類体系
を構築するための1つの方法として、大量のテキストデ
ータに基づいて単語間の相互情報量を用いた方法(以
下、第1の従来例という。)が、例えば、従来技術文献
「Peter Brown, et al, “Class-Based n-gram Models
of Natural Language", Computational Linguistics,Vo
l.18,No.4,pp.467-479,1992年」において提案され
ている。この従来例の方法においては、n−グラムモデ
ルを用いて所定の相互情報量を計算して英単語の分類を
行っている。
2. Description of the Related Art A word classification system is one of very important knowledges for smooth processing in a speech recognition device, a morphological analysis device and a syntax analysis device. As one method for constructing this word classification system, a method using a mutual information amount between words based on a large amount of text data (hereinafter, referred to as a first conventional example) is described in, for example, the related art document. “Peter Brown, et al,“ Class-Based n-gram Models
of Natural Language ", Computational Linguistics, Vo
l. 18, No. 4, pp. 467-479, 1992 ". In the conventional method, a predetermined mutual information amount is calculated using an n-gram model to classify English words.

【0003】しかしながら、第1の従来例の相互情報量
による分類処理方法を用いて英単語を分類した場合、出
現頻度の低い単語が不適切に分類される場合が多いとい
う問題点があった。この問題点を解決するために、単語
分類処理装置及び音声認識装置(以下、第2の従来例と
いう。)が、本出願人により特願平7−056918号
の特許出願において提案されている。
[0003] However, when English words are classified using the mutual information classification method of the first conventional example, there is a problem that words with low appearance frequency are often inappropriately classified. In order to solve this problem, a word classification processing device and a speech recognition device (hereinafter, referred to as a second conventional example) have been proposed by the present applicant in the patent application of Japanese Patent Application No. 7-056918.

【0004】当該第2の従来例の単語分類処理装置は、
単語のn−グラムを利用して、同一の単語に隣接する割
合の多い単語を同一のクラスに割り当てるという基準で
複数の単語を複数のクラスに分類する第1の分類手段
と、上記第1の分類手段によって分類された複数の単語
に対して、すべての単語の出現頻度を調べ、互いに異な
る第1のクラスの単語と第2のクラスの単語とが隣接し
て出現する頻度を、上記第1のクラスの単語の出現頻度
と第2のクラスの単語の出現頻度との積に対する相対的
な頻度の割合を表わす所定の相互情報量が最大となるよ
うに、上記複数の単語を二分木の形式で複数のクラスに
分類する第2の分類手段とを備えたことを特徴としてい
る。ここで、上記第2の分類手段は、好ましくは、上記
第1の分類手段によって分類された複数の単語に対し
て、すべての単語の出現頻度を調べ、出現頻度の高い単
語から順に、所定の複数N個のクラスに割り当て、N個
のクラスの中で上記相互情報量が最大である2つのクラ
スを1つのクラスとしてまとめることにより、(N−
1)個のクラスに分類し、クラスに割り当てられていな
い単語の中で、出現頻度が最大のものを新たにN番目の
クラスとして割り当て、すべての単語がN個のクラスに
割り当てられるまで、上記の処理を繰り返し、現在ある
クラスから上記相互情報量が最大である2つのクラスを
1つのクラスとしてまとめ、この処理を1個のクラスに
まとまるまで繰り返す。これにより、単語分類をより安
定に実行することができ、テキストデータから単語の分
類体系を自動的に獲得するときに、より精密で正確な分
類体系を得ることができるという特徴を有する。
[0004] The second conventional example of the word classification processing device,
A first classifying unit that classifies a plurality of words into a plurality of classes on the basis of assigning words having a high ratio adjacent to the same word to the same class using an n-gram of the word; For a plurality of words classified by the classification means, the frequencies of appearance of all the words are checked, and the frequencies of the first class words and the second class words, which are different from each other, appearing adjacent to each other are determined by the first class. The plurality of words are divided into a binary tree so that a predetermined mutual information representing the ratio of the relative frequency to the product of the frequency of appearance of the words of the class of the second class and the frequency of appearance of the words of the second class is maximized. And a second classifying means for classifying into a plurality of classes. Here, it is preferable that the second classifying unit examines the appearance frequency of all the words with respect to the plurality of words classified by the first classifying unit, and determines the predetermined frequency in order from the word having the highest appearance frequency. By assigning to a plurality of N classes and combining the two classes having the largest mutual information amount among the N classes into one class, (N−
1) Classify into classes, and among words not assigned to a class, assign a new word having the highest appearance frequency as the Nth class, and repeat the above until all words are assigned to N classes. Is repeated, and the two classes having the largest mutual information amount from the current class are combined into one class, and this process is repeated until the classes are combined. Thereby, the word classification can be performed more stably, and when automatically acquiring the word classification system from the text data, a more precise and accurate classification system can be obtained.

【0005】[0005]

【発明が解決しようとする課題】上記第1の従来例の相
互情報量による分類処理方法を用いて英単語を分類した
場合、出現頻度の低い単語が不適切に分類される場合が
多い。この原因としては、分離結果がバランスのとれた
階層構造となっていないためであると考えられる。
When English words are classified using the mutual information amount classification method of the first conventional example, words with low appearance frequency are often inappropriately classified. It is considered that this is because the separation result does not have a balanced hierarchical structure.

【0006】また、上記第2の従来例においては、互い
に異なる第1のクラスの単語と第2のクラスの単語とが
隣接して出現する頻度を、上記第1のクラスの単語の出
現頻度と第2のクラスの単語の出現頻度との積に対する
相対的な頻度の割合を表わす所定の相互情報量が最大と
なるように、上記複数の単語を二分木の形式で複数のク
ラスに分類しているので、上記第1のクラスの単語と上
記第2のクラスの単語においては、局所的に最適化され
た単語分類結果を得ることができるが、全体的に最適化
された単語分類結果を得ることができないという問題点
があった。
Further, in the second conventional example, the frequency at which the first class word and the second class word which are different from each other appear adjacently is determined by the appearance frequency of the first class word. The plurality of words are classified into a plurality of classes in the form of a binary tree so that the predetermined mutual information representing the ratio of the relative frequency to the product of the frequency of appearance of the words of the second class is maximized. Therefore, for the words of the first class and the words of the second class, a locally optimized word classification result can be obtained, but a totally optimized word classification result can be obtained. There was a problem that it was not possible.

【0007】本発明の目的は以上の問題点を解決し、単
語分類処理によりバランスのとれた階層構造を有しかつ
全体的に最適化された単語分類結果を得ることができる
単語分類処理方法、単語分類処理装置、及びその単語分
類処理装置を備えた音声認識装置を提供することにあ
る。
An object of the present invention is to solve the above problems, to provide a word classification processing method capable of obtaining a word classification result which has a balanced hierarchical structure by the word classification processing and is totally optimized. An object of the present invention is to provide a word classification processing device and a speech recognition device provided with the word classification processing device.

【0008】[0008]

【課題を解決するための手段】本発明に係る請求項1記
載の単語分類処理方法は、複数の単語を含むテキストデ
ータに対して、互いに異なるすべての複数v個の単語の
出現頻度を調べ、出現頻度の高い単語から順に並べて、
複数v個のクラスに割り当てるステップと、上記複数v
個のクラスの単語のうち出現頻度が高いv個未満の(c
+1)個のクラスの単語を1つのウィンドウ内のクラス
の単語として第1の記憶装置に記憶するステップと、上
記第1の記憶装置に記憶された1つのウィンドウ内のク
ラスの単語に基づいて、第1のクラスの単語の出現確率
と第2のクラスの単語の出現確率との積に対する、互い
に異なる第1のクラスの単語と第2のクラスの単語とが
隣接して出現する確率の相対的な割合を表わす所定の平
均相互情報量が最大となるように、上記複数の単語を二
分木の形式で複数c個のクラスに分類し、分類された複
数c個のクラスを、単語分類結果を表わす全体のツリー
図の中間層の複数c個のクラスとして第2の記憶装置に
記憶するステップと、上記第2の記憶装置に記憶された
中間層の複数c個のクラスの単語に基づいて、上記平均
相互情報量が最大となるように、上記複数c個のクラス
の単語を二分木の形式で1個のクラスになるまで分類
し、当該分類結果を上記ツリー図の上側層として第3の
記憶装置に記憶するステップと、上記第2の記憶装置に
記憶された中間層の複数c個のクラスの各クラス毎に、
上記中間層の複数c個のクラスの各クラス内の複数の単
語に基づいて、上記平均相互情報量が最大となるよう
に、上記複数の単語を二分木の形式で1個のクラスにな
るまでそれぞれ分類し、当該各クラス毎の複数の分類結
果を上記ツリー図の下側層として第4の記憶装置に記憶
するステップと、上記第4の記憶装置に記憶された上記
ツリー図の下側層を、上記第2の記憶装置に記憶された
上記中間層の複数c個のクラスと連結する一方、上記第
3の記憶装置に記憶された上記ツリー図の上側層を、上
記第2の記憶装置に記憶された上記中間層の複数c個の
クラスと連結することにより、上側層と中間層と下側層
とを備えた上記ツリー図を求めて単語分類結果として第
5の記憶装置に記憶するステップとを備えたことを特徴
とする。
According to a first aspect of the present invention, there is provided a word classification processing method comprising: examining text data including a plurality of words; Sort by words that appear frequently,
Assigning to a plurality v of classes;
Less than v words with high appearance frequency (c
+1) storing the words of the class as words of the class in one window in the first storage device, and based on the words of the class in one window stored in the first storage device, Relative to the product of the probability of occurrence of the first class word and the probability of occurrence of the second class word, the probability that the first class word and the second class word that are different from each other appear adjacent to each other The above-mentioned plurality of words are classified into a plurality of c classes in the form of a binary tree so that the predetermined average mutual information amount representing the maximum ratio is maximized. Storing in the second storage device a plurality of c classes of the intermediate layer of the entire tree diagram to be represented; and based on the words of the plurality of c classes of the intermediate layer stored in the second storage device, Above average mutual information is maximum Classifying the words of the plurality of c classes into one class in the form of a binary tree so as to store the classification result in a third storage device as an upper layer of the tree diagram; For each of the plurality c classes of the intermediate layer stored in the second storage device,
On the basis of a plurality of words in each of the plurality of c classes of the intermediate layer, the plurality of words are divided into one class in the form of a binary tree so that the average mutual information is maximized. Classifying each of the classes and storing a plurality of classification results for each class in a fourth storage device as a lower layer of the tree diagram; and a lower layer of the tree diagram stored in the fourth storage device. Is connected to the plurality of c classes of the intermediate layer stored in the second storage device, while the upper layer of the tree diagram stored in the third storage device is connected to the second storage device. The above-mentioned tree diagram including the upper layer, the intermediate layer, and the lower layer is obtained by linking with the plurality of c classes of the intermediate layer stored in the fifth storage device, and is stored in the fifth storage device as a word classification result. And a step.

【0009】また、請求項2記載の単語分類処理方法
は、請求項1記載の単語分類処理方法において、上記分
類された複数c個のクラスを上記第2の記憶装置に記憶
するステップは、上記第1の記憶装置に記憶された1つ
のウィンドウよりも外側のクラスが存在し、又は上記1
つのウィンドウ内のクラスがc個ではないときは、現在
のウィンドウよりも外側にあり、最大の出現頻度を有す
るクラスの単語を上記ウィンドウ内に挿入した後、上記
二分木の形式の単語分類処理を実行することを特徴とす
る。
According to a second aspect of the present invention, in the word classification processing method of the first aspect, the step of storing the plurality of classified c classes in the second storage device includes the step of: There is a class outside one window stored in the first storage device, or
When the number of classes in one window is not c, the words of the class that is outside the current window and has the highest frequency of occurrence are inserted into the window, and then the word classification processing in the form of the binary tree is performed. It is characterized by executing.

【0010】本発明に係る請求項3記載の単語分類処理
装置は、複数の単語を含むテキストデータに対して、互
いに異なるすべての複数v個の単語の出現頻度を調べ、
出現頻度の高い単語から順に並べて、複数v個のクラス
に割り当てる第1の制御手段と、上記複数v個のクラス
の単語のうち出現頻度が高いv個未満の(c+1)個の
クラスの単語を1つのウィンドウ内のクラスの単語とし
て第1の記憶装置に記憶する第2の制御手段と、上記第
1の記憶装置に記憶された1つのウィンドウ内のクラス
の単語に基づいて、第1のクラスの単語の出現確率と第
2のクラスの単語の出現確率との積に対する、互いに異
なる第1のクラスの単語と第2のクラスの単語とが隣接
して出現する確率の相対的な割合を表わす所定の平均相
互情報量が最大となるように、上記複数の単語を二分木
の形式で複数c個のクラスに分類し、分類された複数c
個のクラスを、単語分類結果を表わす全体のツリー図の
中間層の複数c個のクラスとして第2の記憶装置に記憶
する第3の制御手段と、上記第2の記憶装置に記憶され
た中間層の複数c個のクラスの単語に基づいて、上記平
均相互情報量が最大となるように、上記複数c個のクラ
スの単語を二分木の形式で1個のクラスになるまで分類
し、当該分類結果を上記ツリー図の上側層として第3の
記憶装置に記憶する第4の制御手段と、上記第2の記憶
装置に記憶された中間層の複数c個のクラスの各クラス
毎に、上記中間層の複数c個のクラスの各クラス内の複
数の単語に基づいて、上記平均相互情報量が最大となる
ように、上記複数の単語を二分木の形式で1個のクラス
になるまでそれぞれ分類し、当該各クラス毎の複数の分
類結果を上記ツリー図の下側層として第4の記憶装置に
記憶する第5の制御手段と、上記第4の記憶装置に記憶
された上記ツリー図の下側層を、上記第2の記憶装置に
記憶された上記中間層の複数c個のクラスと連結する一
方、上記第3の記憶装置に記憶された上記ツリー図の上
側層を、上記第2の記憶装置に記憶された上記中間層の
複数c個のクラスと連結することにより、上側層と中間
層と下側層とを備えた上記ツリー図を求めて単語分類結
果として第5の記憶装置に記憶する第6の制御手段とを
備えたことを特徴とする。
[0010] According to a third aspect of the present invention, in the word classification processing apparatus, for text data including a plurality of words, an appearance frequency of all a plurality of v words different from each other is checked.
First control means for sequentially arranging words having a high frequency of occurrence and assigning them to a plurality of v classes; and, among words of the plurality of v classes, words of less than v (c + 1) classes having a high frequency of occurrence, A second control unit for storing the words of the class in one window in the first storage device, and a first class based on the words of the class in one window stored in the first storage device. Represents the relative ratio of the probability that the first class word and the second class word that are different from each other appear adjacent to the product of the occurrence probability of the second word and the occurrence probability of the second class word The plurality of words are classified into a plurality c classes in the form of a binary tree such that the predetermined average mutual information amount is maximized, and the classified plurality c
Control means for storing the plurality of classes in the second storage device as a plurality of c classes in the middle layer of the entire tree diagram representing the word classification result, and the intermediate control means for storing the intermediate classes stored in the second storage device. Based on the words of the plurality c classes of the layer, the words of the plurality c classes are classified into one class in the form of a binary tree so that the average mutual information amount is maximized. Fourth control means for storing the classification result in the third storage device as an upper layer of the tree diagram, and for each of a plurality of c classes of the intermediate layer stored in the second storage device, Based on the plurality of words in each of the plurality of c classes in the intermediate layer, the plurality of words are each converted into a single tree in the form of a binary tree such that the average mutual information is maximized. And classify the results of each class into the above tree. Fifth control means for storing in the fourth storage device as a lower layer of the diagram, and a lower layer of the tree diagram stored in the fourth storage device being stored in the second storage device. While linking with the plurality of c classes of the intermediate layer, the upper layer of the tree diagram stored in the third storage device is combined with the plurality of c classes of the intermediate layer stored in the second storage device. A sixth control unit that obtains the tree diagram including the upper layer, the intermediate layer, and the lower layer by linking with the class, and stores the tree diagram as a word classification result in the fifth storage device. And

【0011】また、請求項4記載の単語分類処理装置
は、請求項3記載の単語分類処理装置において、上記第
3の制御手段は、上記第1の記憶装置に記憶された1つ
のウィンドウよりも外側のクラスが存在し、又は上記1
つのウィンドウ内のクラスがc個ではないときは、現在
のウィンドウよりも外側にあり、最大の出現頻度を有す
るクラスの単語を上記ウィンドウ内に挿入した後、上記
二分木の形式の単語分類処理を実行することを特徴とす
る。
According to a fourth aspect of the present invention, there is provided a word classification processing apparatus according to the third aspect, wherein the third control means is configured to execute the processing by the third control means more than one window stored in the first storage device. An outer class exists, or 1
When the number of classes in one window is not c, the words of the class that is outside the current window and has the highest frequency of occurrence are inserted into the window, and then the word classification processing in the form of the binary tree is performed. It is characterized by executing.

【0012】本発明に係る請求項5記載の音声認識装置
は、入力される発声音声の音声信号に基づいて、請求項
3又は4記載の単語分類処理装置によって複数の単語が
複数のクラスに分類された単語分類結果を含む単語辞書
と、所定の隠れマルコフモデルとを参照して上記発声音
声を音声認識する音声認識手段を備えたことを特徴とす
る。
According to a fifth aspect of the present invention, there is provided a speech recognition apparatus, wherein a plurality of words are classified into a plurality of classes by the word classification processing apparatus according to the third or fourth aspect based on an input speech signal. And a speech recognition unit for recognizing the uttered speech by referring to a word dictionary including the word categorized result and a predetermined hidden Markov model.

【0013】[0013]

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。図1は、本発明に係る第
1の実施形態の音声認識装置のブロック図である。この
音声認識装置は、テキストデータメモリ10内のテキス
トデータ内の単語について出現頻度の比較的低い単語
を、同一の単語に隣接する割合の多い単語を同一のクラ
スに割り当てるという基準で分類した後、単語分類結果
を中間層、上側層、及び下側層の3つの階層に分類し、
テキストデータ内のすべての単語を対象とするグローバ
ルな(全体的な)コスト関数である所定の平均相互情報
量を用いて、中間層、上側層、及び下側層の順序で階層
別に単語の分類を実行して、単語辞書メモリ11内に単
語辞書として格納する単語分類処理部20を備えたこと
を特徴とする。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram of a speech recognition device according to a first embodiment of the present invention. This speech recognition apparatus classifies words having a relatively low frequency of appearance with respect to words in text data in the text data memory 10 on the basis of assigning words having a high percentage of adjacent words to the same class to the same class. The word classification results are classified into three layers: an intermediate layer, an upper layer, and a lower layer,
Using a predetermined average mutual information, which is a global (overall) cost function for all words in the text data, classify words by hierarchy in the order of middle layer, upper layer, and lower layer And a word classification processing unit 20 that stores the word as a word dictionary in the word dictionary memory 11.

【0014】<単語分類処理方法>まず、本発明に係る
本実施形態の単語の分類(クラスタリング)方法につい
て、第1の従来例の方法と対比させて説明する。本発明
の方法は、従来技術文献に開示された第1の従来例の方
法を修正しかつ大幅に発展させて改善させた方法であっ
て、第1の従来例の式と、本実施形態の式との相違につ
いて説明し、次いで、単語の分類処理方法について説明
する。ここで、第1の従来例と、本実施形態とを比較す
るために、第1の従来例で用いた表記法と同一の表記法
を用いることにする。
<Word Classification Processing Method> First, the word classification (clustering) method of the present embodiment according to the present invention will be described in comparison with the method of the first conventional example. The method of the present invention is a method in which the method of the first conventional example disclosed in the prior art document is modified and greatly developed and improved. The method of the first conventional example and the method of the present embodiment are modified. The difference from the expression will be described, and then the word classification processing method will be described. Here, in order to compare the first conventional example with the present embodiment, the same notation as that used in the first conventional example will be used.

【0015】まず、相互情報量を用いたクラスタリング
の方法について述べる。ここで、単語数Tのテキスト、
語数Vの語彙、それに語彙の分割関数πとが存在すると
仮定し、ここで、語彙の分割関数πは語彙Vから語彙の
中の単語クラスセットCへの分割写像(マッピング)を
表わす写像関数である。第1の従来例においては、複数
の単語からなるテキストデータを生成するバイグラムの
クラスモデルの尤度L(π)は次式によって得られる。
First, a clustering method using mutual information will be described. Here, a text with the number of words T,
It is assumed that a vocabulary having the number of words V and a vocabulary division function π exist, where the vocabulary division function π is a mapping function representing a division mapping from the vocabulary V to the word class set C in the vocabulary. is there. In the first conventional example, the likelihood L (π) of a bigram class model that generates text data composed of a plurality of words is obtained by the following equation.

【0016】[0016]

【数1】L(π)=−H+I## EQU1 ## L (π) =-H + I

【0017】ここで、Hはモノグラムの単語分布のエン
トロピーであり、Iはテキストデータ内の隣接する2つ
のクラスC1,C2に関する平均的な相互情報量(Averag
e Mutual Information;以下、平均相互情報量とし、A
MIと表記する。)であり、次式で計算することができ
る。
Here, H is the entropy of the word distribution of the monogram, and I is the average mutual information (Averag) regarding two adjacent classes C 1 and C 2 in the text data.
e Mutual Information; A
Notated as MI. ) And can be calculated by the following equation.

【0018】[0018]

【数2】 (Equation 2)

【0019】ここで、Pr(C1)は第1のクラスC1
単語の出現確率であり、Pr(C2)は第2のクラスC2
の単語の出現確率であり、Pr(C1|C2)は、第2の
クラスC2の単語は出現した後に、第1のクラスC1の単
語が出現する条件付き確率であり、Pr(C1,C2)は
第1のクラスC1の単語と第2のクラスC2の単語が隣接
して出現する確率である。従って、上記数2で表される
AMIは、互いに異なる第1のクラスC1の単語と第2
のクラスC2の単語とが隣接して出現する確率を、上記
第1のクラスC1の単語の出現確率と第2のクラスC2
単語の出現確率との積で割った相対的な割合を表わす。
Here, Pr (C 1 ) is the occurrence probability of a word of the first class C 1 , and Pr (C 2 ) is the second class C 2
Pr (C 1 | C 2 ) is the conditional probability that a word of the first class C 1 will appear after a word of the second class C 2 has appeared, and Pr (C 1 | C 2 ) C 1 , C 2 ) is the probability that a word of the first class C 1 and a word of the second class C 2 appear adjacent to each other. Therefore, AMI is different first mutually Class C 1 word and the second represented by the number 2
The relative proportions and words of class C 2 is the probability of occurrence adjacent, divided by the product of the above first occurrence probabilities of the words in the classes C 1 and a second class of C 2 probability of occurrence of words Represents

【0020】エントロピーHは写像関数πに依存しない
値であることから、AMIを最大にする写像関数は同時
にテキストの尤度L(π)も最大にする。従って、AM
Iを単語のクラス構成における目的関数として使用する
ことができる。
Since the entropy H is a value independent of the mapping function π, the mapping function that maximizes the AMI also maximizes the likelihood L (π) of the text. Therefore, AM
I can be used as an objective function in word class construction.

【0021】第1の従来例の相互情報量を用いたクラス
タリング方法では、下側層から上側層へのボトムアップ
のマージ手順を用いている。初期の段階では、各単語を
それぞれ1つのクラスに割り当てる。次いで、すべての
クラスのペア(対)の中で最小のAMIの減少量を与え
る2つのクラスのペアを探索し、その2つのクラスのペ
アをマージし、マージ後のクラス数が予め決められた数
cになるまで上記マージの処理を繰り返す。この第1の
従来例の基本的な方法において、例えばコンピュータに
よって実行される演算時間のコンプレキシティー(又は
演算時間のコスト)は、当該処理を以下に示すように直
接的に実行したとき、V5(語彙の語数Vの5乗)に比
例するオーダーであり、これをO(V5)と表記する。
ここで、演算時間のコンプレキシティーは、演算時間が
どれぐらいかかるかを示す指標である。
The first prior art clustering method using mutual information uses a bottom-up merge procedure from the lower layer to the upper layer. Initially, each word is assigned to a class. Next, a search is made for a pair of two classes that gives the smallest AMI reduction among all pairs of classes, and the pairs of the two classes are merged. The number of classes after the merge is determined in advance. The above merging process is repeated until the number reaches c. In the basic method of the first conventional example, for example, the complexity (or the cost of the calculation time) of the calculation time executed by the computer becomes V when the process is directly executed as shown below. 5 (the number of words in the vocabulary V to the fifth power), which is denoted as O (V 5 ).
Here, the complexity of the calculation time is an index indicating how long the calculation time takes.

【0022】<ステップA1>マージ処理の回数は合計
で(V−c)回であり、このときの演算時間のコンプレ
キシティーは語彙の語数Vに比例するオーダーO(V)
である。 <ステップA2>n回のマージ処理の後には、(V−
n)個のクラスが残り、次のマージ処理の段階では、組
み合わせ数V-n2(すなわち、V−n個のクラスから2
つのクラスをとるときの組み合わせ数)個のマージ処理
のテスト又はトライアル(trial)(以下、トライアル
といい、ここで、複数回のマージ処理を実行するが、実
際にマージして単語分類結果に反映させるのは、このう
ちの1つであるので、本実施形態ではこのように呼
ぶ。)を実行して探索する必要がある。そのうちの1つ
のみが後のマージ処理で有効化される。従って、このと
きの演算時間のコンプレキシティーは語彙の語数の2乗
2に比例するオーダーO(V2)である。 <ステップA3>第n段階での1つのマージ処理のトラ
イアルには、上記数2を用いてAMIを演算するための
(V−n)2個の項又はクラスに関する加算演算を含
む。従って、このときの演算時間のコンプレキシティー
は語彙の語数の2乗V2に比例するオーダーO(V2)で
ある。
<Step A1> The total number of merge processes is (Vc) times, and the complexity of the operation time at this time is of the order O (V) proportional to the number V of words in the vocabulary.
It is. <Step A2> After n merging processes, (V−
n) classes remain, and in the next merge processing stage, the number of combinations Vn C 2 (that is, 2
Test or trial of merge processing (number of combinations when taking one class) (hereinafter referred to as trial). Here, merge processing is performed multiple times, but actual merging is performed and reflected in the word classification result. This is one of them, so it is called in this embodiment.). Only one of them will be activated in a later merge process. Therefore, the complexity of the operation time at this time is of the order O (V 2 ) proportional to the square V 2 of the number of words in the vocabulary. <Step A3> The trial of one merge process in the n-th stage includes an addition operation for (V−n) 2 terms or classes for calculating the AMI using the above equation ( 2 ). Therefore, the complexity of the operation time at this time is of the order O (V 2 ) proportional to the square V 2 of the number of words in the vocabulary.

【0023】従って、例えばコンピュータによって実行
される全体の演算時間のコンプレキシティーは、語数の
5乗V5に比例するオーダーO(V5)となる。しかしな
がら、後述するように、冗長的な計算を除くことによっ
て、演算時間のコンプレキシティーを、語彙の語数の3
乗V3に比例するオーダーO(V3)に減らすことも可能
である。つまり、次のような本発明に係る方法によれ
ば、上記ステップA3の部分を一定時間で実行すること
ができる。
Accordingly, for example, the complexity of the total operation time executed by the computer is on the order O (V 5 ) in proportion to the fifth power V 5 of the number of words. However, as will be described later, by eliminating redundant calculations, the complexity of the operation time can be reduced to three times the number of words in the vocabulary.
It is also possible to reduce the order to the order O (V 3 ) proportional to the power V 3 . That is, according to the following method of the present invention, the step A3 can be executed in a fixed time.

【0024】<ステップB1>上記数2は、前の段階の
マージ処理で値が変更されたクラスのみについて計算す
る。従って、演算時間のコンプレキシティーは、第1の
従来例におけるオーダーO(V2)から、オーダーO
(V)となる。 <ステップB2>前の段階のマージ処理におけるすべて
のトライアルの結果を格納する。従って、演算時間のコ
ンプレキシティーは、第1の従来例におけるオーダーO
(V)から、語彙の語数Vに依存しない一定のオーダー
O(1)となる。
<Step B1> The above equation 2 is calculated only for the class whose value has been changed in the merge processing in the previous stage. Therefore, the complexity of the operation time is changed from the order O (V 2 ) in the first conventional example to the order O (V 2 ).
(V). <Step B2> Store the results of all trials in the previous merge process. Therefore, the complexity of the operation time is the order O in the first conventional example.
From (V), a constant order O (1) independent of the number V of words in the vocabulary is obtained.

【0025】例えば、V個のクラス数の語彙から始めて
既に(V−k)回のマージ処理を実行して、k個のクラ
スCk(1),Ck(2),…,Ck(k)が残っている
と仮定する。この段階でのAMIIkは次式で計算され
る。
For example, starting from a vocabulary of V classes, the merging process has already been performed (V−k) times, and k classes C k (1), C k (2),..., C k ( Suppose k) remains. AMIIk at this stage is calculated by the following equation.

【0026】[0026]

【数3】 (Equation 3)

【数4】qk(l,m)=pk(l,m)log[p
k(l,m)/{plk(l)prk(m)}]
## EQU4 ## q k (l, m) = p k (l, m) log [p
k (l, m) / { pl k (l) pr k (m)}]

【0027】ここで、pk(l,m)は、クラスC
k(l)における単語の次に、クラスCk(m)における
単語が続く確率であり、次式のように表される。なお、
本明細書及び図面において、表示を明確にするために、
l(小文字のエル)としてlをも用い、l=lとする。
Where p k (l, m) is the class C
This is the probability that a word in class C k (m) follows a word in k (l), and is expressed as: In addition,
In this specification and the drawings, for clarity of indication,
l is also used as l (lowercase letter), and l = l.

【0028】[0028]

【数5】 pk(l,m)=Pr(Ck(l),Ck(m))P k (l, m) = Pr (C k (l), C k (m))

【数6】 (Equation 6)

【0029】上記数3においては、qkは(k×k)ク
ラスのバイグラム平面テーブルの全体にわたって加算さ
れ、ここで、(l,m)のセルはqk(l,m)で表わ
す。いま、クラスCk(i)とクラスCk(j)とのマー
ジ処理のトライアルを探索したとき、当該マージ処理に
よるAMIの減少量を、Lk(i,j)≡Ik−I
k(i,j)とし、ここで、Ik(i,j)は当該のマー
ジ処理後のAMIである。
In Equation 3, q k is added over the entire (k × k) class bigram plane table, where the (l, m) cell is represented by q k (l, m). Now, when searching for a trial of a merge process between the class C k (i) and the class C k (j), the amount of decrease in the AMI due to the merge process is represented by L k (i, j) ≡I k −I
k (i, j), where I k (i, j) is the AMI after the merge processing.

【0030】図3は、本発明に係る単語分類処理におけ
る加算領域及び加減算処理を示すクラスバイグラム平面
テーブルの図である。ここで、図3及び、以下に示す図
4と図5は、2つのクラスのバイグラムの平面を示す。
図3に示すように、上記数3における加算領域P0は、
図3の部分領域P1、P2及びP3の和から部分領域P
4を減じた部分として表わすことができる。この4つの
部分P1,P2,P3,P4のうち、部分領域P1の加
算値はCk(i)とCk(j)とのマージ処理によって変
化することはない。従って、AMIの減少量Lk(i,
j)を算出する場合、加算領域P0を、2次元の領域
(すなわち、正方形の領域)から1次元の領域(すなわ
ち、複数のライン又は線)に減らすことが可能である。
よって、上記ステップA3における演算時間のコンプレ
キシティーは、オーダーO(V2)からオーダーO
(V)に減少させることができる。クラスCk(i)と
クラスCk(j)とのマージ処理によって生成されるク
ラスを表わす表記法として、Ck(i+j)を使用する
と、AMIの減少量Lk(i,j)は次式によって与え
られる。
FIG. 3 is a diagram of a class bigram plane table showing the addition area and the addition / subtraction processing in the word classification processing according to the present invention. Here, FIG. 3 and FIGS. 4 and 5 shown below show planes of two classes of bigrams.
As shown in FIG. 3, the addition area P0 in Equation 3 is
From the sum of the partial areas P1, P2 and P3 in FIG.
4 can be represented as a reduced portion. Of the four parts P1, P2, P3, and P4, the added value of the partial area P1 does not change due to the merge processing of C k (i) and C k (j). Therefore, the AMI reduction amount L k (i,
When calculating j), the addition area P0 can be reduced from a two-dimensional area (that is, a square area) to a one-dimensional area (that is, a plurality of lines or lines).
Therefore, the complexity of the calculation time in step A3 is changed from the order O (V 2 ) to the order O (V 2 ).
(V). When C k (i + j) is used as a notation representing a class generated by merging the class C k (i) and the class C k (j), the AMI reduction L k (i, j) becomes Given by the expression.

【0031】[0031]

【数7】 ここで、(Equation 7) here,

【数8】 (Equation 8)

【0032】すべてのクラスのペアのAMIの減少量L
kを算出したら、当該AMIの減少量Lkが最小となるよ
うなペア、例えばクラスCk(i)とクラスCk(j)
(但しi<j)とを選択し、次いで、これらのクラスの
ペアをマージさせたときの新しいクラスの名前をCk-l
(i)と命名し、さらに、(k−1)個のクラスの新た
なセットによる次のマージ処理を続けて実行する。クラ
スCk(i)とクラスCk(j)を除くすべてのクラスに
ついてマージ処理後に同じ方法で索引番号(インデック
ス)を付与する。すなわち、クラスCk(m)をクラス
k-l(m)とし、ただし、m≠i,jである。ここ
で、j≠kであればクラスCk(k)をクラスC
k-l(j)とし、j=kであればマージ処理後にC
k(k)を削除する。
AMI reduction L of all classes of pairs
After calculating the k, pairs such as reduction L k of the AMI is minimized, for example, class C k (i) and class C k (j)
(Where i <j) and then the name of the new class when these pairs of classes are merged is C kl
(I), and further execute the next merge process using the new set of (k-1) classes. Index numbers (indexes) are assigned to all classes except the class C k (i) and the class C k (j) in the same manner after the merge processing. That is, the class C k (m) is defined as a class C kl (m), where m ≠ i, j. Here, if j ≠ k, the class C k (k) is changed to the class C k
kl (j), and if j = k, C after merge processing
k (k) is deleted.

【0033】前の段階のマージ処理によるすべてのAM
Iの減少量Lkを記憶装置に格納することによって、別
の最適化処理を実行することができる。ここで、クラス
のペア(Ck(i),Ck(j))がマージ処理の対象と
して選択され、すなわち、すべてのペア(l,m)に対
して、Lk(i,j)≦Lk(l,m)であると仮定す
る。次のマージ処理の段階では、すべての(l,m)の
ペアに対して、AMIの減少量Lk-l (i,j)(l,m)を
計算する必要がある。ここで、上付き文字(i,j)
は、クラスのペア(Ck(i),Ck(j))が前のマー
ジ処理の段階でマージされたことを意味している。ここ
で、AMIの減少量Lk-l (i,j)(l,m)とLk(l,
m)の違いに注意する必要がある。すなわち、Lk-l
(i,j)(l,m)はクラスiとクラスjとのマージ処理
の後にクラスlとクラスmとをマージしたことによるA
MIの減少量であり、Lk(l,m)はクラスiとクラ
スjとのマージ処理なしにクラスlとクラスmとをマー
ジしたことによるAMI減少量である。従って、AMI
の減少量Lk-l (i,j)(l,m)と、AMIの減少量Lk
(l,m)との差分は、クラスのペア(Ck(i),Ck
(j))のマージ処理によって影響を受ける項又はクラ
スのみから発生する。
All AMs from the previous merge process
By storing the reduced amount L k of I in the storage device, another optimization process can be executed. Here, the class pair (C k (i), C k (j)) is selected as a target of the merging process, that is, for all pairs (l, m), L k (i, j) ≦ Suppose L k (l, m). In the next merge processing stage, it is necessary to calculate the AMI reduction amount L kl (i, j) (l, m) for all (l, m) pairs. Where superscript (i, j)
Means that the class pair (C k (i), C k (j)) has been merged in the previous merge processing stage. Here, the AMI reduction amounts L kl (i, j) (l, m) and L k (l,
Note the difference in m). That is, L kl
(i, j) (l, m) is A due to merging of class l and class m after merge processing of class i and class j.
L k (l, m) is the AMI reduction amount due to merging of class l and class m without merging class i and class j. Therefore, AMI
Reduction L kl (i, j) ( l, m) and, reduction of AMI L k of
The difference from (l, m) is the class pair (C k (i), C k
It occurs only from terms or classes affected by the merge processing of (j)).

【0034】上記の処理を、図4を参照して説明する
と、AMIの減少量Lk-l (i,j)(l,m)と、AMIの
減少量Lk(l,m)に対するクラスバイグラム平面テ
ーブルの加算領域は図4の(b)及び(a)のようにな
る。領域{(x,y)|x≠i,j,l,m、及びy≠
i,j,l,m}の加算値は、クラスiとクラスjとの
マージ処理によって、あるいは、クラスlとクラスmと
のマージ処理によって変化することはないため、それら
の領域については図示していない。ここで、mhは、図
4から明らかなように、クラスmをクラスlにマージし
たときに領域が抜けてしまうクラスである。さらに、詳
細後述するように、{Lk-l (i,j)(l,m)−L
k(l,m)}を計算するときに、図4の図中のほとん
どの領域は互いに相殺されて数カ所のポイントの領域の
みが残る。こうして、上記ステップA3における演算時
間のコンプレキシティーを定数にまで減少することがで
きる。
The above process will be described with reference to FIG. 4. The class bigram plane for the AMI decrease L kl (i, j) (l, m) and the AMI decrease L k (l, m) The addition area of the table is as shown in (b) and (a) of FIG. Region {(x, y) | x {i, j, l, m, and y}
Since the added value of i, j, l, m} does not change by the merging process of the class i and the class j or by the merging process of the class 1 and the class m, those regions are shown in the drawing. Not. Here, as is clear from FIG. 4, mh is a class whose area is lost when class m is merged with class l. Further, as described later in detail, {L kl (i, j) (l, m) -L
When calculating k (l, m)}, most of the regions in the diagram of FIG. 4 cancel each other out, leaving only regions of several points. Thus, the complexity of the calculation time in step A3 can be reduced to a constant.

【0035】[0035]

【数9】Lk(l,m)=Ik−Ik(l,m) 及び Lk-1 (i,j)(l,m)=Ik-1 (i,j)−Ik-1 (i,j)(l,m), であるので、 Lk-1 (i,j)(l,m)−Lk(l,m)=−(Ik-1 (i,j)(l,
m)−Ik(l,m))+(Ik-1 (i,j)−Ik)
L k (l, m) = I k −I k (l, m) and L k−1 (i, j) (l, m) = I k−1 (i, j) −I k −1 (i, j) (l, m), where L k−1 (i, j) (l, m) −L k (l, m) = − (I k−1 (i, j) ) (l,
m) −I k (l, m)) + (I k−1 (i, j) −I k )

【0036】AMIIk-l (i,j)(l,m)と、AMII
kの加算領域のうちの幾つかの部分は、AMIIk-l
(i,j)の一部、あるいはAMIIk(l,m)の一部とと
もに相殺される。ここで、Ihk-l (i,j)(l,m)、I
k(l,m)、Ihk-l (i,j)、Ihkはそれぞれ、相殺
可能な共通のクラスをすべて相殺した後のAMIIk-l
(i,j)(l,m)、Ik(l,m)、Ik-l (i,j)、Ik
あることを表わす。このとき、次のような関係式が与え
られる。
AMII kl (i, j) (l, m) and AMII
Some parts of the summation region of k are AMII kl
It is canceled with a part of (i, j) or a part of AMII k (l, m). Where Ih kl (i, j) (l, m), I
h k (l, m), Ih kl (i, j) and Ih k are the AMII kl after all the cancelable common classes have been cancelled.
(i, j) (l, m), I k (l, m), I kl (i, j) , and I k . At this time, the following relational expression is given.

【0037】[0037]

【数10】Lk-1 (i,j)(l,m)−Lk(l,m)=−(Ih
k-1 (i,j)(l,m)−Ihk(l,m))+(Ihk-1 (i,j)−I
k) ここで、
L k-1 (i, j) (l, m) −L k (l, m) = − (Ih
k-1 (i, j) (l, m) -Ih k (l, m)) + (Ih k-1 (i, j) -I
h k ) where

【数11】Ihk-1 (i,j)(l,m)=qk-1(l+m,i)+
k-1(i,l+m)
## EQU11 ## Ih k-1 (i, j) (l, m) = q k-1 (l + m, i) +
q k-1 (i, l + m)

【数12】Ihk(l,m)=qk(l+m,i)+qk(i,l
+m)+qk(l+m,j)+qk(j,l+m)
## EQU12 ## Ih k (l, m) = q k (l + m, i) + q k (i, l
+ M) + q k (l + m, j) + q k (j, l + m)

【数13】Ihk−1 (i,j)=qk-1(i,l)+q
k-1(i,m)+qk-1(l,i)+qk-1(m,i)
## EQU13 ## Ih k-1 (i, j) = q k-1 (i, l) + q
k-1 (i, m) + qk -1 (l, i) + qk -1 (m, i)

【数14】Ihk=qk(i,l)+qk(i,m)+qk(j,
l)+qk(j,m)+qk(l,i)+qk(l,j)+qk(m,
i)+qk(m,j)
[Number 14] Ihk = q k (i, l ) + q k (i, m) + q k (j,
l) + q k (j, m) + q k (l, i) + q k (l, j) + q k (m,
i) + q k (m, j)

【0038】上記数10におけるIhの加算領域を図5
に示す。第1の従来例においては、上記数10の右辺第
2項を無視して第1項のみを使用して、AMIの減少量
k- l (i,j)(l,m)−Lk(l,m)を計算している
ようである。なお、上記数10の第1項に対応する従来
技術文献における方程式(17)の第3式において、符
号は正負逆である。しかしながら、上記数10の第2項
は、その第1項と同じ重み係数を有するので、本発明者
は、本発明の当該モデルを完全なものとするために、上
記数10を用いる。
FIG. 5 shows the addition area of Ih in the above equation (10).
Shown in In the first conventional example, the AMI reduction amount L k− 1 (i, j) (l, m) −L k is used by ignoring the second term on the right-hand side of Expression 10 and using only the first term. It seems that (l, m) is being calculated. In addition, in the third expression of the equation (17) in the related art document corresponding to the first term of the expression 10, the signs are opposite in sign. However, since the second term in Equation 10 has the same weighting factor as the first term, the inventor uses Equation 10 to complete the model of the present invention.

【0039】演算時間のコンプレキシティーのオーダー
O(V3)を有する方法を使用する場合でも、語彙数が
104又はそれ以上のオーダーのように大きいときに
は、実際に計算することができない。何れにしても、上
記ステップA1において、オーダーO(V)の演算時間
が必要であるため、修正できるのは上記ステップA2し
かないと考えられる。上記ステップA2においては、可
能なクラスペアのマージのすべてについて検討すること
もできるが、実際には探索するクラスペアの範囲を限定
することは可能である。このことに関しては、第1の従
来例においては、以下のような方法を提案しており、本
発明の方法もこれを採用している。まず、互いに重複し
ない単語数Vを含むテキストデータ内の単語に基づい
て、V個の単体のクラスを作り、これを頻度の高い順に
配列して、「マージ領域」(本実施形態では、ウィンド
ウという。従って、本明細書においては、マージ領域と
ウィンドウとは同義語である。)を、クラス順位の最初
のc+1個のクラスの単語とする。従って、まずは、
(c+1)個の頻度の高い単語がマージ領域となる。次
いで下記の処理を行う。
Even when a method having the order of complexity O (V 3 ) of the operation time is used, when the number of vocabulary words is as large as 10 4 or more, it cannot be calculated actually. In any case, since the calculation time of the order O (V) is required in the step A1, it can be considered that only the step A2 can be corrected. In step A2, all possible merging of class pairs can be considered, but in practice, the range of class pairs to be searched can be limited. Regarding this, the first conventional example proposes the following method, and the method of the present invention also adopts this method. First, V single classes are created based on the words in the text data including the number V of words that do not overlap with each other, and are arranged in descending order of frequency to form a "merged area" (in this embodiment, a window called a window). Therefore, in the present specification, the merge area and the window are synonyms.) Is the word of the first c + 1 classes in the class order. Therefore, first,
(C + 1) frequently used words become a merge area. Next, the following processing is performed.

【0040】<ステップD1>マージ領域内のすべての
ペアの中でも、AMIの減少量を最小にするようなクラ
スのペアをマージする。 <ステップD2>(c+2)番目の位置にあるクラスを
マージ領域又はウィンドウの中に挿入し、(c+2)番
目の位置のクラスよりも後ろの各クラスをその左側方向
に1つだけ移動させる。 <ステップD3>残りのクラスが所定のc個になるまで
上記ステップD1とD2の処理を繰り返す。
<Step D1> Among all pairs in the merge area, a pair of classes that minimizes the amount of AMI reduction is merged. <Step D2> The class at the (c + 2) th position is inserted into the merge area or window, and each class behind the class at the (c + 2) th position is moved by one to the left. <Step D3> The processes of steps D1 and D2 are repeated until the number of remaining classes reaches a predetermined value c.

【0041】当該第1の従来例の処理のアルゴリズムに
おいては、上記ステップA2の演算時間のコンプレキシ
ティーは、最終クラス数cの2乗であるc2に比例する
オーダーO(c2)となり、全体の演算時間は、c2Vに
比例するオーダー(c2V)に減少する。
In the processing algorithm of the first conventional example, the complexity of the operation time in step A2 is an order O (c 2 ) proportional to c 2 which is the square of the final class number c. the total calculation time is reduced to the order (c 2 V) which is proportional to c 2 V.

【0042】次いで、単語のクラスタリング構造を得る
ための方法について述べる。単語のクラスタリング構造
を表わすツリーでの表現を得るための最も簡単な方法
は、マージ処理における副産物としてデンドログラム
(dendrogram;ツリーの系統図又はツリー図
ともいう。)系統樹を構築すること、即ち具体的には、
マージの順序の記録(又は履歴)を取ってその記録に基
づいて二分木を作ることである。図6に、5単語から成
る語彙を使用した簡単な例を示す。図6におけるマージ
履歴(又はマージのヒストリともいう。)は、次の表1
に示す通りである。なお、表1の第1行目は、「クラス
AとクラスBとをマージして、マージ後の新しいクラス
をAと名づけた。」ということを意味する。
Next, a method for obtaining a word clustering structure will be described. The simplest method for obtaining a representation of a word in a tree representing the clustering structure of words is to construct a dendrogram (also referred to as a tree diagram or tree diagram) dendrogram as a by-product of the merging process. In general,
To take a record (or history) of the order of merge and create a binary tree based on that record. FIG. 6 shows a simple example using a vocabulary of five words. The merge history (or the merge history) in FIG.
As shown in FIG. Note that the first line of Table 1 means that "the class A and the class B are merged, and the new class after the merge is named A."

【0043】[0043]

【表1】 マージ履歴 ───────────── Merge(A,B→A) Merge(C,D→C) Merge(C,E→C) Merge(A,C→A) ─────────────[Table 1] Merge history M Merge (A, B → A) Merge (C, D → C) Merge (C, E → C) Merge (A, C → A) ) ─────────────

【0044】しかしながら、この方法を、上記第1の従
来例の方法のO(C2V)アルゴリズムに直接的に適用
した場合、各クラスのバランスは極端に悪くなり、図7
に示されているようなほぼ左側方向の分岐のみのツリー
構造となる。この理由は、AMI量に関して言えば、マ
ージ領域にある複数のクラスをある一定の大きさを有す
るように成長させた後に、比較的大きなサイズを有する
より高い頻度を有するクラスをマージするよりは、より
低い頻度を有する単集合のクラスをマージした方が、大
幅にコストが安くなるからである。
However, when this method is directly applied to the O (C 2 V) algorithm of the first conventional example, the balance of each class becomes extremely poor, and FIG.
As shown in FIG. 7, the tree structure has only a leftward branch. The reason for this is that, in terms of the amount of AMI, rather than merging a class having a relatively large size and a higher frequency after growing a plurality of classes in the merge area to have a certain size, This is because merging classes of a single set having a lower frequency is significantly lower in cost.

【0045】本発明者が採用した本発明に係る新しい方
法は以下の通りである。 <ステップE1>MIクラスタリング:マージ領域の制
約条件を有する相互情報クラスタリングアルゴリズムを
使用してc個のクラスを作成する。当該c個のクラス
は、図19に示すように、最後のツリー図であるデンド
ログラムの中間層100を構成する。 <ステップE2>外部クラスタリング:テキストデータ
中のすべての単語をクラス・トークン(class t
oken)と置換し(実際には、テキストデータ中の全
体の文章の代わりにバイグラム・テーブルについてのみ
処理を行う。)、マージ領域の制約条件なしにすべての
クラスがマージ処理によって単一のクラスになるまで二
分木の形式でマージ処理(バイナリーマージ処理)を実
行する。当該処理によって、デンドログラムDrootを作
成する。このデンドログラムDrootは、例えば図19に
示すように、最終のツリー構造の上側層101を構成す
る。 <ステップE3>内部クラスタリング:{C1,C2
…,Ci,…,Cc}を上記ステップE1で得られた中間
層100のクラスの集合(クラスセット)とする。そし
て、それぞれのi(1≦i≦c;iは自然数である。)
について以下の処理を行う。
The new method according to the present invention adopted by the inventor is as follows. <Step E1> MI clustering: c classes are created using a mutual information clustering algorithm having a constraint condition of a merge area. As shown in FIG. 19, the c classes constitute the intermediate layer 100 of the dendrogram which is the last tree diagram. <Step E2> External clustering: classifying all words in the text data into class tokens (class t)
(actually, only the bigram table is processed instead of the entire text in the text data), and all classes are merged into a single class by the merge process without the constraints of the merge area. Perform the merge process (binary merge process) in the form of a binary tree until it is. By this process, a dendrogram D root is created. This dendrogram D root constitutes the upper layer 101 of the final tree structure, for example, as shown in FIG. <Step E3> Internal clustering: {C 1 , C 2 ,
, C i ,..., C c } are a set of classes (class set) of the intermediate layer 100 obtained in the above step E1. Each i (1 ≦ i ≦ c; i is a natural number)
Perform the following processing.

【0046】<ステップE3−1>クラスCiのものを
除いて、テキスト中のすべての単語をそのクラス・トー
クンと置き換える。新しい語彙V’=V1∪V2を決定す
る。ここで、V1={Ciにおけるすべての単語}、V2
={C1,C2,…,Ci-1,Ci+ 1,Cc}であり、Cj
j番目のクラスのトークンである(1≦j≦c)。語彙
V’の各要素を各々のクラスに割り当て、語彙V1の要
素のみを含むクラスに限ってマージ処理が可能となると
いう制約条件付きマージ処理によって二分木の形式でマ
ージ処理を実行する。当該処理は、最初の│V1│個の
クラスにおける語彙V1の要素(すなわち、単語)を含
む語彙V’の要素を頻度の順序で順序づけし、次いで、
最初に幅|V1|を有しかつ各マージ処理によって1つ
ずつ減少する幅を有するマージ領域内でマージ処理を実
行することによって実行することができる。ここで、|
1|は語彙V1の単語の個数である。 <ステップE3−2>語彙V1におけるすべての要素が
単一のクラスに入るまでマージ処理を繰り返す。各クラ
ス毎に、マージ処理によって、図19に示すように、下
側層102のデンドログラムDsubを作成する。このデ
ンドログラムは、葉のノード(leaf node)が
クラス内の各単語を表している各クラスのサブツリーを
構成する。
[0046] except those of <step E3-1> class C i, replace all the words in the text and the class token. Determine the new vocabulary V ′ = V 1 ∪V 2 . Here, V 1 = {all words in C i }, V 2
= {C 1 , C 2 ,..., C i−1 , C i + 1 , C c }, and C j is a j-th class token (1 ≦ j ≦ c). Assign each element of the vocabulary V 'to each class, executes the merge processing in the form of a binary tree by the constrained merging process of merging processing can be only class that contains only the elements of the vocabulary V 1. The process orders the elements of vocabulary V ′ that include the elements (ie, words) of vocabulary V 1 in the first | V 1 | classes in order of frequency, and then
This can be done by first performing the merge process in a merge region having a width | V 1 | and a width that decreases by one with each merge process. Where |
V 1 | is the number of words in the vocabulary V 1 . Repeated merging process until all the elements in <Step E3-2> vocabulary V 1 is entered into a single class. As shown in FIG. 19, a dendrogram D sub of the lower layer 102 is created by a merge process for each class. This dendrogram constitutes a subtree of each class in which leaf nodes represent each word in the class.

【0047】<ステップE4>上側層101のデンドロ
グラムDrootの各葉のノードを、対応する下側層102
のデンドログラムDsubと置き換えすることによってデ
ンドログラムを合成し、これによって、全体のデンドロ
グラムを得ることができる。
<Step E4> The node of each leaf of the dendrogram D root of the upper layer 101 is stored in the corresponding lower layer 102.
By substituting the dendrogram D sub with the dendrogram, the entire dendrogram can be obtained.

【0048】本発明に係る単語クラスタリングの方法
は、意味又は統語的特徴が似通った単語が近接した位置
に配置された点で、バランスが取れた二分木の形式を有
するツリー構造を生成することができる。図8は、本発
明の方法を用いて、ウォール・ストリート・ジャーナル
(以下、WSJという。)のコーパスの中で最も使用頻
度の高い上位70,000語に関して組み立てた500
クラスの内の1クラスに対する下側層のデンドログラム
subの一例を示したものである。最後に、根のノード
(ルートノード(root node))から葉のノー
ド(リーフノード(leaf node)に至るパスの
追跡し、左側方向の分岐又は右側方向の分岐をそれぞれ
表わす0又は1の1ビットを各分岐に割り当てることに
よって、語彙の中の各単語に対して、ビットストリング
(単語ビット)を割り当てることができる。
The word clustering method according to the present invention may generate a tree structure having a balanced binary tree form in that words having similar meanings or syntactic features are located in close proximity. it can. FIG. 8 shows a 500 assembled using the method of the present invention for the most frequently used top 70,000 words in the Wall Street Journal (WSJ) corpus.
FIG. 9 shows an example of a lower layer dendrogram D sub for one of the classes. FIG. Finally, a path from a root node (root node) to a leaf node (leaf node) is traced, and one bit of 0 or 1 representing a leftward branch or a rightward branch, respectively. Can be assigned a bit string (word bits) for each word in the vocabulary.

【0049】図10は、図1の単語分類処理部20の構
成を示すブロック図である。図10を参照して、単語分
類処理部20の構成及び動作について説明する。図10
において、単語分類処理部20は、CPU50を備えた
コントローラであって、CPU50と、CPU50によ
って実行される単語分類処理のプログラム及び当該プロ
グラムを実行するために必要なデータを格納するための
ROM51と、上記単語分類処理を実行するときに必要
なワークエリアであるワークRAM52と、上記単語分
類処理を実行するときに必要な複数のメモリエリアを有
するRAM53と、2つのメモリインターフェース5
4,55とを備え、これらの各回路50乃至55はバス
56を介して互いに接続される。ここで、メモリインタ
ーフェース54は、テキストデータメモリ10とCPU
50との間に設けられ、テキストデータメモリ10とC
PU50との間の信号変換などのインターフェース処理
を実行するためのインターフェース回路である一方、メ
モリインターフェース55は、単語辞書メモリ11とC
PU50との間に設けられ、単語辞書メモリ11とCP
U50との間の信号変換などのインターフェース処理を
実行するためのインターフェース回路である。RAM5
3は、次のように区分された複数のメモリ部を備える。
FIG. 10 is a block diagram showing the configuration of the word classification processing section 20 of FIG. The configuration and operation of the word classification processing unit 20 will be described with reference to FIG. FIG.
, The word classification processing unit 20 is a controller provided with the CPU 50, the CPU 50, a ROM 51 for storing a word classification processing program executed by the CPU 50 and data necessary for executing the program, A work RAM 52 that is a work area required when executing the word classification processing, a RAM 53 having a plurality of memory areas required when executing the word classification processing, and two memory interfaces 5
4 and 55, and these circuits 50 to 55 are connected to each other via a bus 56. Here, the memory interface 54 includes the text data memory 10 and the CPU.
50, the text data memory 10 and C
While the memory interface 55 is an interface circuit for executing interface processing such as signal conversion with the PU 50, the memory interface 55
Between the word dictionary memory 11 and the CP
It is an interface circuit for executing interface processing such as signal conversion with U50. RAM5
3 has a plurality of memory sections divided as follows.

【0050】(a)初期化クラス単語メモリ61:後述
する初期化処理によって得られたv個の単語及びそのク
ラスを格納する; (b)AMIメモリ62:後述する中間層クラスタリン
グ処理、上側層クラスタリング処理及び下側層クラスタ
リング処理において1つのウィンドウ内のクラスの単語
の中ですべての組わせの仮ペアを作り、各仮ペアをマー
ジしたときの平均相互情報量を数2を用いて計算した結
果を格納する; (c)中間層メモリ63:後述する中間層クラスタリン
グ処理によって得られたc個の中間層のクラスの単語を
格納する; (d)上側層ヒストリメモリ64:後述する上側層クラ
スタリング処理における各マージ処理の履歴(又はヒス
トリ)を格納する; (e)上側層ツリーメモリ65:上記上側層クラスタリ
ング処理によって得られたツリー図であるデンドログラ
ムDrootを格納する; (f)下側層ヒストリメモリ66:上記下側層クラスタ
リング処理によって得られた、中間層100の各クラス
に対して1つのツリー図である複数c個のデンドログラ
ムDsubを格納する; (g)下側層ツリーメモリ67:上記下側層クラスタリ
ング処理によって得られたツリー図であるデンドログラ
ムDsubを格納する; (h)ツリーメモリ67:上側層101の1つのデンド
ログラムと下側層102の複数c個のデンドログラムと
を、中間層100を介して連結することにより得られた
全体のツリー図であるデンドログラムを格納する。
(A) Initialization class word memory 61: stores v words and their classes obtained by initialization processing described later; (b) AMI memory 62: intermediate layer clustering processing, upper layer clustering described later In the processing and the lower layer clustering processing, temporary pairs of all combinations are created among the words of the class in one window, and the average mutual information when each temporary pair is merged is calculated using Equation 2. (C) Intermediate layer memory 63: Stores the words of the c intermediate layer classes obtained by the intermediate layer clustering process described later; (d) Upper layer history memory 64: Upper layer clustering process described later (E) Upper-layer tree memory 65: upper-layer clustering process Storing dendrogram D root is a tree diagram obtained by physical; (f) the lower layer history memory 66: obtained by the lower layer clustering process, a single tree for each class of the intermediate layer 100 storing a plurality c pieces of dendrogram D sub diagrams; (g) lower layer tree memory 67: storing dendrogram D sub is a tree diagram obtained by the lower layer clustering process; (h) Tree memory 67: Stores a dendrogram as an entire tree diagram obtained by connecting one dendrogram of the upper layer 101 and a plurality of c dendrograms of the lower layer 102 via the intermediate layer 100. I do.

【0051】図11は、図1の単語分類処理部20によ
って実行されるメインルーチンの単語分類処理を示すフ
ローチャートである。図11に示すように、まず、ステ
ップS1においてテキストデータに基づいて出現頻度の
高い単語から順に並べる処理を実行する初期化処理を実
行し、次いで、ステップS2において中間層100のク
ラスの単語を求める中間層クラスタリング処理を実行
し、さらに、ステップS3において上側層101のツリ
ー図を求める上側層クラスタリング処理を実行し、そし
て、ステップS4において下側層102のツリー図を求
める下側層クラスタリング処理を実行し、最後に、ステ
ップS5において上側層101の1つのツリー図と下側
層102の複数c個のツリー図とを、中間層100を介
して連結することにより得られた全体のツリー図である
デンドログラムを求めて、その結果を単語辞書として単
語辞書メモリ11に格納するデータ出力処理を実行す
る。これによって、単語分類処理が終了する。なお、こ
れらのツリー図においては、各単語がそれぞれ1つのク
ラスに分類されかつクラス間の連結関係が示される。
FIG. 11 is a flowchart showing the word classification processing of the main routine executed by the word classification processing section 20 of FIG. As shown in FIG. 11, first, in step S1, an initialization process for executing a process of arranging words in order of appearance frequency based on text data is performed, and then, in step S2, words of a class of the intermediate layer 100 are obtained. An intermediate layer clustering process is executed, and further, an upper layer clustering process for obtaining a tree diagram of the upper layer 101 is executed in step S3, and a lower layer clustering process for obtaining a tree diagram of the lower layer 102 is executed in step S4. Finally, the entire tree diagram obtained by connecting one tree diagram of the upper layer 101 and a plurality of c tree diagrams of the lower layer 102 via the intermediate layer 100 in step S5. A data output processing for obtaining a dendrogram and storing the result in the word dictionary memory 11 as a word dictionary To run. Thus, the word classification processing ends. In these tree diagrams, each word is classified into one class, and the connection relationship between the classes is shown.

【0052】図12は、図11のサブルーチンの初期化
処理(S1)を示すフローチャートである。図12に示
すように、ステップS11において、テキストデータメ
モリ10内のテキストデータに基づいて、単語の重複を
省いたすべての複数v個の単語の出現頻度を調べて、出
現頻度の高い単語から順に並べて、これを複数v個のク
ラスに割り当てて、複数v個のクラスの単語を初期化ク
ラス単語メモリ61に記憶して、元のメインルーチンに
戻る。ここで、vは2以上の自然数である。
FIG. 12 is a flowchart showing the initialization processing (S1) of the subroutine of FIG. As shown in FIG. 12, in step S11, based on the text data in the text data memory 10, the appearance frequencies of all the plurality of v words excluding the duplication of the words are checked, and the words having the higher appearance frequencies are checked in order. The words are assigned to a plurality of v classes, the words of the plurality of v classes are stored in the initialization class word memory 61, and the process returns to the original main routine. Here, v is a natural number of 2 or more.

【0053】図13は、図11のサブルーチンの中間層
クラスタリング処理(S2)を示すフローチャートであ
る。図13に示すように、まず、ステップS21におい
て、初期化クラス単語メモリ61から複数v個のクラス
の単語を読み出した後、複数v個のクラスの単語のうち
の出現頻度の高いクラスの単語からv個未満の(c+
1)個のクラスの単語を1つのウィンドウ(又はマージ
領域)内のクラスの単語として、図17に示すように、
ワークRAM52に記憶する。ここで、1<c+1<v
である。次いで、ステップS22において、ワークRA
M52に記憶された1つのウィンドウ内のクラスの単語
の中で、すべての2個ずつの組み合わせの仮ペアを作
り、各仮ペアをそれぞれマージしたときの平均相互情報
量を数2を用いて計算して、各仮ペアとそれに対応する
計算された平均相互情報量とを次の表2の形式でAMI
メモリ62に記憶する。
FIG. 13 is a flowchart showing the intermediate layer clustering processing (S2) of the subroutine of FIG. As shown in FIG. 13, first, in step S21, after reading words of a plurality of v classes from the initialization class word memory 61, the words of the class having a high appearance frequency among the words of the plurality of v classes are read first. Less than v (c +
1) Assuming that words of a class are words of a class in one window (or merge area), as shown in FIG.
It is stored in the work RAM 52. Here, 1 <c + 1 <v
It is. Next, in step S22, the work RA
Among the words of the class in one window stored in M52, a tentative pair of all two combinations is created, and the average mutual information when each tentative pair is merged is calculated using Equation 2. Then, each temporary pair and the calculated average mutual information corresponding to the temporary pair are expressed in the form of AMI in the following Table 2.
It is stored in the memory 62.

【0054】[0054]

【表2】 ────────────────── 仮ペア 平均相互情報量 ────────────────── (C1,C2) 0.867678 (C2,C3) 0.234689 (C3,C4) 0.125686 ………… ……………… (Cc,Cc+1) 0.675642 ──────────────────[Table 2] 仮 Provisional pair average mutual information ────────────────── (C 1 , (C 2 ) 0.867678 (C 2 , C 3 ) 0.234689 (C 3 , C 4 ) 0.125686 ............ (C c , C c + 1 ) 0.675642 ── ────────────────

【0055】次いで、ステップS23において、図18
に示すように、AMIメモリ62に記憶された各仮ペア
の平均相互情報量のうち、最大となる仮ペアを見つけて
当該仮ペアをマージすることにより、1つのクラスが減
少し、マージ後の1つのウィンドウ内のクラスの単語を
更新して、更新後のクラスの単語をワークRAM52に
記憶する。そして、ステップS24において、ウィンド
ウ外のクラスはなくなりかつウィンドウ内のクラスの数
はc個となったか否かが判断され、その判断がNOであ
るとき、ステップS25において、図18に示すよう
に、現在のウィンドウよりも外側にあり、最大の出現頻
度を有するクラスの単語をウィンドウ内に挿入し、挿入
後の1つのウィンドウ内のクラスの単語を更新して、更
新後のクラスの単語をワークRAM52に記憶した後、
ステップS22に戻って、ステップS22以降の処理を
繰り返す。
Next, in step S23, FIG.
As shown in (1), one class is reduced by finding the largest temporary pair out of the average mutual information amount of each temporary pair stored in the AMI memory 62 and merging the temporary pair, thereby reducing one class. The word of the class in one window is updated, and the updated word of the class is stored in the work RAM 52. Then, in step S24, it is determined whether there are no classes outside the window and the number of classes in the window is c. If the determination is NO, in step S25, as shown in FIG. The words of the class having the highest frequency of appearance outside the current window are inserted into the window, the words of the class in one window after the insertion are updated, and the words of the updated class are stored in the work RAM 52. After memorizing,
Returning to step S22, the processing after step S22 is repeated.

【0056】一方、ステップS24においてYESであ
るときは、ステップS26において、ワークRAM52
に記憶された、ウィンドウ内のc個のクラス及びそれに
属する単語を中間層100として中間層メモリ63に記
憶する。これによって、中間層クラスタリング処理が終
了し、メインルーチンに戻る。
On the other hand, if YES is determined in the step S24, the work RAM 52 is determined in a step S26.
Are stored in the intermediate layer memory 63 as the intermediate layer 100. Thus, the intermediate layer clustering process ends, and the process returns to the main routine.

【0057】図14は、図11のサブルーチンの上側層
クラスタリング処理(S3)を示すフローチャートであ
り、図19に示すように、中間層100から矢印201
の方向でツリー図を求める処理である。図14に示すよ
うに、まず、ステップS31において、中間層メモリ6
3内のc個のクラスの単語を読み出した後、当該c個の
クラスの単語を1つのウィンドウ内のクラス単語とし
て、ワークRAM52に記憶する。次いで、ステップS
32において、ステップS22と同様に、ワークRAM
52に記憶された1つのウィンドウ内のクラスの単語の
中で、すべての2個ずつの組み合わせの仮ペアを作り、
各仮ペアをそれぞれマージしたときの平均相互情報量を
数2を用いて計算して、各仮ペアとそれに対応する計算
された平均相互情報量とを前述の表2の形式でAMIメ
モリ62に記憶する。
FIG. 14 is a flowchart showing the upper layer clustering process (S3) of the subroutine of FIG. 11, and as shown in FIG.
Is a process of obtaining a tree diagram in the direction of. As shown in FIG. 14, first, in step S31, the intermediate layer memory 6
After reading the words of the c classes in 3, the words of the c classes are stored in the work RAM 52 as the class words in one window. Then, step S
In step 32, as in step S22, the work RAM
Among the words of the class in one window stored in 52, a tentative pair of all two combinations is created,
The average mutual information amount when each of the temporary pairs is merged is calculated using Equation 2, and each temporary pair and the calculated average mutual information amount corresponding thereto are stored in the AMI memory 62 in the format of Table 2 described above. Remember.

【0058】次いで、ステップS33において、ステッ
プS23と同様に、AMIメモリ62に記憶された各仮
ペアの平均相互情報量のうち、最大となる仮ペアを見つ
けて当該仮ペアをマージすることにより、1つのクラス
が減少し、マージ後の1つのウィンドウ内のクラスの単
語を更新して、更新後のクラスの単語をワークRAM5
2に記憶する。また、例えば表1の形式を有し、どのク
ラスとどのクラスとがマージされて新しく名づけられた
クラスとなったかを表わす当該マージ処理の履歴を上側
層ヒストリメモリ64に記憶する。そして、ステップS
34において、ウィンドウ内のクラスの数はc個となっ
たか否かが判断され、その判断がNOであるとき、ステ
ップS32に戻って、ステップS32以降の処理を繰り
返す。
Next, in step S33, as in step S23, the largest provisional pair is found out of the average mutual information amount of each provisional pair stored in the AMI memory 62, and the provisional pair is merged. One class is reduced, the words of the class in one window after the merge are updated, and the words of the updated class are stored in the work RAM 5.
Stored in 2. In addition, the history of the merge process having the format shown in Table 1 and indicating which class and which class are merged into a newly named class is stored in the upper layer history memory 64. And step S
At 34, it is determined whether or not the number of classes in the window has reached c. If the determination is NO, the process returns to step S32, and the processes after step S32 are repeated.

【0059】一方、ステップS34においてYESであ
るときは、ステップS35において、上側層ヒストリメ
モリ64内の上側層の履歴又はヒストリに基づいて、例
えば図6に示すように、上側層のツリー図又はデンドロ
グラムDrootを作成して上側層ツリーメモリ65に記憶
する。これによって、上側層クラスタリング処理が終了
し、メインルーチンに戻る。
On the other hand, if YES in step S34, in step S35, based on the history or history of the upper layer in the upper layer history memory 64, for example, as shown in FIG. A gram D root is created and stored in the upper layer tree memory 65. Thus, the upper layer clustering process ends, and the process returns to the main routine.

【0060】図15は、図11のサブルーチンの下側層
クラスタリング処理(S4)を示すフローチャートであ
り、図15に示すように、下側層102の底辺に位置す
る単語から、中間層100の各クラスCi毎に、矢印2
02の方向でツリー図を求める処理である。ある。図1
5に示すように、まず、ステップS41において、中間
層メモリ63内のc個のクラスの単語を読み出した後、
当該c個のクラスから1つのクラスを選択する。そし
て、ステップS42において、選択されたクラス内のv
i個の単語を1つのウィンドウ内のクラス単語として、
ワークRAM52に記憶する。次いで、ステップS43
において、ステップS22及びS32と同様に、ワーク
RAM52に記憶された1つのウィンドウ内のクラスの
単語の中で、すべての2個ずつの組み合わせの仮ペアを
作り、各仮ペアをそれぞれマージしたときの平均相互情
報量を数2を用いて計算して、各仮ペアとそれに対応す
る計算された平均相互情報量とを前述の表2の形式でA
MIメモリ62に記憶する。
FIG. 15 is a flowchart showing the lower layer clustering processing (S4) of the subroutine of FIG. 11, and as shown in FIG. Arrow 2 for each class C i
This is a process for obtaining a tree diagram in the direction of 02. is there. FIG.
As shown in FIG. 5, first, in step S41, after reading out words of c classes in the intermediate layer memory 63,
One class is selected from the c classes. Then, in step S42, v in the selected class
i words as class words in one window,
It is stored in the work RAM 52. Next, step S43
In the same manner as in steps S22 and S32, in the words of the class in one window stored in the work RAM 52, a temporary pair of every two combinations is created, and each temporary pair is merged. The average mutual information is calculated using Equation 2, and each tentative pair and the calculated average mutual information corresponding thereto are represented by A in the format of Table 2 described above.
It is stored in the MI memory 62.

【0061】次いで、ステップS44において、ステッ
プS23及びS33と同様に、AMIメモリ62に記憶
された各仮ペアの平均相互情報量のうち、最大となる仮
ペアを見つけて当該仮ペアをマージすることにより、1
つのクラスが減少し、マージ後の1つのウィンドウ内の
クラスの単語を更新して、更新後のクラスの単語をワー
クRAM52に記憶する。また、例えば表1の形式を有
し、どのクラスとどのクラスとがマージされて新しく名
づけられたクラスとなったかを表わす当該マージ処理の
履歴を下側層ヒストリメモリ66に記憶する。そして、
ステップS45において、ウィンドウ内のクラスの数は
c個となったか否かが判断され、その判断がNOである
とき、ステップS43に戻って、ステップS43以降の
処理を繰り返す。ここで、ステップS43及びS44の
処理は、中間層100の各クラス毎に実行される。
Next, in step S44, as in steps S23 and S33, the largest provisional pair is found out of the average mutual information amount of each provisional pair stored in the AMI memory 62, and the provisional pair is merged. By 1
One class is reduced, the word of the class in one window after the merge is updated, and the word of the updated class is stored in the work RAM 52. Further, the history of the merging process having the format shown in Table 1 and indicating which class is merged with which class into a newly named class is stored in the lower layer history memory 66. And
In step S45, it is determined whether or not the number of classes in the window has reached c. If the determination is NO, the process returns to step S43, and the processing from step S43 is repeated. Here, the processing of steps S43 and S44 is executed for each class of the intermediate layer 100.

【0062】一方、ステップS45においてYESであ
るときは、ステップS46においてすべての中間層10
0のクラスについて処理したか否かが判断され、当該判
断がNOであるとき、未処理のクラスが残っているの
で、ステップS47において残っている中間層100の
別の未処理のクラスを選択した後、ステップS42に進
む。一方、ステップS46においてYESであるとき
は、ステップS48において、下側層ヒストリメモリ6
6内の下側層の履歴又はヒストリに基づいて、例えば図
6に示すように、下側層のツリー図又はデンドログラム
subを作成して下側層ツリーメモリ67に記憶する。
これによって、下側層クラスタリング処理が終了し、メ
インルーチンに戻る。
On the other hand, when YES is determined in the step S45, all the intermediate layers 10 are determined in a step S46.
It is determined whether or not the processing has been performed for the class of 0. If the determination is NO, an unprocessed class remains, and another unprocessed class of the remaining intermediate layer 100 is selected in step S47. Thereafter, the process proceeds to step S42. On the other hand, when YES is determined in the step S46, in a step S48, the lower layer history memory 6
Based on the history or the history of the lower layer 6, for example, as shown in FIG. 6, and stores the lower layer tree memory 67 to create a tree diagram or dendrogram D sub of the lower layer.
Thus, the lower layer clustering process ends, and the process returns to the main routine.

【0063】図16は、図11のサブルーチンのデータ
出力処理(S5)を示すフローチャートである。図16
に示すように、まず、ステップS51において、図19
に示すように、上側層ツリーメモリ65内の上側層のツ
リー図と、下側層ツリーメモリ67内の下側層のツリー
図とに基づいて、これら2つのツリー図を中間層100
の各クラスCiを介して連結し、すなわち、上側層ツリ
ーメモリ65内の上側層のツリー図を中間層100の各
クラスCiに連結する一方、下側層ツリーメモリ67内
の下側層ツリー図をその頂点にあるクラスを中間層10
0の各クラスCiに連結する。これによって、当該テキ
ストデータに基づく全体のツリー図を作成して、ツリー
図の情報をツリーメモリ68に記憶する。当該ツリーメ
モリ68には、図6及び図8に示すように、各クラスの
単語間の連結関係が単語辞書として記憶される。そし
て、ステップS52において、ツリーメモリ68内のツ
リー図の情報を単語分類結果(又は単語クラスタリング
結果)として単語辞書メモリ11に出力して記憶する。
FIG. 16 is a flowchart showing the data output processing (S5) of the subroutine of FIG. FIG.
As shown in FIG. 19, first, in step S51, FIG.
As shown in FIG. 7, based on the upper-layer tree diagram in the upper-layer tree memory 65 and the lower-layer tree diagram in the lower-layer tree memory 67, these two tree diagrams are stored in the intermediate layer 100.
Linked via respective class C i, that is, while connecting the tree view of the upper layer of the upper layer tree memory 65 in each class C i of the intermediate layer 100, the lower layer of the lower layer in the tree memory 67 The class at the top of the tree diagram is represented by the middle layer 10.
0 to each class C i . As a result, an entire tree diagram based on the text data is created, and information of the tree diagram is stored in the tree memory 68. As shown in FIGS. 6 and 8, the tree memory 68 stores the connection relation between words of each class as a word dictionary. Then, in step S52, the information of the tree diagram in the tree memory 68 is output to and stored in the word dictionary memory 11 as a word classification result (or word clustering result).

【0064】<第1の実施形態>図1は、本発明に係る
第1の実施形態である音声認識装置のブロック図であ
る。図1において、テキストデータメモリ10内に格納
された、例えば英語又は日本語の複数の単語を含むテキ
ストデータは、単語分類処理部20によって上述の単語
分類処理が実行されることにより、複数のクラスに分類
されかつクラスの連結関係が記述された単語辞書とし
て、単語辞書メモリ11内に格納される。
<First Embodiment> FIG. 1 is a block diagram of a speech recognition apparatus according to a first embodiment of the present invention. In FIG. 1, text data including a plurality of words, for example, English or Japanese, stored in a text data memory 10 is subjected to a plurality of classes by executing the above-described word classification processing by the word classification processing unit 20. And stored in the word dictionary memory 11 as a word dictionary in which the connection relations of the classes are described.

【0065】一方、マイクロホン1に入力された複数の
単語からなる発声音声は、マイクロホン1によって音声
信号に変換された後、A/D変換器2によってディジタ
ル音声信号にA/D変換される。ディジタル音声信号は
特徴抽出部3に入力され、特徴抽出部3は、入力された
ディジタル音声信号に対して例えばLPC分析してケプ
ストラム係数や対数パワーなどの特徴パラメータを抽出
して、バッファメモリ4を介して音声認識部5に出力す
る。音声認識部5は、単語辞書メモリ11に格納された
単語辞書を参照しかつ、例えば音素隠れマルコフモデル
(以下、音素HMMという。)である言語モデルメモリ
12に格納された言語モデルを参照して、単語毎に音声
認識を実行して、音声認識結果を出力する。なお、ここ
で、単語辞書メモリ11内の単語辞書は、例えば、 (a)010010010,position; (b)010010011,location; (c)110010100,for; のように各単語とその単語の属するクラスを表現するビ
ット列などの情報を含む。
On the other hand, the uttered voice composed of a plurality of words input to the microphone 1 is converted into a voice signal by the microphone 1 and then A / D converted by the A / D converter 2 into a digital voice signal. The digital audio signal is input to the feature extracting unit 3, which performs, for example, LPC analysis on the input digital audio signal to extract feature parameters such as cepstrum coefficients and logarithmic power, and stores the buffer memory 4 in the buffer memory 4. And outputs the result to the voice recognition unit 5. The speech recognition unit 5 refers to the word dictionary stored in the word dictionary memory 11 and refers to the language model stored in the language model memory 12 which is, for example, a phoneme hidden Markov model (hereinafter, referred to as a phoneme HMM). , Perform speech recognition for each word, and output a speech recognition result. Here, the word dictionaries in the word dictionary memory 11 include, for example, (a) 010010010, position; (b) 010010011, location; (c) 110010100, for; It contains information such as the bit string to be represented.

【0066】<第2の実施形態>図2は、本発明に係る
第2の実施形態である形態素及び構文解析装置のブロッ
ク図である。図2において、テキストデータメモリ3
1,32にそれぞれ格納された、複数の単語からなる2
つのテキストデータはそれぞれ、単語分類処理部20に
よって上述の単語の分類処理が実行されることにより、
複数のクラスに分類されかつクラスの連結関係が記述さ
れた単語辞書として、それぞれ単語辞書メモリ41,4
2内に格納される。
<Second Embodiment> FIG. 2 is a block diagram of a morpheme and syntax analyzer according to a second embodiment of the present invention. In FIG. 2, the text data memory 3
2, consisting of a plurality of words stored in
Each of the two pieces of text data is subjected to the above-described word classification processing by the word classification processing unit 20.
As word dictionaries classified into a plurality of classes and describing the connection relations of the classes, word dictionary memories 41 and 4 are provided, respectively.
2 is stored.

【0067】日本語又は英語などの所定の言語の文字列
からなり複数の単語からなる自然言語文が形態素解析部
21に入力され、形態素解析部21は、入力された自然
言語文の各単語の出現形に対して、単語辞書メモリ41
に格納された単語辞書を参照して上記自然言語文を複数
の単語に分割するとともに、上記各出現形に対して品
詞、活用形、標準表現形、及び類語コードなどの情報を
付与し、これらの解析結果を構文解析部22に出力す
る。次いで、構文解析部22は、単語辞書メモリ42に
格納された単語辞書を参照して、所定の構文解析を実行
して単語列に対して構文木情報を付加して解析結果とし
て出力する。
A natural language sentence consisting of a character string of a predetermined language such as Japanese or English and consisting of a plurality of words is input to the morphological analysis unit 21, and the morphological analysis unit 21 converts each word of the input natural language sentence. For the appearance form, the word dictionary memory 41
In addition to dividing the natural language sentence into a plurality of words by referring to the word dictionary stored in the above, information such as part of speech, inflected form, standard expression form, and synonym code is given to each of the appearance forms. Is output to the syntax analyzer 22. Next, the syntax analysis section 22 refers to the word dictionary stored in the word dictionary memory 42, executes a predetermined syntax analysis, adds syntax tree information to the word string, and outputs the result as an analysis result.

【0068】以上説明したように、図19に示すよう
に、下側層、中間層、及び上側層と階層化して、複数の
単語を二分木の形式で複数のクラスに分類したので、単
語分類処理によりバランスのとれた階層構造を有する単
語分類結果を得ることができる。また、AMIの計算に
おいては、下側層、中間層、及び上側層ともに、すべて
のクラスの単語を対象としてAMIを計算しているの
で、計算されたAMIは局所的なAMIではなく、全体
の単語の情報を含んだグローバルはAMIに基づいて、
クラスタリング処理を実行している。従って、全体的に
最適化された単語分類結果を得ることができる。これに
より、テキストデータから単語の分類体系を自動的に獲
得するときに、より精密で正確な分類体系を得ることが
できる。さらに、上記単語分類部20により得られた単
語辞書に基づいて音声認識することにより、従来例に比
較して高い認識率で音声認識することができる。
As described above, as shown in FIG. 19, the lower layer, the middle layer, and the upper layer are hierarchized, and a plurality of words are classified into a plurality of classes in the form of a binary tree. A word classification result having a balanced hierarchical structure can be obtained by the processing. In addition, in the calculation of the AMI, the AMI is calculated for all classes of words in the lower layer, the middle layer, and the upper layer, so that the calculated AMI is not a local AMI but a whole AMI. A global containing word information is based on AMI,
The clustering process is running. Therefore, a totally optimized word classification result can be obtained. This makes it possible to obtain a more precise and accurate classification system when automatically acquiring a word classification system from text data. Furthermore, by performing speech recognition based on the word dictionary obtained by the word classification unit 20, speech recognition can be performed at a higher recognition rate than in the conventional example.

【0069】以上の実施形態において、音声認識部5
と、単語分類処理部20と、形態素解析部21と、構文
解析部22とは例えばディジタル計算機によって構成さ
れる。以上の実施形態の単語分類処理は、図11に示す
ように、中間層クラスタリング処理、上側層クラスタリ
ング処理、下側層クラスタリング処理の順序で実行して
いるが、本発明はこれに限らず、中間層クラスタリング
処理、下側層クラスタリング処理、上側層クラスタリン
グ処理の順序で実行してもよい。以上の実施形態におい
て、図11の初期化処理の前に、単語のn−グラムを利
用して、同一の単語に隣接する割合の多い単語を同一の
クラスに割り当てるという基準で複数の単語を複数のク
ラスに分類する処理を実行してもよい。
In the above embodiment, the voice recognition unit 5
The word classification processing unit 20, the morphological analysis unit 21, and the syntax analysis unit 22 are configured by, for example, a digital computer. As shown in FIG. 11, the word classification process of the above embodiment is executed in the order of the intermediate layer clustering process, the upper layer clustering process, and the lower layer clustering process. However, the present invention is not limited to this. It may be executed in the order of the layer clustering process, the lower layer clustering process, and the upper layer clustering process. In the above embodiment, before the initialization process in FIG. 11, a plurality of words are assigned based on the criterion of assigning a word having a high ratio adjacent to the same word to the same class using the n-gram of the word. May be executed.

【0070】[0070]

【実施例】【Example】

<実験(シミュレーション)>6年分のWSJのコーパ
スの平易なテキストデータを使用し、クラスタと単語ビ
ットを作成した。テキストのサイズは500万語、10
00万語、2000万語、及び5000万語(それぞ
れ、5MW、10MW、20MW、50MW;ここで、
Wはワードである。)である。語彙はコーパス全体で最
も頻繁に使用されている上位7万語とした。最終クラス
数cは500に設定した。獲得したクラスタと単語ビッ
トを、それぞれ次の2つの尺度SS1とSS2を使用し
て評価する。 (a)尺度SS1は、WSJのコーパス、及び本出願人
が所有するコーパスである一般的な英語のツリーバンク
に基づいた、クラスを基本としたトライグラムモデルの
パープレキシティーを計算するパープレキシティー法で
ある。 (b)尺度SS2は、本出願人が所有する決定木を用い
る部分音声のラベル付け(tagging又はlabe
ling)のラベル付け装置(tagger又はlab
eler)における誤り率である。
<Experiment (Simulation)> Clusters and word bits were created using plain text data of the WSJ corpus for six years. Text size is 5 million words, 10
Million, 20 million, and 50 million words (5 MW, 10 MW, 20 MW, 50 MW, respectively;
W is a word. ). The vocabulary was the top 70,000 words used most frequently throughout the corpus. The final class number c was set to 500. The acquired cluster and word bits are evaluated using the following two measures SS1 and SS2 respectively. (A) The measure SS1 is a perplexity that calculates the perplexity of a class-based trigram model based on the WSJ corpus and a general English treebank, a corpus owned by the applicant. Is the law. (B) The measure SS2 is a labeling (labeling or label) of a partial sound using a decision tree owned by the present applicant.
ling) labeling device (tagger or lab)
eler).

【0071】<パープレキシティ法>単語をその所属ク
ラスに写像するクラス関数Gを使用すると単語トライグ
ラムの確率は、次式のように書き直すことができる。
<Perplexity Method> The probability of a word trigram can be rewritten as follows by using a class function G that maps a word to its belonging class.

【0072】[0072]

【数15】P(wi│wi-2i-1)=Pc(G(wi))│G(w
i-2)G(wi-1))Pm(wi│G(wi))
[Number 15] P (w i │w i-2 w i-1) = P c (G (w i)) │G (w
i-2) G (w i -1)) P m (w i │G (w i))

【0073】ここで、Pcは2次のマルコフ連鎖確率で
あり、Pmは単語メンバーシップ確率である。Pc及び
Pmのスムージングは、それぞれカッツ(Katz)の
バックオフ、及びグッドテューリング公式を使用して行
う。トレーニング用テキストのサイズは1.9MWで、
テストテキストは150KWであり、両者ともWSJの
コーパスを典拠としている。語彙サイズは77KWであ
る。図9は、テストテキストのパープレキシティーとク
ラスタリングのテキストサイズとの関係を示している。
クラスタリングのテキストサイズにおけるゼロ点は、単
語トライグラムモデルのパープレキシティーを表してい
る。クラスタリングのテキストサイズが増加するに従っ
て、パープレキシティーは単調に減少する。これはクラ
スタリング処理の改善を示している。50MWでは、パ
ープレキシティーは単語トライグラムモデルの場合より
18%低くなっている。この結果は、クラス・トライグ
ラムのパープレキシティーが単語トライグラムモデルの
場合より僅かに高いとした第1の従来例の結果とは好対
照である。
Here, P c is a second-order Markov chain probability, and P m is a word membership probability. Smoothing of Pc and Pm is performed using Katz backoff and Good Turing formula, respectively. The size of the training text is 1.9MW,
The test text is 150 KW, and both are based on the WSJ corpus. The vocabulary size is 77KW. FIG. 9 shows the relationship between the perplexity of the test text and the text size of the clustering.
The zero in the text size of the clustering represents the perplexity of the word trigram model. As the text size of the clustering increases, the perplexity monotonically decreases. This indicates an improvement in the clustering process. At 50 MW, the perplexity is 18% lower than for the word trigram model. This result is in sharp contrast to the result of the first conventional example in which the perplexity of the class trigram is slightly higher than that of the word trigram model.

【0074】<決定木を用いた音声部分のラベル付け>
本出願人が所有する決定木を用いる部分音声のラベル付
け(tagging)のラベル付け装置(tagger)は、スパッタ
ー(SPATTER、例えば、従来技術文献2「D.Ma
german, “Natural Language Parsing as Stat
istical Recognition", Doctoral Dissertation,
Stanford University, Stanford,California, 1
994年」参照。)をベースとした、本出願人が所有す
る決定木パーザーの統合モジュールである。上記ラベル
付け装置は、ユニバーシティ・オブ・ペンシルバニアの
トリーバンクプロジェクトのそれよりも、1桁だけ大き
い441個の統語的ラベル(syntactic tags)を採用
している。学習用テキスト、テスト用テキスト、及び実
行用テキストはすべて、単語とラベルとの対のすべての
シーケンスを含む。学習段階では、イベント(event)
は、特徴値の集合又は、質問とそれに対する回答との対
の集合である。1つの特徴は、処理すべき現在の単語w
ord(0)が現れる文脈における任意の属性であり、
これは便宜上、質問の形式で表される。ラベル付けは左
から右へと行う。表3は、処理すべき現在の単語“li
ke”を用いたイベントの一例を示している。
<Labeling of Audio Part Using Decision Tree>
A labeling device (tagger) for tagging partial voices using a decision tree owned by the present applicant is known as a SPATTER, for example, D2Ma.
german, “Natural Language Parsing as Stat
istical Recognition ", Doctoral Dissertation,
Stanford University, Stanford, California, 1
994 ". ) Is an integrated module of a decision tree parser owned by the present applicant. The labeling apparatus employs 441 syntactic tags, an order of magnitude larger than that of the University of Pennsylvania Treebank project. The learning text, the test text, and the running text all include the entire sequence of word and label pairs. During the learning phase, events
Is a set of feature values or a set of pairs of questions and their answers. One feature is that the current word w to be processed
any attribute in the context where ord (0) appears,
This is conveniently represented in the form of a question. Labeling is done from left to right. Table 3 shows that the current word "li"
An example of an event using “ke” is shown.

【0075】[0075]

【表3】 ─────────────────────────────────── Event−128: { <word(0), “like"><word(-1), “flies"><word(-2), “time"> <word(1), “an"><word(2), “arrow"><tag(-1), “Verb-3rd-Sg-type3" > <tag(-2), “Noun-Sg-type14"> ............................ (Basic Questions) <Inclass?(word(0), Class295), “yes"><WordBits(Word(-1), 29), “1"> ............................ (WordBits Questions) <Tag, “Prep-type5"> } ───────────────────────────────────[Table 3] ─────────────────────────────────── Event-128: {<word (0), “Like”> <word (-1), “flies”> <word (-2), “time”> <word (1), “an”> <word (2), “arrow”> <tag (- 1), “Verb-3rd-Sg-type3”> <tag (-2), “Noun-Sg-type14”> ............ ...... (Basic Questions) <Inclass? (Word (0), Class295), “yes”> <WordBits (Word (-1), 29), “1”> ........ .......... (WordBits Questions) <Tag, “Prep-type5”>} ──────────────── ───────────────────

【0076】このイベントの最後のペアは、回答、即ち
当該現在の単語の正しいラベルを示す特別な項目であ
る。最初の2行は当該現在の単語の回りの単語の識別に
関する質問と、先行する単語のためのラベルを表してい
る。これらの質問は、基本質問と呼ばれている。第2の
質問形式(単語ビット質問)は、「この現在の単語はク
ラス295にありますか?」或いは「先行する単語の単
語ビット中の第29ビットは何ですか?」と言ったクラ
スタ及び単語ビットに関するものである。
The last pair of this event is an answer, a special item indicating the correct label of the current word. The first two lines represent the question about identifying the word around the current word and the label for the preceding word. These questions are called basic questions. The second question type (word bit question) consists of clusters and words that say "is this current word in class 295?" Or "what is the 29th bit in the word bits of the preceding word?"It's about bits.

【0077】イベントの集合から決定木を作成する。決
定木の根のノードは、それぞれ対応する単語に対して正
しいラベルを含んでいるすべてのイベントからなるセッ
トを表している。根のノード用のラベルの確率分布は当
該集合におけるラベルの相対的な頻度を計算することに
よって得ることができる。当該セットの中の各イベント
における特徴値を問い合わせることで、そのセットはN
個のサブセットに分割することができる(Nは特徴に関
する可能値である)。次いで、この特徴値を条件とし
て、各サブセットに対するラベルの条件付き確率分布を
計算することが可能である。セットの分割によって生じ
るエントロピーの減少を各特徴毎に計算した後、エント
ロピーの減少量を最大にする特徴を選択する。この方法
を反復し、セットを各サブセットに分割することによっ
て、葉のノードがタグの条件付き確率分布を含むような
決定木を構築することができる。次いで、獲得した確率
分布を実行用データを使用してスムージングする。スム
ージング処理の詳細については上記従来技術文献2を参
照せよ。テスト段階では、システムはテストテキスト内
の各単語に対する条件付き確率分布を調査し、ビームサ
ーチを使用して最も可能性のあるラベル付けシーケンス
を選択する。
A decision tree is created from a set of events. The root node of the decision tree represents a set of all events, each containing the correct label for the corresponding word. The probability distribution of the labels for the root nodes can be obtained by calculating the relative frequencies of the labels in the set. By querying the feature values for each event in the set, the set becomes N
(N is a possible value for the feature). Then, conditional on this feature value, it is possible to calculate a conditional probability distribution of the labels for each subset. After calculating the reduction in entropy caused by the set division for each feature, the feature that maximizes the reduction in entropy is selected. By iterating the method and dividing the set into subsets, a decision tree can be constructed in which the leaf nodes include the conditional probability distribution of the tags. Next, the obtained probability distribution is smoothed using the execution data. For details of the smoothing process, refer to the above-mentioned prior art document 2. During the test phase, the system examines the conditional probability distribution for each word in the test text and uses beam search to select the most likely labeling sequence.

【0078】本発明者がラベル付け実験に使用したの
は、WSJのテキスト、及び本出願人が所有するコーパ
ス(以下、ATRコーパスという。)である。WSJの
テキストは、本出願人の統語ラベルセットを使用して手
動でラベル付けをし直した。上記ATRコーパスは、文
語体の米語の包括的な見本であり、その語法のスタイル
及び設定は非常に幅広く、多くの異なる領域から作り上
げられている。ATRコーパスはまだ開発過程にあるた
め、この実験用として手元にあるテキストの大きさは、
ラベルセットが大型である割にはかなり小型である。表
4は今回の実験に使用したテキストのサイズを示してい
る。
The present inventors used WSJ text and a corpus (hereinafter referred to as ATR corpus) owned by the present applicant for the labeling experiment. The WSJ text was manually relabeled using Applicant's syntactic label set. The ATR corpus is a comprehensive sample of literary American English, and its grammar style and settings are very wide and are made up of many different domains. Since the ATR corpus is still in development, the size of the text at hand for this experiment is:
Although the label set is large, it is quite small. Table 4 shows the size of the text used in this experiment.

【0079】[0079]

【表4】 ─────────────────────────────────── テキストサイズ(単語数) 学習用 テスト用 実行用 ─────────────────────────────────── WSJのテキスト 75,139 5,831 6,534 ATRコーパス 76,132 23,163 6,680 ───────────────────────────────────[Table 4] ─────────────────────────────────── Text size (number of words) Learning test Execution ─────────────────────────────────── WSJ text 75,139 5,831 6,534 ATR corpus 76,132 23,163 6,680

【0080】図20は、多様なクラスタリングのテキス
トサイズに対するラベル付けの誤り率を表している。本
実験では、2種類の質問形式の中から基本質問及び単語
ビット質問を使用している。ラベル付け装置への単語ビ
ット情報の導入の効果を見るため異なる実験を行った
が、その実験では無作為に生成されたビットストリング
を各単語に割り当て(特徴的なビットストリングが各単
語に割り当てられているが、ラベル付け装置もビットス
トリングを処理中の各単語の認識番号として使用してい
る。この制御実験においては、ビットストリングの割り
当ては無作為に行なわれるが、2つの単語が同じ単語ビ
ットを持つことはない。無作為の単語ビットは、ラベル
付け装置に対して単語の認識以外には何のクラス情報も
与えない。)、基本質問と単語ビット質問を使用した。
結果はクラスタリングのテキストサイズのゼロの値にお
いて表されている。WSJのテキスト及びATRコーパ
スの何れも、ラベル付けの誤り率は、5MWのテキスト
から抽出された単語ビット情報を使用することによって
30%以上低下し、また、クラスタリングのテキストサ
イズが増加するとさらに誤り率が減少した。50MWで
は、誤り率は43%も低下した。これもまた、クラスタ
の品質向上はクラスタリングのテキストサイズの増大に
よるものであることを示している。全体的にみて、高い
誤り率は非常に大きなラベルセットと、小さな学習用セ
ットに起因している。この結果の注目に値する点は、A
TRコーパスのテキストとWSJのテキストは互いに領
域が非常に異なったものであるにも関わらず、WSJの
テキストから構成された単語ビットの導入が、WSJの
テキストに対してと同じくらいATRコーパスのテキス
トのラベル付けにも効果的であったことである。この点
から、獲得した階層的クラスタは領域を越えて移動可能
であると考えられる。
FIG. 20 shows the labeling error rates for various clustering text sizes. In this experiment, a basic question and a word bit question are used from two types of question formats. Different experiments were performed to see the effect of introducing the word bit information into the labeling device, in which a randomly generated bit string was assigned to each word (a characteristic bit string was assigned to each word). However, the labeling device also uses the bit string as an identification number for each word being processed.In this control experiment, the bit string assignment is random, but the two words are the same word bit. The random word bits do not give the labeling device any class information other than word recognition.), Basic questions and word bit questions were used.
The results are expressed at a value of zero for the text size of the clustering. For both the WSJ text and the ATR corpus, the labeling error rate is reduced by more than 30% by using word bit information extracted from the 5 MW text, and further increases as the text size of the clustering increases. Decreased. At 50 MW, the error rate dropped by 43%. This also indicates that the quality improvement of the cluster is due to an increase in the text size of the clustering. Overall, the high error rate is due to a very large label set and a small training set. The notable point of this result is that A
Although the text of the TR corpus and the text of the WSJ are very different in area from each other, the introduction of the word bits composed of the text of the WSJ is as much as the text of the ATR corpus as for the text of the WSJ. Was also effective in labeling From this point, it is considered that the acquired hierarchical cluster can move beyond the area.

【0081】以上説明したように、本発明者は、複数の
単語の階層的クラスタリング分割に関するアルゴリズム
を提案し、5MWから50MWまでの大型テキストデー
タを使用したクラスタ分割の実験を行った。獲得したク
ラスタの高品質性は、2種類の評価方法によって確認さ
れている。クラスを基にしたトライグラムモデルのパー
プレキシティーは、単語をベースとしたトライグラムモ
デルの場合よりも18%低くなっている。本出願人が所
有する決定木の音声部分のラベル付け装置に単語ビット
を導入することにより、ラベル付けの誤りの割合は43
%も減少する。WSJのテキストから得る階層的クラス
タリング分割処理はまた、WSJのテキストとは全く異
なる範囲にあるATRコーパスのテキストのラベル付け
にも有効であることが判った。
As described above, the inventor has proposed an algorithm for hierarchical clustering division of a plurality of words, and has conducted an experiment of cluster division using large text data from 5 MW to 50 MW. The high quality of the acquired cluster has been confirmed by two types of evaluation methods. The perplexity of the class-based trigram model is 18% lower than that of the word-based trigram model. By introducing word bits into the labeling device for the speech part of the decision tree owned by the Applicant, the rate of labeling errors is 43%.
% Also decreases. The hierarchical clustering partitioning process derived from WSJ text was also found to be effective for labeling ATR corpus texts in a completely different range from WSJ text.

【0082】[0082]

【発明の効果】以上詳述したように本発明に係る請求項
1記載の単語分類処理方法によれば、複数の単語を含む
テキストデータに対して、互いに異なるすべての複数v
個の単語の出現頻度を調べ、出現頻度の高い単語から順
に並べて、複数v個のクラスに割り当てるステップと、
上記複数v個のクラスの単語のうち出現頻度が高いv個
未満の(c+1)個のクラスの単語を1つのウィンドウ
内のクラスの単語として第1の記憶装置に記憶するステ
ップと、上記第1の記憶装置に記憶された1つのウィン
ドウ内のクラスの単語に基づいて、第1のクラスの単語
の出現確率と第2のクラスの単語の出現確率との積に対
する、互いに異なる第1のクラスの単語と第2のクラス
の単語とが隣接して出現する確率の相対的な割合を表わ
す所定の平均相互情報量が最大となるように、上記複数
の単語を二分木の形式で複数c個のクラスに分類し、分
類された複数c個のクラスを、単語分類結果を表わす全
体のツリー図の中間層の複数c個のクラスとして第2の
記憶装置に記憶するステップと、上記第2の記憶装置に
記憶された中間層の複数c個のクラスの単語に基づい
て、上記平均相互情報量が最大となるように、上記複数
c個のクラスの単語を二分木の形式で1個のクラスにな
るまで分類し、当該分類結果を上記ツリー図の上側層と
して第3の記憶装置に記憶するステップと、上記第2の
記憶装置に記憶された中間層の複数c個のクラスの各ク
ラス毎に、上記中間層の複数c個のクラスの各クラス内
の複数の単語に基づいて、上記平均相互情報量が最大と
なるように、上記複数の単語を二分木の形式で1個のク
ラスになるまでそれぞれ分類し、当該各クラス毎の複数
の分類結果を上記ツリー図の下側層として第4の記憶装
置に記憶するステップと、上記第4の記憶装置に記憶さ
れた上記ツリー図の下側層を、上記第2の記憶装置に記
憶された上記中間層の複数c個のクラスと連結する一
方、上記第3の記憶装置に記憶された上記ツリー図の上
側層を、上記第2の記憶装置に記憶された上記中間層の
複数c個のクラスと連結することにより、上側層と中間
層と下側層とを備えた上記ツリー図を求めて単語分類結
果として第5の記憶装置に記憶するステップとを備え
る。従って、下側層、中間層、及び上側層と階層化し
て、複数の単語を二分木の形式で複数のクラスに分類し
たので、単語分類処理によりバランスのとれた階層構造
を有する単語分類結果を得ることができる。また、平均
相互情報量の計算においては、下側層、中間層、及び上
側層ともに、すべてのクラスの単語を対象として平均相
互情報量を計算しているので、計算された平均相互情報
量は局所的な平均相互情報量ではなく、全体の単語の情
報を含んだグローバルは平均相互情報量に基づいて、ク
ラスタリング処理を実行している。従って、全体的に最
適化された単語分類結果を得ることができる。これによ
り、テキストデータから単語の分類体系を自動的に獲得
するときに、より精密で正確な分類体系を得ることがで
きる。
As described in detail above, according to the word classification processing method according to the first aspect of the present invention, all the plural v data different from each other are applied to text data including a plurality of words.
Examining the frequency of occurrence of the words, arranging the words in order from the word having the highest frequency, and assigning the words to a plurality of v classes;
Storing, in the first storage device, (c + 1) classes of words having a high appearance frequency of less than v among words of the plurality of v classes as words of a class in one window; Different products of the first class and the product of the probability of occurrence of the word of the first class and the probability of occurrence of the word of the second class based on the words of the class in one window stored in the storage device of the first class. In order to maximize the predetermined average mutual information representing the relative proportion of the probability that the word and the second class word appear adjacent to each other, the plurality of words are divided into a plurality of c Classifying the plurality of c classes into classes, and storing the classified plurality of c classes in the second storage device as the plurality of c classes in the intermediate layer of the entire tree diagram representing the word classification result; and the second storage Middle layer stored in the device Based on the words of the plurality of c classes, the words of the plurality of c classes are classified into one class in the form of a binary tree so that the average mutual information amount is maximized. In the third storage device as an upper layer of the tree diagram, and for each of the c classes of the intermediate layer stored in the second storage device, Based on a plurality of words in each class of the class, the plurality of words are classified in a binary tree form into one class so that the average mutual information is maximized. Storing a plurality of classification results for each of the plurality of classification results in the fourth storage device as a lower layer of the tree diagram; and storing the lower layer of the tree diagram stored in the fourth storage device in the second storage device A plurality of c classes of the intermediate layer stored in the device. While connecting the upper layer of the tree diagram stored in the third storage device with the plurality of c classes of the intermediate layer stored in the second storage device. And obtaining the tree diagram including the intermediate layer and the lower layer, and storing the tree diagram as a word classification result in the fifth storage device. Therefore, the lower layer, the middle layer, and the upper layer are hierarchized, and a plurality of words are classified into a plurality of classes in the form of a binary tree. Obtainable. In the calculation of the average mutual information, the average mutual information is calculated for all the classes of words in the lower layer, the middle layer, and the upper layer. The global processing including the information of the entire word, not the local average mutual information, performs the clustering process based on the average mutual information. Therefore, a totally optimized word classification result can be obtained. This makes it possible to obtain a more precise and accurate classification system when automatically acquiring a word classification system from text data.

【0083】また、請求項2記載の単語分類処理方法
は、請求項1記載の単語分類処理方法において、上記分
類された複数c個のクラスを上記第2の記憶装置に記憶
するステップは、上記第1の記憶装置に記憶された1つ
のウィンドウよりも外側のクラスが存在し、又は上記1
つのウィンドウ内のクラスがc個ではないときは、現在
のウィンドウよりも外側にあり、最大の出現頻度を有す
るクラスの単語を上記ウィンドウ内に挿入した後、上記
二分木の形式の単語分類処理を実行することを特徴とす
る。従って、所定の複数c個のクラスを有する中間層を
最適化形式で得ることができる。
According to a second aspect of the present invention, in the word classification processing method of the first aspect, the step of storing the plurality of classified c classes in the second storage device comprises the step of: There is a class outside one window stored in the first storage device, or
When the number of classes in one window is not c, the words of the class that is outside the current window and has the highest frequency of occurrence are inserted into the window, and then the word classification processing in the form of the binary tree is performed. It is characterized by executing. Therefore, it is possible to obtain an intermediate layer having predetermined plural c classes in an optimized form.

【0084】本発明に係る請求項3記載の単語分類処理
装置は、複数の単語を含むテキストデータに対して、互
いに異なるすべての複数v個の単語の出現頻度を調べ、
出現頻度の高い単語から順に並べて、複数v個のクラス
に割り当てる第1の制御手段と、上記複数v個のクラス
の単語のうち出現頻度が高いv個未満の(c+1)個の
クラスの単語を1つのウィンドウ内のクラスの単語とし
て第1の記憶装置に記憶する第2の制御手段と、上記第
1の記憶装置に記憶された1つのウィンドウ内のクラス
の単語に基づいて、第1のクラスの単語の出現確率と第
2のクラスの単語の出現確率との積に対する、互いに異
なる第1のクラスの単語と第2のクラスの単語とが隣接
して出現する確率の相対的な割合を表わす所定の平均相
互情報量が最大となるように、上記複数の単語を二分木
の形式で複数c個のクラスに分類し、分類された複数c
個のクラスを、単語分類結果を表わす全体のツリー図の
中間層の複数c個のクラスとして第2の記憶装置に記憶
する第3の制御手段と、上記第2の記憶装置に記憶され
た中間層の複数c個のクラスの単語に基づいて、上記平
均相互情報量が最大となるように、上記複数c個のクラ
スの単語を二分木の形式で1個のクラスになるまで分類
し、当該分類結果を上記ツリー図の上側層として第3の
記憶装置に記憶する第4の制御手段と、上記第2の記憶
装置に記憶された中間層の複数c個のクラスの各クラス
毎に、上記中間層の複数c個のクラスの各クラス内の複
数の単語に基づいて、上記平均相互情報量が最大となる
ように、上記複数の単語を二分木の形式で1個のクラス
になるまでそれぞれ分類し、当該各クラス毎の複数の分
類結果を上記ツリー図の下側層として第4の記憶装置に
記憶する第5の制御手段と、上記第4の記憶装置に記憶
された上記ツリー図の下側層を、上記第2の記憶装置に
記憶された上記中間層の複数c個のクラスと連結する一
方、上記第3の記憶装置に記憶された上記ツリー図の上
側層を、上記第2の記憶装置に記憶された上記中間層の
複数c個のクラスと連結することにより、上側層と中間
層と下側層とを備えた上記ツリー図を求めて単語分類結
果として第5の記憶装置に記憶する第6の制御手段とを
備える。従って、下側層、中間層、及び上側層と階層化
して、複数の単語を二分木の形式で複数のクラスに分類
したので、単語分類処理によりバランスのとれた階層構
造を有する単語分類結果を得ることができる。また、平
均相互情報量の計算においては、下側層、中間層、及び
上側層ともに、すべてのクラスの単語を対象として平均
相互情報量を計算しているので、計算された平均相互情
報量は局所的な平均相互情報量ではなく、全体の単語の
情報を含んだグローバルは平均相互情報量に基づいて、
クラスタリング処理を実行している。従って、全体的に
最適化された単語分類結果を得ることができる。これに
より、テキストデータから単語の分類体系を自動的に獲
得するときに、より精密で正確な分類体系を得ることが
できる。
The word classification processing apparatus according to claim 3 of the present invention examines the appearance frequency of all the plurality of v words different from each other with respect to text data containing a plurality of words,
First control means for sequentially arranging words having a high frequency of occurrence and assigning them to a plurality of v classes; and, among words of the plurality of v classes, words of less than v (c + 1) classes having a high frequency of occurrence, A second control unit for storing the words of the class in one window in the first storage device, and a first class based on the words of the class in one window stored in the first storage device. Represents the relative ratio of the probability that the first class word and the second class word that are different from each other appear adjacent to the product of the occurrence probability of the second word and the occurrence probability of the second class word The plurality of words are classified into a plurality c classes in the form of a binary tree such that the predetermined average mutual information amount is maximized, and the classified plurality c
Control means for storing the plurality of classes in the second storage device as a plurality of c classes in the middle layer of the entire tree diagram representing the word classification result, and the intermediate control means for storing the intermediate classes stored in the second storage device. Based on the words of the plurality c classes of the layer, the words of the plurality c classes are classified into one class in the form of a binary tree so that the average mutual information amount is maximized. Fourth control means for storing the classification result in the third storage device as an upper layer of the tree diagram, and for each of a plurality of c classes of the intermediate layer stored in the second storage device, Based on the plurality of words in each of the plurality of c classes in the intermediate layer, the plurality of words are each converted into a single tree in the form of a binary tree such that the average mutual information is maximized. And classify the results of each class into the above tree. Fifth control means for storing in the fourth storage device as a lower layer of the diagram, and a lower layer of the tree diagram stored in the fourth storage device being stored in the second storage device. While linking with the plurality of c classes of the intermediate layer, the upper layer of the tree diagram stored in the third storage device is combined with the plurality of c classes of the intermediate layer stored in the second storage device. Sixth control means for obtaining the tree diagram including the upper layer, the intermediate layer, and the lower layer by connecting to the class, and storing the tree diagram as a word classification result in the fifth storage device. Therefore, the lower layer, the middle layer, and the upper layer are hierarchized, and a plurality of words are classified into a plurality of classes in the form of a binary tree. Obtainable. In the calculation of the average mutual information, the average mutual information is calculated for all the classes of words in the lower layer, the middle layer, and the upper layer. A global containing the information of the whole word, not the local average mutual information, is based on the average mutual information,
The clustering process is running. Therefore, a totally optimized word classification result can be obtained. This makes it possible to obtain a more precise and accurate classification system when automatically acquiring a word classification system from text data.

【0085】また、請求項4記載の単語分類処理装置
は、請求項3記載の単語分類処理装置において、上記第
3の制御手段は、上記第1の記憶装置に記憶された1つ
のウィンドウよりも外側のクラスが存在し、又は上記1
つのウィンドウ内のクラスがc個ではないときは、現在
のウィンドウよりも外側にあり、最大の出現頻度を有す
るクラスの単語を上記ウィンドウ内に挿入した後、上記
二分木の形式の単語分類処理を実行する。従って、所定
の複数c個のクラスを有する中間層を最適化形式で得る
ことができる。
According to a fourth aspect of the present invention, there is provided the word classification processing device according to the third aspect, wherein the third control means is configured to execute the processing based on one of the windows stored in the first storage device. An outer class exists, or 1
When the number of classes in one window is not c, the words of the class that is outside the current window and has the highest frequency of occurrence are inserted into the window, and then the word classification processing in the form of the binary tree is performed. Execute. Therefore, it is possible to obtain an intermediate layer having predetermined plural c classes in an optimized form.

【0086】本発明に係る請求項5記載の音声認識装置
によれば、入力される発声音声の音声信号に基づいて、
請求項3又は4記載の単語分類処理装置によって複数の
単語が複数のクラスに分類された単語分類結果を含む単
語辞書と、所定の隠れマルコフモデルとを参照して上記
発声音声を音声認識する音声認識手段を備える。従っ
て、上記単語分類処理装置により得られた、バランスの
とれた階層構造を有しかつ全体的に最適化された単語辞
書に基づいて音声認識することにより、従来例に比較し
て高い認識率で音声認識することができる。
According to the voice recognition device of the fifth aspect of the present invention, based on the voice signal of the input uttered voice,
A voice for recognizing said uttered voice by referring to a word dictionary including a word classification result in which a plurality of words are classified into a plurality of classes by the word classification processing device according to claim 3 or a predetermined hidden Markov model. A recognition unit is provided. Therefore, by performing speech recognition based on a word dictionary that has a well-balanced hierarchical structure and is totally optimized, obtained by the above-described word classification processing device, the recognition rate is higher than in the conventional example. Can recognize voice.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本発明に係る第1の実施形態である音声認識
装置のブロック図である。
FIG. 1 is a block diagram of a speech recognition device according to a first embodiment of the present invention.

【図2】 本発明に係る第2の実施形態である形態素及
び構文解析装置のブロック図である。
FIG. 2 is a block diagram of a morpheme and syntax analyzer according to a second embodiment of the present invention.

【図3】 図1及び図2の単語分類処理部によって実行
される単語分類処理における加算領域及び加減算処理を
示すクラスバイグラム平面テーブルの図である。
FIG. 3 is a diagram of a class bigram plane table showing an addition area and an addition / subtraction process in a word classification process performed by the word classification processing unit in FIGS. 1 and 2;

【図4】 (a)は上記単語分類処理におけるAMI減
少量Lk(l,m)に対する加算領域を示すクラスバイ
グラム平面テーブルの図であり、(b)は上記単語分類
処理におけるAMI減少量Lk-1 (i,j)(l,m)に対す
る加算領域を示すクラスバイグラム平面テーブルの図で
ある。
FIG. 4A is a diagram of a class bigram plane table showing an addition area with respect to an AMI reduction amount L k (l, m) in the word classification process, and FIG. 4B is a diagram illustrating an AMI reduction amount L in the word classification process. It is a figure of the class bigram plane table which shows the addition area to k-1 (i, j) (l, m).

【図5】 (a)は上記単語分類処理におけるマージ後
のAMI量Ihkを示すクラスバイグラム平面テーブル
の図であり、(b)は上記単語分類処理におけるマージ
後のAMI量Ihk(l,m)を示すクラスバイグラム
平面テーブルの図であり、(c)は上記単語分類処理に
おけるマージ後のAMI量Ihk-1 (i, j)を示すクラスバ
イグラム平面テーブルの図であり、(d)は上記単語分
類処理におけるマージ後のAMI量Ihk-1 (i,j)(l,
m)を示すクラスバイグラム平面テーブルの図である。
FIG. 5A is a diagram of a class bigram plane table showing the AMI amount Ih k after the merge in the word classification process, and FIG. 5B is a diagram showing the AMI amount Ih k (l, FIG. 8C is a diagram of a class bigram plane table showing m), FIG. 9C is a diagram of a class bigram plane table showing AMI amount Ih k−1 (i, j) after merge in the word classification process, and FIG. Is the AMI amount Ih k-1 (i, j) (l,
FIG. 6 is a diagram of a class bigram plane table showing m).

【図6】 上記単語分類処理によって得られるデンドロ
グラム(ツリーの系統図)の一例を示す図である。
FIG. 6 is a diagram showing an example of a dendrogram (tree system diagram) obtained by the word classification processing.

【図7】 上記単語分類処理によって得られる左側方向
の分岐ツリーの一例を示す図である。
FIG. 7 is a diagram illustrating an example of a left-side branch tree obtained by the word classification processing.

【図8】 上記単語分類処理によって得られる1つのク
ラスに対するサブツリーの一例を示す図である。
FIG. 8 is a diagram showing an example of a subtree for one class obtained by the word classification processing.

【図9】 本発明の音声認識装置におけるシミュレーシ
ョン結果である、テキストの大きさに対するパープレキ
シティーを示すグラフである。
FIG. 9 is a graph showing perplexity with respect to text size, which is a simulation result in the speech recognition device of the present invention.

【図10】 図1の単語分類処理部20の構成を示すブ
ロック図である。
FIG. 10 is a block diagram illustrating a configuration of a word classification processing unit 20 of FIG. 1;

【図11】 図1の単語分類処理部20によって実行さ
れるメインルーチンの単語分類処理を示すフローチャー
トである。
FIG. 11 is a flowchart illustrating a word classification process of a main routine executed by the word classification processing unit 20 of FIG. 1;

【図12】 図11のサブルーチンの初期化処理(S
1)を示すフローチャートである。
FIG. 12 is a flowchart showing an initialization process (S
It is a flowchart which shows 1).

【図13】 図11のサブルーチンの中間層クラスタリ
ング処理(S2)を示すフローチャートである。
FIG. 13 is a flowchart showing an intermediate layer clustering process (S2) of the subroutine of FIG. 11;

【図14】 図11のサブルーチンの上側層クラスタリ
ング処理(S3)を示すフローチャートである。
FIG. 14 is a flowchart showing an upper layer clustering process (S3) of the subroutine of FIG. 11;

【図15】 図11のサブルーチンの下側層クラスタリ
ング処理(S4)を示すフローチャートである。
FIG. 15 is a flowchart showing a lower layer clustering process (S4) of the subroutine of FIG. 11;

【図16】 図11のサブルーチンのデータ出力処理
(S5)を示すフローチャートである。
FIG. 16 is a flowchart showing a data output process (S5) of the subroutine of FIG. 11;

【図17】 図11のサブルーチンの中間層クラスタリ
ング処理(S2)におけるステップS21の処理を示
し、単語クラスの集合を示す図である。
FIG. 17 is a diagram showing a process of step S21 in the intermediate layer clustering process (S2) of the subroutine of FIG. 11, and showing a set of word classes.

【図18】 図11のサブルーチンの中間層クラスタリ
ング処理(S2)におけるステップS23及びS24の
処理を示し、単語クラスの集合を示す図である。
FIG. 18 is a diagram showing a process of steps S23 and S24 in the intermediate layer clustering process (S2) of the subroutine of FIG. 11, and showing a set of word classes.

【図19】 図11の単語分類処理における処理及びそ
の処理によって得られる階層構造を示す図である。
19 is a diagram showing a process in the word classification process of FIG. 11 and a hierarchical structure obtained by the process.

【図20】 本発明の音声認識装置のシミュレーション
結果である、テキストの大きさに対するクラスタリング
処理後のラベル付けの誤り率を示すグラフである。
FIG. 20 is a graph showing the error rate of the labeling after the clustering process with respect to the text size, which is a simulation result of the speech recognition device of the present invention.

【符号の説明】[Explanation of symbols]

1…マイクロホン、 2…A/D変換器、 3…特徴抽出部、 4…バッファメモリ、 5…音声認識部、 10,31,32…テキストデータメモリ、 11,41,42…単語辞書メモリ、 12…言語モデル、 20…単語分類処理部、 21…形態素解析部、 22…構文解析部、 50…CPU、 51…ROM、 52…ワークRAM、 53…RAM、 54,55…メモリインターフェース、 61…初期化クラス単語メモリ、 62…AMIメモリ、 63…中間層メモリ、 64…上側層ヒストリメモリ、 65…上側層ツリーメモリ、 66…下側層ヒストリメモリ、 67…下側層ツリーメモリ、 68…ツリーメモリ、 100…中間層、 101…上側層、 102…下側層、 S1…初期化処理、 S2…中間層クラスタリング処理、 S3…上側層クラスタリング処理、 S4…下側層クラスタリング処理、 S5…データ出力処理。 DESCRIPTION OF SYMBOLS 1 ... Microphone, 2 ... A / D converter, 3 ... Feature extraction part, 4 ... Buffer memory, 5 ... Voice recognition part, 10, 31, 32 ... Text data memory, 11, 41, 42 ... Word dictionary memory, 12 ... language model, 20 ... word classification processing unit, 21 ... morphological analysis unit, 22 ... syntax analysis unit, 50 ... CPU, 51 ... ROM, 52 ... work RAM, 53 ... RAM, 54,55 ... memory interface, 61 ... initial Classified word memory, 62 AMI memory, 63 Middle layer memory, 64 Upper layer history memory, 65 Upper layer tree memory, 66 Lower layer history memory, 67 Lower tree memory, 68 Tree memory , 100: middle layer, 101: upper layer, 102: lower layer, S1: initialization processing, S2: middle layer clustering processing, S3: upper layer Rastering process, S4 ... lower layer clustering process, S5 ... data output process.

フロントページの続き (56)参考文献 特開 平3−131967(JP,A) 特開 平3−111972(JP,A) 特開 昭63−172372(JP,A) 柏岡秀紀他、“7G−5 相互情報量 を用いた単語の分類における出現頻度の 低い単語の処理方法”、情報処理学会第 49回(平成6年度後期)全国大会講演論 文集(3)、平成6年9月28日〜30日、 p.3−185〜3−186 (58)調査した分野(Int.Cl.7,DB名) G06F 17/27 G10L 3/00 Continuation of the front page (56) References JP-A-3-131967 (JP, A) JP-A-3-111972 (JP, A) JP-A-63-172372 (JP, A) Hideki Kashioka, et al., “7G-5” Processing Method of Words with Low Appearance in Word Classification Using Mutual Information ", IPSJ 49th (Late 1994) National Convention, Proceedings (3), September 28-30, 1994 Days, p. 3-185 to 3-186 (58) Fields investigated (Int. Cl. 7 , DB name) G06F 17/27 G10L 3/00

Claims (5)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 複数の単語を含むテキストデータに対し
て、互いに異なるすべての複数v個の単語の出現頻度を
調べ、出現頻度の高い単語から順に並べて、複数v個の
クラスに割り当てるステップと、 上記複数v個のクラスの単語のうち出現頻度が高いv個
未満の(c+1)個のクラスの単語を1つのウィンドウ
内のクラスの単語として第1の記憶装置に記憶するステ
ップと、 上記第1の記憶装置に記憶された1つのウィンドウ内の
クラスの単語に基づいて、第1のクラスの単語の出現確
率と第2のクラスの単語の出現確率との積に対する、互
いに異なる第1のクラスの単語と第2のクラスの単語と
が隣接して出現する確率の相対的な割合を表わす所定の
平均相互情報量が最大となるように、上記複数の単語を
二分木の形式で複数c個のクラスに分類し、分類された
複数c個のクラスを、単語分類結果を表わす全体のツリ
ー図の中間層の複数c個のクラスとして第2の記憶装置
に記憶するステップと、 上記第2の記憶装置に記憶された中間層の複数c個のク
ラスの単語に基づいて、上記平均相互情報量が最大とな
るように、上記複数c個のクラスの単語を二分木の形式
で1個のクラスになるまで分類し、当該分類結果を上記
ツリー図の上側層として第3の記憶装置に記憶するステ
ップと、 上記第2の記憶装置に記憶された中間層の複数c個のク
ラスの各クラス毎に、上記中間層の複数c個のクラスの
各クラス内の複数の単語に基づいて、上記平均相互情報
量が最大となるように、上記複数の単語を二分木の形式
で1個のクラスになるまでそれぞれ分類し、当該各クラ
ス毎の複数の分類結果を上記ツリー図の下側層として第
4の記憶装置に記憶するステップと、 上記第4の記憶装置に記憶された上記ツリー図の下側層
を、上記第2の記憶装置に記憶された上記中間層の複数
c個のクラスと連結する一方、上記第3の記憶装置に記
憶された上記ツリー図の上側層を、上記第2の記憶装置
に記憶された上記中間層の複数c個のクラスと連結する
ことにより、上側層と中間層と下側層とを備えた上記ツ
リー図を求めて単語分類結果として第5の記憶装置に記
憶するステップとを備えたことを特徴とする単語分類処
理方法。
1. A method of examining text data including a plurality of words, the appearance frequencies of all v words different from each other, arranging the words in descending order of frequency, and assigning the words to the v classes. Storing, in the first storage device, (c + 1) classes of words having a high appearance frequency of less than v among words of the plurality v of classes as words of a class in one window; Different products of the first class and the product of the probability of occurrence of the word of the first class and the probability of occurrence of the word of the second class based on the words of the class in one window stored in the storage device of the first class. In order to maximize the predetermined average mutual information representing the relative proportion of the probability that the word and the second class word appear adjacent to each other, the plurality of words are divided into a plurality of c Kula And storing the classified plurality of c classes in the second storage device as the plurality of c classes in the intermediate layer of the entire tree diagram representing the word classification result; and the second storage device The words of the plurality of c classes are converted into one class in the form of a binary tree such that the average mutual information amount is maximized based on the words of the plurality of c classes of the intermediate layer stored in And storing the classification result as an upper layer of the tree diagram in a third storage device. For each of a plurality of c classes in the intermediate layer stored in the second storage device, On the basis of a plurality of words in each of the plurality of c classes of the intermediate layer, the plurality of words are divided into one class in the form of a binary tree so that the average mutual information is maximized. Each class is classified and a plurality of Storing a similar result as a lower layer of the tree diagram in a fourth storage device; and storing the lower layer of the tree diagram stored in the fourth storage device in the second storage device. And linking the upper layer of the tree diagram stored in the third storage device with the plurality of c classes of the intermediate layer stored in the second storage device. And obtaining the tree diagram including the upper layer, the intermediate layer, and the lower layer by storing the tree diagram as a word classification result in a fifth storage device. Classification processing method.
【請求項2】 上記分類された複数c個のクラスを上記
第2の記憶装置に記憶するステップは、上記第1の記憶
装置に記憶された1つのウィンドウよりも外側のクラス
が存在し、又は上記1つのウィンドウ内のクラスがc個
ではないときは、現在のウィンドウよりも外側にあり、
最大の出現頻度を有するクラスの単語を上記ウィンドウ
内に挿入した後、上記二分木の形式の単語分類処理を実
行することを特徴とする請求項1記載の単語分類処理方
法。
2. The method according to claim 2, wherein the classifying step includes the step of storing the classified plurality of c classes in the second storage device, wherein there is a class outside one window stored in the first storage device, or If there are not c classes in the one window, it is outside the current window,
2. The word classification processing method according to claim 1, wherein after the word of the class having the highest appearance frequency is inserted into the window, the word classification processing in the form of the binary tree is executed.
【請求項3】 複数の単語を含むテキストデータに対し
て、互いに異なるすべての複数v個の単語の出現頻度を
調べ、出現頻度の高い単語から順に並べて、複数v個の
クラスに割り当てる第1の制御手段と、 上記複数v個のクラスの単語のうち出現頻度が高いv個
未満の(c+1)個のクラスの単語を1つのウィンドウ
内のクラスの単語として第1の記憶装置に記憶する第2
の制御手段と、 上記第1の記憶装置に記憶された1つのウィンドウ内の
クラスの単語に基づいて、第1のクラスの単語の出現確
率と第2のクラスの単語の出現確率との積に対する、互
いに異なる第1のクラスの単語と第2のクラスの単語と
が隣接して出現する確率の相対的な割合を表わす所定の
平均相互情報量が最大となるように、上記複数の単語を
二分木の形式で複数c個のクラスに分類し、分類された
複数c個のクラスを、単語分類結果を表わす全体のツリ
ー図の中間層の複数c個のクラスとして第2の記憶装置
に記憶する第3の制御手段と、 上記第2の記憶装置に記憶された中間層の複数c個のク
ラスの単語に基づいて、上記平均相互情報量が最大とな
るように、上記複数c個のクラスの単語を二分木の形式
で1個のクラスになるまで分類し、当該分類結果を上記
ツリー図の上側層として第3の記憶装置に記憶する第4
の制御手段と、 上記第2の記憶装置に記憶された中間層の複数c個のク
ラスの各クラス毎に、上記中間層の複数c個のクラスの
各クラス内の複数の単語に基づいて、上記平均相互情報
量が最大となるように、上記複数の単語を二分木の形式
で1個のクラスになるまでそれぞれ分類し、当該各クラ
ス毎の複数の分類結果を上記ツリー図の下側層として第
4の記憶装置に記憶する第5の制御手段と、 上記第4の記憶装置に記憶された上記ツリー図の下側層
を、上記第2の記憶装置に記憶された上記中間層の複数
c個のクラスと連結する一方、上記第3の記憶装置に記
憶された上記ツリー図の上側層を、上記第2の記憶装置
に記憶された上記中間層の複数c個のクラスと連結する
ことにより、上側層と中間層と下側層とを備えた上記ツ
リー図を求めて単語分類結果として第5の記憶装置に記
憶する第6の制御手段とを備えたことを特徴とする単語
分類処理装置。
3. A first method of examining the appearance frequency of all of a plurality of v words different from each other with respect to text data including a plurality of words, arranging the words in descending order of appearance frequency, and assigning the words to the plurality of v classes. A control unit that stores, in the first storage device, (c + 1) classes of words having a high appearance frequency and less than v in the plurality of v classes in the first storage device as words of a class in one window
Based on the word of the class in one window stored in the first storage device, the product of the probability of appearance of the word of the first class and the probability of appearance of the word of the second class Dividing the plurality of words into two so that the predetermined average mutual information representing the relative proportion of the probability that the first class words and the second class words different from each other appear adjacent to each other is maximized. Classifying into a plurality of c classes in the form of a tree, and storing the classified plurality of c classes in the second storage device as a plurality of c classes in the middle layer of the entire tree diagram representing the word classification result. Third control means, based on the words of the plurality of c classes in the intermediate layer stored in the second storage device, so that the average mutual information amount is maximized, Until the words become one class in the form of a binary tree Classified, fourth storing the classification result in the third storage device as the upper layer of the tree diagram
Control means for each class of the plurality of c classes of the intermediate layer stored in the second storage device, based on the plurality of words in each class of the plurality of c classes of the intermediate layer, The plurality of words are classified in the form of a binary tree until they become one class so that the average mutual information amount is maximized. Fifth control means for storing in the fourth storage device as: a lower layer of the tree diagram stored in the fourth storage device, a plurality of intermediate layers stored in the second storage device linking the upper layer of the tree diagram stored in the third storage device with the plurality of c classes of the intermediate layer stored in the second storage device while linking the c classes. Obtains the above tree diagram including the upper layer, the middle layer, and the lower layer. Word classification processing apparatus characterized by comprising a sixth control means for storing in the fifth storage device as a word classification result Te.
【請求項4】 上記第3の制御手段は、上記第1の記憶
装置に記憶された1つのウィンドウよりも外側のクラス
が存在し、又は上記1つのウィンドウ内のクラスがc個
ではないときは、現在のウィンドウよりも外側にあり、
最大の出現頻度を有するクラスの単語を上記ウィンドウ
内に挿入した後、上記二分木の形式の単語分類処理を実
行することを特徴とする請求項3記載の単語分類処理装
置。
4. The method according to claim 1, wherein the third control means is configured to determine whether there is a class outside one window stored in the first storage device or when there are not c classes in the one window. , Outside the current window,
4. The word classification processing device according to claim 3, wherein after the word of the class having the maximum appearance frequency is inserted into the window, the word classification processing in the form of the binary tree is executed.
【請求項5】 入力される発声音声の音声信号に基づい
て、請求項3又は4記載の単語分類処理装置によって複
数の単語が複数のクラスに分類された単語分類結果を含
む単語辞書と、所定の隠れマルコフモデルとを参照して
上記発声音声を音声認識する音声認識手段を備えたこと
を特徴とする音声認識装置。
5. A word dictionary containing a word classification result in which a plurality of words are classified into a plurality of classes by the word classification processing device according to claim 3 or 4, based on an input speech signal of a uttered voice, A voice recognition unit for recognizing the uttered voice by referring to the hidden Markov model.
JP8198950A 1996-02-15 1996-07-29 Word classification processing method, word classification processing device, and speech recognition device Expired - Lifetime JP3043625B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8198950A JP3043625B2 (en) 1996-02-15 1996-07-29 Word classification processing method, word classification processing device, and speech recognition device

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2780996 1996-02-15
JP8-27809 1996-02-15
JP8198950A JP3043625B2 (en) 1996-02-15 1996-07-29 Word classification processing method, word classification processing device, and speech recognition device

Publications (2)

Publication Number Publication Date
JPH09282321A JPH09282321A (en) 1997-10-31
JP3043625B2 true JP3043625B2 (en) 2000-05-22

Family

ID=26365789

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8198950A Expired - Lifetime JP3043625B2 (en) 1996-02-15 1996-07-29 Word classification processing method, word classification processing device, and speech recognition device

Country Status (1)

Country Link
JP (1) JP3043625B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4714127B2 (en) * 2006-11-27 2011-06-29 株式会社日立製作所 Symbol string search method, program and apparatus, and trie generation method, program and apparatus

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
柏岡秀紀他、"7G−5 相互情報量を用いた単語の分類における出現頻度の低い単語の処理方法"、情報処理学会第49回(平成6年度後期)全国大会講演論文集(3)、平成6年9月28日〜30日、p.3−185〜3−186

Also Published As

Publication number Publication date
JPH09282321A (en) 1997-10-31

Similar Documents

Publication Publication Date Title
US5835893A (en) Class-based word clustering for speech recognition using a three-level balanced hierarchical similarity
Ghaddar et al. Winer: A wikipedia annotated corpus for named entity recognition
US7035789B2 (en) Supervised automatic text generation based on word classes for language modeling
JP3950535B2 (en) Data processing method and apparatus
JP2005158010A (en) Apparatus, method and program for classification evaluation
CN111723569A (en) Event extraction method and device and computer readable storage medium
US11170169B2 (en) System and method for language-independent contextual embedding
CN116306600B (en) MacBert-based Chinese text error correction method
CN112764762B (en) Method and system for automatically converting standard text into computable logic rule
Xafopoulos et al. Language identification in web documents using discrete HMMs
Selamat et al. Arabic script web page language identifications using decision tree neural networks
CN112200664A (en) Repayment prediction method based on ERNIE model and DCNN model
CN114818717A (en) Chinese named entity recognition method and system fusing vocabulary and syntax information
EP1685555B1 (en) Assignment of semantic tags to phrases for grammar generation
CN115713072A (en) Relation category inference system and method based on prompt learning and context awareness
Araujo Part-of-speech tagging with evolutionary algorithms
CN114742016B (en) Chapter-level event extraction method and device based on multi-granularity entity different composition
CN112668838A (en) Scoring standard word bank establishing method and device based on natural language analysis
US7328147B2 (en) Automatic resolution of segmentation ambiguities in grammar authoring
JP5253317B2 (en) Summary sentence creation device, summary sentence creation method, program
WO2020235024A1 (en) Information learning device, information processing device, information learning method, information processing method, and program
Cahyani et al. Indonesian part of speech tagging using maximum entropy markov model on Indonesian manually tagged corpus
JP3043625B2 (en) Word classification processing method, word classification processing device, and speech recognition device
Deka et al. A study of t’nt and crf based approach for pos tagging in assamese language
Seresangtakul et al. Thai-Isarn dialect parallel corpus construction for machine translation