JPH06318223A - Clustering device - Google Patents

Clustering device

Info

Publication number
JPH06318223A
JPH06318223A JP5106745A JP10674593A JPH06318223A JP H06318223 A JPH06318223 A JP H06318223A JP 5106745 A JP5106745 A JP 5106745A JP 10674593 A JP10674593 A JP 10674593A JP H06318223 A JPH06318223 A JP H06318223A
Authority
JP
Japan
Prior art keywords
node
word
concept
thesaurus
case
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5106745A
Other languages
Japanese (ja)
Inventor
Shigeo Kaneda
重郎 金田
Megumi Ishii
恵 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP5106745A priority Critical patent/JPH06318223A/en
Publication of JPH06318223A publication Critical patent/JPH06318223A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE:To provide the clustering device for providing concept clustering by preventing all the words from being connected as one kind of most-significant concept when calculating a distance on a meaning concept thesaurus. CONSTITUTION:This device is composed of a thesaurus 11 for expressing the vertical relation of meaning concept corresponding to tree-shaped structure provided with nodes and paths, word dictionary 12 for holding which node of the thesaurus 11 is corresponding to each word, leaning example 13 for holding the word registered on the word dictionary for each example, word retrieving means 14 for calculating the node corresponding to each word in the leaning example by extracting any example from the learning example and retrieving the word dictionary, concept extracting means 15 for starting from the node corresponding to each word calculated by the word retrieving means, applying the connection information of weight decided in advance to the path adjacent to the node, applying the weight multiplying the prescribed rate of demultiplication to weight applied to the path adjacent to the node to the path adjacent to the high-order concept node of the node, and extracting the set of nodes, for which the weight of the path connecting the nodes exceeds a prescribed threshold, as one kind of concept.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、自然言語の意味をクラ
スタリング手法により学習するクラスタリング装置に関
する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a clustering device for learning the meaning of natural language by a clustering method.

【0002】[0002]

【従来の技術】与えられた事例集合に基づき、各集合が
属するクラスを抽出する問題は、「教師無し学習」、
「クラスタリング」等と呼ばれ、統計解析等、種々の技
術が開発されて来た。クラスタリング手法として最も代
表的なものに、「Nearest−Neighbour
法」がある。従来のNearest−Neighbou
r法を概念的に図2に提示した。従来法では、学習事例
は、ある多次元空間上の点(ノード)として位置づけら
れる。そして、ノード相互間の当該空間上での距離が計
算される。次に、各ノードは、その相互距離の近いもの
から順にパスによって接続される。最初は一部のノード
のみが接続されるのみであるが、徐々に多数のノードが
接続され、やがては、全ノードがパスによって接続され
る。図2は、その中途段階を示したものである。すなわ
ち、孤立した1個のノードを除くと、各ノードは3つの
集合の何れかに所属している。この様に、Neares
t−Neighbour法では、ノード相互を近いもの
から順に接続してゆき、ある程度接続された段階で、接
続を中止する事により、クラスタを形成させる。この各
クラスタをひとつの概念と見なすのが、Nearest
−Neighbour法である。
2. Description of the Related Art The problem of extracting a class to which each set belongs based on a given set of cases is "unsupervised learning",
It is called “clustering” and various techniques such as statistical analysis have been developed. The most typical clustering method is the “Nearest-Neighbour”.
There is a law. Conventional Nearest-Neighbour
The r method is conceptually presented in FIG. In the conventional method, the learning case is positioned as a point (node) on a certain multidimensional space. Then, the distance between the nodes in the space is calculated. Next, each node is connected by a path in order from the node with the shortest mutual distance. Initially, only some nodes are connected, but gradually many nodes are connected, and eventually all nodes are connected by paths. FIG. 2 shows the intermediate stage. That is, except for one isolated node, each node belongs to any of the three sets. Like this, Neares
In the t-Neighbour method, nodes are connected in order from the closest one, and when they are connected to some extent, the connection is stopped to form a cluster. Considering each of these clusters as one concept is Nearest
-Neighbour method.

【0003】[0003]

【発明が解決しようとする課題】しかし、この従来のN
earest−Neighbour法は、自然言語応用
に適用する場合には問題を生じる。例えば、図3の文例
は、動詞「使う」の意味が目的格(「を」格)に利用さ
れる単語により、2通り(この場合には、「spen
d」と「use」)の意味がある事を示している。しか
し、この2つの概念を、Nearest−Neighb
our法で求める事はできない。単語の空間上での距離
は定義できないからである。
However, this conventional N
The earest-Neighbour method causes problems when applied to natural language applications. For example, in the example sentence of FIG. 3, the verb “use” has two meanings (in this case, “spen”) depending on the words used in the objective case (“wa” case).
It means that there are meanings of "d" and "use"). However, these two concepts are based on Nearest-Neighb
It cannot be obtained by our method. This is because the distance of words in space cannot be defined.

【0004】自然言語の単語間距離を計算する一つの手
だてとして、図4に示すように、単語に相当するノード
と、ノード間を繋ぐパスから構成されるツリー状の意味
概念シソーラスがある。意味概念シソーラスは、現実世
界における単語間の概念階層を表現している。例えば、
図4では、「てこ」「金槌」「ノコギリ」は何れも、
「道具」の一種であり、その「道具」も「具体物」の一
種である事を表している。従って、図3における「お
金」と「給料」が近い概念である事は、図4の意味概念
シソーラスをそれら単語から上にパスを辿ると、「金
銭」ノードで一致する事から、「お金」と「給料」が近
い概念である事が分かる。しかし、この意味概念シソー
ラスは、そのままではNearest−Neighbo
ur法には適用できない。「金銭」を更に上に辿ると
「具体物」となって、「金槌」や「てこ」の上位概念に
至る。従って、単に上位概念を辿って単語間の距離を計
算すると、全ての単語が一度に接続されてしまい、何ら
クラスタリングできない状態となるからである。
As one means for calculating the distance between words in natural language, as shown in FIG. 4, there is a tree-like semantic concept thesaurus composed of nodes corresponding to words and paths connecting the nodes. The Semantic Concept Thesaurus expresses the concept hierarchy between words in the real world. For example,
In Fig. 4, "Teko,""hammer," and "saw" are all
It is a kind of "tool", and that "tool" is also a kind of "concrete". Therefore, the concept that “money” and “salary” in FIG. 3 are close to each other is that when the path of the semantic concept thesaurus in FIG. It turns out that and "salary" are similar concepts. However, this semantic concept thesaurus is, as it is, Nearest-Neighbo.
It cannot be applied to the ur method. By tracing “money” further up, it becomes a “concrete” and reaches the superordinate concept of “hammer” and “lever”. Therefore, if the distance between words is calculated simply by tracing the superordinate concept, all the words are connected at once, and no clustering is possible.

【0005】本発明は、上記に鑑みてなされたもので、
その目的とするところは、意味概念シソーラス上での距
離計算を行う場合にすべての単語が最上位概念の一種と
して接続されてしまうことを防止して、概念クラスタリ
ングを実現するクラスタリング装置を提供することにあ
る。
The present invention has been made in view of the above,
The purpose is to provide a clustering device that realizes concept clustering by preventing all words from being connected as a kind of top-level concept when performing distance calculation on a semantic concept thesaurus. It is in.

【0006】[0006]

【課題を解決するための手段】上記目的を達成するた
め、本発明のクラスタリング装置は、ノードとパスを有
するツリー状構造により意味概念の上下関係を表現する
シソーラスと、各単語が前記シソーラスのどのノードに
対応するかを保持する単語辞書と、該単語辞書に登録さ
れた単語を各事例が保持する学習事例と、該学習事例か
ら事例を取り出し、前記単語辞書を検索して、前記学習
事例中の各単語に相当する前記ノードを求める単語検索
手段と、該単語検索手段により求められた各単語に対応
するノードから出発して、当該ノードに隣接するパスに
は予め定められた重みの接続情報を付与し、当該ノード
の上位概念ノードに隣接したパスには当該ノードに隣接
するパスに付与した重みに所定の逓減率を乗じた重みを
付与して、ノード間を接続するパスの重みが所定のスレ
ショルドを超えるノード集合を1つの概念として取り出
す概念抽出手段とを有することを要旨とする。
In order to achieve the above object, the clustering apparatus of the present invention has a thesaurus that expresses the hierarchical relationship of semantic concepts by a tree-like structure having nodes and paths, and which word is used in the thesaurus. A word dictionary that holds whether or not it corresponds to a node, a learning case in which each case holds a word registered in the word dictionary, a case is extracted from the learning case, the word dictionary is searched, and the learning case Starting from the word search means for finding the node corresponding to each word of the word and the node corresponding to each word found by the word search means, connection information of a predetermined weight is provided on the path adjacent to the node. Is given to the path adjacent to the superordinate node of the node, and a weight obtained by multiplying the weight given to the path adjacent to the node by a predetermined diminishing rate is given. Weight of a path to be connected to the gist that has a concept extraction means for extracting a set of nodes exceeds a predetermined threshold as a single concept.

【0007】[0007]

【作用】本発明のクラスタリング装置では、学習事例か
ら事例を取り出し、単語辞書を検索して、学習事例中の
各単語に相当するノードを求め、各単語に対応するノー
ドから出発して、当該ノードに隣接するパスには予め定
められた重みの接続情報を付与し、当該ノードの上位概
念ノードに隣接したパスには当該ノードに隣接するパス
に付与した重みに所定の逓減率を乗じた重みを付与し
て、ノード間を接続するパスの重みが所定のスレショル
ドを超えるノード集合を1つの概念として取り出す。
In the clustering device of the present invention, a case is taken out from the learning case, the word dictionary is searched to find a node corresponding to each word in the learning case, and the node corresponding to each word is departed from the node. The connection information of a predetermined weight is given to the path adjacent to the node, and the weight obtained by multiplying the weight given to the path adjacent to the node by a predetermined diminishing rate is given to the path adjacent to the superordinate concept node of the node. A set of nodes in which the weight of the path connecting the nodes exceeds a predetermined threshold is extracted as one concept.

【0008】[0008]

【実施例】以下、図面を用いて本発明の実施例を説明す
る。
Embodiments of the present invention will be described below with reference to the drawings.

【0009】図1は、本発明の一実施例に係わるクラス
タリング装置の構成を示す図である。同図に示すクラス
タリング装置1は、意味概念の上下関係をノードとパス
を持つツリー状構造により表現するシソーラス11と、
各単語が前記シソーラスのどのノードに対応するかを保
持する単語辞書12と、前記単語辞書に登録された単語
を各事例が保持する学習事例13と、上記学習事例から
事例を取り出し、前記単語辞書を検索して、前記学習事
例中の各単語に相当する前記ノードを求める単語検索手
段14と、前記単語検索手段により求められた各単語に
対応するノードから出発して、当該ノードに隣接するパ
スには重み1の接続情報を付与し、当該ノードの上位概
念ノードに隣接したパスには一定の逓減率を乗じた重み
を付与する事により、一定のスレショルドを越える重み
で接続されたノード集合をひとつの概念として取り出す
概念抽出手段15とから構成される。
FIG. 1 is a diagram showing the configuration of a clustering apparatus according to an embodiment of the present invention. A clustering device 1 shown in FIG. 1 includes a thesaurus 11 that expresses a hierarchical relationship of semantic concepts by a tree-like structure having nodes and paths,
A word dictionary 12 that holds which node of the thesaurus each word corresponds to, a learning case 13 in which each case holds a word registered in the word dictionary, and a case is extracted from the learning case to extract the word dictionary. Starting from the word search means 14 for finding the node corresponding to each word in the learning example and the node corresponding to each word found by the word search means, and the path adjacent to the node. Is given connection information with a weight of 1, and a path that is adjacent to the superordinate concept node of the node is given a weight that is multiplied by a certain diminishing rate, so that a node set connected with a weight that exceeds a certain threshold is added. It is composed of a concept extraction means 15 which is extracted as one concept.

【0010】前記シソーラス11は、図4に示すような
構成を有する。現実のシソーラスは、図4の様な小さな
規模ではない。何千もの概念ノードを持っている。各単
語が前記シソーラスのどのノードに対応するかを保持す
る単語辞書は、基本的には連想リストの様な機能を持
つ。但し、上述した図3の事例に示されている「お金」
「金槌」「給料」「てこ」は、図4の上で、そのまま同
一名称の対応ノードを持っている。しかし、例えば、単
語「サラリー」は、図4上に「サラリー」と呼ばれるノ
ードを持つ必要は必ずしもない。「サラリー」は、図4
の「給料」に該当する意味概念として、単語辞書に登録
しておけば良い。この様に、一般に、単語辞書が保持す
る単語数よりも、意味概念シソーラスのノード数の方が
少ないのが普通である。逆に言えば、図4の意味概念シ
ソーラスの各ノードには、複数の単語がポイントされて
いると考える事ができる。
The thesaurus 11 has a structure as shown in FIG. The thesaurus in reality is not as small as in Fig. 4. It has thousands of concept nodes. The word dictionary that holds which node of the thesaurus each word corresponds to basically has a function like an association list. However, the "money" shown in the example of FIG. 3 described above.
The "hammer", "salary", and "lever" have corresponding nodes with the same names as in FIG. However, for example, the word "salary" does not necessarily have to have a node called "salary" on FIG. "Salary" is shown in Figure 4.
It may be registered in the word dictionary as a meaning concept corresponding to "salary" of. As described above, generally, the number of nodes in the semantic concept thesaurus is smaller than the number of words held in the word dictionary. Conversely, it can be considered that a plurality of words are pointed to each node of the semantic concept thesaurus in FIG.

【0011】なお、このような上下関係を有する情報を
計算機のメモリ上で展開するためには、属性リストの利
用等、種々の方法がある。
There are various methods, such as the use of an attribute list, for expanding the information having such a hierarchical relationship on the memory of the computer.

【0012】前記単語辞書12は、図7に示すように、
見出し語とそれに相当する意味概念ノードの名称の対と
する連想リストとして構成される。
The word dictionary 12 is, as shown in FIG.
It is configured as an associative list which is a pair of a headword and a name of a semantic concept node corresponding thereto.

【0013】前記学習事例13は、図3に示すようなも
のであり、クラスタリングされるべき単語を各事例が含
んでいる。
The learning case 13 is as shown in FIG. 3, and each case includes words to be clustered.

【0014】前記単語検索手段14は、上記学習事例1
3から事例を取り出し、前記単語事例12を検索して、
前記学習事例中の各単語に相当する前記ノードを求め
る。図5には、図3の事例から取り出された単語が、図
4の意味概念シソーラス上に展開された結果を示してい
る。但し、この段階では何らクラスタリングは進んでは
いない。
The word searching means 14 uses the learning case 1 described above.
Take the case from 3 and search for the word case 12,
Find the node corresponding to each word in the learning case. FIG. 5 shows the result of expanding the words extracted from the case of FIG. 3 on the semantic concept thesaurus of FIG. However, clustering has not progressed at this stage.

【0015】単語検索手段14は、次に示す単語検索処
理により実現される。すなわち、単語検索処理の第1ス
テップでは、学習事例集合から事例を1個取り出す。事
例がなくなっている場合には、処理を終了する。
The word search means 14 is realized by the following word search processing. That is, in the first step of the word search process, one case is extracted from the learning case set. If there are no more cases, the process ends.

【0016】第2ステップでは、単語辞書12を検索
し、当該見出し語に相当する意味概念ノード名称を取り
出す。
In the second step, the word dictionary 12 is searched to retrieve the semantic concept node name corresponding to the entry word.

【0017】次の第3ステップでは、シソーラス上の当
該ノードに対して、当該見出し語を対応づけ、概念抽出
手段15に当該ノードが抽出の際の上にシソーラスを辿
る出発点になることを報告し、第2ステップに戻る。
In the next third step, the entry word is associated with the node on the thesaurus, and it is reported to the concept extracting means 15 that the node becomes a starting point for tracing the thesaurus upon extraction. Then, the procedure returns to the second step.

【0018】このように単語検索処理により学習事例1
3の中のすべての単語はシソーラス11上に割り付けら
れることになる。
In this way, learning example 1 is performed by the word search process.
All words in 3 will be assigned on the thesaurus 11.

【0019】前記概念抽出手段15は、前記単語検索手
段14により求められた各単語に対応するノードから出
発して、当該ノードに隣接するパスには重み1の接続情
報を付与し、当該ノードの上位概念ノードに隣接したパ
スには一定の逓減率を乗じた重みを付与する。図6は、
逓減倍率0.9でパスに重みを付与した例である。「お
金」「給与」「金銭」は、重み1のパスで接続されてい
る。「てこ」「金槌」「道具」も重み1のパスで接続さ
れている。従って、「お金」「給与」「金銭」は、同一
の概念。「てこ」「金槌」「道具」は、別の概念とな
る。但し、概念を代表する単語は、自然と、「金銭」
「道具」である事がわかる。これらの代表単語が意味概
念シソーラス上で最上位の位置にあるからである。
The concept extracting means 15 starts from the node corresponding to each word found by the word searching means 14, adds the connection information of weight 1 to the path adjacent to the node, and adds the connection information of the node. A weight that is multiplied by a certain diminishing rate is given to the path adjacent to the superordinate concept node. Figure 6
This is an example in which a weight is given to a path with a diminishing rate of 0.9. “Money”, “salary”, and “money” are connected by a path having a weight of 1. The “lever”, “hammer” and “tool” are also connected by a path with a weight of 1. Therefore, "money,""salary," and "money" are the same concept. “Lever”, “hammer” and “tool” are different concepts. However, the word that represents the concept is naturally "money".
You can see that it is a "tool". This is because these representative words are at the highest position on the semantic concept thesaurus.

【0020】これに対して、重み0.9以上のパスで接
続されているものを同一概念と見なすと、「お金」「給
与」「金銭」、「てこ」「金槌」「道具」は全て同一概
念となる。更に、重み0.8以上のパスで接続されてい
るものを同一概念と見なすと、「お金」「給与」「金
銭」、「てこ」「金槌」「道具」に加えて、「具体物」
も同一概念となる。この様に、一定のスレショルドを越
える重みで接続されたノード集合をひとつの概念と見な
す機能も概念抽出手段の大切な機能である。
On the other hand, if the objects connected by paths having a weight of 0.9 or more are regarded as the same concept, "money", "salary", "money", "lever", "hammer", and "tool" are all the same. It becomes a concept. Furthermore, if objects connected by paths with a weight of 0.8 or more are regarded as the same concept, in addition to “money”, “salary”, “money”, “lever”, “hammer”, “tool”, “concrete”
Is the same concept. As described above, the function of considering a node set connected with a weight exceeding a certain threshold as one concept is also an important function of the concept extracting means.

【0021】概念抽出手段15は、更に詳細には、次に
示すパス強度付与処理および概念抽出処理を有する。但
し、各ノードは当該ノードから上に伸びるパスの強度を
保持するためのパス強度属性を保持することができるも
のとする。
More specifically, the concept extracting means 15 has the following path strength giving process and concept extracting process. However, each node can hold a path strength attribute for holding the strength of a path extending upward from the node.

【0022】まず、パス強度付与処理について説明す
る。
First, the path strength imparting process will be described.

【0023】この処理の第1ステップでは、逓減倍率
(K)を予め与えられた値にセットし、意味概念シソー
ラス上の全パスの強度を0とし意味概念シソーラスの全
てのパス強度属性を0とし、上位ノードリスト(LN
L)を空とする。
In the first step of this processing, the decreasing rate (K) is set to a predetermined value, the strength of all paths on the semantic concept thesaurus is set to 0, and all path strength attributes of the semantic concept thesaurus are set to 0. , Upper node list (LN
Let L) be empty.

【0024】第2ステップでは、シソーラスを上部に辿
る対象であるオープンノードリスト(ONL)を、事例
中に現れた全ての単語がポイントしている意味概念ノー
ドとする。ONLに所属する全てのノードのパス強度属
性を1とする。
In the second step, the open node list (ONL), which is the target of tracing the thesaurus upward, is set as the semantic concept node pointed to by all the words that appear in the case. The path strength attribute of all nodes belonging to the ONL is set to 1.

【0025】第3ステップでは、オープンノードリスト
(ONL)から、1個ずつノードを取り出し、当該ノー
ドから上位のノードにゆくパスに、各ノードが保持する
パス強度属性値を与える。更に、このパスが到達するノ
ード名称を上位ノードリスト(LNL)に加える。但
し、同一ノード名は2重には登録しない。
In the third step, one node is taken out from the open node list (ONL), and the path strength attribute value held by each node is given to the path going from the node to the upper node. Further, the node name reached by this path is added to the upper node list (LNL). However, the same node name is not registered twice.

【0026】第4ステップでは、上位ノードリスト(L
NL)から各ノードを取り出し、各ノードに入ってくる
パスの強度を調べる。そして、各パスの持つ強度中の最
も大きな値に逓減倍率を乗じた値を当該ノードのパス強
度属性値として登録し、ノード名をオープンノードリス
ト(ONL)に加える。
In the fourth step, the upper node list (L
Each node is extracted from NL) and the strength of the path coming into each node is examined. Then, a value obtained by multiplying the largest value among the strengths of each path by the diminishing rate is registered as the path strength attribute value of the node, and the node name is added to the open node list (ONL).

【0027】第5ステップでは、オープンノードリスト
(ONL)が意味概念シソーラスの最上位ノードであれ
ば、処理を終了し、そうでない場合には、第3ステップ
に戻る。
In the fifth step, if the open node list (ONL) is the highest node in the semantic concept thesaurus, the process is terminated, and if not, the process returns to the third step.

【0028】上記パス強度付与処理により、事例中の単
語から出発したパスは、最終的に最上位のノードに到達
して処理を終わる。なお、第4ステップにおいて、ノー
ドに入力してくるパス中の最大の値をこのノードのパス
強度属性として扱ったが、応用によっては、最小値等、
異なる選択記述を用いる事も可能である。
By the path strength giving process, the path starting from the word in the case finally reaches the highest node and ends the process. In the fourth step, the maximum value in the paths input to the node was treated as the path strength attribute of this node, but depending on the application, the minimum value, etc.
It is also possible to use different selection descriptions.

【0029】次に、概念抽出処理について説明する。Next, the concept extraction process will be described.

【0030】この処理の第1ステップでは、クラスタリ
ングのスレショルド(θ)を、予め与えられた値にセッ
トする。次の第2ステップでは、クラスタリングのスレ
ショルド(θ)以下のパスを、意味概念シソーラスから
消去する。
In the first step of this process, the clustering threshold (θ) is set to a value given in advance. In the next second step, paths below the clustering threshold (θ) are deleted from the semantic concept thesaurus.

【0031】第3ステップでは、パスにより相互に接続
されているノード群、具体的には、当該ノード群に所属
する各ノードに割りつけられている事例中の単語群をひ
とつの概念として抽出する。この時、概念としては、パ
スにより相互に接続されているノード群中の最上位の概
念を利用する。そして、処理を終了する。
In the third step, a group of nodes mutually connected by a path, specifically, a group of words assigned to each node belonging to the node group is extracted as one concept. . At this time, as a concept, the highest concept in a node group connected to each other by a path is used. Then, the process ends.

【0032】上記概念抽出処理により、事例集合中の単
語は、幾つかの概念にクラスタリングされる。尚、図3
にも示した様に、各事例中の単語は、更に属性によって
細かく分けられている事がある。例えば、同じ単語が、
主格(「が」格)として出現した時と、目的格(「を」
格)として出現した時を全く同一に扱う事はできない。
従って、図3の様に、事例中の単語が属性(ここでは、
「格」)より区別されている時には、各属性毎に、上記
のパス強度付与処理/概念抽出処理を実行する必要があ
る。
By the concept extraction processing, the words in the case set are clustered into some concepts. Incidentally, FIG.
As also shown, the words in each case may be further divided into attributes. For example, the same word
When it appears as a nominative case (“ga” case)
Cases) cannot be treated exactly the same when they appear.
Therefore, as shown in FIG. 3, the words in the example have attributes (here,
When it is distinguished from "case"), it is necessary to execute the above-mentioned path strength assignment processing / concept extraction processing for each attribute.

【0033】また、前記の概念抽出処理は、クラスタリ
ングのスレショルドを徐々に小さな値に減らしながら何
度も実行して、種々の概念候補を抽出する事も容易に実
現できる。更に、本発明は、クラスタリング手法の一種
である。従って、予め単語の所属するクラスが分からな
くても、事例からクラスを決定できる。更に、本手法で
は、獲得された概念の最上には必ずノードが存在する。
従って、そのノード名称をそのまま概念の名称として付
与できる。従来のNearest−Neighbour
法では、獲得された概念の具体名称は、利用者が決定す
る必要があった。
Further, it is possible to easily realize various concept candidates by repeatedly executing the above concept extraction process while gradually reducing the clustering threshold to a small value. Furthermore, the present invention is a kind of clustering method. Therefore, the class can be determined from the case even if the class to which the word belongs is not known in advance. Furthermore, in this method, there is always a node at the top of the acquired concepts.
Therefore, the node name can be given as the concept name as it is. Conventional Nearest-Neighbour
Under the law, the specific name of the acquired concept had to be decided by the user.

【0034】[0034]

【発明の効果】以上説明したように、本発明によれば、
意味概念シソーラス上で単語間の関係を求める際にパス
に重みを付与し、単語から上位に遠ざかる程、小さな重
みを付与しているので、自然言語応用に対しても代表的
なクラスタリング手法であるNearest−Neig
hbour法を利用できる。また、本発明はクラスタリ
ング手法の一種であるので、予め単語の所属するクラス
が分からなくても、事例からクラスを決定することがで
きる。更に、獲得された概念の最上位には必ずあるノー
ドが存在するので、そのノード名称をそのまま概念の名
称として付与することができる。
As described above, according to the present invention,
This is a typical clustering method for natural language applications, because weights are given to paths when seeking relationships between words on the semantic concept thesaurus, and smaller weights are given to words higher in distance from words. Nearest-Neig
The hbour method can be used. Further, since the present invention is a kind of clustering method, it is possible to determine a class from a case even if the class to which a word belongs is unknown in advance. Further, since a certain node always exists at the highest level of the acquired concept, the node name can be given as it is as the name of the concept.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施例に係わるクラスタリング装置
の構成を示す図である。
FIG. 1 is a diagram showing a configuration of a clustering device according to an embodiment of the present invention.

【図2】従来のNearest−Neighbour法
を説明する図である。
FIG. 2 is a diagram illustrating a conventional Nearest-Neighbour method.

【図3】学習事例集合の例を示す図である。FIG. 3 is a diagram showing an example of a learning case set.

【図4】意味概念シソーラスを示す図である。FIG. 4 is a diagram showing a semantic concept thesaurus.

【図5】単語と対応付けられた意味概念シソーラスを示
す図である。
FIG. 5 is a diagram showing a semantic concept thesaurus associated with words.

【図6】パス強度を付与された意味概念シソーラスを示
す図である。
FIG. 6 is a diagram showing a semantic concept thesaurus given a path strength.

【図7】単語辞書の例を示す図である。FIG. 7 is a diagram showing an example of a word dictionary.

【符号の説明】[Explanation of symbols]

1 クラスタリング装置 11 意味概念シソーラス 12 単語辞書 13 学習事例 14 単語検索手段 15 概念抽出手段 1 Clustering Device 11 Semantic Concept Thesaurus 12 Word Dictionary 13 Learning Example 14 Word Searching Means 15 Concept Extracting Means

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】 ノードとパスを有するツリー状構造によ
り意味概念の上下関係を表現するシソーラスと、各単語
が前記シソーラスのどのノードに対応するかを保持する
単語辞書と、該単語辞書に登録された単語を各事例が保
持する学習事例と、該学習事例から事例を取り出し、前
記単語辞書を検索して、前記学習事例中の各単語に相当
する前記ノードを求める単語検索手段と、該単語検索手
段により求められた各単語に対応するノードから出発し
て、当該ノードに隣接するパスには予め定められた重み
の接続情報を付与し、当該ノードの上位概念ノードに隣
接したパスには当該ノードに隣接するパスに付与した重
みに所定の逓減率を乗じた重みを付与して、ノード間を
接続するパスの重みが所定のスレショルドを超えるノー
ド集合を1つの概念として取り出す概念抽出手段とを有
することを特徴とするクラスタリング装置。
1. A thesaurus that expresses a hierarchical relationship of semantic concepts by a tree-like structure having nodes and paths, a word dictionary that holds which node in the thesaurus each word corresponds to, and a word dictionary registered in the word dictionary. A learning case in which each case holds a selected word, a word search unit that retrieves a case from the learning case, searches the word dictionary, and finds the node corresponding to each word in the learning case; and the word search Starting from the node corresponding to each word obtained by the means, the connection information with a predetermined weight is given to the path adjacent to the node, and the node adjacent to the superordinate concept node of the node concerned. One concept is a node set in which the weights of the paths connecting between nodes are given by multiplying the weights given to the paths adjacent to each other by a given reduction rate. And a concept extracting unit for extracting the information as a clustering device.
JP5106745A 1993-05-07 1993-05-07 Clustering device Pending JPH06318223A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5106745A JPH06318223A (en) 1993-05-07 1993-05-07 Clustering device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5106745A JPH06318223A (en) 1993-05-07 1993-05-07 Clustering device

Publications (1)

Publication Number Publication Date
JPH06318223A true JPH06318223A (en) 1994-11-15

Family

ID=14441464

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5106745A Pending JPH06318223A (en) 1993-05-07 1993-05-07 Clustering device

Country Status (1)

Country Link
JP (1) JPH06318223A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11143491A (en) * 1997-07-11 1999-05-28 At & T Corp Automatic task classifying method based on sound, automatic call classifying method, and automatic task classifying system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11143491A (en) * 1997-07-11 1999-05-28 At & T Corp Automatic task classifying method based on sound, automatic call classifying method, and automatic task classifying system

Similar Documents

Publication Publication Date Title
US5926811A (en) Statistical thesaurus, method of forming same, and use thereof in query expansion in automated text searching
CN110321925B (en) Text multi-granularity similarity comparison method based on semantic aggregated fingerprints
US5463773A (en) Building of a document classification tree by recursive optimization of keyword selection function
US7299247B2 (en) Construction of trainable semantic vectors and clustering, classification, and searching using trainable semantic vectors
CN110196901A (en) Construction method, device, computer equipment and the storage medium of conversational system
CN101685455B (en) Method and system of data retrieval
JP3726742B2 (en) Method and system for creating a general text summary of a document
JP7111154B2 (en) Answer selection device, answer selection method, answer selection program
US20050102251A1 (en) Method of document searching
US8812504B2 (en) Keyword presentation apparatus and method
US8380731B2 (en) Methods and apparatus using sets of semantically similar words for text classification
Al-Abdallah et al. Arabic text summarization using firefly algorithm
JP2011118689A (en) Retrieval method and system
CN112036178A (en) Distribution network entity related semantic search method
CN115422948B (en) Event level network identification system and method based on semantic analysis
CN106294460A (en) A kind of Chinese speech keyword retrieval method based on word and word Hybrid language model
CN108681564A (en) The determination method, apparatus and computer readable storage medium of keyword and answer
EP0822503A1 (en) Document retrieval system
Bais et al. An Arabic natural language interface for querying relational databases based on natural language processing and graph theory methods
AL-Khassawneh et al. Improving triangle-graph based text summarization using hybrid similarity function
Li et al. Complex query recognition based on dynamic learning mechanism
JPH06318223A (en) Clustering device
Ilic et al. Suffix tree clustering–data mining algorithm
KR20020054254A (en) Analysis Method for Korean Morphology using AVL+Trie Structure
Sheng et al. A knowledge-based approach to effective document retrieval