JPH05108726A - Multi-attribute similar data retrieving device - Google Patents

Multi-attribute similar data retrieving device

Info

Publication number
JPH05108726A
JPH05108726A JP3294873A JP29487391A JPH05108726A JP H05108726 A JPH05108726 A JP H05108726A JP 3294873 A JP3294873 A JP 3294873A JP 29487391 A JP29487391 A JP 29487391A JP H05108726 A JPH05108726 A JP H05108726A
Authority
JP
Japan
Prior art keywords
search
attribute
similarity
index
thesaurus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3294873A
Other languages
Japanese (ja)
Inventor
Kazuhiro Tsubaki
和弘 椿
Taro Morishita
太朗 森下
Takahiro Yamaji
孝浩 山路
Shigeki Kuga
茂起 空閑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
Agency of Industrial Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agency of Industrial Science and Technology filed Critical Agency of Industrial Science and Technology
Priority to JP3294873A priority Critical patent/JPH05108726A/en
Publication of JPH05108726A publication Critical patent/JPH05108726A/en
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE:To facilitate retrieval even for an ambiguous retrieving key word by using plural thesauruses for every attribute, and besides, digitizing collation between the inputted retrieving key word and the thesaurus by similarity calculation. CONSTITUTION:An index and the retrieving key word are inputted by an input means 1 by the control of a control means 8, and are stored in a storage means 3. Next, the inputted index is converted into data structure for executing the similarity calculation by analyzing its attribute and its attribute value by a converting means 5, and this result is stored in the storage means 3. Further, the stored key word and index data are collated with each other by a similarity calculating means 6, and the similarity on the thesaurus between the index and the retrieving key word is calculated extending over plural thesauruses. Then, the calculated result of the similarity calculating means 6 is rearranged in the order of the larger number of points by a sorting means 7, and the calculated result is displayed by an output means 2.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は複数のシソーラスを利用
して複数の属性と属性値から構成されるインデックスを
持つ検索対象の検索処理を行なう、マルチ属性類似デー
タ検索装置に関するものである。本発明の利用分野とし
ては、データベースシステム、エキスパートシステム、
情報想起システムなどが挙げられる。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a multi-attribute similar data retrieving apparatus for retrieving a retrieval object having an index composed of a plurality of attributes and attribute values using a plurality of thesauri. Application fields of the present invention include database systems, expert systems,
An information recall system is included.

【0002】[0002]

【従来技術】データベース等の検索処理では入力された
検索キーワードとインデックスとの完全マッチ、及び検
索キーワードの文字列のサブセットとの完全マッチ等に
より検索を行なっている。一般の検索においては、著者
名や全キーワードのような検索キーワード属性ごとに複
数個の属性値を指定して一次検索を行ない、論理積等の
集合演算による2次検索を行なうことによって検索を行
なう。この場合はユーザが適切な検索キーワードを入力
できる場合には効率良く精度の高い検索を行なうことが
できるが、検索キーワードの入力はユーザの判断に任せ
られている。このため曖昧な検索キーワードが入力され
た場合にはユーザの意図するデータの検索を行なうこと
が難しい。
2. Description of the Related Art In a search process of a database or the like, a search is performed by an exact match between an input search keyword and an index, an exact match between a subset of a character string of the search keyword, and the like. In a general search, a primary search is performed by specifying multiple attribute values for each search keyword attribute such as author name or all keywords, and a secondary search is performed by a set operation such as logical product. .. In this case, if the user can input an appropriate search keyword, efficient and highly accurate search can be performed, but the input of the search keyword is left to the user's judgment. For this reason, when an ambiguous search keyword is input, it is difficult to search the data intended by the user.

【0003】また、マッチング方法は検索キーワード、
あるいは検索キーワードのサブセットの文字列による完
全マッチであり、入力された検索キーワードと概念的に
近いインデックスと照合することは難しい。このためデ
ータベース検索においては検索を行専門に行なう職業で
あるデータベース検索技術者(通称、サーチャー)も存在
する。
A matching method is a search keyword,
Alternatively, it is a perfect match with a character string of a subset of search keywords, and it is difficult to match an index conceptually close to the input search keyword. For this reason, there are database search engineers (commonly referred to as searchers) who are specialized in performing database searches.

【0004】[0004]

【発明が解決しようとする課題】ユーザが検索対象を検
索する際に、明確なキーワードを考えられない場合には
曖昧なキーワードが入力される。この場合はユーザの入
力したキーワードの概念とデータベースシステム内の検
索キーワードの概念の属するシソーラスが異なることが
検索を困難にする問題点である。例えば、トマトは食べ
ものという視点のシソーラスでは野菜に属するが、形状
の視点のシソーラスでは円形に属する。どのシソーラス
を用いるかはユーザがどのような視点(目的)で検索対象
を検索するかに依存する。このように検索対象が明確で
ない場合には、検索対象のインデックスには複数のシソ
ーラスが必要になる。現在の技術では一つの属性に複数
のシソーラスを持たせることは難しいという問題点があ
る。
When a user searches for a search target and a clear keyword cannot be considered, an ambiguous keyword is input. In this case, the fact that the concept of the keyword input by the user and the concept of the search keyword in the database system belong to different thesauruses makes the search difficult. For example, tomatoes belong to vegetables in the thesaurus of food, but belong to circles in the thesaurus of shape. Which thesaurus is used depends on what viewpoint (purpose) the user searches for the search target. When the search target is not clear in this way, a plurality of thesauri are required for the search target index. The current technology has a problem that it is difficult to have multiple thesauri for one attribute.

【0005】また、複数のシソーラスを用いることによ
り検索対象が広がり、検索可能な範囲が大きくなるとい
うメリットがあるが、ユーザの必要としない検索対象ま
でも検索するという問題がある。このため入力された検
索キーワードとインデックスのシソーラス内における類
似度を、複数のシソーラスに渡って計算することが必要
であるが、現在はまだ有効な方法が確立されていないと
いう問題点がある。
Further, although using a plurality of thesauri has an advantage that the search target is expanded and the searchable range is enlarged, there is a problem that even the search target not required by the user is searched. For this reason, it is necessary to calculate the similarity between the input search keyword and index in the thesaurus, but there is a problem that an effective method is not yet established.

【0006】本発明は、複数のシソーラスを予め用意し
て、曖昧な検索キーワード入力に対する検索処理問題点
を解決するために、複数のシソーラスに渡ってキーワー
ドとインデックスの類似度を計算することを行なおうと
するものである。
According to the present invention, a plurality of thesauri are prepared in advance, and in order to solve the search processing problem with respect to ambiguous search keyword input, the similarity between the keyword and the index is calculated over the plurality of thesauri. It is something that I try to do.

【0007】[0007]

【課題を解決するための手段】本発明は、検索キーワー
ド情報を複数の属性と属性値の文字情報で入力する手段
と、文字情報を出力する手段と、属性と属性値のテーブ
ル形式で表現される検索対象を複数の属性と属性値によ
って検索可能なインデックスへ変換する手段と、変換さ
れたデータや処理データの途中結果や制御の途中結果を
一時的に記憶する手段と、検索キーワードと検索対象の
属性を複数のシソーラスを用いて類似度を計算する手段
と、検索結果を類似度の高い順にソートする手段と、検
索結果を表示する手段と、これらを制御する手段から構
成される。
According to the present invention, a search keyword information is input by character information of a plurality of attributes and attribute values, a means of outputting character information, and a table format of attributes and attribute values. Means to convert the search target to a searchable index by multiple attributes and attribute values, a means to temporarily store the intermediate result of the converted data or processing data or the intermediate result of control, the search keyword and the search target It comprises a means for calculating the degree of similarity of the attributes of the above using a plurality of thesauri, a means for sorting the search results in descending order of similarity, a means for displaying the search results, and a means for controlling these.

【0008】[0008]

【作用】本発明によれば、はじめに、制御手段の制御に
より、インデックスと検索キーワードの入力が入力手段
により行なわれ、記憶手段に記憶される。
According to the present invention, first, the index and the search keyword are input by the input means and stored in the storage means under the control of the control means.

【0009】次に、入力されたインデックスは変換手段
によって属性と属性値の解析が行なわれ類似度計算を行
なうためのデータ構造へ変換され、その結果が記憶手段
に記憶される。
Next, the input index is converted into a data structure for analyzing the attribute and the attribute value by the converting means and calculating the degree of similarity, and the result is stored in the storing means.

【0010】次に、類似度計算手段により記憶された検
索キーワードとインデックスデータとの照合を行ない、
インデックスと検索キーワード間のシソーラス上での類
似度を複数のシソーラス間に渡って計算する。
Next, the search keyword stored by the similarity calculation means is collated with the index data,
The similarity between the index and the search keyword on the thesaurus is calculated over the thesaurus.

【0011】次に、類似度計算手段の計算結果をソート
手段により点数の高い順に並べ替える。
Next, the calculation results of the similarity calculation means are sorted by the sorting means in descending order of score.

【0012】更に、計算結果を出力手段により表示を行
なう。
Further, the calculation result is displayed by the output means.

【0013】[0013]

【実施例】以下図に基づいて本発明を詳細に説明する。
図1は本発明にかかわるマルチ属性類似データ検索装置
のブロック構成図である。図において1は検索対象の属
性と属性値情報や検索キーワードなどの文字情報を入力
するためのキーボードなどの入力手段である。2は入力
した文字情報や検索結果情報を出力するためのプリンタ
などの出力手段である。3は入力された情報を半導体素
子、ディスク、フロッピーディスクなどに記憶するため
の記憶手段である。4は入力されたり、途中の処理結果
を文字情報として表示するためのCRTなどの表示手段で
ある。
The present invention will be described in detail with reference to the drawings.
FIG. 1 is a block diagram of a multi-attribute similar data search device according to the present invention. In the figure, reference numeral 1 is an input means such as a keyboard for inputting attributes to be searched and character value information such as attribute value information and search keywords. Reference numeral 2 is an output means such as a printer for outputting the input character information and search result information. Reference numeral 3 is a storage means for storing the input information in a semiconductor device, a disk, a floppy disk or the like. Reference numeral 4 is a display means such as a CRT for inputting or displaying a processing result in the middle as character information.

【0014】更に、5はテーブル形式で入力された検索
対象を類似度計算可能なデータ構造へ変換する変換手段
である。6は入力された検索キーワード(複数の属性と複
数の属性値により構成される)に対して検索対象の属性
と属性値情報と検索キーワード間のシソーラス上での類
似度を複数のシソーラス間に渡って計算する類似度計算
手段である。7はその計算結果を点数の高い順に並べ替
えるするソート手段である。8はこれらの各手段を制御
するCPUなどの制御手段である。
Further, 5 is a conversion means for converting the search target input in the table format into a data structure capable of calculating the degree of similarity. 6 is the similarity between the search target attribute (composed of multiple attributes and multiple attribute values), the attribute to be searched, attribute value information, and the search keyword across multiple thesauruses. It is a similarity calculation means for calculating. 7 is a sorting means for sorting the calculation results in descending order of score. Reference numeral 8 is a control means such as a CPU for controlling each of these means.

【0015】図2は本発明の機能ブロックの概略フロー
図である。9はシソーラスの入力、及び検索キーワード
やインデックスを入力するデータ前処理モジュールであ
る。10はテーブル形式で表現された検索対象を装置が解
釈可能な形式に変えて記憶するインデックス変換モジュ
ールである。11は複数のシソーラスを用いてインデック
スと検索キーワード間の類似度を数値化する類似度計算
モジュールである。12は計算結果を点数の高い順に並べ
替えるソートモジュールである。以後これらの各モジュ
ールごとに具体的に説明を行なう。
FIG. 2 is a schematic flow diagram of the functional blocks of the present invention. Reference numeral 9 is a data preprocessing module for inputting a thesaurus and inputting search keywords and indexes. Reference numeral 10 is an index conversion module that stores a search target expressed in a table format by converting it into a format that can be interpreted by the apparatus. Reference numeral 11 is a similarity calculation module that digitizes the similarity between the index and the search keyword using a plurality of thesauri. A sorting module 12 sorts the calculation results in descending order of score. Hereinafter, each of these modules will be specifically described.

【0016】データ前処理モジュールは予め、シソーラ
スを入力して、記憶手段に蓄える。また、検索処理にお
いて、検索対象の属性と属性値情報や検索キーワードの
入力を行ない、記憶手段へ蓄えられる。検索対象の属性
と属性値情報の入力はシソーラスの入力時に行なっても
本装置の機能に支障をきたすことはない。
The data preprocessing module inputs the thesaurus in advance and stores it in the storage means. In the search process, the search target attribute, attribute value information, and search keyword are input and stored in the storage means. Even if the search target attribute and the attribute value information are input at the time of inputting the thesaurus, the function of the apparatus is not hindered.

【0017】インデックス変換モジュールは、まず、記
憶手段に蓄えられた検索対象の属性と属性値情報(図3)
を装置が解釈可能なデータ構造へ変換する。図3のよう
に複数の属性を定義可能であり、また一つの属性に対し
て複数の属性値を定義可能である。また、属性値を定義
しなくても(表中の空欄)構わない。例では中華料理の検
索対象を料理タイプ(dishType)、材料(ingred)、味(tas
te)、料理のきめ(texture)の属性で表現している。この
テーブル形式の属性と属性値情報は図4で表現されるデ
ータ構造へ変換される。各属性ごとにその属性のとり得
る値を配置する。さらにこれらの属性値に対して関連す
る検索対象名を配置する。このように属性と属性値、属
性値と検索対象名の2階層の構造を持つインデックスへ
変換される。そして、変換後は記憶手段へ記憶される。
図3と図4では、検索対象は事例という名称である。 類似度計算モジュールは記憶手段に蓄えられた複数のシ
ソーラスと2階層構造を持つインデックス、及び検索キ
ーワードから、インデックスと検索キーワードの照合を
行ない、類似度計算を行なう。図5はシソーラスをトリ
ー構造で表現したものである。シソーラスは属性の種々
の視点から作成したサブシソーラスから構成される。例
では、材料(ingred)というインデックス属性に対して、
種類(kind)と形(form)の2つのサブシソーラスから構成
されていることを示している。シソーラスの末端は材料
の具体的な名称であり、中間ノードは視点を構成する中
間概念を表現したもである。このように属性ごとに、複
数のシソーラスが定義可能である。図5のシソーラスは
装置内では図6の形式で記憶されている。類似度の計算
は検索対象と検索キーワードとが同じ属性名を持つ割合
が高いほど類似していることを考慮しており、下記の数
1の式で表現される。
The index conversion module firstly searches the attribute and the attribute value information of the retrieval object stored in the storage means (FIG. 3).
To a device-interpretable data structure. A plurality of attributes can be defined as shown in FIG. 3, and a plurality of attribute values can be defined for one attribute. Further, it is not necessary to define the attribute value (blank in the table). In the example, the search target of Chinese food is dish type (dishType), material (ingred), taste (tas
te) and the texture attribute of the dish. The attributes and attribute value information in this table format are converted into the data structure represented in FIG. For each attribute, the possible value of that attribute is placed. Further, a search target name related to these attribute values is arranged. In this way, it is converted into an index having a two-level structure of attributes and attribute values, and attribute values and search target names. After the conversion, it is stored in the storage means.
In FIG. 3 and FIG. 4, the search target is a case name. The similarity calculation module collates the index and the search keyword from the plurality of thesauri stored in the storage means, the index having a two-layer structure, and the search keyword to calculate the similarity. FIG. 5 shows the thesaurus in a tree structure. The thesaurus consists of sub-thesaurus created from various viewpoints of attributes. In the example, for the index attribute of material (ingred),
It is shown to be composed of two sub-thesauri of kind and form. The end of the thesaurus is the concrete name of the material, and the intermediate node is the representation of the intermediate concept that constitutes the viewpoint. In this way, a plurality of thesauri can be defined for each attribute. The thesaurus of FIG. 5 is stored in the system in the format of FIG. The calculation of the degree of similarity considers that the higher the ratio of the search target and the search keyword having the same attribute name, the more similar, and is expressed by the following formula (1).

【0018】[0018]

【数1】 数1にて、各記号の意味は次ぎの通りである。[Equation 1] In the formula 1, the meaning of each symbol is as follows.

【0019】S:検索対象と検索キーワードの類似度 P:検索対象と検索キーワード両方が持つ属性の属性値間
の類似度 u:検索対象の属性数 l:シソーラス上での距離 v:検索キーワードの属性数 m:検索対象と検索キーワードの両方が持つ属性数(属性
名が一致するもの) N:シソーラスの数 X:ある特定サブシソーラス上での距離 ここで、シソーラスは属性ごとに複数個存在するが、必
ずしも設定する必要はない。上述の式の説明を行なう。
S: similarity between search target and search keyword P: similarity between attribute values of attributes possessed by both search target and search keyword u: number of search target attributes l: distance on thesaurus v: search keyword Number of attributes m: Number of attributes that both search target and search keyword have (attribute names that match) N: Number of thesauri X: Distance on a specific sub-thesaurus Here, multiple thesauri exist for each attribute However, it is not necessary to set it. The above equation will be described.

【0020】ある特定サブシソーラス上での距離Xはサ
ブシソーラス上で、検索キーワードとインデックス属性
値とが完全マッチ(サブシソーラスの末端から一つ上の
ノードで照合が成功する場合)ならば、1をとる。部分マ
ッチ(サブシソーラスの末端から二以上のノードで照合
が成功する場合)の場合はサブシソーラスの末端から照
合の成功する中間ノードまでの距離(2つの隣接する上位
下位ノード間の距離を1とする)により上述の式で計算す
る。
The distance X on a specific sub-thesaurus is 1 if the search keyword and the index attribute value are a perfect match on the sub-thesaurus (when matching is successful at the node one level above the end of the sub-thesaurus). Take In the case of partial match (when matching is successful at two or more nodes from the end of the sub-thesaurus), the distance from the end of the sub-thesaurus to the intermediate node where matching is successful (the distance between two adjacent upper and lower nodes is 1 The above formula is used to calculate.

【0021】次に、属性内のシソーラスは先に述べたよ
うに複数の視点により作成されるサブシソーラスから構
成され、ある属性の類似度Pは各サブシソーラス上での
類似度(P0,P1,...,Pn)の平均値である。例えば、図5の
シラースにおいてbeefとchichenの類似度Pは下記の数2
になる。
Next, the thesaurus in the attribute is composed of the sub-thesaurus created from a plurality of viewpoints as described above, and the similarity P of a certain attribute is the similarity (P0, P1, ..., Pn) average value. For example, in the Syrahs of FIG. 5, the similarity P between beef and chichen is the following formula 2
become.

【0022】[0022]

【数2】 このため検索対象と検索キーワードの類似度Sはこれら
に含まれるすべての属性間の類似度の平均をとったもの
になる。
[Equation 2] Therefore, the similarity S between the search target and the search keyword is the average of the similarities among all the attributes included in these.

【0023】図7は類似度計算の処理フローである。13
は入力された検索キーワードに含まれる属性を一つ選択
する処理である。14は検索キーワードの属性と、属性と
属性値の検索対象との照合を行なう処理である。15は14
の照合に成功した検索対象について、検索キーワードの
属性値と、属性値と検索対象のインデックスとの照合を
行なう処理である。16は入力されたすべての検索キーワ
ードの属性が調べられたかをチェックする処理である。
17は15の照合が成功した検索対象に対して、検索対象と
検索キーワードのすべての属性に対して上述の類似度の
計算を行なう処理である。
FIG. 7 is a processing flow of similarity calculation. 13
Is a process of selecting one attribute included in the input search keyword. Reference numeral 14 is a process of matching the attribute of the search keyword with the search target of the attribute and the attribute value. 15 is 14
This is a process of matching the attribute value of the search keyword with respect to the search target that has been successfully matched with and the attribute value and the index of the search target. Step 16 is a process of checking whether the attributes of all the input search keywords have been checked.
Reference numeral 17 is a process for calculating the above-mentioned similarity for all the attributes of the search target and the search keyword for the search target for which the matching of 15 is successful.

【0024】計算結果は記憶手段3に蓄えられる。例え
ば、これまで説明したシソーラスとインデックスに対し
てdishTypeがstir_fry,ingredがbroccoli,textureがcri
spという検索キーワードが与えられると、本装置による
出力は、検索対象broccoli_with_tofuの類似度が0.6、
検索対象chicken_and_peanutsの類似度が0.55、検索対
象beef_dumplingの類似度が0.25、検索対象duck__dumpl
ingの類似度が0.18、検索対象beef_and_green_beansの
類似度が0.1になる。
The calculation result is stored in the storage means 3. For example, dishType stir_fry, ingred is broccoli, texture is cri for the thesaurus and index described above.
When the search keyword sp is given, the output of this device is similar to the search target broccoli_with_tofu of 0.6,
Search target chicken_and_peanuts has a similarity of 0.55, search target beef_dumpling has a similarity of 0.25, search target duck__dumpl
The ing similarity is 0.18, and the search target beef_and_green_beans is 0.1.

【0025】ソートモジュールは類似度の計算結果を点
数の高い順に並べ替える。並べ替えた結果は記憶手段3
に蓄えられる。
The sort module sorts the similarity calculation results in descending order of score. The sorted result is the storage means 3
Stored in.

【0026】出力モジュールでは指定されたフォーマッ
トに従い出力する。
The output module outputs according to the specified format.

【0027】[0027]

【発明の効果】本発明の効果としては、属性毎の複数の
シソーラスを利用して、また入力された検索キーワード
とシソーラスの照合を類似度計算により数値化すること
ができるため、曖昧な検索キーワードに対しても容易に
検索を行なうことができる点にある。 また、属性毎の
複数のシソーラスを定義することが可能であり、ユーザ
の視点に応じたシソーラス作成に対処できる。即ち、ユ
ーザの視点、検索要求、検索内容に関する不満等の解析
を行ない、複数のシソーラスを作成することにより、ユ
ーザの意図を反映したシソーラスの作成し、検索処理に
使用できる点にある。
As an effect of the present invention, since a plurality of thesauri for each attribute can be used and the collation between the input search keyword and thesaurus can be digitized by similarity calculation, ambiguous search keywords can be obtained. There is also a point that can be easily searched for. Further, it is possible to define a plurality of thesauri for each attribute, and it is possible to deal with thesaurus creation according to the viewpoint of the user. That is, by analyzing the user's viewpoint, search request, dissatisfaction regarding the search content, and the like, and creating a plurality of thesauri, the thesaurus reflecting the user's intention can be created and used for the search processing.

【0028】更に、検索対象の定義はユーザに分かりや
すい属性と属性値テーブル形式で行なうことができるの
で、検索対象のインデックス作成が容易に行なえ、この
処理を自動化することも可能である。
Further, since the search target can be defined in the form of attributes and attribute value tables that are easy for the user to understand, the index of the search target can be easily created and this process can be automated.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の検索装置のブロック構成図である。FIG. 1 is a block configuration diagram of a search device of the present invention.

【図2】本発明の検索装置の機能ブロックの概略フロー
図である。
FIG. 2 is a schematic flow diagram of functional blocks of a search device according to the present invention.

【図3】検索対象の表現例である。FIG. 3 is a representation example of a search target.

【図4】インデックスの装置内でのデータ構造である。FIG. 4 is a data structure of an index in the device.

【図5】シソーラスの例である。FIG. 5 is an example of a thesaurus.

【図6】シソーラスの装置内でのデータ構造である。FIG. 6 is a data structure in the device of the thesaurus.

【図7】類似度計算の詳細処理フローである。FIG. 7 is a detailed processing flow of similarity calculation.

【符号の説明】[Explanation of symbols]

1 入力手段 2 出力手段 3 記憶手段 4 表示手段 5 変換手段 6 類似度計算手段 7 ソート手段 8 制御手段 13 入力された検索キーワードに含まれる属性を一つ
選択する処理 14 検索キーワードの属性と、属性と属性値の検索対
象との照合を行なう処理 15 検索キーワードの属性値と、属性値と検索対象の
インデックスとの照合を行なう処理 16 入力されたすべての検索キーワードの属性が調べ
られたかをチェックする処理 17 検索対象と検索キーワードのすべての属性に対し
て、類似度の計算を行なう処理
1 Input Means 2 Output Means 3 Storage Means 4 Display Means 5 Converting Means 6 Similarity Calculating Means 7 Sorting Means 8 Control Means 13 Processing to Select One Attribute Included in the Input Search Keywords 14 Attributes of Search Keywords and Attributes And the process of matching the attribute value with the search target 15 The process of matching the attribute value of the search keyword with the attribute value and the index of the search target 16 Checking whether the attributes of all the input search keywords have been examined Process 17 Process for calculating similarity for all attributes of search target and search keyword

───────────────────────────────────────────────────── フロントページの続き (72)発明者 空閑 茂起 大阪市阿倍野区長池町22番22号 シヤープ 株式会社内 ─────────────────────────────────────────────────── ─── Continuation of the front page (72) Inventor Shigeki Kugara 22-22 Nagaike-cho, Abeno-ku, Osaka

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】 検索キーワード情報を複数の属性と属性
値の文字情報で入力する手段と、文字情報を出力する手
段と、属性と属性値のテーブル形式で表現される検索対
象を複数の属性と属性値によって検索可能なインデック
スへ変換する手段と、変換されたデータや処理データの
途中結果や制御の途中結果を一時的に記憶する手段と、
検索キーワードと検索対象の属性を複数のシソーラスを
用いて類似度を計算する手段と、検索結果を類似度の高
い順にソートする手段と、検索結果を表示する手段と、
これらを制御する手段を持つ装置において、対象領域に
固有の複数のシソーラスを用いることにより、検索キー
ワードから類似した検索対象を検索することを特徴とす
るマルチ属性類似データ検索装置。
1. A means for inputting search keyword information as character information of a plurality of attributes and attribute values, a means for outputting character information, and a search target expressed in a table format of attributes and attribute values as a plurality of attributes. Means for converting the attribute value into a searchable index, and means for temporarily storing the intermediate result of the converted data or processing data or the intermediate result of control,
Means for calculating the similarity between the search keyword and the attribute of the search target using a plurality of thesauri, means for sorting the search results in descending order of similarity, means for displaying the search results,
A multi-attribute similar data search device, characterized in that, in a device having means for controlling these, a plurality of thesauruses unique to a target area are used to search for similar search targets from a search keyword.
JP3294873A 1991-10-16 1991-10-16 Multi-attribute similar data retrieving device Pending JPH05108726A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3294873A JPH05108726A (en) 1991-10-16 1991-10-16 Multi-attribute similar data retrieving device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3294873A JPH05108726A (en) 1991-10-16 1991-10-16 Multi-attribute similar data retrieving device

Publications (1)

Publication Number Publication Date
JPH05108726A true JPH05108726A (en) 1993-04-30

Family

ID=17813357

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3294873A Pending JPH05108726A (en) 1991-10-16 1991-10-16 Multi-attribute similar data retrieving device

Country Status (1)

Country Link
JP (1) JPH05108726A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08234987A (en) * 1995-02-28 1996-09-13 Mitsubishi Electric Corp Fuzzy thesaurus generation device
JPH11195039A (en) * 1998-01-05 1999-07-21 Toshiba Corp Method and device for retrieval and method and device for data base
WO2018225576A1 (en) * 2017-06-06 2018-12-13 オムロン株式会社 Score calculation unit, retrieval device, score calculation method, and score calculation program

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62191925A (en) * 1986-02-18 1987-08-22 Matsushita Electric Ind Co Ltd Information registration and retrieval device
JPS62196726A (en) * 1986-02-24 1987-08-31 Nippon Telegr & Teleph Corp <Ntt> Semantic collating device
JPH0232470A (en) * 1988-07-22 1990-02-02 Nippon Telegr & Teleph Corp <Ntt> Thesaurus editing device
JPH02285419A (en) * 1989-04-27 1990-11-22 Ricoh Co Ltd Semanic classification system
JPH0330066A (en) * 1989-06-28 1991-02-08 Hitachi Ltd Information retrieval system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62191925A (en) * 1986-02-18 1987-08-22 Matsushita Electric Ind Co Ltd Information registration and retrieval device
JPS62196726A (en) * 1986-02-24 1987-08-31 Nippon Telegr & Teleph Corp <Ntt> Semantic collating device
JPH0232470A (en) * 1988-07-22 1990-02-02 Nippon Telegr & Teleph Corp <Ntt> Thesaurus editing device
JPH02285419A (en) * 1989-04-27 1990-11-22 Ricoh Co Ltd Semanic classification system
JPH0330066A (en) * 1989-06-28 1991-02-08 Hitachi Ltd Information retrieval system

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08234987A (en) * 1995-02-28 1996-09-13 Mitsubishi Electric Corp Fuzzy thesaurus generation device
JPH11195039A (en) * 1998-01-05 1999-07-21 Toshiba Corp Method and device for retrieval and method and device for data base
WO2018225576A1 (en) * 2017-06-06 2018-12-13 オムロン株式会社 Score calculation unit, retrieval device, score calculation method, and score calculation program
JP6451904B1 (en) * 2017-06-06 2019-01-16 オムロン株式会社 Score calculation unit, search device, score calculation method, and score calculation program
CN110582759A (en) * 2017-06-06 2019-12-17 欧姆龙株式会社 Score calculation unit, search device, score calculation method, and score calculation program
US11144595B2 (en) 2017-06-06 2021-10-12 Omron Corporation Score calculation unit, search device, score calculation method, and score calculation program
CN110582759B (en) * 2017-06-06 2024-01-12 欧姆龙株式会社 Score calculating unit, search device, score calculating method, and score calculating program

Similar Documents

Publication Publication Date Title
Eakins et al. Similarity retrieval of trademark images
Willett Recent trends in hierarchic document clustering: a critical review
US8341159B2 (en) Creating taxonomies and training data for document categorization
Sheikholeslami et al. SemQuery: semantic clustering and querying on heterogeneous features for visual data
JP3781696B2 (en) Image search method and search device
Nepal et al. Query processing issues in image (multimedia) databases
Shin et al. Classification of document pages using structure-based features
US6363379B1 (en) Method of clustering electronic documents in response to a search query
JP4116329B2 (en) Document information display system, document information display method, and document search method
US7426509B2 (en) Method and apparatus for document filtering using ensemble filters
US6665661B1 (en) System and method for use in text analysis of documents and records
US6741985B2 (en) Document retrieval system and search method using word set and character look-up tables
Paek et al. Integration of visual and text-based approaches for the content labeling and classification of photographs
US6205443B1 (en) Overlapping subdocuments in a vector space search process
Chen et al. An unsupervised learning approach to content-based image retrieval
US20030145014A1 (en) Method and apparatus for ordering electronic data
JPH11282876A (en) Document retrieving device
JPH10334118A (en) Dictionary index generating device and document retrieval device
Shin et al. Classification of document page images based on visual similarity of layout structures
Marinai et al. A general system for the retrieval of document images from digital libraries
JP4426041B2 (en) Information retrieval method by category factor
WO1998052119A1 (en) Method and system for image retrieval
JPH08263514A (en) Method for automatic classification of document, method for visualization of information space, and information retrieval system
JPH05108726A (en) Multi-attribute similar data retrieving device
EP0601759A1 (en) Method for searching a collection of documents