JPH11272706A - 検索装置 - Google Patents

検索装置

Info

Publication number
JPH11272706A
JPH11272706A JP10075806A JP7580698A JPH11272706A JP H11272706 A JPH11272706 A JP H11272706A JP 10075806 A JP10075806 A JP 10075806A JP 7580698 A JP7580698 A JP 7580698A JP H11272706 A JPH11272706 A JP H11272706A
Authority
JP
Japan
Prior art keywords
attribute information
keyword
similar
document data
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10075806A
Other languages
English (en)
Inventor
Takatoshi Mochizuki
孝俊 望月
Kimihiko Too
公彦 東尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Minolta Co Ltd
Original Assignee
Minolta Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Minolta Co Ltd filed Critical Minolta Co Ltd
Priority to JP10075806A priority Critical patent/JPH11272706A/ja
Publication of JPH11272706A publication Critical patent/JPH11272706A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 基本キーワードの類似キーワードを文書デー
タに自動的に付加する。 【解決手段】 制御装置11は、入力装置から指示があ
ると、または、文書データ登録や文書データ検索が行わ
れると、設定された文書データ中において出現頻度の高
い語を基本キーワードとして抽出する。また、キーワー
ド辞書を参照して当該基本キーワードの類似キーワード
を検出する。そして、検出された類似キーワードと当該
基本キーワードとを対象文書データに付加して、データ
ベースの内容を更新する。または、検索処理時や登録処
理時や特に指定した場合に対象文書データに基本キーワ
ードに加えてその類似キーワードを自動的に付加する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、記憶部に保存・
管理されているオブジェクトを検索する検索装置に関す
る。
【0002】
【従来の技術】コンピュータの急激な普及に伴って、人
々の扱う電子情報が急激に増加してきている。これらの
多量の電子情報は、一般には、キーワード等の属性情報
が付加されて保存・管理されており、上記属性情報を指
定することによって所望の電子情報が検索できるように
している。ところで、上述のように、電子情報に付加す
る属性情報を決定することは、非常に困難な作業となる
【0003】例えば、上記属性情報としてキーワードを
用いる場合を考えると、このキーワードは上記電子情報
としての文書の内容を的確に表しているキーワードでな
ければならない。したがって、このキーワードをマニュ
アル設定する場合には、ユーザは、登録しようとする文
書の内容を把握した上で最も相応しいキーワードを設定
しなければならず膨大な手間暇が掛かって効率が悪い。
そこで、文書に自動的にキーワードを付加する文書処理
装置(特開平6−282571号公報)が提案されてい
る。
【0004】この文書処理装置では、入力手段からテキ
ストデータとして入力された文書データ、あるいは、イ
メージデータ入力手段からイメージデータとして入力さ
れた文書をテキストデータ記憶領域に格納する。そし
て、単語抽出手段によってテキストデータ記憶領域に格
納されたテキストデータに基づいて得られて単語記憶領
域に格納された単語を、出現回数検出手段によって出現
回数順に並べ変え、同じ出現回数の単語について強調回
数検出手段によって強調回数順に並べ変える。そうする
と、キーワード・文書名作成手段は、上記並べ変えが終
了した単語のうち上位所定数の単語をキーワードとして
文書データに付与するようにしている。
【0005】
【発明が解決しようとする課題】しかしながら、上記従
来の文書処理装置には以下のような問題がある。すなわ
ち、上記文書処理装置においては、入力文書に数多く出
現する複数の単語をキーワードとして選出して当該文書
に付加している。したがって、当該文書に出現しない単
語は、キーワードとして付加されることは無いのであ
る。
【0006】検索の精度を上げる場合には、出現頻度の
高い単語に加えて、この単語に類似する種々の単語もキ
ーワードとして付加する必要がある。文書に使用される
言葉は、その文書を書く人の年齢や性別や置かれている
環境等によって異なるのが普通である。したがって、使
用されている言葉は異なるが内容的には類似している文
書に対して上記従来の文書処理装置による自動キーワー
ド付与を適用した場合には、この内容は同じ2つの文書
に対して全く異なるキーワードが付加されてしまうこと
になる。つまり、文書に使用されている言葉に応じて、
片寄ったキーワードが付加されてしまうのである。
【0007】このことは、上述のように出現頻度の高い
単語をキーワードとして付与した文書を検索する場合
に、意味的に類似したキーワードであっても、そのうち
の何れのキーワードを指定するかによって、目的文書が
ヒットする場合とヒットしない場合が生じ、検索精度が
著しく低下してしまうという問題がある。
【0008】そこで、このような検索精度の低下を防止
るための検索方法として、所謂曖昧検索処理がある。こ
の曖昧検索処理では、検索条件として用いるキーワード
として、ユーザによって設定された設定キーワードのみ
ならず、この設定キーワードと意味的に類似した類似キ
ーワードも用いて検索処理を行うものである。こうする
ことによって、目的文書中に上記設定キーワードと同じ
単語が出現しないために上記設定キーワードが目的文書
に付加されていなくとも、この設定キーワードに意味的
に類似した類似キーワードが付加されていれば曖昧検索
処理によって検索されることになる。
【0009】このような曖昧検索処理の適用は、目的文
書に付加されているキーワードの設定キーワードとの類
似度が高い場合には問題がないのであるが、目的文書中
に出現する単語の上記設定キーワードとの類似度が低い
ために類似度の低い類似キーワードが目的文書に付加さ
れてしまった場合には、上記曖昧検索処理時における曖
昧度(ヒットしたと判定するキーワードの類似度の閾値)
を大きくしないと目的文書が検索されないことになる。
ところが、上記曖昧度を大きくすると、確かに目的文書
は検索されることになるが、同時に多数の候補文書が検
索されることになり、この多数の候補文書から目的文書
を特定するために再度検索処理を行う必要が生じ、検索
作業が面倒になるという問題がある。
【0010】そこで、この発明の目的は、基本キーワー
ド(例えば、出現頻度が高い語)の類似語をキーワードと
して自動的に付加できる検索装置を提供することにあ
る。
【0011】
【課題を解決するための手段】上記目的を達成するた
め、請求項1に係る発明は、文を含むオブジェクトがそ
の属性情報を付加して登録されたデータベースから、設
定された設定属性情報に基づいて所望のオブジェクトを
検索する検索装置において、上記属性情報とこの属性情
報の類似属性情報とが対応付けられて格納された属性情
報辞書と、上記オブジェクトの上記文中における特定の
語を基本属性情報として抽出する基本属性情報抽出手段
と、上記抽出された基本属性情報に基づいて,上記属性
情報辞書を参照して当該基本属性情報の類似属性情報を
検出する類似属性情報検出手段と、得られた当該基本属
性情報とこの基本属性情報の類似属性情報を当該オブジ
ェクトに付加する属性情報付加手段を備えたことを特徴
としている。
【0012】上記構成によれば、自動的にオブジェクト
の基本属性情報とその基本属性情報の類似属性情報とが
求められて、当該オブジェクトに付加される。したがっ
て、当該オブジェクトに付加されている基本属性情報と
その類似属性情報とに基づいて、精度の高い検索処理が
行われる。
【0013】また、請求項2に係る発明は、請求項1に
係る発明の検索装置において、上記類似属性情報検出手
段は、検出した類似属性情報のうち当該オブジェクトの
上記文中に出現する類似属性情報のみを当該オブジェク
トに付加すべき類似属性情報と判定する属性情報判定手
段を備えたことを特徴としている。
【0014】上記構成によれば、上記属性情報辞書を参
照して得られた類似属性情報のうち当該オブジェクトの
上記文中に出現する類似属性情報のみが付加すべき類似
属性情報であると判定される。こうして、当該オブジェ
クトの属性情報として相応しい類似属性情報のみが付加
されて、更に精度の高い検索処理が行われる。
【0015】また、請求項3に係る発明は、請求項2に
係る発明の検索装置において、上記属性情報判定手段
は、検出した類似属性情報のうち当該オブジェクトの上
記文中に所定値以上の出現頻度で出現する類似属性情報
のみを当該オブジェクトに付加すべき類似属性情報と判
定するようになっていることを特徴としている。
【0016】上記構成によれば、上記属性情報辞書を参
照して得られた類似属性情報のうち当該オブジェクトの
上記文中に所定値以上の出現頻度で出現する類似属性情
報のみが付加すべき類似属性情報であると判定される。
こうして、当該オブジェクトの属性情報として正に相応
しい類似属性情報のみが付加されて、更に精度の高い検
索処理が行われる。
【0017】また、請求項4に係る発明は、請求項1乃
至請求項3の何れか一つに係る発明の検索装置におい
て、上記基本属性情報抽出手段,類似属性情報検出手段
および属性情報付加手段は、検索処理時に動作して、上
記検索された候補オブジェクトに対して属性情報を自動
的に付加することを特徴としている。
【0018】上記構成によれば、検索された候補オブジ
ェクトに対して類似属性情報が自動的に付加される。こ
うして、当該候補オブジェクトに対して更に精度の高い
属性情報付加が行われて、以後の検索精度が高められ
る。
【0019】また、請求項5に係る発明は、請求項1乃
至請求項3の何れか一つに係る発明の検索装置におい
て、上記基本属性情報抽出手段,類似属性情報検出手段
および属性情報付加手段は、登録処理時に動作して、上
記登録処理の対象となるオブジェクトに対して属性情報
を自動的に付加することを特徴としている。
【0020】上記構成によれば、上記データベースに登
録されるオブジェクトに対して基本属性情報のみならず
その類似属性情報が自動的に付加される。こうして、登
録オブジェクトの検索精度が高められる。
【0021】尚、ここで、上記「オブジェクト」とは、
本検索装置のような情報処理装置によって保存・管理さ
れるべき主体となる電子情報(例えば、テキストデータ
や画像データ)、あるいは、これらをまとめたフォルダ
等を意味する。また、上記「属性情報」とは、上記「オ
ブジェクト」に付加される当該オブジェクトの属性を表
す情報であり、例えば、検索キー(キーワード,色,形状
等)、データの作成者名、作成日、登録日、サイズ、コ
メント、アイコン等である。
【0022】
【発明の実施の形態】以下、この発明を図示の実施の形
態により詳細に説明する。図1および図2は、本実施の
形態の検索装置におけるハードウェア構成を示す図であ
る。尚、本実施の形態においては、上記「オブジェク
ト」として文書データを用い、「属性情報」としてキー
ワードを用いている。
【0023】本検索装置は、図1に示すように、CPU
(中央演算処理装置)が搭載されて検索装置全体の動作を
制御する制御装置11を中心として、ディスプレイ1
2,キーボード13,マウス14,フロッピー(登録商
標)ディスクドライブ15b,ハードディスク装置16,
プリンタ17,スキャナ18,CD−ROMドライブ19
b,スピーカ20およびマイクロフォン21等によって構
成される。
【0024】上記ディスプレイ12には、文字や画像、
並びに本検索装置の操作に必要な各種情報が表示され
る。キーボード13及びマウス14は、各種入力操作や
指示操作の際に使用される。フロッピーディスク15a
は、制御装置11のフロッピーディスクドライブ15b
に装着されてデータが記憶・再生される。ハードディス
ク装置16は、各キーワード間の類似度や文書データや
属性情報としてのキーワードを記憶・保管する。プリン
タ17は、文書データに基づく文書や編集によって図形
や絵が挿入された文書等を用紙上に出力する。スキャナ
18は、シート状の原稿上の文書を読み取って文書デー
タを出力する。CD−ROM19aは、文書データを所
定のフォーマット形式で格納しており、CD−ROMド
ライブ19bに装着されて文書データが再生される。ス
ピーカ20は音声出力を行い、マイクロフォン21は音
声入力を行う。ここで、スキャナ18およびCD−RO
Mドライブ19bによって読み取られた文書データはハ
ードディスク装置16に記憶・保管される。尚、上記ス
キャナ18,CD−ROMドライブ19b,スピーカ20
およびマイクロフォン21は、制御装置11に内蔵して
一体に構成してもよい。
【0025】図2は、図1を上記制御装置11に搭載さ
れたCPUを中心としたブロック図で表現している。上
記CPU25としては、例えばインテル社製の品番i8
0486DX等を用いる。そして、CPU25には、デ
ータバス26を介して、後述する各種の処理を実行する
ためのプログラムが格納されるROM(リード・オンリ・
メモリ)28、各種データおよびプログラムが格納され
るRAM(ランダム・アクセス・メモリ)29、文書あるい
は画像等をディスプレイ12に表示する表示制御回路3
0、キーボード13からの入力を転送制御するキーボー
ド制御回路31、マウス14からの入力を転送制御する
マウス制御回路32、フロッピーディスクドライブ15
bを制御するフロッピーディスクドライブ制御回路3
3、ハードディスク装置16を制御するハードディスク
制御回路34、プリンタ17の出力動作を制御するプリ
ンタ制御回路35、スキャナ18の文書入力動作を制御
するスキャナ制御回路36、CD−ROMドライブ19
bを制御するCD−ROMドライブ制御回路37、スピ
ーカ20の音声出力を制御するスピーカ制御部38、及
び、マイクロフォン21からの音声入力を制御するマイ
クロフォン制御回路39が接続される。
【0026】また、上記CPU25には、本検索装置を
動作させるのに必要な基準クロックを発生するためのク
ロック27が接続され、さらに、データバス26を介し
て各種拡張ボードを接続するための拡張スロット40が
接続される。ここで、上記拡張スロット40にSCSI
ボードを接続し、このSCSIボードを介して、フロッ
ピーディスクドライブ15b、ハードディスク装置1
6、スキャナ18、CD−ROMドライブ19b等を接
続してもよい。
【0027】本実施の形態においては、上述のように、
データの記録媒体としてフロッピーディスク15aおよ
びハードディスク装置16を用いているが、光磁気ディ
スク等の他の記録媒体を用いても差し支えない。また、
データの入力装置としてスキャナ18およびCD−RO
Mドライブ19bを用いているが、スチルビデオカメラ
やディジタルカメラ等の他の入力装置を用いてもよい。
また、プリンタ17の代わりにディジタル複写機等の他
の出力装置を用いてもよい。
【0028】また、本検索装置では、後述する検索処
理,文書データ登録処理,自動キーワード付加処理等のプ
ログラムをROM28に記憶するようにしている。しか
しながら、上記プログラムの一部あるいは全部をフロッ
ピーディスク15aやハードディスク装置16等の記録
媒体に格納しておき、必要に応じて上記プログラムをR
AM29に読み込ませるようにしても差し支えない。
【0029】上記構成を有する検索装置は、以下のよう
に動作する図3は、上記ROM28に格納されたプログ
ラムに基づいてCPU25による制御の下に実行される
処理のメインルーチンのフローチャートである。
【0030】本検索装置の電源が投入されて上記プログ
ラムが起動すると、メインルーチンがスタートする。ス
テップS1で、各処理において必要なフラグ等のイニシ
ャライズ、および、ディスプレイ12への初期画面表示
等の初期設定処理が行われる。ステップS2で、上記デ
ィスプレイ12に表示されている初期画面上でジョブメ
ニュー「検索」が選択されたと判別されるとステップS
3に進み、そうでなければステップS5に進む。
【0031】ステップS3で、上記選択されたジョブメ
ニュー「検索」に従って、データベースに登録されてい
る文書データの中から所望の文書データを検索し、得ら
れた候補文書データに新たなキーワードを付加する検索
処理が後に詳述するようにして実行される。ステップS
4で、上記検索処理によって得られた候補文書データに
基づいて、候補文書をディスプレイ12に表示する検索
結果表示処理が行われる。そうした後、ステップS17に
進む。
【0032】ステップS5で、上記ディスプレイ12に
表示されている初期画面上でジョブメニュー「データ登
録」が選択されたと判別されるとステップS6に進み、そ
うでなければステップS7に進む。ステップS6で、上記
選択されたジョブメニュー「データ登録」に従って、キ
ーボード13やスキャナ18,CD−ROM19bなどの
入力装置から入力された文書データを、この文書データ
にキーワードを自動的に付加してデータベースに登録す
る文書データ登録処理が実行される。そうした後、ステ
ップS17に進む。
【0033】ステップS7で、上記ディスプレイ12に
表示されている初期画面上でジョブメニュー「キーワー
ド登録」が選択されたと判別されるとステップS8に進
み、そうでなければステップS9に進む。ステップS8
で、上記選択されたジョブメニュー「キーワード登録」に
従って、新たなキーワードに他のキーワードとの類似度
を対応付けてキーワード辞書に登録するキーワード登録
処理が実行される。そうした後、ステップS17に進む。
【0034】ステップS9で、上記ディスプレイ12に
表示されている初期画面上でジョブメニュー「自動キー
ワード付加」が選択されたと判別されるとステップS10
に進み、そうでなければステップS14に進む。ステップ
S10で、上記データベースから1つの文書データまたは
複数の文書データまたは総ての文書データが選択され
る。ステップS11で、上記ステップS10において選択さ
れた文書データのうち1つの文書が設定される。ステッ
プS12で、上記選択されたジョブメニュー「自動キーワ
ード登録付加」に従って、上記データベースから読み出
された文書データにキーワードを付加して上記データベ
ースに更新登録する自動キーワード付加処理が実行され
る。ステップS13で、上記ステップS10において選択さ
れた総ての文書データに対する処理が終了したか否かが
判別される。その結果、終了していなければ上記ステッ
プS11に戻って次の文書データに対する処理に移行す
る。一方、終了していればステップS17に進む。
【0035】ステップS14で、上記ディスプレイ12に
表示されている初期画面上でジョブメニュー「その他の
メニュー」が選択されたと判別されるとステップS15に
進み、そうでなければステップS16に進む。ステップS
15で、上記選択されたジョブメニュー「その他のメニュ
ー」に従って、印刷等のその他のメニュー処理が実行さ
れる。そうした後、ステップS17に進む。
【0036】ステップS16で、上記ディスプレイ12に
表示されている初期画面上で「終了」が選択されたか否か
が判別される。そして、「終了」が選択されていればメイ
ンルーチンを終了する。一方、そうでなければステップ
S17に進む。ステップS17で、その他の処理が実行され
る。そうした後、上記ステップS2に戻る。
【0037】以下、上記「検索処理」,「文書データ登録
処理」および「自動キーワード付加処理」に付いて詳細に
説明する。尚、「検索結果表示処理」,「キーワード登録
処理」,「その他のメニュー処理」および「その他の処理」
に付いては、この発明とは直接関係ないので詳細な説明
は省略する。
【0038】図4は、図3に示すメインルーチンにおけ
るステップS3において実行される検索処理サブルーチ
ンのフローチャートである。図3に示すメインルーチン
の上記ステップS2においてジョブメニュー「検索」が選
択されたと判別されると、検索処理サブルーチンがスタ
ートする。
【0039】ステップS21で、上記キーワード辞書に格
納されたキーワードのリストがディスプレイ12に表示
され、このキーワードリストに基づいて、ユーザによっ
て検索に使用するキーワードが入力・設定される。ステ
ップS22で、上記ステップS21において設定された設定
キーワードを基準キーワードとする類似キーワードとそ
の類似度とのリストがキーワード辞書から読み出されて
ディスプレイ12に表示される。そして、このキーワー
ドと類似度とのリストに基づいて、ユーザによって上記
曖昧検索を行う際の曖昧度xが設定される。
【0040】ここで、曖昧度xは、キーワード辞書にキ
ーワードとともに登録されている、キーワード相互間の
類似度に対応する。本実施の形態の装置では、類似度の
定義は次のとおりである。尚、類似度の定義は、任意に
設定可能であり、以下に限定されるものではない。 上記曖昧度xは、上記類似度の定義に従って0〜1の範
囲で設定される。
【0041】ステップS23で、上記ステップS21におい
て設定された設定キーワードとステップS22において設
定された曖昧度xとに基づいて、以下のような全文検索
による検索が実行される。すなわち、データベースに登
録されている全文書データに含まれる全文字列に対し
て、設定されたキーワードに対応する語句、及び、この
設定キーワードとの類似度が、設定された曖昧度x以下
であるキーワードに対応する語句があるかどうかを参照
する。そして、これらのキーワードに対応する語句を含
む文書データを候補文書として抽出する。尚、設定され
た曖昧度が0の場合は設定キーワードのみを用いて検索
が行われる。また、設定された曖昧度が1である場合
は、キーワード辞書に登録された全キーワードを用いて
検索が行われる。
【0042】ステップS24で、自動キーワード付加を行
うか否かが、ユーザとの対話によって判別される。その
結果、キーワード付加を行う場合には、ステップS25に
進み、行わない場合には検索処理サブルーチンを終了し
て、図3に示すメインルーチンにリターンする。
【0043】ステップS25で、1つの候補文書データが
選出される。ステップS26で、後に詳述するような自動
キーワード付加処理が実行される。この自動キーワード
付加処理は、図3に示すメインルーチンの上記ステップ
S12において実行される自動キーワード付加処理と基本
的に同じ処理である。ステップS27で、総ての候補文書
データに対するキーワード付加処理が終了したか否かが
判別される。その結果、終了していなければ上記ステッ
プS25に戻って次の候補文書データに対する処理に移行
する。一方、終了していれば、検索処理サブルーチンが
終了されて、図3に示すメインルーチンにリターンす
る。
【0044】図5は、図3に示すメインルーチンにおけ
るステップS6において実行される文書データ登録処理
サブルーチンのフローチャートである。図3に示す基本
処理動作のメインルーチンの上記ステップS5において
ジョブメニュー「データ登録」が選択されたと判別され
ると、文書データ登録処理サブルーチンがスタートす
る。
【0045】ステップS31で、上記入力装置から入力さ
れた文書データが読み込まれる。ステップS32で、当該
文書データにキーワードと一緒に付加されるタイトルや
著者等のデータ属性,コメント,登録日付等の付加情報が
入力される。ステップS33で、後に詳述するような自動
キーワード付加処理が実行される。この自動キーワード
付加処理は、図3に示すメインルーチンの上記ステップ
S12において実行される自動キーワード付加処理と基本
的に同じ処理である。ステップS34で、上記ステップS
33においてキーワードが付加された当該文書データに、
上記ステップS32において入力された付加情報が付加さ
れて上記データベースに登録される。そうした後、文書
データ登録処理サブルーチンが終了されて、図3に示す
メインルーチンにリターンする。
【0046】図6は、図3に示すメインルーチンにおけ
る上記ステップS12、図4に示す検索処理における上記
ステップS26、あるいは、図5に示す文書データ登録処
理における上記ステップS33において実行される自動キ
ーワード付加処理サブルーチンのフローチャートであ
る。図3に示すメインルーチンにおける上記ステップS
9においてジョブメニュー「自動キーワード付加」が選
択されて文書データが設定されると、または、図4に示
す検索処理動作のサブルーチンにおける上記ステップS
26において候補文書の文書データが供給されると、また
は、図5に示す文書データ登録処理動作のサブルーチン
における上記ステップS33において登録文書データが供
給されると、自動キーワード付加処理サブルーチンがス
タートする。
【0047】ステップS41で、上記設定あるいは供給さ
れた文書の文書データに付加されている「基本キーワー
ド抽出済フラグ」が参照されて、基本キーワードは抽出
済みであるか否かが判別される。その結果、抽出済みで
ある場合にはステップS43に進む一方、抽出済みでない
場合にはステップS42に進む。ここで、当該自動キーワ
ード付加処理は上記検索処理動作や文書データ登録処理
動作中に実行される場合であって、基本キーワードとし
て適切なキーワードが既に候補文書あるいは登録文書に
付加されている場合には、基本キーワードは抽出済みで
あると判別されることになる。ステップS42で、文書デ
ータから出現頻度の高い語が基本キーワードとして抽出
される。そして、当該文書データに付加されている「基
本キーワード抽出済フラグ」に「1」が格納される。こ
こで、基本キーワードは1つであっても複数であっても
差し支えない。
【0048】ステップS43で、当該基本キーワードの類
似キーワードを抽出する際の曖昧度xとして予め設定登
録された値が読み出されて設定される。ステップS44
で、上記キーワード辞書に登録されている当該基本キー
ワードの類似キーワードのうち、上記ステップS43にお
いて設定された曖昧度x以下の類似度を有する類似キー
ワードが検出される。但し、上記ステップS43において
設定された曖昧度xがx=0の場合には上記類似キーワ
ードは検出されない。ステップS45で、上記ステップS
42において抽出された基本キーワード、または、上記ス
テップS44において検出された類似キーワードが、当該
文書データに付加される。但し、上記ステップS43にお
いて設定された曖昧度xがx=1の場合には、キーワー
ド付加は行われない。
【0049】ステップS46で、上記データベースを更新
登録するか否かが判別される。その結果、更新登録を行
う場合にはステップS47に進み、行わない場合には自動
キーワード付加処理サブルーチンが終了されて、図3に
示すメインルーチン、又は、図4に示す検索処理サブル
ーチン、又は、図5に示す文書データ登録処理サブルー
チンにリターンする。ここで、当該自動キーワード付加
処理が上記文書データ登録処理動作中に実行される場合
には、データベースに未だ当該文書データは登録されて
いないので、更新登録は行わないと判別されることにな
る。
【0050】ステップS47で、上記ステップS45におい
てキーワードが付加された文書データが上記データベー
スに更新登録される。そうした後、自動キーワード付加
処理サブルーチンが終了されて、図3に示すメインルー
チン、又は、図4に示す検索処理サブルーチン、又は、
図5に示す文書データ登録処理サブルーチンにリターン
する。
【0051】上述のように、本実施の形態においては、
上記制御装置11によって、受けた文書データから出現
頻度の高い語を基本キーワードとして抽出する。また、
上記抽出された基本キーワードに基づいて、キーワード
辞書を参照して基本キーワードとの類似度が曖昧度x以
下の類似キーワードを検出する。そして、上記得られた
基本キーワードと類似キーワードとを当該文書データに
付加する。
【0052】したがって、上記キーボード13等から自
動キーワード付加処理が指示されると、上記データベー
スに格納されている文書に対して、出現頻度の高い基本
キーワードの類似キーワードを、または、上記基本キー
ワードとその類似キーワードとを、自動的に付加するこ
とができる。すなわち、本実施の形態によれば、文書デ
ータに上記類似キーワードが付加されて登録されるの
で、文書データ検索処理時における上記曖昧検索処理時
に曖昧度xを小さくしても目的文書を検索でき、検索精
度を高めることができるのである。
【0053】また、本実施の形態においては、上記キー
ボード13等から文書データ登録処理が指令されると、
制御装置11は自動キーワード付加処理を行い、出現頻
度の高い基本キーワードの類似キーワードを、または、
上記基本キーワードとその類似キーワードとを、入力文
書データに付加して上記データベースに登録する。した
がって、本実施の形態によれば、新たに登録する文書デ
ータに対して出現頻度の高い基本キーワードの類似キー
ワードを付加することができる。
【0054】また、本実施の形態においては、上記キー
ボード13等から検索処理が指令されると、上記制御装
置11は自動キーワード付加処理を行う。そして、出現
頻度の高い基本キーワードの類似キーワードを、あるい
は、上記基本キーワードとその類似キーワードとを、候
補文書データに付加して上記データベースに更新登録す
る。したがって、本実施の形態によれば、上記データベ
ースに登録されている文書データに対して、検索処理の
結果新たにキーワードを付加する必要が生じた場合に
は、より出現頻度の高い基本キーワードとその類似キー
ワード、あるいは、上記基本キーワードの類似キーワー
ドを付加することができる。
【0055】上述のように、本実施の形態によれば、文
書データ登録時のみならず、特に指定したときや文書デ
ータ検索時にも、既に上記データベースに登録されてい
る文書データに対して、新たに出現頻度の高い基本キー
ワードやその類似キーワードを自動的に付加できる。こ
のことは、以下のような効果を奏する。すなわち、文書
データ登録時には、上記自動キーワード付加処理が実行
されるので、その時点で登録対象の文書データに基本キ
ーワードの類似キーワードも付与される。ところが、そ
の後、新規のキーワードがキーワード辞書に登録された
場合には、この新規登録されたキーワードを既に上記デ
ータベースに登録されている文書データに付加する機会
を設ける必要がある。そこで、特に指定した時や文書デ
ータ検索時にも上記自動キーワード付加処理を実行する
のである。尚、さらに、文書データ登録後、一定期間
(例えば1週間)毎に、上記自動キーワード付加処理を全
文書データに対して自動的に行うようにしてもよい。こ
の場合には、例えば、ユーザが使用しないような指定時
刻に上記自動キーワード付加処理を自動的に行うように
して、時間のかかる上述の定期処理によって本検索装置
が専有されるのを防止するようにしてもよい。
【0056】このように、本実施の形態によれば、既に
登録済みの文書データに対して、検索処理時や指定時に
新たにキーワードを自動的に抽出付加できるので、登録
済みの文書に対する以後の検索処理時の検索精度を向上
できるのである。
【0057】<第1変形例>上記実施の形態において
は、単に、図6に示す自動キーワード付加処理サブルー
チンにおける上記ステップS43,S44において、曖昧度
xに基づいて類似キーワードを検出するようにしてい
る。ところが、こうして抽出された類似キーワードは、
基本キーワードとの類似度は高いのであるが、実際に対
象文書データに付加するキーワードとして相応しいキー
ワードなのかは解らない。そこで、本変形例において
は、検出した類似キーワードが対象文書データのキーワ
ードとして相応しいか否かを判定し、相応しい類似キー
ワードのみを文書データに付加するのである。
【0058】図7は、本変形例において実行される自動
キーワード付加処理サブルーチンのフローチャートであ
る。
【0059】ステップS51〜ステップS54で、図6に示
す自動キーワード付加処理サブルーチンにおける上記ス
テップS41〜ステップS44と同様にして、基本キーワー
ドは抽出済みであるか否かの判別、基本キーワードの抽
出、曖昧度xの設定、類似キーワードの検出が行われ
る。
【0060】ステップS55で、上記検出された類似キー
ワードの中から、対象文書データの文中に出現する類似
キーワードが選出される。すなわち、本実施の形態にお
いては、上記対象文書データ中に出現する類似キーワー
ドを、対象文書データに付加するのに相応しい類似キー
ワードとするのである。ステップS56〜ステップS58
で、図6に示す自動キーワード付加処理サブルーチンに
おける上記ステップS45〜ステップS47と同様にして、
得られた基本キーワードあるいは類似キーワードの対象
文書データへの付加、更新登録を行うかの判定、更新登
録が行われる。そうした後、自動キーワード付加処理サ
ブルーチンが終了されて、図3に示すメインルーチン、
または、図4に示す検索処理動作のサブルーチン、また
は、図5に示す文書データ登録処理動作のサブルーチン
にリターンする。
【0061】このように、本変形例においては、対象文
書データ中に出現する類似キーワードのみを相応しい類
似キーワードとして当該対象文書データに付加する。し
たがって、基本キーワードとの類似度は高いのではある
が対象文書データ中には出現しない類似キーワードを付
加対象から外して、検索精度を更に高めることができる
のである。
【0062】<第2変形例>図8は、対象文書データに
付加するのに相応しい類似キーワードのみを付加する自
動キーワード付加処理動作の他の例を示すフローチャー
トである。
【0063】図8に示す自動キーワード付加処理動作サ
ブルーチンでは、ステップS61〜ステップS65で、図7
に示す自動キーワード付加処理サブルーチンにおける上
記ステップS51〜ステップS55と同様にして、基本キー
ワードは抽出済みか否かの判別を行った後に、基本キー
ワードの抽出および類似キーワードの検出を行い、さら
に、対象文書データの文中に出現する類似キーワードが
選出される。
【0064】そして、ステップS66で、上記ステップS
65において選出された類似キーワードの中から、さら
に、対象文書データ中での出現頻度が予め設定された閾
値以上を呈する類似キーワードが抽出される。すなわ
ち、上記対象文書データ中に所定数以上の頻度で出現す
る類似キーワードのみを、対象文書データに付加するの
に相応しい類似キーワードとするのである。
【0065】ステップS67〜ステップS69で、図7に示
す自動キーワード付加処理サブルーチンにおける上記ス
テップS56〜ステップS58と同様にして、得られた基本
キーワードあるいは類似キーワードを対象文書データへ
付加した後、対象文書データを更新登録する場合には上
記データベースに更新登録が行われる。そうした後、自
動キーワード付加処理サブルーチンが終了されて、図3
に示すメインルーチン、または、図4に示す検索処理動
作のサブルーチン、または、図5に示す文書データ登録
処理動作のサブルーチンにリターンするのである。
【0066】このように、本変形例においては、対象文
書データ中にある閾値以上の出現率で出現する類似キー
ワードのみを相応しい類似キーワードとして対象文書デ
ータに付加する。したがって、検索精度を更に高めるこ
とができるのである。
【0067】尚、上記実施の形態においては、文書の検
索を例に説明している。しかしながら、この発明はこれ
に限らず、画像データや音声データやそれらを組み合わ
せてなるマルチメディアデータに付けられたコメントや
説明文等の文にも適用可能である。また、上記実施の形
態における検索処理では、ユーザと対話的に設定した曖
昧度xに基づく曖昧検索を行うようにしているが、設定
キーワードのみによる検索の場合にも適用できる。ま
た、上記実施の形態においては出現頻度の高い語を基本
キーワードとして抽出するようにしている。しかしなが
ら、この発明における基本キーワード抽出処理はこれに
限定されるものではなく、例えば、対象文書中における
タイトルや、フォントの大きい語や、前後が空白で挟ま
れている語等を、基本キーワードとして抽出しても差し
支えない。
【0068】
【発明の効果】以上より明らかなように、請求項1にか
かる発明の検索装置は、基本属性情報抽出手段によって
オブジェクトの文中における特定語を基本属性情報とし
て抽出し、この基本属性情報に基づいて、類似属性情報
検出手段によって当該基本属性情報の類似属性情報を検
出し、属性情報付加手段によって、上記得られた当該基
本属性情報とその類似属性情報を当該オブジェクトに付
加するので、オブジェクトにおける上記基本属性情報の
類似属性情報を自動的に求めて、当該オブジェクトに付
加できる。したがって、この発明によれば、上記オブジ
ェクトに上記基本属性情報のみならずその類似属性情報
をも自動的に付加でき、検索処理部によるオブジェクト
の検索処理を精度よく実行できる。つまり、内容が同一
のオブジェクトを的確に検出できるのである。
【0069】また、請求項2に係る発明の検索装置にお
ける類似属性情報検出手段は、属性情報判定手段を有し
て、検出した類似属性情報のうち当該オブジェクトの上
記文中に出現する類似属性情報のみを当該オブジェクト
に付加すべき類似属性情報と判定するので、当該オブジ
ェクトの属性情報として相応しい類似属性情報のみを付
加できる。したがって、この発明によれば、上記検索処
理部による検索処理の精度を更に高めることができる。
【0070】また、請求項3に係る発明の検索装置にお
ける属性情報判定手段は、検出した類似属性情報のうち
当該オブジェクトの上記文中に所定値以上の出現頻度で
出現する類似属性情報のみを当該オブジェクトに付加す
べき類似属性情報と判定するので、当該オブジェクトの
属性情報として正に相応しい類似属性情報のみを付加で
きる。したがって、この発明によれば、上記検索処理部
による検索処理の精度を更に高めることができる。
【0071】また、請求項4に係る発明の検索装置にお
ける基本属性情報抽出手段,類似属性情報検出手段およ
び属性情報付加手段は、検索処理時に動作されるので、
上記検索された候補オブジェクトに対して上記基本属性
情報とその類似属性情報を自動的に付加することができ
る。したがって、この発明によれば、上記検索処理の結
果得られた候補オブジェクトに対して基本属性情報のみ
ならずその類似属性情報をも自動的に付加して、以後の
検索精度を高めることができる。
【0072】また、請求項5に係る発明の検索装置にお
ける基本属性情報抽出手段,類似属性情報検出手段およ
び属性情報付加手段は、登録処理時に動作されるので、
上記登録処理の対象となるオブジェクトに対して上記基
本属性情報とその類似属性情報を自動的に付加すること
ができる。したがって、この発明によれば、上記データ
ベースに登録されるオブジェクトに対して基本属性情報
のみならずその類似属性情報をも自動的に付加して、登
録オブジェクトの検索精度を高めることができる。
【図面の簡単な説明】
【図1】この発明の検索装置におけるハードウェア構成
を示す図である。
【図2】図1に示すハードウェアのCPUを中心とした
ブロック図である。
【図3】図2におけるCPUによる制御の下に実行され
るメインルーチンのフローチャートである。
【図4】図3に示すメインルーチンにおいて実行される
検索処理サブルーチンのフローチャートである。
【図5】図3に示すメインルーチンにおいて実行される
文書データ登録処理サブルーチンのフローチャートであ
る。
【図6】図3に示すメインルーチンにおいて実行される
自動キーワード付加処理サブルーチンのフローチャート
である。
【図7】図6とは異なる自動キーワード付加処理サブル
ーチンにおけるフローチャートである。
【図8】図6および図7とは異なる自動キーワード付加
処理サブルーチンのフローチャートである。
【符号の説明】
11…制御装置(基本属性情報抽出手段,類似属性情報検
出手段,属性情報付加手段,属性情報判定手段)、 12…ディスプレイ、 13…キーボード、 16…ハードディスク装置(属性情報辞書)。

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 文を含むオブジェクトがその属性情報を
    付加して登録されたデータベースから、設定された設定
    属性情報に基づいて所望のオブジェクトを検索する検索
    装置において、 上記属性情報とこの属性情報の類似属性情報とが対応付
    けられて格納された属性情報辞書と、 上記オブジェクトの上記文中における特定の語を基本属
    性情報として抽出する基本属性情報抽出手段と、 上記抽出された基本属性情報に基づいて、上記属性情報
    辞書を参照して当該基本属性情報の類似属性情報を検出
    する類似属性情報検出手段と、 得られた当該基本属性情報とこの基本属性情報の類似属
    性情報を当該オブジェクトに付加する属性情報付加手段
    を備えたことを特徴とする検索装置。
  2. 【請求項2】 請求項1に記載の検索装置において、 上記類似属性情報検出手段は、検出した類似属性情報の
    うち当該オブジェクトの上記文中に出現する類似属性情
    報のみを当該オブジェクトに付加すべき類似属性情報と
    判定する属性情報判定手段を備えたことを特徴とする検
    索装置。
  3. 【請求項3】 請求項2に記載の検索装置において、 上記属性情報判定手段は、検出した類似属性情報のうち
    当該オブジェクトの上記文中に所定値以上の出現頻度で
    出現する類似属性情報のみを当該オブジェクトに付加す
    べき類似属性情報であると判定するようになっているこ
    とを特徴とする検索装置。
  4. 【請求項4】 請求項1乃至請求項3の何れか一つに記
    載の検索装置において、 上記基本属性情報抽出手段,類似属性情報検出手段およ
    び属性情報付加手段は、上記検索処理時に動作し、上記
    検索された候補オブジェクトに対して属性情報を自動的
    に付加することを特徴とする検索装置。
  5. 【請求項5】 請求項1乃至請求項3の何れか一つに記
    載の検索装置において、 上記基本属性情報抽出手段,類似属性情報検出手段およ
    び属性情報付加手段は、上記オブジェクトの登録処理時
    に動作し、上記登録処理の対象となるオブジェクトに対
    して属性情報を自動的に付加することを特徴とする検索
    装置。
JP10075806A 1998-03-24 1998-03-24 検索装置 Pending JPH11272706A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10075806A JPH11272706A (ja) 1998-03-24 1998-03-24 検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10075806A JPH11272706A (ja) 1998-03-24 1998-03-24 検索装置

Publications (1)

Publication Number Publication Date
JPH11272706A true JPH11272706A (ja) 1999-10-08

Family

ID=13586820

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10075806A Pending JPH11272706A (ja) 1998-03-24 1998-03-24 検索装置

Country Status (1)

Country Link
JP (1) JPH11272706A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6850934B2 (en) 2001-03-26 2005-02-01 International Business Machines Corporation Adaptive search engine query
WO2005066837A1 (ja) * 2003-12-26 2005-07-21 Matsushita Electric Industrial Co., Ltd. 辞書作成装置および辞書作成方法
JP2016189215A (ja) * 2016-07-05 2016-11-04 ヤフー株式会社 抽出装置、抽出方法および抽出プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6850934B2 (en) 2001-03-26 2005-02-01 International Business Machines Corporation Adaptive search engine query
WO2005066837A1 (ja) * 2003-12-26 2005-07-21 Matsushita Electric Industrial Co., Ltd. 辞書作成装置および辞書作成方法
US7840565B2 (en) 2003-12-26 2010-11-23 Panasonic Corporation Dictionary creation device and dictionary creation method
US7921113B2 (en) 2003-12-26 2011-04-05 Panasonic Corporation Dictionary creation device and dictionary creation method
JP2016189215A (ja) * 2016-07-05 2016-11-04 ヤフー株式会社 抽出装置、抽出方法および抽出プログラム

Similar Documents

Publication Publication Date Title
US6330576B1 (en) User-friendly information processing device and method and computer program product for retrieving and displaying objects
JP3694149B2 (ja) 画像検索装置、画像検索用キーテキストの生成方法、並びにその装置としてコンピュータを機能させるためのプログラムおよびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
US20010049700A1 (en) Information processing apparatus, information processing method and storage medium
JP2004334334A (ja) 文書検索装置、文書検索方法及び記憶媒体
JP2004348591A (ja) 文書検索方法及び装置
JPH11224258A (ja) 画像検索装置及びその方法、コンピュータ可読メモリ
JP2005182460A (ja) 情報処理装置、注釈処理方法、情報処理プログラムおよび情報処理プログラムを格納した記録媒体
JPH11250077A (ja) 情報処理装置、情報処理方法及び記録媒体
JP2004334341A (ja) 文書検索装置、文書検索方法及び記録媒体
JPH11272706A (ja) 検索装置
JP3500893B2 (ja) 情報処理装置および情報処理方法
JP4301879B2 (ja) 抄録作成支援システム及び特許文献検索システム
JPH11338887A (ja) 検索装置,検索方法およびプログラム記録媒体
JP2000200279A (ja) 情報検索装置
JP2005115457A (ja) 文書ファイル検索方法
JP3943005B2 (ja) 情報検索プログラム
JP3744136B2 (ja) 訳語選択装置と記憶媒体
JPH10312387A (ja) 情報処理装置及び方法並びに情報処理プログラムを記録した記録媒体
JP2008269086A (ja) 情報推薦装置及び情報推薦システム
JP3498635B2 (ja) 情報検索方法及びその装置並びにコンピュータ可読記録媒体
JP2008059317A (ja) 文書管理装置、方法、コンピュータプログラムおよびプログラムを記録した記録媒体
JPH10260975A (ja) 情報処理装置および情報処理方法
JPH11250070A (ja) 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体
JPH10124523A (ja) マルチメディアデータの案内検索方法及び装置
JPH11328200A (ja) 画像検索装置および方法ならびに情報記録媒体