JP3282937B2 - 情報検索方法及びシステム - Google Patents

情報検索方法及びシステム

Info

Publication number
JP3282937B2
JP3282937B2 JP00295595A JP295595A JP3282937B2 JP 3282937 B2 JP3282937 B2 JP 3282937B2 JP 00295595 A JP00295595 A JP 00295595A JP 295595 A JP295595 A JP 295595A JP 3282937 B2 JP3282937 B2 JP 3282937B2
Authority
JP
Japan
Prior art keywords
keyword
documents
document
search
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP00295595A
Other languages
English (en)
Other versions
JPH08190564A (ja
Inventor
浩 野美山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IBM Japan Ltd
Original Assignee
IBM Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IBM Japan Ltd filed Critical IBM Japan Ltd
Priority to JP00295595A priority Critical patent/JP3282937B2/ja
Priority to DE69627058T priority patent/DE69627058D1/de
Priority to EP96300178A priority patent/EP0722145B1/en
Priority to US08/584,826 priority patent/US5787421A/en
Publication of JPH08190564A publication Critical patent/JPH08190564A/ja
Application granted granted Critical
Publication of JP3282937B2 publication Critical patent/JP3282937B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99937Sorting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、新聞記事、特許公
報、あるいはイメージ情報などをコンピュータによって
検索可能に保持するデータベースの検索技法に関するも
のである。
【0002】
【従来の技術】従来より、新聞記事、特許公報などをコ
ンピュータによって検索可能に保持するデータベースが
一般的に使用されている。このようなシステムにおいて
は、オペレータによる検索を容易ならしめるために、デ
ータベースの個々の要素(新聞のデータベースにあって
は個々の記事、特許データベースにあっては、個々の特
許公報)毎に、複数のキーワードが付与される。
【0003】そうして、検索を行うためには、一般的に
は、フリー・キーワード方式と呼ばれる対話的な検索方
法が使用される。これによれば、ユーザーのキーワード
入力に従い順次検索結果を得ることができるので、熟練
したユーザーが、複数の検索式を用意して、所望の件数
が得られるまで順次絞り込みをかけていくには有利であ
る。そのような検索式は通常、複数の条件の論理演算
(AND、OR、NOTなど)を含むものである。しか
し、従来のこの種の方式は、どの条件が結果に対してど
れ程の影響を与えたかを、予測することを可能ならしめ
るものではない。いいかえれば、見つかった文献以外に
漏れはなかったことを確認するためには、検索で用いた
条件の各々について、それを付加した場合と、除去した
場合の結果の差をいちいち検証する必要があるが、実際
には、検索が少しでも複雑になると、論理式の組み合わ
せの場合の数が非常に多くなって、事実上このような方
法はとれなくなる。
【0004】さらに、多くの検索システムは、「ユーザ
ーは、探している情報およびその周辺分野には詳しい」
という想定のもとに設計されているため、適切なキーワ
ードを思い付くことができない専門外のユーザーをし
て、検索された多数の文献の中から、適切な数件の文献
に絞り込むことを可能ならしめることが困難である。そ
こで要望されるのは、検索しようとする分野に関する知
識が十分でなくても、ユーザーが、検索しようとする文
献全体の傾向を知ることができるようにするシステムで
ある。さらに要望されるのは、適切なキーワードを思い
付くことができない専門外のユーザーに対して、検索に
有効な一群のキーワードを提示し、以って専門外のユー
ザーでも、興味のある情報に辿りつけるようにナビゲー
トするシステムである。そのためには、キーワードの与
える情報量、あるいは話題性といったものを評価するこ
とが必要となるが、これに関して以下に示す刊行物に記
載されているような技法が知られている。
【0005】特開昭63−238622号公報は、キー
ワードの指定により情報検索を行う方式において、キー
ワードに対応して予め関連付けられた関連キーワードを
記憶する手段を設け、キーワードの指定により、前記キ
ーワードを記憶する手段から関連キーワードを読み出
し、その関連キーワードを用いて情報検索を行うことを
開示する。
【0006】特開平2−1057号公報は、登録文書か
らキーワードを抽出する手段と、登録文書とキーワード
との関連を示すインバーテッドファイルを作成するイン
バーテッドファイル作成手段を設け、さらに、キーワー
ド間の関連情報を記述したキーワードコネクション表を
作成し、入力したキーワードから、インバーテッドファ
イルとキーワードコネクション表を用いて検索条件に合
致する文書を選出することを開示する。
【0007】特開平3−65763号公報は、検索文に
含まれるキーワードを抽出するキーワード抽出手段と、
抽出されたキーワードと検索対象文に含まれるキーワー
ドの関連の強さを考慮して検索対象文を検索する検索手
段を有する検索装置を開示する。
【0008】特開平5−35798号公報は、現在表示
されているデータと関連のあるデータを検索する際に、
表示されているデータが有する全てのキーワードの論理
和に基づいてデータベースの検索を行い、複数の候補が
見出されたときは、これら検索されたデータの有する見
出しが、検索に用いられたキーワードの要素に含まれる
か否かを判定し、見出しが検索に用いられたキーワード
の要素に含まれているデータを優先的に表示することを
開示する。
【0009】しかし、上記従来技術では、検索によって
得られた文書の群が包括的にどのようなキーワードによ
って特徴付けられるのかを一覧することを可能ならしめ
るような技法は開示されない。
【0010】また、人が独力で、全く専門外であるかま
たは馴染みの薄い分野について理解を深めていくための
1つの有効な方法として、その分野の基本的な入門書ま
たは啓蒙書を読んだ後、その入門書または啓蒙書の末尾
に記載されている参考文献または、引用文献を入手しそ
れに目を通した後、さらにその参考文献または、引用文
献で引用されている文献を参照する、ということを繰り
返して行く方法が知られている。
【0011】これと類似の技法を、コンピュータの処理
によって、複数の文書からなるデータベースで実現でき
れば、特に馴染みのない分野の文書を検索しようとする
ユーザーに十分な恩恵を与えると思われるが、上記従来
技術では、キーワードに従い検索対象を絞りこんで行く
技法は与えられるものの、1つの文書から別の文書へと
それらの関連性に基づきナビゲートしていくための動的
な技法は全く示唆されない。
【0012】
【発明が解決しようとする課題】この発明の目的は、文
書データベースにおいて、現在絞り込まれている文書集
合がどのような性質をもつかを自動的に示すための方法
及びシステムを提供することにある。
【0013】この発明の他の目的は、文書データベース
の内容について詳細な知識をもたないユーザーに対し
て、さらに絞り込みを行うために有効なキーワードを自
動的に提示するための方法及びシステムを提供すること
にある。
【0014】
【課題を解決するための手段】本発明のシステムは先
ず、ユーザーの検索処理に応答して絞り込まれた文書集
合に付与されたキーワード集合において、そのキーワー
ドが付与されている文書の数を求め、その頻度順に表示
する、という処理を行う。
【0015】この情報に基づきユーザーは、絞り込まれ
た文書集合がどのような性質をもつかという観点におい
て何らかのヒントを得ることができる。
【0016】次にユーザーは、文書集合のうちで、興味
のあるものを指定する(複数可)。
【0017】これに応答してシステムは、ユーザーによ
って指定された文書に付与されたキーワードの中で、そ
の文書以外のものを検索できるキーワードを表示する。
これは、現在絞り込まれた文書集合に付与されているキ
ーワード集合の中から、指定された文書に付与されたキ
ーワード集合の要素であるものを求めることによって行
われる。但し、その際、以下の条件を満たすキーワード
は除外する。
【0018】(1) そのキーワードが、指定された文書
以外の文書に付与されていない。 (2) 現在の文書集合の全ての文書に付与されている。
【0019】システムは、こうして求められたキーワー
ドをその頻度順に表示する。この情報によってユーザー
は、指定した文書に類似する文書を得るためにどのよう
なキーワードを指定すればよいかが分かる。
【0020】次にユーザーは、このようなキーワードを
使用してさらに絞り込みをかけることによって、そのユ
ーザーによってより興味深い文書の集合を得ることがで
きる。
【0021】
【実施例】以下、図面を参照して本発明の実施例を説明
する。
【0022】A.ハードウェア構成 図1を参照すると、本発明を実施するためのシステム構
成の概観図が示されている。これは、バス101に、演
算及び入出力制御機能をもつ中央処理装置(CPU)1
02、プログラムをロードし、また、CPU102のた
めの作業領域を与える主記憶(RAM)104、コマン
ドや文字列などをキー入力するためのキーボード106
と、中央処理装置を制御するためのオペレーティング・
システム、データベース・ファイル、検索エンジン、索
引ファイルなどを格納したハードディスク108と、デ
ータベースの検索結果を表示するためのディスプレイ装
置110と、ディスプレイ装置110の画面上の任意の
位置をポイントしてその位置情報を中央処理装置に伝え
るためのマウス112を接続した通常の構成である。
【0023】オペレーティング・システムとしては、W
indows(マイクロソフトの商標)、OS/2(I
BMの商標)、AIX(IBMの商標)上のX−WIN
DOWシステム(MITの商標)などの、標準でGUI
マルチウインドウ環境をサポートするものが望ましい
が、本発明は、PC−DOS、MS−DOS(マイクロ
ソフトの登録商標)などのキャラクタ・ベース環境でも
実現可能であり、特定のオペレーティング・システム環
境に限定されるものではない。
【0024】また、図1は、スタンド・アロン環境のシ
ステムを示しているが、一般的に、データベース・ファ
イルは大容量のディスク装置を要するものであるので、
クライアント/サーバ・システムとして本発明を実現
し、サーバ・マシンにデータベース・ファイルと検索エ
ンジンを配置し、クライアント・マシンは、サーバ・マ
シンに対して、イーサネット、トークン・リングなどで
LAN接続し、クライアント・マシン側には、検索結果
を見るための表示制御部のみを配置するようにしてもよ
い。
【0025】B.システム構成 次に、図2のブロック図を参照して、本発明のシステム
構成について説明する。尚、図2で個別のブロックで示
されている要素は、図1のハードディスク108に、個
別にまたは集合的に、データ・ファイルまたはプログラ
ム・ファイルとして格納されているものであることに留
意されたい。
【0026】図2において、文書データベース202
は、新聞記事、特許公報などの文書を複数含むものであ
って、好適には、個々の文書には、一意的なIDが関連
付けられている。
【0027】キーワード対IDインデックス204は、
文書データベース202中の個々の文書から抽出された
各々のキーワードに対して、それが含まれている文書の
1つ以上のIDを関連付けて記憶するファイルである。
【0028】ID対キーワード・インデックス206
は、文書データベース202中の個々の文書の個々のI
D毎に、そのIDに対応する文書から抽出された1つ以
上のキーワードを関連付けて記憶するファイルである。
【0029】キーワード検索エンジン208は、ユーザ
ー入力・表示モジュール210から入力された単一のキ
ーワード、または複数のキーワードを論理記号で結合し
たものからなる検索式に基づき、キーワード対IDイン
デックス204を検索し、該当する文書のIDを以って
文書データベース202のコンテンツにアクセスし、該
当する文書のタイトルや内容などを返すものである。
【0030】ユーザー入力・表示モジュール210は、
キーボード106などを介して、検索すべきキーワード
や、その他のコマンドをキーワード検索エンジン208
に与え、キーワード検索エンジン208から返された文
書のタイトルや内容などを、ディスプレイ110に表示
する処理を行う。
【0031】キーワード収集およびソート・モジュール
212は、キーワード検索エンジン208によって検索
された文書に含まれていたキーワード及び、各々のキー
ワードを含む文書の件数のデータを収集し、それを文書
の件数を基に降順にソートし、そのデータをユーザー入
力・表示モジュール210に提供してディスプレイ11
0に表示させる機能を行う。
【0032】類似文書検索モジュール214は、キーワ
ード検索エンジン208によって検索されディスプレイ
110に表示された文書のリストから、ユーザーが1つ
以上の文書を選択したことに応答して、選択された文書
から抽出されたキーワードのうち、(1) キーワード
が、選択された文書以外の文書に付与されていない、ま
たは、(2) 現在の文書集合の全ての文書に付与されて
いる、というどちらかの条件を満たす場合にそのキーワ
ードを除外し、残ったキーワードのうち、使用頻度の高
いものを検索キーワードとして、検索を行う、という処
理を行う。
【0033】C.文書検索処理 C1.第1の実施例 図3を参照して、本発明の第1の実施例のシステムの処
理の流れを説明する。
【0034】図3のステップ302では先ず、ユーザー
によるキーワード入力が、図2のユーザー入力・表示モ
ジュール210及びキーボード106によって行われ
る。このキーワードは、単一のキーワードであってもよ
いし、ANDやORでキーワードを連結した検索式であ
ってもよい。
【0035】ステップ304で、こうして入力されたキ
ーワードまたは検索式は、キーワード検索エンジン20
8に渡され、これによって、キーワード検索エンジン2
08は、キーワード対IDインデックス204を検索
し、そのキーワードまたは検索式に該当する文書のID
の集合を返す。
【0036】ステップ306では、ステップ304で得
られた文書のIDの集合に基づき、キーワード検索の結
果(検索数、タイトルなど)が、ユーザー入力・表示モ
ジュール210によって、好適にはディスプレイ110
における個別のウインドウに表示される。
【0037】ステップ308では、得られた文書集合の
中の個々の文書に対して付与された、指定されたカテゴ
リの全キーワードが求められ、さらに、ステップ306
で得られた文書の集合に対して、個々のキーワードが何
回付与されているかがカウントされる。なおカテゴリと
は、例えば人名、地名、会社名、あるいは、道具をあら
わす単語、活動をあらわす単語などを意味しており、簡
潔に言えば、抽出されたキーワードの分類のことであ
る。本発明ではカテゴリに分けてキーワードを管理して
いる。
【0038】尚、個々の文書には予めキーワードが付与
されていない場合、検索された後で絞られた文書集合の
個々の文書からキーワードを自動的に抽出するようにし
てもよい。
【0039】ステップ310では、モジュール212に
よって、ステップ308で得られたキーワードがそのカ
ウント値に基づき好適には降順にソートされ、やはり、
ユーザー入力・表示モジュール210によって、ディス
プレイ110における個別のウインドウに表示される。
【0040】このような降順にソートされたキーワード
のリストを眺めることによってユーザーは、ステップ3
06で絞りこまれた文書の集合がどのような性質をもつ
ものであるかを知ることができ、また、リストされたキ
ーワードを使用して、ステップ306で絞りこまれた文
書の集合に対してさらに絞り込みをかけることもでき
る。
【0041】さらに、降順にソートされたキーワードの
リストの先頭のキーワードを以って、システムは、現在
の文書の集合に対して自動的に絞り込みをかけるように
してもよい。
【0042】C2.第2の実施例 次に図4を参照して、本発明の第2の実施例のシステム
の処理の流れを説明する。
【0043】図4のステップ402では先ず、ユーザー
によるキーワード入力が、図2のユーザー入力・表示モ
ジュール210及びキーボード106によって行われ
る。ここでも、このキーワードは、単一のキーワードで
あってもよいし、ANDやORでキーワードを連結した
検索式であってもよい。
【0044】ステップ404で、こうして入力されたキ
ーワードまたは検索式は、キーワード検索エンジン20
8に渡され、これによって、キーワード検索エンジン2
08は、キーワード対IDインデックス204を検索
し、そのキーワードまたは検索式に該当する文書のID
の集合を返す。
【0045】尚、個々の文書に予めキーワードが付与さ
れていない場合、検索された後で絞られた文書集合の個
々の文書からキーワードを自動的に抽出するようにして
もよい。
【0046】ステップ406では、ステップ404で得
られた文書のIDの集合に基づき、キーワード検索の結
果(検索数、タイトルなど)が、ユーザー入力・表示モ
ジュール210によって、好適にはディスプレイ110
における個別のウインドウに表示される。
【0047】ステップ408では、ステップ406の結
果個別のウインドウに表示された検索結果のリストのタ
イトルを眺めることによって、ユーザーが1つまたは複
数の、興味がありそうな文書を選択する。これは、例え
ば、そのタイトル表示の行をマウス112でクリックす
ることによって行われる。クリックされたタイトル表示
の行は反転表示されて、選択されていることが分かる。
【0048】ステップ410では、得られた文書集合の
中の個々の文書に対して付与された、指定されたカテゴ
リの全キーワードが求められ、さらに、ステップ404
で得られた文書の集合に対して、個々のキーワードが何
回付与されているかがカウントされる。
【0049】ステップ412では、類似文書検索モジュ
ール214によって、ステップ404で得られたキーワ
ード集合の中から、指定された文書に付与されたキーワ
ードに含まれるもので、以下の条件を満たさないものの
中から最も頻度の高いものを選択する、という処理が行
われる。
【0050】(1) そのキーワードが、指定された文書以
外の文書に指定されていない
【0051】(2) そのキーワードが、現在の文書集合の
すべての文書に付与されている
【0052】ステップ414では、得られたキーワード
を検索キーワードとして現在の文書集合を検索する、と
いう処理が行われる。
【0053】尚、ステップ414で、得られたキーワー
ドを検索キーワードとして現在の文書集合を検索する代
わりに、上記(1)及び(2)の条件を満たすキーワードを頻
度とともに、好適には頻度の降順にリストし、所望のキ
ーワードをユーザーに選ばせるようにしてもよい。
【0054】D.ナビゲーション処理の具体例 特定期間の新聞記事を集めたデータベースにおいて、上
記実施例のシステムを用いて検索及びナビゲーションを
行った例について以下説明を行う。
【0055】先ず、「事故」というキーワードで検索を
行ったところ、ヒット件数は109件であった。そし
て、この検索処理に応答して、図3のフローチャートで
示した処理により、「記事サブカテゴリ表示」と題する
ウインドウが開かれ、そこには、以下に示すような、検
索された文書集合が含むキーワードを頻度順に並べたリ
ストが表示される。
【0056】
【表1】ニュートラム 32 原因 29 暴走 27 暴走事故 27 システム 23 死亡 22 交通システム 21 再開 20 事故原因 17 安全 16 運行再開 16 ・・・・・・
【0057】また、これと同時に、検索された109件
の記事の日付とタイトルが、以下に示すように、別のウ
インドウに表示される。
【0058】
【表2】931101 チェルノブイリの原発事故以来、旧ソ
連製の原子炉の実態が徐々に 931101 暴走事故の原因か、ニュートラムリレーに異常 931101 ニュートラム暴走事故、リレー装置に異常、3
両目の継電器 931101 東名高速、トラックとバス全焼−−積載塗料な
どから出火 931102 なべが原因のヤケド絶えず−−取っ手の具合に
注意 ・・・・・・・・・・・・・・・・・・・
【0059】この日付とタイトルを示すウインドウで、
例えばユーザーがマウスをクリックすることによって、
「チェルノブイリの原発事故以来・・・」というタイト
ルの記事を選択すると、その行が反転表示される。この
とき、同様の操作によって複数の記事を選択することも
可能である。
【0060】そうして、画面上の「類似文書」と題する
ボタンをクリックすることによってユーザーが類似文書
選択の操作を行うと、図4のフローチャートに示した処
理によって、選択された記事に対して、
【0061】(1) そのキーワードが、指定された記事以
外の記事に指定されていない
【0062】(2) そのキーワードが、現在の検索された
記事の集合のすべての記事に付与されている
【0063】というどちらの条件をも満たさないキーワ
ードのうちで、最も頻度の高いものがシステムによって
選択される。この例では、そのようなキーワードは、
「安全」であり、現在の検索された記事の集合におい
て、システムは、「安全」というキーワードで自動的に
検索を行い、この例では16件の記事のヒットが得られ
た。
【0064】ユーザーは、この16件のタイトルまたは
内容を見ることによって、上記選択された「チェルノブ
イリの原発事故以来・・・」と関連する記事へとナビゲ
ートされることになり、これによって、興味をもった記
事の理解を深めることができる。
【0065】
【発明の効果】以上説明したように、この発明によれ
ば、ユーザーは、絞り込まれた文書集合がどのような性
質をもつものかを、システムによって自動的に作成され
たキーワードのリストによって一覧できるとともに、ユ
ーザーが選択した文書に対して関連をもつ別の文書へと
自動的にナビゲートされ、ユーザーは、特定の予備知識
をもつことなく関連文書を順次眺めることが可能とな
る。
【0066】また、キーワードを選ぶのではなく文書を
選ぶことによって、検索を進めることが可能となる。
【図面の簡単な説明】
【図1】 本発明のハードウェア構成のブロック図であ
る。
【図2】 本発明のシステム構成のブロック図である。
【図3】 本発明の第1の実施例の処理のフローチャー
トを示す図である。
【図4】 本発明の第2の実施例の処理のフローチャー
トを示す図である。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平1−72231(JP,A) 特開 平5−81327(JP,A) 特開 昭61−243531(JP,A) 特開 平2−245971(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 17/30

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】複数の文書を記録した文書データベース及
    び、前記複数の文書のIDと該IDに対応する前記複数
    の文書から抽出されたキーワードを関連付けて記憶する
    ID対キーワード・インデックスを用いて所望の文書を
    コンピュータの処理により検索する情報検索システムで
    あって、 (A)ユーザからキーワード又は検索式の入力を受け取
    る入力手段と、 (B)前記入力手段により入力された検索キーワード又
    は検索式に該当する文書集合を前記文書データベース全
    体から検索するキーワード検索手段と、 (C)前記キーワード検索手段の検索結果の文書集合を
    表示し、ユーザから1つ以上の文書を選択する入力を受
    け取る選択手段と、 (D)前記文書集合に含まれる複数の文書のIDと前記
    ID対キーワード・インデックスを用いて、前記文書集
    合に含まれる文書に付与されているキーワードの全てに
    ついて各キーワードが何回付与されているかを計算する
    計算手段と、 (E)前記計算手段の結果により、前記選択手段により
    選択された文書から抽出されたキーワードのうち、
    (1)前記選択手段により選択された文書以外の文書に
    付与されていないキーワードと(2)前記文書集合の全
    ての文書に付与されているキーワードを除いて、前記文
    書集合に含まれる文書に付与されている最も頻度の高い
    キーワードを決定し、前記最も頻度の高いキーワードを
    検索キーワードとして、類似文書を前記文書集合から検
    索する類似文書検索手段、 とを有する情報検索システム。
  2. 【請求項2】複数の文書を記録した文書データベース及
    び、前記複数の文書のIDと該IDに対応する前記複数
    の文書から抽出されたキーワードを関連付けて記憶する
    ID対キーワード・インデックスを用いて所望の文書を
    コンピュータの処理により検索する情報検索方法であっ
    て、 (A)ユーザからキーワード又は検索式の入力を受け取
    るステップと、 (B)前記(A)のステップにより入力された検索キー
    ワード又は検索式に該当する文書集合を前記文書データ
    ベース全体から検索するステップと、 (C)前記(B)のステップの検索結果の文書集合を表
    示し、ユーザから1つ以上の文書を選択する入力を受け
    取るステップと、 (D)前記文書集合に含まれる複数の文書のIDと前記
    ID対キーワード・インデックスを用いて、前記文書集
    合に含まれる文書に付与されているキーワードの全てに
    ついて各キーワードが何回付与されているかを計算する
    ステップと、 (E)前記(D)のステップの計算結果により、前記
    (C)のステップにより選択された文書から抽出された
    キーワードのうち、(1)選択された文書以外の文書に
    付与されていないキーワードと(2)前記文書集合の全
    ての文書に付与されているキーワードを除いて、前記文
    書集合に含まれる文書に付与されている最も頻度の高い
    キーワードを決定し、前記最も頻度の高いキーワードを
    検索キーワードとして、類似文書を前記文書集合から検
    索するステップ、 とを有する情報検索方法。
JP00295595A 1995-01-12 1995-01-12 情報検索方法及びシステム Expired - Fee Related JP3282937B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP00295595A JP3282937B2 (ja) 1995-01-12 1995-01-12 情報検索方法及びシステム
DE69627058T DE69627058D1 (de) 1995-01-12 1996-01-10 Informationswiederauffindungssystem und Durchführungsverfahren
EP96300178A EP0722145B1 (en) 1995-01-12 1996-01-10 Information retrieval system and method of operation
US08/584,826 US5787421A (en) 1995-01-12 1996-01-11 System and method for information retrieval by using keywords associated with a given set of data elements and the frequency of each keyword as determined by the number of data elements attached to each keyword

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP00295595A JP3282937B2 (ja) 1995-01-12 1995-01-12 情報検索方法及びシステム

Publications (2)

Publication Number Publication Date
JPH08190564A JPH08190564A (ja) 1996-07-23
JP3282937B2 true JP3282937B2 (ja) 2002-05-20

Family

ID=11543799

Family Applications (1)

Application Number Title Priority Date Filing Date
JP00295595A Expired - Fee Related JP3282937B2 (ja) 1995-01-12 1995-01-12 情報検索方法及びシステム

Country Status (4)

Country Link
US (1) US5787421A (ja)
EP (1) EP0722145B1 (ja)
JP (1) JP3282937B2 (ja)
DE (1) DE69627058D1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10510121B2 (en) 2013-08-16 2019-12-17 United Stated Automobile Association (USAA) System and method for performing dwelling maintenance analytics on insured property
US10552911B1 (en) 2014-01-10 2020-02-04 United Services Automobile Association (Usaa) Determining status of building modifications using informatics sensor data
US10614525B1 (en) 2014-03-05 2020-04-07 United Services Automobile Association (Usaa) Utilizing credit and informatic data for insurance underwriting purposes
US10713726B1 (en) 2013-01-13 2020-07-14 United Services Automobile Association (Usaa) Determining insurance policy modifications using informatic sensor data
US11087404B1 (en) 2014-01-10 2021-08-10 United Services Automobile Association (Usaa) Electronic sensor management
US11416941B1 (en) 2014-01-10 2022-08-16 United Services Automobile Association (Usaa) Electronic sensor management
US11847666B1 (en) 2014-02-24 2023-12-19 United Services Automobile Association (Usaa) Determining status of building modifications using informatics sensor data

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5913208A (en) * 1996-07-09 1999-06-15 International Business Machines Corporation Identifying duplicate documents from search results without comparing document content
US5978800A (en) * 1997-03-14 1999-11-02 Dainippon Screen Mfg. Co., Ltd. Method of searching data for a given character string
US5956687A (en) * 1997-04-04 1999-09-21 Wamsley; Vaughn A. Personal injury claim management system
US6167397A (en) * 1997-09-23 2000-12-26 At&T Corporation Method of clustering electronic documents in response to a search query
US5995978A (en) * 1997-09-24 1999-11-30 Ricoh Company, Ltd. Navigation system for document image database
US6094657A (en) * 1997-10-01 2000-07-25 International Business Machines Corporation Apparatus and method for dynamic meta-tagging of compound documents
US5987457A (en) * 1997-11-25 1999-11-16 Acceleration Software International Corporation Query refinement method for searching documents
US6094649A (en) * 1997-12-22 2000-07-25 Partnet, Inc. Keyword searches of structured databases
JPH11195025A (ja) * 1997-12-26 1999-07-21 Casio Comput Co Ltd ドキュメントデータのリンク付け装置、リンク先アドレスの表示/アクセス装置、及びリンク付けされたドキュメントデータの配付装置
JP3648051B2 (ja) * 1998-02-02 2005-05-18 富士通株式会社 関連情報検索装置及びプログラム記録媒体
DE69910466T2 (de) * 1998-02-20 2004-06-24 Hewlett-Packard Co. (N.D.Ges.D.Staates Delaware), Palo Alto Verfahren zum Verfeinern von Deskriptoren
US6101503A (en) * 1998-03-02 2000-08-08 International Business Machines Corp. Active markup--a system and method for navigating through text collections
JP3264252B2 (ja) * 1998-08-19 2002-03-11 日本電気株式会社 文書処理装置及び処理方法並びに制御プログラムを記録した記録媒体
JP2000067081A (ja) 1998-08-24 2000-03-03 Matsushita Electric Ind Co Ltd 文書検索方法、そのプログラムを記録した記録媒体、及び文書検索装置
US7447626B2 (en) * 1998-09-28 2008-11-04 Udico Holdings Method and apparatus for generating a language independent document abstract
CA2372867A1 (en) 1999-05-07 2000-11-16 Carlos Cardona System and method for database retrieval, indexing and statistical analysis
US6510427B1 (en) 1999-07-19 2003-01-21 Ameritech Corporation Customer feedback acquisition and processing system
US7158986B1 (en) * 1999-07-27 2007-01-02 Mailfrontier, Inc. A Wholly Owned Subsidiary Of Sonicwall, Inc. Method and system providing user with personalized recommendations by electronic-mail based upon the determined interests of the user pertain to the theme and concepts of the categorized document
US6519586B2 (en) * 1999-08-06 2003-02-11 Compaq Computer Corporation Method and apparatus for automatic construction of faceted terminological feedback for document retrieval
KR100346262B1 (ko) * 1999-08-27 2002-07-26 엘지전자주식회사 멀티미디어 데이타의 키워드 자가 생성방법
US6862586B1 (en) * 2000-02-11 2005-03-01 International Business Machines Corporation Searching databases that identifying group documents forming high-dimensional torus geometric k-means clustering, ranking, summarizing based on vector triplets
US6876997B1 (en) 2000-05-22 2005-04-05 Overture Services, Inc. Method and apparatus for indentifying related searches in a database search system
JP2002073682A (ja) * 2000-08-24 2002-03-12 Nec Corp 情報検索サービス装置及びその方法、インターネット対応の利用者端末装置及びその使用方法
US7233942B2 (en) * 2000-10-10 2007-06-19 Truelocal Inc. Method and apparatus for providing geographically authenticated electronic documents
US6684205B1 (en) * 2000-10-18 2004-01-27 International Business Machines Corporation Clustering hypertext with applications to web searching
DE10057634C2 (de) * 2000-11-21 2003-01-30 Bosch Gmbh Robert Verfahren zur Verarbeitung von Text in einer Rechnereinheit und Rechnereinheit
US6845374B1 (en) * 2000-11-27 2005-01-18 Mailfrontier, Inc System and method for adaptive text recommendation
US7685224B2 (en) * 2001-01-11 2010-03-23 Truelocal Inc. Method for providing an attribute bounded network of computers
DE10152168A1 (de) * 2001-10-23 2003-04-30 Markus Breitenbach Automatische und sich dynamisch anpassende Verschlagwortung von natürlichesprachigem Text und Anwendung derselben
JP2003242176A (ja) * 2001-12-13 2003-08-29 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム
US7203654B2 (en) * 2003-01-04 2007-04-10 Dale Menendez Method of expediting insurance claims
US20050149507A1 (en) * 2003-02-05 2005-07-07 Nye Timothy G. Systems and methods for identifying an internet resource address
US6947930B2 (en) * 2003-03-21 2005-09-20 Overture Services, Inc. Systems and methods for interactive search query refinement
JP2004326216A (ja) * 2003-04-22 2004-11-18 Ricoh Co Ltd 文書検索装置、方法、プログラム、及び記録媒体
US7613687B2 (en) * 2003-05-30 2009-11-03 Truelocal Inc. Systems and methods for enhancing web-based searching
JP2005354134A (ja) * 2004-06-08 2005-12-22 Sony Corp 画像管理方法および装置、記録媒体、並びにプログラム
US20060074980A1 (en) * 2004-09-29 2006-04-06 Sarkar Pte. Ltd. System for semantically disambiguating text information
US7792884B2 (en) * 2005-05-26 2010-09-07 Itelehealth, Inc. System and method for conducting tailored search
US20070011169A1 (en) * 2005-07-05 2007-01-11 Xerox Corporation Method and system for collecting data from diverse sources and transforming the collected data into a user-friendly format
US8688673B2 (en) * 2005-09-27 2014-04-01 Sarkar Pte Ltd System for communication and collaboration
US7640234B2 (en) * 2006-02-09 2009-12-29 Ebay Inc. Methods and systems to communicate information
US7849047B2 (en) * 2006-02-09 2010-12-07 Ebay Inc. Method and system to analyze domain rules based on domain coverage of the domain rules
US7725417B2 (en) * 2006-02-09 2010-05-25 Ebay Inc. Method and system to analyze rules based on popular query coverage
US7739225B2 (en) 2006-02-09 2010-06-15 Ebay Inc. Method and system to analyze aspect rules based on domain coverage of an aspect-value pair
US7739226B2 (en) * 2006-02-09 2010-06-15 Ebay Inc. Method and system to analyze aspect rules based on domain coverage of the aspect rules
US9443333B2 (en) * 2006-02-09 2016-09-13 Ebay Inc. Methods and systems to communicate information
US8380698B2 (en) * 2006-02-09 2013-02-19 Ebay Inc. Methods and systems to generate rules to identify data items
JP2007257369A (ja) * 2006-03-23 2007-10-04 Fujitsu Ltd 情報検索装置
US7996393B1 (en) * 2006-09-29 2011-08-09 Google Inc. Keywords associated with document categories
US7496568B2 (en) * 2006-11-30 2009-02-24 International Business Machines Corporation Efficient multifaceted search in information retrieval systems
US20080277314A1 (en) * 2007-05-08 2008-11-13 Halsey Richard B Olefin production utilizing whole crude oil/condensate feedstock and hydrotreating
KR101578737B1 (ko) * 2009-07-15 2015-12-21 엘지전자 주식회사 이동 단말기의 음성 처리 장치 및 그 방법
JP6520052B2 (ja) * 2014-11-06 2019-05-29 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4817036A (en) * 1985-03-15 1989-03-28 Brigham Young University Computer system and method for data base indexing and information retrieval
US4967341A (en) * 1986-02-14 1990-10-30 Hitachi, Ltd. Method and apparatus for processing data base
US4972349A (en) * 1986-12-04 1990-11-20 Kleinberger Paul J Information retrieval system and method
JPS63238622A (ja) * 1987-03-26 1988-10-04 Nec Corp 関連検索方式
JPS641030A (en) * 1987-06-24 1989-01-05 Canon Inc File retrieval system
JPH021057A (ja) * 1988-01-20 1990-01-05 Ricoh Co Ltd 文書検索装置
US4958284A (en) * 1988-12-06 1990-09-18 Npd Group, Inc. Open ended question analysis system and method
JPH02245971A (ja) * 1989-03-20 1990-10-01 Nippon Telegr & Teleph Corp <Ntt> 情報検索処理方法及び装置
US5020019A (en) * 1989-05-29 1991-05-28 Ricoh Company, Ltd. Document retrieval system
JPH0675265B2 (ja) * 1989-09-20 1994-09-21 インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン 情報検索方法及びシステム
JPH03122770A (ja) * 1989-10-05 1991-05-24 Ricoh Co Ltd キーワード連想文書検索方法
US5404514A (en) * 1989-12-26 1995-04-04 Kageneck; Karl-Erbo G. Method of indexing and retrieval of electronically-stored documents
US5321833A (en) * 1990-08-29 1994-06-14 Gte Laboratories Incorporated Adaptive ranking system for information retrieval
JPH0581327A (ja) * 1991-09-19 1993-04-02 Fujitsu Ltd 情報検索支援処理装置
US5375235A (en) * 1991-11-05 1994-12-20 Northern Telecom Limited Method of indexing keywords for searching in a database recorded on an information recording medium
US5598557A (en) * 1992-09-22 1997-01-28 Caere Corporation Apparatus and method for retrieving and grouping images representing text files based on the relevance of key words extracted from a selected file to the text files
JPH06215036A (ja) * 1992-12-10 1994-08-05 Xerox Corp ドキュメントコレクションの探索方法
JP3220885B2 (ja) * 1993-06-18 2001-10-22 株式会社日立製作所 キーワード付与システム
US5523945A (en) * 1993-09-17 1996-06-04 Nec Corporation Related information presentation method in document processing system

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10713726B1 (en) 2013-01-13 2020-07-14 United Services Automobile Association (Usaa) Determining insurance policy modifications using informatic sensor data
US10510121B2 (en) 2013-08-16 2019-12-17 United Stated Automobile Association (USAA) System and method for performing dwelling maintenance analytics on insured property
US11120506B1 (en) 2014-01-10 2021-09-14 United Services Automobile Association (Usaa) Streamlined property insurance application and renewal process
US10740847B1 (en) 2014-01-10 2020-08-11 United Services Automobile Association (Usaa) Method and system for making rapid insurance policy decisions
US11151657B1 (en) 2014-01-10 2021-10-19 United Services Automobile Association (Usaa) Insurance policy modification based on secondary informatics
US11966939B1 (en) 2014-01-10 2024-04-23 United Services Automobile Association (Usaa) Determining appliance insurance coverage/products using informatic sensor data
US11164257B1 (en) 2014-01-10 2021-11-02 United Services Automobile Association (Usaa) Streamlined property insurance application and renewal process
US10783588B1 (en) 2014-01-10 2020-09-22 United Services Automobile Association (Usaa) Identifying and recommending insurance policy products/services using informatic sensor data
US10977736B1 (en) 2014-01-10 2021-04-13 United Services Automobile Association (Usaa) Determining risks related to activities on insured properties using informatic sensor data
US11227339B1 (en) 2014-01-10 2022-01-18 United Services Automobile Association (Usaa) Systems and methods for utilizing imaging informatics
US11087404B1 (en) 2014-01-10 2021-08-10 United Services Automobile Association (Usaa) Electronic sensor management
US11113765B1 (en) 2014-01-10 2021-09-07 United Services Automobile Association (Usaa) Determining appliance insurance coverage/products using informatic sensor data
US10552911B1 (en) 2014-01-10 2020-02-04 United Services Automobile Association (Usaa) Determining status of building modifications using informatics sensor data
US11138672B1 (en) 2014-01-10 2021-10-05 United Services Automobile Association (Usaa) Determining and initiating insurance claim events
US10699348B1 (en) 2014-01-10 2020-06-30 United Services Automobile Association (Usaa) Utilizing credit and informatic data for insurance underwriting purposes
US10679296B1 (en) 2014-01-10 2020-06-09 United Services Automobile Association (Usaa) Systems and methods for determining insurance coverage based on informatics
US11068992B1 (en) 2014-01-10 2021-07-20 United Services Automobile Association (Usaa) Insurance policy modifications using informatic sensor data
US11416941B1 (en) 2014-01-10 2022-08-16 United Services Automobile Association (Usaa) Electronic sensor management
US11423429B1 (en) 2014-01-10 2022-08-23 United Services Automobile Association (Usaa) Determining status of building modifications using informatics sensor data
US11461850B1 (en) 2014-01-10 2022-10-04 United Services Automobile Association (Usaa) Determining insurance policy modifications using informatic sensor data
US11526949B1 (en) 2014-01-10 2022-12-13 United Services Automobile Association (Usaa) Determining risks related to activities on insured properties using informatic sensor data
US11526948B1 (en) 2014-01-10 2022-12-13 United Services Automobile Association (Usaa) Identifying and recommending insurance policy products/services using informatic sensor data
US11532004B1 (en) 2014-01-10 2022-12-20 United Services Automobile Association (Usaa) Utilizing credit and informatic data for insurance underwriting purposes
US11532006B1 (en) 2014-01-10 2022-12-20 United Services Automobile Association (Usaa) Determining and initiating insurance claim events
US11941702B1 (en) 2014-01-10 2024-03-26 United Services Automobile Association (Usaa) Systems and methods for utilizing imaging informatics
US11847666B1 (en) 2014-02-24 2023-12-19 United Services Automobile Association (Usaa) Determining status of building modifications using informatics sensor data
US10614525B1 (en) 2014-03-05 2020-04-07 United Services Automobile Association (Usaa) Utilizing credit and informatic data for insurance underwriting purposes

Also Published As

Publication number Publication date
US5787421A (en) 1998-07-28
EP0722145B1 (en) 2003-04-02
DE69627058D1 (de) 2003-05-08
JPH08190564A (ja) 1996-07-23
EP0722145A1 (en) 1996-07-17

Similar Documents

Publication Publication Date Title
JP3282937B2 (ja) 情報検索方法及びシステム
EP2315135B1 (en) Document search system
JP2729356B2 (ja) 情報検索システム及び方法
US7958153B2 (en) Systems and methods for employing an orthogonal corpus for document indexing
JP2777698B2 (ja) 情報検索システム及び方法
US5794233A (en) Browse by prompted keyword phrases
US7783644B1 (en) Query-independent entity importance in books
US5721897A (en) Browse by prompted keyword phrases with an improved user interface
US6026409A (en) System and method for search and retrieval of digital information by making and scaled viewing
US5819259A (en) Searching media and text information and categorizing the same employing expert system apparatus and methods
US20090303238A1 (en) Identifying on a graphical depiction candidate points and top-moving queries
CA2895511A1 (en) Systems and methods for patent-related document analysis and searching
JP4084647B2 (ja) 情報検索システム、情報検索方法及び情報検索プログラム
JP4225757B2 (ja) 検索支援装置、検索支援方法、プログラムおよび記録媒体
US20100211562A1 (en) Multi-part record searches
JPH0934911A (ja) 情報検索装置
JP2004342016A (ja) 情報探索プログラム及び情報探索プログラムを記録した媒体
JP2000163439A (ja) 電子ファイル検索装置および電子ファイル検索方法
JP2002140356A (ja) データベース・システムおよびデータベース検索方法
JPH08305726A (ja) 情報検索装置
JPH08314974A (ja) キーワード自動抽出装置および文書検索装置
JP2002215660A (ja) 検索システム及びこれに用いられるソフトウェア
WO2000062198A2 (en) Systems and methods for employing an orthogonal corpus for document indexing
JPH0535798A (ja) データベース検索装置
JPH11134363A (ja) 特許情報処理方法及び特許情報処理システム

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees