JPH1074210A - 文献検索支援方法及び装置およびこれを用いた文献検索サービス - Google Patents

文献検索支援方法及び装置およびこれを用いた文献検索サービス

Info

Publication number
JPH1074210A
JPH1074210A JP9178500A JP17850097A JPH1074210A JP H1074210 A JPH1074210 A JP H1074210A JP 9178500 A JP9178500 A JP 9178500A JP 17850097 A JP17850097 A JP 17850097A JP H1074210 A JPH1074210 A JP H1074210A
Authority
JP
Japan
Prior art keywords
word
document
frequency
search
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9178500A
Other languages
English (en)
Other versions
JP3614618B2 (ja
Inventor
Yoshiki Niwa
芳樹 丹羽
Hirobumi Sakurai
博文 櫻井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP17850097A priority Critical patent/JP3614618B2/ja
Publication of JPH1074210A publication Critical patent/JPH1074210A/ja
Application granted granted Critical
Publication of JP3614618B2 publication Critical patent/JP3614618B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 検索された文書群の全体像を一覧することが
可能な検索方法を提供すること。またサービスとしての
検索を可能とすること。 【解決手段】 表示手段に特徴語表示手段を表示し、ユ
ーザーからの要求により検索された文書群に特徴的に出
現する語群を抽出し、さら特徴語相互間の関連性を調べ
て、特徴語をノードとするグラフを作成し検索結果の全
体像を特徴語表示手段に表示する。さらに、ユーザーは
表示された特徴語のグラフを見て、自分の関心の強い語
や逆に関心のない語を選択することにより、効果的に次
の検索戦略を立てられるようになる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文献検索における
対話的なガイダンス機能を実現するためのユーザインタ
フェイスを持つ文献検索支援方法及び装置およびこれを
用いた文献検索サービスに関する。
【0002】
【従来の技術】文献検索においては、ユーザーが所望す
る文献集合に早く容易に到達できるように、文献検索装
置とユーザーとのさまざまなインタフェイスが考案、開
発されている。その中の主なものとしてはフィードバッ
クとガイダンスがある。フィードバックとは検索結果の
いくつかのアイテムに対してユーザーが「当たり/はず
れ」の判定を下すと、その判定を反映した検索結果を得
ることができるしくみである。またガイダンスとは検索
作業の各段階でその検索作業と関連のあると思われる情
報、したがって利用者が検索条件を工夫したり改良した
りするのに参考となると思われる情報を提供する機能で
ある。
【0003】ガイダンス機能については、従来一般に、
入力された検索条件に対してその関連情報を提示する方
法が行われている。例えば、シソーラスなど単語間の関
連性を示すデータベースを保持しておき、検索条件とし
て入力された語と関連のある語をデータベースから取り
出して提示する方法である。シソーラスの場合には主に
単語間の上位−下位関係を示す木構造のデータである
が、共起統計を用いて関連語データを自動生成しそれを
用いる方法もある(例えば、B. R. Schatz et al, Inte
ractive term suggestion for users of digital libra
ries: Using subject thesauri and co-occurrence lis
ts for information retrieval. Proc. ACM DL96.p.126
-133)。また、単語間の共起統計データに基づき検索語
とその関連語をネットワーク状に表示する方法も提案さ
れている(例えば、R.H. Fowler, D. W. Dearholt, Inf
ormation Retrieval Using Pathfinder Networks. In P
athfinder Associative Networks, Ablex, article 12,
Edited by R. W. Schvaneveldt(1990))。
【0004】しかしながら、検索条件に対してその関連
情報を提示する方法では、検索語が複数になった場合や
否定が使われた場合の対処が難しく、またキーワードを
用いない書類の検索(連想検索など)にも対処が難しい
という問題がある。これを克服する方法として、検索結
果から関連情報を自動抽出してユーザに提供する手法が
ある。例えば、スキャター・ギャザー法(D.Cutting他
(1992). Scatter/Gather : A Cluster-based Approach
to Browsing Large Document Collections. Proc. ACM
SIGIR'92,p.318-329)では検索された文書群を自動分類
(クラスタリング)して各クラスごとの特徴語を表示す
るものである。しかし、クラスタリングは文書数が増え
ると計算量が2乗あるいは3乗のオーダーで大きくなる
のでリアルタイムでの反応が難しくなり、また一般に検
索作業が進んで行くとクラス間の違いが微妙になり、ク
ラスの特徴語からそのクラスの性格を把握しにくくなる
という問題があった。
【0005】
【発明が解決しようとする課題】本発明は、前述の問題
を解消して、検索された文書群に含まれる話題群をリア
ルタイムで一覧できるよう文書群に特徴的に現れる語群
の特徴語をグラフ形式またはリスト形式で画面表示する
こと、さらには、文書群に特徴的に現れる語群を低頻度
語から高頻度語までバランス良く抽出することのできる
文献検索支援方法及び装置、さらには、この文献検索を
希望するユーザが遠隔地からも行えるようにすることを
目的とする。
【0006】
【課題を解決するための手段】このため、検索された文
書群に含まれる話題群をリアルタイムで一覧できるよ
う、文書群に特徴的に出現する語群をノードとし、さら
に特徴語間に強い共起関係がある場合、すなわち同一文
書中に出現しやすい度合が高い場合、その単語対にリン
クを張ることによりグラフを構成し、そのグラフを画面
表示するとともに、特徴語のグラフ表示の際に、一般的
な語と特殊性の高い語を一目で見分けることができるよ
うに縦軸方向が特徴語の文書頻度を表すようにする。リ
ストの例で言えば、特徴語を頻度クラスで分類し、文書
頻度の高いものを上段に配列して一覧できるようにして
特殊性の高い語を一目で見分けることができるようにす
る。検索された文書群から特徴語を選ぶ際に、低頻度の
語から高頻度の語までバランス良く特徴語を抽出するた
めには、特徴語を出現頻度によってクラス分けを行な
い、それぞれのクラスから頻度比、すなわち当該文書群
における文書頻度と検索対象全体における文書頻度の比
が大きいものから順に抽出する。
【0007】
【発明の実施の形態】
実施例1 以下、本発明の第1の実施例を図1−20に従って説明
する。本実施例は、独立に使用されるコンピュータによ
る検索装置の構成例である。本実施例では、検索結果を
グラフ表示とする場合を主体に説明する。図1に本実施
例の文献検索装置の全体構成を示す。1は入力手段、2
は表示手段、3はCPU、4は計算プログラム保持手
段、5は計算プログラムを動作させるためのワークエリ
ア、6はデータベース保持手段であり、これらの手段あ
るいは装置は、これらの間で相互に信号のやり取りをす
るためのバス100で連携される。入力手段1はキーボ
ード11、マウス12、ペン入力手段13などから構成
され、表示手段2には検索インタフェイス21および検
索をガイドするための特徴語表示手段22が表示され
る。計算プログラム保持手段4には本実施例の文献検索
装置を動作させるために必要となる検索インタフェイス
作動ルーチン41、形態素解析ルーチン42、検索ルー
チン43および特徴語表示手段作動ルーチン44が格納
される。特徴語表示手段作動ルーチン44は検索された
文書群から特徴語を抽出して特徴語表示手段22に表示
するため、特徴語抽出ルーチン441、共起関係解析ル
ーチン442、グラフ配置ルーチン443、およびグラ
フ表示ルーチン444をサブルーチンとして用いる。ワ
ークエリア5についての詳細は図2を参照して後述す
る。データベース保持手段6は検索対象となる文書デー
タベース61、検索に用いるインデックスデータベース
62、単語頻度に関するデータベース63および除外語
データベース64から構成される。これらのデータベー
スは、一般には、事前に準備されているものの中から、
使用者が自分の検索目的に合うものを検索対象データと
して選択して使用する。たとえば、新聞記事についての
検索をしたいときは、新聞社が発行しているデータベー
スを購入して使用することになる。もっとも、除外語デ
ータベース64は装置の供給者が付属データとして提供
するものである場合があろう。
【0008】図2はワークエリア5の構成についての詳
細である。ワークエリア5は計算プログラム保持手段4
にある諸ルーチンが動作するために必要となるパラメー
タや一時的なデータを保持するためのエリアであり、検
索ワークエリア51、特徴語抽出ワークエリア52、共
起関係解析ワークエリア53、グラフ配置ワークエリア
54から構成される。各エリアには、更に細分されたデ
ータエリアが備えられるが、これらの詳細についてはそ
れぞれの関連するルーチンが動作する時に説明する。ユ
ーザが文献検索をしようとするとき、まず、キーボード
11から文献検索システム起動のコマンドを入力する。
これに応じて、検索インタフェイス作動ルーチン41が
起動され、対話的に検索作業を進めるための検索インタ
フェイス21が表示手段2に表示される。図3は検索イ
ンタフェイス21の初期画面の一例である。検索インタ
フェイス21は検索要求入力部211、キーワード表示
・操作部212、ヒット件数表示部213、タイトル表
示部214、文書表示部215、検索実行ボタン216
および特徴語表示ボタン217などから構成される。
【0009】本実施例では、文献検索用のキーワードと
して必須キーワード、加点キーワード、減点キーワード
の3種類を用いる。検索は必須キーワードに関するアン
ドを取って行なわれ、必須キーワードの指定の無い場合
には加点キーワードのオアで行われる。必須キーワード
で検索された文書が加点キーワードを含む場合には1点
加点し、減点キーワードを含む場合は1点減点する。同
じキーワードが同一文書に何回現れても1点の加点また
は減点とする。これら3種類のキーワードに対応してキ
ーワード表示・操作部212は3つの部分から構成され
る。構成は3つとも同様であるのでここでは一番左の必
須キーワードを主体に説明する。キーワード表示・操作
部212における必須キーワードの部分は、キーワード
表示部2121、移動ボタン21211、クリアボタン
21212から構成される。移動ボタン21211は他
の種類のキーワードを必須キーワードに移す場合に使
い、クリアボタン21212はキーワードを必須キーワ
ードから除去する場合に用いる。すなわち、加点キーワ
ードあるいは減点キーワードに表示されているキーワー
ドを選択して必須キーワードの移動ボタン21211を
押せば、選択されたキーワードが必須キーワードに移さ
れる。また、必須キーワードに表示されているキーワー
ドを選択してクリアボタン21212を押せば、選択さ
れたキーワードが必須キーワードから除去される。同じ
ように、必須キーワードに表示されているキーワードを
選択して、たとえば、加点キーワードの移動ボタン21
221を押せば、選択されたキーワードが加点キーワー
ドに移される。また、必須キーワードに表示されている
キーワードを選択して、減点キーワードの移動ボタン2
1231を押せば、選択されたキーワードが減点キーワ
ードに移される。
【0010】また、これらの移動ボタンは後述するよう
に、表示されている特徴語をキーワードにコピーするた
めのコピーボタンとしても使用される。すなわち、移動
かコピーかは対象となる語がどこの領域にあるかにより
使い分けられる。検索要求を入力する場合には、検索要
求入力部211の検索要求入力窓2111をマウス12
でクリックするなどして入力待ち状態にしてからキーボ
ード11を用いて必須キーワード、加点キーワードおよ
び減点キーワード等の検索要求を入力する。続いて入力
完了ボタン2112を押すと、入力窓2111に入力さ
れた文字列が形態素解析ルーチン42へ渡されて単語列
に分割され、さらに除外語データベース64を参照し
て、そこに登録されている単語を除去した結果がキーワ
ード格納エリア511のデフォールトのキーワード格納
エリア5111または5112(図2)へ格納される。
ここではデフォールトのキーワードのタイプは必須キー
ワードとした。また、それぞれの内容はキーワード表示
部2121または2122にリストの形で表示される。
この場合、後述する例からも分かるように、形態素解析
ルーチン42が持つ辞書に応じて単語の分割状態が決ま
る。
【0011】ここで、検索実行ボタン216を押すと検
索ルーチン43が起動され、検索用インデックスデータ
ベース62(すなわちある単語がどの文書に含まれてい
るかを示すデータ)を参照して、必須キーワードをアン
ドで含む文書を検索し、結果として得られ文書識別番号
の列が検索結果格納エリア512へ格納される。なお検
索ルーチン43は必須キーワードで検索された文書につ
いて加点キーワードが含まれている場合には加点キーワ
ードの一つについて1点加点し、減点キーワードが含ま
れている場合には減点キーワードの一つについて1点減
点するという作業を行ない、この得点も文書識別番号と
合わせて検索結果格納エリア512へ格納する。必須キ
ーワードの指定がない場合には、検索ルーチン43は加
点キーワードに関する検索を加点キーワードのオアで行
ない、以下同様の仕方で得点を計算する。必須キーワー
ドも加点キーワードもない場合には、検索実行ボタン2
16が押されても検索は行なわない。
【0012】必須キーワードは、検索に際してはアンド
で処理されるから、より厳密に検索結果を絞りこみたい
ときには不可欠であるが、どちらかといえば、検索結果
に漏れがない検索をしたいときには、加点キーワードの
みとしてこのオアで検索を行い、この検索結果に入って
欲しくない事項を含む可能性がある事項を想定できると
きは減点キーワードを設定するのがよい。さらに、検索
ルーチン43は検索結果格納エリア512に格納された
検索結果から得点分布を計算し、その結果を検索結果得
点分布格納エリア513に格納する。得点分布とは加点
または減点の得点が何点の文書が何件あったかを示すデ
ータである。
【0013】以下「電子出版」を必須キーワードとする
検索要求を入力した場合を例に採り説明する。「電子出
版」なる文字列を必須キーワードとして検索要求入力窓
2111に入力した後、入力完了ボタン2112を押
す。形態素解析ルーチン42により「電子出版」は「電
子/出版」と分割されて必須キーワード格納エリア51
11に格納され、さらに必須キーワード表示部2121
の1行目と2行目に分割して表示される。図4は、この
段階で検索実行ボタン216を押した場合の検索ワーク
エリア51の状態を示したものである。今の例では必須
キーワードが「電子」と「出版」なので、それらが必須
キーワード格納エリア5111に格納されている。それ
以外の加点キーワードあるいは減点キーワードは、検索
要求入力窓2111に検索者によって付与されなかった
ので、加点キーワード格納エリア5112と減点キーワ
ード格納エリア5113は空欄のままである。また検索
された文書番号とその得点が検索結果文書番号格納エリ
ア512に格納されている。この場合には加点キーワー
ドと減点キーワードがないので得点は全て0である。ま
た得点別に件数をカウントして得られるデータが検索結
果得点分布格納エリア513に格納されている。この場
合得点は0のみでそれが77件あったことを示してい
る。
【0014】図5は、この検索結果を表示した検索イン
タフェイス21の状態を示したものである。必須キーワ
ード表示部2121に必須キーワード「電子」と「出
版」が表示され、ヒット件数表示部213に検索結果得
点分布格納エリア513の内容が表示され、タイトル表
示部214には検索された文書識別番号とそのタイトル
が1件1行で適当数表示されている。表示されていない
文書識別番号とそのタイトルを知りたいときは、いわゆ
るスクロールバーによって表示に現れる部分をずらせば
よい。表示されたタイトルから本文を読んで見たいもの
があれば、該当するタイトルの所をマウスなどで指示す
れば本文の内容の一部が文書表示部215に表示され
る。表示されていない部分の文書の内容を知りたいとき
は、同じように、スクロールバーによって表示に現れる
部分をずらせばよい。
【0015】これで「電子出版」に関する文書が77件
検索されたことになるが、次の段階として、さらに検索
を特定の対象に絞り込みたい場合、あるいはそうでなく
てもこの77件の文書にはどのような話題が含まれてい
るかを概観したい場合がある。このような場合には検索
インタフェイス21(図3)上の特徴語表示ボタン21
7を押すと特徴語表示手段作動ルーチン44が起動さ
れ、特徴語表示手段22が表示画面2に表示される。
【0016】図6は特徴語表示手段22の一例の詳細を
示したものである。特徴語表示手段22は操作部22
1、キーワード表示・操作部222、ヒット件数表示部
223、特徴語表示部224、パラメーター設定部22
5から構成される。キーワード表示・操作部222およ
びヒット件数表示部223は検索インタフェイス21の
キーワード表示・操作部212およびヒット件数表示部
213とそれぞれ連動しており、特徴語表示手段22上
の操作によりこれらの表示内容が変化した場合には自動
的に検索インタフェイス21の方のそれぞれの表示も変
化する。しかし逆方向、すなわち検索インタフェイス2
1上の操作によりキーワードやヒット件数が変化した場
合には自動的には特徴語表示手段22上には反映されな
い。これを取り込むには、操作部221のリセットボタ
ン2214を押すと検索インタフェイス21側の内容が
こちらの特徴語表示手段22側へコピーされる。なお検
索インタフェイス21上の特徴語表示ボタン217を押
すことで表示画面2に表示される特徴語表示手段22の
初期画面では検索インタフェイス21上のキーワードと
ヒット件数が自動的にコピーされる。今の例の場合、必
須キーワード表示部2221には「電子」と「出版」が
表示され、ヒット件数表示部223には「得点0:77
件」が表示されている。
【0017】ここで、操作部221の特徴語表示ボタン
2212を押すと特徴語抽出ルーチン45が起動され、
検索結果格納エリア512に格納されたデータから最高
得点の文書識別番号を読み込み、それらの文書識別番号
に相当する文書の内容を解析して、それらに特徴的に含
まれる単語(特徴語)と、それら特徴語間の関連性を解
析してグラフにした結果を特徴語表示部224に表示す
る。その過程は以下の説明で詳述する。図7は「電子出
版」の例で、グラフ格納エリア543(図2)に格納さ
れたデータを示したものである。グラフはノードとリン
クからなりそれぞれノード格納エリア5431と、リン
ク格納エリア5432とに格納されている。格納される
ノードデータは各ノードに表示される特徴語(文字列)
とそれを特徴語表示部224のどこに表示すべきかを示
す座標を中心座標で、さらに文字を表示する領域の横と
縦の文字数と表示領域のサイズで構成されている(ただ
し表示領域のサイズについては、使いやすいようにそれ
らの1/2の値、すなわち中心から端までのサイズにし
てある。)。一方、格納されるリンクデータはグラフ上
に表示すべき線分の始点座標と終点座標で構成されてい
る。図では、リンク格納エリア5432に格納されてい
る始点座標と終点座標の他に、参考までに、それぞれに
対応する文字列のデータを付記したが、実際の装置で
は、このデータは不要である。図8は、操作部221の
特徴語表示ボタン2212が押されて、特徴語のグラフ
が表示された状態の特徴語表示手段22を示した図であ
る。グラフ表示ルーチン444が、グラフ格納エリア5
43のデータに従って、特徴語表示部224に特徴語と
これを結ぶリンクよりなるグラフを表現する。例えば図
7のデータから「コンパクト」は座標(149,13
1)を中心として、横方向文字数3、行数2で且横方向
で両側に27、縦方向で上下に18の矩形の領域を表示
域として表示される。この実施例では、座標は特徴語表
示部224の左上を始点として横方向は右向に、縦方向
は下向に取る。また、リンクデータは始点と終点の座標
で定義される。リンクデータの1番目は、特徴語「出
版」と「電子」との中心座標を結ぶことを意味し、2番
目のデータは座標(203,131)から(308,4
0)への線分を意味する。これらの語の表示に際して
は、それぞれのノードの表示領域には文字表示用に背景
に白色不透明の矩形を表示して、ノードの表示領域で
は、線分を隠すのがグラフとしては見やすいが、一方、
リンクを示すグラフの線とノードの表示領域が重なる
と、グラフの線が現れないことになり誤解を招くことに
なりかねない。例えば、図7のデータでは、「デスクト
ップパブリッシング」と「出版物」を結ぶグラフの線は
「ニフティサーブ」の表示領域を通過することになるか
ら、「ニフティサーブ」に白色不透明の矩形をつける
と、この部分でグラフの線が線としては表われないこと
になる。その結果、「ニフティサーブ」と「出版物」と
がグラフの線で結ばれ、さらに「ニフティサーブ」と
「デスクトップパブリッシング」とがグラフの線で結ば
れたように見えることになる。図8では、この対策とし
て、背景に白色不透明の矩形を表示する代わりに、グラ
フの線の始点及び終点の近傍でのみグラフの線が表示さ
れないようにしてそのノードの表示領域の中に入り込む
のを避けるとともに、他の表示領域については通過して
いることがわかる表示とした。白色不透明の矩形をつけ
てもグラフの線が隠れないように配置することは大変難
しく、特に多数の特徴語をグラフ表示しようとすると見
やすいサイズでの表示が不可能となりかねない。
【0018】パラメータ設定部225の特徴語表示設定
手段2251は特徴語表示部224に表示する単語数を
調節するためのものであり、設定用つまみ22511を
左右に動かして所望の数値に設定する。表示部2251
2にはその設定値が表示され、特徴語抽出パラメータ格
納エリア521の抽出語数格納エリア5213にその値
が格納される。なおこの値は特徴語抽出ルーチン441
によって利用される。以下では特徴語表示手段22の特
徴語表示ボタン2212が押されてから、図7に示した
ようなグラフデータが作成されるまでの過程を説明す
る。特徴語表示ボタン2212が押されると、計算プロ
グラム保持手段4に格納されている特徴語抽出ルーチン
441以下共起関係解析ルーチン442、グラフ配置ル
ーチン443が順に起動される。特徴語抽出ルーチン4
41は検索ワークエリア51の検索結果得点分布格納エ
リア513から最高得点とその件数を読み込む。図4に
示した「電子」と「出版」の例では最高得点(S)は0
点でありその件数(K)は77件である。また特徴語抽
出パラメータ格納エリア521から走査文書数上限値
(M)5211を読み込む。(ここではM=300とす
る。)これは検索された文書件数Kが大きい時にすべて
の文書を解析していると時間がかかるので、一定限度M
を越える場合にはM個のサンプル抽出を行なうためのパ
ラメータである。
【0019】特徴語抽出ルーチン441は、次に、検索
結果格納エリア512を参照し、得点が最高得点Sと一
致するすべての文書識別番号についてそれらの内容を検
索対象文書データベース61から読み込み、形態素解析
ルーチン42を用いて単語分割し、出現するすべての種
類の単語についてそれが出現する文書の数(以下これを
文書頻度と呼ぶ)をカウントする。この例では最高得点
の件数Kが77件で、走査文書数上限値M=300以下
であったのですべての文書を読み込む。なお、該当文書
の形態素解析は、データベース保持手段にゆとりがある
場合には、あらかじめ全文書を形態素解析した結果を保
持しておき、それを読み込むようにすることも可能であ
る。そうすれば、検索の都度形態素解析をする必要がな
くなるので解析時間を大幅に短縮できて有効である。こ
うして得られる単語とその文書頻度のデータは特徴語抽
出ワークエリア52の中の頻度データ格納エリア523
に格納される。なお上記で該当文書を形態素解析した結
果は後にも使うので、単語分割済み文書格納エリア52
2に格納しておく。
【0020】図9は「電子出版」の例で頻度データ格納
エリア523に格納されたデータの一部を示す。各単語
ごとのデータは単語名、文書頻度、全体文書頻度、頻度
比、頻度クラスの5項目で構成されている。文書頻度は
上記作業で検索された文書(この場合77件)の内の何
件のにその単語が出現したかを表す頻度である。また全
体文書頻度はキーワードによる検索結果に関係なく、検
索対象文書全体で何件の文書に使われているかという頻
度である。その情報は単語頻度データベース63に格納
されており、そこから該当する単語の頻度情報を取り出
して来たものである。ここで、単語頻度データベース6
3は予め検索対象全文書を走査して、出現する全ての単
語についてその文書頻度をカウントして作成しておくも
のとする。頻度比は文書頻度を全体文書頻度で割算した
値である。例えば一番最初の「ROM」では文書頻度が
21で全体文書頻度が1183なので頻度比は21÷1
183≒0.017である。
【0021】次に、頻度クラスについて説明する。一般
にある文書群に特徴的な語は頻度比の大きさにより判断
でき、頻度比が大きいほど特徴度が高いと言える。しか
し文書頻度が大きく異なる2つの単語を頻度比で比較す
るのは危険である。低頻度語の場合には全体頻度が低い
のでたまたま頻度比が大きくなる確率が高い。たとえ
ば、図9では、「デスクトップパブリッシング」の頻度
比は0.75となっており、頻度比が大きく特徴度が高
いと言えるかと言えば、そうではない。これは文書頻度
が3にすぎないのに、全体文書頻度も4でしかないため
である。そこで文書頻度が大きく異なる単語同士は比較
しないよう、予め文書頻度を適当な幅で区分してクラス
分けを行ない各クラスで頻度比が大きいものを特徴語と
して取る。これによって低頻度語から高頻度語までバラ
ンス良く特徴語を抽出することが可能となる。以下頻度
クラスの決め方の一例の説明である。特徴語ルーチン4
41は頻度クラス分割数(C)5212を読み込む、こ
れはいくつの頻度クラスに分割するかを示すパラメータ
であり、使用者が設定する。ここではC=5とする(一
般にCは1以上の整数である)。i番目の頻度クラスを
C[i]として、C[i]に属するための文書頻度がf
[i]以上f[i+1]未満であるとする。ただし最大
のクラスについては「f[i+1]未満」のかわりに
「f[i+1]以下」とする。この頻度閾値f[i]の
値の決め方であるが、ここではその一例としてK’を該
当文書数として、f[i]=K’の(i/(C+1))
乗、とする。(検索された文書数Kが走査文書数上限値
Mを越えない場合にはK’=Kであり、K>Mの場合に
はK’=Mである。)今の例ではK’=77でC=5で
あるから、f[1]=77の(1/6)乗=2.06,
以下、f[2]=4.25,f[3]=8.77,f
[4]=18.10,f[5]=37.33となる。従
って、クラス1:文書頻度3以上4以下、クラス2:文
書頻度5以上8以下、クラス3:文書頻度9以上18以
下、クラス4:文書頻度19以上37以下、クラス5:
文書頻度38以上77以下、である。
【0022】この分類条件に従って、各語の文書頻度か
らそれらの語の頻度クラスを決める。「ROM」の場合
には文書頻度が21なのでクラス4、また「インタラク
ティブ」は文書頻度が5なのでクラス2となる。なお文
書頻度がクラス1よりも小さい場合(この場合文書頻度
2以下)については特徴語抽出の対象から除外する。上
記の頻度クラスの付与は次の式で直接計算することもで
きる。ただしその値がCと一致する場合には1を引き算
する。 (頻度クラス)={log(文書頻度)÷logK’×
(C+1)}を越えない最大の整数値−1 続いて特徴語抽出ルーチンは抽出語数(p)5213を
読み込み、各頻度クラスから頻度比が上位のものを合計
でこの個数になるように抽出する。それを実現する方法
の一例としては、抽出語数pを頻度クラス分割数Cで割
算して得られる商をn、余りをrとして、頻度クラスが
1以上r以下のクラスからはn+1個取り、頻度クラス
がrより大きいクラスからはn個取るという方法があ
る。
【0023】以下抽出個数pが10であるとして図9の
例で説明する。分割数Cは5なのでp÷Cの商nは2,
余りrは0である。従ってクラス1〜5から均等に2個
づつ取ることになる。頻度データ格納エリア523のデ
ータから各頻度クラスのものについて頻度比が大きいも
のから順に2個ずつ取る。図9のデータより、クラス5
の単語を頻度比が大きい順にならべると「出版」(0.
027),「電子」(0.015),「メディア」
(0.006),「情報」(0.001)となる。従っ
て上位2つの「出版」と「電子」が特徴語として取られ
る。以下同様にしてクラス4からは「ROM」と「コン
パクト」、クラス3からは「メール」と「出版物」、ク
ラス2からは「インタラクティブ」と「ニフティサー
ブ」、クラス1からは「デスクトップパブリッシング」
と「パブリッシング」が特徴語として抽出される。それ
らは特徴語リスト格納エリア524に格納される。
【0024】図10は特徴語リスト格納エリア524に
格納されたデータの例である。上記プロセスにより抽出
された特徴語とそれらの文書頻度が格納されている。図
では、参考に頻度クラスも示したが、これはなくても良
い。以上で特徴語抽出ルーチン441を抜け、続いて共
起関係解析ルーチン442が特徴語間の共起データ関係
を解析し、結果を共起データ格納エリア531に格納す
る。
【0025】共起データ格納エリア531は特徴語リス
ト格納エリア524に格納された特徴語の集合を縦横に
持つ2次元の配列である。各要素は対応する単語対が共
通して現れる文書の数を表す。共起関係解析ルーチン4
42は検索された文書群を単語分割したものを単語分割
済み文書格納エリア522から読み込み、各文書ごとに
共出現するすべての特徴語ペアについて、共起データ格
納エリア531の対応する要素をインクリメントしてい
く。
【0026】次に共起関係解析ルーチン442は各特徴
語対に対して共起強度を計算する。共起強度は上記作業
でカウントされた共起頻度を単語ペアの後者(表では列
に当たる単語)の文書頻度で割った値である。単語の文
書頻度は特徴語リスト格納エリア524に格納されてい
る値(図10)を用いる。図11は、この段階における
共起データ格納エリア531に格納されたデータを示
す。各桝目は二つの数値から構成され、上段が対応する
単語対の共起頻度、下段が単語対の共起強度(共起頻度
÷列側の単語の文書頻度)である。例えば6行3列の上
段数値6は、6行目の特徴語「出版物」と3列目の特徴
語「ROM」が6件の文書に共出現したことを意味す
る。この場合単語対の列側の単語「ROM」の文書頻度
は21なので、下段の共起強度の数値は6÷21≒0.
29となる。共起データ格納エリア531では特徴語は
文書頻度の高い順に並べている。後の作業で用いるのは
表の対角線の下半分だけなので、残りの部分は省略し
た。
【0027】続いて、共起関係解析ルーチン442はこ
の共起データから共起度の高い単語ペア(特徴語グラフ
でリンクを張るべきペア)を抽出する。本実施例では特
徴語間の関連性を示すリンクを、各単語から見てそれよ
り文書頻度が高い単語の中で共起強度の値が最も大きく
なる単語に張ることにした。共起関係解析ルーチン44
2はこの基準に従ってリンクを張るべき単語対を集め共
起リンク格納エリア532に格納する。なお、共起強度
が2番あるは3番のものでも、1番のものと比べてそれ
ほど小さくない場合(例えば1番の0.9倍以上)に
は、リンクを張るというやり方も有力である。図12は
この段階における共起リンク格納エリア532の内容を
示す図である。これらのリンクが抽出された過程を図1
1の例に基づいて説明をする。図12の2番目の「出
版」について見ると、文書頻度が「出版」以上のものは
「電子」しかないので「出版」から「電子」にリンクが
張られる。次に3番目の「ROM」についてみると、そ
れより頻度が高いのは「出版」と「電子」の2つであ
り、それらとの共起強度は共に0.27である。この場
合には共起データ格納エリア531における番号の小さ
い「出版」の方にリンクを張る。次に4番の「コンパク
ト」についてみると、3番の「ROM」との共起強度が
0.81で最も大きい。従って「コンパクト」からは
「ROM」へリンクを張る。以下同様の操作を続け、図
12のようなリンクデータが得られる。
【0028】以上で共起関係解析ルーチン442を抜
け、続いて、グラフ配置ルーチン443が起動される。
特徴語リスト格納エリア524のデータ(図10)と共
起リンク格納エリア532のデータ(図12)にもとづ
いて特徴語群をノードとするグラフを実際に2次元平面
に配置するという作業を行なう。図13はグラフ配置ル
ーチン443の詳細である。グラフ配置ルーチン443
はy座標計算ルーチン4431、x座標計算ルーチン4
432、表示座標への変換ルーチン4433、重なり回
避ルーチン4434、リンク配置ルーチン4435から
構成され、この順に起動する。y座標計算ルーチン44
31およびx座標計算ルーチン4432は表示領域が
[−1,1]×[−1,1]の正方形領域であると仮定
して各ノードを配置すべき座標を計算する。この座標を
正規化された座標と呼ぶ。計算された座標データは正規
化座標格納エリア541に格納される。
【0029】初めにy座標計算ルーチン4431が起動
され、計算式: y=(6/π)×arctan(0.2×log(f/
fm)) に従って各特徴語の文書頻度fからそれを表示すべき位
置の正規化されたy座標を計算する。すなわち、文書頻
度の大きいもの程y軸上では上段に配置されるようにす
る。ここでfmは特徴語を文書頻度順に並べた時にちょ
うど真中に来るものの頻度である(ただし偶数個の場合
には(個数÷2+1)番目とする)。実施例では、「電
子」「出版」の文書頻度77が最上段となり、「出版
物」の文書頻度9が中央位置に当たる。πは円周率、対
数logは自然対数、arctanは正接関数の逆関数
であり、角度はラジアンを単位とする。例えば「コンパ
クト」の頻度は21なのでその正規化されたy座標は
(6/π)×arctan(0.2×log(21÷
9))≒0.32となる。その他の特徴語の正規化され
たy座標も同様に計算する。次にx座標計算ルーチン4
432が起動され各特徴語表示位置の正規化されたx座
標を計算する。図14はx座標計算ルーチン4432の
詳細を示した図である。初めにステップ44321によ
り親ノード(リンク先)のないノードが集められる。こ
の場合には「電子」のみがそれに当たる。したがってそ
のx座標の値がステップ44321中の式xi=−1+
2i/(r+1)にi=1を代入して−1+(2×1)
/(1+1)=0と計算される。
【0030】続いてループ44322に入り、ステップ
44323ではx座標の定まったノード(この場合「電
子」のみ)へリンクが張られているノードを一つ取る。
共起リンクのデータ(図12)からここでは「出版」が
その条件を満たしていることが分かる。続いてステップ
44324に入りステップ44323で選ばれたノード
の親ノードの集合を求め、さらにそれらのx座標の平均
値を計算する。「出版」の親ノードの集合は{「電
子」}であり、そのx座標の平均は0である。次にステ
ップ44325では親ノードの集合が{「電子」}と一
致するノードを集める。ここではそれは「出版のみであ
る。
【0031】続いて分岐ステップ44326へ入るが親
ノードのx座標の平均値が0なのでステップ44327
が選択され、「出版」のx座標が計算される。ステップ
44327の計算式にs=1、xp=0、i=1を代入
して、「出版」のx座標が0と計算される。以上で「電
子」と「出版」の正規化されたx座標が定まった。しか
しまだ全てのノードのx座標が定まってはいないのでル
ープ44322を繰り返す。ステップ44323ではま
だx座標が定まっていないノードの内、リンクが「電
子」と「出版」以外には張られていないノードの一つが
選択される。この場合「ROM」がその条件を満たす。
ステップ44324では「ROM」のリンク先の集合を
求め{「出版」}を得る。また親ノード{「出版」}の
x座標の平均値xpが0と計算される。
【0032】ステップ44325ではリンク先の集合が
{「出版」}と一致するようなノードを集める。「RO
M」以外では「メール」がそれに当たる。
【0033】親ノードのx座標の平均値xpが0なので
分岐44326では上段が選択され、ステップ4432
7により「ROM」と「メール」のx座標がそれぞれ
[−1,1]を3等分して、−0.33,0.33とい
うように計算される。以下同様にして、すでにx座標が
決まったノードのみにリンクが張られるようなノードに
ついて、リンク先が共通のものを集め、親のx座標の平
均を中心として区間[−1,1]内に収まるよう均等に
配置するようにx座標を決めていく。
【0034】図15は「電子出版」の例でこの段階にお
ける正規化座標格納エリア541に格納された座標デー
タを示した図である。つづいて、グラフ配置ルーチン4
43は表示座標への変換ルーチン4433を起動し、上
記の[−1,1]×[−1,1]領域に正規化された座
標を特徴語表示部224における実際の位置を表す座標
への変換を行ない、ノード格納エリア5431の中心座
標欄(図16)に格納する。変換は次のような1次式で
行なう。X=Rx×(1+x)+Ox,Y=Ry×(ym
−y)+Oy。ここで小文字のxとyが正規化された座
標、大文字のXとYが特徴語表示部224における座標
である。ymはyの最大値を表す。図15の例ではym
=0.774である。なお係数Rx、Ry、Ox、Oyはグ
ラフ配置パラメータ格納エリア542(図2)の該当す
るエリアに格納された値を用いる。本例ではRx=20
0,Ry=200,Ox=60,Oy=40とした。上記
の一次変換により例えば「コンパクト」の場合、正規化
された座標が(−0.555,0.320)なので,X
=200×(1−0.555)+60=149,Y=2
00×(0.774−0.320)+40≒131とい
うように計算される。このようにして、全てのノードの
特徴語表示部224上での実座標が計算され、ノード格
納エリア5431に格納される(図16)。この時次の
ステップへの準備として単語の順序は、x座標が小さい
順に並べる。また文字表示領域の大きさとして横方向の
文字数hと行数v、また文字表示領域の横サイズHと縦
サイズVを計算して、ノード格納エリア5431に格納
する。
【0035】文字表示領域サイズは次の計算式に従って
計算する。文字は横書きとし横サイズの限度をW文字と
する。Wの値は文字表示部の横方向文字数上限値542
6に格納されている値を使う。ここではW=3とする。
表示すべき文字数をMとした場合、横方向の文字数h、
と行数vはM≦Wの場合、hはM、vは1である。また
M>Wの場合には、hはWであり、vは(M÷W)以上
の最小の整数である。例えば「電子」については文字数
が2でこれは横幅限度のW=3より小さいので、行数v
は1で横幅hは2となる。また「インタラクティブ」の
場合には文字数が8で横幅限度W=3を越えるので行数
vは(8/3)以上の最小の整数、すなわち3となり、
横幅hはW=3である。また文字表示領域の横サイズの
2分の1の値Hと縦サイズの2分の1の値Vはそれぞれ
の文字数hとvから次の式により計算される。ここで2
分の1の値を取ったのは後の処理で主にこの2分の1の
値を用いるからである。H=h×F/2+mx、V=v
×F/2+my。ここでFは文字フォントの大きさ、mx
はx方向のマージンの大きさ、myはy方向のマージン
の大きさである。mxとmyは2つのノードが接近し過ぎ
ないように、最低限保つべき間隔を表す。F、mx、my
はそれぞれ文字サイズ5425、文字表示部の横方向マ
ージン5427、同縦方向マージン5428(図2)に
格納されている値を用いる。本例ではF=16、mx
3、my=2とする。例えば「コンパクト」の場合h=
3でv=2なのでH=3×16/2+3=27、V=2
×16/2+2=18と計算される。図16のノード格
納エリア5431における文字表示サイズとしての文字
数と表示領域サイズはこのようにして計算したものであ
る。
【0036】このようにして特徴語表示部における座標
が求まったが、この段階ではノードの重なりが生じるお
それがある。例えば図16の例では「電子」と「出版」
の座標は同じなので重なってしまう。そのため重なり回
避ルーチン4434が起動され、重なりが生じないよう
に座標をずらす操作を行なう。
【0037】図17は重なり回避ルーチン4434の詳
細である。全ノードをx座標が小さい順にソートしたも
のをN[1],...,N[r]とする。N[i]の座
標を(X[i],Y[i])、文字表示領域サイズの値
を(H[i],V[i])とする。i=2,...,r
について次の操作を行なう。j=1,...,i−1の
内|Y[j]−Y[i]|<V[i]+V[j]となる
ようなjについてX[j]+H[j]の最大値を取りξ
とする。なおそのようなjが無い場合にはこのiについ
ては座標をずらす操作は必要ない。δ=ξ−(X[i]
−H[i])とする。δ≦0の場合にはこのiについて
は座標をずらす操作は必要ない。δ>0の場合には、重
なりが生じてしまうので、N[i],...,N[r]
のx座標をすべて右にδずらす。すなわち、X[k]=
X[k]+δ(k=i,...,r)とする。
【0038】以上により、全ノードが重ならずに表示で
きるような座標が与えられる。たとえばi=2の「イン
タラクティブ」の場合についてみると、図16のデータ
より、|Y[2]−Y[1]|=|240−131|=
109で、V[2]+V[1]=26+18=44であ
るから|Y[2]−Y[1]|<V[2]+V[1]が
成り立たない。従って「インタラクティブ」については
横へずらす操作は行なわない。次にi=3、すなわち
「ROM」について見る。j=1については、|Y
[3]−Y[1]|=|131−131|=0に対して
V[3]+V[1]=10+18=28となり、|Y
[3]−Y[1]|<V[1]+V[3]となる。すな
わちj=1の「コンパクト」と重なりが生じてしまう。
またj=2の「インタラクティブ」との関係を見ると、
|Y[3]−Y[2]|=|131−240|=10
9、V[3]+V[2]=10+26=36で|Y
[2]−Y[3]|<V[2]+V[3]とならないの
で「インタラクティブ」とは重なる恐れがない。従って
j=1についてのみx座標を考慮すれば良い。ξ=X
[1]+H[1]=149+27=176となり、ずら
し幅δはδ=ξ−(X[i]−H[i])=176ー
(193ー27)=10である。従ってj=3、...
10についてX[j]をすべて+10する。(X
[3],Y[3])=(203,131)となり、図7
における「ROM」の座標を得る。以下このステップの
繰り返しにより図7のノード格納エリア5441と同じ
データが得られる。この文字表示領域の重なり回避の操
作でも、前述した文字表示領域とグラフの線の重なりは
チェックできないし、実際問題として、限られた表示面
積では、これを厳密に避けようとすると、適当な大きさ
の中で、表示のできないことも起こりうるので、実施例
では、これについてのチェックはしないこととした。
【0039】最後にグラフ配置ルーチン443はリンク
配置ルーチン4435を起動する。リンク配置ルーチン
4435は共起関係解析ワークエリア53の中の共起リ
ンク格納エリア532に格納された共起リンクを張るべ
き単語ペアに関する情報と、ノードデータ格納エリア5
431に格納されている各ノードの座標データから特徴
語表示部224に表示すべき線分のデータ、すなわち始
点の座標と終点の座標を作成してリンクデータ格納エリ
ア5422に格納する。例えば図12の共起リンク格納
エリア532には「ROM」から「出版」へのリンクが
ある。図7のノードデータ格納エリア5431に格納さ
れたデータより、「ROM」の座標が(203,13
1)であり「出版」の座標が(308,40)であるこ
とが分かるので、(203,131)を始点として(3
08,40)を終点とする線分のデータがリンクデータ
格納エリア5432に格納される。以上により表示すべ
きグラフのデータ(図7)が作成された。以下では特徴
語表示手段22の特徴語表示部224に表示された特徴
語のグラフ表示を参考にして検索作業を進展させる利用
形態の例を示す。
【0040】図8は「電子出版」に関する特徴語表示の
例であるが、ここでユーザが仮に表示された語のひとつ
である「デスクトップパブリッシング」に興味があると
しよう。この場合には、画面上でその単語の所をマウス
12などで指示してから加点キーワードの移動ボタン2
2222を指示すると「デスクトップパブリッシング」
が加点キーワード格納エリア5112に格納され、検索
インタフェイス21の加点キーワード表示部2122と
特徴語表示手段22の加点キーワード表示部2222に
表示される。そこで検索インタフェイス21の検索実行
ボタン216もしくは特徴語表示手段22の検索実行ボ
タン2211を押すと加点キーワードに「デスクトップ
パブリッシング」を加えた形で検索が実行され検索の絞
り込みをすることができる。また図8の特徴語表示部2
24に表示された特徴語の中に興味ある単語を発見でき
なかった場合には特徴語表示数設定手段2251を用い
て表示語数を増やすことができる。図18は特徴語表示
語数を20に増やした場合の例である。この場合には図
9のデータの例では、このデータから特徴語抽出ルーチ
ン441により、20個の単語が選択されて、図8のケ
ースで説明したと同様に表示される。ここで仮にユーザ
は「電子出版」における「情報検索」に興味があったと
すれば表示されたグラフに「検索」および「情報検
索)」という語が表示されているのでそれを利用でき
る。特徴語表示部の「検索」と「情報検索」をマウスな
どでクリックしてから加点キーワードへの移動ボタン2
2222を押せばこれらの単語が加点用のキーワードと
して付け加えられる。これで検索実行ボタン2211を
押せば検索の絞り込みができる。また検索を絞り込んだ
後で特徴語のグラフを見たい場合には特徴語表示ボタン
2212を押せば良い。それから検索と特徴語のグラフ
を連続して行なう場合には検索実行+特徴語表示ボタン
2213を押せば以上のステップが連続して行なわれ
る。
【0041】次に「情報検索」には興味がない場合、あ
るいは「情報検索」に関する文書には既に目を通してし
まい、それ以外の話題に注目したい場合には、減点キー
ワードを利用する。すでに「検索」と「情報検索」が加
点キーワードに加えられている場合には、加点キーワー
ド表示部2222に表示されているこれらの単語をマウ
スなどで指示してから減点キーワードへの移動ボタン2
2232を押せばこれらの単語が加点キーワードから減
点キーワードへ移動する。なお特徴語表示部224に表
示されている単語を直接減点キーワードとして利用した
い場合には、加点キーワードの時と同様に、該当する単
語をマウスなどでクリックした後減点キーワードへの移
動ボタン22232を押せば良い。すなわち、本実施例
では、検索キーワード間では移動ボタンにより移動の操
作が行われ、表示された特徴語とキーワード間では移動
ボタンにより複写の操作が行われる。
【0042】「検索」と「情報検索」を減点キーワード
へ移動してから検索を実行すると今度はこれらの単語を
含む文書の得点が下がり、相対的にこれらを含まない文
書の得点が上がるので「電子出版」に関する文書の内、
「情報検索」には関係のない文書に注目することが出来
る。図19は特徴語表示様式選択手段2171を備え、
特徴語をグラフの形で表示したり、リストの形で表示し
たりすることを選択できる機能を備えた検索インタフェ
イス21の一例である。リストでの表示はグラフで表示
した場合と比べて、多数の特徴語を表示する為、特徴語
相互の関連性を表示できないので関連性に着目した結果
の評価ができないという欠点がある反面、スクロールバ
ーを用いることにより、検索結果に出現する多数の特徴
語を一覧できるので、ユーザにとって興味と合致する関
連語を発見できる可能性が高くなる長所がある。
【0043】したがって、図19に示される特徴語表示
様式選択手段2171を利用して、まず、検索結果をグ
ラフ表示して特徴語の全体像を相互の関連性も含めて概
観して、結果を評価し、これにユーザの興味と合致する
関連語が十分に表われない場合には、リスト表示を用い
て更に細かく探すという二段階の結果評価ができる。さ
らに、リストを利用した表示から興味のもたれる語が得
られたとき、これをキーワードとして利用して、再度検
索からやり直すこともできる。図19の特徴語表示様式
選択手段2171で「グラフ」を選択すれば、図8ある
いは図18で説明したように、特徴語のグラフ表示がな
される。図19に示すように、「リスト」を選択すれ
ば、図20に一例を示すように、特徴語表示部224に
は、特徴語がリストの形で表示される。特徴語表示様式
選択手段2171で「リスト」を選択した場合でも、検
索された文書群から特徴語を抽出する方法は前述したグ
ラフ表示の場合と同じである。ただし、リスト表示の場
合、図9に示したように頻度を5クラスとするよりは、
高、中、低の3クラス程度とする方が見やすいと考えら
れるので、図20の表示例では、頻度クラスの分割数は
3とした。図20において、「リスト」の選択に対応し
て、特徴語表示部224には、高頻度特徴語表示部22
41、中頻度特徴語表示部2242および低頻度特徴語
表示部2243がそれぞれスクロールバー付きの表示枠
が設定され、頻度データ格納エリア523の特徴語の頻
度クラスデータに対応した特徴語が各表示枠内に表示さ
れる。各表示枠内での表示順は、たとえば、頻度比の大
きさ順にならべるのが良い。これにより、ユーザは、よ
り一般性の高い特徴語から固有名など特殊性の高い特徴
語までを一覧でき、幅広い選択肢から興味に合致した単
語を検索できる。
【0044】実施例2 以下、本発明の第2の実施例を図21に従って説明す
る。第1の実施例が独立に使用されるコンピュータによ
る検索装置の構成例であったのに対し、本実施例では、
複数のユーザによる検索要求に応えることのできる検索
方法を実現するものである。図21に本実施例の文献検
索方法を実現する他の実施例の全体構成を示す。本実施
例は、一つのサーバに複数のクライアントが信号伝送回
線を介してアクセスし、クライアント毎に検索サービス
を受けることのできるものである。サーバは、サーバ自
体をクライアントとしても利用することはないのが一般
的である。しかし、本実施例では、クライアントからの
問題指摘に応じてサーバもクライアントとしても利用す
る必要がありうることを考慮して、サーバは、実施例1
で説明したのと実質的に同じ構成に通信手段7をプラス
した検索装置とした。クライアントは実施例1で説明し
た構成のうち入力手段1、表示手段2、CPU3、計算
プログラム保持手段4、計算プログラムを動作させるた
めのワークエリア5およびバス100のそれぞれに対応
するダッシュを付して示した手段、およびサーバとの連
係を取るための通信手段7および出力手段8としてのプ
リンタ81よりなる。サーバのバス100にはインタフ
ェイスIF1が、およびクライアントのバス100には
インタフェイスIF2、 IF3がそれぞれ設けられ
て、サーバ−クライアント間を結ぶ回線NET1,NE
T2で結ばれる。なお、クライアント2についてはバス
100およびインタフェイスIF2のみを図示して他は
省略した。
【0045】クライアント1が文献検索をしようとする
とき、まず、入力手段1のキーボード11から文献検索
システム起動のコマンドを入力する。これに応じて、ク
ライアンと側の通信手段7とサーバ側の通信手段7が通
信経路NET1を介して連絡を取り、サーバ側の計算プ
ログラム保持手段4の検索インタフェイス作動ルーチン
41がクライアント1側に送信され、クライアント1側
で起動される。この結果、表示手段2に対話的に検索作
業を進めるための検索インタフェイス21が表示され
る。検索インタフェイス21が表示された後は、クライ
アント1はこの画面を利用して実施例1で説明したと同
様の手順で検索キーとなる語を入力してゆけば良い。な
お、クライアント側では検索インタフェイス作動ルーチ
ン41のコピーを計算プログラム保持手段4に保持して
おいて、これを起動するものとしても良い。また、WW
Wプラウザなどのハイパーテキスト閲覧インタフェイス
を利用して本検索支援サービスが受けられるようにする
のも便利である。その場合には、サーバ側には、検索イ
ンタフェイス作動ルーチン41をクライアント側に送信
するためのハイパーテキスト(HT)を用意する。な
お、クライアント側では汎用のハイパーテキスト閲覧イ
ンタフェイスが利用できる環境にあることを前提とす
る。
【0046】表示手段2に表示されているハイパーテキ
スト閲覧インタフェイスのアドレス入力部から、本検索
支援サービスが指定するアドレス(すなわちサーバのネ
ットワーク上でのアドレスと検索インタフェイス作動ル
ーチン41を送付するためのハイパーテキストHTの存
在するファイル名など)を指定すると、双方の通信手段
を介して指定されたハイパーテキストHTが検索インタ
フェイス作動ルーチン41を伴ってクライアント側に送
られ、送付された検索インタフェイス作動ルーチン41
はクライアント側計算機で起動され、検索インタフェイ
ス21が表示手段2に表示され利用可能となる。なお、
上記では、直接ハイパーテキストHTのアドレスを指定
したが、ハイパーテキスト閲覧インタフェイスの閲覧部
に表示されているハイパーテキストに、本ハイパーテキ
ストHTのアドレスがアンカーとして埋め込まれている
場合には、そのアンカーの部分をマウスなどでクリック
しても同様の動作をさせることができる。
【0047】クライアント1が入力した検索要求は通信
手段7、7と通信経路NET1を介してサーバ側に伝送
され、サーバ側で必要な検索と特徴語抽出とグラフ配置
計算が実行されて、その結果が再び通信手段7、7の連
絡によりクライアント1側に返信され、クライアント1
の検索インタフェイス作動ルーチン41に手渡され、同
ルーチンはそのデータに基づいて特徴語グラフを特徴語
表示手段22に表示する。クライアント1はこの検索結
果に応じて実施例1で説明したと同様に、さらに必要な
検索操作があればこれに応じたデータを入力すれば良
い。このデータは再度サーバ側に伝送され、サーバ側で
必要な検索が実行されて、その結果が特徴語表示手段2
2に表示される。クライアント1は、必要ならプリンタ
ー81によってプリントされた出力を利用することがで
きる。このようにして、クライアント1は、実質的な検
索プログラムを持つことなく、サーバ側で実行された結
果のみを利用できる。したがって、クライアント1で
は、ワークエリア5は初期の入力データおよびサーバか
ら伝送されてきた検索結果と特徴語とそのグラフ配置に
関するデータ等を保持する能力があれば足りるから、簡
易な装置で充実した検索サービスを受けることができ
る。
【0048】
【発明の効果】以上、二つのタイプについて説明したよ
うに、本発明によれば、ユーザは、より一般性の高い特
徴語から固有名など特殊性の高い特徴語までを一覧で
き、幅広い選択肢から興味に合致した単語を検索でき
る。
【図面の簡単な説明】
【図1】本発明の実施例としての独立に使用されるコン
ピュータによる検索装置の構成例を示すブロック図。
【図2】ワークエリアのデータの割り当て配置の一例を
示す図。
【図3】ユーザとコンピュータとの間の検索インタフェ
イス表示画面の例を示す図。
【図4】検索実行時に検索ワークエリアに格納されるデ
ータの例を示す図。
【図5】図3に示した検索インタフェイス表示画面が検
索実行後に検索結果を表示した例を示す図。
【図6】ユーザが検索キーとしての特徴語を付与するた
めの特徴語表示手段起動時の表示画面の例を示す図。
【図7】ユーザから特徴語表示要求があった時に特徴語
グラフ格納エリアに格納されるデータの例を示す図。
【図8】検索された文書群における特徴語のグラフ表示
の一例を示す図。
【図9】検索された文書群における単語頻度データの一
例を示す図。
【図10】検索された文書群における特徴語リストの一
例を示す図。
【図11】検索された文書群における特徴語間の共起関
係を表すデータの一例を示す図。
【図12】検索された文書群において特に強い共起関係
を有する特徴語対のリストの一例を示す図。
【図13】特徴語のグラフ配置を計算する計算ルーチン
の構成の一例を示すパッド図(PAD図、Problem Anal
ysis Diagram)。
【図14】グラフ配置におけるx座標計算方法の一例を
示すパッド図。
【図15】検索結果のグラフ表示の際、表示データを正
規化された領域に仮想的に配置する際の座標データの一
例を示す図。
【図16】検索結果のグラフ表示の際、表示データの重
なり回避を行なう前のグラフの座標の一例を示す図。
【図17】グラフの表示ノードが重なるのを避けるため
のルーチンの詳細の一例を示すパッド図。
【図18】特徴語表示数を20にした場合の特徴語のグ
ラフ表示の一例を示す図。
【図19】特徴語表示様式選択手段を備えた検索インタ
フェイス表示画面の例を示す図。
【図20】特徴語のリスト表示の表示画面の例を示す
図。
【図21】検索装置の主体がサーバ側に備えられこれに
複数のクライアントがアクセスして検索を行う場合の構
成例を示すブロック図。
【符合の説明】
1、1:入力手段、11、11:キーボード、12、1
2:マウス、13、13:ペン入力手段、2、2:表示
手段、21、21:検索インタフェイス、7、7:通信
手段、8:出力手段、81:プリンタ81、IF1、I
F2、 IF3:インタフェイス、NET1,NET
2:回線、211:検索要求入力部、212:キーワー
ド表示・操作部、2121:必須キーワード表示部、2
1211:必須キーワードへの追加ボタン、2121
2:必須キーワードの消去ボタン、2122:加点キー
ワード表示部、2123:減点キーワード表示部、21
3:検索ヒット件数表示部、214:タイトル表示部、
215:文書表示部、216:検索実行ボタン、21
6:特徴語表示ボタン、2171:特徴語表示様式選択
手段、22:特徴語表示手段、221:特徴語表示手段
操作部、222:特徴語表示手段のキーワード表示・操
作部、223:特徴語表示手段の検索ヒット件数表示
部、224:特徴語表示部、2241:高頻度特徴語表
示部、2242:中頻度特徴語表示部、2243:高頻
度特徴語表示部、225:特徴語表示手段のパラメータ
設定部、2251:特徴語表示語数設定手段、3:計算
プログラム実行手段(CPU)、4:計算プログラム保
持手段、41:検索インタフェイス作動ルーチン、4
2:形態素解析ルーチン、43:検索ルーチン、44:
特徴語表示手段作動ルーチン、441:特徴語抽出ルー
チン、442:共起関係解析ルーチン、443:グラフ
配置ルーチン、4431:y座標計算ルーチン、443
2:x座標計算ルーチン、4433:表示座標への変換
ルーチン、4434:重なり回避ルーチン、4435:
リンク配置ルーチン、444:グラフ表示ルーチン、
5:ワークエリア、51:検索ワークエリア、511:
キーワード格納エリア、5111:必須キーワード格納
エリア、5112:加点キーワード格納エリア、511
3:減点キーワード格納エリア、512:検索結果格納
エリア、513:検索結果得点分布格納エリア、52:
特徴語抽出ワークエリア、521:特徴語抽出パラメー
タ格納エリア、5211:走査文書数上限値格納エリ
ア、5212:頻度クラス分割数格納エリア、521
3:抽出語数格納エリア、522:単語分割済み文書格
納エリア、523:頻度データベース格納エリア、52
4:特徴語リスト格納エリア、53:共起関係解析ワー
クエリア、531:共起データ格納エリア、532:共
起リンク格納エリア、54:グラフ配置ワークエリア、
541:正規化座標格納エリア、542:グラフ配置パ
ラメータ格納エリア、543:グラフ格納エリア、54
31:ノード格納エリア、5432:リンク格納エリ
ア、6:データベース保持手段、61:検索対象文書デ
ータベース、62:検索用インデックスデータベース、
63:単語頻度データベース、64:除外語データベー
ス。

Claims (17)

    【特許請求の範囲】
  1. 【請求項1】設定されたキーワードに応じて検索対象文
    書群から前記キーワードを持つ文書を検索結果文書とし
    て検出すること、ある単語が前記検索結果文書群中のい
    くつの文書に現れるかを意味する単語の文書頻度を検出
    すること、前記単語が検索対象文書群全体においていく
    つの文書に出現するかを意味する単語の全体文書頻度を
    検出すること、前記単語の文書頻度と単語の全体文書頻
    度との比を意味する頻度比を導出すること、前記文書頻
    度を所定の関係で頻度クラスに区分分けして各単語の文
    書頻度に応じて各単語を頻度クラスに対応させること、
    各頻度クラスから適当数の単語を単語の頻度比の大きさ
    順に特徴語として抽出すること、抽出された特徴語をグ
    ラフ形式またはリスト形式で表示することとよりなるこ
    とを特徴とする文献検索支援方法。
  2. 【請求項2】前記抽出された特徴語を頻度クラス別のリ
    スト形式または特徴語間の関連を示すグラフ形式のいず
    れかで表示する請求項1記載の文献検索支援方法。
  3. 【請求項3】設定されたキーワードに応じて検索対象文
    書群から前記キーワードを持つ文書を検索結果文書とし
    て検出する手段、ある単語が前記検索結果文書群中のい
    くつの文書に現れるかを意味する単語の文書頻度を検出
    する手段、前記単語が検索対象文書群全体においていく
    つの文書に出現するかを意味する単語の全体文書頻度を
    検出する手段、前記単語の文書頻度と単語の全体文書頻
    度との比を意味する頻度比を導出する手段、前記頻度比
    を所定の関係で頻度クラスに区分分けして各単語の頻度
    比に応じて各単語を頻度クラスに対応させる手段、各頻
    度クラスから適当数の単語を単語の頻度比の大きさ順に
    特徴語として抽出する手段、抽出された特徴語をグラフ
    形式またはリスト形式で表示する手段とよりなることを
    特徴とする文献検索装置。
  4. 【請求項4】前記抽出された特徴語を頻度クラス別のリ
    スト形式または特徴語間の関連を示すグラフ形式のいず
    れかで表示するする手段および特徴語表示形式を選択指
    定する手段を有する請求項3記載の文献検索装置。
  5. 【請求項5】前記特徴語間の関連が特徴語間の共起関係
    を基礎として決定され、前記グラフ形式が特徴語をノー
    ドとし関連性の高い特徴語の単語対にリンクを張って構
    成されたグラフである請求項3または4記載の文献検索
    装置。
  6. 【請求項6】設定されるキーワードが必須キーワード、
    加点キーワードおよび減点キーワードの3種類のキーワ
    ードとされ、必須キーワードによる検索は各必須キーワ
    ードによるアンド条件で検索を行ない、検索された前記
    検索結果文書群の各文書について、加点キーワードを含
    む場合には加点キーワード数に応じて高い得点を与え、
    減点キーワードを含む場合には減点キーワード数に応じ
    て減点し、より高い得点を得た文書群から特徴語抽出を
    行なう請求項3または4記載の文献検索装置。
  7. 【請求項7】必須キーワードの設定のない場合に加点キ
    ーワードによる検索が行われ、各加点キーワードによる
    検索はオア条件で行われる請求項6記載の文献検索装
    置。
  8. 【請求項8】設定される必須キーワード、加点キーワー
    ドおよび減点キーワードの3種類のキーワード間でキー
    ワードの種類を変更可能とされるとともに、表示された
    特徴語を必須キーワード、加点キーワードおよび減点キ
    ーワードのいずれかに複写可能とした請求項6または7
    記載の文献検索装置。
  9. 【請求項9】特徴語のグラフ表示において縦軸方向が検
    索された文書群における特徴語の文書頻度を表す請求項
    4ないし8のいずれかに記載の文献検索装置。
  10. 【請求項10】検索元から伝送されたキーワードに応じ
    て検索対象文書群から前記キーワードを持つ文書を検索
    結果文書として検出すること、ある単語が前記検索結果
    文書群中のいくつの文書に現れるかを意味する単語の文
    書頻度を検出すること、前記単語が検索対象文書群全体
    においていくつの文書に出現するかを意味する単語の全
    体文書頻度を検出すること、前記単語の文書頻度と単語
    の全体文書頻度との比を意味する頻度比を導出するこ
    と、前記頻度比を所定の関係で頻度クラスに区分分けし
    て各単語の頻度比に応じて各単語を頻度クラスに対応さ
    せること、各頻度クラスから適当数の単語を単語の頻度
    比の大きさ順に特徴語として抽出すること、抽出された
    特徴語を特徴語間の関連を示すグラフ形式で表示可能な
    データとして構成することまたは抽出された特徴語を頻
    度クラス別のリスト形式で表示可能なデータとして構成
    すること、前記特徴語をグラフ形式またはリスト形式で
    表示可能なデータとして検索元に送信することよりなる
    文献検索サービス方法。
  11. 【請求項11】前記検索元は、少なくとも、抽出すべき
    キーワードを持つ文書を特定するためのキーワードを伝
    送するための手段および前記送信された特徴語および特
    徴語間の関連を示すグラフ形式またはリスト形式で表示
    可能なデータを受信して表示するための手段を備えて検
    索サービスを受ける請求項10記載の文献検索サービス
    方法。
  12. 【請求項12】前記検索元は、前記送信された特徴語お
    よび特徴語間の関連を示すグラフ形式またはリスト形式
    で表示可能なデータを表示ソフトとともに伝送されて検
    索サービスを受ける請求項10記載の文献検索サービス
    方法。
  13. 【請求項13】前記検索元は、検索さ−ビスを受けるた
    めのユーザインタフェイス駆動ソフトを検索作業の開始
    時あるいは前もって検索サービス提供者から伝送を受け
    これを駆動して検索サービスを受ける請求項10記載の
    文献検索サービス方法。
  14. 【請求項14】検索結果に出現する各語の特徴度を計算
    するための頻度データを記録したコンピュータ読み取り
    可能な記録媒体であって、各語に関するデータが、
    (a)文字列、(b)検索された文書の内の何件にその
    語が出現したかを表す文書頻度、(c)検索結果に関係
    なく、検索対象文書全体で何件の文書に使われているか
    を表すデータベース全体での文書頻度、(d)前記検索
    結果における文書頻度とデータベース全体での全体文書
    頻度から計算される検索結果におけるその語の特徴度、
    (e)前記検索結果における文書頻度の大小によってク
    ラス分けした場合の頻度クラスとからなり、前記頻度ク
    ラスのそれぞれから前記特徴度の上位にある語を検索対
    象文書群における特徴語とすることを特徴とする検索結
    果に出現する語の頻度データを記録したコンピュータ読
    み取り可能な記録媒体。
  15. 【請求項15】検索結果に出現する特徴語間の関連度を
    計算するために、特徴語が共出現する共起データを記録
    したコンピュータ読み取り可能な記録媒体であって、各
    特徴語対に関するデータが、(a)検索結果文書群にお
    ける両特徴語が共出現する共起頻度と(b)該共起頻度
    と両特徴語各々の検索結果に出現する頻度データから計
    算される両特徴語の関連度とからなり、前記関連度の高
    い特徴語対に関連性が強いことを示すリンクを張れるよ
    うにすることを特徴とする検索結果における特徴語間の
    共起データを記録したコンピュータ読み取り可能な記録
    媒体。
  16. 【請求項16】検索結果に出現する特徴語対のグラフを
    画面表示するためのデータを記録したコンピュータ読み
    取り可能な記録媒体であって、前記特徴語対のグラフを
    画面表示するためのデータは(a)グラフのノード部分
    に特徴語を表示するためのデータ、(b)特徴語間の関
    連性を示すリンクを表示するためのデータとからなると
    ともに、前記各ノードのデータは、中心座標、表示する
    文字列、および、文字列を表示する領域の縦横の文字数
    とサイズからなり、前記各リンクのデータは始点座標と
    終点座標とからなり、特徴語グラフをリンクと文字列と
    による二次元表示を可能としたことを特徴とする特徴語
    グラフを画面表示するためのデータを記録したコンピュ
    ータ読み取り可能な記録媒体。
  17. 【請求項17】検索結果に出現する各語の特徴度を計算
    し、特徴語を導出し、特徴語対の共出現頻度にもとづい
    て関連性の高いと判定される特徴語対にリンクを張って
    得られる特徴語のグラフを画面表示するデータを記録し
    たコンピュータ読み取り可能な記録媒体であって、前記
    検索結果に出現する各語に関するデータが、(a)文字
    列、(b)検索された文書の内の何件にその語が出現し
    たかを表す文書頻度、(c)検索結果に関係なく、検索
    対象文書全体で何件の文書に使われているかを表すデー
    タベース全体での文書頻度、(d)前記検索結果におけ
    る文書頻度とデータベース全体での全体文書頻度から計
    算される検索結果におけるその語の特徴度、(e)前記
    検索結果における文書頻度の大小によってクラス分けし
    た場合の頻度クラスとからなり、前記頻度クラスのそれ
    ぞれから前記特徴度の上位にある語を検索対象文書群に
    おける特徴語とし、 前記特徴語間の関連度を計算するために、各特徴語対に
    関するデータが、(f)検索結果文書群における両特徴
    語が共出現する共起頻度と(g)該共起頻度と両特徴語
    各々の検索結果に出現する頻度データから計算される両
    特徴語の関連度とからなり、前記関連度の高い特徴語対
    にリンクを張れるようにし、 前記リンクの張られた特徴語グラフを画面表示するため
    に、前記特徴語グラフを画面表示するためのデータは
    (h)グラフのノード部分に特徴語を表示するためのデ
    ータ、(i)特徴語間の関連性を示すリンクを表示する
    ためのデータとからなるとともに、前記各ノードのデー
    タは、中心座標、表示する文字列、および、文字列を表
    示する領域の縦横の文字数とサイズからなり、前記各リ
    ンクのデータは始点座標と終点座標とからなり、前記各
    特徴語グラフをリンクと文字列とによる二次元表示を可
    能としたことを特徴とする特徴語グラフを画面表示する
    ためのデータを記録したコンピュータ読み取り可能な記
    録媒体。
JP17850097A 1996-07-05 1997-07-03 文献検索支援方法及び装置およびこれを用いた文献検索サービス Expired - Lifetime JP3614618B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP17850097A JP3614618B2 (ja) 1996-07-05 1997-07-03 文献検索支援方法及び装置およびこれを用いた文献検索サービス

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP17617496 1996-07-05
JP8-176174 1996-07-05
JP17850097A JP3614618B2 (ja) 1996-07-05 1997-07-03 文献検索支援方法及び装置およびこれを用いた文献検索サービス

Publications (2)

Publication Number Publication Date
JPH1074210A true JPH1074210A (ja) 1998-03-17
JP3614618B2 JP3614618B2 (ja) 2005-01-26

Family

ID=26497200

Family Applications (1)

Application Number Title Priority Date Filing Date
JP17850097A Expired - Lifetime JP3614618B2 (ja) 1996-07-05 1997-07-03 文献検索支援方法及び装置およびこれを用いた文献検索サービス

Country Status (1)

Country Link
JP (1) JP3614618B2 (ja)

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000010986A (ja) * 1998-06-18 2000-01-14 Trendy:Kk ドキュメントデータベースの検索支援方法とそのプログラムを記憶した記憶媒体
JP2001067362A (ja) * 1999-08-25 2001-03-16 Hitachi Ltd 単語の重要度計算方法、文献検索インタフェイス、単語辞書作成方法
JP2001337969A (ja) * 2000-05-29 2001-12-07 Nippon Telegr & Teleph Corp <Ntt> 知識獲得方法、文書情報構造化方法および装置と前記方法を実施するプログラムを記録した記録媒体
JP2002259429A (ja) * 2001-01-17 2002-09-13 Internatl Business Mach Corp <Ibm> コンピュータベースの適合テキスト検索システムおよび方法
JP2002288221A (ja) * 2001-03-26 2002-10-04 Just Syst Corp 文書表示装置、文書表示方法ならびに、プログラム
US6574622B1 (en) 1998-09-07 2003-06-03 Fuji Xerox Co. Ltd. Apparatus and method for document retrieval
US6584460B1 (en) 1998-11-19 2003-06-24 Hitachi, Ltd. Method of searching documents and a service for searching documents
JP2006031577A (ja) * 2004-07-21 2006-02-02 Hideki Mima 情報の検索俯瞰方法および装置
JP2006079366A (ja) * 2004-09-09 2006-03-23 Ricoh Co Ltd 情報検索システム、情報検索端末、情報検索方法、並びに、プログラムおよび記録媒体
WO2006043499A1 (ja) * 2004-10-18 2006-04-27 Pioneer Corporation 情報処理装置、分類基準情報データベース、情報生成装置、情報処理方法、情報生成方法、情報処理プログラム、情報処理プログラムの記録した記録媒体
JP2006293616A (ja) * 2005-04-08 2006-10-26 Nippon Telegr & Teleph Corp <Ntt> 文書集約方法及び装置及びプログラム
JP2009217406A (ja) * 2008-03-07 2009-09-24 Nec Corp 文書検索装置及び方法、並びに、プログラム
JP2009536401A (ja) * 2006-05-05 2009-10-08 ハリス コーポレイション 文書データベースにおける文書の領域識別のための方法
JP2010113412A (ja) * 2008-11-04 2010-05-20 Omron Corp 文書情報加工方法、文書情報加工装置、文書情報加工プログラムおよび記録媒体
WO2010061537A1 (ja) * 2008-11-26 2010-06-03 日本電気株式会社 検索装置、検索方法、及びプログラムが格納された記録媒体
JP2012527701A (ja) * 2009-05-22 2012-11-08 マイクロソフト コーポレーション 構造化されていないリソースからの句対のマイニング
JP2013003796A (ja) * 2011-06-15 2013-01-07 Navitime Japan Co Ltd 施設情報提供装置、施設情報提供システム、サーバ装置、端末装置、施設情報提供方法、およびプログラム
JP2013045415A (ja) * 2011-08-26 2013-03-04 Nippon Telegr & Teleph Corp <Ntt> 話題語獲得装置、方法、及びプログラム
JP2013178808A (ja) * 2013-05-13 2013-09-09 Fujitsu Ltd 情報検索装置、情報検索方法およびそのプログラム
US8566351B2 (en) 2011-01-28 2013-10-22 Hitachi, Ltd. System and program for generating boolean search formulas
JP2015125594A (ja) * 2013-12-26 2015-07-06 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、プログラム
JP2015164066A (ja) * 2015-05-07 2015-09-10 富士通株式会社 情報検索装置、情報検索方法およびそのプログラム
WO2018124464A1 (ko) * 2016-12-26 2018-07-05 삼성전자 주식회사 전자 장치 및 전자 장치의 검색 서비스 제공 방법
JP2018113046A (ja) * 2018-02-08 2018-07-19 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、プログラム
JP2019053678A (ja) * 2017-09-19 2019-04-04 富士ゼロックス株式会社 情報処理装置及びプログラム
JP2020060811A (ja) * 2018-10-04 2020-04-16 Tis株式会社 情報処理装置、情報処理方法およびプログラム
JP2020102023A (ja) * 2018-12-21 2020-07-02 富士ゼロックス株式会社 検索装置及び検索プログラム
JP2020181523A (ja) * 2019-04-26 2020-11-05 富士ゼロックス株式会社 情報処理装置及びプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06332935A (ja) * 1993-05-18 1994-12-02 Hitachi Ltd 単語の数値列表現辞書、その作成方法およびそれを使用した装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06332935A (ja) * 1993-05-18 1994-12-02 Hitachi Ltd 単語の数値列表現辞書、その作成方法およびそれを使用した装置

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000010986A (ja) * 1998-06-18 2000-01-14 Trendy:Kk ドキュメントデータベースの検索支援方法とそのプログラムを記憶した記憶媒体
US6574622B1 (en) 1998-09-07 2003-06-03 Fuji Xerox Co. Ltd. Apparatus and method for document retrieval
US7693910B2 (en) 1998-11-19 2010-04-06 Hitachi, Ltd. Method of searching documents and a service for searching documents
US6584460B1 (en) 1998-11-19 2003-06-24 Hitachi, Ltd. Method of searching documents and a service for searching documents
US6850937B1 (en) 1999-08-25 2005-02-01 Hitachi, Ltd. Word importance calculation method, document retrieving interface, word dictionary making method
JP2001067362A (ja) * 1999-08-25 2001-03-16 Hitachi Ltd 単語の重要度計算方法、文献検索インタフェイス、単語辞書作成方法
JP2001337969A (ja) * 2000-05-29 2001-12-07 Nippon Telegr & Teleph Corp <Ntt> 知識獲得方法、文書情報構造化方法および装置と前記方法を実施するプログラムを記録した記録媒体
JP2002259429A (ja) * 2001-01-17 2002-09-13 Internatl Business Mach Corp <Ibm> コンピュータベースの適合テキスト検索システムおよび方法
JP4617015B2 (ja) * 2001-03-26 2011-01-19 株式会社MetaMoJi 文書表示装置、文書表示方法ならびに、プログラム
JP2002288221A (ja) * 2001-03-26 2002-10-04 Just Syst Corp 文書表示装置、文書表示方法ならびに、プログラム
JP2006031577A (ja) * 2004-07-21 2006-02-02 Hideki Mima 情報の検索俯瞰方法および装置
JP2006079366A (ja) * 2004-09-09 2006-03-23 Ricoh Co Ltd 情報検索システム、情報検索端末、情報検索方法、並びに、プログラムおよび記録媒体
JP4538284B2 (ja) * 2004-09-09 2010-09-08 株式会社リコー 情報検索システム、情報検索端末、並びに、プログラムおよび記録媒体
WO2006043499A1 (ja) * 2004-10-18 2006-04-27 Pioneer Corporation 情報処理装置、分類基準情報データベース、情報生成装置、情報処理方法、情報生成方法、情報処理プログラム、情報処理プログラムの記録した記録媒体
JPWO2006043499A1 (ja) * 2004-10-18 2008-08-07 パイオニア株式会社 情報処理装置、分類基準情報データベース、情報生成装置、情報処理方法、情報生成方法、情報処理プログラム、情報処理プログラムの記録した記録媒体
JP4525433B2 (ja) * 2005-04-08 2010-08-18 日本電信電話株式会社 文書集約装置及びプログラム
JP2006293616A (ja) * 2005-04-08 2006-10-26 Nippon Telegr & Teleph Corp <Ntt> 文書集約方法及び装置及びプログラム
JP2009536401A (ja) * 2006-05-05 2009-10-08 ハリス コーポレイション 文書データベースにおける文書の領域識別のための方法
JP2009217406A (ja) * 2008-03-07 2009-09-24 Nec Corp 文書検索装置及び方法、並びに、プログラム
JP2010113412A (ja) * 2008-11-04 2010-05-20 Omron Corp 文書情報加工方法、文書情報加工装置、文書情報加工プログラムおよび記録媒体
JP5594145B2 (ja) * 2008-11-26 2014-09-24 日本電気株式会社 検索装置、検索方法、及びプログラム
WO2010061537A1 (ja) * 2008-11-26 2010-06-03 日本電気株式会社 検索装置、検索方法、及びプログラムが格納された記録媒体
US8892574B2 (en) 2008-11-26 2014-11-18 Nec Corporation Search apparatus, search method, and non-transitory computer readable medium storing program that input a query representing a subset of a document set stored to a document database and output a keyword that often appears in the subset
JP2012527701A (ja) * 2009-05-22 2012-11-08 マイクロソフト コーポレーション 構造化されていないリソースからの句対のマイニング
US8566351B2 (en) 2011-01-28 2013-10-22 Hitachi, Ltd. System and program for generating boolean search formulas
JP2013003796A (ja) * 2011-06-15 2013-01-07 Navitime Japan Co Ltd 施設情報提供装置、施設情報提供システム、サーバ装置、端末装置、施設情報提供方法、およびプログラム
JP2013045415A (ja) * 2011-08-26 2013-03-04 Nippon Telegr & Teleph Corp <Ntt> 話題語獲得装置、方法、及びプログラム
JP2013178808A (ja) * 2013-05-13 2013-09-09 Fujitsu Ltd 情報検索装置、情報検索方法およびそのプログラム
JP2015125594A (ja) * 2013-12-26 2015-07-06 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、プログラム
JP2015164066A (ja) * 2015-05-07 2015-09-10 富士通株式会社 情報検索装置、情報検索方法およびそのプログラム
WO2018124464A1 (ko) * 2016-12-26 2018-07-05 삼성전자 주식회사 전자 장치 및 전자 장치의 검색 서비스 제공 방법
JP2019053678A (ja) * 2017-09-19 2019-04-04 富士ゼロックス株式会社 情報処理装置及びプログラム
JP2018113046A (ja) * 2018-02-08 2018-07-19 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、プログラム
JP2020060811A (ja) * 2018-10-04 2020-04-16 Tis株式会社 情報処理装置、情報処理方法およびプログラム
JP2020102023A (ja) * 2018-12-21 2020-07-02 富士ゼロックス株式会社 検索装置及び検索プログラム
JP2020181523A (ja) * 2019-04-26 2020-11-05 富士ゼロックス株式会社 情報処理装置及びプログラム

Also Published As

Publication number Publication date
JP3614618B2 (ja) 2005-01-26

Similar Documents

Publication Publication Date Title
JP3614618B2 (ja) 文献検索支援方法及び装置およびこれを用いた文献検索サービス
US5987460A (en) Document retrieval-assisting method and system for the same and document retrieval service using the same with document frequency and term frequency
US11068494B2 (en) Interface including graphic representation of relationships between search results
US7047255B2 (en) Document information display system and method, and document search method
JP4583003B2 (ja) 検索処理方法及びプログラム
JP4335335B2 (ja) ドキュメント画像のソート方法
JP3942290B2 (ja) ドキュメント画像のクライアント・ワークステーションへの送信方法
US6826724B1 (en) Document processor, document classification device, document processing method, document classification method, and computer-readable recording medium for recording programs for executing the methods on a computer
US8555182B2 (en) Interface for managing search term importance relationships
US7861149B2 (en) Key phrase navigation map for document navigation
JP3577819B2 (ja) 情報探索装置及び情報探索方法
US20020099685A1 (en) Document retrieval system; method of document retrieval; and search server
US20020091678A1 (en) Multi-query data visualization processes, data visualization apparatus, computer-readable media and computer data signals embodied in a transmission medium
US20030225755A1 (en) Document search method and system, and document search result display system
JP2007286864A (ja) 画像処理装置、画像処理方法、プログラムおよび記録媒体
KR20070058685A (ko) 문서 구조에 기초한 검색 결과의 표시
WO2005004007A1 (en) Method for referencing image data
JP3625054B2 (ja) 技術文書検索装置
JP2007317034A (ja) 画像処理装置、画像処理方法、プログラムおよび記録媒体
JP4832952B2 (ja) データベース解析システム及びデータベース解析方法及びプログラム
EP1154355B1 (en) Document processing method, system and computer readable storage medium
JP5349699B1 (ja) 文書分析装置およびプログラム
JP2004362451A (ja) 検索キーワード情報表示方法及びシステム及び検索キーワード情報表示プログラム
US6961724B1 (en) Method and apparatus for image retrieval
JP4640861B2 (ja) 検索処理方法及びプログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041019

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041027

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071112

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081112

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081112

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091112

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101112

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101112

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111112

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111112

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121112

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121112

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131112

Year of fee payment: 9

EXPY Cancellation because of completion of term