JP2000099543A - 情報検索装置 - Google Patents

情報検索装置

Info

Publication number
JP2000099543A
JP2000099543A JP10272641A JP27264198A JP2000099543A JP 2000099543 A JP2000099543 A JP 2000099543A JP 10272641 A JP10272641 A JP 10272641A JP 27264198 A JP27264198 A JP 27264198A JP 2000099543 A JP2000099543 A JP 2000099543A
Authority
JP
Japan
Prior art keywords
document
information
document information
logical structure
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10272641A
Other languages
English (en)
Inventor
Katsuhiko Itonori
勝彦 糸乘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP10272641A priority Critical patent/JP2000099543A/ja
Publication of JP2000099543A publication Critical patent/JP2000099543A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 異なる文書フォーマットの文書情報を統一的
に扱い、文書中に示されている関連性を用いて文書の検
索を可能にした情報検索装置を提供する。 【解決手段】 予め、文書フォーマット共通化部1によ
って文書情報の文書フォーマットを共通化し、文書情報
蓄積部2に蓄積しておく。検索時にユーザが文書情報と
論理構造を指定装置5から指定すると、論理構造抽出部
3は、指定された文書情報について、指定された論理構
造を抽出する。文書情報検索部4は、抽出された論理構
造の内容を検索キーとして、文書情報蓄積部2に蓄積さ
れた文書情報を検索する。検索された文書情報は、検索
結果記憶部6に記憶させ、それらの各文書情報につい
て、論理構造抽出部3による論理構造の抽出、および、
文書情報検索部4による文書情報の検索を行う。検索結
果は記憶装置9に蓄積され、各文書情報間の関連性が把
握できるように表示装置7に表示する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、複数の異なる文書
フォーマットを持つ文書情報を蓄積し、検索する文書管
理システムに関するものであり、特にある文書から関連
する情報を検索する情報検索装置に関するものである。
【0002】
【従来の技術】従来、文書情報を検索するためには、文
書を蓄積している文書管理システム内の文書フォーマッ
トを統一し、その文書フォーマットに特有の検索方法を
用いて検索を行っていた。例えば、構造化文書に対する
文書管理システムであれば、文書管理システム内には構
造化文書のみを蓄積しており、文書の構造を用いた検索
が可能である。しかし、そのような検索には、当然、文
書画像やワープロで単に書かれた構造を持たない文書は
検索対象となっていなかった。また、検索された文書は
それぞれ独立した存在として表示され、各文書間での関
連性はユーザが全文を読んで確認する必要があった。
【0003】本来、文書は他の文書と関連性を持って書
かれることが多く、また、文書内においても多くの引用
関係が存在している。例えば、参考文献として文書を引
用することは、引用した文書と引用された文書間での関
連性を表わしている。このような関連性をたどることに
よって、ユーザはより容易に文書を検索することが可能
である。しかし従来の文書管理システムでは、このよう
な関連性を用いることは少なかった。
【0004】文書間での関連性を積極的に用いようとす
る技術として、例えば特開平7−230467号公報や
特開平8−287087号公報には、参考文献や引用文
献があるときには、それらの文献を表示できるようにし
ている。また、例えば特開平8−272818号公報で
は、各文献間の引用、参照関係を予め作成しておき、こ
れらの関係を利用して文献を検索可能にしている。さら
に、例えば特開平9−146968号公報には、単に参
考文献を検索するだけでなく、検索した文書を参考文献
とする他の文書を検索することで、元となる文献より新
しい、関連する文書を取り出すことを可能としている。
【0005】これらの技術はいずれも、参考文献により
引用関係を利用できるように、文書管理システムに蓄積
するデータを加工することによって、初めて上述のよう
な検索を可能にしている。例えば、参考文献リストから
書誌情報だけを取り出して、本文の情報と別に書誌情報
用のデータベースを構築し、参考文献に関する検索につ
いてはこの書誌情報のデータベースを検索するようにし
ている。
【0006】また、上述のようなシステムにおいては、
文書画像を取り扱う場合には、あらかじめ文字認識技術
などを用いて文書情報をコード化した上で登録する必要
がある。例えば特開平10−3483号公報において
は、近年発達してきた文書画像処理技術を用いて、文書
画像情報から一定の条件で書かれている引用関係を自動
的に取り出し、文字コード化して、関連する文書情報を
検索するシステムが提案されている。このシステムで
は、処理コストの高い文字認識処理を最小限に抑えるた
めに、決められた画像パターンを用いて文書内から引用
関係を見つけ出し、対応する部分のみについてだけ文字
認識処理を適用し、検索用の書誌情報を取り出すように
している。
【0007】しかし、文書間あるいは文書内での引用関
係の記述方法は、さまざまな方法が用いられている。例
えば、引用文献を示すために、例えば[1]、[2]、
…などのように一連の番号を用いる場合もあるし、例え
ば[nori98]、[taro96]といったように
文献の発表時期と著者によって示す場合もある。そのた
め、上述の特開平10−3483号公報に記載されてい
るような、決められた画像パターンを検索する方法で
は、さまざまな書き方に柔軟に対応することは難しい。
【0008】さらに、上述の文書間の関連を利用できる
いずれのシステムにおいても、電子文書と文書画像を統
一的に扱うことはできない。このように電子文書や文書
画像など、異なる文書フォーマットが混在した文書情報
について、関連性のある文書を示すような技術はこれま
で提案されていなかった。
【0009】
【発明が解決しようとする課題】本発明は、上述した事
情に鑑みてなされたもので、例えば電子文書と文書画像
などのように異なる文書フォーマットの文書情報を統一
的に扱い、文書中に示されている引用関係などの関連性
を用いた文書の検索を可能にした情報検索装置を提供す
ることを目的とするものである。
【0010】
【課題を解決するための手段】本発明は、複数の文書情
報の文書フォーマットを共通化して蓄積しておく。この
とき、例えば文書情報が文書画像である場合には、文書
画像を性質の違う領域に分割し、文字領域に関しては文
字認識を行い、領域分割の結果と文字認識の結果から文
書の論理構造を決定し、また例えば単にワープロで作っ
たような文書情報が文書内容と書式情報のみを持つ場合
には、文書中の書式情報の変化と文書内容から文書情報
の論理構造を決定し、共通の文書フォーマットに変換す
る。
【0011】文書情報および文書情報中の特定の論理構
造を指定すると、論理構造抽出手段で指定された文書情
報から指定された論理構造を抽出し、抽出した論理構造
に対応する文書内容を検索キーとして文書情報を検索す
る。さらに、検索された文書情報から指定された論理構
造を抽出し、抽出した論理構造に対応する文書内容を検
索キーとして前記文書情報蓄積手段内の文書情報を検索
する。この処理を検索結果が存在しなくなるまで繰り返
す。論理構造を抽出する際には、文書情報を構成する各
ノードの情報を参照して、指定された論理構造と意味的
に同等の構造を抽出するように構成することができる。
【0012】このようにして、文書フォーマットに関係
なく、指定された論理構造を有する文書情報を検索する
ことができる。また、例えば論理構造として引用関係を
表す構造を指定すれば、検索された文書情報は、それぞ
れ引用関係によって関連づけられた情報として取り出す
ことができる。検索された文書情報を例えばそれぞれ関
連づけて表示することによって、ユーザに対して文書情
報の引用関係を把握しやすい形式で提供することができ
る。
【0013】
【発明の実施の形態】図1は、本発明の情報検索装置の
実施の一形態を示すブロック図である。図中、1は文書
フォーマット共通化部、2は文書情報蓄積部、3は論理
構造抽出部、4は文書情報検索部、5は指定装置、6は
検索結果記憶部、7は表示装置、8は中央制御装置、9
は記憶装置である。
【0014】文書フォーマット共通化部1は、文書情報
の文書フォーマットを共通化する。文書情報蓄積部2
は、文書フォーマットが共通化された複数の文書情報を
蓄積する。論理構造抽出部3は、文書情報から特定の論
理構造を抽出する。文書情報検索部4は、論理構造抽出
部3で抽出された論理構造の内容を検索キーとして、文
書情報蓄積部2に蓄積された文書情報を検索する。指定
装置5は、マウスやキーボードなどの入力装置を具備
し、特定の文書情報や論理構造を指定することができ
る。検索結果記憶部6は、検索結果を一時的に記憶す
る。表示装置7は、検索結果や動作状況を表示する。中
央制御装置8は、装置全体の動作を制御する。記憶装置
9は、中央制御装置8で実行されるプログラムやデータ
を記憶するとともに、論理構造抽出部3による論理構造
の抽出および文書情報検索部4における検索キーの設定
に用いた文書情報を蓄積する。
【0015】図2は、本発明の情報検索装置の実施の一
形態における動作の概要を示すフローチャートである。
予め、S11において文書フォーマット共通化部1によ
って文書情報の文書フォーマットを共通化し、文書情報
蓄積部2に蓄積しておく。その後、検索を行う際に、S
12においてユーザが検索キーを設定するための文書情
報と論理構造を指定装置5から指定する。指定された文
書情報は、変数Aに格納する。変数Aに格納された文書
情報はS13において記憶装置9に記憶される。S14
において、論理構造抽出部3は、変数Aに格納されてい
る文書情報について、指定された論理構造を抽出する。
そしてS15において、文書情報検索部4は、論理構造
抽出部3で抽出された論理構造の内容を検索キーとし
て、文書情報蓄積部2に蓄積された文書情報を検索す
る。検索された文書情報は、S16において検索結果記
憶部6に記憶する。
【0016】S17において、検索結果記憶部6に検索
された文書情報が記憶されているか否かを判定し、検索
された文書情報が検索結果記憶部6に記憶されている場
合には、S18でそのうちの1つを選択して取り出し、
変数Aに格納してS13に戻る。そして、選択した文書
情報を記憶装置9に蓄積した後、その文書情報につい
て、指定された論理構造を論理構造抽出部3で抽出し、
抽出した論理構造の内容を検索キーとして、文書情報検
索部4により文書情報の検索を行う。このような処理
を、検索結果記憶部6に検索された文書情報がなくなる
まで繰り返す。
【0017】S17において検索結果記憶部6に文書情
報がなくなると、それまで検索した文書情報を用い、そ
れらの文書情報の関係、すなわちどの文書情報からどの
文書情報を検索したかによって得られる関係をユーザが
理解できるように、S19で表示装置7に表示する。
【0018】以下、上述の動作の概要について具体例を
用いながら詳述する。まず、文書フォーマット共通化部
1において、入力された複数の文書情報の文書フォーマ
ットを特定の文書フォーマットに共通化する処理を行
う。共通化に用いる特定の文書フォーマットは、論理構
造を用いた検索を行いやすいように論理構造を表わすこ
とができ、かつ簡便な記述が可能な文書フォーマットが
望ましい。論理構造が扱える文書フォーマットとしてS
GMLやHTMLが知られている。しかしSGMLは、
DTDにより論理要素を表わすタグ名とそのスキーマが
制限されるため、本発明には適していない。なぜなら、
さまざまな情報を表わし、さまざまな論理構造を持つ文
書が入力されることが想定されているので、すべての論
理構造のスキーマと、用いられるすべての論理要素のタ
グ名をあらかじめ予想することは難しいためである。同
様に、HTMLでは、容易に使用できるように論理要素
を表わすタグ名が大きく制限されているために、本発明
には適さない。特定の文書フォーマットを独自に定義す
ることもできるが、ここでは共通の文書フォーマットと
してXMLを用いて説明する。XMLでは、DTDを定
義する必要がなく、ユーザが自由にタグ名を定義するこ
とができる仕様となっているため、本発明で共通フォー
マットとして使用するには好適である。
【0019】まず、論理構造を記述できる文書フォーマ
ットであるSGMLやHTMLから、XMLへ変換する
のは容易である。SGMLはXMLのサブセットとして
定義されているので、基本的に変更して使用する部分は
ない。しかし、本発明では文書型の定義は必要ないの
で、文書型の定義の部分を削除して用いることができ
る。
【0020】次に、単にワープロなどで作成された書式
情報のみを持つような文書情報についての共通化につい
て説明する。書式情報のみを持つ文書情報では、各文字
のフォントやフォントサイズ、また段落やインデントな
ど、表示に必要な情報を多く含んでいる。そのため、こ
のようなフォント情報などの変化により、論理構造を推
定することができる。ただし、ここでは正確な論理構造
の推定は困難であるので、“節”や“段落”、“本文”
などの大まかな構造のみを割り当てていく。例えば、節
の見出しなどは、フォントとして本文より大きなサイズ
を用いていたり、また、書体としてボールドを用いるな
どにより強調している場合が多い。本文は、節の見出し
などに対してインデントをつけて記述される場合があ
る。このような情報により、構造の割り当てを実施す
る。したがって、XMLの各ノードのタグ名として
“節”や“段落”といったものが用いられ、論理構造が
構成される。
【0021】図3は、書式情報のみを持つ文書情報につ
いての共通化処理の具体例の説明図である。この例で
は、図3(A)に示すような書式情報のみを持つ文書情
報(RTF文書)をXMLによる記述に変換した例を示
しており、図3(B)に示すようなXMLの記述が得ら
れる。
【0022】文書画像では、さらに構造を推定すること
が難しい。文書画像の場合は、その画像情報の性質の違
いから画像内を領域分けして、そのテキスト領域に対し
て構造を割り当てていく。このとき利用できる情報は、
画像上の位置情報とサイズ情報、さらに文書認識装置を
用いることで各テキスト領域内の文字情報を用いること
ができる。しかし、この時点での構造の割り当ては、各
テキスト領域の位置関係のみにより大まかに行うのみで
ある。例えば、画像領域の最上部と最下部に存在する文
字領域は、ヘッダであったり、フッタであるかもしれな
いが、本文である可能性もある。したがって、この段階
では、文字領域(テキストブロック)の位置関係をXM
Lで記述するのみで、構造を決定するのは論理構造抽出
部3での構造のマッチング処理により最終的に決定す
る。
【0023】図4は、文書画像についての共通化処理の
具体例の説明図である。この例では、図4(A)に示す
ような文書画像が入力された場合を示している。このよ
うな文書画像から、「文書情報の保存と検索」、「富○
太郎」、「富○学園大学」、の各文字領域と、その下に
■を並べて示した文字領域をそれぞれ分離し、文字認識
を行い、図4(B)に示すようなXMLの記述を得てい
る。
【0024】XMLに変換された文書情報は、文書情報
蓄積部2に蓄積される。この時、共通フォーマットに変
換された文書のみを蓄積しておいてもよいし、元の文書
と共通フォーマットに変換した文書を対にして蓄積して
もよい。対にして蓄積しておけば、検索結果を元の文書
フォーマットとして取り出して利用することも可能とな
る。
【0025】検索を行う際には、まず、検索キーを設定
するための文書を1つ指定する。指定する文書は、文書
情報蓄積部2に蓄積されている文書情報を指定装置5を
用いて指定することができる。あるいは、外部の文書デ
ータベースの文書情報、または、ユーザが新たに入力す
る文書情報でもよい。この場合の文書情報は、上述のよ
うにして文書フォーマット共通化部1で文書フォーマッ
トを共通のフォーマットに変換しておく必要がある。
【0026】論理構造抽出部3では、ユーザにより指定
された文書情報、あるいは検索結果記憶部6から取り出
された文書情報から、抽出対象となる論理構造を抽出す
る。図5は、抽出対象となる論理構造の具体例の説明
図、図6は、文書情報が有する論理構造の具体例の説明
図である。ここでは具体例として、学術論文の巻末ある
いは文末に記載されている参考文献リストを示す図5の
ような論理構造を抽出する例を示す。図5に示した構造
では、まず、“参考文献リスト”というタグ名を持つノ
ードの子ノードとして“文献”というタグ名のノードが
複数並んでいる。これらのノードの内容は、“文献”と
いうタグ名のノードについては各文献の書誌情報であ
り、“参考文献リスト”というタグ名のノードには“参
考文献”、“文献”あるいは“References”
などの表題である。
【0027】はじめからこのようなタグ名で各構造を定
義している論理構造であれば、論理構造間のマッチング
操作によって、該当する論理構造を抽出することが可能
である。しかし、蓄積されている文書のタグ名が異なる
タグ名で定義されいるXML文書であったり、文書画像
から変換された文書情報である場合には、単純なマッチ
ング操作だけでは、指定された論理構造を抽出すること
はできない。
【0028】例えば図6(A),(B)に示すいずれの
構造も、図5に示すようなタグ名を有した構造とはなっ
ていない。しかし、図6(A)に示す構造において、
“節タイトル”のタグ名を持つノードに“参考文献”と
いう内容が存在し、その兄弟ノードの“段落”に各参考
文献の書誌情報が含まれていれば、その構造は図5に示
した構造と同様の参考文献リストを表わしていると判断
できる。また、図6(B)に示す構造についても、“テ
キストブロック”のタグ名を持つノードに“参考文献”
の内容があり、その子ノードに参考文献の書誌情報があ
れば、その構造は図5に示した構造と同様の参考文献リ
ストであると判断できる。
【0029】また、このような論理構造だけでは判断が
できない場合には、各ノードの特徴的な内容も加味した
マッチング操作を行えばよい。例えば、各文献の書誌情
報は本文中の引用と対応できるように番号、あるいは特
定の文字列で開始されている。このような特徴を各ノー
ドの内容から取り出しながら、各ノードを指定された論
理構造とマッチングをとって、指定された論理構造を抽
出することができる。
【0030】図7は、論理構造抽出部3における指定さ
れた論理構造の抽出処理の一例を示すフローチャートで
ある。ここでは上述の具体例に倣い、参考文献リストの
構造を抽出する例を示している。まずS21において、
文書情報から最初のノードを取り出して、変数Aに格納
する。このときS22においてノードが存在したか否か
を判定し、ノードが存在しなくなるまで以下の処理を行
う。
【0031】S23において、S21で取り出したノー
ドの内容が“参考文献”あるいは“文献”であるか否か
を調べる。ノードの内容が“参考文献”あるいは“文
献”でなければ、S21へ戻って次のノードを取り出
す。このような処理を繰り返すことにより、参考文献が
リストされている節の見出しを見つけることができる。
【0032】“参考文献”あるいは“文献”を内容とす
るノードを見つけたら、このノードの子ノードあるいは
兄弟のノードについての処理を行う。まずS24におい
て、このノードに子ノードが存在するか否かを判定す
る。子ノードが存在する場合には、S25において子ノ
ードを取り出す。S26において子ノードが存在したか
否かを判定し、子ノードが存在する限り、それらのノー
ドについて書誌情報を抽出する。書誌情報は、文書内の
引用場所との対応を取るため、特別な記述によって始ま
っている。ここでは一例として、括弧に囲まれた数字で
文書内との対応をつけているものとする。したがって、
各ノードの内容がテキストであるか否かを調べ、テキス
トであればその内容が“[”、数字、および“]”の組
み合わせで始まる記述であるか否かをS27で判定す
る。この記述で始まっているノードを参考文献の書誌情
報の一部であるとして、S28においてそのノードの内
容を取り出す。子ノードがなくなれば、S26からS2
1へ戻り、次の参考文献を内容とするノードを見つける
処理を続ける。
【0033】同様に、兄弟ノードが存在する場合には、
S29において兄弟ノードを取り出す。S30において
兄弟ノードが存在したか否かを判定し、兄弟ノードが存
在する限り、それらのノードについて書誌情報を抽出す
る。S31において、各ノードの内容がテキストである
か否かを調べ、テキストであればその内容が“[”、数
字、および“]”の組み合わせで始まる記述であるか否
かを判定する。この記述で始まっているノードを参考文
献の書誌情報の一部であるとして、S32においてその
ノードの内容を取り出す。兄弟ノードがなくなれば、S
30からS21へ戻り、次の参考文献を内容とするノー
ドを見つける処理を続ける。
【0034】この例では、単に各ノードの内容だけを見
てマッチングを行っているが、例えばノードのタグ名を
比較することによって、さらに正確に早くマッチングを
行うことができる。ただし、図5と図6で示したよう
に、各ノードのタグ名は統一されていないので、タグ名
の間の対応付けを考慮してマッチングを行う必要があ
る。たとえば、“参考文献”タグは“テキストブロッ
ク”タグあるいは“節”タグとマッチングするというル
ールを持って処理を行えばよい。ここで、兄弟ノードを
探索しているのは、例えば図6(A)に示すように、節
の子ノードとして節タイトルが位置し、その兄弟ノード
に文献の書誌情報が位置づけられているような文書構造
に対応するためである。
【0035】次に文書情報検索部4において、論理構造
抽出部3で抽出された論理構造の各ノードの内容を検索
キーとして、文書情報蓄積部2に蓄積されている情報を
検索する。この文書情報検索部4は、一般的な文書検索
方法によって実現できる。また、書誌情報の中を特定の
記号を用いて、著者やタイトル、発行機関などの要素に
分解して、検索装置の検索キーとして用いることができ
る。例えば図3(B)に示した文書情報の例では、すで
に句読点などで各文書内容が分割されている。したがっ
て、これらの各文書内容から著者名、タイトルなどを特
定することで検索式を作成することができる。まず、著
者名を特定するためには、人名辞典と各文書内容の文字
列を比較し、人名辞典に登録されている文字列であれ
ば、その文書内容は著者名であるとする。数字の並びが
日付の記法、例えば“×月×日”、“YYMMDD”な
どに一致すれば、その文書内容は日付情報と判断でき
る。さらに、“論文集”や“予稿集”、“in Pro
c”などのキーワードを含む文書内容は、出典名である
と判断することができる。そして、残りの文書内容をタ
イトルとする。
【0036】図8は、文書情報検索部における検索式の
生成の具体例の説明図である。図8(A)は図3(B)
と同じXML文書である。人名辞典に“T.Fuj
i”、“S.Yamada”の名前が登録されていれ
ば、これらの内容を著者名として特定し、“Docum
ent Image Analisys”、“Docu
ment Recognition”をタイトルとして
特定し、“in Procof xxx Sympos
ium.”を出典名、“1989.”を日付として特定
できる。これらによって、例えば図8(B)および図8
(C)に示すような検索式を生成することができる。
【0037】この例ではタイトルをそのままキーワード
としているが、これに限らず、さらに書誌情報のタイト
ルに対して形態素解析を行い、キーワードを抽出して検
索することもできる。
【0038】このようにして生成された検索式を用い
て、文書情報蓄積部2に蓄積されている文書情報を検索
することによって、ユーザは1つの文書から、大量の文
書情報の中から関連する文書情報(この場合、参考文
献)を容易に取り出すことができる。しかも、もとの文
書情報が異なる文書フォーマットを有していても検索す
ることができる。このときユーザは、文書フォーマット
の変換のような処理を指定する必要はなく、また、特別
なキーワードを設定する必要もなく、検索することがで
きる。このようにして検索された結果は、例えば表示装
置7に列挙して表示することができる。その列挙された
中から参照したい文書情報を選択することにより、所望
の文書情報を得ることができる。
【0039】文書情報検索部4で検索された文書情報
は、一時的に検索結果記憶部6に蓄積される。この検索
されたおのおのの文書情報に対して、再び文書構造抽出
部3により特定の論理構造を抽出して、文書情報蓄積部
2に蓄積されている文書情報を検索する。このような処
理を、検索結果記憶部6に蓄積されている検索結果の文
書情報がなくなるまで繰り返し行う。また、検索された
結果は記憶装置9に順次蓄積していく。
【0040】このような検索だけでは、最初に指定した
文書より過去に出版された文書のみが記憶装置9に蓄積
されるだけであるので、次に指定した文書の書誌情報を
検索キーとして、文書情報蓄積部2に蓄積された文書情
報を検索する。この場合も同様に、検索結果を一時的に
検索結果記憶部6に蓄積し、この検索結果記憶部6内に
文書情報がなくなるまで繰り返し検索を行う。検索の際
には、文書情報内での検索の範囲を、参考文献を記載し
ている節のみとすることで、より早く、精度の高い検索
が可能である。この参考文献の記載されている節を見つ
けるには論理構造抽出部3の機能を使用することができ
る。また、文書の書誌情報は、文書のフロント頁に記載
されている情報、タイトルや著者名、著者所属を用いる
ことで取り出すことができる。これらの構造を取り出す
のも論理構造抽出部3の機能を同様に利用することがで
きる。このようにして検索した結果も、記憶装置9に記
憶される。
【0041】このようにして、ユーザが指定した文書か
ら、参照関係にある文書情報が記憶装置9に蓄積され
る。記憶装置9に蓄積された文書情報は、例えば出版時
期により整列し、表示装置7に表示させることができ
る。図9は、検索結果の表示形態の一例の説明図であ
る。この例では、記憶装置9に蓄積された検索結果であ
る文書情報間の関連がわかるように、グラフ表示した例
を示している。最初に指定された文書は、それが分かる
ように表示領域の中心に配置している。図9ではハッチ
ングを施して、表示形態を異ならせていることを示して
いる。そして、その周りに検索の結果得られた文書情報
を配置し、引用と被引用の関係にある文書を線で結ぶこ
とで文書間の関連性を表わしている。このように検索結
果を表示することにより、検索結果の関係を一目で簡単
に把握することができる。もちろん、図9に示した表示
形態は一例であって、他の表示形態で表示してもよい。
【0042】
【発明の効果】以上の説明から明らかなように、本発明
によれば、もとの文書情報の文書フォーマットが異なっ
ていても、ユーザは蓄積された文書情報の文書フォーマ
ットを気にすることなく、文書情報を検索し、さらに関
連するすべての文書情報を検索することができる。検索
の際には、文書情報と、特定の論理構造を指定するだけ
でよく、論理構造を有しない文書情報に対しても論理構
造を用いた検索を行うことができる。また、検索結果は
ユーザが把握しやすいように表示させることができる。
このように本発明によれば、種々の効果がある。
【図面の簡単な説明】
【図1】 本発明の情報検索装置の実施の一形態を示す
ブロック図である。
【図2】 本発明の情報検索装置の実施の一形態におけ
る動作の概要を示すフローチャートである。
【図3】 書式情報のみを持つ文書情報についての共通
化処理の具体例の説明図である。
【図4】 文書画像についての共通化処理の具体例の説
明図である。
【図5】 抽出対象となる論理構造の具体例の説明図で
ある。
【図6】 文書情報が有する論理構造の具体例の説明図
である。
【図7】 論理構造抽出部における指定された論理構造
の抽出処理の一例を示すフローチャートである。
【図8】 文書情報検索部における検索式の生成の具体
例の説明図である。
【図9】 検索結果の表示形態の一例の説明図である。
【符号の説明】
1…文書フォーマット共通化部、2…文書情報蓄積部、
3…論理構造抽出部、4…文書情報検索部、5…指定装
置、6…検索結果記憶部、7…表示装置、8…中央制御
装置、9…記憶装置。

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 複数の文書情報を蓄積する文書情報蓄積
    手段と、複数の文書情報の文書フォーマットを共通化し
    て前記文書情報蓄積手段に蓄積する文書フォーマット共
    通化手段と、文書情報および文書情報中の特定の論理構
    造を指定する指定手段と、指定された文書情報および検
    索された文書情報から指定された論理構造を抽出する論
    理構造抽出手段と、該論理構造抽出手段で抽出した論理
    構造に対応する文書内容を検索キーとして前記文書情報
    蓄積手段内の文書情報を検索する検索手段を有し、前記
    検索手段によって検索された文書情報に対して前記論理
    構造抽出手段による論理構造の抽出および前記検索手段
    による検索を検索結果が存在しなくなるまで繰り返すこ
    とを特徴とする情報検索装置。
  2. 【請求項2】 前記検索手段により順次検索された文書
    情報を関連づけて表示する表示手段を有していることを
    特徴とする請求項1に記載の情報検索装置。
  3. 【請求項3】 前記文書フォーマット共通化手段は、文
    書情報が文書画像である場合に、該文書画像を性質の違
    う領域に分割し、文字領域に関しては文字認識を行い、
    領域分割の結果と文字認識の結果から文書の論理構造を
    決定し、共通の文書フォーマットに変換することを特徴
    とする請求項1に記載の情報検索装置。
  4. 【請求項4】 前記文書フォーマット共通化手段は、文
    書情報が文書内容と書式情報のみを持つ場合に、文書中
    の書式情報の変化と文書内容から文書情報の論理構造を
    決定し、共通の文書フォーマットに変換することを特徴
    とする請求項1に記載の情報検索装置。
  5. 【請求項5】 前記論理構造抽出手段は、文書情報を構
    成する各ノードの情報を参照して指定された論理構造と
    意味的に同等の構造を抽出することを特徴とする請求項
    1に記載の情報検索装置。
JP10272641A 1998-09-28 1998-09-28 情報検索装置 Pending JP2000099543A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10272641A JP2000099543A (ja) 1998-09-28 1998-09-28 情報検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10272641A JP2000099543A (ja) 1998-09-28 1998-09-28 情報検索装置

Publications (1)

Publication Number Publication Date
JP2000099543A true JP2000099543A (ja) 2000-04-07

Family

ID=17516763

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10272641A Pending JP2000099543A (ja) 1998-09-28 1998-09-28 情報検索装置

Country Status (1)

Country Link
JP (1) JP2000099543A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003531429A (ja) * 2000-04-14 2003-10-21 ピクセル(リサーチ)リミテッド デジタルドキュメント処理
JP2005267194A (ja) * 2004-03-18 2005-09-29 Dainippon Printing Co Ltd データベース診断レポート管理システム
US8056006B2 (en) 2000-04-14 2011-11-08 Samsung Electronics Co., Ltd. Systems and methods for digital document processing
CN103885957A (zh) * 2012-12-20 2014-06-25 百度在线网络技术(北京)有限公司 网页信息提取方法及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06309365A (ja) * 1993-04-20 1994-11-04 Fuji Xerox Co Ltd 文書処理装置
JPH08272818A (ja) * 1995-04-03 1996-10-18 Nippon Steel Corp 情報検索システム
JPH10124491A (ja) * 1996-10-24 1998-05-15 Fujitsu Ltd 文書共有整理システム,共有文書管理装置および文書アクセス装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06309365A (ja) * 1993-04-20 1994-11-04 Fuji Xerox Co Ltd 文書処理装置
JPH08272818A (ja) * 1995-04-03 1996-10-18 Nippon Steel Corp 情報検索システム
JPH10124491A (ja) * 1996-10-24 1998-05-15 Fujitsu Ltd 文書共有整理システム,共有文書管理装置および文書アクセス装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
出井 一: "インターネットツールコレクション98 パーフェクトVol.16", INTERNET ASCII98, vol. 第3巻 第8号, CSND200001392009, 1 August 1998 (1998-08-01), JP, pages 297 - 315, ISSN: 0000786342 *
大門、神谷、谷、市山: "既存文書ディジタル化システムの構築〜分散入力と評価", 電子情報通信学会技術研究報告, vol. 98, no. 42, CSNG200000803007, 13 May 1998 (1998-05-13), JP, pages 47 - 54, ISSN: 0000786341 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003531429A (ja) * 2000-04-14 2003-10-21 ピクセル(リサーチ)リミテッド デジタルドキュメント処理
US8056006B2 (en) 2000-04-14 2011-11-08 Samsung Electronics Co., Ltd. Systems and methods for digital document processing
JP2005267194A (ja) * 2004-03-18 2005-09-29 Dainippon Printing Co Ltd データベース診断レポート管理システム
CN103885957A (zh) * 2012-12-20 2014-06-25 百度在线网络技术(北京)有限公司 网页信息提取方法及设备

Similar Documents

Publication Publication Date Title
US7734634B2 (en) System, apparatus and method for using and managing digital information
US7797336B2 (en) System, method, and computer program product for knowledge management
JP2960340B2 (ja) データ検索方法及び装置
US7343549B2 (en) Layout system, layout program, and layout method
US7707139B2 (en) Method and apparatus for searching and displaying structured document
EP1868113B1 (en) Visualizing document annotations in the context of the source document
JP3178421B2 (ja) テキスト検索装置及びテキスト検索プログラムを記録したコンピュータ読み取り可能な記録媒体
US20110252313A1 (en) Document information selection method and computer program product
US8301637B2 (en) File search system, file search device and file search method
JP2000099543A (ja) 情報検索装置
JP4251804B2 (ja) 情報表示方法、情報表示プログラム及び情報表示装置
JP2003288332A (ja) 構造化文書作成支援方法及び構造化文書作成支援システム
JP3896702B2 (ja) 文書管理システム
Pantelia ‘Noûs, INTO CHAOS’: THE CREATION OF THE THESAURUS OF THE GREEK LANGUAGE
JP2000105769A (ja) 文書表示方法
KR20020061443A (ko) 컴퓨터 통신망을 이용한 정보의 수집, 가공 및 표시방법과 그 시스템
JP2005011301A (ja) 文書処理装置及び文書処理プログラム
JP4034503B2 (ja) 文書検索システムおよび文書検索方法
JP2004118543A (ja) 構造化文書検索方法、検索支援方法、検索支援装置および検索支援プログラム
JP3239845B2 (ja) 全文検索装置および方法
Griem et al. Maximizing the Discovery of Data Sets in the Yale University Library Catalog
JP2001297089A (ja) 文書検索方法およびその方法を実施するためのプログラムを記憶した記憶媒体
JP2006163723A (ja) ドキュメント検索方法
JP2002251394A (ja) 全文検索システム
JP2005108006A (ja) 文書データ管理方法、文書データ管理システム及び文書データ管理用コンピュータプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060522

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060830

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061228

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070214