JP2000099543A - 情報検索装置 - Google Patents
情報検索装置Info
- Publication number
- JP2000099543A JP2000099543A JP10272641A JP27264198A JP2000099543A JP 2000099543 A JP2000099543 A JP 2000099543A JP 10272641 A JP10272641 A JP 10272641A JP 27264198 A JP27264198 A JP 27264198A JP 2000099543 A JP2000099543 A JP 2000099543A
- Authority
- JP
- Japan
- Prior art keywords
- document
- information
- document information
- logical structure
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
に扱い、文書中に示されている関連性を用いて文書の検
索を可能にした情報検索装置を提供する。 【解決手段】 予め、文書フォーマット共通化部1によ
って文書情報の文書フォーマットを共通化し、文書情報
蓄積部2に蓄積しておく。検索時にユーザが文書情報と
論理構造を指定装置5から指定すると、論理構造抽出部
3は、指定された文書情報について、指定された論理構
造を抽出する。文書情報検索部4は、抽出された論理構
造の内容を検索キーとして、文書情報蓄積部2に蓄積さ
れた文書情報を検索する。検索された文書情報は、検索
結果記憶部6に記憶させ、それらの各文書情報につい
て、論理構造抽出部3による論理構造の抽出、および、
文書情報検索部4による文書情報の検索を行う。検索結
果は記憶装置9に蓄積され、各文書情報間の関連性が把
握できるように表示装置7に表示する。
Description
フォーマットを持つ文書情報を蓄積し、検索する文書管
理システムに関するものであり、特にある文書から関連
する情報を検索する情報検索装置に関するものである。
書を蓄積している文書管理システム内の文書フォーマッ
トを統一し、その文書フォーマットに特有の検索方法を
用いて検索を行っていた。例えば、構造化文書に対する
文書管理システムであれば、文書管理システム内には構
造化文書のみを蓄積しており、文書の構造を用いた検索
が可能である。しかし、そのような検索には、当然、文
書画像やワープロで単に書かれた構造を持たない文書は
検索対象となっていなかった。また、検索された文書は
それぞれ独立した存在として表示され、各文書間での関
連性はユーザが全文を読んで確認する必要があった。
かれることが多く、また、文書内においても多くの引用
関係が存在している。例えば、参考文献として文書を引
用することは、引用した文書と引用された文書間での関
連性を表わしている。このような関連性をたどることに
よって、ユーザはより容易に文書を検索することが可能
である。しかし従来の文書管理システムでは、このよう
な関連性を用いることは少なかった。
る技術として、例えば特開平7−230467号公報や
特開平8−287087号公報には、参考文献や引用文
献があるときには、それらの文献を表示できるようにし
ている。また、例えば特開平8−272818号公報で
は、各文献間の引用、参照関係を予め作成しておき、こ
れらの関係を利用して文献を検索可能にしている。さら
に、例えば特開平9−146968号公報には、単に参
考文献を検索するだけでなく、検索した文書を参考文献
とする他の文書を検索することで、元となる文献より新
しい、関連する文書を取り出すことを可能としている。
引用関係を利用できるように、文書管理システムに蓄積
するデータを加工することによって、初めて上述のよう
な検索を可能にしている。例えば、参考文献リストから
書誌情報だけを取り出して、本文の情報と別に書誌情報
用のデータベースを構築し、参考文献に関する検索につ
いてはこの書誌情報のデータベースを検索するようにし
ている。
文書画像を取り扱う場合には、あらかじめ文字認識技術
などを用いて文書情報をコード化した上で登録する必要
がある。例えば特開平10−3483号公報において
は、近年発達してきた文書画像処理技術を用いて、文書
画像情報から一定の条件で書かれている引用関係を自動
的に取り出し、文字コード化して、関連する文書情報を
検索するシステムが提案されている。このシステムで
は、処理コストの高い文字認識処理を最小限に抑えるた
めに、決められた画像パターンを用いて文書内から引用
関係を見つけ出し、対応する部分のみについてだけ文字
認識処理を適用し、検索用の書誌情報を取り出すように
している。
係の記述方法は、さまざまな方法が用いられている。例
えば、引用文献を示すために、例えば[1]、[2]、
…などのように一連の番号を用いる場合もあるし、例え
ば[nori98]、[taro96]といったように
文献の発表時期と著者によって示す場合もある。そのた
め、上述の特開平10−3483号公報に記載されてい
るような、決められた画像パターンを検索する方法で
は、さまざまな書き方に柔軟に対応することは難しい。
いずれのシステムにおいても、電子文書と文書画像を統
一的に扱うことはできない。このように電子文書や文書
画像など、異なる文書フォーマットが混在した文書情報
について、関連性のある文書を示すような技術はこれま
で提案されていなかった。
情に鑑みてなされたもので、例えば電子文書と文書画像
などのように異なる文書フォーマットの文書情報を統一
的に扱い、文書中に示されている引用関係などの関連性
を用いた文書の検索を可能にした情報検索装置を提供す
ることを目的とするものである。
報の文書フォーマットを共通化して蓄積しておく。この
とき、例えば文書情報が文書画像である場合には、文書
画像を性質の違う領域に分割し、文字領域に関しては文
字認識を行い、領域分割の結果と文字認識の結果から文
書の論理構造を決定し、また例えば単にワープロで作っ
たような文書情報が文書内容と書式情報のみを持つ場合
には、文書中の書式情報の変化と文書内容から文書情報
の論理構造を決定し、共通の文書フォーマットに変換す
る。
造を指定すると、論理構造抽出手段で指定された文書情
報から指定された論理構造を抽出し、抽出した論理構造
に対応する文書内容を検索キーとして文書情報を検索す
る。さらに、検索された文書情報から指定された論理構
造を抽出し、抽出した論理構造に対応する文書内容を検
索キーとして前記文書情報蓄積手段内の文書情報を検索
する。この処理を検索結果が存在しなくなるまで繰り返
す。論理構造を抽出する際には、文書情報を構成する各
ノードの情報を参照して、指定された論理構造と意味的
に同等の構造を抽出するように構成することができる。
なく、指定された論理構造を有する文書情報を検索する
ことができる。また、例えば論理構造として引用関係を
表す構造を指定すれば、検索された文書情報は、それぞ
れ引用関係によって関連づけられた情報として取り出す
ことができる。検索された文書情報を例えばそれぞれ関
連づけて表示することによって、ユーザに対して文書情
報の引用関係を把握しやすい形式で提供することができ
る。
実施の一形態を示すブロック図である。図中、1は文書
フォーマット共通化部、2は文書情報蓄積部、3は論理
構造抽出部、4は文書情報検索部、5は指定装置、6は
検索結果記憶部、7は表示装置、8は中央制御装置、9
は記憶装置である。
の文書フォーマットを共通化する。文書情報蓄積部2
は、文書フォーマットが共通化された複数の文書情報を
蓄積する。論理構造抽出部3は、文書情報から特定の論
理構造を抽出する。文書情報検索部4は、論理構造抽出
部3で抽出された論理構造の内容を検索キーとして、文
書情報蓄積部2に蓄積された文書情報を検索する。指定
装置5は、マウスやキーボードなどの入力装置を具備
し、特定の文書情報や論理構造を指定することができ
る。検索結果記憶部6は、検索結果を一時的に記憶す
る。表示装置7は、検索結果や動作状況を表示する。中
央制御装置8は、装置全体の動作を制御する。記憶装置
9は、中央制御装置8で実行されるプログラムやデータ
を記憶するとともに、論理構造抽出部3による論理構造
の抽出および文書情報検索部4における検索キーの設定
に用いた文書情報を蓄積する。
形態における動作の概要を示すフローチャートである。
予め、S11において文書フォーマット共通化部1によ
って文書情報の文書フォーマットを共通化し、文書情報
蓄積部2に蓄積しておく。その後、検索を行う際に、S
12においてユーザが検索キーを設定するための文書情
報と論理構造を指定装置5から指定する。指定された文
書情報は、変数Aに格納する。変数Aに格納された文書
情報はS13において記憶装置9に記憶される。S14
において、論理構造抽出部3は、変数Aに格納されてい
る文書情報について、指定された論理構造を抽出する。
そしてS15において、文書情報検索部4は、論理構造
抽出部3で抽出された論理構造の内容を検索キーとし
て、文書情報蓄積部2に蓄積された文書情報を検索す
る。検索された文書情報は、S16において検索結果記
憶部6に記憶する。
された文書情報が記憶されているか否かを判定し、検索
された文書情報が検索結果記憶部6に記憶されている場
合には、S18でそのうちの1つを選択して取り出し、
変数Aに格納してS13に戻る。そして、選択した文書
情報を記憶装置9に蓄積した後、その文書情報につい
て、指定された論理構造を論理構造抽出部3で抽出し、
抽出した論理構造の内容を検索キーとして、文書情報検
索部4により文書情報の検索を行う。このような処理
を、検索結果記憶部6に検索された文書情報がなくなる
まで繰り返す。
報がなくなると、それまで検索した文書情報を用い、そ
れらの文書情報の関係、すなわちどの文書情報からどの
文書情報を検索したかによって得られる関係をユーザが
理解できるように、S19で表示装置7に表示する。
用いながら詳述する。まず、文書フォーマット共通化部
1において、入力された複数の文書情報の文書フォーマ
ットを特定の文書フォーマットに共通化する処理を行
う。共通化に用いる特定の文書フォーマットは、論理構
造を用いた検索を行いやすいように論理構造を表わすこ
とができ、かつ簡便な記述が可能な文書フォーマットが
望ましい。論理構造が扱える文書フォーマットとしてS
GMLやHTMLが知られている。しかしSGMLは、
DTDにより論理要素を表わすタグ名とそのスキーマが
制限されるため、本発明には適していない。なぜなら、
さまざまな情報を表わし、さまざまな論理構造を持つ文
書が入力されることが想定されているので、すべての論
理構造のスキーマと、用いられるすべての論理要素のタ
グ名をあらかじめ予想することは難しいためである。同
様に、HTMLでは、容易に使用できるように論理要素
を表わすタグ名が大きく制限されているために、本発明
には適さない。特定の文書フォーマットを独自に定義す
ることもできるが、ここでは共通の文書フォーマットと
してXMLを用いて説明する。XMLでは、DTDを定
義する必要がなく、ユーザが自由にタグ名を定義するこ
とができる仕様となっているため、本発明で共通フォー
マットとして使用するには好適である。
ットであるSGMLやHTMLから、XMLへ変換する
のは容易である。SGMLはXMLのサブセットとして
定義されているので、基本的に変更して使用する部分は
ない。しかし、本発明では文書型の定義は必要ないの
で、文書型の定義の部分を削除して用いることができ
る。
情報のみを持つような文書情報についての共通化につい
て説明する。書式情報のみを持つ文書情報では、各文字
のフォントやフォントサイズ、また段落やインデントな
ど、表示に必要な情報を多く含んでいる。そのため、こ
のようなフォント情報などの変化により、論理構造を推
定することができる。ただし、ここでは正確な論理構造
の推定は困難であるので、“節”や“段落”、“本文”
などの大まかな構造のみを割り当てていく。例えば、節
の見出しなどは、フォントとして本文より大きなサイズ
を用いていたり、また、書体としてボールドを用いるな
どにより強調している場合が多い。本文は、節の見出し
などに対してインデントをつけて記述される場合があ
る。このような情報により、構造の割り当てを実施す
る。したがって、XMLの各ノードのタグ名として
“節”や“段落”といったものが用いられ、論理構造が
構成される。
いての共通化処理の具体例の説明図である。この例で
は、図3(A)に示すような書式情報のみを持つ文書情
報(RTF文書)をXMLによる記述に変換した例を示
しており、図3(B)に示すようなXMLの記述が得ら
れる。
が難しい。文書画像の場合は、その画像情報の性質の違
いから画像内を領域分けして、そのテキスト領域に対し
て構造を割り当てていく。このとき利用できる情報は、
画像上の位置情報とサイズ情報、さらに文書認識装置を
用いることで各テキスト領域内の文字情報を用いること
ができる。しかし、この時点での構造の割り当ては、各
テキスト領域の位置関係のみにより大まかに行うのみで
ある。例えば、画像領域の最上部と最下部に存在する文
字領域は、ヘッダであったり、フッタであるかもしれな
いが、本文である可能性もある。したがって、この段階
では、文字領域(テキストブロック)の位置関係をXM
Lで記述するのみで、構造を決定するのは論理構造抽出
部3での構造のマッチング処理により最終的に決定す
る。
具体例の説明図である。この例では、図4(A)に示す
ような文書画像が入力された場合を示している。このよ
うな文書画像から、「文書情報の保存と検索」、「富○
太郎」、「富○学園大学」、の各文字領域と、その下に
■を並べて示した文字領域をそれぞれ分離し、文字認識
を行い、図4(B)に示すようなXMLの記述を得てい
る。
蓄積部2に蓄積される。この時、共通フォーマットに変
換された文書のみを蓄積しておいてもよいし、元の文書
と共通フォーマットに変換した文書を対にして蓄積して
もよい。対にして蓄積しておけば、検索結果を元の文書
フォーマットとして取り出して利用することも可能とな
る。
するための文書を1つ指定する。指定する文書は、文書
情報蓄積部2に蓄積されている文書情報を指定装置5を
用いて指定することができる。あるいは、外部の文書デ
ータベースの文書情報、または、ユーザが新たに入力す
る文書情報でもよい。この場合の文書情報は、上述のよ
うにして文書フォーマット共通化部1で文書フォーマッ
トを共通のフォーマットに変換しておく必要がある。
された文書情報、あるいは検索結果記憶部6から取り出
された文書情報から、抽出対象となる論理構造を抽出す
る。図5は、抽出対象となる論理構造の具体例の説明
図、図6は、文書情報が有する論理構造の具体例の説明
図である。ここでは具体例として、学術論文の巻末ある
いは文末に記載されている参考文献リストを示す図5の
ような論理構造を抽出する例を示す。図5に示した構造
では、まず、“参考文献リスト”というタグ名を持つノ
ードの子ノードとして“文献”というタグ名のノードが
複数並んでいる。これらのノードの内容は、“文献”と
いうタグ名のノードについては各文献の書誌情報であ
り、“参考文献リスト”というタグ名のノードには“参
考文献”、“文献”あるいは“References”
などの表題である。
義している論理構造であれば、論理構造間のマッチング
操作によって、該当する論理構造を抽出することが可能
である。しかし、蓄積されている文書のタグ名が異なる
タグ名で定義されいるXML文書であったり、文書画像
から変換された文書情報である場合には、単純なマッチ
ング操作だけでは、指定された論理構造を抽出すること
はできない。
構造も、図5に示すようなタグ名を有した構造とはなっ
ていない。しかし、図6(A)に示す構造において、
“節タイトル”のタグ名を持つノードに“参考文献”と
いう内容が存在し、その兄弟ノードの“段落”に各参考
文献の書誌情報が含まれていれば、その構造は図5に示
した構造と同様の参考文献リストを表わしていると判断
できる。また、図6(B)に示す構造についても、“テ
キストブロック”のタグ名を持つノードに“参考文献”
の内容があり、その子ノードに参考文献の書誌情報があ
れば、その構造は図5に示した構造と同様の参考文献リ
ストであると判断できる。
できない場合には、各ノードの特徴的な内容も加味した
マッチング操作を行えばよい。例えば、各文献の書誌情
報は本文中の引用と対応できるように番号、あるいは特
定の文字列で開始されている。このような特徴を各ノー
ドの内容から取り出しながら、各ノードを指定された論
理構造とマッチングをとって、指定された論理構造を抽
出することができる。
れた論理構造の抽出処理の一例を示すフローチャートで
ある。ここでは上述の具体例に倣い、参考文献リストの
構造を抽出する例を示している。まずS21において、
文書情報から最初のノードを取り出して、変数Aに格納
する。このときS22においてノードが存在したか否か
を判定し、ノードが存在しなくなるまで以下の処理を行
う。
ドの内容が“参考文献”あるいは“文献”であるか否か
を調べる。ノードの内容が“参考文献”あるいは“文
献”でなければ、S21へ戻って次のノードを取り出
す。このような処理を繰り返すことにより、参考文献が
リストされている節の見出しを見つけることができる。
るノードを見つけたら、このノードの子ノードあるいは
兄弟のノードについての処理を行う。まずS24におい
て、このノードに子ノードが存在するか否かを判定す
る。子ノードが存在する場合には、S25において子ノ
ードを取り出す。S26において子ノードが存在したか
否かを判定し、子ノードが存在する限り、それらのノー
ドについて書誌情報を抽出する。書誌情報は、文書内の
引用場所との対応を取るため、特別な記述によって始ま
っている。ここでは一例として、括弧に囲まれた数字で
文書内との対応をつけているものとする。したがって、
各ノードの内容がテキストであるか否かを調べ、テキス
トであればその内容が“[”、数字、および“]”の組
み合わせで始まる記述であるか否かをS27で判定す
る。この記述で始まっているノードを参考文献の書誌情
報の一部であるとして、S28においてそのノードの内
容を取り出す。子ノードがなくなれば、S26からS2
1へ戻り、次の参考文献を内容とするノードを見つける
処理を続ける。
S29において兄弟ノードを取り出す。S30において
兄弟ノードが存在したか否かを判定し、兄弟ノードが存
在する限り、それらのノードについて書誌情報を抽出す
る。S31において、各ノードの内容がテキストである
か否かを調べ、テキストであればその内容が“[”、数
字、および“]”の組み合わせで始まる記述であるか否
かを判定する。この記述で始まっているノードを参考文
献の書誌情報の一部であるとして、S32においてその
ノードの内容を取り出す。兄弟ノードがなくなれば、S
30からS21へ戻り、次の参考文献を内容とするノー
ドを見つける処理を続ける。
てマッチングを行っているが、例えばノードのタグ名を
比較することによって、さらに正確に早くマッチングを
行うことができる。ただし、図5と図6で示したよう
に、各ノードのタグ名は統一されていないので、タグ名
の間の対応付けを考慮してマッチングを行う必要があ
る。たとえば、“参考文献”タグは“テキストブロッ
ク”タグあるいは“節”タグとマッチングするというル
ールを持って処理を行えばよい。ここで、兄弟ノードを
探索しているのは、例えば図6(A)に示すように、節
の子ノードとして節タイトルが位置し、その兄弟ノード
に文献の書誌情報が位置づけられているような文書構造
に対応するためである。
抽出部3で抽出された論理構造の各ノードの内容を検索
キーとして、文書情報蓄積部2に蓄積されている情報を
検索する。この文書情報検索部4は、一般的な文書検索
方法によって実現できる。また、書誌情報の中を特定の
記号を用いて、著者やタイトル、発行機関などの要素に
分解して、検索装置の検索キーとして用いることができ
る。例えば図3(B)に示した文書情報の例では、すで
に句読点などで各文書内容が分割されている。したがっ
て、これらの各文書内容から著者名、タイトルなどを特
定することで検索式を作成することができる。まず、著
者名を特定するためには、人名辞典と各文書内容の文字
列を比較し、人名辞典に登録されている文字列であれ
ば、その文書内容は著者名であるとする。数字の並びが
日付の記法、例えば“×月×日”、“YYMMDD”な
どに一致すれば、その文書内容は日付情報と判断でき
る。さらに、“論文集”や“予稿集”、“in Pro
c”などのキーワードを含む文書内容は、出典名である
と判断することができる。そして、残りの文書内容をタ
イトルとする。
生成の具体例の説明図である。図8(A)は図3(B)
と同じXML文書である。人名辞典に“T.Fuj
i”、“S.Yamada”の名前が登録されていれ
ば、これらの内容を著者名として特定し、“Docum
ent Image Analisys”、“Docu
ment Recognition”をタイトルとして
特定し、“in Procof xxx Sympos
ium.”を出典名、“1989.”を日付として特定
できる。これらによって、例えば図8(B)および図8
(C)に示すような検索式を生成することができる。
としているが、これに限らず、さらに書誌情報のタイト
ルに対して形態素解析を行い、キーワードを抽出して検
索することもできる。
て、文書情報蓄積部2に蓄積されている文書情報を検索
することによって、ユーザは1つの文書から、大量の文
書情報の中から関連する文書情報(この場合、参考文
献)を容易に取り出すことができる。しかも、もとの文
書情報が異なる文書フォーマットを有していても検索す
ることができる。このときユーザは、文書フォーマット
の変換のような処理を指定する必要はなく、また、特別
なキーワードを設定する必要もなく、検索することがで
きる。このようにして検索された結果は、例えば表示装
置7に列挙して表示することができる。その列挙された
中から参照したい文書情報を選択することにより、所望
の文書情報を得ることができる。
は、一時的に検索結果記憶部6に蓄積される。この検索
されたおのおのの文書情報に対して、再び文書構造抽出
部3により特定の論理構造を抽出して、文書情報蓄積部
2に蓄積されている文書情報を検索する。このような処
理を、検索結果記憶部6に蓄積されている検索結果の文
書情報がなくなるまで繰り返し行う。また、検索された
結果は記憶装置9に順次蓄積していく。
文書より過去に出版された文書のみが記憶装置9に蓄積
されるだけであるので、次に指定した文書の書誌情報を
検索キーとして、文書情報蓄積部2に蓄積された文書情
報を検索する。この場合も同様に、検索結果を一時的に
検索結果記憶部6に蓄積し、この検索結果記憶部6内に
文書情報がなくなるまで繰り返し検索を行う。検索の際
には、文書情報内での検索の範囲を、参考文献を記載し
ている節のみとすることで、より早く、精度の高い検索
が可能である。この参考文献の記載されている節を見つ
けるには論理構造抽出部3の機能を使用することができ
る。また、文書の書誌情報は、文書のフロント頁に記載
されている情報、タイトルや著者名、著者所属を用いる
ことで取り出すことができる。これらの構造を取り出す
のも論理構造抽出部3の機能を同様に利用することがで
きる。このようにして検索した結果も、記憶装置9に記
憶される。
ら、参照関係にある文書情報が記憶装置9に蓄積され
る。記憶装置9に蓄積された文書情報は、例えば出版時
期により整列し、表示装置7に表示させることができ
る。図9は、検索結果の表示形態の一例の説明図であ
る。この例では、記憶装置9に蓄積された検索結果であ
る文書情報間の関連がわかるように、グラフ表示した例
を示している。最初に指定された文書は、それが分かる
ように表示領域の中心に配置している。図9ではハッチ
ングを施して、表示形態を異ならせていることを示して
いる。そして、その周りに検索の結果得られた文書情報
を配置し、引用と被引用の関係にある文書を線で結ぶこ
とで文書間の関連性を表わしている。このように検索結
果を表示することにより、検索結果の関係を一目で簡単
に把握することができる。もちろん、図9に示した表示
形態は一例であって、他の表示形態で表示してもよい。
によれば、もとの文書情報の文書フォーマットが異なっ
ていても、ユーザは蓄積された文書情報の文書フォーマ
ットを気にすることなく、文書情報を検索し、さらに関
連するすべての文書情報を検索することができる。検索
の際には、文書情報と、特定の論理構造を指定するだけ
でよく、論理構造を有しない文書情報に対しても論理構
造を用いた検索を行うことができる。また、検索結果は
ユーザが把握しやすいように表示させることができる。
このように本発明によれば、種々の効果がある。
ブロック図である。
る動作の概要を示すフローチャートである。
化処理の具体例の説明図である。
明図である。
ある。
である。
の抽出処理の一例を示すフローチャートである。
例の説明図である。
3…論理構造抽出部、4…文書情報検索部、5…指定装
置、6…検索結果記憶部、7…表示装置、8…中央制御
装置、9…記憶装置。
Claims (5)
- 【請求項1】 複数の文書情報を蓄積する文書情報蓄積
手段と、複数の文書情報の文書フォーマットを共通化し
て前記文書情報蓄積手段に蓄積する文書フォーマット共
通化手段と、文書情報および文書情報中の特定の論理構
造を指定する指定手段と、指定された文書情報および検
索された文書情報から指定された論理構造を抽出する論
理構造抽出手段と、該論理構造抽出手段で抽出した論理
構造に対応する文書内容を検索キーとして前記文書情報
蓄積手段内の文書情報を検索する検索手段を有し、前記
検索手段によって検索された文書情報に対して前記論理
構造抽出手段による論理構造の抽出および前記検索手段
による検索を検索結果が存在しなくなるまで繰り返すこ
とを特徴とする情報検索装置。 - 【請求項2】 前記検索手段により順次検索された文書
情報を関連づけて表示する表示手段を有していることを
特徴とする請求項1に記載の情報検索装置。 - 【請求項3】 前記文書フォーマット共通化手段は、文
書情報が文書画像である場合に、該文書画像を性質の違
う領域に分割し、文字領域に関しては文字認識を行い、
領域分割の結果と文字認識の結果から文書の論理構造を
決定し、共通の文書フォーマットに変換することを特徴
とする請求項1に記載の情報検索装置。 - 【請求項4】 前記文書フォーマット共通化手段は、文
書情報が文書内容と書式情報のみを持つ場合に、文書中
の書式情報の変化と文書内容から文書情報の論理構造を
決定し、共通の文書フォーマットに変換することを特徴
とする請求項1に記載の情報検索装置。 - 【請求項5】 前記論理構造抽出手段は、文書情報を構
成する各ノードの情報を参照して指定された論理構造と
意味的に同等の構造を抽出することを特徴とする請求項
1に記載の情報検索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10272641A JP2000099543A (ja) | 1998-09-28 | 1998-09-28 | 情報検索装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10272641A JP2000099543A (ja) | 1998-09-28 | 1998-09-28 | 情報検索装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000099543A true JP2000099543A (ja) | 2000-04-07 |
Family
ID=17516763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10272641A Pending JP2000099543A (ja) | 1998-09-28 | 1998-09-28 | 情報検索装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2000099543A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003531429A (ja) * | 2000-04-14 | 2003-10-21 | ピクセル(リサーチ)リミテッド | デジタルドキュメント処理 |
JP2005267194A (ja) * | 2004-03-18 | 2005-09-29 | Dainippon Printing Co Ltd | データベース診断レポート管理システム |
US8056006B2 (en) | 2000-04-14 | 2011-11-08 | Samsung Electronics Co., Ltd. | Systems and methods for digital document processing |
CN103885957A (zh) * | 2012-12-20 | 2014-06-25 | 百度在线网络技术(北京)有限公司 | 网页信息提取方法及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06309365A (ja) * | 1993-04-20 | 1994-11-04 | Fuji Xerox Co Ltd | 文書処理装置 |
JPH08272818A (ja) * | 1995-04-03 | 1996-10-18 | Nippon Steel Corp | 情報検索システム |
JPH10124491A (ja) * | 1996-10-24 | 1998-05-15 | Fujitsu Ltd | 文書共有整理システム,共有文書管理装置および文書アクセス装置 |
-
1998
- 1998-09-28 JP JP10272641A patent/JP2000099543A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06309365A (ja) * | 1993-04-20 | 1994-11-04 | Fuji Xerox Co Ltd | 文書処理装置 |
JPH08272818A (ja) * | 1995-04-03 | 1996-10-18 | Nippon Steel Corp | 情報検索システム |
JPH10124491A (ja) * | 1996-10-24 | 1998-05-15 | Fujitsu Ltd | 文書共有整理システム,共有文書管理装置および文書アクセス装置 |
Non-Patent Citations (2)
Title |
---|
出井 一: "インターネットツールコレクション98 パーフェクトVol.16", INTERNET ASCII98, vol. 第3巻 第8号, CSND200001392009, 1 August 1998 (1998-08-01), JP, pages 297 - 315, ISSN: 0000786342 * |
大門、神谷、谷、市山: "既存文書ディジタル化システムの構築〜分散入力と評価", 電子情報通信学会技術研究報告, vol. 98, no. 42, CSNG200000803007, 13 May 1998 (1998-05-13), JP, pages 47 - 54, ISSN: 0000786341 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003531429A (ja) * | 2000-04-14 | 2003-10-21 | ピクセル(リサーチ)リミテッド | デジタルドキュメント処理 |
US8056006B2 (en) | 2000-04-14 | 2011-11-08 | Samsung Electronics Co., Ltd. | Systems and methods for digital document processing |
JP2005267194A (ja) * | 2004-03-18 | 2005-09-29 | Dainippon Printing Co Ltd | データベース診断レポート管理システム |
CN103885957A (zh) * | 2012-12-20 | 2014-06-25 | 百度在线网络技术(北京)有限公司 | 网页信息提取方法及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7734634B2 (en) | System, apparatus and method for using and managing digital information | |
US7797336B2 (en) | System, method, and computer program product for knowledge management | |
JP2960340B2 (ja) | データ検索方法及び装置 | |
US7343549B2 (en) | Layout system, layout program, and layout method | |
US7707139B2 (en) | Method and apparatus for searching and displaying structured document | |
EP1868113B1 (en) | Visualizing document annotations in the context of the source document | |
JP3178421B2 (ja) | テキスト検索装置及びテキスト検索プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
US20110252313A1 (en) | Document information selection method and computer program product | |
US8301637B2 (en) | File search system, file search device and file search method | |
JP2000099543A (ja) | 情報検索装置 | |
JP4251804B2 (ja) | 情報表示方法、情報表示プログラム及び情報表示装置 | |
JP2003288332A (ja) | 構造化文書作成支援方法及び構造化文書作成支援システム | |
JP3896702B2 (ja) | 文書管理システム | |
Pantelia | ‘Noûs, INTO CHAOS’: THE CREATION OF THE THESAURUS OF THE GREEK LANGUAGE | |
JP2000105769A (ja) | 文書表示方法 | |
KR20020061443A (ko) | 컴퓨터 통신망을 이용한 정보의 수집, 가공 및 표시방법과 그 시스템 | |
JP2005011301A (ja) | 文書処理装置及び文書処理プログラム | |
JP4034503B2 (ja) | 文書検索システムおよび文書検索方法 | |
JP2004118543A (ja) | 構造化文書検索方法、検索支援方法、検索支援装置および検索支援プログラム | |
JP3239845B2 (ja) | 全文検索装置および方法 | |
Griem et al. | Maximizing the Discovery of Data Sets in the Yale University Library Catalog | |
JP2001297089A (ja) | 文書検索方法およびその方法を実施するためのプログラムを記憶した記憶媒体 | |
JP2006163723A (ja) | ドキュメント検索方法 | |
JP2002251394A (ja) | 全文検索システム | |
JP2005108006A (ja) | 文書データ管理方法、文書データ管理システム及び文書データ管理用コンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060522 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060705 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060830 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061101 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061228 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070214 |