JP2003248690A - 文書処理装置および方法 - Google Patents

文書処理装置および方法

Info

Publication number
JP2003248690A
JP2003248690A JP2003035025A JP2003035025A JP2003248690A JP 2003248690 A JP2003248690 A JP 2003248690A JP 2003035025 A JP2003035025 A JP 2003035025A JP 2003035025 A JP2003035025 A JP 2003035025A JP 2003248690 A JP2003248690 A JP 2003248690A
Authority
JP
Japan
Prior art keywords
document
search
headline
search information
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003035025A
Other languages
English (en)
Inventor
Miki Watanabe
美樹 渡辺
Hirofumi Komatsubara
弘文 小松原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2003035025A priority Critical patent/JP2003248690A/ja
Publication of JP2003248690A publication Critical patent/JP2003248690A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文書あるいは文書要素を検索するための検索
用情報を容易にかつコンパクトに作成すること。 【解決手段】 文書から見出しとその位置を検出して、
検索用情報を作成する。検索用情報生成手段は、検出し
た見出しの位置に対応する見出し文字列を抽出すると共
に、その見出し文字列とそれを含む文書要素との対応関
係を表す検索用情報を生成し、検索用情報記憶手段へ記
憶する。同じ見出し文字列が複数の文書要素に対応する
場合には、検索用情報は、1つの見出し文字列に対し
て、複数の文書要素が対応するように対応関係が構成さ
れる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書の登録および
検索を容易にした文書処理装置および方法に関する。
【0002】
【従来の技術】大量の文書を登録し、必要に応じて登録
された文書を検索し、文書の作成等に利用することので
きる文書処理システムにおいて、目的の文書を速やかに
検索するためにキーワードを各文書に対応して付けるこ
とが一般的に行われている。このキーワード検索を行う
文書処理システムに文書を登録するにはその文書にふさ
わしいキーワードを付加することが必要であり、その文
書の内容を変更したときには更新の必要がある。そのた
め文書の登録や更新をする作業が煩雑になる。この作業
を軽減するための技術として特開平3−156678号
公報記載の技術がある。これは登録すべき文書の編集中
に文字列を指定することにより、その文字列を検索用の
情報すなわちキーワードとして簡単に登録できるように
したものである。
【0003】文書を作成、編集する際に、既存の文書の
一部を再利用することにより文書の作成効率を向上させ
ようとすることが広く行われている。このような再利用
を促進するために、文書からその内容の一部を文書部品
として切り出して登録することが行われている。これ
は、例えば特開平3−157753号公報、特開平2−
148250号公報、特開平3−8087号公報等に開
示されている。しかし、これらの技術では、文書部品を
再利用するためには、予め文書部品ごとにデータベース
に登録する必要がある。
【0004】このように文書から取り出された文書部品
が大量になると、目的の文書部品を見つけ出すことが困
難となる。大量の文書から目的の文書を見つけ出すため
の前述の特開平3−156678号公報のような、文書
にキーワードを付加する技術を文書部品の検索に適用す
ることが可能である。
【0005】また、従来、文書検索手法として、文書
名、著者名、キーワードなどの文書属性による検索が多
用されている。文書属性検索では、所望する文書を検索
しづらいことから、文書内容の全域を検索対象とする全
文検索の手法が注目されている。全文検索は、検索対象
となるデータが多くなることから、性能向上を行うため
に検索対象となる文書を予めスキャンし、検索用のイン
デックスの作成を行ったりしている。
【0006】一方、属性検索を行い、結果が複数になっ
た場合にどの文書が所望の文書であるかを判別するため
に文書の一部を表示させるという方式(特開平3−92
961号公報)がある。この方式では、属性検索で該当
した文書を検索の途中に該当する度に文書毎に文書の一
部を表示するようになっている。
【0007】
【発明が解決しようとする課題】文書の登録時にキーワ
ードを付ける従来技術(例えば、前記特開平3−156
678号公報)ではキーワードとなる文字列を文書中か
ら取り出し、それらを一つの検索用ファイルにまとめる
方法を示しているが、キーワードとして登録する文字列
を明示的に指定しなければならないため、長大な文書の
登録の際は登録の作業が煩雑になるという問題がある。
また、キーワードを登録すると、キーワードとして指定
された文字列が通常の文書編集処理によって変更された
り削除された場合にその変更が検索データに反映され
ず、キーワードの登録が正確に行われないという問題が
ある。
【0008】また、前述の再利用したい文書部品だけを
選択的に格納して、効率的に再利用を行なおうとする前
述の従来技術(特開平2−148250号公報や特開平
3−8087号公報等)では、文書部品を再利用するた
めには、予め文書部品ごとにデータベースに登録する必
要がある。これは一々文書部品を個別に登録するという
手間と再利用されるかどうかということを登録時に判断
する必要があり、登録作業が面倒であるという問題があ
る。
【0009】また、属性検索を行い、結果が複数になっ
た場合にどの文書が所望の文書かを判別するために文書
の一部を表示させるという方式(特開平3−92961
号公報)においては、文書毎に文書の一部が表示される
ので、所望の文書かどうか判断するのに手間が掛かると
いう問題、並びに、文書の表示すべき部分を指定できな
いという問題がある。
【0010】そこで、本発明は、文書あるいは文書要素
を検索するための検索用情報を容易に作成することがで
きる文書処理装置を提供することを課題とする。
【0011】また、本発明は登録文書または登録文書要
素に変更が施されても、その変更が検索用情報に反映さ
れ、検索用情報を常に正確に保つことのできる文書処理
装置を提供することを課題とする。
【0012】また、本発明は検索により複数の文書また
は文書要素が得られた時に、その中から所望のものを速
やかに見つけ出すことのできる文書処理装置を提供する
ことを課題とする。
【0013】
【課題を解決するための手段】本発明の文書処理装置
は、文書要素から構成された文書を記憶する文書記憶手
段と、前記文書記憶手段に記憶される文書から章、節、
図表等の見出しを表す文字列を検出する見出し検出手段
と、前記見出し検出手段により検出された文字列と、前
記文書記憶手段に記憶された文書を構成する前記検出さ
れた文字列であって同じ文字列を有する複数の文書要素
との対応関係を表す検索用情報を生成する検索用情報生
成手段と、前記検索用情報生成手段により生成された検
索用情報を記憶する検索用情報記憶手段とを具備する。
【0014】その文書処理装置で実行する文書処理方法
は、文書要素から構成された文書を前記文書記憶手段に
記憶するステップと、見出し検出手段で、前記文書記憶
手段に記憶される文書から見出しを表す文字列を検出す
るステップと、検索用情報生成手段で、前記見出し検出
手段により検出された文字列と、前記文書記憶手段によ
り記憶された文書を構成する前記検出された文字列であ
って同じ文字列を有する複数の文書要素との対応関係を
表す検索用情報を生成するステップと、検索用情報記憶
手段で、前記検索用情報生成手段により生成された検索
用情報を記憶するステップとを有することを特徴とす
る。
【0015】本発明の文書処理装置は、文書要素から構
成された文書を記憶する文書記憶手段と、文書要素の属
性と該属性と同じ属性を有する複数の文書要素が対応付
けられた検索用情報を記憶する検索用情報記憶手段と、
文書要素の属性を検索条件として指定して、前記検索用
情報記憶手段に記憶された検索用情報に基づいて検索条
件を満たす属性を検索して該属性に対応する文書要素を
前記文書から取り出す文書要素検索手段と、前記文書要
素検索手段により取り出された文書要素を所定の形式で
組み合わせて一つの文書を作成する作成手段を有するこ
とを特徴とする。
【0016】その文書処理装置で実行する文書処理方法
は、前記文書記憶手段で、文書要素から構成された文書
を記憶するステップと、前記検索用情報記憶手段で、文
書要素の属性と該属性と同じ属性を有する複数の文書要
素が対応付けられた検索用情報を記憶するステップと、
前記文書要素検索手段で、文書要素の属性を検索条件と
して指定して、前記検索用情報記憶手段に記憶された検
索用情報に基づいて検索条件を満たす属性を検索して該
属性に対応する文書要素を前記文書から取り出すステッ
プと、前記作成手段で、前記文書要素検索手段により取
り出された文書要素を所定の形式で組み合わせて一つの
文書を作成するステップとを有する。
【0017】
【作用】本発明の文書処理装置において、見出し検出手
段は、文書を文書記憶手段に登録する際に、検索用の情
報を作成し、その検索用情報を検索用情報記憶手段にも
登録する。検索用情報を作成するために、まず、文書か
ら見出しを検出する。文書記憶手段に格納される対象の
文書として構造化文書を対象とする場合には、その構造
により表題、見出し、図形、本文などを区別する情報を
有しているので、見出し検出手段はそれらを調べること
により見出しの位置を検出する。検索用情報生成手段
は、検出した見出しの位置に対応する見出し文字列を抽
出すると共に、その見出し文字列とそれを含む文書要素
との対応関係を表す検索用情報を生成し、検索用情報記
憶手段へ記憶する。同じ見出し文字列が複数の文書要素
に対応する場合には、検索用情報は、1つの見出し文字
列に対して、複数の文書要素が対応するように対応関係
が構成される。本発明によれば、文書に含まれる見出し
を見出し検出手段により抽出して、同じ見出し文字列を
有する複数の文書要素との対応関係を表す検索用情報を
生成可能に構成し、従来のキーワードの代わりに登録す
るようにしたので、キーワードを選定する煩雑な作業を
要することなく容易に検索対象文書の登録が可能になる
と共に、検索用情報のサイズを小さく作成できる。
【0018】また、本発明において、文書記憶手段に
は、章、節、図、表、イメージのような文書要素から構
成される文書が記憶されている。文書要素検索手段は、
文書要素の属性が検索条件として与えられると、文書記
憶手段の文書を検索し、検索条件を満たす文書要素を取
り出す。作成手段は、前記文書要素検索手段により取り
出された複数の文書要素を所定の形式で組み合わせて一
つの文書を作成する。例えば、ある論文の集まりからそ
のアブストラクトのみを抽出し、そのアブストラクトと
文書名を組みにした段落で構成される一つの仮想文書を
作成できる。この例の場合、ユーザにその仮想文書を提
示することにより、所望の論文を容易に探すことができ
る。本発明によれば、既存文書の所望の部分を抽出して
一つの別の文書としてユーザに提示することができるの
で、ユーザは提示された文書を見て必要な文書の選択を
することができ、また、文書の要素を格納時の目的とは
別の複数の目的に再利用することができる。
【0019】
【発明の実施形態】(第1の実施例)図1は本発明の第
1の実施例の文書処理装置の構成を示すブロック図であ
る。この装置は、図1に示すように、文書データ記憶部
11、検索用情報作成部12、検索用見出し記憶部1
3、見出し検索部14、文書検索ユーザインタフェース
15、文書指定部16、文書取り出し部17、文書表示
装置18および文書作成装置19からなっている。
【0020】文書データ記憶部11は文書作成装置19
により作成された文書を記憶するために用いられる。
【0021】検索用情報作成部12は、文書作成装置1
9からの文書データを文書データ記憶部11に記憶する
際に、文書データに含まれる見出しから検索用情報を作
成するものであり、文書作成装置19により作成された
文書データを解析し、章、節、図表の見出しとなる部分
を検出する見出し検出部121と、検出した見出しの文
字列を複写し文書データとの対応を付けて出力する見出
し複写部122とを有している。
【0022】検索用見出し記憶部13は、検索用情報作
成部12により作成された、見出しとなる文字列と文書
データ記憶部11に記憶される文書データとの対応付け
を表す検索用情報を記憶するためのものである。
【0023】見出し検索部14は文書を検索する際に用
いられ、文書検索ユーザインタフェース15により与え
られた文字列と同じまたはそれを含む見出しを検索用見
出し記憶部13から検索し、該当する見出しを含む文書
の一覧を作成するためのものである。
【0024】文書検索ユーザインタフェース15は、見
出し検索部14に渡す文字列をユーザが入力したり、与
えられた文書の一覧を表示しユーザから目的とする文書
を文書指定部16により指定させるための入出力を司る
ために用いられる。
【0025】文書指定部16は見出し検索部14より作
成された文書の一覧を文書検索ユーザインタフェース1
5により表示し、取り出すべき文書をユーザに選択させ
るためのものである。
【0026】文書取り出し部14は、文書指定部16に
より指定された文書データを文書データ記憶部11から
取り出すためのものである。
【0027】文書表示装置18は文書取り出し部17に
より取り出された文書を表示させるために用いられる。
【0028】文書作成装置19は文書データを作成する
ために用いられる。
【0029】このように構成された文書記処理装置にお
いて、検索用情報の作成記憶、および文書データの記
憶、検索、表示の動作を詳細に説明する。
【0030】図2は検索用情報の作成、記憶を行う処理
の流れを示すものである。見出し部分は、文書データが
ODAなどの構造化文書であれば、構造から容易に検出
できるが、文書データが構造化文書でなくとも内容を解
析することで検出可能である。そこで文書データが図3
(a)のような構造化文書である場合と図3(b)のよ
うな構造化されていない文書である場合のそれぞれにつ
いて説明する。
【0031】文書データは、まず、文書作成装置19に
より作成される。作成された文書データは文書データ記
憶部11により記憶される。文書データを記憶するに
は、フロッピー(登録商標)ディスク、ハードディスク
などの外部記憶装置を用いるが、データベース管理シス
テムなど高度なシステムを用いることも可能である。文
書データが文書データ記憶部11に記憶されると同時
に、この文書データから見出し検出部121により見出
部分の検出処理が行われるとともに、見出し複写部12
2による見出しの内容の複写が行われる。
【0032】図2においてpは文書内容を指し示すポイ
ンタである。ポインタの指し示す対象は、構造化文書の
場合、図3(a)に示されるように木構造のノードであ
る。
【0033】まずステップS21によりpが文書の開始
点を指し示すように初期化される。開始点は図3(a)
の木構造のルートに当たるとなる。
【0034】続いて、ステップS22により現在pが指
し示している部分が見出しであるか否かを調べる。ここ
で、関数typeはpの指し示している対象の種類を調
べ、それが見出しであれば見出しであることを表す値を
返す。構造化文書では木構造の各ノードに、そのノード
の種類、例えば表題、見出し、図形、本文などを区別す
る値が設定されているので、関数typeはこの値を調
べることによってpが見出しであるか否かを知ることが
できる。図3(a)では、種類が見出しであるノード
を二重丸で示している。
【0035】ステップS22によりpが見出しであると
判定された場合、ステップS23において見出し複写部
12によりその内容が複写される。複写された見出しは
文書データを指し示す情報との対応表の形式にして検索
用情報として検索用見出し記憶部13に記憶される。図
3(a)に示すような構造化文書ではpが見出しである
場合にはその子は内容部であり、見出しの内容となる文
字列がこの内容部に格納されている。よって、複写対象
はこの内容部に格納されている文字列となる。
【0036】ステップS22によりpが見出しでないと
判定された場合、または、ステップS23により内容の
複写が終了した後に、ステップS24によりp:=ne
xt(p)によりpが次のノードを指し示すようにす
る。ここで、次のノードとは、pに子がある場合にはそ
の最も左の子となるノードであり、子がない場合で右隣
の兄弟があればそのノード、右隣の兄弟がなければ親の
右隣の兄弟となるノードである。親の右隣の兄弟がない
場合にはさらに親の右隣の兄弟を調べ、最初に見つかっ
たノードとする。どの親にも右隣の兄弟がない場合には
文書構造をすべて検査し終わったことになるのでpに終
了したことを表すnilを設定する。
【0037】続いて、pの値を調べ、nilであれば終
了し、nilでなければステップS22に戻って繰り返
し処理を続ける。
【0038】次に、図3(b)のような構造化されてい
ない文書に対する処理について説明する。ポインタpの
指し示す対象は、構造化されていない文書では図3
(b)に示されるように文字または行の先頭位置であ
る。
【0039】まず、図2の処理フローのステップS21
によりpが文書の開始点を指し示すように初期化され
る。開始点は文書の最初の行、文字である。
【0040】続いてステップS22により現在pが指し
示している部分が見出しであるか否かを調べる。関数t
ypeは、構造化されていない文書では、pの指し示し
ている部分が、例えば数字で始まる、または、前後の行
と異なるフォントが用いられているなどの条件を満たす
か否かで、対象となっている部分が見出しであるか否か
を調べる。
【0041】ステップS22によりpが見出しであると
判定された場合、ステップS23によりその内容が複写
される。複写された見出しは文書データを指し示す情報
との対応表の形式で検索用情報として見出し記憶部13
に記憶される。複写の範囲もステップS22において関
数typeが用いたものと同様の条件を用いて決定す
る。
【0042】ステップS22によりpが見出しでないと
判定された場合、または、ステップS23により内容の
複写が終了した後にステップS24によりp:=nex
t(p)によりpが次の行、文字を指し示すようにす
る。次の行、文字がない場合には文書すべて検査し終わ
ったことになるのでpに終了したことを表すnilを設
定する。
【0043】続いてステップS25でpの値を調べ、n
ilであれば終了し、nilでなければステップS22
に戻って繰り返し処理を続ける。
【0044】図4は、見出しと文書の対応関係を表す対
応表の実現方法を示している。ここで、41は見出しと
文書の対応を表す対応表であり、表の左側の列に見出し
複写部122により複写された見出しを表す文字列43
が格納され、右側の列に対応する文書データを示す情報
42が格納される。44〜47は文書データ記憶部11
により記憶された文書データである。対応表41と文書
データ44〜47は同一のファイルに記憶してもよい
が、別々のファイルに記憶しさらに文書データ44〜4
7を個別のファイルに記憶することもできる。
【0045】対応表41と文書データ44〜47が同一
のファイルに記憶される場合、対応表41の右側の列に
は対応する文書データのファイル内での場所をポインタ
として記憶することができる。
【0046】また、対応表41と文書データ44〜47
が別々のファイルに記憶されている場合には、対応表4
1の右側の列には対応する文書データが記憶されている
ファイルの名前とそのファイル中の場所を記憶する。
【0047】さらに文書データ44〜47が個別のファ
イルに記憶される場合には、対応表41の右側の列には
対応する文書データが記憶されているファイルの名前を
記録する。
【0048】また、図4では同じ見出しに対して、対応
表41に個別の行を作成しているが、同じ見出しを一行
にまとめ、複数の文書データを対応付けることも可能で
ある。
【0049】このようにして記憶された文書データから
特定の文書データを、前記作成・記憶された検索用見出
し情報により、取り出す検索処理について説明する。図
5はその検索処理の流れを示す図である。
【0050】検索する文字列をユーザが入力するため
に、文書検索ユーザインタフェース15を用いる。入力
する文字列は単一の完成された文字列でもよいが、正規
表現などにより複数の文字列を表すものでもよい。ま
た、検索する文字列を複数指定しそれらをAND/OR
で統合することで、指定された複数の文字列を同時に含
んでいる文書や一つでも含んでいる文書などの検索を指
示することも可能である。
【0051】図5は検索処理のフローを示すものであ
る。図5においてcは問い合わせの条件を表すデータ、
iは対応表41の行を示す整数型の変数、uは対応表4
1から指されている文書で条件を満たすものを記憶する
集合型の変数である。
【0052】ステップS51でまず問い合わせの条件を
表すデータをcに代入する。条件を表すデータは、例え
ば正規表現により表すことができる。ここでは説明のた
め、正規表現「.* aa .* | .*x」で
『「aa」を含むまたは「x」で終わる文字列』を指定
する。
【0053】ステップS52でi、uを初期化する。次
にステップS53で対応表のi行目である「対応表
[i]」に記憶されている文字列が条件cを満たすか否
かを調べる。iが1のときには対応表41の1行目を調
べる。
【0054】ステップS53により調べた結果、条件を
満たす場合にはステップS54により「対応表[i]」
から指されている文書をuに追加する。図4の例では、
対応表の1行目に記憶されている文字列「aa」が条件
cの『「aa」を含む』を満たすので、文書データを指
し示す情報をuに追加する。
【0055】ステップS53の判定の結果、条件を満た
さないとされた場合、またはステップS54が終了した
後に、ステップS55によりiの値が1だけ増える。
【0056】続いてステップS56によりその値が対応
表41の大きさを越えていないか調べられ、越えていな
い場合にはステップS53にもどり、iが対応表41の
大きさを越えるまで繰り返される。
【0057】図4の例では、この処理が終了した後に、
uには文書データ44、45、47を指し示す情報が記
憶される。これらの文書の一覧が文書検索ユーザインタ
フェース15により表示され、ユーザが文書指定部16
によりその一覧の中から目的の文書を一つまたは複数指
定すると、その指定された文書が文書取り出し部17に
より文書データ記憶部11から取り出され、文書表示装
置18により表示される。
【0058】なお、以上の実施例では、各見出しを検出
するごとに、対応する見出しの内容を複写し、検索用情
報として登録する例を説明したが、一つの文書について
見出しを検出したら見出し表に登録してゆき、その見出
し表への登録がすべて終わった後に、その見出し表に基
づいて見出しと文書を指し示す情報との対応表を作成す
るように変更実施することもできる。図6は見出し表と
文書データとの関係を示す図であり、見出し表には検出
した見出しの位置を示すポインタを順次格納する。
【0059】以上説明したように、本実施例は文書の見
出しとなる文字列を検索用の情報として自動的に抽出
し、登録するようにしたので、文書データを保存する際
に、従来技術のように別途キーワードなどを指示する煩
わしいキーワード抽出作業を必要とせず、文書データを
容易に保存することができる。かつ検索時には目的とす
る文書を迅速かつ容易に取り出すことができる。
【0060】(第2の実施例)第1の実施例は、検索さ
れたデータを文書単位で取り出して表示すものである
が、第2の実施例は検索されたデータを文書部品単位で
取り出して文書作成に利用するようにしたものである。
【0061】図7は本発明の第2の実施例の文書処理装
置の構成を示すブロック図である。この装置は、図7に
示すように、文書部品記憶部71、検索用情報作成部7
2、検索用見出し記憶部73、見出し検索部74、文書
部品検索ユーザインタフェース75、文書部品指定部7
6、文書部品取り出し部77、文書作成装置78および
文書部品作成装置79からなっている。
【0062】文書部品記憶部71は文書部品作成装置7
9により作成された文書部品を記憶するものである。
【0063】検索用情報作成部72は、文書部品作成装
置79からの文書部品を文書部品記憶部71に記憶する
際に、文書部品に含まれる見出しから検索用情報を作成
するものであり、文書部品作成装置79により作成され
た文書部品を解析し、章、節、図表の見出しとなる部分
を検出する見出し検出部721と、検出した見出しの文
字列を複写し文書部品との対応を付けて出力する見出し
複写部722とを有している。
【0064】検索用見出し記憶部73は、検索用情報作
成部72により作成された、見出しとなる文字列と文書
部品記憶部71に記憶される文書部品との対応付けを表
す検索用情報を記憶するものである。
【0065】見出し検索部74は文書部品を検索する際
に用いられ、文書部品検索ユーザインタフェース75に
より与えられた文字列と同じまたはそれを含む見出しを
検索用見出し記憶部73から検索し、該当する見出しを
含む文書部品の一覧を作成するものである。
【0066】文書部品検索ユーザインタフェース75
は、見出し検索部74に渡す文字列をユーザが入力した
り、与えられた文書部品の一覧を表示しユーザから目的
とする文書部品を文書部品指定部76により指定させる
ための入出力を司るものである。
【0067】文書部品指定部76は見出し検索部74よ
り作成された文書部品の一覧を文書部品検索ユーザイン
タフェース75により表示し、取り出すべき文書部品を
ユーザに選択させるものである。
【0068】文書部品取り出し部74は、文書部品指定
部76により指定された文書部品を文書部品記憶部71
から取り出すものである。
【0069】文書作成装置78は文書部品取り出し部7
7により取り出された文書部品を利用して文書データを
作成するものである。
【0070】文書部品作成装置79は文書部品を作成す
るものである。
【0071】以上のように構成された第2の実施例の文
書記処理装置において、検索用情報の作成記憶の動作を
説明する。文書部品は、まず文書部品作成装置79によ
り作成される。作成された文書部品は文書部品記憶71
により記憶される。文書部品を記憶するには、フロッピ
ーディスク、ハードディスクなどの外部記憶装置を用い
るが、データベース管理システムなど高度なシステムを
用いることも可能である。文書部品が文書部品記憶部7
1に記憶されると同時にこの文書部品から見出し検出部
721により見出し部分が検出される。見出し部分は、
文書部品がODAなどの構造化文書に用いることができ
る形式で作成されたものであれば、その構造から容易に
検出することができる。文書部品が構造化文書用のもの
でなくとも内容を解析することにより検出可能である。
例えば文書部品がテキストであれば数字で始まる、また
は、前後の行と異なるフォントが用いられているなど、
文書部品が図や表であれば「図」「表」の文字を含む最
初または最後の行であるというような条件を満たすか否
かで、対象となっている部分が見出しであるか否かを調
べる。
【0072】検出した見出しは、文書部品中の場所を指
すポインタなどによって示され、表形式で一時記憶され
る。図8は、検出された見出しの記憶方法を示してい
る。ここで81は見出し表であり検出された見出しを示
すポインタが記憶される。82、83、84は文書部品
であり、文書部品作成装置79により作成されたもので
ある。検出された見出しは図8のようにポイインタなど
によって図中の文書部品82〜84中の場所で指し示
し、図中81の見出し表に登録しておく。
【0073】このようにして得られた見出し表81と文
書部品82、83、84…から、見出しとなる文字列が
見出し複写部722により複写され、見出しと文書部品
記憶部71により記憶された文書部品の対応を表す対応
表として見出し記憶部81により記憶される。
【0074】図9は、見出しと文書部品の対応を表す対
応表の実現方法を示している。ここで、91は見出しと
文書部品の対応を表す対応表であり、表の左側の列に見
出し複写部722により複写された見出しを表す文字列
93が格納され、右側の列に対応する文書部品を示す情
報92が格納される。94〜99は文書部品記憶部71
により記憶された文書部品である。対応表91と文書部
品94〜99は同一のファイルに記憶してもよいが、別
々のファイルに記憶しさらに文書部品94〜99を個別
のファイルに記憶することもできる。対応表91と文書
部品94〜99が同一のファイルに記憶される場合、対
応表91の右側の列には対応する文書部品のファイル内
での場所をポインタとして記憶することができる。
【0075】また、対応表91と文書部品94〜99が
別々のファイルに記憶されている場合には、対応表91
の右側の列には対応する文書部品が記憶されているファ
イルの名前とそのファイルのなかの場所を記憶する。さ
らに文書部品94〜99が個別のファイルに記憶される
場合には、対応表91の右側の列には対応する文書部品
が記憶されているファイルの名前を記録する。
【0076】なお、図9では同じ見出しに対して、対応
表91に個別の行を作成しているが、同じ見出しを一行
にまとめ、複数の文書部品を対応付けることも可能であ
る。また、上記の実施例では見出し表を作成し、その後
その見出し表を用いて対応表を作成する場合を説明した
が、見出し表を作成せずに第1の実施例の図2で示した
ように見出しを検出する毎に対応表に直接に登録するよ
うにしてもよい。
【0077】このようにして作成・記憶された検索用見
出し情報即ち対応表により、文書部品記憶部74に記憶
された文書部品群から所望の文書部品を取り出す検索処
理は、図5のフローチャートにより説明した第1の実施
例における検索処理とほぼ同じである。対応表の探索に
より、第1の実施例では文書の一覧を得るのに対し、第
2の実施例では文書部品の一覧を得る点が相違するのみ
である。
【0078】得られた文書部品の一覧は文書部品検索ユ
ーザインタフェース75により表示し、ユーザが目的と
する文書部品を文書部品指定部76により指定できるよ
うにする。ここで文書検索ユーザインターフェース75
は単一の文書部品を指定させるのでもよいが、複数の文
書部品を指定できるようにすることも可能である。ユー
ザが文書部品検索ユーザインタフェース75と文書部品
指定部76により一つまたは複数の文書部品が指定され
ると、指定された文書部品は文書部品取り出し部77に
より文書部品記憶部71から取り出され、文書作成装置
78に取り込まれる。
【0079】以上説明したように、本実施例は文書部品
の見出しとなる文字列を文書部品と対応させて検索用情
報として検索用見出し記憶部73に自動的に登録するよ
うにしたので、文書部品を保存する際に、別途キーワー
ドなどを人手により指示する必要がなく、大量の文書部
品であっても容易に保存し、かつ検索時には目的とする
文書部品を迅速かつ容易に取り出すことができる。
【0080】(第3の実施例)図10は本発明の第3の
実施例の文書処理装置の構成を示すブロック図である。
この文書処理装置は、図10に示すように、文書データ
記憶部101、検索用情報作成部102、検索用見出し
記憶部103、見出し検索部104、文書検索ユーザイ
ンタフェース105、文書指定部106、文書取り出し
部107、文書データ編集部108および見出し編集記
録部109からなっている。
【0081】この文書処理装置は文書データ編集部10
8により文書データ記憶部101に格納されている文書
データの編集を行うようにしたものであり、編集により
文書データが更新された時に、その更新された文書デー
タに検索用見出し記憶部103の内容を整合させるよう
にしたものである。第1の実施例とは、文書データ記憶
部101から検索された文書データを編集する文書デー
タ編集部108と、文書データ編集部108により追
加、変更、削除された見出しを抽出する見出し編集記録
部109と、見出し編集記録部109により記録された
見出しの追加、変更、削除を検索用見出し記憶部103
に反映させる見出し更新部1023とを設けた点におい
て相違し、その他の構成要素は第1の実施例と同じであ
る。従って、文書データおよび検索用見出し情報の新規
な登録処理、および文書データの検索処理については説
明を省略し、前記相違点に関する部分即ち検索用見出し
情報の更新処理に重点を置いてその動作を説明する。
【0082】文書データ編集部108による編集では見
出しの追加、変更、削除が可能である。文書データ編集
部108による見出しの追加、変更、削除は、見出し編
集記録部109により検出され、追加、変更、削除の別
に記録される。文書データ編集部108による編集が終
了し、再び、文書データ記憶部101により記憶される
際に、見出し更新部1023は、見出し編集記録部10
9により記録された見出しの追加、変更、削除の情報に
より検索用見出し記憶部103に格納されている対応表
の更新を行なう。この更新処理において、対応表に、追
加された見出しに対する行が追加され、変更された見出
しに対する行の内容が変更され、削除された見出しに該
当する行が削除される。以下に、その詳細な処理を説明
する。
【0083】図11は見出し検出部1021により検出
された見出しの記憶方法を示している。図中114は編
集対象として指定された文書データを文書データ記憶部
101から文書取り出し部107により取り出して編集
用作業領域に置かれた編集対象文書データである。11
1は追加見出し表であり、文書データ編集部108によ
る編集で追加された見出しを指し示すポインタが記憶さ
れる。112は変更見出し表であり、文書データ114
に対し文書データ編集部108による編集で変更された
見出しを指し示すポインタが記憶される。113は削除
見出し表であり、編集対象文書データ114から文書編
集部108による編集で削除された見出しを指し示すポ
インタが記憶される。この図では、第1章の見出しの内
容が「xxx」から「xxxyyy」に変更され、第2
章の「yyy」が削除され、最後に「ppp」と「mm
m」が追加された状態を示している。
【0084】見出し編集記録部109は、追加見出し表
111、変更見出し表112、削除見出し表113を図
12のフローチャートに示された、以下の手順で作成す
る。
【0085】見出し編集記録部109は、まず、文書デ
ータ編集部108による編集操作の種類を調べる(ステ
ップS121、S123、S126)。
【0086】文書データ編集部108による編集操作が
見出しの追加であれば、その見出しへのポインタを追加
見出し表111に記憶する(ステップS122)。
【0087】文書データ編集部108による編集操作が
見出しの変更であれば、その見出しへのポインタが追加
見出し表111に記憶されているか調べ(ステップS1
24)、追加見出し表111に記載されていない場合の
み変更見出し表112に記憶する(ステップS12
5)。
【0088】文書データ編集部108による編集操作が
見出しの削除であれば、まず、その見出しへのポインタ
が追加見出し表111に記憶されているか調べ(ステッ
プS127)、追加見出し表111に記憶されている場
合は追加見出し表111から削除し(ステップS12
8)、そうでない場合のみ削除見出し表113に記憶し
(ステップS129)、さらにその見出しへのポインタ
が変更見出し表112に記憶されているか調べ、(ステ
ップS12A)、記憶されている場合は変更見出し表1
12からそのポインタを削除する(ステップS12
B)。
【0089】文書編集部108により編集が終了する
と、編集対象文書データ114が文書記憶部101に格
納されている編集前のもとの文書データを更新する形で
記憶される。その際、以上の手順により作成された追加
見出し表111、変更見出し表112、削除見出し表1
13を用いて、見出し更新部1023は、見出し記憶部
103に記憶されている対応表131を更新する。
【0090】図13は対応表の更新を説明するための図
であり、対応表131と、文書データ記憶部101の更
新後の文書データ132と、文書データ編集部108に
おいて編集操作された編集対象の文書データ133と、
変更見出し表112および削除見出し表113に登録さ
れた文書データ133上の変更または削除の施された見
出しの位置のポインタ(右側)と更新後の文書データ1
32の対応する位置のポインタ(左側)とを対応させた
編集見出し対応表134と、追加見出し表111に登録
された文書データ133上の追加された見出しの位置の
ポインタ(右側)と更新後の文書データ132の対応す
る位置のポインタ(左側)とを対応させた追加見出し対
応表135との相互の関係が示されている。
【0091】この図13に示すように、編集見出し対応
表134および追加見出し対応表135には、文書デー
タ記憶部101の文書データ132が更新された時に、
編集によって変更、削除または追加された見出しの文書
データ133における位置と更新により文書データ13
2中に変更、削除または追加された見出しの位置との対
応が登録される。
【0092】図13の状態から、図11の追加見出し表
111、変更見出し表112、削除見出し表113を用
いて、対応表131の内容を更新する。この更新は、削
除、追加、変更の順に、それぞれ図14、図15、図1
6に示される手順で行われる。
【0093】図14においてiは削除見出し表の行を示
す変数であり、ステップS141において1に初期化さ
れる。
【0094】続いてステップS142でiが削除見出し
表113の大きさを越えていないか確認する。越えてい
る場合には、削除見出し表113の全ての行を処理した
ことになるので、終了する。
【0095】越えていない場合には、ステップS143
により削除見出し表113のi行目の内容を変数tに代
入する。
【0096】続いてステップS144によりtにより指
し示された削除された見出しの編集前の位置を示すポイ
ンタをpに代入する。削除された見出しの編集前の位置
は図13の編集見出し対応表134から、右側がtと同
じである行を探し、その行の左側の値を参照することに
より得ることができる。
【0097】次にステップS145において、対応表1
31からpと同じ位置を示すポインタを記憶している行
を削除する。最後に、ステップS146でiの値を1だ
け増加させてステップS142に戻る。
【0098】図15においてiは追加見出し表111の
行を指し示す変数であり、ステップS151により1に
初期化される。
【0099】続いてステップS152でiが追加見出し
表111の大きさを越えていないか確認する。越えてい
る場合には、追加見出し表の全ての行を処理したことに
なるので、終了する。
【0100】越えていない場合には、ステップS153
により追加見出し表111のi行目の内容を変数tに代
入する。
【0101】続いてステップS154において、tによ
り指し示された追加された見出しの更新後の位置を示す
ポインタpに代入する。追加された見出しの更新後の位
置は図13の追加見出し対応表135から、右側がtと
同じである行を探し、その行の左側の値を参照すること
で得ることができる。
【0102】次にステップS155で、対応表131
に、見出しの内容とpと同じ位置を示すポインタを記憶
する行を追加する。最後にステップS156でiの値を
1だけ増加させてステップS152に戻る。
【0103】図16において、iは変更見出し表112
の行を指し示す変数であり、ステップS161により1
に初期化される。
【0104】続いてステップS162でiが変更見出し
表112の大きさを越えていない確認する。越えている
場合には、変更見出し表112の全ての行を処理したこ
とになるので、終了する。
【0105】越えていない場合には、ステップS163
により変更見出し表112のi行目の内容を変数tに代
入する。
【0106】続いてステップS164において、tによ
り指し示された変更された見出しの編集前の位置を示す
ポインタをpに代入する。変更された見出しの更新後の
位置は図13の編集見出し対応表134から、右側がt
と同じである行を探し、その行の左側の値を参照するこ
とで得ることができる。
【0107】次にステップS165で、対応表131
に、見出しの内容とpと同じ位置を示すポインタを記憶
する行の左側の内容を、変更された見出しの内容で更新
する。
【0108】最後にステップS166でiの値を1だけ
増加させてステップS162に戻る。
【0109】本実施例によれば、文書データ編集部10
8により作成され、文書データ記憶部101により記憶
しようとする文書の内容を表すデータから、見出し検出
部1021により見出しを検出し、その見出しと文書デ
ータ記憶部101に記憶された文書の内容を表すデータ
との対応を見出し複写部1022により作成し、検索用
見出し記憶部103に記憶させるようにしたので、文書
を登録する際に、従来のように検索用のキーワードを付
加する作業を必要とせずに、検索用の情報を自動的に生
成することができる。また、検索用見出し記憶部103
が特定の記憶領域に設けられた場合、参照すべき検索用
の情報の領域を局所化することが可能となるので、検索
速度を高速化することができる。
【0110】また、本実施例において検索時には、与え
られた文字列と同じかまたはその文字列を含む文字列を
検索用見出し記憶部103に格納した検索用情報の対応
表131により検索し、その文字列に対応付けられてい
る文書の一覧を提示し、その一覧から目的とする文書を
選択することにより所望の文書をとりだすことができ
る。
【0111】さらに本実施例によれば、文書データ記憶
部101により記憶された文書の内容を表すデータを文
書データ編集部108により編集する際に、見出し編集
記録部109により追加、更新、削除された見出しを記
録しておき、再度、文書データ記憶部101により文書
データを記憶する際に、見出し更新部1023により、
見出しの編集記録部109の記録にしたがって検索用見
出し記憶部103の内容を更新することができる。
【0112】また、検索用見出し記憶部103の内容の
更新の際に、削除された見出しの更新を最初に行うこと
で、削除された見出しのための領域が新たに追加された
別の見出しのための領域として再利用された場合にも正
確に更新を行うことができる。
【0113】(第4の実施例)前述の第2の実施例は、
文書部品を格納し、その文書部品を高速に検索するため
の検索用情報を文書部品の見出しから抽出するようにし
たものである。その第2の実施例は文書部品を単位とし
て登録し、文書部品単位で再利用するのに対し、第4の
実施例は、文書全体を登録し、その文書を構成する文書
部品を文書部品単位で検索し再利用の対象とするもので
ある。
【0114】図17は本発明の第4の実施例の文書処理
装置の構成を示すブロック図である。この装置は、図1
7に示すように、構造化文書記憶部171、検索用情報
作成部172、部品検索用情報記憶部173、文書部品
検索部174、文書部品検索ユーザインタフェース17
5、文書部品指定部176、文書部品取り出し部17
7、および文書作成装置178からなっている。
【0115】構造化文書記憶部171は文書作成装置1
78により作成された構造化文書を記憶するものであ
る。
【0116】検索用情報作成部172は、文書作成装置
178からの構造化文書を構造化文書記憶部171に記
憶する際に、文書部品を単位として検索するための検索
用情報を作成するものであり、文書作成装置178によ
り作成された構造化文書の文書構造を解析し、章、節、
図表の見出しとなる部分を検出する見出し検出部172
1と、検出した見出しの文字列と文書部品との対応を示
す部品検索用オブジェクトを生成する部品検索用情報作
成部1722とを有している。部品検索用情報記憶部1
73は、検索用情報作成部172により作成された部品
検索用情報を記憶するものである。
【0117】文書部品検索部174は文書部品を検索す
る際に用いられ、文書部品検索ユーザインタフェース1
75により与えられた文字列と同じまたはそれを含む見
出しを部品検索用情報記憶部173から検索し、該当す
る見出しを含む文書部品の一覧を作成するものである。
【0118】文書部品検索ユーザインタフェース175
は、文書部品検索部174に渡す文字列をユーザが入力
したり、与えられた文書部品の一覧を表示しユーザから
目的とする文書部品を文書部品指定部176により指定
させるための入出力を司るものである。
【0119】文書部品指定部176は文書部品検索部1
74より作成された文書部品の一覧を文書部品検索ユー
ザインタフェース175により表示し、取り出すべき文
書部品をユーザに選択させるものである。
【0120】文書部品取り出し部174は、文書部品指
定部176により指定された文書部品を構造化文書記憶
部171から取り出すものである。
【0121】文書作成装置178は文書部品取り出し部
177により取り出された文書部品を利用して文書デー
タを作成するものである。
【0122】本実施例の装置で取り扱う構造化文書の具
体例を図18に示し、その文書の論理構造を図19に示
す。この構造化文書は3つの章を含み、「1章」はその
タイトルの内容と2つの節、すなわち「1.1節」およ
び「1.2節」からなっている。「1.1節」は、その
タイトルの内容と本文の内容と「図1」からからなって
いる。「図1」はその図形のキャプションと内容である
図形情報からなっている。
【0123】構造化文書記憶部171では、文書の論理
構造を上述した図19に示すような構造で保持する。部
品検索用情報記憶部173は図20に示すような文書部
品の単位ごとに検索対象となる見出し(タイトルあるい
はキャプション)と文書部品が組みとなった検索用のオ
ブジェクトを要素とする集合を部品検索用情報として保
持する。
【0124】図21は、図18に示された文書が構造化
文書記憶部171へ格納される際に、検索用情報作成部
172により生成される検索用オブジェクトの具体例を
示すものである。検索用オブジェクトの値として各文書
部品に対応する見出しと文書部品のポインタの対が生成
される。
【0125】第1の実施例の説明に用いた図2は、本実
施例の検索用情報の作成、記憶を行う処理の流れの説明
にも用いることができる。図2においてpは文書内容を
指し示すポインタである。ポインタの指し示す対象は、
構造化文書の木構造のノードである。
【0126】まずステップS21によりpが文書の開始
点を指し示すように初期化される。開始点は図3(a)
の木構造のルートに当たるとなる。
【0127】続いて、ステップS22により現在pが指
し示している部分が見出しであるか否かを調べる。ここ
で、関数typeはpの指し示している対象の種類を調
べ、それが見出しであれば見出しであることを表す値を
返す。構造化文書では木構造の各ノードに、そのノード
の種類、例えば表題、見出し、図形、本文などを区別す
る値が設定されているので、関数typeはこの値を調
べることによってpが見出しであるか否かを知ることが
できる。図3(a)では、種類が見出しであるノード
を二重丸で示している。
【0128】ステップS22によりpが見出しであると
判定された場合、ステップS23において部品検索用情
報作成部1722によりそのpの内容とその位置を指し
示す情報との対応表の形式にした部品検索用情報が作成
され、部品検索用情報記憶部173に記憶される。図3
(a)に示すような構造化文書ではpが見出しである場
合にはその子は内容部であり、見出しの内容となる文字
列がこの内容部に格納されている。
【0129】ステップS22によりpが見出しでないと
判定された場合、または、ステップS23により部品検
索用情報の作成、記憶が終了した後に、ステップS24
によりp:=next(p)によりpが次のノードを指
し示すようにする。
【0130】続いて、pの値を調べ、nilであれば終
了し、nilでなければステップS22に戻って繰り返
し処理を続ける。
【0131】このようにして記憶された作成・記憶され
た部品検索用情報を用いて、構造化文書記憶部171か
ら所望の文書部品を取り出す検索処理について説明す
る。第1の実施例の説明に用いた検索処理の流れを示す
図5は本第4の実施例にも適用できる。
【0132】図5においてcは問い合わせの条件を表す
データ、iは対応表41の行を示す整数型の変数、uは
対応表41から指されている文書部品で条件を満たすも
のを記憶する集合型の変数である。
【0133】ステップS51でまず問い合わせの条件を
表すデータをcに代入する。
【0134】ステップS52でi、uを初期化する。次
にステップS53で対応表のi行目である「対応表
[i]」に記憶されている文字列が条件cを満たすか否
かを調べる。iが1のときには対応表41の1行目を調
べる。
【0135】ステップS53により調べた結果、条件を
満たす場合にはステップS54により「対応表[i]」
から指されている文書部品をuに追加する。
【0136】ステップS53の判定の結果、条件を満た
さないとされた場合、またはステップS54が終了した
後に、ステップS55によりiの値が1だけ増える。
【0137】続いてステップS56によりその値が対応
表41の大きさを越えていないか調べられ、越えていな
い場合にはステップS53にもどり、iが対応表41の
大きさを越えるまで繰り返される。
【0138】この処理が終了した後に、uには条件を満
たす文書部品を指し示す情報が記憶されている。これら
の文書部品の一覧が文書部品検索ユーザインタフェース
175により表示され、ユーザが文書部品指定部176
によりその一覧の中から目的の文書部品を一つまたは複
数指定すると、その指定された文書部品が文書部品取り
出し部177により構造化文書記憶部11から取り出さ
れ、文書作成装置178により利用される。
【0139】次に、文書部品検索の具体例として図1
8、図19に示した文書が格納されている構造化文書記
憶部171に対する検索の例を挙げる。 検索例1:「データベース」を含んでいる見出しを持つ
部品を検索 検索結果:1章全部のサブツリーを含んでいる要素が
検索結果の集合に入れられる。 検索例2:「OODB」を含んでいる見出しを持つ部品
を検索 検索結果:1.2節のサブツリーを含んでいる要素が
検索結果の集合に入れられる。 検索例3:「図1」を含んでいる見出しを持つ部品を検
索 検索結果:図1のサブツリーを含んでいる要素が検索
結果の集合に入れられる。
【0140】本実施例によれば、文書部品を選択的に格
納するのではなく、文書そのものを格納することによ
り、既存文書を構成する全ての文書部品を再利用の対象
とすることができる。さらに文書として格納しているの
で、格納時に、いちいち文書部品の指定をする手間がは
ぶける。また、文書全体を格納していることにより、従
来技術(例えば、前記特許特開平2−148250号公
報、特開平3−8087号公報)より領域を必要とする
ように見えるがそもそも保存する必要がある文書を格納
しているので無駄な領域を使用している訳ではない。従
来技術では、再利用のために登録した文書部品を含んで
いる文書を保存している場合、文書とは別に再利用ため
の部品を2重に記憶しているので、本実施例の方がトー
タルでの必要とする領域も少なくてすむ。さらに、文書
を単位として登録格納するので、文書部品を単位として
登録格納する場合のように文書部品を別途作成する必要
がない。また、本実施例によれば文書部品をそれが所属
している文書を気にせずに文書部品として検索すること
が可能となる。なお、本実施例の変形例として、構造化
文書記憶部171に記憶された文書に編集処理を施して
元の文書を書き換えることができるように構成した場合
には、図10に示す第3の実施例と同様に検索用見出し
記憶部の内容を更新するための手段が必要となる。即
ち、この変形例を実現するためには図10の文書データ
編集部108、見出し編集記録部109および見出し更
新部1023にそれぞれ対応する構成を図17の構成に
付加すればよい。
【00141】(第5の実施例)この実施例は特定の文
書部品を各構造化文書から取り出して、一つの文書に組
み合せて提示することのできる文書処理装置に関する。
図22はこの実施例の機能ブロック図である。
【0142】この処理装置は、図22に示すように、構
造化文書記憶部221と、検索条件入力部222と、文
書構造検索部223と、仮想文書作成部224と、文書
表示部225を備えている。
【0143】構造化文書記憶部221は文書を格納する
記憶部であり、その文書としてはODA形式の構造化文
書を取り扱うものとする。構造化文書はいくつかの文書
部品から構成されている。本実施例で扱う文書部品の単
位は、章、節、図形、表、イメージ等を扱うものとす
る。図23は構造化文書の例を示し、図24はその構造
木を示すものである。
【0144】検索条件入力部222は、取り出すべき特
定の文書部品の条件を入力するものである。
【0145】文書構造検索部223は、構造化文書の形
で格納された各文書から検索条件入力部222により入
力された条件を満たすの特定の文書部品を構造化文書記
憶部221から検索するものであり、文書ルート取得部
2231、文書部品選択部2232を有している。文書
ルート取得部2231は構造化文書記憶部221に格納
されている文書の構造木のルートを順次取り出す処理を
行うものである。文書部品選択部2232は文書ルート
取得部2231で取り出した文書ルートから構造木を辿
って、検索条件入力部222で取得した文書部品検索条
件を満たす文書部品を選択する処理を行うものである。
【0146】仮想文書作成部224は、文書構造検索部
223で特定された文書部品を利用して文書を作成する
ものである。
【0147】図25は文書部品を検索する処理のフロー
を示すものである。 (1) 最初に検索条件入力部11により特定する部品
の検索条件を入力する(ステップS251)。ここで文
書部品検索条件は、各文書中の特定の文書部品を抽出す
るための条件である。例えば、文書部品検索条件には、
文書部品の見出しを指定することによって特定するため
の例として見出し文字列が「Abstract」である
という条件がある。また、定型フォームを持つ文書にお
いて決まった位置に出現する文書部品を指定するために
その位置を条件としてもよい。このように文書の構造に
依存する条件を用いることができる。
【0148】(2) 照合すべき対象の文書があるか否
かを調べ(ステップS252)、照合すべき対象の文書
があれば、文書ルート取得部2231によって構造化文
書記憶部221から文書を構成するツリーのルートを一
つ取り出す(ステップS253)。すべて照合が済んで
処理すべき対象の文書がない場合は(5)の処理へ進
む。
【0149】(3) そのツリーに照合が済んでいない
文書部品があるか否かを調べ(ステップS254)、あ
れば文書部品選択部122は(2)で得られたルートか
ら文書部品のツリーを辿り、文書部品を一つ取り出す
(ステップS255)。取り出すべき文書部品がそのツ
リーにない場合は(2)の処理に戻る。ここで定型フォ
ームを持つ文書などを検索対象とする場合、ツリーにお
けるある位置の文書部品のみを候補として取り出すとい
った手法もある。
【0150】(4) 各々の文書部品が文書部品検索条
件を満たすかどうかを判定する(ステップS256)。
例えば、文書部品検索条件として文書部品の見出しに含
まれるべき文字列が指定されているときは、(3)で取
り出した文書部品に対応する見出しの文字列と文書部品
検索条件の文字列とを比較し、一致した場合にはその文
書部品が条件を満たす文書部品として仮想文書作成部2
24へ渡して(ステップS257)、(2)の処理へ戻
る。文書部品検索条件を満たさない場合、(3)の処理
へ戻る。
【0151】(5) 仮想文書作成部224は検索の結
果得られた文書部品群を内部メモリ領域中において組み
合せて一つの仮想的に一つの文書を生成する(ステップ
S258)。即ち、仮想文書作製部224は、図26に
示すように、仮想文書作成部224の作業用の内部メモ
リに文書論理構造に関する文書オブジェクト261を生
成し、文書構造検索部223により特定された個々の文
書部品を構造化文書記憶部221から読み込み、生成し
た文書オブジェクトに繋ぎ合わせていき、文書部品の関
係(親子関係)を構築する。
【0152】文書表示部225は、仮想文書作成部22
4が作成した文書情報を可視化する。図27に論文のA
bstractを表示した仮想文書の一例を示す。この
例の場合、論文の集まりからそのアブストラクトのみを
抽出し、そのアブストラクトと文書名を組みにした段落
で構成される仮想文書が作成され、表示されたものであ
る。ユーザはこの仮想文書を読むことにより、所望の論
文を探すことができる。
【0153】本実施例によれば、2次記憶装置である構
造化文書記憶部221に格納された既存文書をベースに
して、内部メモリ中に仮想文書を作成しているので2次
記憶装置の領域を必要としない。さらに、もし仮想文書
を保管したい場合には、内部メモリ中に記憶されている
仮想文書情報を構造化文書記憶部221に格納すること
により保管できる。さらに、文書の共有機能を利用すれ
ば、各論文のアブストラクトとこの文書の各々の項目を
共有することにより、記憶領域の節約、論文が編集され
たときの内容の更新の追随を行い、つねに新しい情報を
維持できる。また、本実施例は、文書の検索に用いるば
かりではなく、既存文書のある部分を抽出して一つの別
の文書として見ることを可能とするので、文書の構成要
素を格納時の目的とはべつの多目的に再利用することが
できるようになる。
【0154】なお、上記の例では文書部品の特定は、文
書部品が持っている見出しがAbstractである文
書部品を特定したが、文書部品の構造木における位置で
特定してもよい。また、各文書ごとに、特定する文書部
品を変えるようにしてもよい。
【0155】また、仮想文書を文書表示部225に表示
するほかに、印刷部により印刷するようにすることもで
きる。なお、仮想文書をファイルとして構造化文書記憶
部221に保存することもできる。
【0156】
【発明の効果】本発明によれば、文書に含まれる見出し
を見出し検出手段により抽出して、見出し文字列と文書
要素の対応関係を表す検索用情報を生成する際、同じ見
出し文字列を有する複数の文書要素がある場合に、その
一対多の対応関係を表す検索用情報をも生成可能に構成
し、従来のキーワードの代わりに登録するようにしたの
で、キーワードを選定する煩雑な作業を要することなく
容易に検索対象文書の登録が可能になると共に、検索用
情報のサイズを小さく作成できる。
【0157】本発明によれば、既存文書の所望の部分を
抽出して一つの別の文書としてユーザに提示することが
できるので、ユーザは提示された文書を見て必要な文書
の選択をすることができ、また、文書の要素を格納時の
目的とは別の複数の目的に再利用することもできる。
【図面の簡単な説明】
【図1】 第1の実施例の構成を示す図
【図2】 文書登録の処理フローを示す図
【図3】 (a)は構造化文書の例、(b)は非構造化
文書の例
【図4】 対応表の例を示す図
【図5】 文書検索の処理フローを示す図
【図6】 見出し表の例を示す図
【図7】 第2の実施例の構成を示す図
【図8】 見出し表の例を示す図
【図9】 対応表の例を示す図
【図10】 第3の実施例の構成を示す図
【図11】 見出しの削除、変更、追加等の編集操作の
記録を示す図
【図12】 編集操作の記録の処理フローを示す図
【図13】 更新箇所の対応表の例を示す図
【図14】 対応表(検索用情報)の見出しの削除の処
理フローを示す図
【図15】 対応表の見出しの追加の処理フローを示す
【図16】 対応表の見出しの変更の処理フローを示す
【図17】 第4の実施例の構成を示す図
【図18】 構造化文書の例を示す図
【図19】 構造化文書の構造の例を示す図
【図20】 検索用オブジェクトの構造の例を示す図
【図21】 検索用オブジェクトの具体例を示す図
【図22】 第5の実施例の構成を示す図
【図23】 構造化文書の例を示す図
【図24】 構造化文書の構造の例を示す図
【図25】 第5の実施例の処理フローを示す図
【図26】 仮想文書と文書情報との関係を示す図
【図27】 仮想文書の表示例を示す図
【符号の説明】
11,101…文書データ記憶部、12,72,10
2,172…検索用情報作成部、121,721,10
21,1721…見出し検出部、122,722,10
22…見出し複写部、1722…部品検索用情報作成
部、13,73,103…検索用見出し記憶部、14,
74,104…見出し検索部、15,105…文書検索
ユーザインタフェース、16,106…文書指定部、1
7,107…文書取り出し部、18…文書表示装置、1
9…文書作成装置、71…文書部品記憶部、75,17
5…文書部品検索ユーザインタフェース、76…文書部
品指定部、77…文書部品取り出し部、78…文書作成
装置、79…文書部品作成装置、108…文書データ編
集部、109…見出し編集記録部、1023…見出し更
新部、171…構造化文書記憶部、173…部品検索用
情報記憶部、174…文書部品検索部、221…構造化
文書記憶部、222…検索条件入力部、223…文書構
造検索部、2231…文書ルート取得部、2232…文
書部品選択部、224…仮想文書作成部、225…文書
表示部。
フロントページの続き (72)発明者 小松原 弘文 神奈川県川崎市高津区坂戸3丁目2番1号 KSP R&Dビジネスパークビル 富 士ゼロックス株式会社 Fターム(参考) 5B075 ND03 NK32 NR11 PP26 PQ12 PQ32 UU06

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 文書要素から構成された文書を記憶する
    文書記憶手段と、前記文書記憶手段に記憶される文書か
    ら見出しを表す文字列を検出する見出し検出手段と、 前記見出し検出手段により検出された文字列と、前記文
    書記憶手段により記憶された文書を構成する前記検出さ
    れた文字列であって同じ文字列を有する複数の文書要素
    との対応関係を表す検索用情報を生成する検索用情報生
    成手段と、 前記検索用情報生成手段により生成された検索用情報を
    記憶する検索用情報記憶手段とを設けたことを特徴とす
    る文書処理装置。
  2. 【請求項2】 文書要素から構成された文書を記憶する
    文書記憶手段と、 文書要素の属性と該属性と同じ属性を有する複数の文書
    要素が対応付けられた検索用情報を記憶する検索用情報
    記憶手段と、 文書要素の属性を検索条件として指定して、前記検索用
    情報記憶手段に記憶された検索用情報に基づいて検索条
    件を満たす属性を検索して該属性に対応する文書要素を
    前記文書から取り出す文書要素検索手段と、 前記文書要素検索手段により取り出された文書要素を所
    定の形式で組み合わせて一つの文書を作成する作成手段
    を有することを特徴とする文書処理装置。
  3. 【請求項3】 文書記憶手段、見出し検出手段、検索用
    情報作成手段および検索用情報記憶手段を備えた文書処
    理装置の文書処理方法において、 文書要素から構成された文書を前記文書記憶手段に記憶
    するステップと、 見出し検出手段で、前記文書記憶手段に記憶される文書
    から見出しを表す文字列を検出するステップと、 検索用情報生成手段で、前記見出し検出手段により検出
    された文字列と、前記文書記憶手段により記憶された文
    書を構成する前記検出された文字列であって同じ文字列
    を有する複数の文書要素との対応関係を表す検索用情報
    を生成するステップと、 検索用情報記憶手段で、前記検索用情報生成手段により
    生成された検索用情報を記憶するステップとを有するこ
    とを特徴とする文書処理方法。
  4. 【請求項4】 文書記憶手段、検索用情報記憶手段、文
    書要素検索手段および作成手段を備えた文書処理装置の
    文書処理方法において、 前記文書記憶手段で、文書要素から構成された文書を記
    憶するステップと、 前記検索用情報記憶手段で、文書要素の属性と該属性と
    同じ属性を有する複数の文書要素が対応付けられた検索
    用情報を記憶するステップと、 前記文書要素検索手段で、文書要素の属性を検索条件と
    して指定して、前記検索用情報記憶手段に記憶された検
    索用情報に基づいて検索条件を満たす属性を検索して該
    属性に対応する文書要素を前記文書から取り出すステッ
    プと、 前記作成手段で、前記文書要素検索手段により取り出さ
    れた文書要素を所定の形式で組み合わせて一つの文書を
    作成するステップとを有することを特徴とする文書処理
    方法。
JP2003035025A 2003-02-13 2003-02-13 文書処理装置および方法 Pending JP2003248690A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003035025A JP2003248690A (ja) 2003-02-13 2003-02-13 文書処理装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003035025A JP2003248690A (ja) 2003-02-13 2003-02-13 文書処理装置および方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP5115400A Division JPH06309365A (ja) 1993-04-20 1993-04-20 文書処理装置

Publications (1)

Publication Number Publication Date
JP2003248690A true JP2003248690A (ja) 2003-09-05

Family

ID=28672874

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003035025A Pending JP2003248690A (ja) 2003-02-13 2003-02-13 文書処理装置および方法

Country Status (1)

Country Link
JP (1) JP2003248690A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007219579A (ja) * 2006-02-14 2007-08-30 Profield Co Ltd ドキュメント変換装置、およびプログラム
KR100761912B1 (ko) 2006-04-05 2007-09-28 (주)첫눈 본문 식별에 기반한 문서정보 추출방법 및 시스템
JP2007272884A (ja) * 2006-03-17 2007-10-18 Proquest-Csa Llc 情報発見タスクのために公表文献のキャプション付きオブジェクトに索引付けする方法およびシステム
KR100809751B1 (ko) * 2006-04-13 2008-03-04 엘지전자 주식회사 문서분석 시스템 및 그 방법
JP2009048654A (ja) * 2008-10-07 2009-03-05 Profield Co Ltd ドキュメント変換装置、およびプログラム
JP2009075627A (ja) * 2007-09-18 2009-04-09 Konica Minolta Business Technologies Inc 文書処理装置
JP2014013566A (ja) * 2012-06-18 2014-01-23 Canon Inc 情報処理装置と通信する画像形成装置
JP2016018279A (ja) * 2014-07-04 2016-02-01 富士通株式会社 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6017522A (ja) * 1983-07-11 1985-01-29 Toshiba Corp 文書作成装置
JPH01199263A (ja) * 1988-02-03 1989-08-10 Ricoh Co Ltd キーワード抽出装置
JPH04281559A (ja) * 1991-03-08 1992-10-07 Toshiba Corp 文書検索装置
JPH0581327A (ja) * 1991-09-19 1993-04-02 Fujitsu Ltd 情報検索支援処理装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6017522A (ja) * 1983-07-11 1985-01-29 Toshiba Corp 文書作成装置
JPH01199263A (ja) * 1988-02-03 1989-08-10 Ricoh Co Ltd キーワード抽出装置
JPH04281559A (ja) * 1991-03-08 1992-10-07 Toshiba Corp 文書検索装置
JPH0581327A (ja) * 1991-09-19 1993-04-02 Fujitsu Ltd 情報検索支援処理装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007219579A (ja) * 2006-02-14 2007-08-30 Profield Co Ltd ドキュメント変換装置、およびプログラム
JP4519081B2 (ja) * 2006-02-14 2010-08-04 株式会社プロフィールド ドキュメント変換装置、およびプログラム
JP2007272884A (ja) * 2006-03-17 2007-10-18 Proquest-Csa Llc 情報発見タスクのために公表文献のキャプション付きオブジェクトに索引付けする方法およびシステム
US7765199B2 (en) 2006-03-17 2010-07-27 Proquest Llc Method and system to index captioned objects in published literature for information discovery tasks
US8024364B2 (en) 2006-03-17 2011-09-20 Proquest Llc Method and system to search objects in published literature for information discovery tasks
KR100761912B1 (ko) 2006-04-05 2007-09-28 (주)첫눈 본문 식별에 기반한 문서정보 추출방법 및 시스템
KR100809751B1 (ko) * 2006-04-13 2008-03-04 엘지전자 주식회사 문서분석 시스템 및 그 방법
JP2009075627A (ja) * 2007-09-18 2009-04-09 Konica Minolta Business Technologies Inc 文書処理装置
JP2009048654A (ja) * 2008-10-07 2009-03-05 Profield Co Ltd ドキュメント変換装置、およびプログラム
JP2014013566A (ja) * 2012-06-18 2014-01-23 Canon Inc 情報処理装置と通信する画像形成装置
US9007635B2 (en) 2012-06-18 2015-04-14 Canon Kabushiki Kaisha Image-forming apparatus communicating with an information-processing apparatus
JP2016018279A (ja) * 2014-07-04 2016-02-01 富士通株式会社 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法

Similar Documents

Publication Publication Date Title
JP3887867B2 (ja) 構造化文書の登録方法
JP3692764B2 (ja) 構造化文書登録方法、検索方法、およびそれに用いられる可搬型媒体
JP2896634B2 (ja) 全文登録語検索装置および全文登録語検索方法
JP2000231563A (ja) 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2005018780A (ja) 構造化文書オーサリングのためのシステム及びその方法
JP2001014196A (ja) データ処理方法及び装置及び記憶媒体
JP2005227851A (ja) 構造化データ記憶方法および装置
JP2005190163A (ja) 構造化データ検索方法、構造化データ検索装置およびプログラム
JP2003248690A (ja) 文書処理装置および方法
JPH06309365A (ja) 文書処理装置
JP2000339306A (ja) 文書作成装置
JPH09245052A (ja) 構造化文書処理装置
JP2000003366A (ja) 文書登録方法と文書検索方法及びその実施装置並びにその処理プログラムを記録した媒体
JP2002202973A (ja) 構造化文書管理装置
JPH1091766A (ja) 電子ファイリング方法及び装置並びに記憶媒体
JP4255538B2 (ja) 構造化文書蓄積検索装置
JP3395362B2 (ja) 文書処理装置
JP3933407B2 (ja) 文書処理装置、文書処理方法および文書処理プログラムが格納された記憶媒体
JP3828499B2 (ja) 文書編集装置、文書編集方法および文書編集プログラム
JPH05158984A (ja) 文字列抽出装置
JPH1153400A (ja) 構造化文書検索装置及びプログラムを記録した機械読み取り可能な記録媒体
JPH11272666A (ja) 文書編集システム、方法、及び記録媒体
JP2001229178A (ja) 文書検索方法および装置およびこの方法を記録した記録媒体
JP4334450B2 (ja) 構造化文書検索装置及び構造化文書検索方法
JP2000132439A (ja) パーソナルコンピュータのハードディスクに記憶されたファイルを検索する検索システム