JP2004265318A - 情報処理方法 - Google Patents

情報処理方法 Download PDF

Info

Publication number
JP2004265318A
JP2004265318A JP2003057187A JP2003057187A JP2004265318A JP 2004265318 A JP2004265318 A JP 2004265318A JP 2003057187 A JP2003057187 A JP 2003057187A JP 2003057187 A JP2003057187 A JP 2003057187A JP 2004265318 A JP2004265318 A JP 2004265318A
Authority
JP
Japan
Prior art keywords
electronic document
electronic
compressed
binder
summary data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2003057187A
Other languages
English (en)
Inventor
Naohiro Yamaguchi
直宏 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2003057187A priority Critical patent/JP2004265318A/ja
Publication of JP2004265318A publication Critical patent/JP2004265318A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】電子バインダに含まれている電子文書を処理する際、全てのファイルを伸長していては処理に時間がかかり、また大量のメモリ領域が必要になってしまうという課題があった。
【解決手段】複数の電子文書が格納されるアーカイブファイルを作成する情報処理装置において、前記格納される電子文書の要約データを作成し、前記作成された要約データと前記複数の電子文書とを格納したアーカイブファイルを生成する。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、複数の電子文書を格納したアーカイブファイルを作成する情報処理方法に関するものである。
【0002】
【従来の技術】
近年、企業ではドキュメント管理システムを導入し、文書を電子化して再利用を推進しようとしている。初期のドキュメント管理システムは、紙の文書をスキャナで画像として取り込み、該画像を登録保存するようなものであったが、最近はパソコンで作られた電子文書が多くなり、それらの電子文書も登録保存できるようになってきた。また、最近では登録されている複数の電子文書から任意のページを抜き出して圧縮アーカイブし、バインダのように綴じて一つの電子文書(アーカイブファイル)のようにすることもできるようになっている。それを、ここでは電子バインダと呼ぶことにする。また綴じた電子バインダは開いて内部のファイルを編集したり、構成ファイルを変更することが可能である。
【0003】
【発明が解決しようとする課題】
しかしながら、従来の電子バインダでは、次のような問題点があった。
【0004】
従来の電子バインダでは、圧縮された電子バインダの内容を取得する場合に、電子バインダを伸長して、所望の電子文書を取得するという一連の作業を行う必要がある。
【0005】
また、ユーザが電子バインダに含まれている電子文書を伸長する前に、圧縮アーカイブされている電子文書の内部を参照できないため、処理する必要があるかどうかにかかわらずアクセスする度にデータを伸長しなければならない。そのため電子バインダに綴じられた電子文書の処理に非常に大きな時間が必要となるという問題があった。
【0006】
また、綴じた電子バインダに含まれる電子文書を処理する際に、一時的に全てのファイルを伸長する必要があり、ユーザが必要としない電子文書も伸張されるので、そのためのメモリ領域を主記憶装置或いは補助記憶装置上に確保しなければならず、ファイルサイズによっては大量の作業用メモリ領域が必要となってしまうという問題点があった。
【0007】
本発明は、上記の問題を解決するために成されたもので、電子文書をアーカイブする際に要約データを作成して、電子文書群と共にアーカイブを行う情報処理方法を提供することを目的としている。
【0008】
【課題を解決するための手段】
上記課題を解決するために、本発明の情報処理方法は、複数の電子文書が格納されるアーカイブファイルを作成する情報処理方法であって、前記格納される電子文書の要約データを作成する要約作成ステップと、前記作成された要約データと前記複数の電子文書とを格納したアーカイブファイルを生成する生成ステップと、を有する。
【0009】
【発明の実施の形態】
(第1の実施形態)
以下、図面を参照して本発明の好適な実施形態を詳細に説明する。
【0010】
本実施形態の情報処理装置では、図1に示すような要約データ等を含む電子バインダ(アーカイブファイル)を作成したり、該電子バインダから所望の電子文書を抽出したりすることができるようになっている。なお、本実施形態の情報処理装置では、更に、図8や図9に示すような要約データ等を含まない電子バインダを外部装置から受け取った場合、該電子バインダを抽出・伸長して電子文書を得ることも可能である。
【0011】
ここでは、図8や図9に示すような要約データ等を含まない電子バインダについて説明した後、本発明の特徴である、図1に示すような要約データを含む電子バインダについての詳細を説明する。
【0012】
図8は、本情報処理装置で抽出・伸長可能な電子バインダと、その内部に綴じられた電子文書の概念図である。電子文書群801をアーカイブして、電子バインダ803が作成されている。圧縮する際に用いられる圧縮方式には様々なものを用いることが可能であるが、ここでは、所定の可逆圧縮アルゴリズムが用いられたものとする。図8で、ファイルヘッダー807には、電子バインダ自体の情報や作成日時などの情報が格納されている。圧縮情報テーブル808には、電子バインダ803に含まれる圧縮電子文書804に関する情報(圧縮電子文書の格納位置を示すアドレス情報など)が格納される。このアドレスを参照して圧縮電子文書804にアクセスすることが可能である。電子バインダ803に綴じられた圧縮電子文書804を、アプリケーションで処理できる状態にするために、電子バインダ803から圧縮電子文書805を抽出する。圧縮電子文書805に圧縮時に用いられた圧縮形式に対応した伸長アルゴリズムを用いて伸長処理を行い、電子文書806を作成する。
【0013】
図9は、本情報処理装置で抽出・伸長可能な電子バインダと、その内部に綴じられた電子文書の概念図である。電子文書群901をアーカイブして、電子バインダ903が作成されている。圧縮する際に用いられる圧縮方式には様々なものを用いることが可能であるが、ここでは、所定の可逆圧縮アルゴリズムを用いられたものとする。図9で、ファイルヘッダー907には、電子バインダ自体の情報や作成日時などの情報が格納されている。圧縮情報テーブル908には、電子バインダ903に含まれる圧縮電子文書904に関する情報(圧縮電子文書の格納位置を示すアドレス情報など)が格納されている。このアドレスを参照して圧縮電子文書804にアクセスすることが可能である。電子バインダ903に綴じられた圧縮電子文書904を、アプリケーションで処理できる状態にするために、電子バインダ903から圧縮電子文書905を抽出する。圧縮電子文書905に圧縮時に用いられた圧縮形式に対応した伸長アルゴリズムを用いて伸長処理を行い、電子文書906を作成する。
【0014】
次に、本発明の主眼である、要約データが付加された電子バインダについて説明する。
【0015】
図1は、本発明の手法を用いて、電子文書群をアーカイブする際に電子文書101を圧縮した圧縮電子文書102から要約データ103を作成し、該作成した要約データ103を圧縮電子文書102に付与して、非圧縮の電子文書107と共にアーカイブし、電子バインダ108を作成する処理と、電子バインダ108内の圧縮電子文書の要約データ110と非圧縮電子文書111を、電子バインダ508を解凍展開せずに抽出表示する処理を示した概念図である。電子文書101は、後述する基準(ファイル特性など)に基づき、圧縮するべきであると判定された電子文書である。まず、圧縮するべきであると判定された電子文書101に対して要約データ103を作成し、電子文書101を所定の圧縮アルゴリズムに従って圧縮した圧縮電子文書102に該要約データ103を付与します。また、電子文書104は圧縮するべきでないと判定された電子文書である。そして、これらの圧縮電子文書、非圧縮電子文書が混在した電子文書群をアーカイブして電子バインダ508を作成します。このとき、各電子文書に関する情報(電子文書の格納位置を示すアドレス情報や、電子文書のサイズ情報、圧縮されているか否かの情報、要約データの格納位置を示すアドレス情報など)が電子バインダ108の圧縮情報テーブルに記録される。
【0016】
電子バインダ108内の圧縮電子文書105や非圧縮電子文書107をアプリケーションで使用するべく解凍展開処理する前に、圧縮電子文書105の要約データ106および非圧縮電子文書107を抽出する。このとき、ユーザには電子バインダ108の内容として、抽出された要約データ110と非圧縮電子文書111とが表示される。ユーザは要約データ110を見て解凍展開する必要があると判断した場合、圧縮電子文書105を圧縮時に用いられた圧縮アルゴリズムに対応した伸長アルゴリズムに従って伸長処理させて、電子文書109を作成する。また非圧縮電子文書111を参照して処理する必要があると判断した場合、電子文書112をそのまま抽出する。ここでは非圧縮電子文書107を処理する際に一度非圧縮電子文書112を抽出しているが、アプリケーションが直接非圧縮電子文書107の先頭アドレスを参照して処理を行うことも可能である。
【0017】
以上のように本実施形態では、圧縮電子文書を要約元とする要約データを付加することで、電子バインダ(アーカイブファイル)から圧縮電子文書を抽出伸張処理することなく、圧縮電子文書の内容をユーザが把握できるようになるので、不必要な伸長処理を行わなくて済み、結果として処理時間が短縮できるという効果がある。
【0018】
次に、図1に示したような要約データを含む電子バインダを作成する処理の詳細について説明する。
【0019】
<電子バインダ作成処理の詳細>
図2は電子文書群を圧縮アーカイブする際に、各電子文書のアクセス頻度に基づいて電子文書ごとに自動的に圧縮/非圧縮を決定して、圧縮すると判断された電子文書に対しては要約データを作成して、電子バインダ(アーカイブファイル)を作成する処理を示したフローチャートである。
【0020】
ステップ201では、電子文書番号iを0に初期化して、最初の電子文書から判定を開始する。
【0021】
ステップ202で、File_compはi番目の電子文書のアクセス回数を全アクセス回数All_File_freqで割ったものであり、ファイルの総アクセスにおいて電子文書ファイルiがどれくらいの頻度割合でアクセスされるかが計算される。なお、All_File_Freqの値が一定の値に満たない場合は、統計的に不十分なため、File_Compは全て1とする。
【0022】
ステップ203では、ファイルアクセス頻度File_Compがある閾値thresholdを超えるかどうかで、電子文書iが頻繁にアクセスされている電子文書であるか判定する。電子文書iが頻繁にアクセスされていると判断された場合ステップ204に進む。一方、File_Compがthresholdより小さく、電子文書iのアクセス頻度が小さいと判断された場合は、ステップ206に進む。
【0023】
ステップ204では、電子文書iの圧縮フラグの真偽によって、前記電子文書が既に圧縮されているかどうかを判定する。電子文書iが圧縮されている場合はステップ205に進み、圧縮時に用いられた所定の圧縮アルゴリズムに対応する伸長アルゴリズムを用いて伸長する。一方、電子文書iが圧縮されていない場合はステップ210に進む。
【0024】
ステップ206では、電子文書iの要約データを作成するかどうか判定する。File[i].Abstは電子文書iに要約データが存在するかどうかを示す。File[i].Abst=0ならば要約データが存在しないので、ステップ207に進み、要約データを作成した後、ステップ208に進む。一方、File[i].Abst=1の場合は、要約データが既に存在しているので、要約データを作成しなおす必要がないと判断してステップ208に進む。
【0025】
ステップ208では、電子文書iの圧縮フラグの真偽によって、前記電子文書が既に圧縮されているかどうかを判定する。電子文書iが圧縮されていない場合はステップ209に進み、所定の圧縮アルゴリズムに従い圧縮する。一方、電子文書iが既に圧縮されている場合はステップ210に進む。
【0026】
ステップ210では、iをインクリメントする。
【0027】
ステップ211では、処理中の電子文書番号iと全ファイル数filenumを比較して、全ての電子文書の判定が終了したかどうかを判断する。iがfilenumより小さいならばステップ202に進み、次の電子文書の判定を行う。iがfilenum以上ならば、全ての電子文書の圧縮/非圧縮の判定が終わったと判断してステップ212に進む。
【0028】
ステップ212では、全電子文書および要約データを対象としてアーカイブを行い、図1に示すような電子バインダを作成する。このとき、各電子文書および要約データの格納位置を示すアドレス情報などが圧縮情報テーブルに格納される。
【0029】
<電子バインダ作成処理の別実施例1>
図3は、電子バインダ作成処理の別実施例1を示すフローチャートである。図3では、電子文書群を圧縮アーカイブする際に、各電子文書の拡張子(フォーマット)に基づいて、電子文書ごとに自動的に圧縮/非圧縮を決定し、圧縮すると判断された電子文書に対しては要約データを作成して、電子バインダ(アーカイブファイル)を作成する処理を示したフローチャートである。
【0030】
ステップ301では、電子文書番号iを0に初期化して、最初の電子文書から判定を行う。
【0031】
File[i].typeは電子文書iのフォーマット種類を示しており、電子文書によっては既に独自の形式で圧縮されているものもあり、そのような電子文書は再度圧縮しても圧縮効率が悪い。そこで、ステップ302では、電子文書iの種類が特定の種類(図3ではテキストフォーマット)か否かを判定する。つまり、電子文書iが未だ圧縮されていない、または再度圧縮を行っても圧縮効率が高い種類の電子文書であるならばステップ305に進む。一方、電子文書iを圧縮しても圧縮効率が悪い種類の電子文書であるならば、ステップ303に進む。
【0032】
ステップ303で、電子文書iの圧縮フラグの真偽によって、電子文書iが既に圧縮されているかどうかを判定する。電子文書iが圧縮されている場合はステップ304に進み、圧縮時に用いられた所定の圧縮アルゴリズムに対応する伸長アルゴリズムを用いて伸長する。一方、電子文書iが圧縮されていない場合はステップ309に進む。
【0033】
ステップ305では、電子文書iの要約データを作成するかどうか判定する。File[i].Abstは電子文書iに要約データが存在するかどうかを示す。File[i].Abst=0ならば要約データが存在しないので、ステップ306に進んで要約データを作成した後、ステップ307に進む。一方、File[i].Abst=1ならば、既に要約データが存在するので、要約データを作成しなおす必要がないと判断してステップ307に進む。
【0034】
ステップ307では、電子文書iの圧縮フラグの真偽によって、前記電子文書が既に圧縮されているかどうかを判定する。電子文書iが圧縮されていない場合はステップ308に進み、所定の圧縮アルゴリズムに従い圧縮する。一方、電子文書iが既に圧縮されている場合はステップ309に進む。
【0035】
ステップ309では、iをインクリメントする。
【0036】
ステップ310では、処理中の電子文書番号iと全ファイル数filenumとを比較して、全ての電子文書が判定し終わったかどうかを判断する。iがfilenumより小さい場合はステップ302に進み、次の電子文書の判定を行う。一方、iがfilenum以上の場合は、全ての電子文書の判定が終わったと判断して、ステップ311に進む。
【0037】
ステップ311では、全電子文書と要約データとを対象としてアーカイブ処理を行い、図1に示すような電子バインダを作成する。このとき、各電子文書および要約データの格納位置を示すアドレス情報などが圧縮情報テーブルに格納される。
【0038】
<電子バインダ作成処理の別実施例2>
図4は、電子バインダ作成処理の別実施例2を示すフローチャートである。図4では、電子文書群を圧縮アーカイブする際に、各電子文書の圧縮率に基づいて電子文書ごとに自動的に圧縮/非圧縮を決定し、圧縮すると判断された電子文書に対しては要約データを作成して、電子バインダ(アーカイブファイル)を作成する処理を示したフローチャートである。
【0039】
ステップ401では、電子文書番号iを0に初期化して、最初の電子文書から判定を開始する。
【0040】
ステップ402では、電子文書iの圧縮フラグの真偽によって、前記電子文書が既に圧縮されているかどうかを判定する。電子文書iが圧縮されていないと判断した場合は、ステップ403に進み、所定の圧縮アルゴリズムに従い圧縮する。一方、電子文書iが圧縮されている場合はステップ404に進む。
【0041】
ステップ404では、File_compは電子文書iの圧縮後のサイズを圧縮前の電子文書iのサイズで割ったものであり、電子文書iの圧縮率を求める。この値が低ければ低いほど圧縮率が高い圧縮電子文書である。
【0042】
ステップ405では、File_Compがある閾値thresholdを超えれば、電子文書iは圧縮率が低い文書であると判定してステップ406に進む。一方、圧縮率が高い電子文書であると判断した場合は、ステップ407に進む。
【0043】
ステップ406では、電子文書iに関して圧縮前のオリジナルの電子文書をアーカイブするファイルと設定し、ステップ410に進む。
【0044】
ステップ407では、電子文書iの要約データを作成するかどうか判定する。File[i].Abstは電子文書iに要約データが存在するかどうかを示す。File[i].Abst=0ならば要約データが存在しないので、ステップ408に進んで要約データを作成した後、ステップ409に進む。一方、File[i].Abst=1ならば、既に要約データが存在するので、要約データを作成しなおす必要がないと判断してステップ409に進む。
【0045】
ステップ409では、電子文書iに関して、圧縮後の電子文書とその要約データとをアーカイブするファイルと設定し、ステップ410に進む。
【0046】
ステップ410ではiをインクリメントする。ステップ411で、処理中の電子文書番号iと全ファイル数filenumとを比較して、全ての電子文書が判定し終わったかどうかを判断する。iがfilenumより小さい場合はステップ402に進み、次の電子文書の判定を行う。iがfilenum以上の場合は、全ての電子文書の判定が終わったと判断してステップ412に進む。
【0047】
ステップ412では、ステップ406またはステップ409で選択された電子文書に基づき、全電子文書をアーカイブして、図1のような電子バインダを作成する。このとき、各電子文書および要約データの格納位置を示すアドレス情報などが圧縮情報テーブルに格納される。
【0048】
(第2の実施形態)
上述した第1の実施形態では、図1に示すようなデータ構造で要約データを格納していたが、本第2の実施形態では、図5に示すように要約データを1つにまとめて格納したデータ構造を作成するものである。
【0049】
図5は、本第2の実施形態の手法を用いて、電子バインダ(アーカイブファイル)の処理を示す概念図である。図5は、電子文書群をアーカイブする際に、電子文書501や電子文書503から要約データ(もしくはキーワード)を含む要約/キーワードデータ部508を作成する処理を実行し、更に、ファイルヘッダー情報部506と、電子文書501を圧縮した圧縮電子文書502と、非圧縮の電子文書503と、圧縮情報テーブル部507と共にアーカイブして、電子バインダ504を作成する処理を示している。また、電子文書を抽出し、該電子文書を編集した後、電子バインダに再格納すると、編集された電子文書509から要約データを作成し、要約データ部508を更新する処理を示している。
【0050】
電子文書501は、ユーザの意思もしくは所定の判断基準により圧縮するべきであると判定された電子文書である。電子文書501に対して要約データを作成した後、電子文書501を所定の圧縮アルゴリズムに従って圧縮する。また電子文書503は、前記の基準により圧縮するべきでないと判定された電子文書である。これらの圧縮電子文書・非圧縮電子文書が混在した電子文書群をアーカイブして電子バインダ504を作成する。アーカイブ時に、各電子文書に関する情報(格納位置を示すアドレス情報やファイルサイズ情報、圧縮の有無を示す情報など)が電子バインダ504の圧縮情報テーブル507に記録され、ファイルヘッダー506と共にアーカイブされる。
【0051】
このとき電子文書501や電子文書503がテキストを含み、そのテキストデータを抽出可能である場合、所定の方法により抽出されて、当該抽出されたテキストデータに基づいて、要約/インデックスデータ508が作成され、電子バインダ504に付与される。
【0052】
電子バインダ内の圧縮電子文書は編集時や表示時には、圧縮時に用いられた所定の圧縮アルゴリズムに対応した伸長アルゴリズムに従って伸長処理され、電子文書509を作成する。アプリケーションが圧縮情報テーブルから非圧縮電子文書507の先頭アドレス、ファイルサイズを参照して直接処理を行うことも可能である。
【0053】
アプリケーション上では、ユーザに対して、電子バインダ504の内容として、抽出された要約インデックスデータ508を表示し、ユーザの指示に応じて、所望の電子文書を抽出展開する。
【0054】
ユーザにより、抽出展開された電子文書509が編集されて再格納された場合など更新の必要があると判断された場合、もしくはユーザが要約データ508を更新する必要があると判断した場合、編集後の電子文書509から要約データやキーワードが作成され、要約インデックスデータ508に登録・更新される。
【0055】
以上のように本実施形態では、電子文書の要約データを付加することで、電子バインダ(アーカイブファイル)から電子文書を抽出伸張処理することなく、電子文書の内容をユーザが把握できるようになるので、不必要な抽出処理や伸長処理を行わなくて済み、結果として処理時間が短縮できるという効果がある。また、各文書の要約データやキーワードを1つにまとめて格納しているので、該要約データを閲覧するためのアクセス効率がよくなるという効果もある。
【0056】
次に、図5に示したような電子バインダを作成する処理の詳細について説明する。
【0057】
<電子バインダ作成処理の詳細>
図6は、電子文書群を電子バインダとして圧縮アーカイブする際に、各電子文書についてテキストデータを持つか自動的に判定処理を行い、持つ場合は要約テキストデータを作成し、電子バインダと結合する処理を示したフローチャートである。
【0058】
ステップ601では、電子文書番号iを0に初期化して、最初の電子文書から判定を開始する。
【0059】
ステップ602では、対象電子文書iが圧縮されているかどうかを判定する。もし電子文書iの要素フラグFile[i].compressが1の場合、対象電子文書は圧縮されている文書とみなされ、ステップ603に進み、所定の展開アルゴリズムを用いて、圧縮電子文書の展開処理が行われ、非圧縮の電子文書が作成される。一方、File[i].compressが0の場合、非圧縮の電子文書とみなされ、ステップ604に進む。
【0060】
ステップ604では、電子文書iにテキストとして抽出可能部分が存在するかを判定する。テキストが含まれる場合はステップ605に進み、含まれない場合はステップ606に進む。
【0061】
ステップ605で電子文書iに含まれるテキスト部分を抽出し、要約文書を作成する。ステップ605で行われる処理の詳細は、ステップ612〜614に示す。
【0062】
ステップ612では、電子文書iの要素File[i].abstに、電子文書iの要約が存在することを示すフラグとして、1を設定する。
【0063】
ステップ613では、電子文書iから抽出したテキストを用いて、要約作成エンジンを用いて電子文書iの要約データを作成する。本実施形態では、要約データの作成は当該抽出したテキストの文脈等を解析し、重要な文や語を選択して作成するものとするが、これ以外の方法を用いて作成しても構わない。
【0064】
ステップ614では、電子文書iの要約データを、電子文書iの要約であることが分かるようにして要約インデックスデータ508に結合する。
【0065】
ステップ606では、電子文書iを圧縮するかどうか判定する。電子文書iの要素File[i].compressが1の場合(もしくは圧縮するよう指定されている場合)、電子文書iは圧縮するべき文書であるとみなし、ステップ607に進み、所定の圧縮アルゴリズムに従い電子文書iを圧縮する。一方、File[i].compressが0の場合(もしくは圧縮しないよう指定されている場合)、電子文書iは圧縮すべきでないとみなして、ステップ608に進む。
【0066】
ステップ608で、iをインクリメントする。
【0067】
ステップ609では、処理中の電子文書番号iと電子文書群に含まれる全電子文書の総数filenumとを比較することにより、全ての電子文書の判定が終了したかどうかを判定する。iがfilenumより小さい場合はステップ602に進み、次の電子文書iを対象として処理を行う。iがfilenum以上となり全ての電子文書の判定が終わったと判断するとステップ610に進む。
【0068】
ステップ610では、全電子文書をアーカイブして、各電子文書の情報や要約データの有無などの情報を電子バインダの圧縮情報テーブルに書き込み、ステップ611でアーカイブされた圧縮電子文書にステップ614で作成した要約データを付加し、電子バインダを作成する。
【0069】
<電子バインダ作成処理の別実施例>
図7は、電子文書群を圧縮アーカイブして電子バインダを作成する際に、各電子文書から自動的にキーワードを抽出する処理を行い、作成したキーワードからインデックスファイルを作成し、電子バインダと結合する処理を示したフローチャートである。
【0070】
ステップ701では、電子文書番号iを0に初期化して、最初の電子文書から判定を行う。
【0071】
ステップ702では、対象電子文書iを圧縮するかどうかを判定する。もし電子文書iの要素File[i].compressが1の場合、対象電子文書は圧縮されている文書とみなされ、ステップ703に進み、圧縮時に用いられた所定の圧縮アルゴリズムに対応する伸長アルゴリズムを用いて伸長する。一方、File[i].compressが0の場合、非圧縮の電子文書とみなされ、ステップ704に進む。
【0072】
ステップ704では、電子文書iにテキストとして抽出可能な部分が存在するかを判定する。テキストが含まれる場合はステップ705に進み、含まれない場合はステップ706に進む。
【0073】
ステップ705では、電子文書iに含まれるテキスト部分からキーワードを選択し、電子文書iのキーワードとして、電子文書iの要素File[i].Keywordに登録する。ステップ705での詳細処理は、ステップ713〜715から成る。
【0074】
ステップ713では、電子文書iの要素File[i].keyに、電子文書iのキーワードが登録されていることを示すフラグとして、1を設定し、ステップ714に進む。
【0075】
ステップ714では、電子文書iから抽出したテキストから所定のキーワード作成手段を用いてキーワードを選択し、電子文書iのキーワードを登録する。本実施形態では抽出したテキストに出現する語の出現回数が多いものを用いてキーワードを作成するものとするが、文脈を解析して重要と思われる語をキーワードとするなど、その他の手法を用いても構わない。
【0076】
ステップ715では、電子文書iのキーワードを、電子文書iのキーワードであることが分かるようにして、電子文書群のインデックスデータファイルに結合する。
【0077】
ステップ706では、電子文書iを圧縮するかどうかを判定する。電子文書iの要素File[i].compressが1の場合(もしくは圧縮するよう指定されている場合)、電子文書iは圧縮するべき文書であるとみなし、ステップ707に進み、所定の圧縮アルゴリズムに従い電子文書iを圧縮する。一方、File[i].compressが0の場合(もしくは圧縮しないよう指定されている場合)、電子文書iは圧縮すべきでないとみなして、ステップ708に進む。
【0078】
ステップ708ではiをインクリメントする。
【0079】
ステップ709では、現在処理中の電子文書番号iを全ファイル数filenumと比較することにより、全ての電子文書が判定し終わったかどうかを判断する。iがfilenumより小さい場合はステップ302に進み、次の電子文書iの判定を行う。iがfilenum以上となり電子文書群に含まれる全ての電子文書の判定が終わったと判断するとステップ710に進む。
【0080】
ステップ710では、全電子文書を対象としてアーカイブ処理を行う。また各電子文書に関する情報やインデックスデータの有無などの情報を電子バインダの圧縮情報テーブルに書き込む。
【0081】
ステップ711では、格納した各電子文書についての編集者氏名や環境、日時、編集履歴などの編集情報をインデックスファイルに追加する。
【0082】
ステップ712では、アーカイブされた圧縮電子文書にステップ714で作成したキーワードが追加されたインデックスファイル508を付加し、電子バインダを作成する。
【0083】
(本実施形態の装置構成)
以上説明した本発明の第1の実施形態及び第2の実施形態の文書管理システムに適用可能な情報処理装置を示すと、図10のようになる。
【0084】
図10は本発明の文書管理システムに適用可能な情報処理装置の構成を示すブロック図である。図10において、CPU1002はメインバス1007を介して情報処理装置1001全体の制御を実行するとともに、情報処理装置1001の外部に接続される入力装置1011(例えば、イメージスキャナ、記憶装置、ネットワーク回線を介して接続される他の情報処理装置、電話回線を介して接続されるファクシミリ等)を入力I/F(インタフェース)1005を介して制御する。また、情報処理装置1001の外部に接続される出力装置1012(例えば、プリンタ、モニタ、ネットワーク回線を介して接続される他の情報処理装置、電話回線を介して接続されるファクシミリ等)を出力I/F1006を介して制御する。また、CPU1002は、KBDI/F(キーボードインタフェース)1008を介して入力部(例えば、キーボード1013やポインティングデバイス1014やペン1015)から入力された指示に従って、画像の入力、画像処理、色変換処理、画像の出力制御等の処理を実行する。更に、入力装置1011より入力された画像データや、キーボード1013やポインティングデバイス1014やペン1015を用いて作成された画像データを表示する表示部1010をビデオI/F(インタフェース)1009を介して制御する。
【0085】
ROM1003は、CPU1002に各種制御を実行させるための各種制御プログラムを記憶している。RAM1004は、CPU1002によりOSや本発明を実現するための制御プログラムを含むその他の制御プログラムがロードされ実行される。また、制御プログラムを実行するために用いられる各種作業領域、一時待避領域として機能する。また、入力装置1011より入力された画像データや、キーボード1013やポインティングデバイス1014やペン1015を用いて作成された画像データを、一旦、保持するVRAM(不図示)が構成されている。
【0086】
尚、本発明は、複数の機器(例えばホストコンピュータ、インタフェース機器、リーダ、プリンタなど)から構成されるシステムに適用しても、一つの機器からなる装置(例えば、複写機、ファクシミリ装置など)に適用してもよい。
【0087】
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。プログラムコードを供給するための記憶媒体としては、例えば、フロッピディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
【0088】
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0089】
更に、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0090】
また、本発明を上記コンピュータプログラムに適用する場合、そのプログラムには、先に説明したフローチャートに対応するようなプログラムコードが格納されることになる。
【0091】
以上説明した本願の第1の実施形態および第2の実施形態に関して、本発明の特徴を以下に総括する。
【0092】
(実施態様1)
複数の電子文書が格納されるアーカイブファイルを作成する情報処理方法であって、前記格納される電子文書の要約データを作成する要約作成ステップと、前記作成された要約データと前記複数の電子文書とを格納したアーカイブファイルを生成する生成ステップと、を有することを特徴とする情報処理方法。
【0093】
(実施態様2)
更に、各電子文書について圧縮してアーカイブファイルに格納するか否か判断する判断ステップを有することを特徴とする実施態様1に記載の情報処理方法。
【0094】
(実施態様3)
前記判断ステップでは、各電子文書のアクセス頻度に基づいて、圧縮してアーカイブファイルに格納するか否か判断することを特徴とする実施態様2に記載の情報処理方法。
【0095】
(実施態様4)
前記判断ステップでは、各電子文書のフォーマットに基づいて、圧縮してアーカイブファイルに格納するか否か判断することを特徴とする実施態様2に記載の情報処理方法。
【0096】
(実施態様5)
前記判断ステップでは、各電子文書の圧縮率に基づいて、圧縮してアーカイブファイルに格納するか否か判断することを特徴とする実施態様2に記載の情報処理方法。
【0097】
(実施態様6)
前記要約作成ステップでは、前記判断手段で圧縮されて格納されると判断された電子文書に関して要約データを作成することを特徴とする実施態様2乃至5のいずれかに記載の情報処理方法。
【0098】
(実施態様7)
前記要約作成ステップでは、電子文書がテキストデータを含むかどうか判断し、含むと判断された電子文書に関して要約データを作成することを特徴とする実施態様1乃至6のいずれかに記載の情報処理方法。
【0099】
(実施態様8)
前記アーカイブファイルに格納される電子文書に関する要約データを1つの領域にまとめて格納することを特徴とする実施態様1に記載の情報処理方法。
【0100】
(実施態様9)
前記要約作成ステップでは、前記電子文書の要約データを作成する代わりに、前記電子文書のキーワードを作成し、前記生成ステップでは、該作成されたキーワードと前記複数の電子文書とを格納したアーカイブファイルを生成することを特徴とする実施態様1に記載の情報処理方法。
【0101】
(実施態様10)
更に、前記アーカイブファイルから要約データを抽出し、ユーザに対して提示する要約提示ステップを有することを特徴とする実施態様1に記載の情報処理方法。
【0102】
(実施態様11)
更に、ユーザにより指定された所望の電子文書を前記アーカイブファイルから抽出する電子文書抽出ステップを有することを特徴とする実施態様1に記載の情報処理方法。
【0103】
(実施態様12)
前記電子文書抽出ステップは、前記要約データを格納していないアーカイブファイルからも、ユーザ所望の電子文書を抽出可能であることを特徴とする実施態様11に記載の情報処理方法。
【0104】
(実施態様13)
実施態様1乃至12のいずれかに記載の情報処理方法のステップを、コンピュータに実行させるためのコンピュータプログラム。
【0105】
(実施態様14)
実施態様13に記載のコンピュータプログラムを格納した、コンピュータ読取可能な記憶媒体。
【0106】
(実施態様15)
複数の電子文書が格納されるアーカイブファイルを作成する情報処理装置であって、前記格納される電子文書の要約データを作成する要約作成手段と、前記作成された要約データと前記複数の電子文書とを格納したアーカイブファイルを生成する生成手段と、を有することを特徴とする情報処理装置。
【0107】
【発明の効果】
以上説明したように本実施形態によれば、電子バインダ(アーカイブファイル)に格納されている電子文書について抽出伸張処理を実行することなく、要約データを用いて、該電子文書の内容をユーザが把握できるようになるので、不必要な伸長処理を行わなくて済み、結果として処理時間が短縮できるという効果がある。
【0108】
また、内容が容易に把握でき、ユーザ所望の文書を抽出展開して使用できるので、全ての文書を展開せずにすみ、作業時のメモリ領域も少なくて済むという効果がある。
【0109】
また、第2の実施形態のように要約データを1つにまとめて格納することも可能となっており、アクセス効率がよくなるという効果も有する。
【図面の簡単な説明】
【図1】第1の実施形態における電子バインダの構成を示す図である。
【図2】各電子文書のアクセス頻度に基づいた圧縮選択と要約データ作成を行って電子バインダを作成する処理の詳細フローチャートである。
【図3】各電子文書のフォーマット毎の特性に基づいた圧縮選択と要約データ作成を行って電子バインダを作成する処理の詳細フローチャートである。
【図4】各圧縮電子文書の圧縮率に基づいた圧縮選択と要約データ作成を行って電子バインダを作成する処理の詳細フローチャートである。
【図5】第2の実施形態における電子バインダの構成を示す図である。
【図6】電子バインダ内の各電子文書のテキストデータからの要約テキストデータ作成処理と、電子バインダへの要約テキストデータの付加処理を示したフローチャートである。
【図7】電子バインダ内の各電子文書のテキストデータからのキーワード作成処理と、電子バインダへのキーワードデータの付加処理を示したフローチャートである。
【図8】要約データを含まない電子バインダの例
【図9】要約データを含まない電子バインダの例
【図10】第1の実施形態や第2の実施形態を適用可能な情報処理装置の構成例

Claims (1)

  1. 複数の電子文書が格納されるアーカイブファイルを作成する情報処理方法であって、
    前記格納される電子文書の要約データを作成する要約作成ステップと、
    前記作成された要約データと前記複数の電子文書とを格納したアーカイブファイルを生成する生成ステップと、
    を有することを特徴とする情報処理方法。
JP2003057187A 2003-03-04 2003-03-04 情報処理方法 Withdrawn JP2004265318A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003057187A JP2004265318A (ja) 2003-03-04 2003-03-04 情報処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003057187A JP2004265318A (ja) 2003-03-04 2003-03-04 情報処理方法

Publications (1)

Publication Number Publication Date
JP2004265318A true JP2004265318A (ja) 2004-09-24

Family

ID=33120677

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003057187A Withdrawn JP2004265318A (ja) 2003-03-04 2003-03-04 情報処理方法

Country Status (1)

Country Link
JP (1) JP2004265318A (ja)

Similar Documents

Publication Publication Date Title
US6363178B1 (en) Document image data storing and controlling system for saving storage data
US6335746B1 (en) Information processing method and apparatus for displaying a list of a plurality of image data files and a list of search results
JPH08255155A (ja) 全文登録語検索装置および方法
JP2002132547A (ja) 電子情報管理サーバ、電子情報管理クライアントおよび電子情報管理方法ならびに電子情報管理プログラムを記録したコンピュータ読み取り可能な記録媒体
US9247099B2 (en) Image file editing apparatus and method, and program
US20110231430A1 (en) Content collecting apparatus, content collecting method, and non-transitory computer-readable recording medium encoded with content collecting program
US9158493B2 (en) Page description language package file preview
US7602979B2 (en) Information processing method and apparatus
JP2004258861A (ja) 情報処理方法
JP4135659B2 (ja) フォーマット変換装置およびファイル検索装置
JP2003196270A (ja) 文書情報処理方法、文書情報処理装置、通信システム、コンピュータプログラム、及び記録媒体
JP2004258865A (ja) 情報処理方法
JP5409090B2 (ja) 情報処理装置、情報処理方法、プログラム及び記憶媒体
JP2004265318A (ja) 情報処理方法
US20020038322A1 (en) Information processing apparatus, method therefor,and computer-readable memory
JPH0973408A (ja) データ処理装置およびデータ入出力処理方法
JP5612851B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JPWO2005101210A1 (ja) データ解析装置およびデータ解析プログラム
JP2006146703A (ja) 文書編集装置、文書編集方法、プログラム、及び記憶媒体
JP5121591B2 (ja) 画像処理装置、画像処理装置における画像処理方法、プログラムおよびプログラムを記憶したコンピュータ可読記憶媒体
JP2006202026A (ja) 情報処理装置及び制御方法
JP2006092344A (ja) 重複文書検出装置、重複文書検出方法および重複文書検出プログラム
JP2010092141A (ja) 画像処理システム、画像読取装置、画像処理装置および画像処理プログラム
JP2006004050A (ja) 画像処理装置、画像読み取り装置およびプログラム
US7287095B2 (en) Processing method, processing apparatus and storage medium

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060509