JP2004265318A

JP2004265318A - 情報処理方法

Info

Publication number: JP2004265318A
Application number: JP2003057187A
Authority: JP
Inventors: Naohiro Yamaguchi; 直宏山口
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2003-03-04
Filing date: 2003-03-04
Publication date: 2004-09-24

Abstract

【課題】電子バインダに含まれている電子文書を処理する際、全てのファイルを伸長していては処理に時間がかかり、また大量のメモリ領域が必要になってしまうという課題があった。
【解決手段】複数の電子文書が格納されるアーカイブファイルを作成する情報処理装置において、前記格納される電子文書の要約データを作成し、前記作成された要約データと前記複数の電子文書とを格納したアーカイブファイルを生成する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、複数の電子文書を格納したアーカイブファイルを作成する情報処理方法に関するものである。
【０００２】
【従来の技術】
近年、企業ではドキュメント管理システムを導入し、文書を電子化して再利用を推進しようとしている。初期のドキュメント管理システムは、紙の文書をスキャナで画像として取り込み、該画像を登録保存するようなものであったが、最近はパソコンで作られた電子文書が多くなり、それらの電子文書も登録保存できるようになってきた。また、最近では登録されている複数の電子文書から任意のページを抜き出して圧縮アーカイブし、バインダのように綴じて一つの電子文書（アーカイブファイル）のようにすることもできるようになっている。それを、ここでは電子バインダと呼ぶことにする。また綴じた電子バインダは開いて内部のファイルを編集したり、構成ファイルを変更することが可能である。
【０００３】
【発明が解決しようとする課題】
しかしながら、従来の電子バインダでは、次のような問題点があった。
【０００４】
従来の電子バインダでは、圧縮された電子バインダの内容を取得する場合に、電子バインダを伸長して、所望の電子文書を取得するという一連の作業を行う必要がある。
【０００５】
また、ユーザが電子バインダに含まれている電子文書を伸長する前に、圧縮アーカイブされている電子文書の内部を参照できないため、処理する必要があるかどうかにかかわらずアクセスする度にデータを伸長しなければならない。そのため電子バインダに綴じられた電子文書の処理に非常に大きな時間が必要となるという問題があった。
【０００６】
また、綴じた電子バインダに含まれる電子文書を処理する際に、一時的に全てのファイルを伸長する必要があり、ユーザが必要としない電子文書も伸張されるので、そのためのメモリ領域を主記憶装置或いは補助記憶装置上に確保しなければならず、ファイルサイズによっては大量の作業用メモリ領域が必要となってしまうという問題点があった。
【０００７】
本発明は、上記の問題を解決するために成されたもので、電子文書をアーカイブする際に要約データを作成して、電子文書群と共にアーカイブを行う情報処理方法を提供することを目的としている。
【０００８】
【課題を解決するための手段】
上記課題を解決するために、本発明の情報処理方法は、複数の電子文書が格納されるアーカイブファイルを作成する情報処理方法であって、前記格納される電子文書の要約データを作成する要約作成ステップと、前記作成された要約データと前記複数の電子文書とを格納したアーカイブファイルを生成する生成ステップと、を有する。
【０００９】
【発明の実施の形態】
（第１の実施形態）
以下、図面を参照して本発明の好適な実施形態を詳細に説明する。
【００１０】
本実施形態の情報処理装置では、図１に示すような要約データ等を含む電子バインダ（アーカイブファイル）を作成したり、該電子バインダから所望の電子文書を抽出したりすることができるようになっている。なお、本実施形態の情報処理装置では、更に、図８や図９に示すような要約データ等を含まない電子バインダを外部装置から受け取った場合、該電子バインダを抽出・伸長して電子文書を得ることも可能である。
【００１１】
ここでは、図８や図９に示すような要約データ等を含まない電子バインダについて説明した後、本発明の特徴である、図１に示すような要約データを含む電子バインダについての詳細を説明する。
【００１２】
図８は、本情報処理装置で抽出・伸長可能な電子バインダと、その内部に綴じられた電子文書の概念図である。電子文書群８０１をアーカイブして、電子バインダ８０３が作成されている。圧縮する際に用いられる圧縮方式には様々なものを用いることが可能であるが、ここでは、所定の可逆圧縮アルゴリズムが用いられたものとする。図８で、ファイルヘッダー８０７には、電子バインダ自体の情報や作成日時などの情報が格納されている。圧縮情報テーブル８０８には、電子バインダ８０３に含まれる圧縮電子文書８０４に関する情報（圧縮電子文書の格納位置を示すアドレス情報など）が格納される。このアドレスを参照して圧縮電子文書８０４にアクセスすることが可能である。電子バインダ８０３に綴じられた圧縮電子文書８０４を、アプリケーションで処理できる状態にするために、電子バインダ８０３から圧縮電子文書８０５を抽出する。圧縮電子文書８０５に圧縮時に用いられた圧縮形式に対応した伸長アルゴリズムを用いて伸長処理を行い、電子文書８０６を作成する。
【００１３】
図９は、本情報処理装置で抽出・伸長可能な電子バインダと、その内部に綴じられた電子文書の概念図である。電子文書群９０１をアーカイブして、電子バインダ９０３が作成されている。圧縮する際に用いられる圧縮方式には様々なものを用いることが可能であるが、ここでは、所定の可逆圧縮アルゴリズムを用いられたものとする。図９で、ファイルヘッダー９０７には、電子バインダ自体の情報や作成日時などの情報が格納されている。圧縮情報テーブル９０８には、電子バインダ９０３に含まれる圧縮電子文書９０４に関する情報（圧縮電子文書の格納位置を示すアドレス情報など）が格納されている。このアドレスを参照して圧縮電子文書８０４にアクセスすることが可能である。電子バインダ９０３に綴じられた圧縮電子文書９０４を、アプリケーションで処理できる状態にするために、電子バインダ９０３から圧縮電子文書９０５を抽出する。圧縮電子文書９０５に圧縮時に用いられた圧縮形式に対応した伸長アルゴリズムを用いて伸長処理を行い、電子文書９０６を作成する。
【００１４】
次に、本発明の主眼である、要約データが付加された電子バインダについて説明する。
【００１５】
図１は、本発明の手法を用いて、電子文書群をアーカイブする際に電子文書１０１を圧縮した圧縮電子文書１０２から要約データ１０３を作成し、該作成した要約データ１０３を圧縮電子文書１０２に付与して、非圧縮の電子文書１０７と共にアーカイブし、電子バインダ１０８を作成する処理と、電子バインダ１０８内の圧縮電子文書の要約データ１１０と非圧縮電子文書１１１を、電子バインダ５０８を解凍展開せずに抽出表示する処理を示した概念図である。電子文書１０１は、後述する基準（ファイル特性など）に基づき、圧縮するべきであると判定された電子文書である。まず、圧縮するべきであると判定された電子文書１０１に対して要約データ１０３を作成し、電子文書１０１を所定の圧縮アルゴリズムに従って圧縮した圧縮電子文書１０２に該要約データ１０３を付与します。また、電子文書１０４は圧縮するべきでないと判定された電子文書である。そして、これらの圧縮電子文書、非圧縮電子文書が混在した電子文書群をアーカイブして電子バインダ５０８を作成します。このとき、各電子文書に関する情報（電子文書の格納位置を示すアドレス情報や、電子文書のサイズ情報、圧縮されているか否かの情報、要約データの格納位置を示すアドレス情報など）が電子バインダ１０８の圧縮情報テーブルに記録される。
【００１６】
電子バインダ１０８内の圧縮電子文書１０５や非圧縮電子文書１０７をアプリケーションで使用するべく解凍展開処理する前に、圧縮電子文書１０５の要約データ１０６および非圧縮電子文書１０７を抽出する。このとき、ユーザには電子バインダ１０８の内容として、抽出された要約データ１１０と非圧縮電子文書１１１とが表示される。ユーザは要約データ１１０を見て解凍展開する必要があると判断した場合、圧縮電子文書１０５を圧縮時に用いられた圧縮アルゴリズムに対応した伸長アルゴリズムに従って伸長処理させて、電子文書１０９を作成する。また非圧縮電子文書１１１を参照して処理する必要があると判断した場合、電子文書１１２をそのまま抽出する。ここでは非圧縮電子文書１０７を処理する際に一度非圧縮電子文書１１２を抽出しているが、アプリケーションが直接非圧縮電子文書１０７の先頭アドレスを参照して処理を行うことも可能である。
【００１７】
以上のように本実施形態では、圧縮電子文書を要約元とする要約データを付加することで、電子バインダ（アーカイブファイル）から圧縮電子文書を抽出伸張処理することなく、圧縮電子文書の内容をユーザが把握できるようになるので、不必要な伸長処理を行わなくて済み、結果として処理時間が短縮できるという効果がある。
【００１８】
次に、図１に示したような要約データを含む電子バインダを作成する処理の詳細について説明する。
【００１９】
＜電子バインダ作成処理の詳細＞
図２は電子文書群を圧縮アーカイブする際に、各電子文書のアクセス頻度に基づいて電子文書ごとに自動的に圧縮／非圧縮を決定して、圧縮すると判断された電子文書に対しては要約データを作成して、電子バインダ（アーカイブファイル）を作成する処理を示したフローチャートである。
【００２０】
ステップ２０１では、電子文書番号ｉを０に初期化して、最初の電子文書から判定を開始する。
【００２１】
ステップ２０２で、Ｆｉｌｅ＿ｃｏｍｐはｉ番目の電子文書のアクセス回数を全アクセス回数Ａｌｌ＿Ｆｉｌｅ＿ｆｒｅｑで割ったものであり、ファイルの総アクセスにおいて電子文書ファイルｉがどれくらいの頻度割合でアクセスされるかが計算される。なお、Ａｌｌ＿Ｆｉｌｅ＿Ｆｒｅｑの値が一定の値に満たない場合は、統計的に不十分なため、Ｆｉｌｅ＿Ｃｏｍｐは全て１とする。
【００２２】
ステップ２０３では、ファイルアクセス頻度Ｆｉｌｅ＿Ｃｏｍｐがある閾値ｔｈｒｅｓｈｏｌｄを超えるかどうかで、電子文書ｉが頻繁にアクセスされている電子文書であるか判定する。電子文書ｉが頻繁にアクセスされていると判断された場合ステップ２０４に進む。一方、Ｆｉｌｅ＿Ｃｏｍｐがｔｈｒｅｓｈｏｌｄより小さく、電子文書ｉのアクセス頻度が小さいと判断された場合は、ステップ２０６に進む。
【００２３】
ステップ２０４では、電子文書ｉの圧縮フラグの真偽によって、前記電子文書が既に圧縮されているかどうかを判定する。電子文書ｉが圧縮されている場合はステップ２０５に進み、圧縮時に用いられた所定の圧縮アルゴリズムに対応する伸長アルゴリズムを用いて伸長する。一方、電子文書ｉが圧縮されていない場合はステップ２１０に進む。
【００２４】
ステップ２０６では、電子文書ｉの要約データを作成するかどうか判定する。Ｆｉｌｅ［ｉ］．Ａｂｓｔは電子文書ｉに要約データが存在するかどうかを示す。Ｆｉｌｅ［ｉ］．Ａｂｓｔ＝０ならば要約データが存在しないので、ステップ２０７に進み、要約データを作成した後、ステップ２０８に進む。一方、Ｆｉｌｅ［ｉ］．Ａｂｓｔ＝１の場合は、要約データが既に存在しているので、要約データを作成しなおす必要がないと判断してステップ２０８に進む。
【００２５】
ステップ２０８では、電子文書ｉの圧縮フラグの真偽によって、前記電子文書が既に圧縮されているかどうかを判定する。電子文書ｉが圧縮されていない場合はステップ２０９に進み、所定の圧縮アルゴリズムに従い圧縮する。一方、電子文書ｉが既に圧縮されている場合はステップ２１０に進む。
【００２６】
ステップ２１０では、ｉをインクリメントする。
【００２７】
ステップ２１１では、処理中の電子文書番号ｉと全ファイル数ｆｉｌｅｎｕｍを比較して、全ての電子文書の判定が終了したかどうかを判断する。ｉがｆｉｌｅｎｕｍより小さいならばステップ２０２に進み、次の電子文書の判定を行う。ｉがｆｉｌｅｎｕｍ以上ならば、全ての電子文書の圧縮／非圧縮の判定が終わったと判断してステップ２１２に進む。
【００２８】
ステップ２１２では、全電子文書および要約データを対象としてアーカイブを行い、図１に示すような電子バインダを作成する。このとき、各電子文書および要約データの格納位置を示すアドレス情報などが圧縮情報テーブルに格納される。
【００２９】
＜電子バインダ作成処理の別実施例１＞
図３は、電子バインダ作成処理の別実施例１を示すフローチャートである。図３では、電子文書群を圧縮アーカイブする際に、各電子文書の拡張子（フォーマット）に基づいて、電子文書ごとに自動的に圧縮／非圧縮を決定し、圧縮すると判断された電子文書に対しては要約データを作成して、電子バインダ（アーカイブファイル）を作成する処理を示したフローチャートである。
【００３０】
ステップ３０１では、電子文書番号ｉを０に初期化して、最初の電子文書から判定を行う。
【００３１】
Ｆｉｌｅ［ｉ］．ｔｙｐｅは電子文書ｉのフォーマット種類を示しており、電子文書によっては既に独自の形式で圧縮されているものもあり、そのような電子文書は再度圧縮しても圧縮効率が悪い。そこで、ステップ３０２では、電子文書ｉの種類が特定の種類（図３ではテキストフォーマット）か否かを判定する。つまり、電子文書ｉが未だ圧縮されていない、または再度圧縮を行っても圧縮効率が高い種類の電子文書であるならばステップ３０５に進む。一方、電子文書ｉを圧縮しても圧縮効率が悪い種類の電子文書であるならば、ステップ３０３に進む。
【００３２】
ステップ３０３で、電子文書ｉの圧縮フラグの真偽によって、電子文書ｉが既に圧縮されているかどうかを判定する。電子文書ｉが圧縮されている場合はステップ３０４に進み、圧縮時に用いられた所定の圧縮アルゴリズムに対応する伸長アルゴリズムを用いて伸長する。一方、電子文書ｉが圧縮されていない場合はステップ３０９に進む。
【００３３】
ステップ３０５では、電子文書ｉの要約データを作成するかどうか判定する。Ｆｉｌｅ［ｉ］．Ａｂｓｔは電子文書ｉに要約データが存在するかどうかを示す。Ｆｉｌｅ［ｉ］．Ａｂｓｔ＝０ならば要約データが存在しないので、ステップ３０６に進んで要約データを作成した後、ステップ３０７に進む。一方、Ｆｉｌｅ［ｉ］．Ａｂｓｔ＝１ならば、既に要約データが存在するので、要約データを作成しなおす必要がないと判断してステップ３０７に進む。
【００３４】
ステップ３０７では、電子文書ｉの圧縮フラグの真偽によって、前記電子文書が既に圧縮されているかどうかを判定する。電子文書ｉが圧縮されていない場合はステップ３０８に進み、所定の圧縮アルゴリズムに従い圧縮する。一方、電子文書ｉが既に圧縮されている場合はステップ３０９に進む。
【００３５】
ステップ３０９では、ｉをインクリメントする。
【００３６】
ステップ３１０では、処理中の電子文書番号ｉと全ファイル数ｆｉｌｅｎｕｍとを比較して、全ての電子文書が判定し終わったかどうかを判断する。ｉがｆｉｌｅｎｕｍより小さい場合はステップ３０２に進み、次の電子文書の判定を行う。一方、ｉがｆｉｌｅｎｕｍ以上の場合は、全ての電子文書の判定が終わったと判断して、ステップ３１１に進む。
【００３７】
ステップ３１１では、全電子文書と要約データとを対象としてアーカイブ処理を行い、図１に示すような電子バインダを作成する。このとき、各電子文書および要約データの格納位置を示すアドレス情報などが圧縮情報テーブルに格納される。
【００３８】
＜電子バインダ作成処理の別実施例２＞
図４は、電子バインダ作成処理の別実施例２を示すフローチャートである。図４では、電子文書群を圧縮アーカイブする際に、各電子文書の圧縮率に基づいて電子文書ごとに自動的に圧縮／非圧縮を決定し、圧縮すると判断された電子文書に対しては要約データを作成して、電子バインダ（アーカイブファイル）を作成する処理を示したフローチャートである。
【００３９】
ステップ４０１では、電子文書番号ｉを０に初期化して、最初の電子文書から判定を開始する。
【００４０】
ステップ４０２では、電子文書ｉの圧縮フラグの真偽によって、前記電子文書が既に圧縮されているかどうかを判定する。電子文書ｉが圧縮されていないと判断した場合は、ステップ４０３に進み、所定の圧縮アルゴリズムに従い圧縮する。一方、電子文書ｉが圧縮されている場合はステップ４０４に進む。
【００４１】
ステップ４０４では、Ｆｉｌｅ＿ｃｏｍｐは電子文書ｉの圧縮後のサイズを圧縮前の電子文書ｉのサイズで割ったものであり、電子文書ｉの圧縮率を求める。この値が低ければ低いほど圧縮率が高い圧縮電子文書である。
【００４２】
ステップ４０５では、Ｆｉｌｅ＿Ｃｏｍｐがある閾値ｔｈｒｅｓｈｏｌｄを超えれば、電子文書ｉは圧縮率が低い文書であると判定してステップ４０６に進む。一方、圧縮率が高い電子文書であると判断した場合は、ステップ４０７に進む。
【００４３】
ステップ４０６では、電子文書ｉに関して圧縮前のオリジナルの電子文書をアーカイブするファイルと設定し、ステップ４１０に進む。
【００４４】
ステップ４０７では、電子文書ｉの要約データを作成するかどうか判定する。Ｆｉｌｅ［ｉ］．Ａｂｓｔは電子文書ｉに要約データが存在するかどうかを示す。Ｆｉｌｅ［ｉ］．Ａｂｓｔ＝０ならば要約データが存在しないので、ステップ４０８に進んで要約データを作成した後、ステップ４０９に進む。一方、Ｆｉｌｅ［ｉ］．Ａｂｓｔ＝１ならば、既に要約データが存在するので、要約データを作成しなおす必要がないと判断してステップ４０９に進む。
【００４５】
ステップ４０９では、電子文書ｉに関して、圧縮後の電子文書とその要約データとをアーカイブするファイルと設定し、ステップ４１０に進む。
【００４６】
ステップ４１０ではｉをインクリメントする。ステップ４１１で、処理中の電子文書番号ｉと全ファイル数ｆｉｌｅｎｕｍとを比較して、全ての電子文書が判定し終わったかどうかを判断する。ｉがｆｉｌｅｎｕｍより小さい場合はステップ４０２に進み、次の電子文書の判定を行う。ｉがｆｉｌｅｎｕｍ以上の場合は、全ての電子文書の判定が終わったと判断してステップ４１２に進む。
【００４７】
ステップ４１２では、ステップ４０６またはステップ４０９で選択された電子文書に基づき、全電子文書をアーカイブして、図１のような電子バインダを作成する。このとき、各電子文書および要約データの格納位置を示すアドレス情報などが圧縮情報テーブルに格納される。
【００４８】
（第２の実施形態）
上述した第１の実施形態では、図１に示すようなデータ構造で要約データを格納していたが、本第２の実施形態では、図５に示すように要約データを１つにまとめて格納したデータ構造を作成するものである。
【００４９】
図５は、本第２の実施形態の手法を用いて、電子バインダ（アーカイブファイル）の処理を示す概念図である。図５は、電子文書群をアーカイブする際に、電子文書５０１や電子文書５０３から要約データ（もしくはキーワード）を含む要約／キーワードデータ部５０８を作成する処理を実行し、更に、ファイルヘッダー情報部５０６と、電子文書５０１を圧縮した圧縮電子文書５０２と、非圧縮の電子文書５０３と、圧縮情報テーブル部５０７と共にアーカイブして、電子バインダ５０４を作成する処理を示している。また、電子文書を抽出し、該電子文書を編集した後、電子バインダに再格納すると、編集された電子文書５０９から要約データを作成し、要約データ部５０８を更新する処理を示している。
【００５０】
電子文書５０１は、ユーザの意思もしくは所定の判断基準により圧縮するべきであると判定された電子文書である。電子文書５０１に対して要約データを作成した後、電子文書５０１を所定の圧縮アルゴリズムに従って圧縮する。また電子文書５０３は、前記の基準により圧縮するべきでないと判定された電子文書である。これらの圧縮電子文書・非圧縮電子文書が混在した電子文書群をアーカイブして電子バインダ５０４を作成する。アーカイブ時に、各電子文書に関する情報（格納位置を示すアドレス情報やファイルサイズ情報、圧縮の有無を示す情報など）が電子バインダ５０４の圧縮情報テーブル５０７に記録され、ファイルヘッダー５０６と共にアーカイブされる。
【００５１】
このとき電子文書５０１や電子文書５０３がテキストを含み、そのテキストデータを抽出可能である場合、所定の方法により抽出されて、当該抽出されたテキストデータに基づいて、要約／インデックスデータ５０８が作成され、電子バインダ５０４に付与される。
【００５２】
電子バインダ内の圧縮電子文書は編集時や表示時には、圧縮時に用いられた所定の圧縮アルゴリズムに対応した伸長アルゴリズムに従って伸長処理され、電子文書５０９を作成する。アプリケーションが圧縮情報テーブルから非圧縮電子文書５０７の先頭アドレス、ファイルサイズを参照して直接処理を行うことも可能である。
【００５３】
アプリケーション上では、ユーザに対して、電子バインダ５０４の内容として、抽出された要約インデックスデータ５０８を表示し、ユーザの指示に応じて、所望の電子文書を抽出展開する。
【００５４】
ユーザにより、抽出展開された電子文書５０９が編集されて再格納された場合など更新の必要があると判断された場合、もしくはユーザが要約データ５０８を更新する必要があると判断した場合、編集後の電子文書５０９から要約データやキーワードが作成され、要約インデックスデータ５０８に登録・更新される。
【００５５】
以上のように本実施形態では、電子文書の要約データを付加することで、電子バインダ（アーカイブファイル）から電子文書を抽出伸張処理することなく、電子文書の内容をユーザが把握できるようになるので、不必要な抽出処理や伸長処理を行わなくて済み、結果として処理時間が短縮できるという効果がある。また、各文書の要約データやキーワードを１つにまとめて格納しているので、該要約データを閲覧するためのアクセス効率がよくなるという効果もある。
【００５６】
次に、図５に示したような電子バインダを作成する処理の詳細について説明する。
【００５７】
＜電子バインダ作成処理の詳細＞
図６は、電子文書群を電子バインダとして圧縮アーカイブする際に、各電子文書についてテキストデータを持つか自動的に判定処理を行い、持つ場合は要約テキストデータを作成し、電子バインダと結合する処理を示したフローチャートである。
【００５８】
ステップ６０１では、電子文書番号ｉを０に初期化して、最初の電子文書から判定を開始する。
【００５９】
ステップ６０２では、対象電子文書ｉが圧縮されているかどうかを判定する。もし電子文書ｉの要素フラグＦｉｌｅ［ｉ］．ｃｏｍｐｒｅｓｓが１の場合、対象電子文書は圧縮されている文書とみなされ、ステップ６０３に進み、所定の展開アルゴリズムを用いて、圧縮電子文書の展開処理が行われ、非圧縮の電子文書が作成される。一方、Ｆｉｌｅ［ｉ］．ｃｏｍｐｒｅｓｓが０の場合、非圧縮の電子文書とみなされ、ステップ６０４に進む。
【００６０】
ステップ６０４では、電子文書ｉにテキストとして抽出可能部分が存在するかを判定する。テキストが含まれる場合はステップ６０５に進み、含まれない場合はステップ６０６に進む。
【００６１】
ステップ６０５で電子文書ｉに含まれるテキスト部分を抽出し、要約文書を作成する。ステップ６０５で行われる処理の詳細は、ステップ６１２〜６１４に示す。
【００６２】
ステップ６１２では、電子文書ｉの要素Ｆｉｌｅ［ｉ］．ａｂｓｔに、電子文書ｉの要約が存在することを示すフラグとして、１を設定する。
【００６３】
ステップ６１３では、電子文書ｉから抽出したテキストを用いて、要約作成エンジンを用いて電子文書ｉの要約データを作成する。本実施形態では、要約データの作成は当該抽出したテキストの文脈等を解析し、重要な文や語を選択して作成するものとするが、これ以外の方法を用いて作成しても構わない。
【００６４】
ステップ６１４では、電子文書ｉの要約データを、電子文書ｉの要約であることが分かるようにして要約インデックスデータ５０８に結合する。
【００６５】
ステップ６０６では、電子文書ｉを圧縮するかどうか判定する。電子文書ｉの要素Ｆｉｌｅ［ｉ］．ｃｏｍｐｒｅｓｓが１の場合（もしくは圧縮するよう指定されている場合）、電子文書ｉは圧縮するべき文書であるとみなし、ステップ６０７に進み、所定の圧縮アルゴリズムに従い電子文書ｉを圧縮する。一方、Ｆｉｌｅ［ｉ］．ｃｏｍｐｒｅｓｓが０の場合（もしくは圧縮しないよう指定されている場合）、電子文書ｉは圧縮すべきでないとみなして、ステップ６０８に進む。
【００６６】
ステップ６０８で、ｉをインクリメントする。
【００６７】
ステップ６０９では、処理中の電子文書番号ｉと電子文書群に含まれる全電子文書の総数ｆｉｌｅｎｕｍとを比較することにより、全ての電子文書の判定が終了したかどうかを判定する。ｉがｆｉｌｅｎｕｍより小さい場合はステップ６０２に進み、次の電子文書ｉを対象として処理を行う。ｉがｆｉｌｅｎｕｍ以上となり全ての電子文書の判定が終わったと判断するとステップ６１０に進む。
【００６８】
ステップ６１０では、全電子文書をアーカイブして、各電子文書の情報や要約データの有無などの情報を電子バインダの圧縮情報テーブルに書き込み、ステップ６１１でアーカイブされた圧縮電子文書にステップ６１４で作成した要約データを付加し、電子バインダを作成する。
【００６９】
＜電子バインダ作成処理の別実施例＞
図７は、電子文書群を圧縮アーカイブして電子バインダを作成する際に、各電子文書から自動的にキーワードを抽出する処理を行い、作成したキーワードからインデックスファイルを作成し、電子バインダと結合する処理を示したフローチャートである。
【００７０】
ステップ７０１では、電子文書番号ｉを０に初期化して、最初の電子文書から判定を行う。
【００７１】
ステップ７０２では、対象電子文書ｉを圧縮するかどうかを判定する。もし電子文書ｉの要素Ｆｉｌｅ［ｉ］．ｃｏｍｐｒｅｓｓが１の場合、対象電子文書は圧縮されている文書とみなされ、ステップ７０３に進み、圧縮時に用いられた所定の圧縮アルゴリズムに対応する伸長アルゴリズムを用いて伸長する。一方、Ｆｉｌｅ［ｉ］．ｃｏｍｐｒｅｓｓが０の場合、非圧縮の電子文書とみなされ、ステップ７０４に進む。
【００７２】
ステップ７０４では、電子文書ｉにテキストとして抽出可能な部分が存在するかを判定する。テキストが含まれる場合はステップ７０５に進み、含まれない場合はステップ７０６に進む。
【００７３】
ステップ７０５では、電子文書ｉに含まれるテキスト部分からキーワードを選択し、電子文書ｉのキーワードとして、電子文書ｉの要素Ｆｉｌｅ［ｉ］．Ｋｅｙｗｏｒｄに登録する。ステップ７０５での詳細処理は、ステップ７１３〜７１５から成る。
【００７４】
ステップ７１３では、電子文書ｉの要素Ｆｉｌｅ［ｉ］．ｋｅｙに、電子文書ｉのキーワードが登録されていることを示すフラグとして、１を設定し、ステップ７１４に進む。
【００７５】
ステップ７１４では、電子文書ｉから抽出したテキストから所定のキーワード作成手段を用いてキーワードを選択し、電子文書ｉのキーワードを登録する。本実施形態では抽出したテキストに出現する語の出現回数が多いものを用いてキーワードを作成するものとするが、文脈を解析して重要と思われる語をキーワードとするなど、その他の手法を用いても構わない。
【００７６】
ステップ７１５では、電子文書ｉのキーワードを、電子文書ｉのキーワードであることが分かるようにして、電子文書群のインデックスデータファイルに結合する。
【００７７】
ステップ７０６では、電子文書ｉを圧縮するかどうかを判定する。電子文書ｉの要素Ｆｉｌｅ［ｉ］．ｃｏｍｐｒｅｓｓが１の場合（もしくは圧縮するよう指定されている場合）、電子文書ｉは圧縮するべき文書であるとみなし、ステップ７０７に進み、所定の圧縮アルゴリズムに従い電子文書ｉを圧縮する。一方、Ｆｉｌｅ［ｉ］．ｃｏｍｐｒｅｓｓが０の場合（もしくは圧縮しないよう指定されている場合）、電子文書ｉは圧縮すべきでないとみなして、ステップ７０８に進む。
【００７８】
ステップ７０８ではｉをインクリメントする。
【００７９】
ステップ７０９では、現在処理中の電子文書番号ｉを全ファイル数ｆｉｌｅｎｕｍと比較することにより、全ての電子文書が判定し終わったかどうかを判断する。ｉがｆｉｌｅｎｕｍより小さい場合はステップ３０２に進み、次の電子文書ｉの判定を行う。ｉがｆｉｌｅｎｕｍ以上となり電子文書群に含まれる全ての電子文書の判定が終わったと判断するとステップ７１０に進む。
【００８０】
ステップ７１０では、全電子文書を対象としてアーカイブ処理を行う。また各電子文書に関する情報やインデックスデータの有無などの情報を電子バインダの圧縮情報テーブルに書き込む。
【００８１】
ステップ７１１では、格納した各電子文書についての編集者氏名や環境、日時、編集履歴などの編集情報をインデックスファイルに追加する。
【００８２】
ステップ７１２では、アーカイブされた圧縮電子文書にステップ７１４で作成したキーワードが追加されたインデックスファイル５０８を付加し、電子バインダを作成する。
【００８３】
（本実施形態の装置構成）
以上説明した本発明の第１の実施形態及び第２の実施形態の文書管理システムに適用可能な情報処理装置を示すと、図１０のようになる。
【００８４】
図１０は本発明の文書管理システムに適用可能な情報処理装置の構成を示すブロック図である。図１０において、ＣＰＵ１００２はメインバス１００７を介して情報処理装置１００１全体の制御を実行するとともに、情報処理装置１００１の外部に接続される入力装置１０１１（例えば、イメージスキャナ、記憶装置、ネットワーク回線を介して接続される他の情報処理装置、電話回線を介して接続されるファクシミリ等）を入力Ｉ／Ｆ（インタフェース）１００５を介して制御する。また、情報処理装置１００１の外部に接続される出力装置１０１２（例えば、プリンタ、モニタ、ネットワーク回線を介して接続される他の情報処理装置、電話回線を介して接続されるファクシミリ等）を出力Ｉ／Ｆ１００６を介して制御する。また、ＣＰＵ１００２は、ＫＢＤＩ／Ｆ（キーボードインタフェース）１００８を介して入力部（例えば、キーボード１０１３やポインティングデバイス１０１４やペン１０１５）から入力された指示に従って、画像の入力、画像処理、色変換処理、画像の出力制御等の処理を実行する。更に、入力装置１０１１より入力された画像データや、キーボード１０１３やポインティングデバイス１０１４やペン１０１５を用いて作成された画像データを表示する表示部１０１０をビデオＩ／Ｆ（インタフェース）１００９を介して制御する。
【００８５】
ＲＯＭ１００３は、ＣＰＵ１００２に各種制御を実行させるための各種制御プログラムを記憶している。ＲＡＭ１００４は、ＣＰＵ１００２によりＯＳや本発明を実現するための制御プログラムを含むその他の制御プログラムがロードされ実行される。また、制御プログラムを実行するために用いられる各種作業領域、一時待避領域として機能する。また、入力装置１０１１より入力された画像データや、キーボード１０１３やポインティングデバイス１０１４やペン１０１５を用いて作成された画像データを、一旦、保持するＶＲＡＭ（不図示）が構成されている。
【００８６】
尚、本発明は、複数の機器（例えばホストコンピュータ、インタフェース機器、リーダ、プリンタなど）から構成されるシステムに適用しても、一つの機器からなる装置（例えば、複写機、ファクシミリ装置など）に適用してもよい。
【００８７】
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。プログラムコードを供給するための記憶媒体としては、例えば、フロッピディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどを用いることができる。
【００８８】
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【００８９】
更に、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【００９０】
また、本発明を上記コンピュータプログラムに適用する場合、そのプログラムには、先に説明したフローチャートに対応するようなプログラムコードが格納されることになる。
【００９１】
以上説明した本願の第１の実施形態および第２の実施形態に関して、本発明の特徴を以下に総括する。
【００９２】
（実施態様１）
複数の電子文書が格納されるアーカイブファイルを作成する情報処理方法であって、前記格納される電子文書の要約データを作成する要約作成ステップと、前記作成された要約データと前記複数の電子文書とを格納したアーカイブファイルを生成する生成ステップと、を有することを特徴とする情報処理方法。
【００９３】
（実施態様２）
更に、各電子文書について圧縮してアーカイブファイルに格納するか否か判断する判断ステップを有することを特徴とする実施態様１に記載の情報処理方法。
【００９４】
（実施態様３）
前記判断ステップでは、各電子文書のアクセス頻度に基づいて、圧縮してアーカイブファイルに格納するか否か判断することを特徴とする実施態様２に記載の情報処理方法。
【００９５】
（実施態様４）
前記判断ステップでは、各電子文書のフォーマットに基づいて、圧縮してアーカイブファイルに格納するか否か判断することを特徴とする実施態様２に記載の情報処理方法。
【００９６】
（実施態様５）
前記判断ステップでは、各電子文書の圧縮率に基づいて、圧縮してアーカイブファイルに格納するか否か判断することを特徴とする実施態様２に記載の情報処理方法。
【００９７】
（実施態様６）
前記要約作成ステップでは、前記判断手段で圧縮されて格納されると判断された電子文書に関して要約データを作成することを特徴とする実施態様２乃至５のいずれかに記載の情報処理方法。
【００９８】
（実施態様７）
前記要約作成ステップでは、電子文書がテキストデータを含むかどうか判断し、含むと判断された電子文書に関して要約データを作成することを特徴とする実施態様１乃至６のいずれかに記載の情報処理方法。
【００９９】
（実施態様８）
前記アーカイブファイルに格納される電子文書に関する要約データを１つの領域にまとめて格納することを特徴とする実施態様１に記載の情報処理方法。
【０１００】
（実施態様９）
前記要約作成ステップでは、前記電子文書の要約データを作成する代わりに、前記電子文書のキーワードを作成し、前記生成ステップでは、該作成されたキーワードと前記複数の電子文書とを格納したアーカイブファイルを生成することを特徴とする実施態様１に記載の情報処理方法。
【０１０１】
（実施態様１０）
更に、前記アーカイブファイルから要約データを抽出し、ユーザに対して提示する要約提示ステップを有することを特徴とする実施態様１に記載の情報処理方法。
【０１０２】
（実施態様１１）
更に、ユーザにより指定された所望の電子文書を前記アーカイブファイルから抽出する電子文書抽出ステップを有することを特徴とする実施態様１に記載の情報処理方法。
【０１０３】
（実施態様１２）
前記電子文書抽出ステップは、前記要約データを格納していないアーカイブファイルからも、ユーザ所望の電子文書を抽出可能であることを特徴とする実施態様１１に記載の情報処理方法。
【０１０４】
（実施態様１３）
実施態様１乃至１２のいずれかに記載の情報処理方法のステップを、コンピュータに実行させるためのコンピュータプログラム。
【０１０５】
（実施態様１４）
実施態様１３に記載のコンピュータプログラムを格納した、コンピュータ読取可能な記憶媒体。
【０１０６】
（実施態様１５）
複数の電子文書が格納されるアーカイブファイルを作成する情報処理装置であって、前記格納される電子文書の要約データを作成する要約作成手段と、前記作成された要約データと前記複数の電子文書とを格納したアーカイブファイルを生成する生成手段と、を有することを特徴とする情報処理装置。
【０１０７】
【発明の効果】
以上説明したように本実施形態によれば、電子バインダ（アーカイブファイル）に格納されている電子文書について抽出伸張処理を実行することなく、要約データを用いて、該電子文書の内容をユーザが把握できるようになるので、不必要な伸長処理を行わなくて済み、結果として処理時間が短縮できるという効果がある。
【０１０８】
また、内容が容易に把握でき、ユーザ所望の文書を抽出展開して使用できるので、全ての文書を展開せずにすみ、作業時のメモリ領域も少なくて済むという効果がある。
【０１０９】
また、第２の実施形態のように要約データを１つにまとめて格納することも可能となっており、アクセス効率がよくなるという効果も有する。
【図面の簡単な説明】
【図１】第１の実施形態における電子バインダの構成を示す図である。
【図２】各電子文書のアクセス頻度に基づいた圧縮選択と要約データ作成を行って電子バインダを作成する処理の詳細フローチャートである。
【図３】各電子文書のフォーマット毎の特性に基づいた圧縮選択と要約データ作成を行って電子バインダを作成する処理の詳細フローチャートである。
【図４】各圧縮電子文書の圧縮率に基づいた圧縮選択と要約データ作成を行って電子バインダを作成する処理の詳細フローチャートである。
【図５】第２の実施形態における電子バインダの構成を示す図である。
【図６】電子バインダ内の各電子文書のテキストデータからの要約テキストデータ作成処理と、電子バインダへの要約テキストデータの付加処理を示したフローチャートである。
【図７】電子バインダ内の各電子文書のテキストデータからのキーワード作成処理と、電子バインダへのキーワードデータの付加処理を示したフローチャートである。
【図８】要約データを含まない電子バインダの例
【図９】要約データを含まない電子バインダの例
【図１０】第１の実施形態や第２の実施形態を適用可能な情報処理装置の構成例

Claims

複数の電子文書が格納されるアーカイブファイルを作成する情報処理方法であって、
前記格納される電子文書の要約データを作成する要約作成ステップと、
前記作成された要約データと前記複数の電子文書とを格納したアーカイブファイルを生成する生成ステップと、
を有することを特徴とする情報処理方法。