JP5251161B2 - 情報処理装置、情報処理システム及びプログラム - Google Patents

情報処理装置、情報処理システム及びプログラム Download PDF

Info

Publication number
JP5251161B2
JP5251161B2 JP2008040559A JP2008040559A JP5251161B2 JP 5251161 B2 JP5251161 B2 JP 5251161B2 JP 2008040559 A JP2008040559 A JP 2008040559A JP 2008040559 A JP2008040559 A JP 2008040559A JP 5251161 B2 JP5251161 B2 JP 5251161B2
Authority
JP
Japan
Prior art keywords
page
document
image
electronic document
read
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008040559A
Other languages
English (en)
Other versions
JP2009199357A (ja
Inventor
英樹 松永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2008040559A priority Critical patent/JP5251161B2/ja
Publication of JP2009199357A publication Critical patent/JP2009199357A/ja
Application granted granted Critical
Publication of JP5251161B2 publication Critical patent/JP5251161B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、情報処理装置、情報処理システム及びプログラムに関する。
近年、紙文書を電子化して電子文書として保管するシステムが普及している。このようなシステムでは、複数のページからなる文書は、多くの場合、PDF等のように複数ページを1つのファイルとして扱えるフォーマットで保存される。
また、このように保管された電子文書を印刷し、印刷結果の紙文書に対して記入を行い、その記入結果を電子化して元の電子文書の更新版として保管するシステムも存在する。
例えば特許文献1に開示されるシステムは、データベースに登録された電子文書を印刷する場合には、その電子文書自体の画像に、その電子文書を特定するバーコード等の画像コードを付加して印刷する。また、この装置は、紙文書の画像を読み取った場合に、その画像中の画像コードからその紙文書に対応する電子文書を特定し、読み取った画像をその電子文書に対応づけて(例えばその電子文書の改訂版として)、データベースに登録する。
また、複数ページからなる電子文書に対するページの追加を紙の文書を用いて指示する場合、元の電子文書に対応する紙文書の全ページを用意し、追加する紙のページをその紙文書内の追加したい位置に挿入し、これをスキャナで読み取って得た電子文書を元の電子文書と置き換えることが行われている。
特開2004−112524号公報
本発明は、電子文書の全ページに対応する紙文書を用意しなくても、一部のページに対応する紙文書を読み取るだけで電子文書の中で所定のページ位置に読み取られたページ追加できるようにすることを目的とする。
請求項1に係る発明は、原稿読取装置により読み取られた原稿の各ページの読取画像に基づき、記憶装置に記憶された電子文書の中から当該原稿に対応する対応電子文書を特定する特定手段と、前記原稿の各ページについて、当該ページの読取画像に対して所定のしきい値以上の類似度を持つ対応画像を、前記対応電子文書の各ページの画像の中から探索する探索手段と、前記原稿の各ページの読取画像のうち前記探索手段により前記対応画像が見つからなかった読取画像を前記記憶手段内の前記対応電子文書に追加する手段であって、前記原稿中での当該読取画像のページと前記対応画像が見つかったページとの順序関係により特定されるページ位置に当該読取画像を追加する追加手段と、を備え、前記特定手段は、前記原稿の先頭ページの画像を前記記憶装置に記憶された各電子文書の先頭ページの画像と比較することにより、前記対応電子文書を特定し、前記追加手段は、前記探索手段の探索により、前記対応電子文書の先頭ページ以外の第1のページを前記対応画像とするページが前記原稿から見つかり、前記原稿の中の、当該見つかったページの直前及び直後のうちあらかじめ定めた一方に、前記対応画像が見つからなかったページが存在する場合、当該対応画像が見つからなかったページの読取画像を、前記対応電子文書の中の前記第1のページの直前及び直後のうち前記あらかじめ定めた一方に挿入し、前記探索手段の探索により、前記読み取られた原稿の先頭ページが前記対応電子文書の先頭ページに対応することが分かり、かつ、当該原稿の前記先頭ページ以外のページについてはいずれも前記対応画像が見つからなかった場合、前記追加手段は、前記先頭ページ以外の各ページの読取画像を、前記対応電子文書の末尾ページの後ろに追加する、ことを特徴とする
情報処理装置である。
請求項2に係る発明は、請求項1に係る発明において、複数の原稿からなる原稿束が前記原稿読取装置により読み取られた場合に、前記原稿読取装置から受信した各ページの読取画像の中から所定の区切り画像又は前記記憶装置に記憶された各電子文書の代表ページの画像を探索し、探索された区切り画像又は代表ページの画像により前記原稿読取手段が出力した各ページの読取画像を原稿単位に分割する分割手段、を更に備え、前記特定手段は前記分割手段が原稿単位に分割した読取画像に基づき、当該原稿に対応する対応電子文書を特定する、ことを特徴とする。
請求項3に係る発明は、請求項1〜2のいずれか1項に係る発明において、前記原稿の各ページの読取画像のうち前記探索手段により前記対応画像が見つかった読取画像について、当該読取画像と前記対応画像との類似度が前記しきい値以上であって、かつ、所定の第2のしきい値以下の場合は、前記記憶手段内の前記対象電子文書における前記対応画像を当該読取画像に差し替える差替手段、を更に備える。
請求項4に係る発明は、原稿を読み取る原稿読取装置と、1以上のページの画像を含む1以上の電子文書を記憶する記憶装置と、前記原稿読取装置により読み取られた原稿の各ページの読取画像に基づき、前記記憶装置に記憶された電子文書の中から当該原稿に対応する対応電子文書を特定する特定手段と、前記原稿の各ページについて、当該ページの読取画像に対して所定のしきい値以上の類似度を持つ対応画像を、前記対応電子文書の各ページの画像の中から探索する探索手段と、前記原稿の各ページの読取画像のうち前記探索手段により前記対応画像が見つからなかった読取画像を前記記憶手段内の前記対応電子文書に追加する手段であって、前記原稿中での当該読取画像のページと前記対応画像が見つかったページとの順序関係により特定されるページ位置に当該読取画像を追加する追加手段と、を有する情報処理装置と、を含み、前記特定手段は、前記原稿の先頭ページの画像を前記記憶装置に記憶された各電子文書の先頭ページの画像と比較することにより、前記対応電子文書を特定し、前記追加手段は、前記探索手段の探索により、前記対応電子文書の先頭ページ以外の第1のページを前記対応画像とするページが前記原稿から見つかり、前記原稿の中の、当該見つかったページの直前及び直後のうちあらかじめ定めた一方に、前記対応画像が見つからなかったページが存在する場合、当該対応画像が見つからなかったページの読取画像を、前記対応電子文書の中の前記第1のページの直前及び直後のうち前記あらかじめ定めた一方に挿入し、前記探索手段の探索により、前記読み取られた原稿の先頭ページが前記対応電子文書の先頭ページに対応することが分かり、かつ、当該原稿の前記先頭ページ以外のページについてはいずれも前記対応画像が見つからなかった場合、前記追加手段は、前記先頭ページ以外の各ページの読取画像を、前記対応電子文書の末尾ページの後ろに追加する、ことを特徴とする情報処理システムである。
請求項5に係る発明は、コンピュータを原稿読取装置により読み取られた原稿の各ページの読取画像に基づき、記憶装置に記憶された電子文書の中から当該原稿に対応する対応電子文書を特定する特定手段、前記原稿の各ページについて、当該ページの読取画像に対して所定のしきい値以上の類似度を持つ対応画像を、前記対応電子文書の各ページの画像の中から探索する探索手段、前記原稿の各ページの読取画像のうち前記探索手段により前記対応画像が見つからなかった読取画像を前記記憶装置内の前記対応電子文書に追加する手段であって、前記原稿中での当該読取画像のページと前記対応画像が見つかったページとの順序関係により特定されるページ位置に当該読取画像を追加する追加手段、として機能させるためのプログラムであって、前記特定手段は、前記原稿の先頭ページの画像を前記記憶装置に記憶された各電子文書の先頭ページの画像と比較することにより、前記対応電子文書を特定し、前記追加手段は、前記探索手段の探索により、前記対応電子文書の先頭ページ以外の第1のページを前記対応画像とするページが前記原稿から見つかり、前記原稿の中の、当該見つかったページの直前及び直後のうちあらかじめ定めた一方に、前記対応画像が見つからなかったページが存在する場合、当該対応画像が見つからなかったページの読取画像を、前記対応電子文書の中の前記第1のページの直前及び直後のうち前記あらかじめ定めた一方に挿入し、前記探索手段の探索により、前記読み取られた原稿の先頭ページが前記対応電子文書の先頭ページに対応することが分かり、かつ、当該原稿の前記先頭ページ以外のページについてはいずれも前記対応画像が見つからなかった場合、前記追加手段は、前記先頭ページ以外の各ページの読取画像を、前記対応電子文書の末尾ページの後ろに追加する、ことを特徴とするプログラムである。

請求項1又は4又は5に係る発明によれば、電子文書の全ページに対応する紙の原稿を用意しなくても、一部のページに対応する紙文書を読み取るだけで電子文書の中で所定のページ位置に読み取られたページを追加することができる。
請求項2に係る発明によれば、紙の原稿をまとめて原稿読取手段に読み取らせても、個々の電子文書を特定することができる。
請求項3に係る発明によれば、電子文書中のページを紙の原稿により差し替えることができる。
図1を参照して、実施形態のシステムの一例を概略的に説明する。図1のシステムは、ローカルエリアネットワーク等のネットワーク60を介して相互に接続された文書登録・更新システム10,文書管理システム20,複合機(スキャナ、プリンタ、コピー機等の機能を兼ね備えた装置)30,画像検索システム40及び類似度判定システム50を備える。
文書登録・更新システム10は、文書管理システム20への電子文書の登録、及び文書管理システム20に登録された電子文書の更新を行うシステムである。文書登録・更新システム10の詳細は後で説明する。電子文書は、電子的なデータからなる文書であり、典型的には1つのファイルである。なお、電子文書に対立する概念として紙文書がある。紙文書は、1又は複数枚の用紙上に表示された画像からなる文書である。
文書管理システム20は、ユーザ達から登録された電子文書を記憶したデータベースである。各電子文書は、それぞれ1以上のページの画像データを含んでいる。文書管理システム20は、各電子文書をそれぞれ一意な文書ID(識別情報)に対応づけて記憶している。電子文書は、例えば、PDF(Portable Document Format)等のマルチページファイル形式(すなわち複数のページの画像を1ファイルに含みうるファイル形式)の文書データである。
複合機30は、ADF(Auto Document Feeder。自動原稿送り装置)を備えている。ADFは、1つの例では、原稿台と、原稿送り機構と、原稿の表裏両面を同時に読み取る読取装置とを備える。このようなADFによれば、原稿送り機構が原稿台上の原稿束から原稿を1枚ずつ送るのと連動して、読取装置がそれら各原稿の両面を読み取り、それら各面の画像データを生成する。このようなADFとしては、既存のものを用いればよい。また、ADFが備える読取装置は必ずしも両面同時読み取り可能なものに限らない。読取装置が片面読み取りのものであれば、原稿台にセットした原稿をいったん全部送って読み取った後、原稿を裏返して原稿台にセットしてもう一度読み取りを行うことで、各原稿の両面の画像を読み取ることができる。また、複合機30が備えるADFは、必ずしも読取装置を備えていなくてもよい。ADFが読取装置を備えない場合は、ADFが1枚ずつ送った原稿の画像が、複合機30のプラテンに設けられたスキャナ機構により読み取られる。
なお、読取装置としては、イメージスキャナ、書画カメラ、デジタルカメラなど、原稿を画像として読み取るものであればよく、複合機のスキャナ機構に限定されない。
また複合機30は、スキャン、プリント、コピーなどの一般的な機能に加え、スキャンにより生成されたスキャン画像データを登録又は更新のために文書登録・更新システム10に送信する機能を備える。この機能は、例えば、複合機30のCPU(中央演算処理装置)により実行される文書送信プログラムにより実現される。例えば、複合機30の操作画面に表示されるメニューの中の1つのメニュー項目にそのプログラムが対応づけられており、そのメニュー項目がユーザにより選択されると、そのプログラムが実行され、複合機30が文書送信モードへと遷移する。文書送信モードでは、例えば複合機30は紙文書の読み取り待ちの状態となる。この状態で、ユーザがADFに原稿束をセットして、複合機30のスタートボタンを押下すると、原稿束内の原稿が1枚ずつ読み取られ、この読み取りの結果得られる原稿束の各ページの画像データが文書送信プログラムによりマルチページのスキャン画像データにまとめられ、文書登録・更新システム10に送信される。ADFにセットされる原稿束に複数の紙文書が含まれる場合があり、そのような場合、文書登録・更新システム10に送信されるスキャン画像データはそれら複数の紙文書の読取結果をまとめたものとなる。ADFにセットされた原稿束を読み取り、その読取結果のスキャン画像データを文書登録・更新システム10に送信し終わると、複合機30は文書送信モードから通常のモードに戻る。なお、原稿が片面ずつしか読み取れない場合は、文書送信プログラムは、いったんADFにセットされた原稿束を読み取って、その結果得られた表面の読取結果を記憶し、その後裏返してセットされた原稿束を読み取って、その結果得られた裏面の読取結果を記憶している表面の読取結果と組み合わせて並べ替えることで、ページ順に並んだマルチページのスキャン画像データを生成することができる。
以上では、ADFにセットされた原稿束を読み取る例を説明したが、文書送信プログラムは、複合機30のプラテンに置かれた原稿を読み取ることにより得られたスキャン画像データを文書登録・更新システム10に送信してもよい。
また、別の例として、複合機30の文書送信プログラムは、複合機30内の記憶装置に保存されているスキャン画像データの一覧を操作画面に提示し、その中でユーザが選択したスキャン画像データを文書登録・更新システム10に送信してもよい。
文書登録・更新システム10は、複合機30から送られてきたスキャン画像データ内に含まれる各文書(これら各文書のことを以下では「スキャン文書」と呼ぶ)について、それぞれ当該スキャン文書に対応する電子文書が文書管理システム20に登録済みであるか否かを判定する。この判定は、例えば、画像検索システム40が、当該スキャン文書の代表ページと同じ画像の代表ページを持つ電子文書を文書管理システム20から探索することにより行われる。代表ページとしては、例えば電子文書の先頭(すなわち表紙)ページを用いることができる。文書管理の現場でも、作成者や作成日などといった書誌事項を記入した表紙ページを用意し、この表紙ページにより個々の文書を識別している例は多い。
スキャン文書の代表ページと同じ画像を代表ページとして持つ電子文書が文書管理システム20内から見つかれば、当該スキャン文書は登録済みと判定され、そうでなければ未登録と判定される。登録済みと判定された場合は、文書登録・更新システム10は、スキャン文書の画像を用いて、文書管理システム20内の当該文書に対応する電子文書を更新する。未登録と判定された場合は、文書登録・更新システム10は、当該スキャン文書を新規の電子文書として文書管理システム20に登録する。
ユーザは、文書管理システム20に登録された電子文書を更新したい場合、その電子文書の代表ページと、更新対象のページ(例えば変更又は追加されるページ)とを含む紙文書を用意し、その紙文書を複合機30に文書管理モードで読み込ませればよい。代表ページが文書の先頭ページである場合、紙文書は、例えば、代表ページの後に更新対象のページが来るという順番になるようにセットすればよい。
また、電子文書中の特定のページ位置に新たにページを追加する場合には、そのページ位置を特定する必要がある。そこで、このような場合には、代表ページと追加対象のページだけでなく、追加対象のページの直前又は直後(又はその両方)のページも含んだ紙文書を複合機30に読み込ませればよい。紙文書におけるそれらページの順序は、ページ追加後の電子文書におけるそれら各ページの順序と一致するようにしておけばよい。
また、複数の電子文書の更新を一度に行いたい場合には、それら各電子文書についてそれぞれ代表ページと更新対象のページ(及び必要があれば更新対象のページの位置を特定するための他のページ)を含む紙文書を用意し、それらを束ねた原稿束を複合機30に読み込ませればよい。ここで、原稿束に含まれる各文書は、それぞれ代表ページ及び更新対象のページ(及びもしあれば、更新対象のページの位置を特定するための他のページ)が、更新後の電子文書における対応ページと同じ順序となるようにセットしておけばよい。
画像検索システム40は、文書登録・更新システム10から受け取ったスキャン画像データの各ページの画像と、文書管理システム20に登録された各電子文書の代表ページの画像とを比較する。そして、この比較に基づき、スキャン画像データの中から、各電子ページの代表ページと同じ画像を持つページを探す。代表ページが例えば文書の先頭のページや末尾のページであれば、スキャン画像データ中から電子文書の代表ページに対応するページが見つかれば、そのページはスキャン画像データに含まれる個々のスキャン文書の区切りとなる。例えば文書の先頭ページが代表ページであるとする。この場合、スキャン画像データ中のあるページAがある電子文書の代表ページと一致すれば、スキャン画像データのうち、そのページAから次に他の電子文書の代表ページと一致するページの直前までの各ページは、1つのスキャン文書のページと判定できる。そして、ページAに一致する代表ページを持つ電子文書は、ページAから始まるスキャン文書に対応する対応電子文書と判定される。この対応電子文書は、そのスキャン文書により更新される対象となる。この更新の処理については、後で詳しく説明する。
なお、スキャン画像データ中からどの電子文書の代表ページに一致する画像を持つページも見つからなければ、そのスキャン画像データは文書管理システム20に未登録の新たな文書ということになる。この場合、文書登録・更新システム10は、そのスキャン画像データに一意な文書IDを付与し、文書管理システム20に登録する。
以上では、各電子文書の代表ページの画像と一致するページをスキャン画像データから探索したが、完全な「一致」ではなく、類似度がしきい値(後述の処理で用いられるしきい値と区別するために「第1のしきい値」と呼ぶ)以上の代表ページを持つページを探索してもよい。なお、スキャン画像データ中の同一ページに対し類似度が第1のしきい値以上の代表ページを持つ電子文書が複数見つかった場合は、例えば、その中で類似度が最も高い電子文書を、その同一ページに対応する電子文書と判定すればよい。また、この代わりに、類似度が第1のしきい値以上の各電子文書の情報を複合機30に送り、ユーザがその中からスキャンした文書に対応するものを選択してもよい。
類似度判定システム50は、スキャン画像データ中の各スキャン文書について、それぞれ、当該スキャン文書に含まれる各ページの画像と、画像検索システム40により特定された当該スキャン文書に対応する電子文書(「対応電子文書」と呼ぶ)内の各ページの画像とを比較し、両者の類似度を計算する。そして、スキャン文書に含まれるページごとに、対応電子文書内で当該ページの画像に対して所定のしきい値(他のしきい値との区別のために「第2のしきい値」と呼ぶ)以上の類似度を持つページを探す。そのようなページが見つかれば、見つかったページはスキャン文書中のページに対応するページと判定される。そのようなページが見つからなければ、スキャン文書中のページは、対応電子文書に追加されるページと判定すればよい。
なお、画像検索システム40及び類似度判定システム50における画像同士の比較、及び類似度の計算には、従来公知の手法を用いればよい。
次に、図2を参照して、文書登録・更新システム10の内部構成の例を説明する。図2の例では、文書登録・更新システム10は、スキャン画像処理部102,コード解析部104,画像検索I/F(インタフェース)部106,文書管理I/F部108,分割管理テーブル110,類似判定I/F部112及び類似ページ管理テーブル114を備える。
スキャン画像処理部102は、複合機30からスキャン画像データを受け取る。また、そのスキャン画像データをPDF等の所定のファイル形式に変換してもよい。
コード解析部104は、スキャン画像データ中の各ページの画像からQRコード(登録商標)等の文書識別のためのコード画像を検出し、そのコード画像が示す文書IDを求める。すなわち、この例の文書登録・更新システム10は、画像検索システム40により代表ページを用いて対応電子文書の探索する他に、ページに含まれる文書IDのコード画像に基づき対応電子文書を探索することができる。どちらの方式を用いるかは、システム管理者あるいはユーザが文書登録・更新システム10に設定しておけばよい。コード画像を用いる方式が選択されている場合は、スキャン画像処理部102はスキャン画像データ中の各ページの画像をコード解析部104に渡す。コード解析部104は、公知の手法によりそれら各ページの画像からコード画像を探し、コード画像が見つかればそのコード画像が示す文書IDの値を公知の手法により求める。そして、求めた文書IDを、その文書IDを見つけたページに対応づけて、文書管理I/F部108に渡す。
一方、画像検索システム40により対応電子文書を求める方式が選択されている場合は、スキャン画像処理部102が取得したスキャン画像データの各ページの画像が画像検索I/F部106に渡される。
画像検索I/F部106は、受け取った各ページの画像を、例えばページの順番に画像検索システム40に渡す。画像検索システム40は、文書管理システム20に登録された各電子文書の中から、画像検索I/F部106から渡されたページの画像と一致する(又は第1のしきい値以上の類似度を持つ)代表ページを持つ電子文書を探す。そして、そのような電子文書が見つかれば、その電子文書の文書IDを画像検索I/F部106に返す。画像検索I/F部106は、受け取った文書IDを画像検索I/F部106から受け取ったページに対応づけて、文書管理I/F部108に渡す。
文書管理I/F部108は、画像検索I/F部106又はコード解析部104から受け取った文書IDに対応する対応電子文書を文書管理システム20から取得し、その対応電子文書を、スキャン文書に基づき更新する。この更新のために、分割管理テーブル110及び類似ページ管理テーブル114を用いる。分割管理テーブル110は、複合機30から送られてきたスキャン画像データを、スキャン文書単位に分割するための管理情報を記憶するテーブルである。また、類似ページ管理テーブル114は、スキャン文書とこれに対応する対応電子文書との間で、画像が類似するページ同士の関係を管理するためのテーブルである。これらテーブル110及び114については、後で詳しく説明する。
類似判定I/F部112は、文書管理I/F部108からスキャン文書と対応電子文書とを受け取り、類似度判定システム50にそれら両者間のページ同士の類似度を計算させる。計算された類似度の情報は、類似判定I/F部112から文書管理I/F部108に返される。文書管理I/F部108は、この類似度に基づき、類似ページ管理テーブル114に情報を登録していく。
次に、図3を参照して、文書登録・更新システム10における文書更新処理の全体的な処理手順を説明する。
ユーザが原稿束を複合機30に読み取らせ、文書登録・更新システム10への送信を指示すると、読取結果のスキャン画像データがネットワーク60経由でそのシステム10に送られる。システム10では、スキャン画像処理部102がそのスキャン画像データを受信する(S1)。このスキャン画像データは、文書登録・更新システム10に登録された設定情報に従い(S2)、コード解析部104による画像検索システム40による画像検索処理(S3)又は識別コード検出処理(S4)に渡される。これらステップS3又はS4では、複数の紙文書に対応するページを含んでいるスキャン画像データを個々の文書(スキャン文書)単位に分割する。
ステップS3では、画像検索I/F部106が図4に例示するような処理を実行する。図4の手順は、文書の先頭ページをその文書の代表ページとする場合の例である。末尾ページを代表ページとする場合の手順は、同様の考え方で構成できるので、説明を省略する。
図4の手順では、まず受け取ったスキャン画像データの最初のページから順次画像を取り出し(S22)、そのページの画像を画像検索システム40に渡して対応電子文書を検索させる(S23)。画像検索システム40は、受け取ったページの画像と、文書管理システム20に登録された各電子文書の先頭ページ(例えば表紙ページ)の画像とを比較し、受け取ったページと一致する(或いは第1のしきい値以上の類似度を持つ。以下「一致する」と総称)画像の先頭ページを探す。そのような先頭ページが見つかれば(S24の判定結果がY)、画像検索システム40は、その先頭ページを含む電子文書の文書IDを画像検索I/F部106に返す。その電子文書が、ステップS22で取り出したページに対応する対応電子文書である。画像検索I/F部106は、受け取った文書IDとステップS22で取り出したページのページ番号(スキャン画像データ内の最初のページからの通し番号)とのペアを文書管理I/F部108に渡す。文書管理I/F部108は、その文書ID(S25)とページ番号(S26)を保持し、分割管理テーブル110に新たなエントリを作成して、その新エントリにページ番号と文書IDのペアを書き込む(S27)。
分割管理テーブル110のデータ構造の一例を図5に示す。例示するように、分割管理テーブル110には、スキャン画像データ内でのページ番号と、対応電子文書の文書IDとのペアが登録される。
すなわち、この手順では、スキャン画像データ中からいずれかの電子文書の先頭ページと画像が一致するページを見つけ出すと、そのページをスキャン画像データに含まれる各文書の先頭ページと判断するのである。ユーザが、複合機30に読み込ませる原稿束を、その束に含まれる各文書がそれぞれ当該文書の先頭ページの後に変更ページ又は追加ページが続く順番にセットしていれば、このような手順により文書ごとの区切りを検出できる。分割管理テーブル110に登録される情報は、スキャン画像データ中の文書ごとの区切りと、区切られた各文書が文書管理システム20内のどの電子文書に対応するかと、を示すことになる。
なお、ステップS22で取り出したページの画像に対応する先頭ページを持つ電子文書が見つからなかった場合(ステップS24の判定結果がNの場合)、そのページの画像は文書の先頭ページに該当しないので、ステップS25〜S27は飛ばして、ステップS21に戻る。
ステップS27の処理が終わると、画像検索I/F部106は、スキャン画像データの全ページをチェックし終えたか否かを判定し(S21)、まだチェックし終えていなければ、スキャン画像データから次のページ(すなわち未チェックのページの中の最初)を取り出し(S22)、同様のチェック処理(S23〜S27)を繰り返す。そして、スキャン画像データの最後のページまでチェックを完了すると(S21の判定結果がY)、図4の手順は終了する。
以上のような手順により、スキャン画像データが文書ごとに分割されることになる。例えば、図6に例示する7ページのスキャン画像データ200を受け取った場合、文書登録・更新システム10は、第1ページ202から順に、画像検索システム40に検索を依頼する。その結果、第1ページ202が文書管理システム20内の電子文書212(文書ID=00001)の先頭ページに画像が一致すると、図5に例示する分割管理テーブル110の1行目のエントリが作成される。次に、第2ページ204に画像が一致する先頭ページを持つ電子文書を検索するが、そのようなものは見つからないので、第2ページ204の情報は分割管理テーブル110には登録されない。そのような検索処理を繰り返すと、第4ページ206が電子文書214(文書ID=00002)の、第6ページ208が電子文書216(文書ID=00003)の、それぞれ先頭ページの画像に一致することが判明し、その結果図5のテーブルの2行目及び3行目のエントリが生成されることになる。そして、その結果、スキャン画像データ200は、3つのスキャン文書222,224及び226に分割される。
以上画像検索処理(S3)について説明したが、識別コード検出処理(S4)では、同様の分割管理テーブル110の作成を、スキャン画像データの各ページのコード画像に基づいて行う。例えば、コード解析部104は、そのスキャン画像データの各ページの画像からコード画像を検出し、そのコード画像を解析して文書IDを求める。追加されるページには文書IDのコード画像は含まれないが、各スキャン文書の先頭ページには含まれている。文書管理I/F部108は、コード解析部104がスキャン画像データ中のあるページから文書IDを求めると、そのページの番号と文書IDとを分割管理テーブル110へ登録する。なお、電子文書の先頭ページ以外の各ページにも文書IDのコード画像が含まれる場合は、スキャン画像データのあるページから文書IDを検出した後、更に別のページから同じ文書IDを検出したとしても分割管理テーブル110へは登録しないようにすればよい。
再び図3の手順の説明に戻ると、画像検索処理(S3)又は識別コード検出処理(S4)により分割管理テーブル110が完成すると、文書管理I/F部108は、そのテーブル110を参照してスキャン画像データをスキャン文書単位に分割する(S5)。そして文書管理I/F部108は、最初のスキャン文書(分割管理テーブル110の最初のエントリに対応)を取り出し(S7)、これに対応する対応電子文書の文書IDを分割管理テーブル110から求め、その文書IDを文書管理システム20に送って、対応電子文書のデータを得る(S8)。そして、スキャン文書と対応電子文書とを類似判定I/F部112に渡し、ページごとの類似判定処理を実行させる(S9)。
図7に、この類似判定処理の手順の一例を示す。この手順では、類似判定I/F部112は、スキャン文書の第2ページから順に1ページずつ画像を取り出し(S32)、取り出したページ(「現ページ」と呼ぶ)の画像と対応電子文書の先頭ページ以外の各ページの画像を類似度判定システム50に渡す(先頭ページ同士は画像検索処理により一致すると判明しているので省略している)。類似度判定システム50は、現ページの画像を、対象電子文書の各ページの画像と順に比較し、その比較によりそれぞれ類似度を計算する。そして、現ページに対して類似度が第2のしきい値(前述)以上となる対応電子文書のページ(「類似ページ」と呼ぶ)を探す(S33)。現ページに対する類似ページが見つかれば(S34の判定結果がY)、類似度判定システム50は対応電子文書内でのその類似ページのページ番号とこれに対応する類似度を類似判定I/F部112に返す。類似判定I/F部112は、スキャン文書内での現ページのページ番号、対応電子文書内での類似ページのページ番号、及び類似度を文書管理I/F部108に渡す。文書管理I/F部114は、それらの値を保持し(S35,36,37)、類似ページ管理テーブル114に新たなエントリを作成し、そのエントリにそれらの値を書き込む(S38)。そして、ステップS31に戻って、現在処理しているスキャン文書中のすべてのページのチェックが終わったかどうかを判定し、終わっていなければ次のページを現ページとして取り出し(S32)、ステップS33以降の処理を繰り返す。
なお、ステップS33において、現ページに対して第2のしきい値以上の類似度を持つページが対応電子文書内に複数見つかった場合は、例えばそれら複数の中で最も類似度が高いページを1つ、類似ページとして選択してもよい。また、この代わりに、それら複数のページの番号と類似度をすべて類似判定I/F部112に通知し、文書登録・更新システム10がその中から現ページに対応するものを判定してもよい。
現ページに対応する類似ページが見つからなかった場合は(S34の判定結果がN)、類似判定I/F部112は、ステップS35−S37を飛ばし、ステップS31に戻る。
以上の処理をスキャン文書の全ページについて繰り返すことで、スキャン文書と対応電子文書との間のページ同士の類似関係を示す類似ページ管理テーブル114が完成する。
図8に、類似ページ管理テーブル114のデータ内容の一例を示す。この例ではスキャン文書中の第2ページと対応電子文書の第2ページが類似度95%で、スキャン文書中の第5ページと対応電子文書の第3ページが類似度100%(すなわち画像が一致)となっている。この例では、スキャン文書中の第3及び第4ページは、新たに追加されるページである。
また図3の手順に戻ると、上述の類似判定処理(S9)により、スキャン文書と対応電子文書とについての類似ページ管理テーブル114が完成すると、次に文書管理I/F部108は、そのテーブル114を参照して、対応電子文書に対してページの変更又は追加を行う(S10)。
図9を参照して、このステップS10の詳細な手順の一例を説明する。この手順では、2つの変数cnt及びpgを用いる。変数cnt及びpgは、この手順の開始時に、類似ページ管理テーブル114の行数(すなわちスキャン文書と対応電子文書との間で相互に類似するページの数)、及びスキャン文書の総ページ数に、それぞれ初期化される(S41,S42)。これら変数は、後述する処理の進行に伴って減らされていく。この手順では、そのような変数を用いることで、対応電子文書の後ろのページから順に画像の変更や追加を行っていく。以下、詳細に説明する。
変数の初期化の後、文書管理I/F部108は、変数cntが0であるか判定する(S43)。この時点でcntが0であれば、それはスキャン文書と対応電子文書との間には先頭ページ同士以外に類似するページが存在しないことを意味する。その場合、更に変数pgが1であるか判定する(S44)。この時点で変数pgが1であれば、それは、当該スキャン文書は対応電子文書の先頭ページに対応するページを含むのみであり、変更や追加のページを含まないことを意味する。この場合、当該スキャン文書についての処理は終了する。ステップS44にて変数pgが1でなければ(すなわちpgが2以上)、スキャン文書中に先頭ページ以外のページが含まれていることになる。この場合、この手順では、スキャン文書中の第2頁から第pgページ(すなわち最後のページ)までの各ページを、対応電子文書の末尾に追加する(S45)。
このステップS45の処理の例を、図10を参照して説明する。この例では、スキャン文書及びその対応電子文書が共に2ページの文書であり、スキャン文書の第2ページは、更新前の対応電子文書の第2ページに類似していない(類似度が第2のしきい値未満)とする。この場合、スキャン文書の第2ページは、対応電子文書の末尾に追加される。この更新の後、対応電子文書は3ページの文書となる。
逆に言えば、図10の手順を用いる場合、ユーザは、電子文書の末尾に新たなページを追加したい場合、その電子文書の代表ページである先頭ページの印刷結果の後ろに、追加したいページの紙文書を付加して複合機30に読み取らせればよい。
ステップS43で変数cntが0でないと判定された場合、文書管理I/F部108は、類似ページ管理テーブル114から第cnt行目のレコードを取得する(S47)。このステップで取得したレコードを注目レコードと呼び、注目レコード内の対応電子文書のページ番号及びスキャン文書のページ番号が示す各ページをそれぞれ注目ページと呼ぶこととする。
次に、注目レコード中の類似度が100%か否かを判定し(S48)、100%でなければ、対応電子文書の注目ページをスキャン文書の注目ページに差し替える(S49)。すなわち、この場合は、対応電子文書の注目ページとスキャン文書の注目ページとが完全には一致していないので、対応電子文書の注目ページに変更が加えられたものと判断して、スキャン文書の注目ページに置き換えるのである。一方、ステップS48で類似度が100%と判定された場合は、注目ページには変更がないので、ステップS49は飛ばす。ステップS48では注目ページの変更の有無を判断するために類似度が100%か否かを判定したがこれは一例に過ぎない。例えば実験等により求められる100%に近い値をしきい値として設定し、類似度がそのしきい値以下であればページ画像に変更有りと判定するようにしてもよい。
次に、文書管理I/F部108は、スキャン文書の注目ページの番号が変数pg(これはスキャン文書の未処理の最終ページの番号を示す)の値より小さいか否かを判定する(S50)。小さければ、スキャン文書の注目ページよりも後に未処理のページが存在するということである。そこで、スキャン文書の第pgページのページ画像を、対応電子文書の注目ページの後に追加する(S51)。そして、変数pgを1だけ減らし(S52)、ステップS50に戻る。変数pgがスキャン文書の注目ページの番号と等しくなるまで、すなわちスキャン文書内で注目ページの後に続いているページがすべて追加し終わるまで、ステップS50〜S52の処理ループが繰り返される。
変数pgがスキャン文書の注目ページの番号と等しくなると、ステップS50の判定結果がNとなる。この場合文書管理I/F部108は変数cnt及びpgをそれぞれ1ずつ減らした後(S53,S54)、ステップS46に戻って変数cntが0になったか否かを判定する。すなわち、S50の判定結果がNになった段階で、ステップS47で類似ページ管理テーブル114から取得した注目レコードに関する処理(ページの変更又は追加)を終了し、変数cntを1減らして次のレコードの処理に移行するのである。
ステップS46で変数cntが0でないと判定された場合は、ステップS47でそのcntが示すレコードを類似ページ管理テーブル114から取得し、ステップS48〜S54の処理を繰り返す。文書管理I/F部108は、変数cntが0になるまで、ステップS46〜S54の処理を繰り返す。
ステップS46で変数cntが0になったと判定すると、文書管理I/F部108は、そのときの変数pgの値が1であるか否かを判定する(S55)。変数pgが1でなければ、スキャン文書の先頭ページの後に追加ページが存在するので、それら追加ページ(すなわちスキャン文書の第2〜第pgページ)を、対応電子文書の先頭ページの後ろに追加して(S56)、処理を終了する。変数pgが1であれば、ステップS56を飛ばして処理を終了する。
以上、画像変更/追加処理(図3のS10)の詳細な手順の一例を説明した。この処理により、文書登録・更新システム10の記憶装置内に、更新後の対応電子文書が形成されることになる。文書管理I/F部108は、この更新後の対応電子文書により、文書管理システム20の対応電子文書を更新する(図3のS11)。この更新処理では、例えば、作成した更新後の対応電子文書を文書管理システム20内の対応電子文書に差し替えればよい。ただし、更新は差し替えに限らない。差替の代わりに、作成した更新後の対応電子文書を、文書管理システム20に対し、元の対応電子文書の新版として登録してもよい。また、作成した更新後の対応電子文書を、元の対応電子文書との関連づけをせずに、単に文書管理システム20に新規文書として登録してもよい。
文書管理I/F部108は、スキャン画像データの分割結果であるすべてのスキャン文書についてステップS6〜S11の処理を繰り返す。そして、すべてのスキャン文書の処理が終了すると、一連の処理を終了する。
次に、図9の手順による電子文書更新の具体例を、図11を参照して説明する。この例では、「A,B,C,D,…」という多数のページからなる電子文書300を、「A,B’,あ,い,C,う」という6ページの紙文書により更新する。その紙文書(図ではその読取結果であるスキャン文書310を示している)は、対応電子文書300の第2ページをページ「B’」に変更し、その第2頁の後に新たなページ「あ」及び「い」を追加し、更に元々の第3ページ「C」の後に新たなページ「う」を追加することを意味している。このスキャン文書310について、図7の類似判定処理を行うと、図8に例示した類似ページ管理テーブルが得られる。
この例では、図9の手順では、まず変数cnt、pgが2,6にそれぞれ初期化される。そして、ステップS47で変数cnt=2に従い、図8のテーブルの2行目のレコード(すなわち「5,3,100%」)が注目レコードとして取り出され、これに基づきスキャン文書300の第5ページが対応電子文書300の第3ページに一致していることが分かる(S48の判定結果がY)。そのレコード内のスキャン文書のページ番号5はこの時点での変数pgの値6より小さいので(S50の判定結果がY)、スキャン文書の第6ページ「う」を、注目レコードが示す対応電子文書300のページ番号3のページ「C」の後ろに追加する(S51)。図11の文書302は、この時点の対応電子文書の状態を示す。次のステップS52で変数pgが6から5になり、ステップS50の判定結果がNとなる。
そこで、ステップS53及びS54で変数cnt、pgが1ずつ減らされ、それぞれ1,4になる。これは、注目レコードが図9のテーブルの1行目に移行し、スキャン文書310中の第5,6ページが処理済みとなって残りのページが4ページとなったことを意味する。
次に、ステップS47で図8のテーブルの1行目が注目レコードとして取り出され、これに基づきスキャン文書310の第2ページが対応電子文書300の第2ページに類似している(完全一致はしていない)ことが分かる(S48の判定結果がN)。そこで、対応電子文書300の第2ページ「B」が、スキャン文書の第2ページ「B’」に差し替えられる(S49)。図11の文書304は、この時点の対応電子文書300の状態を示す。
そして、そのレコード内のスキャン文書のページ番号2はこの時点での変数pgの値が5より小さいので(S50の判定結果がY)、スキャン文書の第4ページ「い」を、対応電子文書304のページ番号2のページの後ろに追加する(S51)。図11の文書306は、この時点の対応電子文書の状態を示す。
次のステップS52で変数pgが4から3に減るが、注目レコードが示すスキャン文書のページ番号2はまだpgの値3より小さいので、スキャン文書の第3ページ「あ」を、対応電子文書306のページ番号2のページの直後に追加する(S51)。ページ「あ」は、この前に追加したページ「い」の前に追加されることになる。図11の文書308は、この時点の対応電子文書の状態を示す。
次のステップS52で変数pgが3から2に減るので、ステップS50の判定結果がNとなり、ステップS53及びS54で変数cnt、pgが1ずつ減らされそれぞれ0,1になる。すると、ステップS46の判定結果がYとなり、更にステップS55の判定結果がYとなるので、図9の一連の処理が終了する。したがって、図11の例では、文書308が、対応電子文書300の最終的な更新結果となる。
以上、図9及び図11を用いて説明した例は、文書管理システム20内の電子文書にページを追加する場合に、追加ページのページ位置を、その電子文書におけるその追加ページの直前のページにより示す場合の例である。当業者ならば、この例の手順から、追加ページのページ位置をその追加ページの直後に来るページにより示す場合の手順も理解できるであろう。
以上では、文書管理システム20に登録されている電子文書の更新について説明した。文書管理システム20に新規の電子文書を登録する場合は、その電子文書に対応する新規の紙文書を複合機30に読み込ませればよい。この場合、スキャン画像データは図3の手順のステップS3又はS4では分割されず、1つのスキャン文書として扱われる。そして、ステップS8でそのスキャン文書に対応する電子文書が文書管理システム20から見つからないことが分かる。この場合に、文書登録・更新システム10が、そのスキャン文書を新規文書として文書管理システム20に追加すればよい。
また、新規に登録する文書を、更新する文書群の前に添付するようにしてもよい。この場合、スキャン画像データの先頭に新規登録の文書のページ群が位置し、その後に更新対象の既存電子文書の先頭ページが来る。この場合、文書登録・更新システム10は、ステップS3又はS4でスキャン画像データを文書単位に分割したあと、その分割結果の中の最初の文書の先頭ページより前に位置するページ群を、新規登録対象の文書と判定し、文書管理システム20に登録すればよい。なお、これは文書の先頭ページを代表ページとする場合の例である。文書の末尾のページを代表ページとする場合には、更新する文書群の後に新規登録対象の文書を添付すればよい。
この例では、既登録の文書群の前又は後ろに添付したページ群を文書管理システム20に新規登録したが、これは一例に過ぎない。そのような添付ページ群の取扱としては、この他にも、単に誤りと判断してそれら添付ページ群のスキャン画像を破棄する方法、或いは既登録の文書群のうちの先頭の文書に対しそれら添付ページを追加する方法なども考えられる。どのような取扱をするかは、本システムを利用する現場の要望によって変わってくる。そこで、そのような添付ページ群の取扱方法をいくつか文書登録・更新システム10に実装しておき、それらのうちいずれを用いるかを当該システム10の管理者が設定するようにしてもよい。
また、以上の例では、個々の電子文書中の先頭(又は末尾)ページにより区切ることで、スキャン画像データを文書単位に分割したが、これも一例に過ぎない。この代わりに、ユーザが複合機30に読み込ませる原稿束の中に、文書を区切る所定の区切り紙を入れてもよい。この場合、文書登録・更新システム10は区切り紙の画像を記憶しており、スキャン画像データ中から区切り紙の画像に対応するページを見つけると、そのページの前と後ろが別々の文書となるよう区切る。なお、このように区切り紙を用いる場合でも、個々のスキャン文書に対する対応電子文書の特定には、電子文書の代表ページの画像を用いる。
以上に例示した実施形態及び各変形例のシステムは、例えば、汎用のコンピュータに上述の各機能モジュールの処理を表すプログラムを実行させることにより実現される。ここで、コンピュータは、例えば、ハードウエアとして、図12に示すように、CPU1000等のマイクロプロセッサ、ランダムアクセスメモリ(RAM)1002およびリードオンリメモリ(ROM)1004等のメモリ(一次記憶)、HDD(ハードディスクドライブ)1006を制御するHDDコントローラ1008、各種I/O(入出力)インタフェース1010、ローカルエリアネットワークなどのネットワークとの接続のための制御を行うネットワークインタフェース1012等が、たとえばバス1014を介して接続された回路構成を有する。また、そのバス1014に対し、例えばI/Oインタフェース1010経由で、CDやDVDなどの可搬型ディスク記録媒体に対する読み取り及び/又は書き込みのためのディスクドライブ1016、フラッシュメモリなどの各種規格の可搬型の不揮発性記録媒体に対する読み取り及び/又は書き込みのためのメモリリーダライタ1018、などが接続されてもよい。上に例示した各機能モジュールの処理内容が記述されたプログラムがCDやDVD等の記録媒体を経由して、又はネットワーク等の通信手段経由で、ハードディスクドライブ等の固定記憶装置に保存され、コンピュータにインストールされる。固定記憶装置に記憶されたプログラムがRAM1002に読み出されCPU1000等のマイクロプロセッサにより実行されることにより、上に例示した機能モジュール群が実現される。なお、それら機能モジュール群のうちの一部又は全部を、専用LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit、特定用途向け集積回路)又はFPGA(Field Programmable Gate Array)等のハードウエア回路として構成してもよい。
なお、図1及び図2に示したシステム構成はあくまで一例に過ぎない。例えば、図1に例示した各システム10〜50のうちの2以上が1つのハードウエア装置上に実装されていてもよい。また、個々のシステム10〜50においても、そのシステム内の構成要素がそれぞれ別々のハードウエア装置に実装され、ネットワークを介して相互に通信を行いながら、上述の処理を実現してもよい。
実施形態のシステム構成の一例を示す図である。 文書登録・更新システムの内部構成の一例を示す図である。 文書登録・更新システムの全体的な処理手順の一例を示すフローチャートである。 画像検索処理の手順の一例を示すフローチャートである。 分割管理テーブルのデータ内容の一例を示す図である。 画像検索処理によるスキャン画像データの分割の具体例を説明するための図である。 類似判定処理の手順の一例を示すフローチャートである。 類似ページ管理テーブルのデータ内容の一例を示す図である。 画像更新/追加処理の手順の一例を示すフローチャートである。 ページ追加の具体例を示す図である。 ページの変更及び追加の両方を含んだ具体例を示す図である。 コンピュータのハードウエア構成の一例を示す図である。
符号の説明
10 文書登録・更新システム、20 文書管理システム、30 複合機、40 画像検索システム、50 類似度判定システム。

Claims (5)

  1. 原稿読取装置により読み取られた原稿の各ページの読取画像に基づき、記憶装置に記憶された電子文書の中から当該原稿に対応する対応電子文書を特定する特定手段と、
    前記原稿の各ページについて、当該ページの読取画像に対して所定のしきい値以上の類似度を持つ対応画像を、前記対応電子文書の各ページの画像の中から探索する探索手段と、
    前記原稿の各ページの読取画像のうち前記探索手段により前記対応画像が見つからなかった読取画像を前記記憶手段内の前記対応電子文書に追加する手段であって、前記原稿中での当該読取画像のページと前記対応画像が見つかったページとの順序関係により特定されるページ位置に当該読取画像を追加する追加手段と、
    を備え、
    前記特定手段は、前記原稿の先頭ページの画像を前記記憶装置に記憶された各電子文書の先頭ページの画像と比較することにより、前記対応電子文書を特定し、
    前記追加手段は、
    前記探索手段の探索により、前記対応電子文書の先頭ページ以外の第1のページを前記対応画像とするページが前記原稿から見つかり、前記原稿の中の、当該見つかったページの直前及び直後のうちあらかじめ定めた一方に、前記対応画像が見つからなかったページが存在する場合、当該対応画像が見つからなかったページの読取画像を、前記対応電子文書の中の前記第1のページの直前及び直後のうち前記あらかじめ定めた一方に挿入し、
    前記探索手段の探索により、前記読み取られた原稿の先頭ページが前記対応電子文書の先頭ページに対応することが分かり、かつ、当該原稿の前記先頭ページ以外のページについてはいずれも前記対応画像が見つからなかった場合、前記追加手段は、前記先頭ページ以外の各ページの読取画像を、前記対応電子文書の末尾ページの後ろに追加する、
    ことを特徴とする情報処理装置。
  2. 複数の原稿からなる原稿束が前記原稿読取装置により読み取られた場合に、前記原稿読取装置から受信した各ページの読取画像の中から所定の区切り画像又は前記記憶装置に記憶された各電子文書の代表ページの画像を探索し、探索された区切り画像又は代表ページの画像により前記原稿読取手段が出力した各ページの読取画像を原稿単位に分割する分割手段、を更に備え、
    前記特定手段は前記分割手段が原稿単位に分割した読取画像に基づき、当該原稿に対応する対応電子文書を特定する、ことを特徴とする請求項1記載の情報処理装置。
  3. 前記原稿の各ページの読取画像のうち前記探索手段により前記対応画像が見つかった読取画像について、当該読取画像と前記対応画像との類似度が前記しきい値以上であって、かつ、所定の第2のしきい値以下の場合は、前記記憶手段内の前記対応電子文書における前記対応画像を当該読取画像に差し替える差替手段、
    を更に備える請求項1〜2のいずれか1項に記載の情報処理装置。
  4. 原稿を読み取る原稿読取装置と、
    1以上のページの画像を含む1以上の電子文書を記憶する記憶装置と、
    前記原稿読取装置により読み取られた原稿の各ページの読取画像に基づき、前記記憶装置に記憶された電子文書の中から当該原稿に対応する対応電子文書を特定する特定手段と、
    前記原稿の各ページについて、当該ページの読取画像に対して所定のしきい値以上の類似度を持つ対応画像を、前記対応電子文書の各ページの画像の中から探索する探索手段と、
    前記原稿の各ページの読取画像のうち前記探索手段により前記対応画像が見つからなかった読取画像を前記記憶手段内の前記対応電子文書に追加する手段であって、前記原稿中での当該読取画像のページと前記対応画像が見つかったページとの順序関係により特定されるページ位置に当該読取画像を追加する追加手段と、
    を有する情報処理装置と、
    を含み、
    前記特定手段は、前記原稿の先頭ページの画像を前記記憶装置に記憶された各電子文書の先頭ページの画像と比較することにより、前記対応電子文書を特定し、
    前記追加手段は、
    前記探索手段の探索により、前記対応電子文書の先頭ページ以外の第1のページを前記対応画像とするページが前記原稿から見つかり、前記原稿の中の、当該見つかったページの直前及び直後のうちあらかじめ定めた一方に、前記対応画像が見つからなかったページが存在する場合、当該対応画像が見つからなかったページの読取画像を、前記対応電子文書の中の前記第1のページの直前及び直後のうち前記あらかじめ定めた一方に挿入し、
    前記探索手段の探索により、前記読み取られた原稿の先頭ページが前記対応電子文書の先頭ページに対応することが分かり、かつ、当該原稿の前記先頭ページ以外のページについてはいずれも前記対応画像が見つからなかった場合、前記追加手段は、前記先頭ページ以外の各ページの読取画像を、前記対応電子文書の末尾ページの後ろに追加する、
    ことを特徴とする情報処理システム。
  5. コンピュータを、
    原稿読取装置により読み取られた原稿の各ページの読取画像に基づき、記憶装置に記憶された電子文書の中から当該原稿に対応する対応電子文書を特定する特定手段、
    前記原稿の各ページについて、当該ページの読取画像に対して所定のしきい値以上の類似度を持つ対応画像を、前記対応電子文書の各ページの画像の中から探索する探索手段、
    前記原稿の各ページの読取画像のうち前記探索手段により前記対応画像が見つからなかった読取画像を前記記憶手段内の前記対応電子文書に追加する手段であって、前記原稿中での当該読取画像のページと前記対応画像が見つかったページとの順序関係により特定されるページ位置に当該読取画像を追加する追加手段、
    として機能させるためのプログラムであって
    前記特定手段は、前記原稿の先頭ページの画像を前記記憶装置に記憶された各電子文書の先頭ページの画像と比較することにより、前記対応電子文書を特定し、
    前記追加手段は、
    前記探索手段の探索により、前記対応電子文書の先頭ページ以外の第1のページを前記対応画像とするページが前記原稿から見つかり、前記原稿の中の、当該見つかったページの直前及び直後のうちあらかじめ定めた一方に、前記対応画像が見つからなかったページが存在する場合、当該対応画像が見つからなかったページの読取画像を、前記対応電子文書の中の前記第1のページの直前及び直後のうち前記あらかじめ定めた一方に挿入し、
    前記探索手段の探索により、前記読み取られた原稿の先頭ページが前記対応電子文書の先頭ページに対応することが分かり、かつ、当該原稿の前記先頭ページ以外のページについてはいずれも前記対応画像が見つからなかった場合、前記追加手段は、前記先頭ページ以外の各ページの読取画像を、前記対応電子文書の末尾ページの後ろに追加する、
    ことを特徴とするプログラム。
JP2008040559A 2008-02-21 2008-02-21 情報処理装置、情報処理システム及びプログラム Expired - Fee Related JP5251161B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008040559A JP5251161B2 (ja) 2008-02-21 2008-02-21 情報処理装置、情報処理システム及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008040559A JP5251161B2 (ja) 2008-02-21 2008-02-21 情報処理装置、情報処理システム及びプログラム

Publications (2)

Publication Number Publication Date
JP2009199357A JP2009199357A (ja) 2009-09-03
JP5251161B2 true JP5251161B2 (ja) 2013-07-31

Family

ID=41142781

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008040559A Expired - Fee Related JP5251161B2 (ja) 2008-02-21 2008-02-21 情報処理装置、情報処理システム及びプログラム

Country Status (1)

Country Link
JP (1) JP5251161B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014199507A (ja) 2013-03-29 2014-10-23 ブラザー工業株式会社 画像処理装置およびコンピュータプログラム
KR101991088B1 (ko) * 2017-08-02 2019-06-19 이세희 비 전자 기록물의 넘버링을 자동화 한 기록물의 자동 디지털화 장치 및 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031181A (ja) * 2004-07-13 2006-02-02 Canon Inc 画像検索装置、方法、記憶媒体及びプログラム
JP2007036406A (ja) * 2005-07-25 2007-02-08 Konica Minolta Business Technologies Inc 画像編集装置

Also Published As

Publication number Publication date
JP2009199357A (ja) 2009-09-03

Similar Documents

Publication Publication Date Title
EP1480440B1 (en) Image processing apparatus, control method therefor, and program
US20100088594A1 (en) Thumbnail display method and image forming apparatus
US7978362B2 (en) Image forming apparatus for printing image data in removable storage
US8045228B2 (en) Image processing apparatus
JP2007034847A (ja) 検索装置及び検索方法
US8203734B2 (en) Image formation using a portable storage medium
US11025788B2 (en) Image processing apparatus, method for controlling the same, and storage medium
US20090067717A1 (en) Document-image-data providing system, document-image-data providing device, information processing device, document-image-data providing method, information processing method, document-image-data providing program, and information processing program
US20080079999A1 (en) Image forming apparatus
US20090150359A1 (en) Document processing apparatus and search method
AU2009212993B2 (en) Document processing system, search apparatus, information searching method, document processing method and program
US9898236B2 (en) Image processing apparatus and program for printing template images using keyword data
US20140168684A1 (en) Imaging forming apparatus and method
JP2005210563A (ja) 文書処理装置
JP2009094598A (ja) 文書管理装置、文書管理プログラム、しおり画像付原稿生成装置、しおり画像付原稿生成プログラム
CN111580758B (zh) 图像形成装置
JP5251161B2 (ja) 情報処理装置、情報処理システム及びプログラム
US8451461B2 (en) Information processor, information processing system, and computer readable medium
US20090074294A1 (en) Document-image-data providing system, document-image-data providing device, information processing device, document-image-data providing method, information processing method, document-image-data providing program, and information processing program
JP2009094596A (ja) 文書管理装置、文書管理プログラム、しおり画像付原稿生成装置、しおり画像付原稿生成プログラム
JP4765593B2 (ja) 画像形成装置及び画像形成処理プログラム並びに画像形成処理方法
JP4827519B2 (ja) 画像処理装置、画像処理方法、およびプログラム
JP4455358B2 (ja) 画像処理装置およびその方法
CN102257802A (zh) 图像形成设备、图像形成设备的控制方法和存储介质
JP7314627B2 (ja) 制御装置、画像形成装置、制御方法および制御プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121011

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121016

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121211

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130108

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130131

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130319

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130401

R150 Certificate of patent or registration of utility model

Ref document number: 5251161

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160426

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees