JP2001256256A - 電子文書検索装置および電子文書検索方法 - Google Patents

電子文書検索装置および電子文書検索方法

Info

Publication number
JP2001256256A
JP2001256256A JP2000070760A JP2000070760A JP2001256256A JP 2001256256 A JP2001256256 A JP 2001256256A JP 2000070760 A JP2000070760 A JP 2000070760A JP 2000070760 A JP2000070760 A JP 2000070760A JP 2001256256 A JP2001256256 A JP 2001256256A
Authority
JP
Japan
Prior art keywords
electronic document
data
raster image
image
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000070760A
Other languages
English (en)
Inventor
Shinichi Yada
伸一 矢田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2000070760A priority Critical patent/JP2001256256A/ja
Publication of JP2001256256A publication Critical patent/JP2001256256A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】 電子文書データが紙文書として出力された場
合や閲覧表示に特化した形態のデータに変換された場合
であっても、その元となる電子文書データの検索を可能
にする。 【解決手段】 電子文書データをラスター画像データに
展開する画像作成手段13と、展開したラスター画像デ
ータの特徴量を抽出する第一の特徴量抽出手段15と、
これとは別にラスター画像データを取得する画像取得手
段18と、取得したラスター画像データの特徴量を抽出
する第二の特徴量抽出手段20と、それぞれの特徴量の
類似性を判断する類似検索手段21と、その判断結果か
ら電子文書データを検索する画像特定手段22とを備え
て、電子文書検索装置1を構成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、コンピュータ装置
にて扱われる電子文書データを検索するために用いられ
る電子文書検索装置および電子文書検索方法に関するも
のである。
【0002】
【従来の技術】近年、パーソナルコンピュータ(以下
「PC」と略称する)の普及に伴い、文書の作成は、P
C上のアプリケーションソフト(例えば、文書作成ソフ
ト)を用いて行われるのが一般的となっている。具体的
には、各種書類等の文書をPCの画面上で作成し、さら
にそのPC上で文書の編集、複写、再構成、検索等をす
るといったことが広く行われている。
【0003】また、最近では、ネットワーク技術の発展
と普及により、PC内にて作成された電子的な文書デー
タ(以下「電子文書データ」という)を、プリンタ装置
等を用いて紙文書として出力しなくても、電子メール等
を利用して他のPC等へ送信して個人宛てに配布する、
といったことも可能となっており、ペーパーレス化した
文書作成環境が益々進みつつある。
【0004】これに伴い、電子文書データの中には、電
子メール等を利用した配布に適するように、閲覧表示す
ることに特化した、修正、再利用が不可能な形態のデー
タに変換されたものも提案されており、電子文書データ
の利点の一つを伸ばすものとして注目されている。この
ような閲覧表示に特化した電子文書データとしては、例
えば米国アドビ(Adobe)社が発表したファイルフォー
マットであるPDF(Portable Document Format)によ
るものが知られている。
【0005】このようなペーパーレス化を実現する電子
文書データは、コンピュータによって体系的に管理する
ことが容易であるという特性を持っているので、その特
性を利用することによって文書管理システムを構築する
ことが可能となる。文書管理システムとは、特定のPC
上に構築されたり、ネットワーク上で複数のユーザが共
有するファイルサーバを利用して構築されるもので、電
子文書データをデータベース化して管理することで文書
の分類作業や検索作業等の容易化を図るものである。す
なわち、電子文書データをPCのハードディスクやネッ
トワーク上のファイルサーバ等にその文書内容をある程
度識別できるようなファイル名を付けて保管蓄積するこ
とで、文書の作成者は、後日、その文書を利用して新し
い文書を作成したいときや文書内容を修正したいとき等
に、その電子文書データを読み出して目的の作業を行う
ことができるようになる。特に、ファイルサーバを利用
した場合には、文書の共有化による効率的な情報量削減
が達成でき、しかも文書間の関連付けが可能となるとい
ったように、電子文書データを利用することの利点が非
常に大きいものとなる。
【0006】その一方で、紙に文書を出力した紙文書に
は、電子文書データと比較して、読みやすさ、扱いやす
さ、持ち運びの利便性、直感的な分かり易さ等の大きな
利点がある。そのため、電子文書データを作成しても、
プリンタ装置等を用いて紙文書を出力してその紙文書を
利用するほうが、結果として効率的な場合も多い。例え
ば、会議の配布資料等については、電子文書データその
ものの配布が利便性等の点で非現実的であることから、
アプリケーションソフトを用いてPC上で原稿を作成
し、その後プリンタ装置で必要部数を印刷して紙原稿と
して配布したほうが効率的である。
【0007】
【発明が解決しようとする課題】ところが、電子文書デ
ータをプリンタ装置等により一旦紙文書として出力する
と、電子文書データの持つ再利用性、検索や分類の容易
性等といった利便性が失われてしまうおそれがある。例
えば、会議で紙文書を受け取った者が、その紙文書の記
載内容を再利用して新たな文書を作成することは、非常
に困難である。かかる場合には、紙文書の内容をキーボ
ード等からPCに再入力しなければならず、多大な労力
を必要としてしまう。また、OCR(Optical Characte
r Reader)等による周知の文字認識技術を利用しつつ、
紙文書に記載された文字を読み取って電子文書データ化
することも考えられるが、文字認識に必要な機器が高価
であり、さらにはその読み取り精度が必ずしも十分でな
いという難点がある。したがって、電子文書データを紙
文書として出力した場合には、文書の管理および再利用
において、効率の低下や利便性の悪化を招いてしまう。
【0008】このような問題に対しては、紙文書(配布
文書)に予め元の電子文書データの保管蓄積場所を明記
したり、あるいは元の電子文書データの保管蓄積場所を
示す情報を暗号化して文書に埋め込んだりすることで、
その解決を図ることが提案されている。例えば、特開平
10−143414号公報には、原稿を印刷する際に元
の電子文書データの格納場所、文書番号、バージョン情
報、総ページ数等の文書管理情報をバーコードのような
形態で追加印刷しておき、追加印刷されたバーコード等
を読み取ることで元の電子文書データの取得を可能にす
ることが開示されている。また、例えば、特開平11−
88659号公報には、印刷出力された紙文書上に、目
視できない態様(暗号化態様)で付加情報を埋め込んで
おき、その付加情報によって元の電子文書データの格納
場所等を明らかにすることが開示されている。
【0009】しかしながら、上述した特開平10−14
3414号公報および特開平11−88659号公報に
開示されたいずれの技術においても、元の電子文書デー
タの取得できるのは、紙文書に文書管理情報が出力され
ている場合に限られる。つまり、紙文書に文書管理情報
が出力されていない場合や、文書管理情報が出力されて
いてもこれを読み取ることができない場合には、元の電
子文書データを取得することができない。
【0010】また、電子文書データを紙文書として出力
した場合には、当該文書の作成者であっても、複数ペー
ジからなる紙文書の中の1ページ分から、元の電子文書
データがどこに保管されているかを検索することは容易
でない。しかも、文書を作成してから時間が経過した
り、保管場所を忘れてしまったりした場合についても同
様に、元の電子文書データの検索が困難になる可能性が
高い。
【0011】さらに、電子文書データを紙文書として出
力しない場合であっても、閲覧表示に特化した電子文書
データについては、同様の問題が生じてしまうおそれが
ある。すなわち、閲覧表示に特化した電子文書データ
は、電子文書データでありながら、修正、再利用が不可
能な形態のデータに変換されているので、再利用性とい
う利便性が失われている。したがって、再利用に関して
は、紙文書の再利用と同等の難点や問題点が生じてしま
うのである。
【0012】そこで、本発明は、電子文書データが紙文
書として出力された場合や閲覧表示に特化した形態のデ
ータに変換された場合であっても、その元となる電子文
書データの検索を可能にし、その電子文書データの持つ
再利用性、検索や分類の容易性等といった利便性を確保
することのできる、電子文書検索装置および電子文書検
索方法を提供することを目的とする。
【0013】
【課題を解決するための手段】本発明は上記目的を達成
するために案出された電子文書検索装置で、所定の記憶
領域に記憶蓄積されている電子文書データをラスター画
像データに展開する画像作成手段と、前記画像作成手段
が展開したラスター画像データの特徴量を抽出する第一
の特徴量抽出手段と、前記電子文書データと前記画像作
成手段が展開したラスター画像データと前記第一の特徴
量抽出手段が抽出した特徴量との関連性についての情報
を保持する関連性保持手段と、前記画像作成手段とは別
にラスター画像データを取得する画像取得手段と、前記
画像取得手段が取得したラスター画像データの特徴量を
抽出する第二の特徴量抽出手段と、前記第一の特徴量抽
出手段が抽出した特徴量と前記第二の特徴量抽出手段が
抽出した特徴量との類似性を判断する類似検索手段と、
前記類似検索手段による判断結果と前記関連性保持手段
による保持内容とに基づいて前記画像取得手段が取得し
たラスター画像データに対応する電子文書データを特定
する画像特定手段とを備えることを特徴とするものであ
る。
【0014】また、本発明は上記目的を達成するために
案出された電子文書検索方法で、所定の記憶領域に記憶
蓄積されている電子文書データをラスター画像データに
展開する画像作成工程と、前記画像作成工程にて展開し
たラスター画像データの特徴量を抽出する第一の特徴量
抽出工程と、前記電子文書データと前記画像作成工程に
て展開したラスター画像データと前記第一の特徴量抽出
工程にて抽出した特徴量との関連性についての情報を保
持する関連性保持工程と、前記画像作成工程とは別にラ
スター画像データを取得する画像取得工程と、前記画像
取得工程が取得したラスター画像データの特徴量を抽出
する第二の特徴量抽出工程と、前記第一の特徴量抽出工
程にて抽出した特徴量と前記第二の特徴量抽出工程にて
抽出した特徴量との類似性を判断する類似検索工程と、
前記類似検索工程での判断結果と前記関連性保持工程で
の保持内容とに基づいて前記画像取得工程にて取得した
ラスター画像データに対応する電子文書データを特定す
る画像特定工程とを備えることを特徴とする方法であ
る。
【0015】上記構成の電子文書検索装置および上記手
順の電子文書検索方法によれば、所定の記憶領域に記憶
蓄積されている電子文書データについては、ラスター画
像データに展開してその特徴量を抽出し、その電子文書
データとラスター画像データと特徴量との関連性につい
ての情報を保持しておく。一方、例えば、画像が描かれ
た原稿(紙文書)からラスター画像データを読み取った
り、あるいは閲覧表示に特化した形態の電子データを取
得してこれをラスター画像データに展開したりすること
で、既に展開したラスター画像データとは別にラスター
画像データを取得すると、その取得したラスター画像デ
ータの特徴量を抽出する。このとき、所定の記憶領域に
記憶蓄積されている電子文書データは、取得したラスタ
ー画像データと同一形式のラスター画像データを展開さ
れているので、それぞれの特徴量の類似性を判断するこ
とが可能となる。したがって、それぞれの特徴量の類似
性を判断結果から類似性の高いものを特定し、さらには
既に保持している関連性についての情報を参照すれば、
取得したラスター画像データに対応する電子文書データ
が検索されることになる。
【0016】
【発明の実施の形態】以下、図面に基づき本発明に係る
電子文書検索装置および電子文書検索方法について説明
する。なお、ここでは、PC上で稼動するワードプロセ
ッサ(文書作成)ソフト、表計算(計算、表/グラフ作
成)ソフト、プレゼンテーション(資料作成)ソフト、
描画(図形作成)ソフト、CAD(図面作成)ソフト等
のアプリケーションソフトで作成された電子文書データ
ファイルや画像データファイルを、総称して電子文書デ
ータと称するものとする。
【0017】〔第1の実施の形態〕本実施形態では、請
求項1,2,5〜12に記載の発明に係る電子文書検索
装置および請求項13および14に記載の発明に係る電
子文書検索方法について説明する。
【0018】先ず、本実施形態における電子文書検索装
置の概略構成について説明する。図1は、本発明に係る
電子文書検索装置の第1の実施の形態における概略構成
例を示すブロック図である。
【0019】図例のように、本実施形態の電子文書検索
装置1は、複数のPC2およびファイルサーバー3とL
AN(Local Area Network)等のネットワーク4を介し
て接続されて用いられ、これらと共に文書管理システム
を構築するものである。
【0020】各PC2は、アプリケーションソフトで電
子文書データを作成したり、その電子文書データをHD
D(Hard Disk Drive)等の記憶装置内に保管蓄積した
りするものである。また、ファイルサーバー3は、ネッ
トワーク4上の各PC2が共有するもので、電子文書デ
ータを保管蓄積するものである。なお、電子文書データ
は、PC2とファイルサーバー3とのどちらに保管蓄積
するようにしても、あるいは両方に保管蓄積するように
してもよい。
【0021】これらPC2およびファイルサーバー3と
共に文書管理システムを構築する電子文書検索装置1
は、紙文書として印刷出力された原稿から、その印刷時
に元となった電子文書データを検索し、ユーザに当該原
稿の元となった電子文書データを提供するものである。
【0022】そのために、電子文書検索装置1は、ネッ
トワークインターフェース部11と、文書データ保持部
12と、ラスター画像作成部13と、第一ラスター画像
保持部14と、第一特徴量抽出部15と、特徴量蓄積部
16と、関連データ蓄積部17と、画像入力部18と、
第二ラスター画像保持部19と、第二特徴量抽出部20
と、類似画像検索部21と、検索結果出力部22と、を
備えて構成されている。
【0023】ネットワークインターフェース部11は、
ネットワーク4を通じてそのネットワーク4上の各PC
2またはファイルサーバー3との通信を行うためのもの
である。
【0024】文書データ保持部12は、バッファメモリ
などのデータ蓄積手段を持ち、そのデータ蓄積手段にネ
ットワークインターフェース部11を介して受け取った
電子文書データを一時的に蓄積するものである。
【0025】ラスター画像作成部13は、文書データ保
持部12が蓄積した電子文書データをラスター画像デー
タ(ビットマップデータ)に展開するものであり、さら
にはそのときのラスター画像データの解像度を決定する
ものである。つまり、ラスター画像作成部13は、本発
明における画像作成手段および解像度決定手段として機
能するものである。
【0026】第一ラスター画像保持部14は、ラスター
画像作成部13が展開したラスター画像データを蓄積す
るものである。なお、第一ラスター画像保持部14で
は、複数のラスター画像データを蓄積し得るようになっ
ている。また、そのために、第一ラスター画像保持部1
4では、各ラスター画像データを識別するために、各ラ
スター画像データに独自の(唯一無二の)インデックス
名を付すようになっている。
【0027】第一特徴量抽出部15は、第一ラスター画
像保持部14が蓄積したラスター画像データからその画
像特徴量を抽出するものである。つまり、第一特徴量抽
出部15は、本発明における第一の特徴量抽出手段とし
て機能するものである。画像特徴量とは、画像全体の色
調、縦横比、輝度や色の分布状態、エッジの分布状態、
平坦なエリアの分布状態等、その画像の物理的な特徴量
のことであり、数値として求まる量のことをいう。第一
特徴量抽出部15では、ラスター画像データから複数種
類の特徴量を抽出するが、ここではこれら複数の特徴量
をまとめて画像特徴量と呼ぶものとする。
【0028】特徴量蓄積部16は、第一特徴量抽出部1
5が抽出した画像特徴量(数値データ)を蓄積しておく
ものである。ただし、特徴量蓄積部16では、複数のラ
スター画像データに対応した画像特徴量を蓄積し得るよ
うになっている。
【0029】関連データ蓄積部17は、文書データ保持
部12が受け取った電子文書データ、ラスター画像作成
部13が展開し第一ラスター画像保持部14が蓄積して
いるラスター画像データ、および第一特徴量抽出部15
が抽出し特徴量蓄積部16が蓄積している画像特徴量の
間の関連性についての情報を、記録保持しておくもので
ある。具体的には、例えば、電子文書データのファイル
名とその保管蓄積場所や、ラスター画像データのインデ
ックス名等を、互いに関連付けて記録保持するようにな
っている。つまり、関連データ蓄積部17は、本発明に
おける関連性保持手段として機能するものである。
【0030】画像入力部18は、例えばスキャナ装置か
らなるもので、紙文書として印刷出力された原稿に描か
れた画像を光学的に読み取って、その原稿からラスター
画像データを取得するものである。つまり、画像入力部
18は、本発明における画像取得手段として機能するも
のである。ただし、画像入力部18は、電子文書検索装
置1内に設けられたものではなく、ネットワーク4を介
して電子文書検索装置1と接続するものであってもよ
い。
【0031】第二ラスター画像保持部19は、画像入力
部18が取得したラスター画像データを保持するもので
ある。
【0032】第二特徴量抽出部20は、第一特徴量抽出
部15と同様にして、第二ラスター画像保持部19が保
持したラスター画像データからその画像特徴量を抽出す
るものである。つまり、第二特徴量抽出部20は、本発
明における第二の特徴量抽出手段として機能するもので
ある。第二特徴量抽出部20が抽出する画像特徴量は、
後述する処理動作において検索キーとして用いられるも
のである。そこで、以下、この第二特徴量抽出部20に
よる画像特徴量を「キー特徴量」と呼ぶものとする。
【0033】類似画像検索部21は、特徴量蓄積部16
が蓄積している画像特徴量群の中から、第二特徴量抽出
部20が抽出したキー特徴量と類似した特徴量を持つラ
スター画像データを検索するものである。すなわち、類
似画像検索部21は、第一特徴量抽出部15が抽出した
画像特徴量と第二特徴量抽出部20が抽出したキー特徴
量との類似性を判断するものであり、本発明における類
似検索手段として機能するものである。
【0034】検索結果出力部22は、類似画像検索部2
1による類似性の判断結果と、関連データ蓄積部17が
記録保持している情報群とに基づいて、画像入力部18
が取得したラスター画像データに対応する電子文書デー
タを特定し、その特定の結果を電子文書データについて
の検索結果として出力するものである。つまり、検索結
果出力部22は、本発明における画像特定手段として機
能するものである。
【0035】なお、上述した各部のうち、画像入力部1
8以外の各部は、例えば、所定プログラムを実行するC
PU(Central Processing Unit)、メモリとして機能す
るRAM(Random Access Memory)やHDD、CRT
(Cathode Ray Tube)等のディスプレイといった、一般
的なコンピュータ資源を用いて構成すればよい。
【0036】次に、以上のように構成された電子文書検
索装置1における処理動作例、すなわち本実施形態にお
ける電子文書検索方法について説明する。図2は画像特
徴量の抽出の一例を示す概念図であり、図3は電子文書
データとラスター画像データと画像特徴量との関連性に
ついての情報の具体例を示す概念図であり、図4は本発
明に係る電子文書検索方法の第1の実施の形態における
概略手順を示すフローチャートであり、図5は電子文書
データの検索結果の表示出力例を示す概念図である。
【0037】電子文書検索装置1では、電子文書データ
についての検索処理を行うのにあたって、PC2または
ファイルサーバー3に保管蓄積されている電子文書デー
タから予め特徴量を抽出する処理が必要である。先ず、
このプロセス処理を説明する。なお、このプロセス処理
は、後述するように、自動的にある一定時間をおいて実
行される。
【0038】電子文書検索装置1は、ネットワークイン
ターフェース部11を介してPC2のHDDまたはファ
イルサーバー3に保管蓄積されている電子文書データを
取得し、その電子文書データを文書データ保持部12に
蓄積する。すなわち、電子文書検索装置1は、PC2ま
たはファイルサーバー3に保管蓄積されている電子文書
データを文書データ保持部12内にコピーする。
【0039】文書データ保持部12が電子文書データを
蓄積すると、続いて、ラスター画像作成部13は、蓄積
された電子文書データをラスター画像データに展開す
る。なお、電子文書データからラスター画像データへの
展開については、周知技術を利用しているため、ここで
はその説明を省略する。また、ラスター画像データは非
常にデータ量が大きいので、ラスター画像作成部13で
は、多数のファイル(電子文書データ)を同時に処理す
るのではなく、一つの電子文書データ毎に順次ラスター
画像データへの展開を行うものとする。
【0040】ただし、このとき、一つの電子文書データ
が複数のページで構成されていれば、ラスター画像作成
部13は、その電子文書データから各ページ毎に複数の
ラスター画像データを生成する。
【0041】また、ラスター画像作成部13は、展開す
べき電子文書データで使用している色成分の種類数に応
じて、作成するラスター画像データの画素毎のビット数
を決定する。例えば、電子文書データが白黒の2値のみ
を利用した文書を表すものであれば、作成されるラスタ
ー画像データは、画素毎に1bit(1bit/pixel)のビットマ
ップデータとなる。また、電子文書データが写真画像の
ように多数の色成分を使用したものであれば、作成され
るラスター画像データは、画素毎に24bit(24bit/pixel)
のビットマップデータとなる。
【0042】さらに、ラスター画像作成部13は、ラス
ター画像データへの展開を行う際に、そのラスター画像
データの解像度を決定する。具体的には、電子文書デー
タの内部でラスター画像データに展開するときの解像度
が指定されていれば、ラスター画像作成部13は、その
指定された解像度でラスター画像データを生成する。ま
た、電子文書データ内部で解像度が指定されていなけれ
ば、ラスター画像作成部13は、予め設定された解像度
(ディフォルト値)でラスター画像データを作成する。こ
のときの解像度は、小さすぎると(粗すぎると)ラスタ
ー画像データを作成したときに画像が持つ情報が失われ
る可能性があり、また大きすぎると(細かすぎると)扱
う画像のデータ量が膨大になる。そのため、解像度の指
定がなければ、画像が持つ情報も保持され、かつ、扱う
データ量も適当であることから、72〜300dpi
(dot/inch)程度の解像度とすることが好ましい。
【0043】ラスター画像作成部13がラスター画像デ
ータを作成した後には、文書データ保持部12に蓄積さ
れた電子文書データを消去する。この文書データ保持部
12に蓄積されている電子文書データは、ファイルサー
バー3等にある電子文書データのコピーなので、消去し
ても問題はない。このように、ラスター画像データ作成
後にコピーされた電子文書データを消去することで、電
子文書データ保持部12の蓄積容量を少ない容量で実現
可能としている。
【0044】ラスター画像作成部13がラスター画像デ
ータを作成すると、続いて、第一ラスター画像保持部1
4は、ラスター画像作成部13によって作成されたラス
ター画像データを蓄積する。このとき、ラスター画像デ
ータには、そのラスター画像データを他のラスター画像
データと識別できるよう、独自のインデックス名が付与
される。
【0045】第一ラスター画像保持部14がラスター画
像データを蓄積すると、続いて、第一特徴量抽出部15
は、第一ラスター画像保持部14に蓄積されているラス
ター画像データからその画像特徴量を抽出する。
【0046】ここで、この第一特徴量抽出部15による
画像特徴量の抽出について簡単に説明する。第一特徴量
抽出部15は、画像特徴量の抽出にあたって、例えば図
2に示すように、抽出元となるラスター画像データを複
数のブロックに分割し、分割されたブロック画像毎に明
度、彩度、色相などの色に関する特徴量や、エッジ量な
どの構造に関する特徴量を抽出する。図例では、ラスタ
ー画像データを5×4の合計20ブロックに分割してい
るので、一つのラスター画像データから明度、彩度、エ
ッジ量の各々の数値が5×4づつ算出され、図2に記載
したようなマトリックス状に表現することができる。な
お、これら個々の特徴量の抽出は、既存の手法を利用し
て行えばよい。
【0047】このようにして第一特徴量抽出部15が画
像特徴量を抽出すると、続いて、特徴量蓄積部16は、
その画像特徴量の数値データをラスター画像データ毎に
蓄積する。すなわち、特徴量蓄積部16では、第一ラス
ター画像保持部14が複数のラスター画像データを蓄積
するのに対応して、複数のラスター画像データの画像特
徴量をそれぞれ蓄積することが可能となっている。
【0048】一方で、関連データ蓄積部17は、第一ラ
スター画像保持部14が蓄積するラスター画像データに
ついて、その元となった電子文書データと抽出された画
像特徴量との関連性についての情報を、関連データとし
て記録保持する。
【0049】ここで、この関連データ蓄積部17が記録
保持する関連データについて簡単に説明する。関連デー
タは、例えば図4に示すように、一つの電子文書データ
で1行分のデータを構成しており、行の先頭から電子文
書データのファイル名、保管蓄積場所(アドレス等)、
ページ数、そして作成されたラスター画像のインデック
ス名がページ数分続くように配置されている。一つの文
書ファイルから複数個のラスター画像が作成されている
が、どのラスター画像が、どの文書ファイルから作成さ
れたのかという関連性が保持されている。
【0050】例えば、図中の1行目のデータは、電子文
書データのファイル名が「Docu1.doc」であり、その電
子文書データの保管蓄積場所は「DB1」というファイ
ルサーバー3であることを示している。次の数字「3」
は電子文書データ「Docu1.doc」が3ページで構成され
るものであることを示している。その次に続く3つの文
字列「Docu1_img0」,「Docu1_img1」,「Docu1_i
mg2」は電子文書データ「Docu1.doc」から作成された
ラスター画像データのインデックス名をそれぞれ示して
いる。
【0051】関連データ蓄積部17では、このようにし
て関連データの記録保持を行う。なお、この関連データ
蓄積部17も、第一ラスター画像保持部14および特徴
量蓄積部16と同様に、複数の関連データの記録保持に
対応し得るようになっている。
【0052】以上のような、電子文書データを取得して
ラスター画像データを作成しその画像特徴量を抽出する
プロセス処理は、自動的にある一定時間をおいて実行さ
れる。ただし、一定時間をおいた後に再び実行する際に
は、新たにファイルサーバー3等に保管蓄積された電子
文書データおよび前回のプロセス処理実行時の後に変更
が加えられた電子文書データのみに対して行う。このこ
とにより、プロセス処理を実行する際の処理するデータ
量の削減をはかり、高速処理を可能としている。
【0053】上述したプロセス処理が行われた後に、電
子文書検索装置1では、電子文書データについての検索
処理を行い得るようになる。次いで、この検索処理を行
うプロセスについて説明する。
【0054】電子文書データについての検索処理を行う
のにあたっては、先ず、図4に示すように、元の電子文
書データを検索したい紙原稿を、電子文書検索装置1の
ユーザが画像入力部18にセットし、その画像入力部1
8のスタートボタンを押下する(ステップ101、以下
ステップを「S」と略す)。これにより、電子文書デー
タの検索処理が開始される。
【0055】スタートボタンが押下されると、画像入力
部18は、原稿に描かれた画像の読み込みを開始する。
ただし、このとき、画像入力部18に自動紙送り機構が
設けられていれば、原稿がセットされると自動的に画像
読み込み動作を開始するような構成にすることも考えら
れる。
【0056】画像入力部18が画像読み込み動作によっ
て原稿からラスター画像データを取得すると、そのラス
ター画像データの第二ラスター画像保持部19での保持
を経た後に、第二特徴量抽出部20は、第二ラスター画
像保持部19に保持されているラスター画像データから
キー特徴量の抽出を行う(S102)。抽出するキー特
徴量は、第一特徴量抽出部15が抽出した画像特徴量と
同様のものである。
【0057】そして、第二特徴量抽出部20がキー特徴
量を抽出すると、類似画像検索部21は、そのキー特徴
量と特徴量蓄積部16が蓄積している画像特徴量群との
間の類似度を算出する(S103)。
【0058】類似度の算出は、既存の類似画像検索で用
いられる手法を利用すればよい。例えば、キー特徴量や
各々のラスター画像データの画像特徴量をベクトルとし
て捉えて、キー特徴量ベクトルと各々のラスター画像デ
ータの特徴量ベクトルとの距離を算出して、これを特徴
量における類似度とし、そしてキー特徴量ベクトルと最
も近い特徴量ベクトルをキー特徴量に最も類似した画像
特徴量と判断すればよい。さらに具体的には、例えば特
開平11−53541号公報に開示されているようにベ
クトル量を用いて類似度を判断したり、特開平11−1
10556号公報に開示されているようにヒストグラム
を用いて類似度を判断することが考えられる。
【0059】このようにして類似度を算出すると、類似
画像検索部21は、その算出結果を基に、類似度の高い
順に数個のラスター画像データをピックアップする(S
104)。このピックアップする個数は、予め定められ
ており、例えば5〜10件程度が適当である。
【0060】そして、類似画像検索部21では、ピック
アップした中で最も類似度の高いものについて、その類
似度の算出結果が予め定められた基準値以下であるか否
かを判断する(S105)。この判断の結果、類似度の
算出結果が基準値以下でなければ、類似画像検索部21
は、ピックアップした各ラスター画像データのインデッ
クス名を、キー特徴量に類似した特徴量を持つラスター
画像データの検索結果として、検索結果出力部22へ出
力する。また、類似度の算出結果が基準値以下であれ
ば、類似画像検索部21は、該当する文書がない可能性
があると認識して、「該当電子文書データなし」という
旨のメッセージを検索結果出力部22へ出力する。
【0061】類似画像検索部21からラスター画像デー
タのインデックス名が送られてきた場合に、検索結果出
力部22は、そのインデックス名と、関連データ蓄積部
17に記録保持された関連データとから、インデックス
名が付されたラスター画像データの元となった電子文書
データのファイル名と保管蓄積場所について情報を取得
する。つまり、検索結果出力部22は、キー特徴量から
ラスター画像データが検索されると、その検索結果と関
連データとを参照しつつ電子文書データを特定すること
ができる。しかも、このとき、検索結果出力部22は、
画像入力部18が取得したラスター画像データが1ペー
ジ分のみであっても、結果として全ページ分の電子文書
データを特定することができる。
【0062】電子文書データを特定すると、続いて、検
索結果出力部22は、例えば図5に示すように、その旨
および特定した電子文書データのファイル名と保管蓄積
場所に関する情報を、電子文書検索装置1のユーザに対
してディスプレイ表示する(S106)。このとき、検
索結果出力部22は、類似画像検索部21がピックアッ
プしたラスター画像データに対応する全ての電子文書デ
ータについてその情報を表示しても、あるいは最も類似
度の高いラスター画像データに対応する電子文書データ
のみについてその情報を表示してもよい。
【0063】検索結果出力部22によって該当文書が存
在する旨のディスプレイ表示がなされた場合には、電子
文書検索装置1のユーザは、ディスプレイ上でその文書
の送付先を指定することができる(S107)。送付先
としては、例えば電子メールのアドレス等を指定する。
このとき、頻繁に利用する電子メールのアドレスは、予
め登録しておき、番号等の記―ワードで呼び出せるよう
にしておくとよい。
【0064】検索結果出力部22は、送付先に電子メー
ルアドレスが指定されると、そのメールアドレスに該当
電子文書データを添付した電子メールを送付する。メー
ル本文には、該当電子文書データのファイル名とその保
管場所などの情報を記載する。ただし、該当電子文書デ
ータの容量が非常に大きい場合には、その電子文書デー
タを電子メールに添付しないで、ユーザがその文書をダ
ウンロードできるように、該当電子文書データの保管格
納先のリンクアドレスなどをメール本文に記載する。
【0065】また、送付先としては、ネットワーク4上
に接続されたプリンタ装置を指定することも可能であ
る。送付先にプリンタ装置が指定された場合には、検索
結果出力部22は、該当電子文書データがそのプリンタ
装置から出力されるよう印刷指示命令を発行する。
【0066】一方、類似画像検索部21から「該当電子
文書データなし」という旨のメッセージが送られてきた
場合には、検索結果出力部22では、電子文書検索装置
1のユーザに対してその旨、すなわち電子文書データが
見つからなかったというメッセージをディスプレイ表示
する(S109)。
【0067】以上のように、本実施形態における電子文
書検索装置1および電子文書検索方法によれば、請求項
1または請求項13に記載の発明の如く、ラスター画像
データという同一形式のデータへの変換を経た後に、そ
れぞれの類似性を判断し、その類似性が高いものを目的
の電子文書データとして特定するようになっている。し
たがって、検索処理のためにバーコードや暗号等の文書
管理情報を必要とすることなく、精度の高い検索処理の
実現が期待できる。しかも、ラスター画像データ、すな
わちその画像の描画内容を用いて検索処理が行われるこ
とから、どのような形式の文書画像データであっても対
応し得るようになる。
【0068】これらのことから、文書作成者にとって
は、文書を作成してから時間が経過したり、文書画像デ
ータの保管場所を忘れてしまったりした場合であって
も、その電子文書データを容易かつ確実に取得し得るよ
うになる。また、これによって、電子文書データの持つ
再利用性、検索や分類の容易性等といった利便性を確保
することができるようになる。
【0069】また、本実施形態における電子文書検索装
置1および電子文書検索方法では、請求項2または請求
項14に記載の発明の如く、紙文書として出力された原
稿からラスター画像データを取得し、これを基に電子文
書データの検索を行うようになっている。したがって、
電子文書データを紙文書として出力した場合であって
も、その紙文書の元となった電子文書データを検索する
ことができるようになる。つまり、電子文書データを紙
文書として出力した場合の利便性の低下を回避すること
ができる。
【0070】また、本実施形態における電子文書検索装
置1では、請求項5に記載の発明の如く、ラスター画像
作成部13がラスター画像データへの展開を行う際の解
像度を決定するようになっている。したがって、電子文
書データの内部でラスター画像データに展開するときの
解像度が指定されていれば、それを反映することでその
電子文書データに適した解像度のラスター画像データが
得られる。また、解像度の指定がなければ、予め設定さ
れた解像度(ディフォルト値)とすることで、画像が持つ
情報が失われたり、扱う画像のデータ量が膨大になって
しまうのを防ぐことができる。
【0071】また、本実施形態における電子文書検索装
置1では、請求項6に記載の発明の如く、電子文書デー
タが複数のページで構成されている場合に、ラスター画
像作成部13が各ページ毎にラスター画像データへの展
開を行うようになっている。したがって、画像入力部1
8が取得したラスター画像データが1ページ分のみであ
っても、その元となった電子文書データの全ページ分に
ついての検索が行い得るようになる。
【0072】また、本実施形態における電子文書検索装
置1では、請求項7に記載の発明の如く、電子文書デー
タを構成する色成分の種類数に応じて、ラスター画像作
成部13がラスター画像データのデータ量を可変させる
ようになっている。具体的には、例えば、白黒画像につ
いては各画素1bitのビットマップデータに展開し、フル
カラー画像については各画素24bitのビットマップデー
タに展開する。したがって、白黒/フルカラーの双方に
対応しつつ、必要に応じて(例えば白黒画像に対応する
場合)には、ラスター画像データのデータ量を削減する
ことで、メモリ資源の有効活用と処理の迅速化が図れる
ようになる。
【0073】また、本実施形態における電子文書検索装
置1では、請求項8および9に記載の発明の如く、ラス
ター画像データの画像特徴量として、そのラスター画像
データを構成する色成分値の分布状態およびそのラスタ
ー画像データ中におけるエッジ量の分布状態を抽出して
いるので、的確に画像上の特徴点を把握することがで
き、結果として電子文書データの検索精度の向上に繋が
る。なお、ラスター画像データの画像特徴量は、これに
限られるものではなく、いずれか一方のみであっても、
あるいは全く他の特徴量を使用するようにしてものよ
い。
【0074】また、本実施形態における電子文書検索装
置1では、請求項10に記載の発明の如く、関連データ
として、電子文書データのファイル名および記憶蓄積先
並びにラスター画像データのインデックス名を、互いに
関連付けて保持するようになっている。したがって、必
要以上のメモリ容量を要することなく、電子文書データ
を特定するために必要十分な情報を記録保持することが
でき、結果として電子文書データの検索処理の確実性お
よび迅速性を高めることとなる。
【0075】また、本実施形態における電子文書検索装
置1では、請求項11に記載の発明の如く、画像特徴量
とキー特徴量とのそれぞれをベクトル化し、ベクトルの
状態で比較することで、その類似性を判断しているの
で、その類似性の判断が適正かつ確実なものとなり、結
果として電子文書データの検索精度の向上に繋がる。
【0076】また、本実施形態における電子文書検索装
置1では、請求項12に記載の発明の如く、類似度の算
出結果が基準値以下であれば、該当電子文書データなし
と判断し、検索結果出力部22がその旨を伝えるメッセ
ージを出力するようになっている。したがって、該当す
る電子文書データがないのにもかかわらず、最も類似す
るものが検索結果として出力されてしまうといったこと
を防ぐことができ、電子文書検索装置1を使用するユー
ザにとっては非常に利便性の高いものとなる。
【0077】〔第2の実施の形態〕次に、請求項3に記
載の発明に係る電子文書検索装置および請求項15に記
載の発明に係る電子文書検索方法について説明する。た
だし、ここでは、上述した第1の実施の形態との相違点
についてのみ説明するものとする。
【0078】先ず、本実施形態における電子文書検索装
置の概略構成について説明する。図6は、本発明に係る
電子文書検索装置の第2の実施の形態における概略構成
例を示すブロック図である。なお、図中において、第1
の実施の形態の場合と同一の構成要素については同一の
符号を付している。
【0079】本実施形態の電子文書検索装置1aは、紙
文書として印刷出力された原稿から元の電子文書データ
を検索するのではなく、閲覧表示に特化した修正不可能
な電子文書データから元の電子文書データを検索して、
その電子文書データをユーザに提供するものである。
【0080】そのために、この電子文書検索装置1aで
は、第1の実施の形態で説明した画像入力部18に代わ
って、文書データ指定部23と、第二ラスター画像作成
部24と、を備えて構成されている。
【0081】文書データ指定部23は、例えば、電子文
書検索装置1aのユーザが操作するためのインターフェ
ースと、フロッピー(登録商標)ディスク(以下「F
D」と略称する)や光磁気ディスク(以下「MO」と略
称する)等の記憶媒体またはネットワーク4上のサーバ
ー装置(ただし不図示)から電子データを取得するため
のI/O(Input/Output)装置とからなるもので、ユー
ザによって電子データが指定されると、その指定された
電子データを記憶媒体またはサーバー装置から取得する
ものである。つまり、文書データ指定部23は、本発明
におけるデータ指定手段およびデータ取得手段として機
能するものである。
【0082】この文書データ指定部23が取得する電子
データは、画像を出力するためのデータであり、さらに
は閲覧表示することに特化した、修正、再利用が不可能
な形態のデータ(以下、この電子データを「閲覧文書デ
ータ」という)であるものとする。このような閲覧文書
データとしては、例えば米国アドビ社のPDFによるも
のがある。
【0083】第二ラスター画像作成部24は、ラスター
画像作成部13と同様にして、文書データ指定部23が
取得した閲覧文書データをラスター画像データに展開す
るものである。つまり、第二ラスター画像作成部24
は、本発明における第二の画像作成手段として機能する
ものである。なお、第二ラスター画像作成部24では、
ラスター画像作成部13と同様に、ラスター画像データ
の解像度を決定する機能を有していてもよい。
【0084】次に、以上のように構成された電子文書検
索装置1aにおける処理動作例、すなわち本実施形態に
おける電子文書検索方法について説明する。図7は、電
子データの指定の概要を示す概念図である。
【0085】電子文書検索装置1aでは、電子文書デー
タについての検索処理を行うのにあたって、先ず、第1
の実施の形態の場合と同様に、自動的にある一定時間を
おいて、ファイルサーバー3等に保管蓄積されている電
子文書データから特徴量を抽出するプロセス処理を行
う。
【0086】このプロセス処理の後に、電子文書検索装
置1aでは、電子文書データについての検索処理を行い
得るようになる。ただし、この電子文書検索装置1aで
は、検索するキーとなる原稿が紙原稿ではなく閲覧文書
データである点で第1の実施の形態の場合と異なる。
【0087】電子文書データについての検索処理を行う
のにあたっては、文書データ指定部23が検索のキーと
なる閲覧文書データを指定する機能を持っているので、
先ず電子文書検索装置1aのユーザが、図7に示すよう
に、閲覧文書データが記録されたFDやMO等の記憶媒
体31,32を、その文書データ指定部23が有するス
ロット33に挿入する。
【0088】記憶媒体31,32がスロット33に挿入
されると、文書データ指定部23は、その記憶媒体3
1,32の内容をスキャンして、その記憶媒体31,3
2に記録されている電子データのファイル名の一覧を一
覧表示部34にディスプレイ表示する。ここで、ユーザ
がカーソルキー35を操作して、目的とする閲覧文書デ
ータヘカーソル36を合わせ、その状態で選択キー37
を押下すると、文書データ指定部23は、選択されたフ
ァイル名を選択ファイル名表示部38にディスプレイ表
示する。
【0089】ユーザが別のファイル名の指定を希望する
場合には、取り消しボタン39を押下すればよい。ま
た、別の記憶媒体31,32からの読み取りを希望する
場合には、検索開始ボタン40を押下せずに、媒体取り
出しボタン41を押下して、現在使用している記憶媒体
31,32を取り出した後に、新たな記憶媒体31,3
2を挿入すればよい。記憶媒体31,32を取り出した
場合には、文書データ指定部23は、全ての処理を取り
消したと判断する。
【0090】なお、ここでは、閲覧文書データが記録さ
れた記憶媒体31,32がFDやMO等である場合を例
に挙げたが、本発明はこれらの記憶媒体に限定されるも
のではなく、例えばCD−ROM(Compact Disk−Read
Only Memory)やメモリカードといった他の記憶媒体で
あっても適用可能である。
【0091】また、文書データ指定部23では、スロッ
ト33に挿入された記憶媒体31,32内の閲覧文書デ
ータではなく、ネットワーク4を経由した電子メールに
よる指定や、ウェブのブラウザーを経由して指定するよ
うにしてもよい。この場合には、ユーザは、電子文書検
索装置1aがネットワーク4に接続されていれば、ネッ
トワーク4を経由した閲覧文書データの指定によって、
その電子文書検索装置1aが物理的に離れた場所に設置
されていても利用可能となる。また、電子文書検索装置
1aも、物理的に離れた場所に設置されたサーバー装置
から閲覧文書データを取得し得るようになる。
【0092】目的とする閲覧文書データが選択された状
態で、ユーザが検索開始ボタン40を押下すると、文書
データ指定部23は、その選択されたファイル名に係る
閲覧文書データの記憶媒体31,32等からの読み出し
を行う。これにより、電子文書データの検索処理が開始
される。そして、文書データ指定部23は、読み出した
閲覧文書データを、第二ラスター画像作成部24へ出力
する。
【0093】第二ラスター画像作成部24は、文書デー
タ指定部23から閲覧文書データを受け取ると、これを
ラスター画像データに展開する。このラスター画像デー
タは、第二ラスター画像保持部19が保持することにな
る。これ以降の処理は、第1の実施の形態の場合と全く
同様である。
【0094】以上のように、本実施形態における電子文
書検索装置1aおよび電子文書検索方法においても、ラ
スター画像データという同一形式のデータへの変換を経
た後に、それぞれの類似性を判断し、その類似性が高い
ものを目的の電子文書データとして特定するようになっ
ているので、第1の実施の形態の場合と略同様の効果を
得ることが可能となる。
【0095】さらに、本実施形態における電子文書検索
装置1aおよび電子文書検索方法によれば、請求項3ま
たは請求項15に記載の発明の如く、閲覧文書データか
らラスター画像データを取得し、これを基に電子文書デ
ータの検索を行うようになっている。したがって、修
正、再利用が不可能な閲覧表示に特化した電子データで
あっても、その電子データの元となった電子文書データ
を検索することができるようになる。つまり、閲覧用文
書データは、電子データでありながら、修正、再利用が
不可能な形態のデータに変換されているが、本実施形態
の電子文書検索装置1aまたは電子文書検索方法を用い
ることにより、第1の実施の形態で説明した紙文書の場
合と同様に、その利便性が低下してしまうのを回避する
ことができる。
【0096】〔第3の実施の形態〕次に、請求項4に記
載の発明に係る電子文書検索装置および請求項16に記
載の発明に係る電子文書検索方法について説明する。た
だし、ここでも、上述した第1および第2の実施の形態
との相違点についてのみ説明するものとする。
【0097】先ず、本実施形態における電子文書検索装
置が用いられるシステム構成について説明する。図8
は、本発明に係る電子文書検索装置の第3の実施の形態
におけるシステム構成例を示す概念図である。
【0098】本実施形態の電子文書検索装置は、第1の
実施の形態説明したものをネットワーク4に接続された
デジタル複写機5に適応したものであり、紙文書の1部
のページから、その全文を検索してプリントアウトする
ものである。すなわち、本実施形態において構築される
システムは、ユーザが所有する紙文書の一部分である1
ページを、電子文書検索装置が搭載されたデジタル複写
機5のプラテン部(複写元の原稿を置く部分)にセット
し、その状態で検索開始ボタンを押すと、出力部から紙
文書の全文が出力されるように構成されたものである。
なお、紙文書の全文の元となる文書画像データがファイ
ルサーバー3等に保管蓄積されている点は、第1および
第2の実施の形態の場合と同様である。
【0099】次いで、デジタル複写機5に適用された本
実施形態の電子文書検索装置の概略構成について説明す
る。図9は、本発明に係る電子文書検索装置の第3の実
施の形態における概略構成例を示すブロック図である。
なお、図中において、第1の実施の形態の場合と同一の
構成要素については同一の符号を付している。
【0100】この電子文書検索装置1bでは、第1の実
施の形態で説明した検索結果出力部22に代わって、文
書印刷制御部25と、画像出力部26と、を備えて構成
されている。
【0101】文書印刷制御部25は、検索結果出力部2
2と同様に画像特定手段としての機能を有し、画像入力
部18が取得したラスター画像データに対応する電子文
書データを特定するものであるが、その特定した電子文
書データを画像出力し得る形式に変換して画像出力部2
6へ送出する点が検索結果出力部22と異なる。
【0102】画像出力部26は、例えば周知の電子写真
技術を利用して画像形成を行うプリンタエンジンからな
るもので、文書印刷制御部25から送出された形式変換
後の電子文書データを、コピー用紙等の記録媒体上に印
刷して、文書画像が描かれた紙文書として出力するもの
である。
【0103】次に、以上のように構成された電子文書検
索装置1bにおける処理動作例、すなわち本実施形態に
おける電子文書検索方法について説明する。
【0104】電子文書検索装置1bでは、電子文書デー
タについての検索処理を行うのにあたって、先ず、第1
および第2の実施の形態の場合と同様に、自動的にある
一定時間をおいて、ファイルサーバー3等に保管蓄積さ
れている電子文書データから特徴量を抽出するプロセス
処理を行う。
【0105】このプロセス処理の後に、電子文書検索装
置1bでは、電子文書データについての検索処理を行い
得るようになる。電子文書データについての検索処理
は、第1の実施の形態の場合と同様に、元の電子文書デ
ータを検索したい紙原稿を画像入力部18にセットし、
その状態でスタートボタンを押下することによって開始
する。そして、第1の実施の形態の場合と同様にして、
電子文書データの検索処理を行う。
【0106】ただし、この電子文書検索装置1bでは、
検索処理終了後に印刷処理を行う点が第1の実施の形態
の場合と異なる。すなわち、この電子文書検索装置1b
では、類似画像検索部21での検索結果として得られた
電子文書データを、文書印刷制御部25へ送り、その文
書印刷制御部25が画像出力部26にて出力できる形式
に変換してその画像出力部26へ送り出す。
【0107】このようにして電子文書データを受け取る
と、画像出力部26は、通常のコピー動作の場合と全く
同様にして、受け取った電子文書データを可視画像化と
して印刷出力する。これにより、画像出力部26から
は、紙文書の全文が出力されるようになる。
【0108】以上のように、本実施形態における電子文
書検索装置1bおよび電子文書検索方法においても、ラ
スター画像データという同一形式のデータへの変換を経
た後に、それぞれの類似性を判断し、その類似性が高い
ものを目的の電子文書データとして特定するようになっ
ているので、第1および第2の実施の形態の場合と略同
様の効果を得ることが可能となる。
【0109】さらに、本実施形態における電子文書検索
装置1bおよび電子文書検索方法によれば、請求項4ま
たは請求項16に記載の発明の如く、画像出力部26が
特定された電子文書データを記録媒体上に可視画像とし
て印刷出力するようになっている。したがって、ユーザ
は、画像入力部18に1枚の紙原稿をセットして検索ボ
タンを押すだけという非常に簡単な操作で、全文や関連
文書含む文書一式を紙文書として出力された状態で得る
ことが可能となる。
【0110】このように、本実施形態における電子文書
検索装置1bおよび電子文書検索方法では、出力先の指
定等の煩わしさを要することなく、検索結果を紙文書と
してえることができるので、非常に多くの利用分野が想
定される。特に、操作が簡単なので、子供から高齢者ま
での広範囲の利用者を見込むことができる。具体的に
は、例えば、報告書の表紙から報告書全文を取り出す、
1枚の社内連絡書から連絡内容に関連する資料一式を取
り出す、小説のあらすじが書かれた宣伝用チラシから小
説全文を取り出す、といった利用形態が考えられる。
【0111】なお、本実施形態では、第1の実施の実施
の形態で説明した構成に加えて画像出力部26を設けた
場合を例に挙げて説明したが、第2の実施の実施の形態
で説明した構成に加えて画像出力部26を設けてもよ
く、かかる場合であっても本実施形態で説明したのと同
様の効果を得ることができる。
【0112】
【発明の効果】以上に説明したように、本発明に係る電
子文書検索装置および電子文書検索方法によれば、検索
処理のためにバーコードや暗号等の文書管理情報を必要
とすることなく、精度の高い検索処理の実現が期待でき
る。しかも、例えば紙文書として出力された原稿や閲覧
表示に特化した形態の電子データからであっても、文書
画像データの検索処理を行い得るので、電子文書データ
の持つ再利用性、検索や分類の容易性等といった利便性
が損なわれることがない。
【図面の簡単な説明】
【図1】 本発明に係る電子文書検索装置の第1の実施
の形態における概略構成例を示すブロック図である。
【図2】 画像特徴量の抽出の一例を示す概念図であ
る。
【図3】 電子文書データとラスター画像データと画像
特徴量との関連性についての情報の具体例を示す概念図
である。
【図4】 本発明に係る電子文書検索方法の第1の実施
の形態における概略手順を示すフローチャートである。
【図5】 電子文書データの検索結果の表示出力例を示
す概念図である。
【図6】 本発明に係る電子文書検索装置の第2の実施
の形態における概略構成例を示すブロック図である。
【図7】 本発明の第2の実施の形態における電子デー
タの指定の概要を示す概念図である。
【図8】 本発明に係る電子文書検索装置の第3の実施
の形態におけるシステムを示すブロック図である。
【図9】 本発明に係る電子文書検索装置の第3の実施
の形態における概略構成例を示すブロック図である。
【符号の説明】
1,1a,1b…電子文書検索装置、2…PC、3…フ
ァイルサーバー、4…ネットワーク、5…デジタル複写
機、13…ラスター画像作成部、15…第一特徴量抽出
部、17…関連データ蓄積部、18…画像入力部、20
第二特徴量抽出部、21…類似画像検索部、22…検索
結果出力部、23…文書データ指定部、24…第二ラス
ター画像作成部、25…文書印刷制御部、26…画像出
力部
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5B009 SA12 5B050 BA16 CA08 DA04 DA06 EA04 EA17 GA08 5B075 ND06 NK06 PQ02 PR06 QM08 UU06 5L096 AA02 BA20 FA06 FA39 GA28 GA41 JA03

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】 所定の記憶領域に記憶蓄積されている電
    子文書データをラスター画像データに展開する画像作成
    手段と、 前記画像作成手段が展開したラスター画像データの特徴
    量を抽出する第一の特徴量抽出手段と、 前記電子文書データと前記画像作成手段が展開したラス
    ター画像データと前記第一の特徴量抽出手段が抽出した
    特徴量との関連性についての情報を保持する関連性保持
    手段と、 前記画像作成手段とは別にラスター画像データを取得す
    る画像取得手段と、 前記画像取得手段が取得したラスター画像データの特徴
    量を抽出する第二の特徴量抽出手段と、 前記第一の特徴量抽出手段が抽出した特徴量と前記第二
    の特徴量抽出手段が抽出した特徴量との類似性を判断す
    る類似検索手段と、 前記類似検索手段による判断結果と前記関連性保持手段
    による保持内容とに基づいて前記画像取得手段が取得し
    たラスター画像データに対応する電子文書データを特定
    する画像特定手段とを備えることを特徴とする電子文書
    検索装置。
  2. 【請求項2】 前記画像取得手段は、画像が描かれた原
    稿からラスター画像データを読み取ることによって当該
    ラスター画像データの取得を行うものであることを特徴
    とする請求項1記載の電子文書検索装置。
  3. 【請求項3】 前記画像取得手段は、 画像を出力するための電子データを指定するデータ指定
    手段と、 前記データ指定手段にて指定された電子データを取得す
    るデータ取得手段と、 前記データ取得手段が取得した電子データをラスター画
    像データに展開する第二の画像作成手段とからなること
    を特徴とする請求項1記載の電子文書検索装置。
  4. 【請求項4】 前記画像特定手段が特定した電子文書デ
    ータを記録媒体上に可視画像として印刷出力する画像出
    力手段を備えることを特徴とする請求項1,2または3
    記載の電子文書検索装置。
  5. 【請求項5】 ラスター画像データへの展開を行う際の
    解像度を決定する解像度決定手段を備えることを特徴と
    する請求項1〜4のいずれか1項に記載の電子文書検索
    装置。
  6. 【請求項6】 前記画像作成手段は、電子文書データが
    複数のページで構成されている場合に、各ページ毎にラ
    スター画像データへの展開を行い、複数のラスター画像
    データを作成するものであることを特徴とする請求項1
    〜5のいずれか1項に電子文書検索装置。
  7. 【請求項7】 前記画像作成手段は、電子文書データか
    らラスター画像データへの展開にあたって、当該電子文
    書データを構成する色成分の種類数に応じて、当該ラス
    ター画像データのデータ量を可変させるものであること
    を特徴とする請求項1〜6のいずれか1項に電子文書検
    索装置。
  8. 【請求項8】 前記第一の特徴量抽出手段および前記第
    二の特徴量抽出手段は、ラスター画像データの特徴量と
    して、当該ラスター画像データを構成する色成分値の分
    布状態を抽出するものであることを特徴とする請求項1
    〜7のいずれか1項に電子文書検索装置。
  9. 【請求項9】 前記第一の特徴量抽出手段および前記第
    二の特徴量抽出手段は、ラスター画像データの特徴量と
    して、当該ラスター画像データ中におけるエッジ量の分
    布状態を抽出するものであることを特徴とする請求項1
    〜8のいずれか1項に電子文書検索装置。
  10. 【請求項10】 前記関連性保持手段は、関連性につい
    ての情報として、電子文書データの識別名および記憶蓄
    積先並びに当該電子文書データから展開されたラスター
    画像データの識別名を、互いに関連付けて保持するもの
    であることを特徴とする請求項1〜9のいずれか1項に
    電子文書検索装置。
  11. 【請求項11】 前記類似検索手段は、前記第一の特徴
    量抽出手段および前記第二の特徴量抽出手段が抽出した
    それぞれの特徴量をベクトル化し、ベクトルの状態で比
    較することで、当該特徴量の類似性を判断するものであ
    ることを特徴とする請求項1〜10のいずれか1項に電
    子文書検索装置。
  12. 【請求項12】 前記画像特定手段は、前記類似検索手
    段による類似性の判断結果が所定条件を満たさない場合
    には、前記画像取得手段が取得したラスター画像データ
    に対応する電子文書データがないと判断するものである
    ことを特徴とする請求項1〜11のいずれか1項に電子
    文書検索装置。
  13. 【請求項13】 所定の記憶領域に記憶蓄積されている
    電子文書データをラスター画像データに展開する画像作
    成工程と、 前記画像作成工程にて展開したラスター画像データの特
    徴量を抽出する第一の特徴量抽出工程と、 前記電子文書データと前記画像作成工程にて展開したラ
    スター画像データと前記第一の特徴量抽出工程にて抽出
    した特徴量との関連性についての情報を保持する関連性
    保持工程と、 前記画像作成工程とは別にラスター画像データを取得す
    る画像取得工程と、 前記画像取得工程が取得したラスター画像データの特徴
    量を抽出する第二の特徴量抽出工程と、 前記第一の特徴量抽出工程にて抽出した特徴量と前記第
    二の特徴量抽出工程にて抽出した特徴量との類似性を判
    断する類似検索工程と、 前記類似検索工程での判断結果と前記関連性保持工程で
    の保持内容とに基づいて前記画像取得工程にて取得した
    ラスター画像データに対応する電子文書データを特定す
    る画像特定工程とを備えることを特徴とする電子文書検
    索方法。
  14. 【請求項14】 前記画像取得工程は、画像が描かれた
    原稿からラスター画像データを読み取ることによって当
    該ラスター画像データの取得を行うことを特徴とする請
    求項13記載の電子文書検索方法。
  15. 【請求項15】 前記画像取得工程は、 画像を出力するための電子データを指定するデータ指定
    工程と、 前記データ指定工程にて指定された電子データを取得す
    るデータ取得工程と、 前記データ取得工程にて取得した電子データをラスター
    画像データに展開する第二の画像作成工程とからなるこ
    とを特徴とする請求項13記載の電子文書検索方法。
  16. 【請求項16】 前記画像特定工程にて特定した電子文
    書データを記録媒体上に可視画像として印刷出力する画
    像出力工程を備えることを特徴とする請求項13,14
    または15記載の電子文書検索方法。
JP2000070760A 2000-03-14 2000-03-14 電子文書検索装置および電子文書検索方法 Pending JP2001256256A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000070760A JP2001256256A (ja) 2000-03-14 2000-03-14 電子文書検索装置および電子文書検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000070760A JP2001256256A (ja) 2000-03-14 2000-03-14 電子文書検索装置および電子文書検索方法

Publications (1)

Publication Number Publication Date
JP2001256256A true JP2001256256A (ja) 2001-09-21

Family

ID=18589444

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000070760A Pending JP2001256256A (ja) 2000-03-14 2000-03-14 電子文書検索装置および電子文書検索方法

Country Status (1)

Country Link
JP (1) JP2001256256A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006074148A (ja) * 2004-08-31 2006-03-16 Fuji Xerox Co Ltd 印刷装置、画像コンテンツ提供システムおよび画像コンテンツ印刷方法
JP2006285612A (ja) * 2005-03-31 2006-10-19 Canon Inc 情報処理装置およびその方法
JP2009164965A (ja) * 2008-01-08 2009-07-23 Konica Minolta Business Technologies Inc 画像処理装置および方法ならびにそのためのプログラム
JP2009271831A (ja) * 2008-05-09 2009-11-19 Sharp Corp 画像データ処理装置
US9613057B2 (en) 2012-08-24 2017-04-04 Canon Kabushiki Kaisha Document management apparatus, method for controlling the same, and storage medium
US11741155B2 (en) 2020-06-08 2023-08-29 Konica Minolta, Inc. Search system
US11823416B2 (en) 2020-06-08 2023-11-21 Konica Minolta, Inc. Search system

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006074148A (ja) * 2004-08-31 2006-03-16 Fuji Xerox Co Ltd 印刷装置、画像コンテンツ提供システムおよび画像コンテンツ印刷方法
JP4501598B2 (ja) * 2004-08-31 2010-07-14 富士ゼロックス株式会社 印刷装置、画像コンテンツ提供システムおよび画像コンテンツ印刷方法
JP2006285612A (ja) * 2005-03-31 2006-10-19 Canon Inc 情報処理装置およびその方法
US8112706B2 (en) 2005-03-31 2012-02-07 Canon Kabushiki Kaisha Information processing apparatus and method
JP2009164965A (ja) * 2008-01-08 2009-07-23 Konica Minolta Business Technologies Inc 画像処理装置および方法ならびにそのためのプログラム
JP4539720B2 (ja) * 2008-01-08 2010-09-08 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置および方法ならびにそのためのプログラム
JP2009271831A (ja) * 2008-05-09 2009-11-19 Sharp Corp 画像データ処理装置
US9613057B2 (en) 2012-08-24 2017-04-04 Canon Kabushiki Kaisha Document management apparatus, method for controlling the same, and storage medium
US11741155B2 (en) 2020-06-08 2023-08-29 Konica Minolta, Inc. Search system
US11823416B2 (en) 2020-06-08 2023-11-21 Konica Minolta, Inc. Search system

Similar Documents

Publication Publication Date Title
US6166826A (en) Printing apparatus, printing method, and printing system
US8339645B2 (en) Managing apparatus, image processing apparatus, and processing method for the same, wherein a first user stores a temporary object having attribute information specified but not partial-area data, at a later time an object is received from a second user that includes both partial-area data and attribute information, the storage unit is searched for the temporary object that matches attribute information of the received object, and the first user is notified in response to a match
US8326090B2 (en) Search apparatus and search method
US9223763B2 (en) Document generation apparatus, method, and storage medium
US7596751B2 (en) Contact sheet based image management
US20060173904A1 (en) Information Processing Apparatus and Control Method Thereof
JP2006178973A (ja) ドキュメントセパレータページ
JP2006120125A (ja) ドキュメント画像情報管理装置及びドキュメント画像情報管理プログラム
JPH11250071A (ja) 画像データベースの構築方法および画像データベース装置並びに画像情報記憶媒体
JP2007058622A (ja) 文書管理装置及び文書管理方法
JP6262708B2 (ja) 深い検索性を有するオブジェクト化及びハードコピーからオリジナルの電子ファイルを検出するドキュメント検出方法
JP5207688B2 (ja) 画像処理装置および統合ドキュメント生成方法
JP2001256256A (ja) 電子文書検索装置および電子文書検索方法
JP7390071B2 (ja) 書類処理装置、書類処理方法、およびプログラム
JP4008628B2 (ja) ページ編集装置、ページ編集方法、ページ編集プログラム、及び画像形成装置
US20050025348A1 (en) Method of and apparatus for processing image data
JP2000020549A (ja) 文書データベースシステムへの入力支援装置
JP4480109B2 (ja) 画像管理装置および画像管理方法
JP2009087037A (ja) 文書管理装置、画像処理装置、文書登録方法およびプログラム並びに記録媒体
US20090287733A1 (en) Method for preparing prepress image data
JP2003316773A (ja) 文書管理システム、方法、プログラム及び記憶媒体
JP2001101213A (ja) 情報処理装置、ドキュメント管理装置、情報処理システム、情報管理方法、及び記憶媒体
JP2003308325A (ja) データ登録装置、データ登録方法、データ登録プログラムおよび記録媒体
JP2010092141A (ja) 画像処理システム、画像読取装置、画像処理装置および画像処理プログラム
JP2004102678A (ja) データ管理装置及びデータ管理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040818

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070605

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070828

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071024

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071127