JP2001256256A - Device and method for retrieving electronic document - Google Patents

Device and method for retrieving electronic document

Info

Publication number
JP2001256256A
JP2001256256A JP2000070760A JP2000070760A JP2001256256A JP 2001256256 A JP2001256256 A JP 2001256256A JP 2000070760 A JP2000070760 A JP 2000070760A JP 2000070760 A JP2000070760 A JP 2000070760A JP 2001256256 A JP2001256256 A JP 2001256256A
Authority
JP
Japan
Prior art keywords
electronic document
data
raster image
image
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000070760A
Other languages
Japanese (ja)
Inventor
Shinichi Yada
伸一 矢田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2000070760A priority Critical patent/JP2001256256A/en
Publication of JP2001256256A publication Critical patent/JP2001256256A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To enable retrieving electronic document data to be original even when electronic document data are outputted as a paper document or converted to data in a form specified to read display. SOLUTION: An electronic document retrieving device 1 is provided with an image preparing means 13 for expanding electronic document data into raster image data, first feature amount extracting means 15 for extracting the feature amount of the expanded raster image data, image acquiring means 18 for separately acquiring raster image data, second feature amount extracting means 20 for extracting the feature amount of the acquired raster image data, similarity retrieving means 21 for deciding the similarity of respective feature amounts, and image specifying means 22 for retrieving the electronic document data from the decided result.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、コンピュータ装置
にて扱われる電子文書データを検索するために用いられ
る電子文書検索装置および電子文書検索方法に関するも
のである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an electronic document search device and an electronic document search method used for searching electronic document data handled by a computer device.

【0002】[0002]

【従来の技術】近年、パーソナルコンピュータ(以下
「PC」と略称する)の普及に伴い、文書の作成は、P
C上のアプリケーションソフト(例えば、文書作成ソフ
ト)を用いて行われるのが一般的となっている。具体的
には、各種書類等の文書をPCの画面上で作成し、さら
にそのPC上で文書の編集、複写、再構成、検索等をす
るといったことが広く行われている。
2. Description of the Related Art In recent years, with the spread of personal computers (hereinafter abbreviated as "PCs"), document creation has been
It is common to use application software on C (for example, document creation software). More specifically, it has been widely practiced to create documents such as various documents on a PC screen, and to edit, copy, reconstruct, and search the documents on the PC.

【0003】また、最近では、ネットワーク技術の発展
と普及により、PC内にて作成された電子的な文書デー
タ(以下「電子文書データ」という)を、プリンタ装置
等を用いて紙文書として出力しなくても、電子メール等
を利用して他のPC等へ送信して個人宛てに配布する、
といったことも可能となっており、ペーパーレス化した
文書作成環境が益々進みつつある。
Recently, with the development and spread of network technology, electronic document data created in a PC (hereinafter referred to as "electronic document data") is output as a paper document using a printer device or the like. If not, send it to other PCs using e-mail etc. and distribute it to individuals,
This is also possible, and a paperless document creation environment is increasingly in progress.

【0004】これに伴い、電子文書データの中には、電
子メール等を利用した配布に適するように、閲覧表示す
ることに特化した、修正、再利用が不可能な形態のデー
タに変換されたものも提案されており、電子文書データ
の利点の一つを伸ばすものとして注目されている。この
ような閲覧表示に特化した電子文書データとしては、例
えば米国アドビ(Adobe)社が発表したファイルフォー
マットであるPDF(Portable Document Format)によ
るものが知られている。
[0004] Along with this, some electronic document data is converted into data that cannot be modified or reused, which is specialized for browsing and displaying, so as to be suitable for distribution using electronic mail or the like. Has been proposed, and is attracting attention as one of the advantages of electronic document data. As such electronic document data specialized for browsing and display, for example, data in PDF (Portable Document Format), which is a file format announced by Adobe in the United States, is known.

【0005】このようなペーパーレス化を実現する電子
文書データは、コンピュータによって体系的に管理する
ことが容易であるという特性を持っているので、その特
性を利用することによって文書管理システムを構築する
ことが可能となる。文書管理システムとは、特定のPC
上に構築されたり、ネットワーク上で複数のユーザが共
有するファイルサーバを利用して構築されるもので、電
子文書データをデータベース化して管理することで文書
の分類作業や検索作業等の容易化を図るものである。す
なわち、電子文書データをPCのハードディスクやネッ
トワーク上のファイルサーバ等にその文書内容をある程
度識別できるようなファイル名を付けて保管蓄積するこ
とで、文書の作成者は、後日、その文書を利用して新し
い文書を作成したいときや文書内容を修正したいとき等
に、その電子文書データを読み出して目的の作業を行う
ことができるようになる。特に、ファイルサーバを利用
した場合には、文書の共有化による効率的な情報量削減
が達成でき、しかも文書間の関連付けが可能となるとい
ったように、電子文書データを利用することの利点が非
常に大きいものとなる。
[0005] Since electronic document data realizing such paperlessness has a characteristic that it can be easily systematically managed by a computer, a document management system can be constructed by utilizing the characteristic. Becomes possible. Document management system is a specific PC
It is built on a file server shared by multiple users on a network, and is made up of a database of electronic document data to manage and simplify document classification and search tasks. It is intended. That is, by storing electronic document data in a hard disk of a PC or a file server on a network with a file name that can identify the content of the document to some extent, the creator of the document can use the document at a later date. For example, when a new document is to be created or when the contents of the document are to be corrected, the electronic document data can be read and the desired operation can be performed. In particular, when a file server is used, the advantage of using electronic document data is very high, such that the amount of information can be efficiently reduced by sharing documents and the documents can be associated with each other. Will be larger.

【0006】その一方で、紙に文書を出力した紙文書に
は、電子文書データと比較して、読みやすさ、扱いやす
さ、持ち運びの利便性、直感的な分かり易さ等の大きな
利点がある。そのため、電子文書データを作成しても、
プリンタ装置等を用いて紙文書を出力してその紙文書を
利用するほうが、結果として効率的な場合も多い。例え
ば、会議の配布資料等については、電子文書データその
ものの配布が利便性等の点で非現実的であることから、
アプリケーションソフトを用いてPC上で原稿を作成
し、その後プリンタ装置で必要部数を印刷して紙原稿と
して配布したほうが効率的である。
[0006] On the other hand, a paper document output as a document on paper has significant advantages such as readability, easiness of handling, convenience of carrying, and intuitive clarity as compared with electronic document data. is there. Therefore, even if you create electronic document data,
It is often more efficient to output a paper document using a printer or the like and use the paper document as a result. For example, regarding distribution materials for meetings, etc., since distribution of electronic document data itself is impractical in terms of convenience and the like,
It is more efficient to create an original on a PC using application software, and then print the required number of copies with a printer device and distribute it as a paper original.

【0007】[0007]

【発明が解決しようとする課題】ところが、電子文書デ
ータをプリンタ装置等により一旦紙文書として出力する
と、電子文書データの持つ再利用性、検索や分類の容易
性等といった利便性が失われてしまうおそれがある。例
えば、会議で紙文書を受け取った者が、その紙文書の記
載内容を再利用して新たな文書を作成することは、非常
に困難である。かかる場合には、紙文書の内容をキーボ
ード等からPCに再入力しなければならず、多大な労力
を必要としてしまう。また、OCR(Optical Characte
r Reader)等による周知の文字認識技術を利用しつつ、
紙文書に記載された文字を読み取って電子文書データ化
することも考えられるが、文字認識に必要な機器が高価
であり、さらにはその読み取り精度が必ずしも十分でな
いという難点がある。したがって、電子文書データを紙
文書として出力した場合には、文書の管理および再利用
において、効率の低下や利便性の悪化を招いてしまう。
However, once the electronic document data is output as a paper document by a printer or the like, the convenience of the electronic document data such as reusability, ease of retrieval and classification is lost. There is a risk. For example, it is very difficult for a person who has received a paper document at a conference to create a new document by reusing the contents of the paper document. In such a case, the contents of the paper document must be re-input to the PC from a keyboard or the like, which requires a great deal of labor. OCR (Optical Characte)
r Reader) and other well-known character recognition technologies,
Although it is conceivable to read characters written on a paper document and convert it into electronic document data, the equipment required for character recognition is expensive and the reading accuracy is not always sufficient. Therefore, when the electronic document data is output as a paper document, efficiency and convenience deteriorate in management and reuse of the document.

【0008】このような問題に対しては、紙文書(配布
文書)に予め元の電子文書データの保管蓄積場所を明記
したり、あるいは元の電子文書データの保管蓄積場所を
示す情報を暗号化して文書に埋め込んだりすることで、
その解決を図ることが提案されている。例えば、特開平
10−143414号公報には、原稿を印刷する際に元
の電子文書データの格納場所、文書番号、バージョン情
報、総ページ数等の文書管理情報をバーコードのような
形態で追加印刷しておき、追加印刷されたバーコード等
を読み取ることで元の電子文書データの取得を可能にす
ることが開示されている。また、例えば、特開平11−
88659号公報には、印刷出力された紙文書上に、目
視できない態様(暗号化態様)で付加情報を埋め込んで
おき、その付加情報によって元の電子文書データの格納
場所等を明らかにすることが開示されている。
To solve such a problem, the storage location of the original electronic document data is specified in the paper document (distribution document) in advance, or the information indicating the storage location of the original electronic document data is encrypted. By embedding it in a document,
It is proposed to solve the problem. For example, in Japanese Patent Application Laid-Open No. 10-143414, when printing a document, document management information such as a storage location of the original electronic document data, a document number, version information, and the total number of pages are added in a form such as a barcode. It is disclosed that the original electronic document data can be obtained by reading a printed barcode or the like after printing. In addition, for example, Japanese Patent Application Laid-Open
88659 discloses that additional information is embedded in a printed and printed paper document in an invisible manner (encryption mode), and the storage location of the original electronic document data is clarified by the additional information. It has been disclosed.

【0009】しかしながら、上述した特開平10−14
3414号公報および特開平11−88659号公報に
開示されたいずれの技術においても、元の電子文書デー
タの取得できるのは、紙文書に文書管理情報が出力され
ている場合に限られる。つまり、紙文書に文書管理情報
が出力されていない場合や、文書管理情報が出力されて
いてもこれを読み取ることができない場合には、元の電
子文書データを取得することができない。
However, the above-mentioned Japanese Patent Application Laid-Open No. 10-14 / 1998
In any of the techniques disclosed in Japanese Patent No. 3414 and Japanese Patent Application Laid-Open No. 11-88659, the original electronic document data can be obtained only when document management information is output to a paper document. That is, when the document management information is not output to the paper document or when the document management information is output but cannot be read, the original electronic document data cannot be obtained.

【0010】また、電子文書データを紙文書として出力
した場合には、当該文書の作成者であっても、複数ペー
ジからなる紙文書の中の1ページ分から、元の電子文書
データがどこに保管されているかを検索することは容易
でない。しかも、文書を作成してから時間が経過した
り、保管場所を忘れてしまったりした場合についても同
様に、元の電子文書データの検索が困難になる可能性が
高い。
When the electronic document data is output as a paper document, even if the creator of the document, the original electronic document data is stored anywhere from one page in the multi-page paper document. It is not easy to find out. In addition, even when time elapses after the document is created or the storage location is forgotten, similarly, it is highly likely that the retrieval of the original electronic document data becomes difficult.

【0011】さらに、電子文書データを紙文書として出
力しない場合であっても、閲覧表示に特化した電子文書
データについては、同様の問題が生じてしまうおそれが
ある。すなわち、閲覧表示に特化した電子文書データ
は、電子文書データでありながら、修正、再利用が不可
能な形態のデータに変換されているので、再利用性とい
う利便性が失われている。したがって、再利用に関して
は、紙文書の再利用と同等の難点や問題点が生じてしま
うのである。
Further, even when the electronic document data is not output as a paper document, the same problem may occur for electronic document data specialized for browsing and display. In other words, electronic document data specialized for browsing and display is converted into data in a form that cannot be modified and reused even though it is electronic document data, so the convenience of reusability is lost. Therefore, in terms of reuse, the same difficulties and problems as in the reuse of paper documents arise.

【0012】そこで、本発明は、電子文書データが紙文
書として出力された場合や閲覧表示に特化した形態のデ
ータに変換された場合であっても、その元となる電子文
書データの検索を可能にし、その電子文書データの持つ
再利用性、検索や分類の容易性等といった利便性を確保
することのできる、電子文書検索装置および電子文書検
索方法を提供することを目的とする。
Accordingly, the present invention provides a method for retrieving the original electronic document data even when the electronic document data is output as a paper document or converted to data in a form specialized for browsing and display. It is an object of the present invention to provide an electronic document search device and an electronic document search method that enable the use of the electronic document data and ensure convenience such as reusability of the electronic document data and ease of search and classification.

【0013】[0013]

【課題を解決するための手段】本発明は上記目的を達成
するために案出された電子文書検索装置で、所定の記憶
領域に記憶蓄積されている電子文書データをラスター画
像データに展開する画像作成手段と、前記画像作成手段
が展開したラスター画像データの特徴量を抽出する第一
の特徴量抽出手段と、前記電子文書データと前記画像作
成手段が展開したラスター画像データと前記第一の特徴
量抽出手段が抽出した特徴量との関連性についての情報
を保持する関連性保持手段と、前記画像作成手段とは別
にラスター画像データを取得する画像取得手段と、前記
画像取得手段が取得したラスター画像データの特徴量を
抽出する第二の特徴量抽出手段と、前記第一の特徴量抽
出手段が抽出した特徴量と前記第二の特徴量抽出手段が
抽出した特徴量との類似性を判断する類似検索手段と、
前記類似検索手段による判断結果と前記関連性保持手段
による保持内容とに基づいて前記画像取得手段が取得し
たラスター画像データに対応する電子文書データを特定
する画像特定手段とを備えることを特徴とするものであ
る。
SUMMARY OF THE INVENTION The present invention is directed to an electronic document search device devised to achieve the above object, and to an image processing system for developing electronic document data stored in a predetermined storage area into raster image data. Creation means, first feature amount extraction means for extracting feature amounts of raster image data developed by the image creation means, raster image data developed by the electronic document data and the image creation means, and the first feature Relevance holding means for holding information about the relevance to the feature quantity extracted by the quantity extraction means, image acquisition means for acquiring raster image data separately from the image creation means, and raster acquired by the image acquisition means A second feature value extracting unit that extracts a feature value of the image data, a feature value extracted by the first feature value extracting unit, and a feature value extracted by the second feature value extracting unit. A similarity retrieval means for determining the similarity,
An image specifying unit that specifies electronic document data corresponding to the raster image data obtained by the image obtaining unit based on a result of the determination by the similarity search unit and a content held by the relevance holding unit. Things.

【0014】また、本発明は上記目的を達成するために
案出された電子文書検索方法で、所定の記憶領域に記憶
蓄積されている電子文書データをラスター画像データに
展開する画像作成工程と、前記画像作成工程にて展開し
たラスター画像データの特徴量を抽出する第一の特徴量
抽出工程と、前記電子文書データと前記画像作成工程に
て展開したラスター画像データと前記第一の特徴量抽出
工程にて抽出した特徴量との関連性についての情報を保
持する関連性保持工程と、前記画像作成工程とは別にラ
スター画像データを取得する画像取得工程と、前記画像
取得工程が取得したラスター画像データの特徴量を抽出
する第二の特徴量抽出工程と、前記第一の特徴量抽出工
程にて抽出した特徴量と前記第二の特徴量抽出工程にて
抽出した特徴量との類似性を判断する類似検索工程と、
前記類似検索工程での判断結果と前記関連性保持工程で
の保持内容とに基づいて前記画像取得工程にて取得した
ラスター画像データに対応する電子文書データを特定す
る画像特定工程とを備えることを特徴とする方法であ
る。
Further, the present invention provides an electronic document search method devised to achieve the above object, wherein an image creation step of expanding electronic document data stored and accumulated in a predetermined storage area into raster image data, A first feature value extraction step of extracting a feature value of the raster image data developed in the image creation step; and a raster image data and the first feature value extraction of the electronic document data and the raster image data developed in the image creation step. A relevance holding step of holding information on relevance to the feature amount extracted in the step, an image obtaining step of obtaining raster image data separately from the image creating step, and a raster image obtained by the image obtaining step A second feature value extraction step of extracting a feature value of the data, a feature value extracted in the first feature value extraction step, and a feature value extracted in the second feature value extraction step. A similarity search step of determining similarity,
An image specifying step of specifying electronic document data corresponding to the raster image data obtained in the image obtaining step based on the determination result in the similarity search step and the content held in the relevancy holding step. Characteristic method.

【0015】上記構成の電子文書検索装置および上記手
順の電子文書検索方法によれば、所定の記憶領域に記憶
蓄積されている電子文書データについては、ラスター画
像データに展開してその特徴量を抽出し、その電子文書
データとラスター画像データと特徴量との関連性につい
ての情報を保持しておく。一方、例えば、画像が描かれ
た原稿(紙文書)からラスター画像データを読み取った
り、あるいは閲覧表示に特化した形態の電子データを取
得してこれをラスター画像データに展開したりすること
で、既に展開したラスター画像データとは別にラスター
画像データを取得すると、その取得したラスター画像デ
ータの特徴量を抽出する。このとき、所定の記憶領域に
記憶蓄積されている電子文書データは、取得したラスタ
ー画像データと同一形式のラスター画像データを展開さ
れているので、それぞれの特徴量の類似性を判断するこ
とが可能となる。したがって、それぞれの特徴量の類似
性を判断結果から類似性の高いものを特定し、さらには
既に保持している関連性についての情報を参照すれば、
取得したラスター画像データに対応する電子文書データ
が検索されることになる。
According to the electronic document search apparatus and the electronic document search method having the above-described configuration, the electronic document data stored and stored in the predetermined storage area is developed into raster image data to extract the feature amount. Then, information about the relationship between the electronic document data, the raster image data, and the feature amount is stored. On the other hand, for example, by reading raster image data from a manuscript (paper document) on which an image is drawn, or by acquiring electronic data in a form specialized for browsing display and developing this into raster image data, When the raster image data is acquired separately from the raster image data already developed, the feature amount of the acquired raster image data is extracted. At this time, since the electronic document data stored and stored in the predetermined storage area has raster image data of the same format as that of the acquired raster image data, the similarity of the respective feature amounts can be determined. Becomes Therefore, if the similarity of each feature value is determined from the result of the determination, the one with the highest similarity is identified, and further, by referring to the already held information on the association,
The electronic document data corresponding to the acquired raster image data is searched.

【0016】[0016]

【発明の実施の形態】以下、図面に基づき本発明に係る
電子文書検索装置および電子文書検索方法について説明
する。なお、ここでは、PC上で稼動するワードプロセ
ッサ(文書作成)ソフト、表計算(計算、表/グラフ作
成)ソフト、プレゼンテーション(資料作成)ソフト、
描画(図形作成)ソフト、CAD(図面作成)ソフト等
のアプリケーションソフトで作成された電子文書データ
ファイルや画像データファイルを、総称して電子文書デ
ータと称するものとする。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An electronic document retrieval apparatus and an electronic document retrieval method according to the present invention will be described below with reference to the drawings. Here, word processor (document creation) software, spreadsheet (calculation, table / graph creation) software, presentation (document creation) software,
Electronic document data files and image data files created by application software such as drawing (graphic creation) software and CAD (drawing creation) software are collectively referred to as electronic document data.

【0017】〔第1の実施の形態〕本実施形態では、請
求項1,2,5〜12に記載の発明に係る電子文書検索
装置および請求項13および14に記載の発明に係る電
子文書検索方法について説明する。
[First Embodiment] In this embodiment, an electronic document retrieval apparatus according to the present invention as defined in claims 1, 2, 5 to 12, and an electronic document retrieval apparatus according to the inventions as claimed in claims 13 and 14, The method will be described.

【0018】先ず、本実施形態における電子文書検索装
置の概略構成について説明する。図1は、本発明に係る
電子文書検索装置の第1の実施の形態における概略構成
例を示すブロック図である。
First, a schematic configuration of the electronic document search device according to the present embodiment will be described. FIG. 1 is a block diagram showing a schematic configuration example of an electronic document search device according to a first embodiment of the present invention.

【0019】図例のように、本実施形態の電子文書検索
装置1は、複数のPC2およびファイルサーバー3とL
AN(Local Area Network)等のネットワーク4を介し
て接続されて用いられ、これらと共に文書管理システム
を構築するものである。
As shown in the figure, the electronic document search device 1 of the present embodiment includes a plurality of PCs 2 and
It is used by being connected via a network 4 such as an AN (Local Area Network), and constructs a document management system together with these.

【0020】各PC2は、アプリケーションソフトで電
子文書データを作成したり、その電子文書データをHD
D(Hard Disk Drive)等の記憶装置内に保管蓄積した
りするものである。また、ファイルサーバー3は、ネッ
トワーク4上の各PC2が共有するもので、電子文書デ
ータを保管蓄積するものである。なお、電子文書データ
は、PC2とファイルサーバー3とのどちらに保管蓄積
するようにしても、あるいは両方に保管蓄積するように
してもよい。
Each PC 2 creates electronic document data with application software, and converts the electronic document data into HD.
The data is stored and stored in a storage device such as a D (Hard Disk Drive). The file server 3 is shared by the PCs 2 on the network 4 and stores electronic document data. The electronic document data may be stored and stored in either the PC 2 or the file server 3 or may be stored and stored in both.

【0021】これらPC2およびファイルサーバー3と
共に文書管理システムを構築する電子文書検索装置1
は、紙文書として印刷出力された原稿から、その印刷時
に元となった電子文書データを検索し、ユーザに当該原
稿の元となった電子文書データを提供するものである。
An electronic document search device 1 for constructing a document management system together with the PC 2 and the file server 3
Is to search the original document printed out as a paper document for the electronic document data that was the basis of the printing, and provide the user with the original electronic document data of the original document.

【0022】そのために、電子文書検索装置1は、ネッ
トワークインターフェース部11と、文書データ保持部
12と、ラスター画像作成部13と、第一ラスター画像
保持部14と、第一特徴量抽出部15と、特徴量蓄積部
16と、関連データ蓄積部17と、画像入力部18と、
第二ラスター画像保持部19と、第二特徴量抽出部20
と、類似画像検索部21と、検索結果出力部22と、を
備えて構成されている。
To this end, the electronic document search device 1 includes a network interface unit 11, a document data holding unit 12, a raster image creating unit 13, a first raster image holding unit 14, a first feature amount extracting unit 15, , A characteristic amount storage unit 16, a related data storage unit 17, an image input unit 18,
Second raster image holding unit 19 and second feature amount extracting unit 20
, A similar image search unit 21 and a search result output unit 22.

【0023】ネットワークインターフェース部11は、
ネットワーク4を通じてそのネットワーク4上の各PC
2またはファイルサーバー3との通信を行うためのもの
である。
The network interface unit 11
Each PC on the network 4 through the network 4
2 or for communicating with the file server 3.

【0024】文書データ保持部12は、バッファメモリ
などのデータ蓄積手段を持ち、そのデータ蓄積手段にネ
ットワークインターフェース部11を介して受け取った
電子文書データを一時的に蓄積するものである。
The document data holding unit 12 has data storage means such as a buffer memory, and temporarily stores electronic document data received via the network interface unit 11 in the data storage means.

【0025】ラスター画像作成部13は、文書データ保
持部12が蓄積した電子文書データをラスター画像デー
タ(ビットマップデータ)に展開するものであり、さら
にはそのときのラスター画像データの解像度を決定する
ものである。つまり、ラスター画像作成部13は、本発
明における画像作成手段および解像度決定手段として機
能するものである。
The raster image creating section 13 expands the electronic document data stored in the document data holding section 12 into raster image data (bitmap data), and further determines the resolution of the raster image data at that time. Things. That is, the raster image creating unit 13 functions as an image creating unit and a resolution determining unit in the present invention.

【0026】第一ラスター画像保持部14は、ラスター
画像作成部13が展開したラスター画像データを蓄積す
るものである。なお、第一ラスター画像保持部14で
は、複数のラスター画像データを蓄積し得るようになっ
ている。また、そのために、第一ラスター画像保持部1
4では、各ラスター画像データを識別するために、各ラ
スター画像データに独自の(唯一無二の)インデックス
名を付すようになっている。
The first raster image holding unit 14 stores the raster image data developed by the raster image creating unit 13. Note that the first raster image holding unit 14 can store a plurality of raster image data. For that purpose, the first raster image holding unit 1
In No. 4, in order to identify each raster image data, a unique (unique) index name is assigned to each raster image data.

【0027】第一特徴量抽出部15は、第一ラスター画
像保持部14が蓄積したラスター画像データからその画
像特徴量を抽出するものである。つまり、第一特徴量抽
出部15は、本発明における第一の特徴量抽出手段とし
て機能するものである。画像特徴量とは、画像全体の色
調、縦横比、輝度や色の分布状態、エッジの分布状態、
平坦なエリアの分布状態等、その画像の物理的な特徴量
のことであり、数値として求まる量のことをいう。第一
特徴量抽出部15では、ラスター画像データから複数種
類の特徴量を抽出するが、ここではこれら複数の特徴量
をまとめて画像特徴量と呼ぶものとする。
The first feature amount extracting unit 15 extracts the image feature amount from the raster image data accumulated by the first raster image holding unit 14. That is, the first feature value extraction unit 15 functions as a first feature value extraction unit in the present invention. Image features are the color tone, aspect ratio, brightness and color distribution, edge distribution,
It is a physical characteristic amount of the image such as a distribution state of a flat area, and is an amount obtained as a numerical value. The first feature amount extraction unit 15 extracts a plurality of types of feature amounts from the raster image data. Here, the plurality of feature amounts are collectively referred to as an image feature amount.

【0028】特徴量蓄積部16は、第一特徴量抽出部1
5が抽出した画像特徴量(数値データ)を蓄積しておく
ものである。ただし、特徴量蓄積部16では、複数のラ
スター画像データに対応した画像特徴量を蓄積し得るよ
うになっている。
The feature amount accumulating unit 16 includes the first feature amount extracting unit 1
Reference numeral 5 stores the extracted image feature amount (numerical data). However, the feature amount storage unit 16 can store image feature amounts corresponding to a plurality of raster image data.

【0029】関連データ蓄積部17は、文書データ保持
部12が受け取った電子文書データ、ラスター画像作成
部13が展開し第一ラスター画像保持部14が蓄積して
いるラスター画像データ、および第一特徴量抽出部15
が抽出し特徴量蓄積部16が蓄積している画像特徴量の
間の関連性についての情報を、記録保持しておくもので
ある。具体的には、例えば、電子文書データのファイル
名とその保管蓄積場所や、ラスター画像データのインデ
ックス名等を、互いに関連付けて記録保持するようにな
っている。つまり、関連データ蓄積部17は、本発明に
おける関連性保持手段として機能するものである。
The related data storage unit 17 stores the electronic document data received by the document data storage unit 12, the raster image data developed by the raster image creation unit 13 and stored in the first raster image storage unit 14, and the first feature. Quantity extraction unit 15
The information about the relevance between the image feature values extracted by the feature amount storage unit 16 is stored. Specifically, for example, the file name of the electronic document data and its storage and storage location, the index name of the raster image data, and the like are recorded and held in association with each other. That is, the related data storage unit 17 functions as a relation holding unit in the present invention.

【0030】画像入力部18は、例えばスキャナ装置か
らなるもので、紙文書として印刷出力された原稿に描か
れた画像を光学的に読み取って、その原稿からラスター
画像データを取得するものである。つまり、画像入力部
18は、本発明における画像取得手段として機能するも
のである。ただし、画像入力部18は、電子文書検索装
置1内に設けられたものではなく、ネットワーク4を介
して電子文書検索装置1と接続するものであってもよ
い。
The image input unit 18 comprises, for example, a scanner device, and optically reads an image drawn on a document printed and output as a paper document, and acquires raster image data from the document. That is, the image input unit 18 functions as an image acquisition unit in the present invention. However, the image input unit 18 may not be provided in the electronic document search device 1 but may be connected to the electronic document search device 1 via the network 4.

【0031】第二ラスター画像保持部19は、画像入力
部18が取得したラスター画像データを保持するもので
ある。
The second raster image holding section 19 holds the raster image data acquired by the image input section 18.

【0032】第二特徴量抽出部20は、第一特徴量抽出
部15と同様にして、第二ラスター画像保持部19が保
持したラスター画像データからその画像特徴量を抽出す
るものである。つまり、第二特徴量抽出部20は、本発
明における第二の特徴量抽出手段として機能するもので
ある。第二特徴量抽出部20が抽出する画像特徴量は、
後述する処理動作において検索キーとして用いられるも
のである。そこで、以下、この第二特徴量抽出部20に
よる画像特徴量を「キー特徴量」と呼ぶものとする。
The second feature value extracting unit 20 extracts the image feature value from the raster image data held by the second raster image holding unit 19 in the same manner as the first feature value extracting unit 15. That is, the second feature value extraction unit 20 functions as a second feature value extraction unit in the present invention. The image feature amount extracted by the second feature amount extraction unit 20 is:
It is used as a search key in a processing operation described later. Therefore, hereinafter, the image feature amount by the second feature amount extraction unit 20 will be referred to as “key feature amount”.

【0033】類似画像検索部21は、特徴量蓄積部16
が蓄積している画像特徴量群の中から、第二特徴量抽出
部20が抽出したキー特徴量と類似した特徴量を持つラ
スター画像データを検索するものである。すなわち、類
似画像検索部21は、第一特徴量抽出部15が抽出した
画像特徴量と第二特徴量抽出部20が抽出したキー特徴
量との類似性を判断するものであり、本発明における類
似検索手段として機能するものである。
The similar image search unit 21 is provided with the feature amount accumulation unit 16
Is searched for raster image data having a feature amount similar to the key feature amount extracted by the second feature amount extraction unit 20 from among the image feature amount group stored in the image feature group. That is, the similar image search unit 21 determines the similarity between the image feature amount extracted by the first feature amount extraction unit 15 and the key feature amount extracted by the second feature amount extraction unit 20. It functions as a similar search means.

【0034】検索結果出力部22は、類似画像検索部2
1による類似性の判断結果と、関連データ蓄積部17が
記録保持している情報群とに基づいて、画像入力部18
が取得したラスター画像データに対応する電子文書デー
タを特定し、その特定の結果を電子文書データについて
の検索結果として出力するものである。つまり、検索結
果出力部22は、本発明における画像特定手段として機
能するものである。
The search result output unit 22 is provided with the similar image search unit 2
1 based on the result of the similarity determination by the information processing unit 1 and the information group recorded and held by the related data storage unit 17.
Specifies the electronic document data corresponding to the acquired raster image data, and outputs the specified result as a search result for the electronic document data. That is, the search result output unit 22 functions as an image specifying unit in the present invention.

【0035】なお、上述した各部のうち、画像入力部1
8以外の各部は、例えば、所定プログラムを実行するC
PU(Central Processing Unit)、メモリとして機能す
るRAM(Random Access Memory)やHDD、CRT
(Cathode Ray Tube)等のディスプレイといった、一般
的なコンピュータ資源を用いて構成すればよい。
The image input unit 1 among the above-mentioned units is used.
8 are, for example, C that execute a predetermined program.
PU (Central Processing Unit), RAM (Random Access Memory) functioning as memory, HDD, CRT
(Cathode Ray Tube) or other general computer resources such as a display.

【0036】次に、以上のように構成された電子文書検
索装置1における処理動作例、すなわち本実施形態にお
ける電子文書検索方法について説明する。図2は画像特
徴量の抽出の一例を示す概念図であり、図3は電子文書
データとラスター画像データと画像特徴量との関連性に
ついての情報の具体例を示す概念図であり、図4は本発
明に係る電子文書検索方法の第1の実施の形態における
概略手順を示すフローチャートであり、図5は電子文書
データの検索結果の表示出力例を示す概念図である。
Next, an example of a processing operation in the electronic document search apparatus 1 configured as described above, that is, an electronic document search method in the present embodiment will be described. FIG. 2 is a conceptual diagram showing an example of extraction of an image feature amount, and FIG. 3 is a conceptual diagram showing a specific example of information on the relevance between electronic document data, raster image data, and an image feature amount. Is a flowchart showing a schematic procedure in the first embodiment of the electronic document search method according to the present invention, and FIG. 5 is a conceptual diagram showing a display output example of a search result of electronic document data.

【0037】電子文書検索装置1では、電子文書データ
についての検索処理を行うのにあたって、PC2または
ファイルサーバー3に保管蓄積されている電子文書デー
タから予め特徴量を抽出する処理が必要である。先ず、
このプロセス処理を説明する。なお、このプロセス処理
は、後述するように、自動的にある一定時間をおいて実
行される。
In the electronic document search device 1, when performing a search process for electronic document data, it is necessary to perform a process of extracting a feature amount from electronic document data stored and stored in the PC 2 or the file server 3 in advance. First,
This process will be described. This process is automatically executed after a certain period of time, as described later.

【0038】電子文書検索装置1は、ネットワークイン
ターフェース部11を介してPC2のHDDまたはファ
イルサーバー3に保管蓄積されている電子文書データを
取得し、その電子文書データを文書データ保持部12に
蓄積する。すなわち、電子文書検索装置1は、PC2ま
たはファイルサーバー3に保管蓄積されている電子文書
データを文書データ保持部12内にコピーする。
The electronic document search device 1 acquires electronic document data stored and stored in the HDD of the PC 2 or the file server 3 via the network interface unit 11 and stores the electronic document data in the document data holding unit 12. . That is, the electronic document search device 1 copies the electronic document data stored and stored in the PC 2 or the file server 3 into the document data holding unit 12.

【0039】文書データ保持部12が電子文書データを
蓄積すると、続いて、ラスター画像作成部13は、蓄積
された電子文書データをラスター画像データに展開す
る。なお、電子文書データからラスター画像データへの
展開については、周知技術を利用しているため、ここで
はその説明を省略する。また、ラスター画像データは非
常にデータ量が大きいので、ラスター画像作成部13で
は、多数のファイル(電子文書データ)を同時に処理す
るのではなく、一つの電子文書データ毎に順次ラスター
画像データへの展開を行うものとする。
When the document data holding unit 12 stores the electronic document data, the raster image creating unit 13 expands the stored electronic document data into raster image data. In addition, since the well-known technology is used for developing the electronic document data into the raster image data, the description thereof is omitted here. Further, since the amount of raster image data is very large, the raster image creating unit 13 does not process a large number of files (electronic document data) at the same time, but sequentially converts the raster image data for each electronic document data. It shall be expanded.

【0040】ただし、このとき、一つの電子文書データ
が複数のページで構成されていれば、ラスター画像作成
部13は、その電子文書データから各ページ毎に複数の
ラスター画像データを生成する。
However, at this time, if one piece of electronic document data is composed of a plurality of pages, the raster image creating section 13 generates a plurality of raster image data for each page from the electronic document data.

【0041】また、ラスター画像作成部13は、展開す
べき電子文書データで使用している色成分の種類数に応
じて、作成するラスター画像データの画素毎のビット数
を決定する。例えば、電子文書データが白黒の2値のみ
を利用した文書を表すものであれば、作成されるラスタ
ー画像データは、画素毎に1bit(1bit/pixel)のビットマ
ップデータとなる。また、電子文書データが写真画像の
ように多数の色成分を使用したものであれば、作成され
るラスター画像データは、画素毎に24bit(24bit/pixel)
のビットマップデータとなる。
Further, the raster image creating section 13 determines the number of bits for each pixel of the raster image data to be created according to the number of types of color components used in the electronic document data to be developed. For example, if the electronic document data represents a document using only black and white binary, the generated raster image data is 1-bit (1 bit / pixel) bitmap data for each pixel. If the electronic document data uses many color components like a photographic image, the raster image data to be created is 24 bits (24 bits / pixel) for each pixel.
Bitmap data.

【0042】さらに、ラスター画像作成部13は、ラス
ター画像データへの展開を行う際に、そのラスター画像
データの解像度を決定する。具体的には、電子文書デー
タの内部でラスター画像データに展開するときの解像度
が指定されていれば、ラスター画像作成部13は、その
指定された解像度でラスター画像データを生成する。ま
た、電子文書データ内部で解像度が指定されていなけれ
ば、ラスター画像作成部13は、予め設定された解像度
(ディフォルト値)でラスター画像データを作成する。こ
のときの解像度は、小さすぎると(粗すぎると)ラスタ
ー画像データを作成したときに画像が持つ情報が失われ
る可能性があり、また大きすぎると(細かすぎると)扱
う画像のデータ量が膨大になる。そのため、解像度の指
定がなければ、画像が持つ情報も保持され、かつ、扱う
データ量も適当であることから、72〜300dpi
(dot/inch)程度の解像度とすることが好ましい。
Further, the raster image creating section 13 determines the resolution of the raster image data when developing the raster image data. Specifically, if a resolution for rasterizing to raster image data is specified in the electronic document data, the raster image creating unit 13 generates the raster image data at the specified resolution. If the resolution is not specified in the electronic document data, the raster image creating unit 13 uses the preset resolution.
Create raster image data with (default value). If the resolution at this time is too small (too coarse), the information of the image may be lost when the raster image data is created, and if it is too large (too fine), the data amount of the image to be handled is enormous. become. Therefore, if the resolution is not specified, the information of the image is retained and the amount of data to be handled is appropriate.
(Dot / inch).

【0043】ラスター画像作成部13がラスター画像デ
ータを作成した後には、文書データ保持部12に蓄積さ
れた電子文書データを消去する。この文書データ保持部
12に蓄積されている電子文書データは、ファイルサー
バー3等にある電子文書データのコピーなので、消去し
ても問題はない。このように、ラスター画像データ作成
後にコピーされた電子文書データを消去することで、電
子文書データ保持部12の蓄積容量を少ない容量で実現
可能としている。
After the raster image creating unit 13 creates the raster image data, the electronic document data stored in the document data holding unit 12 is deleted. Since the electronic document data stored in the document data holding unit 12 is a copy of the electronic document data in the file server 3 or the like, there is no problem even if it is deleted. In this manner, by deleting the electronic document data copied after the raster image data is created, the storage capacity of the electronic document data holding unit 12 can be realized with a small capacity.

【0044】ラスター画像作成部13がラスター画像デ
ータを作成すると、続いて、第一ラスター画像保持部1
4は、ラスター画像作成部13によって作成されたラス
ター画像データを蓄積する。このとき、ラスター画像デ
ータには、そのラスター画像データを他のラスター画像
データと識別できるよう、独自のインデックス名が付与
される。
When the raster image creating unit 13 creates the raster image data, subsequently, the first raster image holding unit 1
Reference numeral 4 stores the raster image data created by the raster image creating unit 13. At this time, a unique index name is assigned to the raster image data so that the raster image data can be distinguished from other raster image data.

【0045】第一ラスター画像保持部14がラスター画
像データを蓄積すると、続いて、第一特徴量抽出部15
は、第一ラスター画像保持部14に蓄積されているラス
ター画像データからその画像特徴量を抽出する。
When the first raster image holding unit 14 stores the raster image data, the first feature amount extracting unit 15
Extracts the image feature amount from the raster image data stored in the first raster image holding unit 14.

【0046】ここで、この第一特徴量抽出部15による
画像特徴量の抽出について簡単に説明する。第一特徴量
抽出部15は、画像特徴量の抽出にあたって、例えば図
2に示すように、抽出元となるラスター画像データを複
数のブロックに分割し、分割されたブロック画像毎に明
度、彩度、色相などの色に関する特徴量や、エッジ量な
どの構造に関する特徴量を抽出する。図例では、ラスタ
ー画像データを5×4の合計20ブロックに分割してい
るので、一つのラスター画像データから明度、彩度、エ
ッジ量の各々の数値が5×4づつ算出され、図2に記載
したようなマトリックス状に表現することができる。な
お、これら個々の特徴量の抽出は、既存の手法を利用し
て行えばよい。
Here, the extraction of the image feature by the first feature extractor 15 will be briefly described. When extracting the image feature amount, the first feature amount extraction unit 15 divides the raster image data as an extraction source into a plurality of blocks as shown in FIG. , A feature amount related to a color such as a hue, and a feature amount related to a structure such as an edge amount. In the example shown in the figure, since the raster image data is divided into a total of 20 blocks of 5 × 4, each value of brightness, saturation, and edge amount is calculated 5 × 4 from one raster image data. It can be expressed in a matrix as described. The extraction of these individual feature amounts may be performed using an existing method.

【0047】このようにして第一特徴量抽出部15が画
像特徴量を抽出すると、続いて、特徴量蓄積部16は、
その画像特徴量の数値データをラスター画像データ毎に
蓄積する。すなわち、特徴量蓄積部16では、第一ラス
ター画像保持部14が複数のラスター画像データを蓄積
するのに対応して、複数のラスター画像データの画像特
徴量をそれぞれ蓄積することが可能となっている。
After the first feature value extraction unit 15 extracts the image feature value in this manner, subsequently, the feature value accumulation unit 16
The numerical data of the image feature amount is stored for each raster image data. That is, the feature amount storage unit 16 can store the image feature amounts of the plurality of raster image data in correspondence with the first raster image holding unit 14 storing the plurality of raster image data. I have.

【0048】一方で、関連データ蓄積部17は、第一ラ
スター画像保持部14が蓄積するラスター画像データに
ついて、その元となった電子文書データと抽出された画
像特徴量との関連性についての情報を、関連データとし
て記録保持する。
On the other hand, the related data storage unit 17 stores information on the relevancy between the original electronic document data and the extracted image feature amount of the raster image data stored in the first raster image holding unit 14. Is recorded and held as related data.

【0049】ここで、この関連データ蓄積部17が記録
保持する関連データについて簡単に説明する。関連デー
タは、例えば図4に示すように、一つの電子文書データ
で1行分のデータを構成しており、行の先頭から電子文
書データのファイル名、保管蓄積場所(アドレス等)、
ページ数、そして作成されたラスター画像のインデック
ス名がページ数分続くように配置されている。一つの文
書ファイルから複数個のラスター画像が作成されている
が、どのラスター画像が、どの文書ファイルから作成さ
れたのかという関連性が保持されている。
Here, the related data recorded and held by the related data storage unit 17 will be briefly described. As shown in FIG. 4, for example, the related data is composed of one line of data of one piece of electronic document data. From the beginning of the line, the file name of the electronic document data, the storage location (address, etc.)
The number of pages and the index name of the created raster image are arranged so as to continue for the number of pages. A plurality of raster images are created from one document file, but the relevance of which raster image was created from which document file is maintained.

【0050】例えば、図中の1行目のデータは、電子文
書データのファイル名が「Docu1.doc」であり、その電
子文書データの保管蓄積場所は「DB1」というファイ
ルサーバー3であることを示している。次の数字「3」
は電子文書データ「Docu1.doc」が3ページで構成され
るものであることを示している。その次に続く3つの文
字列「Docu1_img0」,「Docu1_img1」,「Docu1_i
mg2」は電子文書データ「Docu1.doc」から作成された
ラスター画像データのインデックス名をそれぞれ示して
いる。
For example, in the data on the first line in the figure, the file name of the electronic document data is "Docu1.doc", and the storage location of the electronic document data is the file server 3 "DB1". Is shown. The next number "3"
Indicates that the electronic document data “Docu1.doc” is composed of three pages. The next three character strings "Docu1_img0", "Docu1_img1", and "Docu1_i
“mg2” indicates an index name of raster image data created from the electronic document data “Docu1.doc”.

【0051】関連データ蓄積部17では、このようにし
て関連データの記録保持を行う。なお、この関連データ
蓄積部17も、第一ラスター画像保持部14および特徴
量蓄積部16と同様に、複数の関連データの記録保持に
対応し得るようになっている。
The related data storage unit 17 records and holds related data in this manner. It should be noted that the related data storage unit 17 can also support recording and holding of a plurality of related data, similarly to the first raster image storage unit 14 and the feature amount storage unit 16.

【0052】以上のような、電子文書データを取得して
ラスター画像データを作成しその画像特徴量を抽出する
プロセス処理は、自動的にある一定時間をおいて実行さ
れる。ただし、一定時間をおいた後に再び実行する際に
は、新たにファイルサーバー3等に保管蓄積された電子
文書データおよび前回のプロセス処理実行時の後に変更
が加えられた電子文書データのみに対して行う。このこ
とにより、プロセス処理を実行する際の処理するデータ
量の削減をはかり、高速処理を可能としている。
The above-described process of acquiring the electronic document data, creating the raster image data, and extracting the image feature amount is automatically executed after a certain period of time. However, when re-executing after a certain period of time, only the electronic document data newly stored and accumulated in the file server 3 and the like and the electronic document data that has been changed after the execution of the previous process processing will be deleted. Do. As a result, the amount of data to be processed when executing the process processing is reduced, and high-speed processing is enabled.

【0053】上述したプロセス処理が行われた後に、電
子文書検索装置1では、電子文書データについての検索
処理を行い得るようになる。次いで、この検索処理を行
うプロセスについて説明する。
After the above-described process is performed, the electronic document search device 1 can perform a search for electronic document data. Next, a process for performing this search processing will be described.

【0054】電子文書データについての検索処理を行う
のにあたっては、先ず、図4に示すように、元の電子文
書データを検索したい紙原稿を、電子文書検索装置1の
ユーザが画像入力部18にセットし、その画像入力部1
8のスタートボタンを押下する(ステップ101、以下
ステップを「S」と略す)。これにより、電子文書デー
タの検索処理が開始される。
In performing a search process on electronic document data, first, as shown in FIG. 4, a user of the electronic document search apparatus 1 inputs a paper document whose original electronic document data is to be searched into the image input unit 18. Set the image input unit 1
The user presses the start button No. 8 (step 101; hereinafter, steps are abbreviated as “S”). Thus, the search processing of the electronic document data is started.

【0055】スタートボタンが押下されると、画像入力
部18は、原稿に描かれた画像の読み込みを開始する。
ただし、このとき、画像入力部18に自動紙送り機構が
設けられていれば、原稿がセットされると自動的に画像
読み込み動作を開始するような構成にすることも考えら
れる。
When the start button is pressed, the image input section 18 starts reading an image drawn on the document.
However, at this time, if the image input unit 18 is provided with an automatic paper feed mechanism, a configuration may be considered in which an image reading operation is automatically started when a document is set.

【0056】画像入力部18が画像読み込み動作によっ
て原稿からラスター画像データを取得すると、そのラス
ター画像データの第二ラスター画像保持部19での保持
を経た後に、第二特徴量抽出部20は、第二ラスター画
像保持部19に保持されているラスター画像データから
キー特徴量の抽出を行う(S102)。抽出するキー特
徴量は、第一特徴量抽出部15が抽出した画像特徴量と
同様のものである。
When the image input unit 18 obtains raster image data from a document by an image reading operation, after the raster image data is held in the second raster image holding unit 19, the second feature amount extracting unit 20 The key feature amount is extracted from the raster image data held in the second raster image holding unit 19 (S102). The extracted key feature amounts are the same as the image feature amounts extracted by the first feature amount extraction unit 15.

【0057】そして、第二特徴量抽出部20がキー特徴
量を抽出すると、類似画像検索部21は、そのキー特徴
量と特徴量蓄積部16が蓄積している画像特徴量群との
間の類似度を算出する(S103)。
When the second feature value extraction unit 20 extracts the key feature value, the similar image search unit 21 compares the key feature value with the image feature value group stored in the feature value storage unit 16. The similarity is calculated (S103).

【0058】類似度の算出は、既存の類似画像検索で用
いられる手法を利用すればよい。例えば、キー特徴量や
各々のラスター画像データの画像特徴量をベクトルとし
て捉えて、キー特徴量ベクトルと各々のラスター画像デ
ータの特徴量ベクトルとの距離を算出して、これを特徴
量における類似度とし、そしてキー特徴量ベクトルと最
も近い特徴量ベクトルをキー特徴量に最も類似した画像
特徴量と判断すればよい。さらに具体的には、例えば特
開平11−53541号公報に開示されているようにベ
クトル量を用いて類似度を判断したり、特開平11−1
10556号公報に開示されているようにヒストグラム
を用いて類似度を判断することが考えられる。
The similarity may be calculated using a method used in existing similar image retrieval. For example, the key feature amount and the image feature amount of each raster image data are taken as a vector, and the distance between the key feature amount vector and the feature amount vector of each raster image data is calculated. Then, the feature amount vector closest to the key feature amount vector may be determined as the image feature amount most similar to the key feature amount. More specifically, for example, similarity is determined using vector quantities as disclosed in JP-A-11-53541, or disclosed in
It is conceivable to determine the similarity using a histogram as disclosed in Japanese Patent No. 10556.

【0059】このようにして類似度を算出すると、類似
画像検索部21は、その算出結果を基に、類似度の高い
順に数個のラスター画像データをピックアップする(S
104)。このピックアップする個数は、予め定められ
ており、例えば5〜10件程度が適当である。
When the similarity is calculated in this way, the similar image search unit 21 picks up several pieces of raster image data in descending order of similarity based on the calculation result (S).
104). The number to be picked up is determined in advance, and for example, about 5 to 10 is appropriate.

【0060】そして、類似画像検索部21では、ピック
アップした中で最も類似度の高いものについて、その類
似度の算出結果が予め定められた基準値以下であるか否
かを判断する(S105)。この判断の結果、類似度の
算出結果が基準値以下でなければ、類似画像検索部21
は、ピックアップした各ラスター画像データのインデッ
クス名を、キー特徴量に類似した特徴量を持つラスター
画像データの検索結果として、検索結果出力部22へ出
力する。また、類似度の算出結果が基準値以下であれ
ば、類似画像検索部21は、該当する文書がない可能性
があると認識して、「該当電子文書データなし」という
旨のメッセージを検索結果出力部22へ出力する。
Then, the similar image search unit 21 determines whether the calculation result of the similarity of the picked-up image having the highest similarity is equal to or less than a predetermined reference value (S105). If the result of this determination is that the similarity calculation result is not less than or equal to the reference value, the similar image search unit 21
Outputs the index name of each picked-up raster image data to the search result output unit 22 as a search result of raster image data having a feature amount similar to the key feature amount. If the calculation result of the similarity is equal to or smaller than the reference value, the similar image search unit 21 recognizes that there is a possibility that there is no corresponding document, and outputs a message indicating “no corresponding electronic document data” to the search result. Output to the output unit 22.

【0061】類似画像検索部21からラスター画像デー
タのインデックス名が送られてきた場合に、検索結果出
力部22は、そのインデックス名と、関連データ蓄積部
17に記録保持された関連データとから、インデックス
名が付されたラスター画像データの元となった電子文書
データのファイル名と保管蓄積場所について情報を取得
する。つまり、検索結果出力部22は、キー特徴量から
ラスター画像データが検索されると、その検索結果と関
連データとを参照しつつ電子文書データを特定すること
ができる。しかも、このとき、検索結果出力部22は、
画像入力部18が取得したラスター画像データが1ペー
ジ分のみであっても、結果として全ページ分の電子文書
データを特定することができる。
When the index name of the raster image data is sent from the similar image search unit 21, the search result output unit 22 determines the index name and the related data stored and stored in the related data storage unit 17. Information is acquired on the file name and storage location of the electronic document data from which the raster image data with the index name is attached. That is, when the raster image data is searched from the key feature amount, the search result output unit 22 can specify the electronic document data while referring to the search result and the related data. Moreover, at this time, the search result output unit 22
Even if the raster image data obtained by the image input unit 18 is only for one page, as a result, the electronic document data for all pages can be specified.

【0062】電子文書データを特定すると、続いて、検
索結果出力部22は、例えば図5に示すように、その旨
および特定した電子文書データのファイル名と保管蓄積
場所に関する情報を、電子文書検索装置1のユーザに対
してディスプレイ表示する(S106)。このとき、検
索結果出力部22は、類似画像検索部21がピックアッ
プしたラスター画像データに対応する全ての電子文書デ
ータについてその情報を表示しても、あるいは最も類似
度の高いラスター画像データに対応する電子文書データ
のみについてその情報を表示してもよい。
When the electronic document data is specified, the search result output unit 22 then transmits the electronic document data to that effect and the file name and storage location of the specified electronic document data as shown in FIG. 5, for example. A display is displayed to the user of the device 1 (S106). At this time, the search result output unit 22 displays the information on all the electronic document data corresponding to the raster image data picked up by the similar image search unit 21 or corresponds to the raster image data with the highest similarity. The information may be displayed only for the electronic document data.

【0063】検索結果出力部22によって該当文書が存
在する旨のディスプレイ表示がなされた場合には、電子
文書検索装置1のユーザは、ディスプレイ上でその文書
の送付先を指定することができる(S107)。送付先
としては、例えば電子メールのアドレス等を指定する。
このとき、頻繁に利用する電子メールのアドレスは、予
め登録しておき、番号等の記―ワードで呼び出せるよう
にしておくとよい。
When the display result indicating that the relevant document exists is displayed by the search result output unit 22, the user of the electronic document search device 1 can specify the destination of the document on the display (S107). ). As the destination, for example, an e-mail address or the like is specified.
At this time, the e-mail address that is frequently used is preferably registered in advance so that the e-mail address can be called up using a word such as a number.

【0064】検索結果出力部22は、送付先に電子メー
ルアドレスが指定されると、そのメールアドレスに該当
電子文書データを添付した電子メールを送付する。メー
ル本文には、該当電子文書データのファイル名とその保
管場所などの情報を記載する。ただし、該当電子文書デ
ータの容量が非常に大きい場合には、その電子文書デー
タを電子メールに添付しないで、ユーザがその文書をダ
ウンロードできるように、該当電子文書データの保管格
納先のリンクアドレスなどをメール本文に記載する。
When an e-mail address is specified as the destination, the search result output section 22 sends an e-mail with the electronic document data attached to the e-mail address. Information such as the file name of the electronic document data and its storage location is described in the mail text. However, if the size of the electronic document data is very large, do not attach the electronic document data to the e-mail, but link the storage location of the electronic document data so that the user can download the document. In the body of the email.

【0065】また、送付先としては、ネットワーク4上
に接続されたプリンタ装置を指定することも可能であ
る。送付先にプリンタ装置が指定された場合には、検索
結果出力部22は、該当電子文書データがそのプリンタ
装置から出力されるよう印刷指示命令を発行する。
As a destination, a printer connected to the network 4 can be specified. When a printer device is specified as the destination, the search result output unit 22 issues a print instruction command so that the electronic document data is output from the printer device.

【0066】一方、類似画像検索部21から「該当電子
文書データなし」という旨のメッセージが送られてきた
場合には、検索結果出力部22では、電子文書検索装置
1のユーザに対してその旨、すなわち電子文書データが
見つからなかったというメッセージをディスプレイ表示
する(S109)。
On the other hand, when a message indicating that there is no corresponding electronic document data is sent from the similar image search unit 21, the search result output unit 22 informs the user of the electronic document search device 1 of the fact. That is, a message that no electronic document data was found is displayed on the display (S109).

【0067】以上のように、本実施形態における電子文
書検索装置1および電子文書検索方法によれば、請求項
1または請求項13に記載の発明の如く、ラスター画像
データという同一形式のデータへの変換を経た後に、そ
れぞれの類似性を判断し、その類似性が高いものを目的
の電子文書データとして特定するようになっている。し
たがって、検索処理のためにバーコードや暗号等の文書
管理情報を必要とすることなく、精度の高い検索処理の
実現が期待できる。しかも、ラスター画像データ、すな
わちその画像の描画内容を用いて検索処理が行われるこ
とから、どのような形式の文書画像データであっても対
応し得るようになる。
As described above, according to the electronic document search apparatus 1 and the electronic document search method of the present embodiment, as described in the first or thirteenth aspect, raster image data is converted to the same format data. After the conversion, the similarities are determined, and those having a high similarity are specified as the target electronic document data. Therefore, high-precision search processing can be expected without requiring document management information such as a barcode or encryption for the search processing. In addition, since the search processing is performed using the raster image data, that is, the drawing content of the image, any type of document image data can be handled.

【0068】これらのことから、文書作成者にとって
は、文書を作成してから時間が経過したり、文書画像デ
ータの保管場所を忘れてしまったりした場合であって
も、その電子文書データを容易かつ確実に取得し得るよ
うになる。また、これによって、電子文書データの持つ
再利用性、検索や分類の容易性等といった利便性を確保
することができるようになる。
For these reasons, even if time has elapsed since the document was created or the storage location of the document image data has been forgotten, the document creator can easily obtain the electronic document data. And it can be obtained reliably. Further, this makes it possible to secure the convenience of the electronic document data, such as reusability, ease of search and classification, and the like.

【0069】また、本実施形態における電子文書検索装
置1および電子文書検索方法では、請求項2または請求
項14に記載の発明の如く、紙文書として出力された原
稿からラスター画像データを取得し、これを基に電子文
書データの検索を行うようになっている。したがって、
電子文書データを紙文書として出力した場合であって
も、その紙文書の元となった電子文書データを検索する
ことができるようになる。つまり、電子文書データを紙
文書として出力した場合の利便性の低下を回避すること
ができる。
Further, in the electronic document search device 1 and the electronic document search method according to the present embodiment, raster image data is obtained from a document output as a paper document, Based on this, the electronic document data is searched. Therefore,
Even when the electronic document data is output as a paper document, it becomes possible to search for the electronic document data from which the paper document is based. That is, it is possible to avoid a decrease in convenience when the electronic document data is output as a paper document.

【0070】また、本実施形態における電子文書検索装
置1では、請求項5に記載の発明の如く、ラスター画像
作成部13がラスター画像データへの展開を行う際の解
像度を決定するようになっている。したがって、電子文
書データの内部でラスター画像データに展開するときの
解像度が指定されていれば、それを反映することでその
電子文書データに適した解像度のラスター画像データが
得られる。また、解像度の指定がなければ、予め設定さ
れた解像度(ディフォルト値)とすることで、画像が持つ
情報が失われたり、扱う画像のデータ量が膨大になって
しまうのを防ぐことができる。
Further, in the electronic document retrieval apparatus 1 according to the present embodiment, as in the fifth aspect of the present invention, the resolution at which the raster image creating section 13 develops raster image data is determined. I have. Therefore, if the resolution for rasterizing to raster image data is specified in the electronic document data, by reflecting this, raster image data having a resolution suitable for the electronic document data can be obtained. If the resolution is not specified, by setting the resolution to a preset value (default value), it is possible to prevent the information of the image from being lost and the data amount of the image to be handled from becoming enormous.

【0071】また、本実施形態における電子文書検索装
置1では、請求項6に記載の発明の如く、電子文書デー
タが複数のページで構成されている場合に、ラスター画
像作成部13が各ページ毎にラスター画像データへの展
開を行うようになっている。したがって、画像入力部1
8が取得したラスター画像データが1ページ分のみであ
っても、その元となった電子文書データの全ページ分に
ついての検索が行い得るようになる。
In the electronic document retrieval apparatus 1 according to the present embodiment, when the electronic document data is composed of a plurality of pages, the raster image creating unit 13 The raster image data is expanded to raster image data. Therefore, the image input unit 1
Even if the raster image data acquired by 8 is only one page, the search can be performed for all pages of the original electronic document data.

【0072】また、本実施形態における電子文書検索装
置1では、請求項7に記載の発明の如く、電子文書デー
タを構成する色成分の種類数に応じて、ラスター画像作
成部13がラスター画像データのデータ量を可変させる
ようになっている。具体的には、例えば、白黒画像につ
いては各画素1bitのビットマップデータに展開し、フル
カラー画像については各画素24bitのビットマップデー
タに展開する。したがって、白黒/フルカラーの双方に
対応しつつ、必要に応じて(例えば白黒画像に対応する
場合)には、ラスター画像データのデータ量を削減する
ことで、メモリ資源の有効活用と処理の迅速化が図れる
ようになる。
Further, in the electronic document search device 1 according to the present embodiment, the raster image creating section 13 performs the raster image data generation in accordance with the number of types of color components constituting the electronic document data. Is made variable. Specifically, for example, a monochrome image is developed into bitmap data of 1 bit for each pixel, and a full-color image is developed into bitmap data of 24 bits for each pixel. Therefore, while supporting both black and white and full color, if necessary (for example, when supporting a black and white image), the amount of raster image data is reduced, thereby effectively utilizing memory resources and speeding up processing. Can be achieved.

【0073】また、本実施形態における電子文書検索装
置1では、請求項8および9に記載の発明の如く、ラス
ター画像データの画像特徴量として、そのラスター画像
データを構成する色成分値の分布状態およびそのラスタ
ー画像データ中におけるエッジ量の分布状態を抽出して
いるので、的確に画像上の特徴点を把握することがで
き、結果として電子文書データの検索精度の向上に繋が
る。なお、ラスター画像データの画像特徴量は、これに
限られるものではなく、いずれか一方のみであっても、
あるいは全く他の特徴量を使用するようにしてものよ
い。
Further, in the electronic document retrieval apparatus 1 according to the present embodiment, the distribution state of the color component values constituting the raster image data is defined as the image feature amount of the raster image data. In addition, since the distribution state of the edge amount in the raster image data is extracted, the feature points on the image can be accurately grasped, and as a result, the retrieval accuracy of the electronic document data is improved. In addition, the image feature amount of the raster image data is not limited to this, and even if only one of them,
Alternatively, completely other feature values may be used.

【0074】また、本実施形態における電子文書検索装
置1では、請求項10に記載の発明の如く、関連データ
として、電子文書データのファイル名および記憶蓄積先
並びにラスター画像データのインデックス名を、互いに
関連付けて保持するようになっている。したがって、必
要以上のメモリ容量を要することなく、電子文書データ
を特定するために必要十分な情報を記録保持することが
でき、結果として電子文書データの検索処理の確実性お
よび迅速性を高めることとなる。
Further, in the electronic document search device 1 according to the present embodiment, the file name and storage location of the electronic document data and the index name of the raster image data are associated with each other as related data. It is designed to be associated and stored. Therefore, it is possible to record and hold necessary and sufficient information for specifying the electronic document data without requiring an excessive memory capacity. As a result, it is possible to improve the reliability and speed of the search processing of the electronic document data. Become.

【0075】また、本実施形態における電子文書検索装
置1では、請求項11に記載の発明の如く、画像特徴量
とキー特徴量とのそれぞれをベクトル化し、ベクトルの
状態で比較することで、その類似性を判断しているの
で、その類似性の判断が適正かつ確実なものとなり、結
果として電子文書データの検索精度の向上に繋がる。
In the electronic document retrieval apparatus 1 according to the present embodiment, each of the image feature amount and the key feature amount is vectorized and compared in a vector state, as in the invention of claim 11. Since the similarity is determined, the determination of the similarity is proper and reliable, and as a result, the search accuracy of the electronic document data is improved.

【0076】また、本実施形態における電子文書検索装
置1では、請求項12に記載の発明の如く、類似度の算
出結果が基準値以下であれば、該当電子文書データなし
と判断し、検索結果出力部22がその旨を伝えるメッセ
ージを出力するようになっている。したがって、該当す
る電子文書データがないのにもかかわらず、最も類似す
るものが検索結果として出力されてしまうといったこと
を防ぐことができ、電子文書検索装置1を使用するユー
ザにとっては非常に利便性の高いものとなる。
In the electronic document search apparatus 1 according to the present embodiment, if the result of similarity calculation is equal to or smaller than the reference value, it is determined that there is no corresponding electronic document data, and the search result is obtained. The output unit 22 outputs a message to that effect. Therefore, it is possible to prevent the most similar data from being output as a search result even though there is no corresponding electronic document data. This is very convenient for a user who uses the electronic document search device 1. Will be high.

【0077】〔第2の実施の形態〕次に、請求項3に記
載の発明に係る電子文書検索装置および請求項15に記
載の発明に係る電子文書検索方法について説明する。た
だし、ここでは、上述した第1の実施の形態との相違点
についてのみ説明するものとする。
[Second Embodiment] Next, an electronic document retrieval apparatus according to a third aspect of the present invention and an electronic document retrieval method according to a fifteenth aspect will be described. However, here, only the differences from the above-described first embodiment will be described.

【0078】先ず、本実施形態における電子文書検索装
置の概略構成について説明する。図6は、本発明に係る
電子文書検索装置の第2の実施の形態における概略構成
例を示すブロック図である。なお、図中において、第1
の実施の形態の場合と同一の構成要素については同一の
符号を付している。
First, a schematic configuration of the electronic document search device according to the present embodiment will be described. FIG. 6 is a block diagram showing a schematic configuration example of the electronic document search device according to the second embodiment of the present invention. In the figure, the first
The same reference numerals are given to the same components as those in the embodiment.

【0079】本実施形態の電子文書検索装置1aは、紙
文書として印刷出力された原稿から元の電子文書データ
を検索するのではなく、閲覧表示に特化した修正不可能
な電子文書データから元の電子文書データを検索して、
その電子文書データをユーザに提供するものである。
The electronic document retrieval apparatus 1a of this embodiment does not retrieve original electronic document data from a document printed and output as a paper document, but retrieves the original electronic document data which cannot be modified from the original document data specialized for browsing display. Search the electronic document data of
The electronic document data is provided to the user.

【0080】そのために、この電子文書検索装置1aで
は、第1の実施の形態で説明した画像入力部18に代わ
って、文書データ指定部23と、第二ラスター画像作成
部24と、を備えて構成されている。
For this purpose, the electronic document search device 1a includes a document data designating unit 23 and a second raster image creating unit 24 instead of the image input unit 18 described in the first embodiment. It is configured.

【0081】文書データ指定部23は、例えば、電子文
書検索装置1aのユーザが操作するためのインターフェ
ースと、フロッピー(登録商標)ディスク(以下「F
D」と略称する)や光磁気ディスク(以下「MO」と略
称する)等の記憶媒体またはネットワーク4上のサーバ
ー装置(ただし不図示)から電子データを取得するため
のI/O(Input/Output)装置とからなるもので、ユー
ザによって電子データが指定されると、その指定された
電子データを記憶媒体またはサーバー装置から取得する
ものである。つまり、文書データ指定部23は、本発明
におけるデータ指定手段およびデータ取得手段として機
能するものである。
The document data specifying section 23 includes, for example, an interface for the user of the electronic document search device 1a to operate and a floppy (registered trademark) disk (hereinafter referred to as “F
D) and an I / O (Input / Output) for acquiring electronic data from a storage medium such as a magneto-optical disk (hereinafter abbreviated as “MO”) or a server device (not shown) on the network 4. ) Device, and when electronic data is specified by a user, the specified electronic data is obtained from a storage medium or a server device. That is, the document data specifying unit 23 functions as a data specifying unit and a data obtaining unit in the present invention.

【0082】この文書データ指定部23が取得する電子
データは、画像を出力するためのデータであり、さらに
は閲覧表示することに特化した、修正、再利用が不可能
な形態のデータ(以下、この電子データを「閲覧文書デ
ータ」という)であるものとする。このような閲覧文書
データとしては、例えば米国アドビ社のPDFによるも
のがある。
The electronic data acquired by the document data designating section 23 is data for outputting an image, and is data specialized in browsing and displaying, in a form which cannot be modified and reused (hereinafter referred to as “data”). This electronic data is referred to as “browsing document data”). Such browsing document data is, for example, PDF data from Adobe in the United States.

【0083】第二ラスター画像作成部24は、ラスター
画像作成部13と同様にして、文書データ指定部23が
取得した閲覧文書データをラスター画像データに展開す
るものである。つまり、第二ラスター画像作成部24
は、本発明における第二の画像作成手段として機能する
ものである。なお、第二ラスター画像作成部24では、
ラスター画像作成部13と同様に、ラスター画像データ
の解像度を決定する機能を有していてもよい。
The second raster image creating section 24 expands the browsed document data acquired by the document data designating section 23 into raster image data in the same manner as the raster image creating section 13. That is, the second raster image creating unit 24
Functions as the second image creating means in the present invention. In the second raster image creating unit 24,
As in the case of the raster image creating unit 13, the function may be provided for determining the resolution of the raster image data.

【0084】次に、以上のように構成された電子文書検
索装置1aにおける処理動作例、すなわち本実施形態に
おける電子文書検索方法について説明する。図7は、電
子データの指定の概要を示す概念図である。
Next, an example of a processing operation in the electronic document search apparatus 1a configured as described above, that is, an electronic document search method in the present embodiment will be described. FIG. 7 is a conceptual diagram showing an outline of designation of electronic data.

【0085】電子文書検索装置1aでは、電子文書デー
タについての検索処理を行うのにあたって、先ず、第1
の実施の形態の場合と同様に、自動的にある一定時間を
おいて、ファイルサーバー3等に保管蓄積されている電
子文書データから特徴量を抽出するプロセス処理を行
う。
In performing a search process on electronic document data, the electronic document search device 1a first includes the first
As in the case of the first embodiment, a process for automatically extracting a characteristic amount from electronic document data stored and accumulated in the file server 3 or the like is performed after a certain period of time.

【0086】このプロセス処理の後に、電子文書検索装
置1aでは、電子文書データについての検索処理を行い
得るようになる。ただし、この電子文書検索装置1aで
は、検索するキーとなる原稿が紙原稿ではなく閲覧文書
データである点で第1の実施の形態の場合と異なる。
After this process, the electronic document search device 1a can perform a search for electronic document data. However, this electronic document search device 1a differs from the first embodiment in that the document serving as a key to be searched is not a paper document but browsing document data.

【0087】電子文書データについての検索処理を行う
のにあたっては、文書データ指定部23が検索のキーと
なる閲覧文書データを指定する機能を持っているので、
先ず電子文書検索装置1aのユーザが、図7に示すよう
に、閲覧文書データが記録されたFDやMO等の記憶媒
体31,32を、その文書データ指定部23が有するス
ロット33に挿入する。
In performing a search process on electronic document data, since the document data designating section 23 has a function of designating browsed document data serving as a search key,
First, as shown in FIG. 7, the user of the electronic document search device 1a inserts storage media 31, 32, such as FD or MO, on which browsed document data is recorded, into a slot 33 of the document data designation unit 23.

【0088】記憶媒体31,32がスロット33に挿入
されると、文書データ指定部23は、その記憶媒体3
1,32の内容をスキャンして、その記憶媒体31,3
2に記録されている電子データのファイル名の一覧を一
覧表示部34にディスプレイ表示する。ここで、ユーザ
がカーソルキー35を操作して、目的とする閲覧文書デ
ータヘカーソル36を合わせ、その状態で選択キー37
を押下すると、文書データ指定部23は、選択されたフ
ァイル名を選択ファイル名表示部38にディスプレイ表
示する。
When the storage media 31, 32 is inserted into the slot 33, the document data designating section 23
Scan the contents of the storage media 31 and 3
A list of the file names of the electronic data recorded in 2 is displayed on the list display section 34. Here, the user operates the cursor key 35 to position the cursor 36 on the target browsed document data.
When is pressed, the document data specifying unit 23 displays the selected file name on the selected file name display unit 38.

【0089】ユーザが別のファイル名の指定を希望する
場合には、取り消しボタン39を押下すればよい。ま
た、別の記憶媒体31,32からの読み取りを希望する
場合には、検索開始ボタン40を押下せずに、媒体取り
出しボタン41を押下して、現在使用している記憶媒体
31,32を取り出した後に、新たな記憶媒体31,3
2を挿入すればよい。記憶媒体31,32を取り出した
場合には、文書データ指定部23は、全ての処理を取り
消したと判断する。
If the user wants to specify another file name, the user can press the cancel button 39. If the user wants to read data from another storage medium 31, 32, the user does not press the search start button 40 but presses the medium eject button 41 to eject the currently used storage medium 31, 32. After that, new storage media 31, 3
2 may be inserted. When the storage media 31 and 32 are taken out, the document data specifying unit 23 determines that all the processes have been canceled.

【0090】なお、ここでは、閲覧文書データが記録さ
れた記憶媒体31,32がFDやMO等である場合を例
に挙げたが、本発明はこれらの記憶媒体に限定されるも
のではなく、例えばCD−ROM(Compact Disk−Read
Only Memory)やメモリカードといった他の記憶媒体で
あっても適用可能である。
Here, the case where the storage media 31 and 32 in which the browsing document data is recorded is an FD, an MO, or the like has been described as an example, but the present invention is not limited to these storage media. For example, CD-ROM (Compact Disk-Read
Other storage media such as Only Memory) and memory cards are also applicable.

【0091】また、文書データ指定部23では、スロッ
ト33に挿入された記憶媒体31,32内の閲覧文書デ
ータではなく、ネットワーク4を経由した電子メールに
よる指定や、ウェブのブラウザーを経由して指定するよ
うにしてもよい。この場合には、ユーザは、電子文書検
索装置1aがネットワーク4に接続されていれば、ネッ
トワーク4を経由した閲覧文書データの指定によって、
その電子文書検索装置1aが物理的に離れた場所に設置
されていても利用可能となる。また、電子文書検索装置
1aも、物理的に離れた場所に設置されたサーバー装置
から閲覧文書データを取得し得るようになる。
In the document data designating section 23, not the browsed document data in the storage media 31 and 32 inserted in the slot 33 but the designation by electronic mail via the network 4 or the designation via a web browser. You may make it. In this case, if the electronic document search device 1a is connected to the network 4, the user can specify the browsed document data via the network 4 to
Even if the electronic document search device 1a is installed in a physically distant place, it can be used. In addition, the electronic document search device 1a can also acquire browsed document data from a server device installed at a physically distant place.

【0092】目的とする閲覧文書データが選択された状
態で、ユーザが検索開始ボタン40を押下すると、文書
データ指定部23は、その選択されたファイル名に係る
閲覧文書データの記憶媒体31,32等からの読み出し
を行う。これにより、電子文書データの検索処理が開始
される。そして、文書データ指定部23は、読み出した
閲覧文書データを、第二ラスター画像作成部24へ出力
する。
When the user presses the search start button 40 in a state where the target browsed document data is selected, the document data specifying section 23 stores the browsed document data storage media 31 and 32 corresponding to the selected file name. And so on. Thus, the search processing of the electronic document data is started. Then, the document data designating section 23 outputs the read browsed document data to the second raster image creating section 24.

【0093】第二ラスター画像作成部24は、文書デー
タ指定部23から閲覧文書データを受け取ると、これを
ラスター画像データに展開する。このラスター画像デー
タは、第二ラスター画像保持部19が保持することにな
る。これ以降の処理は、第1の実施の形態の場合と全く
同様である。
When the second raster image creating section 24 receives the browse document data from the document data designating section 23, it develops this into raster image data. This raster image data is held by the second raster image holding unit 19. Subsequent processing is exactly the same as in the first embodiment.

【0094】以上のように、本実施形態における電子文
書検索装置1aおよび電子文書検索方法においても、ラ
スター画像データという同一形式のデータへの変換を経
た後に、それぞれの類似性を判断し、その類似性が高い
ものを目的の電子文書データとして特定するようになっ
ているので、第1の実施の形態の場合と略同様の効果を
得ることが可能となる。
As described above, also in the electronic document search device 1a and the electronic document search method according to the present embodiment, after conversion into raster image data of the same format, the similarity is determined, and the similarity is determined. Since the electronic document data having high reliability is specified as the target electronic document data, it is possible to obtain substantially the same effect as that of the first embodiment.

【0095】さらに、本実施形態における電子文書検索
装置1aおよび電子文書検索方法によれば、請求項3ま
たは請求項15に記載の発明の如く、閲覧文書データか
らラスター画像データを取得し、これを基に電子文書デ
ータの検索を行うようになっている。したがって、修
正、再利用が不可能な閲覧表示に特化した電子データで
あっても、その電子データの元となった電子文書データ
を検索することができるようになる。つまり、閲覧用文
書データは、電子データでありながら、修正、再利用が
不可能な形態のデータに変換されているが、本実施形態
の電子文書検索装置1aまたは電子文書検索方法を用い
ることにより、第1の実施の形態で説明した紙文書の場
合と同様に、その利便性が低下してしまうのを回避する
ことができる。
Further, according to the electronic document search device 1a and the electronic document search method of the present embodiment, raster image data is acquired from browsed document data as in the third or fifteenth aspect of the present invention. The electronic document data is searched based on this. Therefore, even if the electronic data is specialized for browsing and display that cannot be corrected or reused, the electronic document data that is the source of the electronic data can be searched. In other words, the browsing document data is converted into data in a form that cannot be modified and reused even though it is electronic data. However, by using the electronic document search device 1a or the electronic document search method according to the present embodiment, As in the case of the paper document described in the first embodiment, the convenience can be prevented from being reduced.

【0096】〔第3の実施の形態〕次に、請求項4に記
載の発明に係る電子文書検索装置および請求項16に記
載の発明に係る電子文書検索方法について説明する。た
だし、ここでも、上述した第1および第2の実施の形態
との相違点についてのみ説明するものとする。
[Third Embodiment] Next, an electronic document retrieval apparatus according to a fourth aspect and an electronic document retrieval method according to the sixteenth aspect will be described. Here, however, only the differences from the above-described first and second embodiments will be described.

【0097】先ず、本実施形態における電子文書検索装
置が用いられるシステム構成について説明する。図8
は、本発明に係る電子文書検索装置の第3の実施の形態
におけるシステム構成例を示す概念図である。
First, a system configuration in which the electronic document search device according to the present embodiment is used will be described. FIG.
FIG. 7 is a conceptual diagram showing an example of a system configuration in a third embodiment of the electronic document search device according to the present invention.

【0098】本実施形態の電子文書検索装置は、第1の
実施の形態説明したものをネットワーク4に接続された
デジタル複写機5に適応したものであり、紙文書の1部
のページから、その全文を検索してプリントアウトする
ものである。すなわち、本実施形態において構築される
システムは、ユーザが所有する紙文書の一部分である1
ページを、電子文書検索装置が搭載されたデジタル複写
機5のプラテン部(複写元の原稿を置く部分)にセット
し、その状態で検索開始ボタンを押すと、出力部から紙
文書の全文が出力されるように構成されたものである。
なお、紙文書の全文の元となる文書画像データがファイ
ルサーバー3等に保管蓄積されている点は、第1および
第2の実施の形態の場合と同様である。
The electronic document retrieval apparatus according to the present embodiment is obtained by adapting the apparatus described in the first embodiment to a digital copying machine 5 connected to a network 4 and retrieving one copy of a page of a paper document. The whole text is searched and printed out. That is, the system constructed in the present embodiment is a part of a paper document owned by the user.
When the page is set on the platen section (the section where the original to be copied is placed) of the digital copying machine 5 equipped with the electronic document search device and the search start button is pressed in that state, the full text of the paper document is output from the output section. It is configured to be executed.
It is to be noted that document image data serving as a source of the entire text of a paper document is stored and stored in the file server 3 or the like, as in the first and second embodiments.

【0099】次いで、デジタル複写機5に適用された本
実施形態の電子文書検索装置の概略構成について説明す
る。図9は、本発明に係る電子文書検索装置の第3の実
施の形態における概略構成例を示すブロック図である。
なお、図中において、第1の実施の形態の場合と同一の
構成要素については同一の符号を付している。
Next, a schematic configuration of the electronic document search apparatus of the present embodiment applied to the digital copying machine 5 will be described. FIG. 9 is a block diagram showing a schematic configuration example of the electronic document search device according to the third embodiment of the present invention.
In the figure, the same components as those in the first embodiment are denoted by the same reference numerals.

【0100】この電子文書検索装置1bでは、第1の実
施の形態で説明した検索結果出力部22に代わって、文
書印刷制御部25と、画像出力部26と、を備えて構成
されている。
The electronic document search device 1b includes a document print control unit 25 and an image output unit 26 instead of the search result output unit 22 described in the first embodiment.

【0101】文書印刷制御部25は、検索結果出力部2
2と同様に画像特定手段としての機能を有し、画像入力
部18が取得したラスター画像データに対応する電子文
書データを特定するものであるが、その特定した電子文
書データを画像出力し得る形式に変換して画像出力部2
6へ送出する点が検索結果出力部22と異なる。
The document print control unit 25 is provided with the search result output unit 2
2, which has a function as an image specifying unit and specifies electronic document data corresponding to the raster image data acquired by the image input unit 18. The format in which the specified electronic document data can be output as an image To image output unit 2
6 is different from the search result output unit 22.

【0102】画像出力部26は、例えば周知の電子写真
技術を利用して画像形成を行うプリンタエンジンからな
るもので、文書印刷制御部25から送出された形式変換
後の電子文書データを、コピー用紙等の記録媒体上に印
刷して、文書画像が描かれた紙文書として出力するもの
である。
The image output unit 26 is composed of a printer engine that forms an image using, for example, a well-known electrophotographic technique, and converts the format-converted electronic document data sent from the document print control unit 25 into copy paper. Or the like, and output as a paper document on which a document image is drawn.

【0103】次に、以上のように構成された電子文書検
索装置1bにおける処理動作例、すなわち本実施形態に
おける電子文書検索方法について説明する。
Next, a description will be given of an example of a processing operation in the electronic document search apparatus 1b configured as described above, that is, an electronic document search method in the present embodiment.

【0104】電子文書検索装置1bでは、電子文書デー
タについての検索処理を行うのにあたって、先ず、第1
および第2の実施の形態の場合と同様に、自動的にある
一定時間をおいて、ファイルサーバー3等に保管蓄積さ
れている電子文書データから特徴量を抽出するプロセス
処理を行う。
In performing a search process on electronic document data, the electronic document search device 1b first includes the first
As in the case of the second embodiment, a process for automatically extracting a characteristic amount from electronic document data stored and accumulated in the file server 3 or the like is automatically performed after a certain period of time.

【0105】このプロセス処理の後に、電子文書検索装
置1bでは、電子文書データについての検索処理を行い
得るようになる。電子文書データについての検索処理
は、第1の実施の形態の場合と同様に、元の電子文書デ
ータを検索したい紙原稿を画像入力部18にセットし、
その状態でスタートボタンを押下することによって開始
する。そして、第1の実施の形態の場合と同様にして、
電子文書データの検索処理を行う。
After this process, the electronic document search device 1b can perform a search for electronic document data. In the search process for the electronic document data, a paper document whose original electronic document data is to be searched is set in the image input unit 18 in the same manner as in the first embodiment.
In this state, the operation is started by pressing the start button. Then, as in the case of the first embodiment,
Search processing of electronic document data is performed.

【0106】ただし、この電子文書検索装置1bでは、
検索処理終了後に印刷処理を行う点が第1の実施の形態
の場合と異なる。すなわち、この電子文書検索装置1b
では、類似画像検索部21での検索結果として得られた
電子文書データを、文書印刷制御部25へ送り、その文
書印刷制御部25が画像出力部26にて出力できる形式
に変換してその画像出力部26へ送り出す。
However, in the electronic document search device 1b,
The difference from the first embodiment is that the printing process is performed after the search process is completed. That is, the electronic document search device 1b
Then, the electronic document data obtained as a result of the search by the similar image search unit 21 is sent to the document print control unit 25, and the document print control unit 25 converts the electronic document data into a format that can be output by the image output unit 26, and Send it to the output unit 26.

【0107】このようにして電子文書データを受け取る
と、画像出力部26は、通常のコピー動作の場合と全く
同様にして、受け取った電子文書データを可視画像化と
して印刷出力する。これにより、画像出力部26から
は、紙文書の全文が出力されるようになる。
Upon receiving the electronic document data in this manner, the image output unit 26 prints out the received electronic document data as a visible image in exactly the same manner as in the normal copy operation. As a result, the full text of the paper document is output from the image output unit 26.

【0108】以上のように、本実施形態における電子文
書検索装置1bおよび電子文書検索方法においても、ラ
スター画像データという同一形式のデータへの変換を経
た後に、それぞれの類似性を判断し、その類似性が高い
ものを目的の電子文書データとして特定するようになっ
ているので、第1および第2の実施の形態の場合と略同
様の効果を得ることが可能となる。
As described above, also in the electronic document search device 1b and the electronic document search method according to the present embodiment, similarities are determined after conversion into raster image data of the same format, and the similarity is determined. Since the electronic document data having high relevance is specified as the target electronic document data, it is possible to obtain substantially the same effect as in the first and second embodiments.

【0109】さらに、本実施形態における電子文書検索
装置1bおよび電子文書検索方法によれば、請求項4ま
たは請求項16に記載の発明の如く、画像出力部26が
特定された電子文書データを記録媒体上に可視画像とし
て印刷出力するようになっている。したがって、ユーザ
は、画像入力部18に1枚の紙原稿をセットして検索ボ
タンを押すだけという非常に簡単な操作で、全文や関連
文書含む文書一式を紙文書として出力された状態で得る
ことが可能となる。
Further, according to the electronic document search device 1b and the electronic document search method in the present embodiment, the image output unit 26 records the specified electronic document data as in the invention according to claim 4 or 16. The printout is performed as a visible image on a medium. Therefore, the user obtains a set of documents including the full text and related documents in a state of being output as a paper document by a very simple operation of setting a single paper document in the image input unit 18 and pressing the search button. Becomes possible.

【0110】このように、本実施形態における電子文書
検索装置1bおよび電子文書検索方法では、出力先の指
定等の煩わしさを要することなく、検索結果を紙文書と
してえることができるので、非常に多くの利用分野が想
定される。特に、操作が簡単なので、子供から高齢者ま
での広範囲の利用者を見込むことができる。具体的に
は、例えば、報告書の表紙から報告書全文を取り出す、
1枚の社内連絡書から連絡内容に関連する資料一式を取
り出す、小説のあらすじが書かれた宣伝用チラシから小
説全文を取り出す、といった利用形態が考えられる。
As described above, in the electronic document search device 1b and the electronic document search method according to the present embodiment, the search result can be obtained as a paper document without the need to specify the output destination and the like. Many applications are envisioned. In particular, since the operation is simple, a wide range of users from children to the elderly can be expected. Specifically, for example, take out the full report from the cover of the report,
Use forms such as taking out a set of materials related to the contents of a single in-house communication form and taking out the entire text of a novel from an advertising flyer with a synopsis of the novel are conceivable.

【0111】なお、本実施形態では、第1の実施の実施
の形態で説明した構成に加えて画像出力部26を設けた
場合を例に挙げて説明したが、第2の実施の実施の形態
で説明した構成に加えて画像出力部26を設けてもよ
く、かかる場合であっても本実施形態で説明したのと同
様の効果を得ることができる。
In the present embodiment, the case where the image output unit 26 is provided in addition to the configuration described in the first embodiment has been described as an example. However, in the second embodiment, The image output unit 26 may be provided in addition to the configuration described in the above, and even in such a case, the same effect as that described in the present embodiment can be obtained.

【0112】[0112]

【発明の効果】以上に説明したように、本発明に係る電
子文書検索装置および電子文書検索方法によれば、検索
処理のためにバーコードや暗号等の文書管理情報を必要
とすることなく、精度の高い検索処理の実現が期待でき
る。しかも、例えば紙文書として出力された原稿や閲覧
表示に特化した形態の電子データからであっても、文書
画像データの検索処理を行い得るので、電子文書データ
の持つ再利用性、検索や分類の容易性等といった利便性
が損なわれることがない。
As described above, according to the electronic document search apparatus and the electronic document search method according to the present invention, document management information such as barcodes and encryption is not required for search processing. Realization of highly accurate search processing can be expected. In addition, since the search processing of the document image data can be performed even from, for example, a document output as a paper document or electronic data in a form specialized for browsing display, the reusability, search and classification of the electronic document data can be performed. There is no loss of convenience such as ease of operation.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本発明に係る電子文書検索装置の第1の実施
の形態における概略構成例を示すブロック図である。
FIG. 1 is a block diagram illustrating a schematic configuration example of an electronic document search device according to a first embodiment of the present invention.

【図2】 画像特徴量の抽出の一例を示す概念図であ
る。
FIG. 2 is a conceptual diagram illustrating an example of extraction of an image feature amount.

【図3】 電子文書データとラスター画像データと画像
特徴量との関連性についての情報の具体例を示す概念図
である。
FIG. 3 is a conceptual diagram showing a specific example of information on the relationship between electronic document data, raster image data, and image feature amounts.

【図4】 本発明に係る電子文書検索方法の第1の実施
の形態における概略手順を示すフローチャートである。
FIG. 4 is a flowchart illustrating a schematic procedure in a first embodiment of an electronic document search method according to the present invention.

【図5】 電子文書データの検索結果の表示出力例を示
す概念図である。
FIG. 5 is a conceptual diagram showing a display output example of a search result of electronic document data.

【図6】 本発明に係る電子文書検索装置の第2の実施
の形態における概略構成例を示すブロック図である。
FIG. 6 is a block diagram illustrating a schematic configuration example of an electronic document search device according to a second embodiment of the present invention.

【図7】 本発明の第2の実施の形態における電子デー
タの指定の概要を示す概念図である。
FIG. 7 is a conceptual diagram showing an outline of designation of electronic data according to a second embodiment of the present invention.

【図8】 本発明に係る電子文書検索装置の第3の実施
の形態におけるシステムを示すブロック図である。
FIG. 8 is a block diagram showing a system in an electronic document search device according to a third embodiment of the present invention.

【図9】 本発明に係る電子文書検索装置の第3の実施
の形態における概略構成例を示すブロック図である。
FIG. 9 is a block diagram illustrating a schematic configuration example of an electronic document search device according to a third embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1,1a,1b…電子文書検索装置、2…PC、3…フ
ァイルサーバー、4…ネットワーク、5…デジタル複写
機、13…ラスター画像作成部、15…第一特徴量抽出
部、17…関連データ蓄積部、18…画像入力部、20
第二特徴量抽出部、21…類似画像検索部、22…検索
結果出力部、23…文書データ指定部、24…第二ラス
ター画像作成部、25…文書印刷制御部、26…画像出
力部
1, 1a, 1b: electronic document search device, 2: PC, 3: file server, 4: network, 5: digital copying machine, 13: raster image creation unit, 15: first feature amount extraction unit, 17: related data Storage unit, 18 image input unit, 20
Second feature amount extraction unit, 21: similar image search unit, 22: search result output unit, 23: document data designation unit, 24: second raster image creation unit, 25: document print control unit, 26: image output unit

───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5B009 SA12 5B050 BA16 CA08 DA04 DA06 EA04 EA17 GA08 5B075 ND06 NK06 PQ02 PR06 QM08 UU06 5L096 AA02 BA20 FA06 FA39 GA28 GA41 JA03  ──────────────────────────────────────────────────続 き Continued on the front page F term (reference) 5B009 SA12 5B050 BA16 CA08 DA04 DA06 EA04 EA17 GA08 5B075 ND06 NK06 PQ02 PR06 QM08 UU06 5L096 AA02 BA20 FA06 FA39 GA28 GA41 JA03

Claims (16)

【特許請求の範囲】[Claims] 【請求項1】 所定の記憶領域に記憶蓄積されている電
子文書データをラスター画像データに展開する画像作成
手段と、 前記画像作成手段が展開したラスター画像データの特徴
量を抽出する第一の特徴量抽出手段と、 前記電子文書データと前記画像作成手段が展開したラス
ター画像データと前記第一の特徴量抽出手段が抽出した
特徴量との関連性についての情報を保持する関連性保持
手段と、 前記画像作成手段とは別にラスター画像データを取得す
る画像取得手段と、 前記画像取得手段が取得したラスター画像データの特徴
量を抽出する第二の特徴量抽出手段と、 前記第一の特徴量抽出手段が抽出した特徴量と前記第二
の特徴量抽出手段が抽出した特徴量との類似性を判断す
る類似検索手段と、 前記類似検索手段による判断結果と前記関連性保持手段
による保持内容とに基づいて前記画像取得手段が取得し
たラスター画像データに対応する電子文書データを特定
する画像特定手段とを備えることを特徴とする電子文書
検索装置。
An image creating means for developing electronic document data stored in a predetermined storage area into raster image data, and a first feature for extracting a feature amount of the raster image data developed by the image creating means. Quantity extraction means, and a relationship holding means for holding information about the relationship between the electronic document data, the raster image data developed by the image creation means, and the feature quantity extracted by the first feature quantity extraction means, An image acquisition unit that acquires raster image data separately from the image creation unit; a second feature amount extraction unit that extracts a feature amount of the raster image data acquired by the image acquisition unit; and the first feature amount extraction. A similarity search unit that determines a similarity between the feature amount extracted by the unit and the feature amount extracted by the second feature amount extraction unit; and a determination result by the similarity search unit and the association. An electronic document search apparatus comprising: an image specifying unit that specifies electronic document data corresponding to the raster image data acquired by the image acquiring unit based on the content held by the sex holding unit.
【請求項2】 前記画像取得手段は、画像が描かれた原
稿からラスター画像データを読み取ることによって当該
ラスター画像データの取得を行うものであることを特徴
とする請求項1記載の電子文書検索装置。
2. An electronic document search apparatus according to claim 1, wherein said image acquisition means acquires raster image data by reading raster image data from a document on which an image is drawn. .
【請求項3】 前記画像取得手段は、 画像を出力するための電子データを指定するデータ指定
手段と、 前記データ指定手段にて指定された電子データを取得す
るデータ取得手段と、 前記データ取得手段が取得した電子データをラスター画
像データに展開する第二の画像作成手段とからなること
を特徴とする請求項1記載の電子文書検索装置。
3. The image acquisition unit includes: a data designation unit that designates electronic data for outputting an image; a data acquisition unit that acquires the electronic data designated by the data designation unit; 2. The electronic document search device according to claim 1, further comprising a second image creating unit that expands the acquired electronic data into raster image data.
【請求項4】 前記画像特定手段が特定した電子文書デ
ータを記録媒体上に可視画像として印刷出力する画像出
力手段を備えることを特徴とする請求項1,2または3
記載の電子文書検索装置。
4. An image output means for printing out the electronic document data specified by said image specifying means as a visible image on a recording medium.
Electronic document search device as described.
【請求項5】 ラスター画像データへの展開を行う際の
解像度を決定する解像度決定手段を備えることを特徴と
する請求項1〜4のいずれか1項に記載の電子文書検索
装置。
5. The electronic document search device according to claim 1, further comprising a resolution determination unit that determines a resolution when rasterization is performed on raster image data.
【請求項6】 前記画像作成手段は、電子文書データが
複数のページで構成されている場合に、各ページ毎にラ
スター画像データへの展開を行い、複数のラスター画像
データを作成するものであることを特徴とする請求項1
〜5のいずれか1項に電子文書検索装置。
6. When the electronic document data is composed of a plurality of pages, the image creating means creates raster image data for each page and creates a plurality of raster image data. 2. The method according to claim 1, wherein
An electronic document search device according to any one of Items 1 to 5, above.
【請求項7】 前記画像作成手段は、電子文書データか
らラスター画像データへの展開にあたって、当該電子文
書データを構成する色成分の種類数に応じて、当該ラス
ター画像データのデータ量を可変させるものであること
を特徴とする請求項1〜6のいずれか1項に電子文書検
索装置。
7. The image creating means, when developing electronic document data into raster image data, varies a data amount of the raster image data in accordance with the number of types of color components constituting the electronic document data. The electronic document search device according to claim 1, wherein:
【請求項8】 前記第一の特徴量抽出手段および前記第
二の特徴量抽出手段は、ラスター画像データの特徴量と
して、当該ラスター画像データを構成する色成分値の分
布状態を抽出するものであることを特徴とする請求項1
〜7のいずれか1項に電子文書検索装置。
8. The first feature value extraction means and the second feature value extraction means extract, as feature values of the raster image data, a distribution state of color component values constituting the raster image data. 2. The method according to claim 1, wherein
An electronic document search device according to any one of Items 1 to 7, above.
【請求項9】 前記第一の特徴量抽出手段および前記第
二の特徴量抽出手段は、ラスター画像データの特徴量と
して、当該ラスター画像データ中におけるエッジ量の分
布状態を抽出するものであることを特徴とする請求項1
〜8のいずれか1項に電子文書検索装置。
9. The method according to claim 1, wherein the first feature value extracting means and the second feature value extracting means extract a distribution state of edge amounts in the raster image data as a feature value of the raster image data. Claim 1 characterized by the following:
An electronic document search device according to any one of Items 1 to 8, above.
【請求項10】 前記関連性保持手段は、関連性につい
ての情報として、電子文書データの識別名および記憶蓄
積先並びに当該電子文書データから展開されたラスター
画像データの識別名を、互いに関連付けて保持するもの
であることを特徴とする請求項1〜9のいずれか1項に
電子文書検索装置。
10. The relevance holding unit holds, as information on relevance, an identification name of electronic document data, a storage destination, and an identification name of raster image data developed from the electronic document data in association with each other. The electronic document search device according to any one of claims 1 to 9, wherein the electronic document search device performs a search.
【請求項11】 前記類似検索手段は、前記第一の特徴
量抽出手段および前記第二の特徴量抽出手段が抽出した
それぞれの特徴量をベクトル化し、ベクトルの状態で比
較することで、当該特徴量の類似性を判断するものであ
ることを特徴とする請求項1〜10のいずれか1項に電
子文書検索装置。
11. The similarity search unit converts the feature amounts extracted by the first feature amount extraction unit and the second feature amount extraction unit into vectors, and compares the feature amounts in a vector state. 11. The electronic document search device according to claim 1, wherein the similarity of the amounts is determined.
【請求項12】 前記画像特定手段は、前記類似検索手
段による類似性の判断結果が所定条件を満たさない場合
には、前記画像取得手段が取得したラスター画像データ
に対応する電子文書データがないと判断するものである
ことを特徴とする請求項1〜11のいずれか1項に電子
文書検索装置。
12. When the similarity determination result by the similarity search unit does not satisfy a predetermined condition, the image specifying unit determines that there is no electronic document data corresponding to the raster image data acquired by the image acquisition unit. The electronic document search device according to any one of claims 1 to 11, wherein the electronic document search device determines.
【請求項13】 所定の記憶領域に記憶蓄積されている
電子文書データをラスター画像データに展開する画像作
成工程と、 前記画像作成工程にて展開したラスター画像データの特
徴量を抽出する第一の特徴量抽出工程と、 前記電子文書データと前記画像作成工程にて展開したラ
スター画像データと前記第一の特徴量抽出工程にて抽出
した特徴量との関連性についての情報を保持する関連性
保持工程と、 前記画像作成工程とは別にラスター画像データを取得す
る画像取得工程と、 前記画像取得工程が取得したラスター画像データの特徴
量を抽出する第二の特徴量抽出工程と、 前記第一の特徴量抽出工程にて抽出した特徴量と前記第
二の特徴量抽出工程にて抽出した特徴量との類似性を判
断する類似検索工程と、 前記類似検索工程での判断結果と前記関連性保持工程で
の保持内容とに基づいて前記画像取得工程にて取得した
ラスター画像データに対応する電子文書データを特定す
る画像特定工程とを備えることを特徴とする電子文書検
索方法。
13. An image creating step of expanding electronic document data stored in a predetermined storage area into raster image data, and a first step of extracting a characteristic amount of the raster image data expanded in the image creating step. A feature amount extraction step, and a relationship holding that holds information on a relationship between the electronic document data, the raster image data developed in the image creation step, and the feature amount extracted in the first feature amount extraction step. And an image acquisition step of acquiring raster image data separately from the image creation step; a second feature amount extraction step of extracting a feature amount of the raster image data acquired by the image acquisition step; A similarity search step for determining the similarity between the feature quantity extracted in the feature quantity extraction step and the feature quantity extracted in the second feature quantity extraction step, and a determination result in the similarity search step And an image specifying step of specifying electronic document data corresponding to the raster image data acquired in the image acquiring step based on the content held in the association retaining step.
【請求項14】 前記画像取得工程は、画像が描かれた
原稿からラスター画像データを読み取ることによって当
該ラスター画像データの取得を行うことを特徴とする請
求項13記載の電子文書検索方法。
14. The electronic document search method according to claim 13, wherein the image obtaining step obtains the raster image data by reading raster image data from a document on which an image is drawn.
【請求項15】 前記画像取得工程は、 画像を出力するための電子データを指定するデータ指定
工程と、 前記データ指定工程にて指定された電子データを取得す
るデータ取得工程と、 前記データ取得工程にて取得した電子データをラスター
画像データに展開する第二の画像作成工程とからなるこ
とを特徴とする請求項13記載の電子文書検索方法。
15. The image acquisition step, wherein: a data designation step of designating electronic data for outputting an image; a data acquisition step of acquiring the electronic data designated in the data designation step; 14. The electronic document search method according to claim 13, further comprising: a second image creation step of expanding the electronic data acquired in step (2) into raster image data.
【請求項16】 前記画像特定工程にて特定した電子文
書データを記録媒体上に可視画像として印刷出力する画
像出力工程を備えることを特徴とする請求項13,14
または15記載の電子文書検索方法。
16. An image output step of printing out the electronic document data specified in the image specifying step as a visible image on a recording medium.
Or the electronic document search method according to 15.
JP2000070760A 2000-03-14 2000-03-14 Device and method for retrieving electronic document Pending JP2001256256A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000070760A JP2001256256A (en) 2000-03-14 2000-03-14 Device and method for retrieving electronic document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000070760A JP2001256256A (en) 2000-03-14 2000-03-14 Device and method for retrieving electronic document

Publications (1)

Publication Number Publication Date
JP2001256256A true JP2001256256A (en) 2001-09-21

Family

ID=18589444

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000070760A Pending JP2001256256A (en) 2000-03-14 2000-03-14 Device and method for retrieving electronic document

Country Status (1)

Country Link
JP (1) JP2001256256A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006074148A (en) * 2004-08-31 2006-03-16 Fuji Xerox Co Ltd Printer, image content providing system, and image content printing method
JP2006285612A (en) * 2005-03-31 2006-10-19 Canon Inc Information processor, and its method
JP2009164965A (en) * 2008-01-08 2009-07-23 Konica Minolta Business Technologies Inc Image processing device and method and program for the same
JP2009271831A (en) * 2008-05-09 2009-11-19 Sharp Corp Image data processing apparatus
US9613057B2 (en) 2012-08-24 2017-04-04 Canon Kabushiki Kaisha Document management apparatus, method for controlling the same, and storage medium
US11741155B2 (en) 2020-06-08 2023-08-29 Konica Minolta, Inc. Search system
US11823416B2 (en) 2020-06-08 2023-11-21 Konica Minolta, Inc. Search system

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006074148A (en) * 2004-08-31 2006-03-16 Fuji Xerox Co Ltd Printer, image content providing system, and image content printing method
JP4501598B2 (en) * 2004-08-31 2010-07-14 富士ゼロックス株式会社 Printing apparatus, image content providing system, and image content printing method
JP2006285612A (en) * 2005-03-31 2006-10-19 Canon Inc Information processor, and its method
US8112706B2 (en) 2005-03-31 2012-02-07 Canon Kabushiki Kaisha Information processing apparatus and method
JP2009164965A (en) * 2008-01-08 2009-07-23 Konica Minolta Business Technologies Inc Image processing device and method and program for the same
JP4539720B2 (en) * 2008-01-08 2010-09-08 コニカミノルタビジネステクノロジーズ株式会社 Image processing apparatus and method, and program therefor
JP2009271831A (en) * 2008-05-09 2009-11-19 Sharp Corp Image data processing apparatus
US9613057B2 (en) 2012-08-24 2017-04-04 Canon Kabushiki Kaisha Document management apparatus, method for controlling the same, and storage medium
US11741155B2 (en) 2020-06-08 2023-08-29 Konica Minolta, Inc. Search system
US11823416B2 (en) 2020-06-08 2023-11-21 Konica Minolta, Inc. Search system

Similar Documents

Publication Publication Date Title
US6166826A (en) Printing apparatus, printing method, and printing system
US7930292B2 (en) Information processing apparatus and control method thereof
US8339645B2 (en) Managing apparatus, image processing apparatus, and processing method for the same, wherein a first user stores a temporary object having attribute information specified but not partial-area data, at a later time an object is received from a second user that includes both partial-area data and attribute information, the storage unit is searched for the temporary object that matches attribute information of the received object, and the first user is notified in response to a match
US8326090B2 (en) Search apparatus and search method
US9223763B2 (en) Document generation apparatus, method, and storage medium
US7596751B2 (en) Contact sheet based image management
JP2006178973A (en) Document separator page
JP2006120125A (en) Document image information management apparatus and document image information management program
JPH11250071A (en) Image database constructing method, image database device and image information storage medium
JP2007058622A (en) Document management device and document management method
JP6262708B2 (en) Document detection method for detecting original electronic files from hard copy and objectification with deep searchability
JP5207688B2 (en) Image processing apparatus and integrated document generation method
JP2001256256A (en) Device and method for retrieving electronic document
JP7390071B2 (en) Document processing devices, document processing methods, and programs
JP4008628B2 (en) Page editing apparatus, page editing method, page editing program, and image forming apparatus
US20050025348A1 (en) Method of and apparatus for processing image data
JP2000020549A (en) Device for assisting input to document database system
JP4480109B2 (en) Image management apparatus and image management method
US20090287733A1 (en) Method for preparing prepress image data
JP2003316773A (en) Document control system, method, program and storage medium
JP2001101213A (en) Information processor, document managing device, information processing sysetm, information managing method and storage medium
JP2003308325A (en) Device, method and program for registering data, and recording medium
JP2004102678A (en) Data management apparatus and data management program
JP2001344556A (en) System and method for managing information
JP2023047133A (en) Information processing device, information processing system, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040818

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070605

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070828

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071024

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071127