JP2009048618A

JP2009048618A - 原稿抽出方法、原稿抽出装置、コンピュータプログラム及び記録媒体

Info

Publication number: JP2009048618A
Application number: JP2008162324A
Authority: JP
Inventors: Hitoshi Hirohata; 仁志廣畑
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2007-07-24
Filing date: 2008-06-20
Publication date: 2009-03-05
Anticipated expiration: 2028-06-20
Also published as: CN101354717A; CN101354717B; JP4340714B2

Abstract

【課題】複数ページで構成される原稿に係る原稿データをデータベースから抽出できる原稿抽出方法、原稿抽出装置、コンピュータプログラム及び記録媒体を提供する。
【解決手段】本発明では、原稿に含まれる各ページに対応する原稿データを記憶し、更に原稿データの特徴を示す特徴データ及び原稿を示す原稿インデックスを原稿データに関連付けておく。原稿抽出装置は、入力原稿データを取得し（Ｓ３２）、入力原稿データから特徴データを算出し（Ｓ３４）、特徴データに基づいて原稿データとの類似度を判定し（Ｓ３６）、入力原稿データと類似する原稿データに関連付けられた原稿インデックスを取得し（Ｓ３９）、原稿インデックスに関連付けられた複数の原稿データを抽出する（Ｓ４３）。これにより、入力原稿データに類似する原稿データに対応するページを含む原稿に係る原稿データが複数ページに亘って抽出される。
【選択図】図１４

Description

本発明は、原稿のデータベースから特定の原稿を検索する技術に関し、より詳しくは、スキャナで原稿を読み取った画像等の原稿データに基づいて、読み取った原稿に対応する原稿データをデータベースから検索する原稿抽出方法、原稿抽出装置、コンピュータプログラム及び記録媒体に関する。

従来、文書又は写真等でなる原稿をスキャナを用いて読み取ったデータ、又はパーソナルコンピュータ（ＰＣ）等を用いて電子的に作成した原稿データをデータベースに蓄積しておき、新たに原稿を読み取り、読み取った原稿に対応する原稿データをデータベースから抽出する技術が利用されている。原稿データを抽出する方法としては、例えば、読み取った原稿からＯＣＲ（Optical Character Reader）を用いてキーワードを抽出し、キーワードに基づいて原稿の類似度を判定する方法、原稿を罫線のある帳票原稿に限定しておき、罫線の特徴を抽出して原稿の類似度を判定する方法等が提案されている。

特許文献１には、原稿（文書）を特徴付けるデスクリプタとデスクリプタで特徴付けられる原稿のリストとを関連付けておき、読み取った原稿（入力文書）からデスクリプタを生成し、生成したデスクリプタを用いて原稿の照合を行う技術が開示されている。原稿のデスクリプタは、原稿の読み取りに伴って生じる歪み等に対して不変であるように定められる。一の原稿について複数のデスクリプタを生成し、読み取った原稿から生成したデスクリプタの夫々に関連付けられている原稿に対して投票を行い、最高得票数を得た原稿又は得票数が所定の閾値を越えた原稿を選択する。

特許文献２には、原稿の画像データを予め記憶しておき、読み取った原稿のビットマップデータと予め記憶してある原稿のビットマップデータとの間で１ビット単位でパターンマッチングを行うことにより、原稿の検索を行う技術が開示されている。また特許文献２には、複数ページよりなる原稿の場合、検索用に表紙のページのみを読み取り、読み取ったページの画像データと、記憶してある各原稿の１枚目の画像データとを比較することにより、原稿を検索してもよいことが記載されている。

特許文献３には、文書画像を予め記憶しておき、読み取った原稿の画像の特徴量と記憶してある文書画像の全てのページの特徴量とを比較して類似度を求め、類似度が閾値よりも高い文書画像を抽出することにより、文書画像を検索する技術が開示されている。この技術では、複数の文書画像が候補となった場合は、文書画像を表示してユーザによる選択を受け付け、また文書画像に含まれるページの類似度の平均が閾値を下回った場合は、その文書画像を候補から削除して絞り込みを行う。
特開平７−２８２０８８号公報特開平５−３７７４８号公報特開２００６−３１１８１号公報

通常、文書等の原稿は複数ページで構成されていることが多い。特許文献１に開示された技術を始めとする従来の技術は、スキャナで読み取った原稿との照合を行って所望の原稿データをデータベースから抽出することは可能であるものの、複数ページで構成されている原稿については、ページ毎に照合を行って原稿データを抽出する必要がある。従って、紛失又は汚れ等によって照合元の原稿に欠落が生じた場合は、複数ページで構成されている原稿に係る原稿データを全てのページに亘って抽出することができないという問題がある。特許文献１には、この問題の解決手段については何ら開示されていない。

また特許文献２に記載されているような、複数ページより構成されている原稿のビットマップデータを比較する技術では、ページ毎に比較を行うので、原稿に含まれるページ数及び原稿数が増えるほど比較の処理に時間がかかってしまうという問題がある。また、ビットマップデータの比較を行う場合は、比較する二つの画像データの位置合わせを精度良く行う必要がある。しかし、実際には、正確に位置合わせを行うことは困難であり、その結果、精度良く原稿を検索することができないという問題がある。

また特許文献３に記載の技術では、文書画像の文字領域における特徴量として、ＯＣＲを用いて文字コードを抽出しているので、抽出する文字コードによっては、類似判定の精度が低下するという問題がある。この精度低下を補うために、多くの文字コードを抽出することが考えられるが、その場合、文字コードを格納しておくメモリ容量が大きくなり、また、多くのデータを用いて検索を行うので、処理に時間がかかるという問題がある。また、特許文献２及び３の技術においては、秘密情報を含む原稿が検索されることに関しては考慮されていないので、秘密情報を含む原稿が容易に出力されてしまう虞があるという問題がある。

本発明は、斯かる事情に鑑みてなされたものであって、その目的とするところは、原稿の一部に基づいて原稿の他の部分のデータをも抽出できるようにすることにより、複数ページで構成される原稿に係る原稿データを容易にデータベースから抽出することが可能となる原稿抽出方法、原稿抽出装置、コンピュータプログラム及び記録媒体を提供することにある。

本発明の他の目的とするところは、原稿データを抽出する際に、目的とは異なる原稿データを間違って抽出してしまう愚を避けることが可能となる原稿抽出装置を提供することにある。

また本発明の他の目的とするところは、原稿を出力するための条件を定めておくことにより、秘密情報を保護することができる原稿抽出装置を提供することにある。

本発明に係る原稿抽出方法は、記憶手段で記憶してある原稿データの中から特定の原稿データを抽出する方法において、複数のページで構成される原稿を示す原稿インデックスを、前記原稿に含まれる各ページに対応する原稿データに関連付けて記憶手段で記憶しておき、原稿データから抽出した特徴点に基づいて計算され、前記原稿データの特徴を示す特徴データを、前記原稿データに関連付けて記憶手段で記憶しておき、新たな原稿データである入力原稿データを取得し、取得した入力原稿データから特徴点を抽出し、抽出した特徴点に基づいて、入力原稿データの特徴を示す特徴データを生成し、生成した特徴データと記憶手段で記憶してある特徴データとを比較することによって、記憶手段が記憶している特徴データに関連付けられた原稿データと入力原稿データとの類似度を判定し、入力原稿データとの類似度が高い原稿データであると判定した原稿データに関連付けられた原稿インデックスを取得し、取得した原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データを抽出することを特徴とする。

本発明に係る原稿抽出装置は、原稿データを記憶する原稿記憶手段を備え、該原稿記憶手段が記憶している原稿データの中から特定の原稿データを抽出する原稿抽出装置において、複数のページで構成される原稿を示す原稿インデックスを、前記原稿に含まれる各ページに対応する原稿データに関連付けて記憶する手段と、原稿データから抽出した特徴点に基づいて計算され、前記原稿データの特徴を示す特徴データを、前記原稿データに関連付けて記憶する特徴データ記憶手段と、新たな原稿データである入力原稿データを取得する取得手段と、該取得手段が取得した入力原稿データから特徴点を抽出する手段と、該手段が抽出した特徴点に基づいて、入力原稿データの特徴を示す特徴データを生成する生成手段と、該生成手段が生成した特徴データと前記特徴データ記憶手段が記憶している特徴データとを比較することによって、前記特徴データ記憶手段が記憶している特徴データに関連付けられた原稿データと入力原稿データとの類似度を判定する判定手段と、入力原稿データとの類似度が高い原稿データであると前記判定手段が判定した原稿データに関連付けられた原稿インデックスを取得する手段と、該手段が取得した原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データを抽出する抽出手段とを備えることを特徴とする。

本発明に係る原稿抽出装置は、前記特徴データ記憶手段は、一の原稿データに関連付けて、該原稿データの特徴を示す複数の特徴データを記憶するように構成してあり、前記生成手段は、入力原稿データの特徴を示す複数の特徴データを生成するように構成してあり、前記判定手段は、前記生成手段が生成した複数の特徴データの夫々について、当該特徴データと一致する特徴データに関連付けられた原稿データに対して投票を行う手段と、前記原稿記憶手段が記憶している原稿データの内、得票数が最大である原稿データ又は得票数が所定量以上である原稿データを、入力原稿データとの類似度が高い原稿データであると判定する手段とを有することを特徴とする。

本発明に係る原稿抽出装置は、前記取得手段は、複数の入力原稿データを取得する手段を有し、前記判定手段は、複数の入力原稿データの夫々について、前記原稿記憶手段が記憶している原稿データと入力原稿データとの類似度を判定する手段を有し、前記抽出手段は、複数の入力原稿データの夫々との類似度が高い原稿データに関連付けられた原稿インデックスが互いに一致する場合に、当該原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データを抽出する手段を有することを特徴とする。

本発明に係る原稿抽出装置は、入力原稿データとの類似度が高い原稿データに関連付けられた原稿インデックスが複数個取得された場合、又は、複数の入力原稿データの夫々との類似度が高い原稿データに関連付けられた原稿インデックスの内で前記複数の入力原稿データに共通した原稿インデックスが複数個取得された場合に、更なる入力原稿データを要求する手段を更に備えることを特徴とする。

本発明に係る原稿抽出装置は、前記取得手段は、原稿を光学的に読み取ることによって入力原稿データを取得するように構成してあることを特徴とする。

本発明に係る原稿抽出装置は、原稿インデックスに関連付けて、当該原稿インデックスが示す原稿に含まれる各ページに対応する原稿データを出力するために必要な所定の出力条件を記憶する手段と、前記抽出手段が抽出した原稿データに関連付けられた原稿インデックスに関連付けられた出力条件が満たされているか否かを判定する手段と、前記出力条件が満たされていると判定された場合に、原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データを出力する手段と、前記出力条件が満たされていないと判定された場合に、原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データの出力を禁止する手段とを更に備えることを特徴とする。

本発明に係る原稿抽出装置は、前記抽出手段が抽出した複数の原稿データに基づいた複数の画像を形成する手段を更に備えることを特徴とする。

本発明に係るコンピュータプログラムは、コンピュータに、コンピュータ内部又は外部で記憶された原稿データの中から特定の原稿データを抽出させるコンピュータプログラムにおいて、コンピュータに、入力された入力原稿データから特徴点を抽出させる手順と、コンピュータに、抽出した特徴点に基づいて、入力原稿データの特徴を示す特徴データを生成させる手順と、コンピュータに、生成した特徴データと記憶された原稿データの特徴を示す特徴データとを比較することによって、記憶された原稿データと入力原稿データとの類似度を判定させる手順と、コンピュータに、入力原稿データとの類似度が高い原稿データであると判定した原稿データに関連付けられた原稿インデックスを取得させる手順と、コンピュータに、取得した原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データを抽出させる手順とを含むことを特徴とする。

本発明に係るコンピュータでの読み取りが可能な記録媒体は、コンピュータに、コンピュータ内部又は外部で記憶された原稿データの中から特定の原稿データを抽出させるコンピュータプログラムを記録してあるコンピュータでの読み取りが可能な記録媒体において、コンピュータに、入力された入力原稿データから特徴点を抽出させる手順と、コンピュータに、抽出した特徴点に基づいて、入力原稿データの特徴を示す特徴データを生成させる手順と、コンピュータに、生成した特徴データと記憶された原稿データの特徴を示す特徴データとを比較することによって、記憶された原稿データと入力原稿データとの類似度を判定させる手順と、コンピュータに、入力原稿データとの類似度が高い原稿データであると判定した原稿データに関連付けられた原稿インデックスを取得させる手順と、コンピュータに、取得した原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データを抽出させる手順とを含むコンピュータプログラムを記録してあることを特徴とする。

本発明においては、原稿に含まれる各ページに対応する原稿データを記憶しておき、更に、原稿データから抽出した特徴点に基づいて計算され、前記原稿データの特徴を示す特徴データと、原稿を示す原稿インデックスとを原稿データに関連付けて記憶しておく。原稿抽出装置は、入力原稿データを取得した場合に、入力原稿データから特徴データを生成し、特徴データに基づいて原稿データとの類似度を判定し、入力原稿データとの類似度が高い原稿データに関連付けられた原稿インデックスを取得し、取得した原稿インデックスに関連付けられた複数の原稿データを抽出する。これにより、入力原稿データに類似すると判定された原稿データに対応するページを含む原稿が特定され、また特定された原稿に含まれる全てのページに対応する原稿データが抽出される。

また本発明においては、原稿抽出装置は、原稿データの類似度を判定するために、一の原稿データについて複数の特徴データを記憶しておき、入力原稿データについて生成した各特徴データ毎に同一の特徴データに関連付けられた原稿データに投票し、最大の得票数又は所定量以上の得票数を得た原稿データを、入力原稿データとの類似度が高い原稿データであるとする。複数の特徴データの内で多くの特徴データが一致する原稿データを類似度が高いと判定するので、より確からしい類似度判定を行うことができる。

また本発明においては、原稿抽出装置は、複数の入力原稿データを取得し、各入力原稿データとの類似度が高い原稿データに関連付けられた原稿インデックスが一致する場合に、一致した原稿インデックスに関連付けられた複数の原稿データを抽出する。これにより、複数のページに基づいて一の原稿を抽出することが可能となる。

また本発明においては、原稿抽出装置は、入力原稿データとの類似度が高い原稿データに関連付けられた原稿インデックスが複数ある場合に、更に原稿の他のページに対応する入力原稿データを要求する。これにより、原稿の他のページに対応する入力原稿データが更に取得され、原稿の他のページをも利用して原稿インデックスの絞込みが行われる。

また本発明においては、原稿抽出装置は、入力原稿データを取得する取得手段として、原稿を光学的に読み取るスキャナを備えることにより、原稿の一部をスキャナで読み取ることによって原稿データの抽出を行う。

また本発明においては、原稿抽出装置は、各原稿インデックスについて予め出力条件を定めておき、出力条件が満たされた場合に原稿データを出力し、出力条件が満たされない場合は原稿データの出力を禁止することにより、出力条件が満たされる原稿インデックスに対応する原稿のみを出力する。

更に本発明においては、原稿抽出装置は、原稿データに基づいて画像を形成する手段を備えることにより、抽出した原稿データに基づいた画像を形成することができる。

本発明にあっては、複数ページで構成される原稿の一部に対応する入力原稿データに基づき、原稿の全てのページに対応する原稿データを抽出することが可能となる。従って、複数ページで構成されている原稿に紛失又は汚れ等によって欠落が生じた場合であっても、原稿データを予め記憶してあるデータベースの中から、全てのページに亘った原稿データを容易に抽出することが可能となる。

また本発明にあっては、原稿データの類似度を判定する際に、複数の特徴データに基づいてより確からしい類似度判定を行うことができるので、入力原稿データに類似しない原稿データを類似度が高い原稿データであると間違って判定するのを抑制することが可能となる。

また本発明にあっては、複数のページに基づいて一の原稿を抽出することが可能となり、目的とは異なる原稿データを間違って抽出してしまう可能性をより低下させることができる。例えば、互いに類似する原稿が存在する場合でも、目的の原稿データを抽出することが可能となる。

また本発明にあっては、複数のページを利用することにより、より確からしい類似度判定を行うことが可能となり、所望の原稿データを高精度で抽出することが可能となる。

また本発明にあっては、原稿の一部をスキャナで読み取ることによって、例えば、通信ネットワークを介して接続されているサーバ装置に記憶されている原稿データの抽出を行うことができ、写真又は文書等からなる原稿の一部から手軽に原稿全体のデータを取得することが可能となる。

また本発明にあっては、出力条件が満たされた場合に原稿の出力を可能とするので、重要度の高い原稿に出力条件を定めておくことにより、重要度の高い原稿が容易に出力されることを防止し、原稿に含まれる秘密情報を保護することが可能となる。

更に本発明にあっては、デジタル複写機又はスキャナを備えた複合機等の画像形成装置を用い、画像形成装置に記憶されている原稿データ又は通信ネットワークを介して画像形成装置に接続されているサーバ装置に記憶されている原稿データから抽出した原稿データに基づいた画像を形成することができるので、画像形成によって、写真又は文書等からなる原稿を手軽に取得することが可能となる等、本発明は優れた効果を奏する。

以下本発明をその実施の形態を示す図面に基づき具体的に説明する。
（実施の形態１）
実施の形態１では、本発明の原稿抽出装置がカラー画像を形成する画像形成装置である形態を示す。図１は、実施の形態１に係る本発明の原稿抽出装置１００の内部の機能構成を示すブロック図である。本発明の原稿抽出装置１００は、原稿抽出装置１００を構成する各部の動作を制御する制御部１１、半導体メモリ又はハードディスク等で構成される記憶部（記憶手段）１２、及びカラー画像を光学的に読み取るカラー画像入力部１３を備えている。カラー画像入力部１３には、読み取ったカラー画像に応じた画像データを生成する処理を行うカラー画像処理部２が接続されている。カラー画像入力部１３は、写真又は文書等からなる原稿をカラー画像として読み取り、記憶部１２は、カラー画像入力部１３が原稿を読み取ってカラー画像処理部２が生成した画像データである原稿データを記憶する。記憶部１２は本発明における原稿記憶手段として機能し、カラー画像入力部１３は本発明における取得手段として機能する。またカラー画像処理部２には、カラー画像処理部２が生成した画像データに基づいてカラー画像を形成するカラー画像形成部１４が接続されている。カラー画像入力部１３、カラー画像処理部２及びカラー画像形成部１４には、使用者からの操作を受け付ける操作パネル１５が接続されている。

カラー画像入力部１３は、ＣＣＤ（Charge Coupled Device ）を備えたスキャナにて構成されており、紙等の記録担体上に形成されたカラー画像である原稿からの反射光像をＲ（赤）Ｇ（緑）Ｂ（青）に分解してＣＣＤで読み取り、ＲＧＢのアナログ信号に変換してカラー画像処理部２へ出力する構成となっている。カラー画像処理部２は、カラー画像入力部１３から入力されたＲＧＢのアナログ信号に対して後述する画像処理を行ってデジタルの画像データを生成し、更にデジタルのＣ（シアン）Ｍ（マゼンタ）Ｙ（イエロー）Ｋ（黒）信号からなる画像データを生成してカラー画像形成部１４へ出力する。カラー画像形成部１４は、カラー画像処理部２から入力された画像データに基づいて、熱転写、電子写真、又はインクジェット等の方式によりカラー画像を形成する。操作パネル１５は、原稿抽出装置１００の操作に必要な情報を表示する液晶ディスプレイ等の表示部と、原稿抽出装置１００の動作を制御する指示を使用者の操作により受け付けるタッチパネル又はテンキー等の受付部とを含んで構成されている。

カラー画像処理部２は、カラー画像入力部１３から入力されたアナログ信号をＡ／Ｄ変換部２０でデジタル信号に変換し、シェーディング補正部２１、入力階調補正部２２、領域分離処理部２３、原稿抽出処理部２４、色補正部２５、黒生成下色除去部２６、空間フィルタ処理部２７、出力階調補正部２８、階調再現処理部２９の順に送り、デジタルのＣＭＹＫ信号からなる画像データをカラー画像形成部１４へ出力する構成となっている。

Ａ／Ｄ変換部２０は、カラー画像入力部１３からカラー画像処理部２へ入力されたＲＧＢのアナログ信号を受け付け、ＲＧＢのアナログ信号をデジタルのＲＧＢ信号へ変換し、ＲＧＢ信号をシェーディング補正部２１へ出力する。

シェーディング補正部２１は、Ａ／Ｄ変換部２０から入力されたＲＧＢ信号に対して、カラー画像入力部１３の照明系、結像系及び撮像系で生じる各種の歪みを取り除く処理を行う。シェーディング補正部２１は、次に、歪みを取り除いたＲＧＢ信号を入力階調補正部２２へ出力する。

入力階調補正部２２は、シェーディング補正部２１から入力されたＲＧＢ信号に対して、カラーバランスを調整する。更に、シェーディング補正部２１から入力階調補正部２２へ入力されたＲＧＢ信号はＲＧＢの反射率信号であり、入力階調補正部２２は、シェーディング補正部２１から入力されたＲＧＢ信号を、カラー画像処理部２で処理しやすい濃度信号等の信号へ変換する。入力階調補正部２２は、次に、処理を行ったＲＧＢ信号を領域分離処理部２３へ出力する。

領域分離処理部２３は、入力階調補正部２２から入力されたＲＧＢ信号が表す画像中の各画素を、文字領域、網点領域、又は写真領域のいずれかに分離し、分離結果に基づき、各画素がいずれの領域に属しているかを示す領域識別信号を、黒生成下色除去部２６、空間フィルタ処理部２７、及び階調再現処理部２９へ出力する。領域分離処理部２３は、また、入力階調補正部２２から入力されたＲＧＢ信号を原稿抽出処理部２４へ出力する。

原稿抽出処理部２４は、記憶部１２と接続されており、ＲＧＢ信号でなる画像データである原稿データを記憶部１２との間で入出力する処理、及び後述する本発明の原稿抽出方法に係る処理を実行する。原稿抽出処理部２４は、また、領域分離処理部２３から入力されたＲＧＢ信号でなる画像データ又は記憶部１２から入力された原稿データである画像データを色補正部２５へ出力する。なお、原稿抽出装置１００は、原稿抽出処理部２４を領域分離処理部２３の後段に設けるのではなく、入力階調補正部２２と並列して設けた形態であってもよい。

色補正部２５は、原稿抽出処理部２４から入力されたＲＧＢ信号をＣＭＹ信号へ変換し、色再現の忠実化実現のために、不要吸収成分を含むＣＭＹ色材の分光特性に基づいた色濁りをＣＭＹ信号から取り除く処理を行う。色補正部２５は、次に、色補正を行ったＣＭＹ信号を黒生成下色除去部２６へ出力する。

黒生成下色除去部２６は、色補正部２５から入力されたＣＭＹの３色信号からＫ信号を生成する黒生成処理を行い、元のＣＭＹ信号から黒生成処理によって得られたＫ信号を差し引くことによって、ＣＭＹの３色信号をＣＭＹＫの４色信号へ変換する。黒生成処理の一例としては、スケルトンブラックにより黒生成を行う方法がある。この方法では、スケルトンカーブの入出力特性をｙ＝ｆ（ｘ）、変換前のデータをＣ，Ｍ，Ｙ、ＵＣＲ（Under Color Removal ）率をα（０＜α＜１）とすると、変換後のデータＣ’，Ｍ’，Ｙ’，Ｋ’は下記の式で表される。
Ｋ’＝ｆ（min（Ｃ，Ｍ，Ｙ））
Ｃ’＝Ｃ−αＫ’
Ｍ’＝Ｍ−αＫ’
Ｙ’＝Ｙ−αＫ’

ここで、ＵＣＲ率α（０＜α＜１）は、ＣＭＹが重なっている部分をＫに置き換えてＣＭＹをどの程度削減するかを示す。前記第１式は、ＣＭＹの各信号強度の内の最も小さい信号強度に応じてＫ信号が生成されることを示している。黒生成下色除去部２６は、次に、ＣＭＹ信号を変換したＣＭＹＫ信号を空間フィルタ処理部２７へ出力する。

空間フィルタ処理部２７は、黒生成下色除去部２６から入力されたＣＭＹＫ信号が表す画像に対して、領域分離処理部２３から入力された領域識別信号に基づいてデジタルフィルタによる空間フィルタ処理を行うことにより、画像のぼやけ又は粒状性劣化を改善する。例えば、領域分離処理部２３にて文字に分離された領域に対しては、空間フィルタ処理部２７は、文字の再現性を高めるために、高周波成分の強調量が大きいフィルタを用いて空間フィルタ処理を行う。また領域分離処理部２３にて網点に分離された領域に対しては、空間フィルタ処理部２７は、入力網点成分を除去するためのローパス・フィルタ処理を行う。空間フィルタ処理部２７は、次に、処理後のＣＭＹＫ信号を出力階調補正部２８へ出力する。

出力階調補正部２８は、空間フィルタ処理部２７から入力されたＣＭＹＫ信号に対して、カラー画像形成部１４の特性値である網点面積率に変換する出力階調補正処理を行い、出力階調補正処理後のＣＭＹＫ信号を階調再現処理部２９へ出力する。

階調再現処理部２９は、出力階調補正部２８から入力されたＣＭＹＫ信号に対して、領域分離処理部２３から入力された領域識別信号に基づいて、画素の階調数を減少させながら領域に応じた階調を表現できるように処理を行う。例えば、領域分離処理部２３にて文字に分離された領域に対しては、階調再現処理部２９は、高域周波成分の再現に適した高解像度のスクリーンによる二値化又は低階調化の処理を行う。また領域分離処理部２３にて網点に分離された領域に対しては、階調再現処理部２９は、最終的に画像を画素に分離して夫々の階調を再現できるように処理する階調再現処理を行う。階調再現処理部２９は、次に、処理後の画像データをカラー画像形成部１４へ出力する。

カラー画像形成部１４は、カラー画像処理部２から入力されたＣＭＹＫ信号でなる画像データに基づいて、紙等の記録担体上にＣＭＹＫのカラー画像を形成する。原稿データである画像データに基づいて画像を形成することにより、カラー画像形成部１４は、写真又は文書等からなる原稿を出力する。

次に、原稿抽出処理部２４の構成及び原稿抽出処理部２４が行う処理を説明する。図２は、原稿抽出処理部２４の構成を示すブロック図である。原稿抽出処理部２４は、入力された原稿データが表す原稿上の文字又は図形等に対応する特徴点を抽出する特徴点抽出部２４１、特徴点から原稿データの特徴を示す特徴データを算出する特徴データ算出部２４２、特徴データに基づいて、記憶部１２が記憶する原稿データに対して投票を行う投票処理部２４３、投票結果に基づいて原稿データの類似度を判定する類似度判定処理部２４４、及び記憶部１２から特定の原稿データを抽出する原稿抽出部２４５を備えている。

図３は、特徴点抽出部２４１の構成を示すブロック図である。特徴点抽出部２４１は、原稿データを無彩化する無彩化処理部２４１０、原稿データの解像度を所定の解像度に変換する解像度変換部２４１１、原稿データの空間周波数特性を補正するフィルタ処理部２４１２、原稿データを二値化する二値化処理部２４１３、及び文字等の重心を抽出する重心抽出部２４１４を備えている。

無彩化処理部２４１０は、入力された原稿データがカラー画像データである場合に、カラー画像を無彩化して、輝度信号又は明度信号に変換し、変換後の原稿データを解像度変換部２４１１へ出力する。例えば、輝度信号Ｙは、各画素ＲＧＢの色成分の強度を夫々Ｒｊ、Ｇｊ、Ｂｊとし、各画素の輝度をＹｊとして、Ｙｊ＝０．３０×Ｒｊ＋０．５９×Ｇｊ＋０．１１×Ｂｊで表すことができる。また他の方法として、ＲＧＢ信号をＣＩＥ（Commission International de l'Eclairage ）１９７６Ｌ^* ａ^* ｂ^* 信号に変換することによってカラー画像を無彩化する方法を利用しても良い。

解像度変換部２４１１は、入力された原稿データの解像度が所定の解像度になるように原稿データを変倍して、原稿データの解像度を変換し、原稿データをフィルタ処理部２４１２へ出力する。これにより、カラー画像入力部１３で光学的に原稿が変倍されて原稿データの解像度が変化した場合であっても、その影響を受けることなく特徴点の抽出を行うことが可能となる。また解像度変換部２４１１は、カラー画像入力部１３で等倍時に読み込まれる解像度よりも低解像度に変換する。例えば、カラー画像入力部１３で６００ｄｐｉ（dot per inch）で読み込んだ原稿データを３００ｄｐｉに変換する。これにより、後段における処理量を低減することができる。

フィルタ処理部２４１２は、入力された原稿データの空間周波数特性を画像の強調化処理及び平滑化処理等によって補正し、補正後の画像を二値化処理部２４１３へ出力する。フィルタ処理部２４１２での処理は、カラー画像入力部１３の空間周波数特性が機種ごとに異なることを吸収するために行われる。カラー画像入力部１３が備えるＣＣＤが出力する画像信号には、レンズ又はミラー等の光学系部品、ＣＣＤの受光面のアパーチャ開口度、転送効率、残像、物理的な走査による積分効果及び走査むら等に起因して画像がぼやける劣化が生ずる。フィルタ処理部２４１２は、境界又はエッジ等の強調処理を行うことにより、原稿データに生じた劣化を修復する。また、フィルタ処理部２４１２は、後段で処理される特徴点の抽出処理に不要な高周波成分を抑制するための平滑化処理を行う。

図４は、フィルタ処理部２４１２が利用する空間フィルタの例を示す説明図である。図に示すように、空間フィルタは、例えば、７×７の大きさを有し、強調処理及び平滑化処理を行うための混合フィルタである。入力された原稿データの画素を走査し、空間フィルタによる演算処理をすべての画素に対して行う。なお、空間フィルタの大きさは、７×７の大きさに限定されるものではなく、３×３、５×５などの大きさであってもよい。また、フィルタ係数の数値は一例であって、これに限定されるものではなく、カラー画像入力部１３の機種又は特性などに応じて適宜設定することができる。

二値化処理部２４１３は、入力された原稿データに含まれる各画素の輝度値又は明度値を所定の閾値と比較することにより原稿データを二値化し、二値化した原稿データを重心抽出部２４１４へ出力する。

重心抽出部２４１４は、二値化処理部２４１３から入力された原稿データの各画素について、二値化された画素値に応じたラベルを付すラベリングを行う。即ち、ラベルには二種類のラベルがあり、画素値が０又は１で表される場合に、０の画素には一方のラベルが付され、１の画素には他方のラベルが付される。重心抽出部２４１４は、次に、同一ラベルが付された画素が連結した連結領域を特定し、特定した連結領域の重心を特徴点として抽出し、抽出した特徴点を特徴データ算出部２４２へ出力する。なお、特徴点は、原稿データが表す二値画像上での座標値で表すことができる。

図５は、連結領域の特徴点の例を示す説明図である。図５において、特定された連結領域は、文字「Ａ」であり、同一ラベルが付された画素の集合として特定される。この文字「Ａ」の重心の位置は、図５中の黒丸で示される位置となり、この重心が特徴点となる。図６は、文字列に対する特徴点の抽出結果の例を示す説明図である。複数の文字から構成される文字列の場合、文字の種類により夫々異なる位置に特徴点が抽出される。特徴点は、文字に対してのみではなく、同様にして図形又は写真の部分に対しても抽出することができる。なお、ここで示した特徴点の抽出方法は一例であり、他の方法を用いて特徴点を抽出してもよい。例えば、文字列を単語に分解し、各単語の重心を特徴点として抽出する処理を行ってもよい。

特徴データ算出部２４２は、特徴点抽出部２４１から入力された特徴点に基づき、入力された原稿データの特徴を示す特徴データを算出する処理を行う。ここに、特徴データの算出例を示す。特徴データ算出部２４２は、特徴点抽出部２４１から入力された特徴点の夫々を順に注目特徴点とし、注目特徴点に近接する４つの他の特徴点を抽出する。

図７は、注目特徴点と抽出した特徴点とを示す説明図である。特徴データ算出部２４２は、図７に示すように、１つの特徴点を注目特徴点とし、この注目特徴点の周辺に近接する特徴点を、注目特徴点からの距離が近いものから順に所定数（ここでは４点）だけ周辺特徴点として抽出する。図７に示す例では、特徴点ａを注目特徴点Ｐ１とした場合には図中の閉曲線Ｃ１で囲まれる特徴点ｂ，ｃ，ｄ，ｅの４点が周辺特徴点として抽出され、特徴点ｂを注目特徴点Ｐ２とした場合には図中の閉曲線Ｃ２で囲まれる特徴点ａ，ｃ，ｅ，ｆの４点が周辺特徴点として抽出される。

また、特徴データ算出部２４２は、抽出した周辺特徴点４点の中から、３点の組み合わせを抽出する。図８は、注目特徴点Ｐ１に対して３点の周辺特徴点を抽出し、特徴データを算出する例を示す説明図である。図８（ａ）〜図８（ｄ）に示すように、図７に示した特徴点ａを注目特徴点Ｐ１とした場合、周辺特徴点ｂ，ｃ，ｄ，ｅの中から３点を選択した全ての組み合わせ、即ち、周辺特徴点ｂ，ｃ，ｄ、周辺特徴点ｂ，ｃ，ｅ、周辺特徴点ｂ，ｄ，ｅ、周辺特徴点ｃ，ｄ，ｅの各組み合わせが抽出される。

次に、特徴データ算出部２４２は、抽出した各組み合わせについて、幾何学的変形に対する不変量（特徴量の１つ）Ｈｉｊを算出する。ここで、ｉは注目特徴点を示す数（ｉは１以上の整数）であり、ｊは周辺特徴点３点の組み合わせを示す数（ｊは１以上の整数）である。本実施の形態では周辺特徴点同士を結ぶ線分の長さのうちの２つの比を不変量Ｈｉｊとする。なお、線分の長さは、各周辺特徴点の座標値に基づいて算出すればよい。例えば、図８（ａ）に示した例では、特徴点ｂと特徴点ｃとを結ぶ線分の長さをＡ１１、特徴点ｂと特徴点ｄとを結ぶ線分の長さをＢ１１とし、不変量Ｈ１１をＨ１１＝Ａ１１／Ｂ１１により求める。また、図８（ｂ）に示した例では、特徴点ｂと特徴点ｃとを結ぶ線分の長さをＡ１２、特徴点ｂと特徴点ｅとを結ぶ線分の長さをＢ１２とし、不変量Ｈ１２をＨ１２＝Ａ１２／Ｂ１２により求める。また、図８（ｃ）に示した例では、特徴点ｂと特徴点ｄとを結ぶ線分の長さをＡ１３、特徴点ｂと特徴点ｅとを結ぶ線分の長さをＢ１３とし、不変量Ｈ１３をＨ１３＝Ａ１３／Ｂ１３により求める。また、図８（ｄ）に示した例では、特徴点ｃと特徴点ｄとを結ぶ線分の長さをＡ１４、特徴点ｃと特徴点ｅとを結ぶ線分の長さをＢ１４とし、不変量Ｈ１４をＨ１４＝Ａ１４／Ｂ１４により求める。このようにして、図８（ａ）〜図８（ｄ）に示した例では、不変量Ｈ１１，Ｈ１２，Ｈ１３，Ｈ１４が算出される。以上の例では、注目特徴点に１番目，２番目，３番目に近い周辺特徴点３点の組み合わせをｊ＝１とし、注目特徴点に１番目，２番目，４番目に近い周辺特徴点３点の組み合わせをｊ＝２とし、注目特徴点に１番目，３番目，４番目に近い周辺特徴点３点の組み合わせをｊ＝３とし、注目特徴点に２番目，３番目，４番目に近い周辺特徴点３点の組み合わせをｊ＝４とした。また、３点の周辺特徴点の中で注目特徴点に最も近い周辺特徴点と２番目に近い周辺特徴点とを結ぶ線分をＡｉｊ、注目特徴点に最も近い周辺特徴点と３番目に近い周辺特徴点とを結ぶ線分をＢｉｊとした。なお、周辺特徴点３点の組み合わせの順番又は不変量Ｈｉｊの算出に用いる線分を定めるためには、以上の例で用いた方法に限ることなく、周辺特徴点間を結ぶ線分の長さを基準にして定める方法等、任意の方法を用いて定めればよい。

次に、特徴データ算出部２４２は、下記式の余りの値をハッシュ値（特徴データ）Ｈｉとして算出し、記憶部１２に記憶させる。なお、下記式のＤは余りが取り得る値の範囲をどの程度に設定するかに応じて予め設定される定数である。
（Ｈｉ１×１０³ ＋Ｈｉ２×１０² ＋Ｈｉ３×１０¹ ＋Ｈｉ４×１０⁰ ）／Ｄ

また、特徴データ算出部２４２は、１つの注目特徴点に対する周辺特徴点の抽出及びハッシュ値Ｈｉの算出が終了した後、他の特徴点を次の注目特徴点とし、次の注目特徴点について周辺特徴点の抽出及びハッシュ値の算出を行い、各特徴点を注目特徴点としたハッシュ値を算出する。

図７に示した例では、特徴データ算出部２４２は、特徴点ａを注目特徴点Ｐ１とした周辺特徴点の抽出及びハッシュ値Ｈ１の算出が終了した後に、特徴点ｂを注目特徴点Ｐ２とした周辺特徴点の抽出及びハッシュ値Ｈ２の算出を行う。図７に示すように、特徴点ｂを注目特徴点Ｐ２とした場合、特徴点ａ，ｃ，ｅ，ｆの４点が周辺特徴点として抽出される。図９は、注目特徴点Ｐ２に対して３点の周辺特徴点を抽出し、特徴データを算出する例を示す説明図である。図９（ａ）〜図９（ｄ）に示すように、特徴データ算出部２４２は、周辺特徴点ａ，ｃ，ｅ，ｆの内の３点の組み合わせ、即ち、周辺特徴点ａ，ｅ，ｆ、周辺特徴点ａ，ｃ，ｅ、周辺特徴点ａ，ｆ，ｃ、周辺特徴点ｅ，ｆ，ｃの各組み合わせを抽出し、各組み合わせについて不変量Ｈｉｊを算出する。図８に示した注目特徴点Ｐ１の場合と同様に、注目特徴点Ｐ２の場合でも、図９（ａ）に示すようにＨ２１＝Ａ２１／Ｂ２１により不変量Ｈ２１が算出され、図９（ｂ）に示すようにＨ２２＝Ａ２２／Ｂ２２により不変量Ｈ２２が算出され、図９（ｃ）に示すようにＨ２３＝Ａ２３／Ｂ２３により不変量Ｈ２３が算出され、図９（ｄ）に示すようにＨ２４＝Ａ２４／Ｂ２４により不変量Ｈ２４が算出される。また特徴データ算出部２４２は、不変量Ｈ２１，Ｈ２２，Ｈ２３，Ｈ２４からハッシュ値Ｈ２を算出し、記憶部１２に記憶させる。更に特徴データ算出部２４２は、各特徴点を注目特徴点として同様の処理を繰り返し、各特徴点を注目特徴点とした場合のハッシュ値Ｈｉを夫々に求めて記憶部１２に記憶させる。

以上の如くにして、特徴データ算出部２４２は、特徴点の夫々についてハッシュ値Ｈｉである特徴データを計算し、計算した複数の特徴データを原稿データの特徴データとする。特徴データ算出部２４２は、本発明における生成手段として機能する。

なお、ここで示した特徴データの算出方法は一例であり、他の方法を用いて特徴データを算出してもよい。例えば、他の所定のハッシュ関数を用いて特徴データを算出してもよい。また、注目特徴点に近接する特徴点を抽出する際に、５点又は６点等、４点以外の数の特徴点を抽出して特徴データを算出してもよい。また、抽出した５つの特徴点から更に３つの特徴点を抽出し、３点間の距離に基づいて特徴データを算出し、５つの特徴点から更に３つの特徴点を抽出できる組み合わせの数だけ特徴データを算出する等、一の注目特徴点について複数の特徴データを算出する処理を行ってもよい。

特徴データ算出部２４２が算出する特徴データは、原稿データに関連付けられて記憶部１２で記憶されている。記憶部１２は、夫々に複数のページで構成される原稿毎に、各ページに対応する原稿データを記憶し、更に、原稿データと原稿とを対応付ける原稿テーブル、及び原稿データと特徴データとを対応付ける特徴テーブルを記憶している。記憶部１２は、本発明における特徴データ記憶手段として機能する。

図１０は、記憶部１２が記憶する原稿データを示す概念図である。原稿に含まれる各ページに対応する複数の原稿データが記憶されており、各原稿データには、原稿データを個別に示すＩＤ１，ＩＤ２，…のページインデックスが付されている。図１１は、記憶部１２が記憶する原稿データと原稿とを対応付ける原稿テーブルの内容例を示す概念図である。原稿を個別に示すＤｏｃ１，Ｄｏｃ２，…の原稿インデックスが記録されており、原稿に含まれる各ページに対応する原稿データを示すページインデックスが、原稿インデックスに関連付けられて記録されている。テーブルには更に各原稿のページ数が記録されており、ページ数と同数のページインデックスが原稿インデックスに関連付けられている。ページインデックスが原稿インデックスに関連付けられていることによって、図１０に示す如く、記憶部１２は原稿インデックス及び原稿データを互いに関連付けて記憶する。

図１２は、記憶部１２が記憶する原稿データと特徴データとを対応付ける特徴テーブルの内容例を示す概念図である。図中には、ハッシュ値である特徴データをＥ＝１２７として算出した場合の例を示している。０〜１２６の夫々の特徴データが記録されており、原稿データのページインデックスが、その原稿データについて算出された特徴データに関連付けて記録されている。複数の原稿データで同一の特徴データが算出されることがあるので、各特徴データには、複数のページインデックスが関連付けられている。また一の原稿データについて複数の特徴データが算出されるので、一の原稿データのページインデックスが複数の特徴データに関連付けられている。ページインデックスが特徴データに関連付けられていることによって、記憶部１２は特徴データ及び原稿データを互いに関連付けて記憶する。

投票処理部２４３は、特徴データ算出部２４２が算出した特徴データに基づいて、記憶部１２が記憶する特徴テーブルを検索し、算出した特徴データと一致する特徴データに関連付けられたページインデックスが示す原稿データに投票する。一の特徴データに複数のページインデックスが関連付けられている場合は、その特徴データに関連付けられた全ての原稿データに対して投票が行われる。入力された原稿データについて特徴データ算出部２４２は複数の特徴データを算出するので、各特徴データについて投票が行われ、入力された原稿データに類似する原稿データに対しては複数回の投票が行われる。投票処理部２４３は、特徴データ算出部２４２が算出した複数の特徴データについて投票を行った結果を類似度判定処理部２４４へ出力する。

類似度判定処理部２４４は、投票処理部２４３から入力された投票結果に基づいて、入力された原稿データが、記憶部１２に記憶された原稿データのいずれに類似するかを判定し、判定結果を原稿抽出部２４５へ出力する。具体的には、類似度判定処理部２４４は、記憶部１２に記憶された各原稿データの得票数を検査し、得票数が最大である原稿データを、入力された原稿データに類似する原稿データであると判定する。あるいは、類似度判定処理部２４４は、特徴データ算出部２４２が算出した特徴データの数である最大可能得票数で各原稿データの得票数を除算して得票数を正規化し、正規化した得票数が所定の閾値以上である原稿データを、入力された原稿データに類似する原稿データであると判定する処理を行ってもよい。入力された原稿データに類似する原稿データがある場合は、類似度判定処理部２４４が出力する判定結果には、類似する原稿データのページインデックスが含まれる。投票処理部２４３及び類似度判定処理部２４４は、本発明における判定手段として機能する。

原稿抽出部２４５は、類似度判定処理部２４４から入力された判定結果に含まれるページインデックスに基づいて、記憶部１２が記憶する原稿テーブルを検索し、ページインデックスに関連付けられた原稿インデックスを取得する。これにより、入力された原稿データに類似すると判定された原稿データに対応するページを含む原稿が特定される。原稿抽出部２４５は、次に、取得した原稿インデックスに関連付けられた複数のページインデックスが示す複数の原稿データを抽出し、抽出した複数の原稿データを色補正部２５へ出力する。これにより、特定された原稿に含まれる全てのページに対応する原稿データが抽出される。原稿抽出部２４５は、本発明における抽出手段として機能する。

次に、以上の構成でなる本発明の原稿抽出装置１００が実行する処理を説明する。原稿抽出装置１００は、複数のページで構成される原稿を読み取って原稿データを登録する処理と、原稿の一部を読み取って原稿の全てのページに対応する原稿データを抽出する処理とを実行する。原稿の一部から原稿の全てのページに対応する原稿データを抽出する処理は、本発明の原稿抽出方法に係る処理である。図１３は、原稿データを登録する処理の手順を示すフローチャートである。

原稿抽出装置１００の制御部１１は、操作パネル１５を使用者が操作することによる、原稿データの登録指示の受付を随時待ち受けている（Ｓ１１）。登録指示の受付がない場合は（Ｓ１１：ＮＯ）、制御部１１は、登録指示の受付の待ち受けを続行する。原稿データの登録指示を受け付けた場合は（Ｓ１１：ＹＥＳ）、複数のページでなる原稿を使用者が原稿抽出装置１００にセットし、カラー画像入力部１３は、各ページを光学的に読み取ることによって、ＲＧＢ信号でなる画像データである複数の原稿データを取得する（Ｓ１２）。カラー画像入力部１３は、原稿データをカラー画像処理部２へ出力し、カラー画像処理部２では、Ａ／Ｄ変換部２０、シェーディング補正部２１、入力階調補正部２２、及び領域分離処理部２３の順に原稿データを処理し、制御部１１は、記憶部１２に原稿データを記憶させる（Ｓ１３）。

原稿抽出処理部２４では、特徴点抽出部２４１が前述の処理によって一の原稿データについて複数の特徴点を抽出し（Ｓ１４）、特徴データ算出部２４２は、前述の処理によって夫々の特徴点について特徴データを計算することにより、一の原稿データの特徴を示す複数の特徴データを算出する（Ｓ１５）。制御部１１は、次に、一の原稿データを示すページインデックスを生成し、記憶部１２に記憶した原稿データにページインデックスを付加することによって、ページインデックスを設定する（Ｓ１６）。このとき、制御部１１は、原稿データが入力された順番、又は日時等に基づいて、一意のページインデックスを生成する。制御部１１は、次に、特徴データ算出部２４２が算出した特徴データと原稿データのページインデックスとを関連付けることによって、図１２に示す如き特徴テーブルを更新する（Ｓ１７）。

制御部１１は、次に、入力された全ての原稿データについて特徴データを関連付ける処理が終了したか否かを判定する（Ｓ１８）。まだ特徴データを関連付ける処理を行っていない原稿データがある場合は（Ｓ１８：ＮＯ）、制御部１１は、処理をステップＳ１４へ戻し、特徴点抽出部２４１は、まだ特徴点の抽出を行っていない原稿データについて特徴点を抽出する。全ての原稿データについて処理が終了している場合は（Ｓ１８：ＹＥＳ）、取得した複数の原稿データに対応する複数のページで構成される原稿を示す原稿インデックスを生成することによって、原稿インデックスを設定する（Ｓ１９）。ここで、制御部１１は、日時等から原稿インデックスを生成する。なお、制御部１１は、使用者が希望する原稿インデックスを操作パネル１５で受け付ける処理を行ってもよい。

制御部１１は、次に、生成した原稿インデックスと原稿データのページインデックスとを関連付けることによって、記憶部１２が記憶する原稿テーブルを更新し（Ｓ２０）、処理を終了する。以上の処理により、複数のページからなる原稿の原稿データが記憶部１２に記憶される。

図１４は、原稿データを抽出する処理の手順を示すフローチャートである。原稿抽出装置１００の制御部１１は、操作パネル１５を使用者が操作することによる、原稿データの抽出指示の受付を随時待ち受けている（Ｓ３１）。抽出指示の受付がない場合は（Ｓ３１：ＮＯ）、制御部１１は、抽出指示の受付の待ち受けを続行する。画像データの抽出指示を受け付けた場合は（Ｓ３１：ＹＥＳ）、複数のページでなる原稿に含まれる一部のページを原稿抽出装置１００に使用者がセットし、カラー画像入力部１３は、セットされたページを光学的に読み取ることによって、ＲＧＢ信号でなる画像データである入力原稿データを取得する（Ｓ３２）。

カラー画像入力部１３は、入力原稿データをカラー画像処理部２へ出力し、カラー画像処理部２では、Ａ／Ｄ変換部２０、シェーディング補正部２１、入力階調補正部２２、及び領域分離処理部２３の順に入力原稿データを処理し、原稿抽出処理部２４では、特徴点抽出部２４１が入力原稿データについて複数の特徴点を抽出する（Ｓ３３）。特徴データ算出部２４２は、特徴点抽出部２４１が抽出した各特徴点について特徴データを計算することにより、入力原稿データの特徴を示す複数の特徴データを算出する（Ｓ３４）。

投票処理部２４３は、次に、特徴データ算出部２４２が算出した各特徴データについて、記憶部１２が記憶する特徴テーブルを検索し、算出した特徴データに関連付けられたページインデックスが示す原稿データに投票する投票処理を行う（Ｓ３５）。類似度判定処理部２４４は、投票処理部２４３での投票結果に基づいて、入力原稿データが、記憶部１２に記憶された原稿データのいずれに類似するかを判定する（Ｓ３６）。このとき、類似度判定処理部２４４は、最低限の得票数を得た原稿データの内で得票数が最大である原稿データ、又は正規化された得票数が所定の閾値以上である原稿データを、入力原稿データとの類似度が高い原稿データであると判定する。

制御部１１は、次に、類似度判定処理部２４４での判定結果が、類似度が高い原稿データがあることを示しているか否かを判定する（Ｓ３７）。判定結果が、類似度が高い原稿データがないことを示している場合は（Ｓ３７：ＮＯ）、制御部１１は、使用者がカラー画像入力部１３に読み取らせた原稿と類似する原稿がないことを示す情報を出力する（Ｓ３８）。具体的には、制御部１１は、類似する原稿がないことを示す文字情報を操作パネル１５の表示部に表示させるか、又は類似する原稿がないことを文字で表した画像をカラー画像形成部１４に形成させる。ステップＳ３８が終了した後は、原稿抽出装置１００は、原稿データを抽出する処理を終了する。

ステップＳ３７で、判定結果が、類似度が高い原稿データがあることを示している場合は（Ｓ３７：ＹＥＳ）、原稿抽出部２４５は、記憶部１２が記憶する原稿テーブルを検索し、類似度判定処理部２４４が入力原稿データとの類似度が高いと判定した原稿データのページインデックスに関連付けられた原稿インデックスを取得する（Ｓ３９）。制御部１１は、次に、複数のページに対応する複数の入力原稿データを取得しているか否かを判定する（Ｓ４０）。取得した入力原稿データが一のページに対応する入力原稿データである場合は（Ｓ４０：ＮＯ）、原稿抽出部２４５は、取得した原稿インデックスに原稿テーブルで関連付けられた複数のページインデックスが示す複数の原稿データを抽出する（Ｓ４３）。これにより、入力原稿データとの類似度が高い原稿データに対応するページが含まれる原稿に係る原稿データが全て抽出される。

原稿抽出部２４５は、抽出した原稿データを色補正部２５へ出力し、色補正部２５、黒生成下色除去部２６、空間フィルタ処理部２７、出力階調補正部２８、階調再現処理部２９の順に原稿データを処理し、カラー画像処理部２はカラー画像形成部１４へ原稿データを出力する。カラー画像形成部１４は、画像データである複数の原稿データに基づいた画像を形成することにより、複数の原稿データに対応する複数のページで構成される原稿を出力する原稿出力処理を行う（Ｓ４４）。ステップＳ４４が終了した後は、原稿抽出装置１００は、原稿データを抽出する処理を終了する。

ステップＳ４０で複数のページに対応する複数の入力原稿データを取得している場合は（Ｓ４０：ＹＥＳ）、制御部１１は、各入力原稿データについて取得した原稿インデックスが一致しているか否かを判定する（Ｓ４１）。原稿インデックスが一致していない場合は（Ｓ４１：ＮＯ）、制御部１１は、処理をステップＳ３８へ進め、類似する原稿がないことを出力する。

ステップＳ４１で原稿インデックスが一致している場合は（Ｓ４１：ＹＥＳ）、制御部１１は、全ての入力原稿データについて類似度を判定する処理が終了したか否かを判定する（Ｓ４２）。まだ類似度を判定する処理を行っていない入力原稿データがある場合は（Ｓ４２：ＮＯ）、制御部１１は、処理をステップＳ３３へ戻し、特徴点抽出部２４１は、まだ特徴点の抽出を行っていない入力原稿データについて特徴点を抽出する。全ての入力原稿データについて処理が終了している場合は（Ｓ４２：ＹＥＳ）、原稿抽出装置１００は、処理をステップＳ４３へ進め、入力原稿データとの類似度が高い原稿データに対応するページが含まれる原稿に係る原稿データを抽出して原稿を出力する。

なお、以上の処理においては、入力原稿データとの類似度が高い原稿データが一つであるとしているが、原稿抽出装置１００は、正規化された得票数が所定の閾値以上である原稿データが複数ある場合に、複数の原稿データを入力原稿データとの類似度が高い原稿データであると判定する処理を行ってもよい。この場合は、複数の原稿データの夫々に係る原稿を共に出力する処理を行ってもよく、又、類似度が高いと判定された各原稿データに対応するページのイメージを操作パネル１５の表示部で表示し、正当な原稿データを使用者に選択させる処理を行ってもよい。

以上詳述した如く、本発明においては、原稿抽出装置１００は、原稿に含まれる各ページに対応する原稿データを記憶部１２に記憶しておき、更に原稿データの特徴を示す特徴データ、及び原稿を示す原稿インデックスを原稿データに関連付けて記憶しておく。原稿抽出装置１００は、入力原稿データを取得した場合に、入力原稿データから特徴データを生成し、特徴データに基づいて原稿データとの類似度を判定し、入力原稿データとの類似度が高い原稿データに関連付けられた原稿インデックスを取得し、取得した原稿インデックスに関連付けられた複数の原稿データを抽出する。これにより、入力原稿データに類似すると判定された原稿データに対応するページを含む原稿が特定され、また特定された原稿に含まれる全てのページに対応する原稿データが抽出される。即ち、複数ページで構成される原稿の一部に対応する入力原稿データに基づき、原稿の全てのページに対応する原稿データを抽出することが可能となる。従って、複数ページで構成されている原稿に紛失又は汚れ等によって欠落が生じた場合であっても、原稿データを予め記憶してあるデータベースの中から、原稿の全てのページに亘った原稿データを容易に抽出することが可能となる。

また本発明の原稿抽出装置１００は、原稿データの類似度を判定するために、一の原稿データについて複数の特徴データを記憶しておき、入力原稿データについて生成した各特徴データ毎に同一の特徴データに関連付けられた原稿データに投票し、最大の得票数又は所定量以上の得票数を得た原稿データを、入力原稿データとの類似度が高い原稿データであるとする。複数の特徴データの内で多くの特徴データが一致する原稿データを類似度が高いと判定するので、より確からしい類似度判定を行うことができる。従って、入力原稿データに類似しない原稿データを類似度が高い原稿データであると間違って判定することによって目的とは異なる原稿データを抽出してしまう愚を可及的に避けることが可能となる。

また本発明の原稿抽出装置は、複数の入力原稿データを取得し、各入力原稿データとの類似度が高い原稿データに関連付けられた原稿インデックスが一致する場合に、一致した原稿インデックスに関連付けられた複数の原稿データを抽出する。これにより、複数のページに基づいて原稿を抽出することが可能となり、目的とは異なる原稿データを間違って抽出してしまう可能性をより低下させることができる。例えば、互いに類似する原稿が存在する場合でも、目的の原稿データを確実に抽出することが可能となる。

また本発明においては、原稿データが表す原稿上の文字、図形及び写真等の重心に対応した特徴点を原稿データから抽出し、抽出した複数の特徴点の相対的な位置関係に基づいて、数値で表される特徴データを算出する。このようにして算出した特徴データを原稿データ間で比較することにより原稿データの検索を行うので、従来のビットマップデータを比較することによる検索、又は原稿から抽出した多量の文字コードである特徴量を比較することによる検索に比べて、原稿データの検索処理を行うために必要なデータ量が大幅に削減される。従って、本発明においては、従来技術に比べて、原稿データを検索する処理に必要な時間が削減される。また本発明においては、複数の特徴点の相対的な位置関係に基づいて求めた特徴データを比較することによって原稿データの検索を行うので、原稿データ間で画像の位置合わせを行う必要がない。従って、本発明では、従来技術に比べて高精度で原稿データを検索することができる。

なお、本実施の形態においては、カラー画像データである原稿データを扱う形態を示したが、これに限るものではなく、本発明の原稿抽出装置１００は、モノクロの原稿データを扱う形態であってもよい。

また本実施の形態においては、本発明における取得手段としてスキャナであるカラー画像入力部１３を用いた形態を示したが、これに限るものではなく、本発明の原稿抽出装置１００は、取得手段として、外部のスキャナ又はＰＣから原稿データを受信するインタフェースを備えた形態であってもよい。また本発明に係る原稿データは、原稿を光学的に取り込んだ画像データに限るものではなく、アプリケーションプログラムを利用したＰＣで作成したテキストデータ等のアプリケーションデータであってもよい。この場合は、原稿抽出装置１００は、取得手段であるインタフェースでアプリケーションデータである原稿データを受け付け、本発明に係る処理を実行する。

また本実施の形態においては、取得した原稿データを登録し、登録した原稿データの中から必要な原稿データを抽出する処理を行う形態を示したが、これに限るものではなく、本発明の原稿抽出装置１００は、予め原稿データを記憶している記憶部１２を取り付けられる等の方法により、登録の処理を行うことなく原稿データを抽出する処理を行う形態であってもよい。また本実施の形態においては、原稿抽出装置１００で内蔵する記憶部１２に記憶する原稿データから必要な原稿データを抽出する処理を行う形態を示したが、これに限るものではなく、本発明の原稿抽出装置１００は、通信ネットワークで接続されたストレージ装置又はサーバ装置等の外部の記憶手段に記憶された原稿データから必要な原稿データを抽出する処理を行う形態であってもよい。

（実施の形態２）
実施の形態２においては、入力画像データとの類似度が高い原稿データが複数ある場合に、更に入力画像データを取得して画像データの絞込みを行う形態を示す。本実施の形態に係る原稿抽出装置の内部構成は、図１〜図３を用いて説明した実施の形態１の場合と同様である。また本実施の形態に係る記憶部１２での記憶内容は、図１１及び図１２を用いて説明した実施の形態１の場合と同様である。また本実施の形態に係る原稿抽出装置が原稿データを登録する処理は、図１３のフローチャートを用いて説明した実施の形態１の場合と同様である。

図１５及び図１６は、実施の形態２に係る原稿抽出装置が行う原稿データを抽出する処理の手順を示すフローチャートである。原稿抽出装置１００の制御部１１は、操作パネル１５を使用者が操作することによる、原稿データの抽出指示の受付を随時待ち受けている（Ｓ５０１）。抽出指示の受付がない場合は（Ｓ５０１：ＮＯ）、制御部１１は、抽出指示の受付の待ち受けを続行する。画像データの抽出指示を受け付けた場合は（Ｓ５０１：ＹＥＳ）、複数のページでなる原稿に含まれる一部のページを原稿抽出装置１００に使用者がセットし、カラー画像入力部１３は、セットされた一のページを光学的に読み取ることによって、ＲＧＢ信号でなる画像データである入力原稿データを取得する（Ｓ５０２）。

カラー画像入力部１３は、入力原稿データをカラー画像処理部２へ出力し、カラー画像処理部２では、Ａ／Ｄ変換部２０、シェーディング補正部２１、入力階調補正部２２、及び領域分離処理部２３の順に入力原稿データを処理し、原稿抽出処理部２４では、特徴点抽出部２４１が入力原稿データについて複数の特徴点を抽出する（Ｓ５０３）。特徴データ算出部２４２は、特徴点抽出部２４１が抽出した各特徴点について特徴データを計算することにより、入力原稿データの特徴を示す複数の特徴データを算出する（Ｓ５０４）。

投票処理部２４３は、次に、特徴データ算出部２４２が算出した各特徴データについて、記憶部１２が記憶する特徴テーブルを検索し、算出した特徴データに関連付けられたページインデックスが示す原稿データに投票する投票処理を行う（Ｓ５０５）。類似度判定処理部２４４は、投票処理部２４３での投票結果に基づいて、入力原稿データが、記憶部１２に記憶された原稿データのいずれに類似するかを判定する（Ｓ５０６）。ステップＳ５０６では、類似度判定処理部２４４は、正規化された得票数が所定の閾値以上である原稿データを、入力原稿データとの類似度が高い原稿データであると判定する。

制御部１１は、次に、類似度判定処理部２４４での判定結果が、入力原稿データとの類似度が高い原稿データがあることを示しているか否かを判定する（Ｓ５０７）。判定結果が、類似度が高い原稿データがないことを示している場合は（Ｓ５０７：ＮＯ）、制御部１１は、使用者がカラー画像入力部１３に読み取らせた原稿と類似する原稿がないことを示す情報を出力する（Ｓ５０８）。ステップＳ５０８が終了した後は、原稿抽出装置１００は、原稿データを抽出する処理を終了する。

ステップＳ５０７で、判定結果が、入力原稿データとの類似度が高い原稿データがあることを示している場合は（Ｓ５０７：ＹＥＳ）、原稿抽出部２４５は、記憶部１２が記憶する原稿テーブルを検索し、類似度判定処理部２４４が入力原稿データとの類似度が高いと判定した原稿データのページインデックスに関連付けられた原稿インデックスを取得する（Ｓ５０９）。入力原稿データとの類似度が高い原稿データが複数ある場合は、ステップＳ５０９では複数の原稿インデックスが取得される。制御部１１は、次に、現在処理中の入力原稿データが、複数のページでなる原稿の内の２ページ目以降のページを読み取った入力原稿データであるか否かを判定する（Ｓ５１０）。現在処理中の入力原稿データが原稿の１ページ目を読み取った入力原稿データである場合は（Ｓ５１０：ＮＯ）、制御部１１は、ステップＳ５０９で取得した原稿インデックスが複数個あるか否かを判定する（Ｓ５１５）。ステップＳ５０９で取得した原稿インデックスが単数である場合は（Ｓ５１５：ＮＯ）、原稿抽出部２４５は、取得した原稿インデックスに原稿テーブルで関連付けられた複数のページインデックスが示す複数の原稿データを抽出する（Ｓ５１６）。

原稿抽出部２４５は、抽出した原稿データを色補正部２５へ出力し、色補正部２５、黒生成下色除去部２６、空間フィルタ処理部２７、出力階調補正部２８、階調再現処理部２９の順に原稿データを処理し、カラー画像処理部２はカラー画像形成部１４へ原稿データを出力する。カラー画像形成部１４は、画像データである複数の原稿データに基づいた画像を形成することにより、複数の原稿データに対応する複数のページで構成される原稿を出力する原稿出力処理を行う（Ｓ５１７）。ステップＳ５１７が終了した後は、原稿抽出装置１００は、原稿データを抽出する処理を終了する。

ステップＳ５１０で、現在処理中の入力原稿データが原稿の２ページ目以降のページを読み取った入力原稿データである場合は（Ｓ５１０：ＹＥＳ）、制御部１１は、原稿からこれまで読み取ったページに対応する入力原稿データに関して取得した原稿インデックスの内、これまで読み取った全ページに共通する原稿インデックスがあるか否かを判定する（Ｓ５１１）。全ページに共通する原稿インデックスがない場合は（Ｓ５１１：ＮＯ）、制御部１１は、処理をステップＳ５０８へ進め、類似する原稿がないことを出力する。

これまで読み取った全ページに共通する原稿インデックスがある場合は（Ｓ５１１：ＹＥＳ）、制御部１１は、全ページに共通する原稿インデックスが複数個あるか否かを判定する（Ｓ５１２）。全ページに共通する原稿インデックスが単数である場合は（Ｓ５１２：ＮＯ）、制御部１１は、処理部ステップＳ５１６へ進め、原稿抽出部２４５は、取得した原稿インデックスに関連付けられた複数のページインデックスが示す複数の原稿データを抽出し（Ｓ５１６）、カラー画像形成部１４は、複数の原稿データに対応する複数のページで構成される原稿を出力する原稿出力処理を行い（Ｓ５１７）、原稿抽出装置１００は処理を終了する。

ステップＳ５１５において、取得した原稿インデックスが複数個ある場合（Ｓ５１５：ＹＥＳ）、又はステップＳ５１２において、これまで読み取った全ページに共通する原稿インデックスが複数個ある場合は（Ｓ５１２：ＹＥＳ）、制御部１１は、原稿の他のページの要求を示す情報を出力する処理を行う（Ｓ５１３）。具体的には、制御部１１は、原稿に含まれる新たなページの読取を要求する文字情報を操作パネル１５の表示部に表示させる。

制御部１１は、次に、原稿に含まれる他のページが原稿抽出装置１００に使用者によりセットされているか否かを判定する（Ｓ５１４）。原稿に含まれる他のページが原稿抽出装置１００にセットされている場合は（Ｓ５１４：ＹＥＳ）、制御部１１は、処理をステップＳ５０２へ戻し、カラー画像入力部１３は、原稿に含まれる他のページに対応する入力原稿データを取得する。

原稿に含まれる他のページが原稿抽出装置１００にセットされていない場合は（Ｓ５１４：ＮＯ）、制御部１１は、処理をステップＳ５１６へ進める。なお、ステップＳ５１４では、制御部１１は、ステップＳ５１３の処理が終了してから所定時間が経過しても原稿の他のページがセットされない場合、又は使用者が操作パネル１５を操作することにより原稿読取の終了指示を受けつけた場合に、原稿の他のページがセットされていないと判定する処理を行ってもよい。制御部１１が処理をステップＳ５１６へ進めることにより、原稿抽出部２４５は、これまで読み取った全ページに共通する複数の原稿インデックスの夫々に関連付けられた各ページインデックスが示す原稿データを抽出し（Ｓ５１６）、カラー画像形成部１４は、抽出した原稿データに対応する原稿を出力する原稿出力処理を行う（Ｓ５１７）。これにより、原稿抽出装置１００は、複数の原稿インデックスに対応する複数の原稿を出力する。ステップＳ５１７が終了した後は、原稿抽出装置１００は処理を終了する。

以上詳述した如く、本実施の形態に係る原稿抽出装置は、原稿の内で読みとったページに対応する入力原稿データとの類似度が高い原稿データに関連付けられた原稿インデックスが複数ある場合に、原稿の他のページに対応する入力原稿データを要求し、原稿の他のページを読み取った入力画像データを取得する。更に本実施の形態に係る原稿抽出装置は、読み取った全ページに共通して入力原稿データとの類似度が高い原稿データに関連付けられた原稿インデックスを取得し、取得した原稿インデックスに関連付けられた複数の原稿データを抽出する。これにより、入力原稿データに類似すると判定された原稿データの原稿インデックスが複数ある場合に、原稿の他のページをも利用して原稿インデックスの絞込みが行われ、入力原稿データに類似する原稿データの原稿インデックスが確定するまで絞込みが繰り返される。従って、複数のページを利用することにより、より確からしい類似度判定を行うことが可能となり、所望の原稿データを高精度で抽出することが可能となる。

（実施の形態３）
実施の形態１及び２においては、一ページに対応する入力原稿データに基づいていずれの原稿をも出力できる形態を示したが、実施の形態３においては、特定の原稿について出力の条件をより厳しくした形態を示す。本実施の形態に係る原稿抽出装置の内部構成は、図１〜図３を用いて説明した実施の形態１の場合と同様である。

図１７は、実施の形態３に係る記憶部１２が記憶する原稿データと原稿とを対応付ける原稿テーブルの内容例を示す概念図である。原稿を個別に示すＤｏｃ１，Ｄｏｃ２，…の原稿インデックスに関連付けて、ページインデックス及びページ数が記録されており、更に、原稿を出力するために必要となる出力条件が原稿インデックスに関連付けて記録されている。図１７に示す例では、Ｄｏｃ１〜Ｄｏｃ４の原稿インデックスには出力条件が関連付けられておらず、Ｄｏｃ２１及びＤｏｃ５１の原稿インデックスに出力条件が関連付けられている。Ｄｏｃ２１の原稿インデックスには、原稿インデックスに関連付けられたＩＤ２１〜ＩＤ２８のページインデックスの内、ＩＤ２１及びＩＤ２５に対応する原稿データが共に入力原稿データと類似となることが出力条件として関連付けられている。またＤｏｃ５１の原稿インデックスには、原稿インデックスに関連付けられたＩＤ５１〜ＩＤ５５のページインデックスの内、三個以上のページインデックスに対応する原稿データが入力原稿データと類似となることが出力条件として関連付けられている。また、本実施の形態に係る記憶部１１が記憶する原稿データと特徴データとを対応付ける特徴テーブルの内容は、図１２を用いて説明した実施の形態１の場合と同様である。

また本実施の形態に係る原稿抽出装置が原稿データを登録する処理は、図１３のフローチャートを用いて説明した実施の形態１の場合と同様である。また本実施の形態に係る原稿抽出装置が行う原稿データを抽出する処理は、図１４のフローチャートを用いて説明した実施の形態１の場合、又は図１５及び図１６を用いて説明した実施の形態２の場合とほぼ同様であるが、ステップＳ４４又はステップＳ５１７の原稿出力処理の内容が実施の形態１又は２と異なる。

図１８は、実施の形態３に係る原稿抽出装置が行う原稿出力処理の手順を示すフローチャートである。本実施の形態に係る原稿抽出装置１００は、原稿データを抽出する処理において、図１３に示したステップＳ３１〜Ｓ４３、又は図１４及び図１５に示したステップＳ５０１〜Ｓ５１６の処理を実行する。ステップＳ４４又はステップＳ５１７の原稿出力処理では、制御部１１は、まず、原稿抽出部２４５がステップＳ４３又はステップＳ５１６で抽出した原稿データの内、一の原稿データに関連付けられた原稿インデックスを選択する（Ｓ６１）。制御部１１は、次に、記憶部１２に記憶している原稿テーブルを検索し、選択した原稿インデックスに出力条件が関連付けられているか否かを判定する（Ｓ６２）。選択した原稿インデックスに出力条件が関連付けられている場合は（Ｓ６２：ＹＥＳ）、制御部１１は、原稿インデックスに関連付けられた出力条件が満たされているか否かを判定する（Ｓ６３）。

例えば、図１７に示すＤｏｃ２１の原稿インデックスが選択されている場合は、ステップＳ３７又はステップＳ５０７で、ＩＤ２１及びＩＤ２５に対応する原稿データが共に入力原稿データと類似する原稿データとして判定されているときに、出力条件が満たされていると判定される。ＩＤ２１及びＩＤ２５のいずれかに対応する原稿データが、入力原稿データと類似する原稿データとは判定されなかったときは、出力条件は満たされていないと判定される。またＤｏｃ２１の原稿インデックスが選択されている場合は、ステップＳ３７又はステップＳ５０７で、ＩＤ５１〜ＩＤ５５のページインデックスの内、三個以上のページインデックスに対応する原稿データが入力原稿データと類似する原稿データとして判定されているときに、出力条件が満たされていると判定される。三個未満のページインデックスに対応する原稿データしか、入力原稿データと類似する原稿データとして判定されていないときには、出力条件は満たされていないと判定される。

ステップＳ６２で原稿インデックスに出力条件が関連付けられていない場合（Ｓ６２：ＮＯ）、又はステップＳ６３で原稿インデックスに関連付けられた出力条件が満たされている場合は（Ｓ６３：ＹＥＳ）、カラー画像形成部１４は、選択した原稿インデックスに関連付けられた各ページインデックスが示す原稿データに基づいた画像を形成することにより、選択した原稿インデックスに対応する原稿を出力する（Ｓ６４）。例えば、図１７に示すＤｏｃ１〜Ｄｏｃ４の原稿インデックスに対応する原稿は、出力条件が定められていないので、無条件に出力される。またＤｏｃ２１及びＤｏｃ５１の原稿インデックスに対応する原稿は、出力条件が見たされている場合に出力される。ステップＳ６４が終了した後は、制御部１１は、処理を次のステップＳ６５へ進める。ステップＳ６３で原稿インデックスに関連付けられた出力条件が満たされていない場合は（Ｓ６３：ＮＯ）、選択した原稿インデックスに対応する原稿を出力することなく、制御部１１は、処理を次のステップＳ６５へ進める。このようにして、制御部１１は、出力条件が満たされていない原稿データの出力を禁止する。

制御部１１は、次に、ステップＳ４３又はステップＳ５１６で抽出された全原稿データに対する処理が終了したか否かを判定する（Ｓ６５）。処理がまだ終了していない原稿データがまだある場合は（Ｓ６５：ＮＯ）、制御部１１は、処理をステップＳ６１へ戻し、ステップＳ４３又はステップＳ５１６で抽出された原稿データに関連付けられた原稿インデックスの内でまだ選択していない原稿インデックスを選択する。ステップＳ４３又はステップＳ５１６で抽出された全原稿データに対する処理が終了した場合は（Ｓ６５：ＹＥＳ）、制御部１１は、原稿出力処理を終了し、処理を原稿データを抽出する処理へ戻す。原稿出力処理が終了した後は、原稿抽出装置１００は、原稿データを抽出する処理を終了する。

以上詳述した如く、本実施の形態に係る原稿抽出装置は、各原稿インデックスについて予め出力条件を定めておき、原稿出力処理を行う際には、出力条件が満たされる原稿インデックスに対応する原稿のみを出力する。実施の形態１及び２では、一ページに対応する入力原稿データに基づいて原稿を出力することができるので、秘密情報を含むような重要度の高い原稿であっても、原稿の一ページに基づいて全原稿ページを容易に出力することが可能となっていた。本実施の形態においては、原稿抽出装置は、出力条件が定められている原稿については、出力条件が満たされた場合に出力するので、重要度の高い原稿に出力条件を定めておくことにより、重要度の高い原稿が容易に出力されることを防止することができる。

例えば、出力条件として、複数のページで入力原稿データと原稿データとが類似であると判定されることが必要であるとしておくことにより、原稿の一ページに基づいて重要度の高い原稿の全ページが出力されることを防止することができる。また出力条件として、入力原稿データと特定の原稿データとが類似であると判定されることが必要であるとしておくことにより、原稿の特定のページを所有していない使用者は原稿を原稿抽出装置から抽出することができなくなる。特定の原稿データとしては、複数ページからなる原稿の主な内容とは関連性の無い照合用の内容を表す原稿データを登録しておけばよい。照合用の内容としては、原稿の主な内容が日本文である場合に照合用の内容を英文とする等、原稿の主な内容とは全く異なるフォーマットとしておくことがより望ましい。

以上のようにして、本実施の形態に係る原稿抽出装置は、照合用の特定の原稿データを所有している特定の使用者に対して、出力条件が定められている原稿を抽出することを可能とし、照合用の特定の原稿データを所有していないその他の使用者では重要度の高い原稿を出力できないようにする。従って、本実施の形態においては、秘密情報が含まれる重要度の高い原稿に対して出力条件を定めておくことにより、原稿に含まれる秘密情報を保護することが可能となる。

（実施の形態４）
実施の形態１〜３では、本発明の原稿抽出装置が画像形成装置である形態を示したが、実施の形態４においては、本発明の原稿抽出装置がスキャナ装置である形態を示す。図１９は、実施の形態４に係る本発明の原稿抽出装置３００の内部の機能構成を示すブロック図である。本発明の原稿抽出装置３００は、原稿抽出装置３００を構成する各部の動作を制御する制御部３１、半導体メモリ又はハードディスク等で構成される記憶部３２、及びカラー画像を光学的に読み取るカラー画像入力部３３を備えている。カラー画像入力部３３にはＡ／Ｄ変換部３４が接続されており、Ａ／Ｄ変換部３４にはシェーディング補正部３５が接続され、シェーディング補正部３５には原稿抽出処理部３６が接続されている。原稿抽出処理部３６には、原稿データを外部へ送信する送信部３７が接続されている。記憶部３２、カラー画像入力部３３、Ａ／Ｄ変換部３４、シェーディング補正部３５、原稿抽出処理部３６、及び送信部３７は、制御部３１に接続されており、更に制御部３１には、使用者からの操作を受け付ける操作部３８が接続されている。

記憶部３２は、実施の形態１〜３で説明した原稿抽出装置１００が備える記憶部１２と同様に、夫々に複数のページで構成される原稿毎に、各ページに対応する原稿データを記憶し、更に、原稿データと原稿とを対応付ける原稿テーブル、及び原稿データと特徴データとを対応付ける特徴テーブルを記憶している。また送信部３７には、外部のＰＣ又は画像形成装置等が接続されている。

カラー画像入力部３３は、ＣＣＤを備えたスキャナにて構成されており、原稿からの反射光像をＲＧＢに分解してＣＣＤで読み取り、ＲＧＢのアナログ信号に変換してＡ／Ｄ変換部３４へ出力する。Ａ／Ｄ変換部３４は、ＲＧＢのアナログ信号をデジタルのＲＧＢ信号へ変換し、ＲＧＢ信号をシェーディング補正部３５へ出力する。

シェーディング補正部３５は、Ａ／Ｄ変換部３４から入力されたＲＧＢ信号に対して、カラー画像入力部３３の照明系、結像系及び撮像系で生じる各種の歪みを取り除く処理を行う。更にシェーディング補正部３５は、ＲＧＢ信号のカラーバランスを調整する処理を行い、ＲＧＢの反射率信号を濃度信号へ変換する処理を行う。シェーディング補正部３５は、次に、処理後のＲＧＢ信号でなる画像データである原稿データを原稿抽出処理部３６へ出力する。

原稿抽出処理部３６は、実施の形態１〜３で説明した原稿抽出装置１００が備える原稿抽出処理部２４と同様に構成されており、原稿抽出処理部２４と同様の処理を実行する。即ち、原稿抽出処理部３６は、シェーディング補正部３５から入力された原稿データを入力原稿データとして、図１４、又は図１５及び図１６のフローチャートで示した処理と同様の処理を行って、記憶部３２から、入力原稿データと類似度が高い原稿データに対応するページが含まれる原稿に係る複数の原稿データを抽出する。

制御部３１は、原稿抽出処理部３６が抽出した複数の原稿データを送信部３７に外部へ送信させることにより、抽出した原稿データを出力する。送信部３７は、外部のＰＣ又は画像形成装置等の装置へ複数の原稿データを送信し、外部の装置は複数の原稿データに基づいて画像を形成する等の処理を実行する。

以上詳述した如く、本実施の形態においても、実施の形態１〜３と同様に、複数ページで構成される原稿の一部に対応する入力原稿データに基づき、原稿の全てのページに対応する原稿データを抽出することが可能となる。従って、本実施の形態においても、複数ページで構成されている原稿に紛失又は汚れ等によって欠落が生じた場合であっても、原稿データを予め記憶してあるデータベースの中から、原稿の全てのページに亘った原稿データを容易に抽出することが可能となる。

（実施の形態５）
実施の形態５では、汎用のコンピュータを用いて本発明の原稿抽出装置を実現した形態を示す。図２０は、実施の形態５に係る本発明の原稿抽出装置４００の内部構成を示すブロック図である。本実施の形態に係る本発明の原稿抽出装置４００は、ＰＣ等の汎用コンピュータを用いて構成されており、演算を行うＣＰＵ４１と、演算に伴って発生する一時的な情報を記憶するＲＡＭ４２と、光ディスク等の本発明の記録媒体５から情報を読み取るＣＤ−ＲＯＭドライブ等のドライブ部４３と、ハードディスク等の記憶部４４とを備えている。ＣＰＵ４１は、本発明の記録媒体５から本発明のコンピュータプログラム５１をドライブ部４３に読み取らせ、読み取ったコンピュータプログラム５１を記憶部４４に記憶させる。コンピュータプログラム５１は必要に応じて記憶部４４からＲＡＭ４２へロードされ、ロードされたコンピュータプログラム５１に基づいてＣＰＵ４１は原稿抽出装置４００に必要な処理を実行する。

また原稿抽出装置４００は、使用者が操作することによる各種の処理指示等の情報が入力されるキーボード又はポインティングデバイス等の入力部４５と、各種の情報を表示する液晶ディスプレイ等の表示部４６とを備えている。更に原稿抽出装置４００は、画像形成装置等の原稿を出力する外部の出力装置６１に接続された送信部４７と、スキャナ装置等の原稿データを入力する外部の入力装置６２に接続された受信部４８とを備えている。送信部４７は、原稿データを出力装置６１へ送信し、出力装置６１は原稿データに基づいて原稿を出力する。入力装置６２は、原稿を光学的に読み取って原稿データを生成し、生成した原稿データを原稿抽出装置４００へ送信し、受信部４８は、入力装置６２から送信された原稿データを受信する。受信部４８は、本発明における取得手段として機能する。

記憶部４４は、実施の形態１〜３で説明した原稿抽出装置１００が備える記憶部１２と同様に、夫々に複数のページで構成される原稿毎に、各ページに対応する原稿データを記憶し、更に、原稿データと原稿とを対応付ける原稿テーブル、及び原稿データと特徴データとを対応付ける特徴テーブルを記憶している。

ＣＰＵ４１は、本発明のコンピュータプログラム５１をＲＡＭ４２にロードし、ロードしたコンピュータプログラム５１に従って、本発明の原稿抽出方法に係る処理を実行する。即ち、受信部４８で入力装置６２から原稿データが入力された場合に、入力された原稿データを入力原稿データとして、ＣＰＵ４１は、図１４、又は図１５及び図１６のフローチャートで示した処理と同様の処理を行って、記憶部４４から、入力原稿データと類似度が高い原稿データに対応するページが含まれる原稿に係る複数の原稿データを抽出する。ＣＰＵ４１は、抽出した複数の原稿データを送信部４７から出力装置６１へ送信し、出力装置６１は、原稿データに基づいて複数ページからなる原稿を出力する。なお、ＣＰＵ４１は、原稿データとして、アプリケーションプログラムを利用して作成したテキストデータ等のアプリケーションデータを扱う処理を行ってもよい。

以上詳述した如く、本実施の形態においても、実施の形態１〜４と同様に、複数ページで構成される原稿の一部に対応する入力原稿データに基づき、原稿の全てのページに対応する原稿データを抽出することが可能となる。従って、本実施の形態においても、複数ページで構成されている原稿に紛失又は汚れ等によって欠落が生じた場合であっても、原稿データを予め記憶してあるデータベースの中から、原稿の全てのページに亘った原稿データを容易に抽出することが可能となる。

なお、本実施の形態においては、原稿抽出装置４００で内蔵する記憶部４４に記憶する原稿データから必要な原稿データを抽出する処理を行う形態を示したが、これに限るものではなく、本発明の原稿抽出装置４００は、通信ネットワークで接続されたストレージ装置又はサーバ装置等の図示しない外部の記憶手段に記憶された原稿データから必要な原稿データを抽出する処理を行う形態であってもよい。

なお、本発明のコンピュータプログラム５１を記録してある本発明の記録媒体５は、磁気テープ、磁気ディスク、可搬型のハードディスク、ＣＤ−ＲＯＭ／ＭＯ／ＭＤ／ＤＶＤ等の光ディスク、又はＩＣカード（メモリカードを含む）／光カード等のカード型記録媒体のいずれの形態であってもよい。また本発明の記録媒体５は、原稿抽出装置４００に装着され、記録媒体５の記録内容をＣＰＵ４１が読み出すことが可能な半導体メモリ、即ちマスクＲＯＭ、ＥＰＲＯＭ（Erasable Programmable Read Only Memory）、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）、フラッシュＲＯＭ等であってもよい。

また、本発明のコンピュータプログラム５１は、インターネット又はＬＡＮ等の通信ネットワークを介して原稿抽出装置４００に接続された図示しない外部のサーバ装置から原稿抽出装置４００へダウンロードされて記憶部４４に記憶される形態であってもよい。この形態の場合は、コンピュータプログラム５１をダウンロードするために必要なプログラムは、予め記憶部４４に記憶されてあるか、又は所定の記録媒体からドライブ部４３を用いて読み出されて記憶部４４に記憶され、必要に応じてＲＡＭ４２にロードされるものであればよい。

実施の形態１に係る本発明の原稿抽出装置の内部の機能構成を示すブロック図である。原稿抽出処理部の構成を示すブロック図である。特徴点抽出部の構成を示すブロック図である。フィルタ処理部が利用する空間フィルタの例を示す説明図である。連結領域の特徴点の例を示す説明図である。文字列に対する特徴点の抽出結果の例を示す説明図である。注目特徴点と抽出した特徴点を示す説明図である。注目特徴点Ｐ１に対して３点の周辺特徴点を抽出し、特徴データを算出する例を示す説明図である。注目特徴点Ｐ２に対して３点の周辺特徴点を抽出し、特徴データを算出する例を示す説明図である。記憶部が記憶する原稿データを示す概念図である。記憶部が記憶する原稿データと原稿とを対応付ける原稿テーブルの内容例を示す概念図である。記憶部が記憶する原稿データと特徴データとを対応付ける特徴テーブルの内容例を示す概念図である。原稿データを登録する処理の手順を示すフローチャートである。原稿データを抽出する処理の手順を示すフローチャートである。実施の形態２に係る原稿抽出装置が行う原稿データを抽出する処理の手順を示すフローチャートである。実施の形態２に係る原稿抽出装置が行う原稿データを抽出する処理の手順を示すフローチャートである。実施の形態３に係る記憶部が記憶する原稿データと原稿とを対応付ける原稿テーブルの内容例を示す概念図である。実施の形態３に係る原稿抽出装置が行う原稿出力処理の手順を示すフローチャートである。実施の形態４に係る本発明の原稿抽出装置の内部の機能構成を示すブロック図である。実施の形態５に係る本発明の原稿抽出装置の内部構成を示すブロック図である。

符号の説明

１００、３００、４００原稿抽出装置
１１、３１制御部
１２、３２、４４記憶部（記憶手段）
１３、３３カラー画像入力部
２４、３６原稿抽出処理部
２４２特徴データ算出部
２４３投票処理部
２４４類似度判定処理部
２４５原稿抽出部
４１ＣＰＵ
５記録媒体
５１コンピュータプログラム

Claims

記憶手段で記憶してある原稿データの中から特定の原稿データを抽出する方法において、
複数のページで構成される原稿を示す原稿インデックスを、前記原稿に含まれる各ページに対応する原稿データに関連付けて記憶手段で記憶しておき、
原稿データから抽出した特徴点に基づいて計算され、前記原稿データの特徴を示す特徴データを、前記原稿データに関連付けて記憶手段で記憶しておき、
新たな原稿データである入力原稿データを取得し、
取得した入力原稿データから特徴点を抽出し、
抽出した特徴点に基づいて、入力原稿データの特徴を示す特徴データを生成し、
生成した特徴データと記憶手段で記憶してある特徴データとを比較することによって、記憶手段が記憶している特徴データに関連付けられた原稿データと入力原稿データとの類似度を判定し、
入力原稿データとの類似度が高い原稿データであると判定した原稿データに関連付けられた原稿インデックスを取得し、
取得した原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データを抽出すること
を特徴とする原稿抽出方法。
原稿データを記憶する原稿記憶手段を備え、該原稿記憶手段が記憶している原稿データの中から特定の原稿データを抽出する原稿抽出装置において、
複数のページで構成される原稿を示す原稿インデックスを、前記原稿に含まれる各ページに対応する原稿データに関連付けて記憶する手段と、
原稿データから抽出した特徴点に基づいて計算され、前記原稿データの特徴を示す特徴データを、前記原稿データに関連付けて記憶する特徴データ記憶手段と、
新たな原稿データである入力原稿データを取得する取得手段と、
該取得手段が取得した入力原稿データから特徴点を抽出する手段と、
該手段が抽出した特徴点に基づいて、入力原稿データの特徴を示す特徴データを生成する生成手段と、
該生成手段が生成した特徴データと前記特徴データ記憶手段が記憶している特徴データとを比較することによって、前記特徴データ記憶手段が記憶している特徴データに関連付けられた原稿データと入力原稿データとの類似度を判定する判定手段と、
入力原稿データとの類似度が高い原稿データであると前記判定手段が判定した原稿データに関連付けられた原稿インデックスを取得する手段と、
該手段が取得した原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データを抽出する抽出手段と
を備えることを特徴とする原稿抽出装置。
前記特徴データ記憶手段は、
一の原稿データに関連付けて、該原稿データの特徴を示す複数の特徴データを記憶するように構成してあり、
前記生成手段は、
入力原稿データの特徴を示す複数の特徴データを生成するように構成してあり、
前記判定手段は、
前記生成手段が生成した複数の特徴データの夫々について、当該特徴データと一致する特徴データに関連付けられた原稿データに対して投票を行う手段と、
前記原稿記憶手段が記憶している原稿データの内、得票数が最大である原稿データ又は得票数が所定量以上である原稿データを、入力原稿データとの類似度が高い原稿データであると判定する手段と
を有することを特徴とする請求項２に記載の原稿抽出装置。
前記取得手段は、
複数の入力原稿データを取得する手段を有し、
前記判定手段は、
複数の入力原稿データの夫々について、前記原稿記憶手段が記憶している原稿データと入力原稿データとの類似度を判定する手段を有し、
前記抽出手段は、
複数の入力原稿データの夫々との類似度が高い原稿データに関連付けられた原稿インデックスが互いに一致する場合に、当該原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データを抽出する手段を有すること
を特徴とする請求項２又は３に記載の原稿抽出装置。
入力原稿データとの類似度が高い原稿データに関連付けられた原稿インデックスが複数個取得された場合、又は、複数の入力原稿データの夫々との類似度が高い原稿データに関連付けられた原稿インデックスの内で前記複数の入力原稿データに共通した原稿インデックスが複数個取得された場合に、更なる入力原稿データを要求する手段を更に備えること
を特徴とする請求項４に記載の原稿抽出装置。
前記取得手段は、
原稿を光学的に読み取ることによって入力原稿データを取得するように構成してあること
を特徴とする請求項２乃至５のいずれか一つに記載の原稿抽出装置。
原稿インデックスに関連付けて、当該原稿インデックスが示す原稿に含まれる各ページに対応する原稿データを出力するために必要な所定の出力条件を記憶する手段と、
前記抽出手段が抽出した原稿データに関連付けられた原稿インデックスに関連付けられた出力条件が満たされているか否かを判定する手段と、
前記出力条件が満たされていると判定された場合に、原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データを出力する手段と、
前記出力条件が満たされていないと判定された場合に、原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データの出力を禁止する手段と
を更に備えることを特徴とする請求項２乃至６のいずれか一つに記載の原稿抽出装置。
前記抽出手段が抽出した複数の原稿データに基づいた複数の画像を形成する手段を更に備えること
を特徴とする請求項２乃至６のいずれか一つに記載の原稿抽出装置。
コンピュータに、コンピュータ内部又は外部で記憶された原稿データの中から特定の原稿データを抽出させるコンピュータプログラムにおいて、
コンピュータに、入力された入力原稿データから特徴点を抽出させる手順と、
コンピュータに、抽出した特徴点に基づいて、入力原稿データの特徴を示す特徴データを生成させる手順と、
コンピュータに、生成した特徴データと記憶された原稿データの特徴を示す特徴データとを比較することによって、記憶された原稿データと入力原稿データとの類似度を判定させる手順と、
コンピュータに、入力原稿データとの類似度が高い原稿データであると判定した原稿データに関連付けられた原稿インデックスを取得させる手順と、
コンピュータに、取得した原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データを抽出させる手順と
を含むことを特徴とするコンピュータプログラム。
コンピュータに、コンピュータ内部又は外部で記憶された原稿データの中から特定の原稿データを抽出させるコンピュータプログラムを記録してあるコンピュータでの読み取りが可能な記録媒体において、
コンピュータに、入力された入力原稿データから特徴点を抽出させる手順と、
コンピュータに、抽出した特徴点に基づいて、入力原稿データの特徴を示す特徴データを生成させる手順と、
コンピュータに、生成した特徴データと記憶された原稿データの特徴を示す特徴データとを比較することによって、記憶された原稿データと入力原稿データとの類似度を判定させる手順と、
コンピュータに、入力原稿データとの類似度が高い原稿データであると判定した原稿データに関連付けられた原稿インデックスを取得させる手順と、
コンピュータに、取得した原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データを抽出させる手順と
を含むコンピュータプログラムを記録してあることを特徴とするコンピュータでの読み取りが可能な記録媒体。