JP2009048618A - 原稿抽出方法、原稿抽出装置、コンピュータプログラム及び記録媒体 - Google Patents

原稿抽出方法、原稿抽出装置、コンピュータプログラム及び記録媒体 Download PDF

Info

Publication number
JP2009048618A
JP2009048618A JP2008162324A JP2008162324A JP2009048618A JP 2009048618 A JP2009048618 A JP 2009048618A JP 2008162324 A JP2008162324 A JP 2008162324A JP 2008162324 A JP2008162324 A JP 2008162324A JP 2009048618 A JP2009048618 A JP 2009048618A
Authority
JP
Japan
Prior art keywords
document
data
document data
input
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008162324A
Other languages
English (en)
Other versions
JP4340714B2 (ja
Inventor
Hitoshi Hirohata
仁志 廣畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2008162324A priority Critical patent/JP4340714B2/ja
Priority to US12/178,482 priority patent/US8351706B2/en
Priority to CN2008101316932A priority patent/CN101354717B/zh
Publication of JP2009048618A publication Critical patent/JP2009048618A/ja
Application granted granted Critical
Publication of JP4340714B2 publication Critical patent/JP4340714B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

【課題】複数ページで構成される原稿に係る原稿データをデータベースから抽出できる原稿抽出方法、原稿抽出装置、コンピュータプログラム及び記録媒体を提供する。
【解決手段】本発明では、原稿に含まれる各ページに対応する原稿データを記憶し、更に原稿データの特徴を示す特徴データ及び原稿を示す原稿インデックスを原稿データに関連付けておく。原稿抽出装置は、入力原稿データを取得し(S32)、入力原稿データから特徴データを算出し(S34)、特徴データに基づいて原稿データとの類似度を判定し(S36)、入力原稿データと類似する原稿データに関連付けられた原稿インデックスを取得し(S39)、原稿インデックスに関連付けられた複数の原稿データを抽出する(S43)。これにより、入力原稿データに類似する原稿データに対応するページを含む原稿に係る原稿データが複数ページに亘って抽出される。
【選択図】図14

Description

本発明は、原稿のデータベースから特定の原稿を検索する技術に関し、より詳しくは、スキャナで原稿を読み取った画像等の原稿データに基づいて、読み取った原稿に対応する原稿データをデータベースから検索する原稿抽出方法、原稿抽出装置、コンピュータプログラム及び記録媒体に関する。
従来、文書又は写真等でなる原稿をスキャナを用いて読み取ったデータ、又はパーソナルコンピュータ(PC)等を用いて電子的に作成した原稿データをデータベースに蓄積しておき、新たに原稿を読み取り、読み取った原稿に対応する原稿データをデータベースから抽出する技術が利用されている。原稿データを抽出する方法としては、例えば、読み取った原稿からOCR(Optical Character Reader)を用いてキーワードを抽出し、キーワードに基づいて原稿の類似度を判定する方法、原稿を罫線のある帳票原稿に限定しておき、罫線の特徴を抽出して原稿の類似度を判定する方法等が提案されている。
特許文献1には、原稿(文書)を特徴付けるデスクリプタとデスクリプタで特徴付けられる原稿のリストとを関連付けておき、読み取った原稿(入力文書)からデスクリプタを生成し、生成したデスクリプタを用いて原稿の照合を行う技術が開示されている。原稿のデスクリプタは、原稿の読み取りに伴って生じる歪み等に対して不変であるように定められる。一の原稿について複数のデスクリプタを生成し、読み取った原稿から生成したデスクリプタの夫々に関連付けられている原稿に対して投票を行い、最高得票数を得た原稿又は得票数が所定の閾値を越えた原稿を選択する。
特許文献2には、原稿の画像データを予め記憶しておき、読み取った原稿のビットマップデータと予め記憶してある原稿のビットマップデータとの間で1ビット単位でパターンマッチングを行うことにより、原稿の検索を行う技術が開示されている。また特許文献2には、複数ページよりなる原稿の場合、検索用に表紙のページのみを読み取り、読み取ったページの画像データと、記憶してある各原稿の1枚目の画像データとを比較することにより、原稿を検索してもよいことが記載されている。
特許文献3には、文書画像を予め記憶しておき、読み取った原稿の画像の特徴量と記憶してある文書画像の全てのページの特徴量とを比較して類似度を求め、類似度が閾値よりも高い文書画像を抽出することにより、文書画像を検索する技術が開示されている。この技術では、複数の文書画像が候補となった場合は、文書画像を表示してユーザによる選択を受け付け、また文書画像に含まれるページの類似度の平均が閾値を下回った場合は、その文書画像を候補から削除して絞り込みを行う。
特開平7−282088号公報 特開平5−37748号公報 特開2006−31181号公報
通常、文書等の原稿は複数ページで構成されていることが多い。特許文献1に開示された技術を始めとする従来の技術は、スキャナで読み取った原稿との照合を行って所望の原稿データをデータベースから抽出することは可能であるものの、複数ページで構成されている原稿については、ページ毎に照合を行って原稿データを抽出する必要がある。従って、紛失又は汚れ等によって照合元の原稿に欠落が生じた場合は、複数ページで構成されている原稿に係る原稿データを全てのページに亘って抽出することができないという問題がある。特許文献1には、この問題の解決手段については何ら開示されていない。
また特許文献2に記載されているような、複数ページより構成されている原稿のビットマップデータを比較する技術では、ページ毎に比較を行うので、原稿に含まれるページ数及び原稿数が増えるほど比較の処理に時間がかかってしまうという問題がある。また、ビットマップデータの比較を行う場合は、比較する二つの画像データの位置合わせを精度良く行う必要がある。しかし、実際には、正確に位置合わせを行うことは困難であり、その結果、精度良く原稿を検索することができないという問題がある。
また特許文献3に記載の技術では、文書画像の文字領域における特徴量として、OCRを用いて文字コードを抽出しているので、抽出する文字コードによっては、類似判定の精度が低下するという問題がある。この精度低下を補うために、多くの文字コードを抽出することが考えられるが、その場合、文字コードを格納しておくメモリ容量が大きくなり、また、多くのデータを用いて検索を行うので、処理に時間がかかるという問題がある。また、特許文献2及び3の技術においては、秘密情報を含む原稿が検索されることに関しては考慮されていないので、秘密情報を含む原稿が容易に出力されてしまう虞があるという問題がある。
本発明は、斯かる事情に鑑みてなされたものであって、その目的とするところは、原稿の一部に基づいて原稿の他の部分のデータをも抽出できるようにすることにより、複数ページで構成される原稿に係る原稿データを容易にデータベースから抽出することが可能となる原稿抽出方法、原稿抽出装置、コンピュータプログラム及び記録媒体を提供することにある。
本発明の他の目的とするところは、原稿データを抽出する際に、目的とは異なる原稿データを間違って抽出してしまう愚を避けることが可能となる原稿抽出装置を提供することにある。
また本発明の他の目的とするところは、原稿を出力するための条件を定めておくことにより、秘密情報を保護することができる原稿抽出装置を提供することにある。
本発明に係る原稿抽出方法は、記憶手段で記憶してある原稿データの中から特定の原稿データを抽出する方法において、複数のページで構成される原稿を示す原稿インデックスを、前記原稿に含まれる各ページに対応する原稿データに関連付けて記憶手段で記憶しておき、原稿データから抽出した特徴点に基づいて計算され、前記原稿データの特徴を示す特徴データを、前記原稿データに関連付けて記憶手段で記憶しておき、新たな原稿データである入力原稿データを取得し、取得した入力原稿データから特徴点を抽出し、抽出した特徴点に基づいて、入力原稿データの特徴を示す特徴データを生成し、生成した特徴データと記憶手段で記憶してある特徴データとを比較することによって、記憶手段が記憶している特徴データに関連付けられた原稿データと入力原稿データとの類似度を判定し、入力原稿データとの類似度が高い原稿データであると判定した原稿データに関連付けられた原稿インデックスを取得し、取得した原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データを抽出することを特徴とする。
本発明に係る原稿抽出装置は、原稿データを記憶する原稿記憶手段を備え、該原稿記憶手段が記憶している原稿データの中から特定の原稿データを抽出する原稿抽出装置において、複数のページで構成される原稿を示す原稿インデックスを、前記原稿に含まれる各ページに対応する原稿データに関連付けて記憶する手段と、原稿データから抽出した特徴点に基づいて計算され、前記原稿データの特徴を示す特徴データを、前記原稿データに関連付けて記憶する特徴データ記憶手段と、新たな原稿データである入力原稿データを取得する取得手段と、該取得手段が取得した入力原稿データから特徴点を抽出する手段と、該手段が抽出した特徴点に基づいて、入力原稿データの特徴を示す特徴データを生成する生成手段と、該生成手段が生成した特徴データと前記特徴データ記憶手段が記憶している特徴データとを比較することによって、前記特徴データ記憶手段が記憶している特徴データに関連付けられた原稿データと入力原稿データとの類似度を判定する判定手段と、入力原稿データとの類似度が高い原稿データであると前記判定手段が判定した原稿データに関連付けられた原稿インデックスを取得する手段と、該手段が取得した原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データを抽出する抽出手段とを備えることを特徴とする。
本発明に係る原稿抽出装置は、前記特徴データ記憶手段は、一の原稿データに関連付けて、該原稿データの特徴を示す複数の特徴データを記憶するように構成してあり、前記生成手段は、入力原稿データの特徴を示す複数の特徴データを生成するように構成してあり、前記判定手段は、前記生成手段が生成した複数の特徴データの夫々について、当該特徴データと一致する特徴データに関連付けられた原稿データに対して投票を行う手段と、前記原稿記憶手段が記憶している原稿データの内、得票数が最大である原稿データ又は得票数が所定量以上である原稿データを、入力原稿データとの類似度が高い原稿データであると判定する手段とを有することを特徴とする。
本発明に係る原稿抽出装置は、前記取得手段は、複数の入力原稿データを取得する手段を有し、前記判定手段は、複数の入力原稿データの夫々について、前記原稿記憶手段が記憶している原稿データと入力原稿データとの類似度を判定する手段を有し、前記抽出手段は、複数の入力原稿データの夫々との類似度が高い原稿データに関連付けられた原稿インデックスが互いに一致する場合に、当該原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データを抽出する手段を有することを特徴とする。
本発明に係る原稿抽出装置は、入力原稿データとの類似度が高い原稿データに関連付けられた原稿インデックスが複数個取得された場合、又は、複数の入力原稿データの夫々との類似度が高い原稿データに関連付けられた原稿インデックスの内で前記複数の入力原稿データに共通した原稿インデックスが複数個取得された場合に、更なる入力原稿データを要求する手段を更に備えることを特徴とする。
本発明に係る原稿抽出装置は、前記取得手段は、原稿を光学的に読み取ることによって入力原稿データを取得するように構成してあることを特徴とする。
本発明に係る原稿抽出装置は、原稿インデックスに関連付けて、当該原稿インデックスが示す原稿に含まれる各ページに対応する原稿データを出力するために必要な所定の出力条件を記憶する手段と、前記抽出手段が抽出した原稿データに関連付けられた原稿インデックスに関連付けられた出力条件が満たされているか否かを判定する手段と、前記出力条件が満たされていると判定された場合に、原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データを出力する手段と、前記出力条件が満たされていないと判定された場合に、原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データの出力を禁止する手段とを更に備えることを特徴とする。
本発明に係る原稿抽出装置は、前記抽出手段が抽出した複数の原稿データに基づいた複数の画像を形成する手段を更に備えることを特徴とする。
本発明に係るコンピュータプログラムは、コンピュータに、コンピュータ内部又は外部で記憶された原稿データの中から特定の原稿データを抽出させるコンピュータプログラムにおいて、コンピュータに、入力された入力原稿データから特徴点を抽出させる手順と、コンピュータに、抽出した特徴点に基づいて、入力原稿データの特徴を示す特徴データを生成させる手順と、コンピュータに、生成した特徴データと記憶された原稿データの特徴を示す特徴データとを比較することによって、記憶された原稿データと入力原稿データとの類似度を判定させる手順と、コンピュータに、入力原稿データとの類似度が高い原稿データであると判定した原稿データに関連付けられた原稿インデックスを取得させる手順と、コンピュータに、取得した原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データを抽出させる手順とを含むことを特徴とする。
本発明に係るコンピュータでの読み取りが可能な記録媒体は、コンピュータに、コンピュータ内部又は外部で記憶された原稿データの中から特定の原稿データを抽出させるコンピュータプログラムを記録してあるコンピュータでの読み取りが可能な記録媒体において、コンピュータに、入力された入力原稿データから特徴点を抽出させる手順と、コンピュータに、抽出した特徴点に基づいて、入力原稿データの特徴を示す特徴データを生成させる手順と、コンピュータに、生成した特徴データと記憶された原稿データの特徴を示す特徴データとを比較することによって、記憶された原稿データと入力原稿データとの類似度を判定させる手順と、コンピュータに、入力原稿データとの類似度が高い原稿データであると判定した原稿データに関連付けられた原稿インデックスを取得させる手順と、コンピュータに、取得した原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データを抽出させる手順とを含むコンピュータプログラムを記録してあることを特徴とする。
本発明においては、原稿に含まれる各ページに対応する原稿データを記憶しておき、更に、原稿データから抽出した特徴点に基づいて計算され、前記原稿データの特徴を示す特徴データと、原稿を示す原稿インデックスとを原稿データに関連付けて記憶しておく。原稿抽出装置は、入力原稿データを取得した場合に、入力原稿データから特徴データを生成し、特徴データに基づいて原稿データとの類似度を判定し、入力原稿データとの類似度が高い原稿データに関連付けられた原稿インデックスを取得し、取得した原稿インデックスに関連付けられた複数の原稿データを抽出する。これにより、入力原稿データに類似すると判定された原稿データに対応するページを含む原稿が特定され、また特定された原稿に含まれる全てのページに対応する原稿データが抽出される。
また本発明においては、原稿抽出装置は、原稿データの類似度を判定するために、一の原稿データについて複数の特徴データを記憶しておき、入力原稿データについて生成した各特徴データ毎に同一の特徴データに関連付けられた原稿データに投票し、最大の得票数又は所定量以上の得票数を得た原稿データを、入力原稿データとの類似度が高い原稿データであるとする。複数の特徴データの内で多くの特徴データが一致する原稿データを類似度が高いと判定するので、より確からしい類似度判定を行うことができる。
また本発明においては、原稿抽出装置は、複数の入力原稿データを取得し、各入力原稿データとの類似度が高い原稿データに関連付けられた原稿インデックスが一致する場合に、一致した原稿インデックスに関連付けられた複数の原稿データを抽出する。これにより、複数のページに基づいて一の原稿を抽出することが可能となる。
また本発明においては、原稿抽出装置は、入力原稿データとの類似度が高い原稿データに関連付けられた原稿インデックスが複数ある場合に、更に原稿の他のページに対応する入力原稿データを要求する。これにより、原稿の他のページに対応する入力原稿データが更に取得され、原稿の他のページをも利用して原稿インデックスの絞込みが行われる。
また本発明においては、原稿抽出装置は、入力原稿データを取得する取得手段として、原稿を光学的に読み取るスキャナを備えることにより、原稿の一部をスキャナで読み取ることによって原稿データの抽出を行う。
また本発明においては、原稿抽出装置は、各原稿インデックスについて予め出力条件を定めておき、出力条件が満たされた場合に原稿データを出力し、出力条件が満たされない場合は原稿データの出力を禁止することにより、出力条件が満たされる原稿インデックスに対応する原稿のみを出力する。
更に本発明においては、原稿抽出装置は、原稿データに基づいて画像を形成する手段を備えることにより、抽出した原稿データに基づいた画像を形成することができる。
本発明にあっては、複数ページで構成される原稿の一部に対応する入力原稿データに基づき、原稿の全てのページに対応する原稿データを抽出することが可能となる。従って、複数ページで構成されている原稿に紛失又は汚れ等によって欠落が生じた場合であっても、原稿データを予め記憶してあるデータベースの中から、全てのページに亘った原稿データを容易に抽出することが可能となる。
また本発明にあっては、原稿データの類似度を判定する際に、複数の特徴データに基づいてより確からしい類似度判定を行うことができるので、入力原稿データに類似しない原稿データを類似度が高い原稿データであると間違って判定するのを抑制することが可能となる。
また本発明にあっては、複数のページに基づいて一の原稿を抽出することが可能となり、目的とは異なる原稿データを間違って抽出してしまう可能性をより低下させることができる。例えば、互いに類似する原稿が存在する場合でも、目的の原稿データを抽出することが可能となる。
また本発明にあっては、複数のページを利用することにより、より確からしい類似度判定を行うことが可能となり、所望の原稿データを高精度で抽出することが可能となる。
また本発明にあっては、原稿の一部をスキャナで読み取ることによって、例えば、通信ネットワークを介して接続されているサーバ装置に記憶されている原稿データの抽出を行うことができ、写真又は文書等からなる原稿の一部から手軽に原稿全体のデータを取得することが可能となる。
また本発明にあっては、出力条件が満たされた場合に原稿の出力を可能とするので、重要度の高い原稿に出力条件を定めておくことにより、重要度の高い原稿が容易に出力されることを防止し、原稿に含まれる秘密情報を保護することが可能となる。
更に本発明にあっては、デジタル複写機又はスキャナを備えた複合機等の画像形成装置を用い、画像形成装置に記憶されている原稿データ又は通信ネットワークを介して画像形成装置に接続されているサーバ装置に記憶されている原稿データから抽出した原稿データに基づいた画像を形成することができるので、画像形成によって、写真又は文書等からなる原稿を手軽に取得することが可能となる等、本発明は優れた効果を奏する。
以下本発明をその実施の形態を示す図面に基づき具体的に説明する。
(実施の形態1)
実施の形態1では、本発明の原稿抽出装置がカラー画像を形成する画像形成装置である形態を示す。図1は、実施の形態1に係る本発明の原稿抽出装置100の内部の機能構成を示すブロック図である。本発明の原稿抽出装置100は、原稿抽出装置100を構成する各部の動作を制御する制御部11、半導体メモリ又はハードディスク等で構成される記憶部(記憶手段)12、及びカラー画像を光学的に読み取るカラー画像入力部13を備えている。カラー画像入力部13には、読み取ったカラー画像に応じた画像データを生成する処理を行うカラー画像処理部2が接続されている。カラー画像入力部13は、写真又は文書等からなる原稿をカラー画像として読み取り、記憶部12は、カラー画像入力部13が原稿を読み取ってカラー画像処理部2が生成した画像データである原稿データを記憶する。記憶部12は本発明における原稿記憶手段として機能し、カラー画像入力部13は本発明における取得手段として機能する。またカラー画像処理部2には、カラー画像処理部2が生成した画像データに基づいてカラー画像を形成するカラー画像形成部14が接続されている。カラー画像入力部13、カラー画像処理部2及びカラー画像形成部14には、使用者からの操作を受け付ける操作パネル15が接続されている。
カラー画像入力部13は、CCD(Charge Coupled Device )を備えたスキャナにて構成されており、紙等の記録担体上に形成されたカラー画像である原稿からの反射光像をR(赤)G(緑)B(青)に分解してCCDで読み取り、RGBのアナログ信号に変換してカラー画像処理部2へ出力する構成となっている。カラー画像処理部2は、カラー画像入力部13から入力されたRGBのアナログ信号に対して後述する画像処理を行ってデジタルの画像データを生成し、更にデジタルのC(シアン)M(マゼンタ)Y(イエロー)K(黒)信号からなる画像データを生成してカラー画像形成部14へ出力する。カラー画像形成部14は、カラー画像処理部2から入力された画像データに基づいて、熱転写、電子写真、又はインクジェット等の方式によりカラー画像を形成する。操作パネル15は、原稿抽出装置100の操作に必要な情報を表示する液晶ディスプレイ等の表示部と、原稿抽出装置100の動作を制御する指示を使用者の操作により受け付けるタッチパネル又はテンキー等の受付部とを含んで構成されている。
カラー画像処理部2は、カラー画像入力部13から入力されたアナログ信号をA/D変換部20でデジタル信号に変換し、シェーディング補正部21、入力階調補正部22、領域分離処理部23、原稿抽出処理部24、色補正部25、黒生成下色除去部26、空間フィルタ処理部27、出力階調補正部28、階調再現処理部29の順に送り、デジタルのCMYK信号からなる画像データをカラー画像形成部14へ出力する構成となっている。
A/D変換部20は、カラー画像入力部13からカラー画像処理部2へ入力されたRGBのアナログ信号を受け付け、RGBのアナログ信号をデジタルのRGB信号へ変換し、RGB信号をシェーディング補正部21へ出力する。
シェーディング補正部21は、A/D変換部20から入力されたRGB信号に対して、カラー画像入力部13の照明系、結像系及び撮像系で生じる各種の歪みを取り除く処理を行う。シェーディング補正部21は、次に、歪みを取り除いたRGB信号を入力階調補正部22へ出力する。
入力階調補正部22は、シェーディング補正部21から入力されたRGB信号に対して、カラーバランスを調整する。更に、シェーディング補正部21から入力階調補正部22へ入力されたRGB信号はRGBの反射率信号であり、入力階調補正部22は、シェーディング補正部21から入力されたRGB信号を、カラー画像処理部2で処理しやすい濃度信号等の信号へ変換する。入力階調補正部22は、次に、処理を行ったRGB信号を領域分離処理部23へ出力する。
領域分離処理部23は、入力階調補正部22から入力されたRGB信号が表す画像中の各画素を、文字領域、網点領域、又は写真領域のいずれかに分離し、分離結果に基づき、各画素がいずれの領域に属しているかを示す領域識別信号を、黒生成下色除去部26、空間フィルタ処理部27、及び階調再現処理部29へ出力する。領域分離処理部23は、また、入力階調補正部22から入力されたRGB信号を原稿抽出処理部24へ出力する。
原稿抽出処理部24は、記憶部12と接続されており、RGB信号でなる画像データである原稿データを記憶部12との間で入出力する処理、及び後述する本発明の原稿抽出方法に係る処理を実行する。原稿抽出処理部24は、また、領域分離処理部23から入力されたRGB信号でなる画像データ又は記憶部12から入力された原稿データである画像データを色補正部25へ出力する。なお、原稿抽出装置100は、原稿抽出処理部24を領域分離処理部23の後段に設けるのではなく、入力階調補正部22と並列して設けた形態であってもよい。
色補正部25は、原稿抽出処理部24から入力されたRGB信号をCMY信号へ変換し、色再現の忠実化実現のために、不要吸収成分を含むCMY色材の分光特性に基づいた色濁りをCMY信号から取り除く処理を行う。色補正部25は、次に、色補正を行ったCMY信号を黒生成下色除去部26へ出力する。
黒生成下色除去部26は、色補正部25から入力されたCMYの3色信号からK信号を生成する黒生成処理を行い、元のCMY信号から黒生成処理によって得られたK信号を差し引くことによって、CMYの3色信号をCMYKの4色信号へ変換する。黒生成処理の一例としては、スケルトンブラックにより黒生成を行う方法がある。この方法では、スケルトンカーブの入出力特性をy=f(x)、変換前のデータをC,M,Y、UCR(Under Color Removal )率をα(0<α<1)とすると、変換後のデータC’,M’,Y’,K’は下記の式で表される。
K’=f(min(C,M,Y))
C’=C−αK’
M’=M−αK’
Y’=Y−αK’
ここで、UCR率α(0<α<1)は、CMYが重なっている部分をKに置き換えてCMYをどの程度削減するかを示す。前記第1式は、CMYの各信号強度の内の最も小さい信号強度に応じてK信号が生成されることを示している。黒生成下色除去部26は、次に、CMY信号を変換したCMYK信号を空間フィルタ処理部27へ出力する。
空間フィルタ処理部27は、黒生成下色除去部26から入力されたCMYK信号が表す画像に対して、領域分離処理部23から入力された領域識別信号に基づいてデジタルフィルタによる空間フィルタ処理を行うことにより、画像のぼやけ又は粒状性劣化を改善する。例えば、領域分離処理部23にて文字に分離された領域に対しては、空間フィルタ処理部27は、文字の再現性を高めるために、高周波成分の強調量が大きいフィルタを用いて空間フィルタ処理を行う。また領域分離処理部23にて網点に分離された領域に対しては、空間フィルタ処理部27は、入力網点成分を除去するためのローパス・フィルタ処理を行う。空間フィルタ処理部27は、次に、処理後のCMYK信号を出力階調補正部28へ出力する。
出力階調補正部28は、空間フィルタ処理部27から入力されたCMYK信号に対して、カラー画像形成部14の特性値である網点面積率に変換する出力階調補正処理を行い、出力階調補正処理後のCMYK信号を階調再現処理部29へ出力する。
階調再現処理部29は、出力階調補正部28から入力されたCMYK信号に対して、領域分離処理部23から入力された領域識別信号に基づいて、画素の階調数を減少させながら領域に応じた階調を表現できるように処理を行う。例えば、領域分離処理部23にて文字に分離された領域に対しては、階調再現処理部29は、高域周波成分の再現に適した高解像度のスクリーンによる二値化又は低階調化の処理を行う。また領域分離処理部23にて網点に分離された領域に対しては、階調再現処理部29は、最終的に画像を画素に分離して夫々の階調を再現できるように処理する階調再現処理を行う。階調再現処理部29は、次に、処理後の画像データをカラー画像形成部14へ出力する。
カラー画像形成部14は、カラー画像処理部2から入力されたCMYK信号でなる画像データに基づいて、紙等の記録担体上にCMYKのカラー画像を形成する。原稿データである画像データに基づいて画像を形成することにより、カラー画像形成部14は、写真又は文書等からなる原稿を出力する。
次に、原稿抽出処理部24の構成及び原稿抽出処理部24が行う処理を説明する。図2は、原稿抽出処理部24の構成を示すブロック図である。原稿抽出処理部24は、入力された原稿データが表す原稿上の文字又は図形等に対応する特徴点を抽出する特徴点抽出部241、特徴点から原稿データの特徴を示す特徴データを算出する特徴データ算出部242、特徴データに基づいて、記憶部12が記憶する原稿データに対して投票を行う投票処理部243、投票結果に基づいて原稿データの類似度を判定する類似度判定処理部244、及び記憶部12から特定の原稿データを抽出する原稿抽出部245を備えている。
図3は、特徴点抽出部241の構成を示すブロック図である。特徴点抽出部241は、原稿データを無彩化する無彩化処理部2410、原稿データの解像度を所定の解像度に変換する解像度変換部2411、原稿データの空間周波数特性を補正するフィルタ処理部2412、原稿データを二値化する二値化処理部2413、及び文字等の重心を抽出する重心抽出部2414を備えている。
無彩化処理部2410は、入力された原稿データがカラー画像データである場合に、カラー画像を無彩化して、輝度信号又は明度信号に変換し、変換後の原稿データを解像度変換部2411へ出力する。例えば、輝度信号Yは、各画素RGBの色成分の強度を夫々Rj、Gj、Bjとし、各画素の輝度をYjとして、Yj=0.30×Rj+0.59×Gj+0.11×Bjで表すことができる。また他の方法として、RGB信号をCIE(Commission International de l'Eclairage )1976L*** 信号に変換することによってカラー画像を無彩化する方法を利用しても良い。
解像度変換部2411は、入力された原稿データの解像度が所定の解像度になるように原稿データを変倍して、原稿データの解像度を変換し、原稿データをフィルタ処理部2412へ出力する。これにより、カラー画像入力部13で光学的に原稿が変倍されて原稿データの解像度が変化した場合であっても、その影響を受けることなく特徴点の抽出を行うことが可能となる。また解像度変換部2411は、カラー画像入力部13で等倍時に読み込まれる解像度よりも低解像度に変換する。例えば、カラー画像入力部13で600dpi(dot per inch)で読み込んだ原稿データを300dpiに変換する。これにより、後段における処理量を低減することができる。
フィルタ処理部2412は、入力された原稿データの空間周波数特性を画像の強調化処理及び平滑化処理等によって補正し、補正後の画像を二値化処理部2413へ出力する。フィルタ処理部2412での処理は、カラー画像入力部13の空間周波数特性が機種ごとに異なることを吸収するために行われる。カラー画像入力部13が備えるCCDが出力する画像信号には、レンズ又はミラー等の光学系部品、CCDの受光面のアパーチャ開口度、転送効率、残像、物理的な走査による積分効果及び走査むら等に起因して画像がぼやける劣化が生ずる。フィルタ処理部2412は、境界又はエッジ等の強調処理を行うことにより、原稿データに生じた劣化を修復する。また、フィルタ処理部2412は、後段で処理される特徴点の抽出処理に不要な高周波成分を抑制するための平滑化処理を行う。
図4は、フィルタ処理部2412が利用する空間フィルタの例を示す説明図である。図に示すように、空間フィルタは、例えば、7×7の大きさを有し、強調処理及び平滑化処理を行うための混合フィルタである。入力された原稿データの画素を走査し、空間フィルタによる演算処理をすべての画素に対して行う。なお、空間フィルタの大きさは、7×7の大きさに限定されるものではなく、3×3、5×5などの大きさであってもよい。また、フィルタ係数の数値は一例であって、これに限定されるものではなく、カラー画像入力部13の機種又は特性などに応じて適宜設定することができる。
二値化処理部2413は、入力された原稿データに含まれる各画素の輝度値又は明度値を所定の閾値と比較することにより原稿データを二値化し、二値化した原稿データを重心抽出部2414へ出力する。
重心抽出部2414は、二値化処理部2413から入力された原稿データの各画素について、二値化された画素値に応じたラベルを付すラベリングを行う。即ち、ラベルには二種類のラベルがあり、画素値が0又は1で表される場合に、0の画素には一方のラベルが付され、1の画素には他方のラベルが付される。重心抽出部2414は、次に、同一ラベルが付された画素が連結した連結領域を特定し、特定した連結領域の重心を特徴点として抽出し、抽出した特徴点を特徴データ算出部242へ出力する。なお、特徴点は、原稿データが表す二値画像上での座標値で表すことができる。
図5は、連結領域の特徴点の例を示す説明図である。図5において、特定された連結領域は、文字「A」であり、同一ラベルが付された画素の集合として特定される。この文字「A」の重心の位置は、図5中の黒丸で示される位置となり、この重心が特徴点となる。図6は、文字列に対する特徴点の抽出結果の例を示す説明図である。複数の文字から構成される文字列の場合、文字の種類により夫々異なる位置に特徴点が抽出される。特徴点は、文字に対してのみではなく、同様にして図形又は写真の部分に対しても抽出することができる。なお、ここで示した特徴点の抽出方法は一例であり、他の方法を用いて特徴点を抽出してもよい。例えば、文字列を単語に分解し、各単語の重心を特徴点として抽出する処理を行ってもよい。
特徴データ算出部242は、特徴点抽出部241から入力された特徴点に基づき、入力された原稿データの特徴を示す特徴データを算出する処理を行う。ここに、特徴データの算出例を示す。特徴データ算出部242は、特徴点抽出部241から入力された特徴点の夫々を順に注目特徴点とし、注目特徴点に近接する4つの他の特徴点を抽出する。
図7は、注目特徴点と抽出した特徴点とを示す説明図である。特徴データ算出部242は、図7に示すように、1つの特徴点を注目特徴点とし、この注目特徴点の周辺に近接する特徴点を、注目特徴点からの距離が近いものから順に所定数(ここでは4点)だけ周辺特徴点として抽出する。図7に示す例では、特徴点aを注目特徴点P1とした場合には図中の閉曲線C1で囲まれる特徴点b,c,d,eの4点が周辺特徴点として抽出され、特徴点bを注目特徴点P2とした場合には図中の閉曲線C2で囲まれる特徴点a,c,e,fの4点が周辺特徴点として抽出される。
また、特徴データ算出部242は、抽出した周辺特徴点4点の中から、3点の組み合わせを抽出する。図8は、注目特徴点P1に対して3点の周辺特徴点を抽出し、特徴データを算出する例を示す説明図である。図8(a)〜図8(d)に示すように、図7に示した特徴点aを注目特徴点P1とした場合、周辺特徴点b,c,d,eの中から3点を選択した全ての組み合わせ、即ち、周辺特徴点b,c,d、周辺特徴点b,c,e、周辺特徴点b,d,e、周辺特徴点c,d,eの各組み合わせが抽出される。
次に、特徴データ算出部242は、抽出した各組み合わせについて、幾何学的変形に対する不変量(特徴量の1つ)Hijを算出する。ここで、iは注目特徴点を示す数(iは1以上の整数)であり、jは周辺特徴点3点の組み合わせを示す数(jは1以上の整数)である。本実施の形態では周辺特徴点同士を結ぶ線分の長さのうちの2つの比を不変量Hijとする。なお、線分の長さは、各周辺特徴点の座標値に基づいて算出すればよい。例えば、図8(a)に示した例では、特徴点bと特徴点cとを結ぶ線分の長さをA11、特徴点bと特徴点dとを結ぶ線分の長さをB11とし、不変量H11をH11=A11/B11により求める。また、図8(b)に示した例では、特徴点bと特徴点cとを結ぶ線分の長さをA12、特徴点bと特徴点eとを結ぶ線分の長さをB12とし、不変量H12をH12=A12/B12により求める。また、図8(c)に示した例では、特徴点bと特徴点dとを結ぶ線分の長さをA13、特徴点bと特徴点eとを結ぶ線分の長さをB13とし、不変量H13をH13=A13/B13により求める。また、図8(d)に示した例では、特徴点cと特徴点dとを結ぶ線分の長さをA14、特徴点cと特徴点eとを結ぶ線分の長さをB14とし、不変量H14をH14=A14/B14により求める。このようにして、図8(a)〜図8(d)に示した例では、不変量H11,H12,H13,H14が算出される。以上の例では、注目特徴点に1番目,2番目,3番目に近い周辺特徴点3点の組み合わせをj=1とし、注目特徴点に1番目,2番目,4番目に近い周辺特徴点3点の組み合わせをj=2とし、注目特徴点に1番目,3番目,4番目に近い周辺特徴点3点の組み合わせをj=3とし、注目特徴点に2番目,3番目,4番目に近い周辺特徴点3点の組み合わせをj=4とした。また、3点の周辺特徴点の中で注目特徴点に最も近い周辺特徴点と2番目に近い周辺特徴点とを結ぶ線分をAij、注目特徴点に最も近い周辺特徴点と3番目に近い周辺特徴点とを結ぶ線分をBijとした。なお、周辺特徴点3点の組み合わせの順番又は不変量Hijの算出に用いる線分を定めるためには、以上の例で用いた方法に限ることなく、周辺特徴点間を結ぶ線分の長さを基準にして定める方法等、任意の方法を用いて定めればよい。
次に、特徴データ算出部242は、下記式の余りの値をハッシュ値(特徴データ)Hiとして算出し、記憶部12に記憶させる。なお、下記式のDは余りが取り得る値の範囲をどの程度に設定するかに応じて予め設定される定数である。
(Hi1×103 +Hi2×102 +Hi3×101 +Hi4×100 )/D
また、特徴データ算出部242は、1つの注目特徴点に対する周辺特徴点の抽出及びハッシュ値Hiの算出が終了した後、他の特徴点を次の注目特徴点とし、次の注目特徴点について周辺特徴点の抽出及びハッシュ値の算出を行い、各特徴点を注目特徴点としたハッシュ値を算出する。
図7に示した例では、特徴データ算出部242は、特徴点aを注目特徴点P1とした周辺特徴点の抽出及びハッシュ値H1の算出が終了した後に、特徴点bを注目特徴点P2とした周辺特徴点の抽出及びハッシュ値H2の算出を行う。図7に示すように、特徴点bを注目特徴点P2とした場合、特徴点a,c,e,fの4点が周辺特徴点として抽出される。図9は、注目特徴点P2に対して3点の周辺特徴点を抽出し、特徴データを算出する例を示す説明図である。図9(a)〜図9(d)に示すように、特徴データ算出部242は、周辺特徴点a,c,e,fの内の3点の組み合わせ、即ち、周辺特徴点a,e,f、周辺特徴点a,c,e、周辺特徴点a,f,c、周辺特徴点e,f,cの各組み合わせを抽出し、各組み合わせについて不変量Hijを算出する。図8に示した注目特徴点P1の場合と同様に、注目特徴点P2の場合でも、図9(a)に示すようにH21=A21/B21により不変量H21が算出され、図9(b)に示すようにH22=A22/B22により不変量H22が算出され、図9(c)に示すようにH23=A23/B23により不変量H23が算出され、図9(d)に示すようにH24=A24/B24により不変量H24が算出される。また特徴データ算出部242は、不変量H21,H22,H23,H24からハッシュ値H2を算出し、記憶部12に記憶させる。更に特徴データ算出部242は、各特徴点を注目特徴点として同様の処理を繰り返し、各特徴点を注目特徴点とした場合のハッシュ値Hiを夫々に求めて記憶部12に記憶させる。
以上の如くにして、特徴データ算出部242は、特徴点の夫々についてハッシュ値Hiである特徴データを計算し、計算した複数の特徴データを原稿データの特徴データとする。特徴データ算出部242は、本発明における生成手段として機能する。
なお、ここで示した特徴データの算出方法は一例であり、他の方法を用いて特徴データを算出してもよい。例えば、他の所定のハッシュ関数を用いて特徴データを算出してもよい。また、注目特徴点に近接する特徴点を抽出する際に、5点又は6点等、4点以外の数の特徴点を抽出して特徴データを算出してもよい。また、抽出した5つの特徴点から更に3つの特徴点を抽出し、3点間の距離に基づいて特徴データを算出し、5つの特徴点から更に3つの特徴点を抽出できる組み合わせの数だけ特徴データを算出する等、一の注目特徴点について複数の特徴データを算出する処理を行ってもよい。
特徴データ算出部242が算出する特徴データは、原稿データに関連付けられて記憶部12で記憶されている。記憶部12は、夫々に複数のページで構成される原稿毎に、各ページに対応する原稿データを記憶し、更に、原稿データと原稿とを対応付ける原稿テーブル、及び原稿データと特徴データとを対応付ける特徴テーブルを記憶している。記憶部12は、本発明における特徴データ記憶手段として機能する。
図10は、記憶部12が記憶する原稿データを示す概念図である。原稿に含まれる各ページに対応する複数の原稿データが記憶されており、各原稿データには、原稿データを個別に示すID1,ID2,…のページインデックスが付されている。図11は、記憶部12が記憶する原稿データと原稿とを対応付ける原稿テーブルの内容例を示す概念図である。原稿を個別に示すDoc1,Doc2,…の原稿インデックスが記録されており、原稿に含まれる各ページに対応する原稿データを示すページインデックスが、原稿インデックスに関連付けられて記録されている。テーブルには更に各原稿のページ数が記録されており、ページ数と同数のページインデックスが原稿インデックスに関連付けられている。ページインデックスが原稿インデックスに関連付けられていることによって、図10に示す如く、記憶部12は原稿インデックス及び原稿データを互いに関連付けて記憶する。
図12は、記憶部12が記憶する原稿データと特徴データとを対応付ける特徴テーブルの内容例を示す概念図である。図中には、ハッシュ値である特徴データをE=127として算出した場合の例を示している。0〜126の夫々の特徴データが記録されており、原稿データのページインデックスが、その原稿データについて算出された特徴データに関連付けて記録されている。複数の原稿データで同一の特徴データが算出されることがあるので、各特徴データには、複数のページインデックスが関連付けられている。また一の原稿データについて複数の特徴データが算出されるので、一の原稿データのページインデックスが複数の特徴データに関連付けられている。ページインデックスが特徴データに関連付けられていることによって、記憶部12は特徴データ及び原稿データを互いに関連付けて記憶する。
投票処理部243は、特徴データ算出部242が算出した特徴データに基づいて、記憶部12が記憶する特徴テーブルを検索し、算出した特徴データと一致する特徴データに関連付けられたページインデックスが示す原稿データに投票する。一の特徴データに複数のページインデックスが関連付けられている場合は、その特徴データに関連付けられた全ての原稿データに対して投票が行われる。入力された原稿データについて特徴データ算出部242は複数の特徴データを算出するので、各特徴データについて投票が行われ、入力された原稿データに類似する原稿データに対しては複数回の投票が行われる。投票処理部243は、特徴データ算出部242が算出した複数の特徴データについて投票を行った結果を類似度判定処理部244へ出力する。
類似度判定処理部244は、投票処理部243から入力された投票結果に基づいて、入力された原稿データが、記憶部12に記憶された原稿データのいずれに類似するかを判定し、判定結果を原稿抽出部245へ出力する。具体的には、類似度判定処理部244は、記憶部12に記憶された各原稿データの得票数を検査し、得票数が最大である原稿データを、入力された原稿データに類似する原稿データであると判定する。あるいは、類似度判定処理部244は、特徴データ算出部242が算出した特徴データの数である最大可能得票数で各原稿データの得票数を除算して得票数を正規化し、正規化した得票数が所定の閾値以上である原稿データを、入力された原稿データに類似する原稿データであると判定する処理を行ってもよい。入力された原稿データに類似する原稿データがある場合は、類似度判定処理部244が出力する判定結果には、類似する原稿データのページインデックスが含まれる。投票処理部243及び類似度判定処理部244は、本発明における判定手段として機能する。
原稿抽出部245は、類似度判定処理部244から入力された判定結果に含まれるページインデックスに基づいて、記憶部12が記憶する原稿テーブルを検索し、ページインデックスに関連付けられた原稿インデックスを取得する。これにより、入力された原稿データに類似すると判定された原稿データに対応するページを含む原稿が特定される。原稿抽出部245は、次に、取得した原稿インデックスに関連付けられた複数のページインデックスが示す複数の原稿データを抽出し、抽出した複数の原稿データを色補正部25へ出力する。これにより、特定された原稿に含まれる全てのページに対応する原稿データが抽出される。原稿抽出部245は、本発明における抽出手段として機能する。
次に、以上の構成でなる本発明の原稿抽出装置100が実行する処理を説明する。原稿抽出装置100は、複数のページで構成される原稿を読み取って原稿データを登録する処理と、原稿の一部を読み取って原稿の全てのページに対応する原稿データを抽出する処理とを実行する。原稿の一部から原稿の全てのページに対応する原稿データを抽出する処理は、本発明の原稿抽出方法に係る処理である。図13は、原稿データを登録する処理の手順を示すフローチャートである。
原稿抽出装置100の制御部11は、操作パネル15を使用者が操作することによる、原稿データの登録指示の受付を随時待ち受けている(S11)。登録指示の受付がない場合は(S11:NO)、制御部11は、登録指示の受付の待ち受けを続行する。原稿データの登録指示を受け付けた場合は(S11:YES)、複数のページでなる原稿を使用者が原稿抽出装置100にセットし、カラー画像入力部13は、各ページを光学的に読み取ることによって、RGB信号でなる画像データである複数の原稿データを取得する(S12)。カラー画像入力部13は、原稿データをカラー画像処理部2へ出力し、カラー画像処理部2では、A/D変換部20、シェーディング補正部21、入力階調補正部22、及び領域分離処理部23の順に原稿データを処理し、制御部11は、記憶部12に原稿データを記憶させる(S13)。
原稿抽出処理部24では、特徴点抽出部241が前述の処理によって一の原稿データについて複数の特徴点を抽出し(S14)、特徴データ算出部242は、前述の処理によって夫々の特徴点について特徴データを計算することにより、一の原稿データの特徴を示す複数の特徴データを算出する(S15)。制御部11は、次に、一の原稿データを示すページインデックスを生成し、記憶部12に記憶した原稿データにページインデックスを付加することによって、ページインデックスを設定する(S16)。このとき、制御部11は、原稿データが入力された順番、又は日時等に基づいて、一意のページインデックスを生成する。制御部11は、次に、特徴データ算出部242が算出した特徴データと原稿データのページインデックスとを関連付けることによって、図12に示す如き特徴テーブルを更新する(S17)。
制御部11は、次に、入力された全ての原稿データについて特徴データを関連付ける処理が終了したか否かを判定する(S18)。まだ特徴データを関連付ける処理を行っていない原稿データがある場合は(S18:NO)、制御部11は、処理をステップS14へ戻し、特徴点抽出部241は、まだ特徴点の抽出を行っていない原稿データについて特徴点を抽出する。全ての原稿データについて処理が終了している場合は(S18:YES)、取得した複数の原稿データに対応する複数のページで構成される原稿を示す原稿インデックスを生成することによって、原稿インデックスを設定する(S19)。ここで、制御部11は、日時等から原稿インデックスを生成する。なお、制御部11は、使用者が希望する原稿インデックスを操作パネル15で受け付ける処理を行ってもよい。
制御部11は、次に、生成した原稿インデックスと原稿データのページインデックスとを関連付けることによって、記憶部12が記憶する原稿テーブルを更新し(S20)、処理を終了する。以上の処理により、複数のページからなる原稿の原稿データが記憶部12に記憶される。
図14は、原稿データを抽出する処理の手順を示すフローチャートである。原稿抽出装置100の制御部11は、操作パネル15を使用者が操作することによる、原稿データの抽出指示の受付を随時待ち受けている(S31)。抽出指示の受付がない場合は(S31:NO)、制御部11は、抽出指示の受付の待ち受けを続行する。画像データの抽出指示を受け付けた場合は(S31:YES)、複数のページでなる原稿に含まれる一部のページを原稿抽出装置100に使用者がセットし、カラー画像入力部13は、セットされたページを光学的に読み取ることによって、RGB信号でなる画像データである入力原稿データを取得する(S32)。
カラー画像入力部13は、入力原稿データをカラー画像処理部2へ出力し、カラー画像処理部2では、A/D変換部20、シェーディング補正部21、入力階調補正部22、及び領域分離処理部23の順に入力原稿データを処理し、原稿抽出処理部24では、特徴点抽出部241が入力原稿データについて複数の特徴点を抽出する(S33)。特徴データ算出部242は、特徴点抽出部241が抽出した各特徴点について特徴データを計算することにより、入力原稿データの特徴を示す複数の特徴データを算出する(S34)。
投票処理部243は、次に、特徴データ算出部242が算出した各特徴データについて、記憶部12が記憶する特徴テーブルを検索し、算出した特徴データに関連付けられたページインデックスが示す原稿データに投票する投票処理を行う(S35)。類似度判定処理部244は、投票処理部243での投票結果に基づいて、入力原稿データが、記憶部12に記憶された原稿データのいずれに類似するかを判定する(S36)。このとき、類似度判定処理部244は、最低限の得票数を得た原稿データの内で得票数が最大である原稿データ、又は正規化された得票数が所定の閾値以上である原稿データを、入力原稿データとの類似度が高い原稿データであると判定する。
制御部11は、次に、類似度判定処理部244での判定結果が、類似度が高い原稿データがあることを示しているか否かを判定する(S37)。判定結果が、類似度が高い原稿データがないことを示している場合は(S37:NO)、制御部11は、使用者がカラー画像入力部13に読み取らせた原稿と類似する原稿がないことを示す情報を出力する(S38)。具体的には、制御部11は、類似する原稿がないことを示す文字情報を操作パネル15の表示部に表示させるか、又は類似する原稿がないことを文字で表した画像をカラー画像形成部14に形成させる。ステップS38が終了した後は、原稿抽出装置100は、原稿データを抽出する処理を終了する。
ステップS37で、判定結果が、類似度が高い原稿データがあることを示している場合は(S37:YES)、原稿抽出部245は、記憶部12が記憶する原稿テーブルを検索し、類似度判定処理部244が入力原稿データとの類似度が高いと判定した原稿データのページインデックスに関連付けられた原稿インデックスを取得する(S39)。制御部11は、次に、複数のページに対応する複数の入力原稿データを取得しているか否かを判定する(S40)。取得した入力原稿データが一のページに対応する入力原稿データである場合は(S40:NO)、原稿抽出部245は、取得した原稿インデックスに原稿テーブルで関連付けられた複数のページインデックスが示す複数の原稿データを抽出する(S43)。これにより、入力原稿データとの類似度が高い原稿データに対応するページが含まれる原稿に係る原稿データが全て抽出される。
原稿抽出部245は、抽出した原稿データを色補正部25へ出力し、色補正部25、黒生成下色除去部26、空間フィルタ処理部27、出力階調補正部28、階調再現処理部29の順に原稿データを処理し、カラー画像処理部2はカラー画像形成部14へ原稿データを出力する。カラー画像形成部14は、画像データである複数の原稿データに基づいた画像を形成することにより、複数の原稿データに対応する複数のページで構成される原稿を出力する原稿出力処理を行う(S44)。ステップS44が終了した後は、原稿抽出装置100は、原稿データを抽出する処理を終了する。
ステップS40で複数のページに対応する複数の入力原稿データを取得している場合は(S40:YES)、制御部11は、各入力原稿データについて取得した原稿インデックスが一致しているか否かを判定する(S41)。原稿インデックスが一致していない場合は(S41:NO)、制御部11は、処理をステップS38へ進め、類似する原稿がないことを出力する。
ステップS41で原稿インデックスが一致している場合は(S41:YES)、制御部11は、全ての入力原稿データについて類似度を判定する処理が終了したか否かを判定する(S42)。まだ類似度を判定する処理を行っていない入力原稿データがある場合は(S42:NO)、制御部11は、処理をステップS33へ戻し、特徴点抽出部241は、まだ特徴点の抽出を行っていない入力原稿データについて特徴点を抽出する。全ての入力原稿データについて処理が終了している場合は(S42:YES)、原稿抽出装置100は、処理をステップS43へ進め、入力原稿データとの類似度が高い原稿データに対応するページが含まれる原稿に係る原稿データを抽出して原稿を出力する。
なお、以上の処理においては、入力原稿データとの類似度が高い原稿データが一つであるとしているが、原稿抽出装置100は、正規化された得票数が所定の閾値以上である原稿データが複数ある場合に、複数の原稿データを入力原稿データとの類似度が高い原稿データであると判定する処理を行ってもよい。この場合は、複数の原稿データの夫々に係る原稿を共に出力する処理を行ってもよく、又、類似度が高いと判定された各原稿データに対応するページのイメージを操作パネル15の表示部で表示し、正当な原稿データを使用者に選択させる処理を行ってもよい。
以上詳述した如く、本発明においては、原稿抽出装置100は、原稿に含まれる各ページに対応する原稿データを記憶部12に記憶しておき、更に原稿データの特徴を示す特徴データ、及び原稿を示す原稿インデックスを原稿データに関連付けて記憶しておく。原稿抽出装置100は、入力原稿データを取得した場合に、入力原稿データから特徴データを生成し、特徴データに基づいて原稿データとの類似度を判定し、入力原稿データとの類似度が高い原稿データに関連付けられた原稿インデックスを取得し、取得した原稿インデックスに関連付けられた複数の原稿データを抽出する。これにより、入力原稿データに類似すると判定された原稿データに対応するページを含む原稿が特定され、また特定された原稿に含まれる全てのページに対応する原稿データが抽出される。即ち、複数ページで構成される原稿の一部に対応する入力原稿データに基づき、原稿の全てのページに対応する原稿データを抽出することが可能となる。従って、複数ページで構成されている原稿に紛失又は汚れ等によって欠落が生じた場合であっても、原稿データを予め記憶してあるデータベースの中から、原稿の全てのページに亘った原稿データを容易に抽出することが可能となる。
また本発明の原稿抽出装置100は、原稿データの類似度を判定するために、一の原稿データについて複数の特徴データを記憶しておき、入力原稿データについて生成した各特徴データ毎に同一の特徴データに関連付けられた原稿データに投票し、最大の得票数又は所定量以上の得票数を得た原稿データを、入力原稿データとの類似度が高い原稿データであるとする。複数の特徴データの内で多くの特徴データが一致する原稿データを類似度が高いと判定するので、より確からしい類似度判定を行うことができる。従って、入力原稿データに類似しない原稿データを類似度が高い原稿データであると間違って判定することによって目的とは異なる原稿データを抽出してしまう愚を可及的に避けることが可能となる。
また本発明の原稿抽出装置は、複数の入力原稿データを取得し、各入力原稿データとの類似度が高い原稿データに関連付けられた原稿インデックスが一致する場合に、一致した原稿インデックスに関連付けられた複数の原稿データを抽出する。これにより、複数のページに基づいて原稿を抽出することが可能となり、目的とは異なる原稿データを間違って抽出してしまう可能性をより低下させることができる。例えば、互いに類似する原稿が存在する場合でも、目的の原稿データを確実に抽出することが可能となる。
また本発明においては、原稿データが表す原稿上の文字、図形及び写真等の重心に対応した特徴点を原稿データから抽出し、抽出した複数の特徴点の相対的な位置関係に基づいて、数値で表される特徴データを算出する。このようにして算出した特徴データを原稿データ間で比較することにより原稿データの検索を行うので、従来のビットマップデータを比較することによる検索、又は原稿から抽出した多量の文字コードである特徴量を比較することによる検索に比べて、原稿データの検索処理を行うために必要なデータ量が大幅に削減される。従って、本発明においては、従来技術に比べて、原稿データを検索する処理に必要な時間が削減される。また本発明においては、複数の特徴点の相対的な位置関係に基づいて求めた特徴データを比較することによって原稿データの検索を行うので、原稿データ間で画像の位置合わせを行う必要がない。従って、本発明では、従来技術に比べて高精度で原稿データを検索することができる。
なお、本実施の形態においては、カラー画像データである原稿データを扱う形態を示したが、これに限るものではなく、本発明の原稿抽出装置100は、モノクロの原稿データを扱う形態であってもよい。
また本実施の形態においては、本発明における取得手段としてスキャナであるカラー画像入力部13を用いた形態を示したが、これに限るものではなく、本発明の原稿抽出装置100は、取得手段として、外部のスキャナ又はPCから原稿データを受信するインタフェースを備えた形態であってもよい。また本発明に係る原稿データは、原稿を光学的に取り込んだ画像データに限るものではなく、アプリケーションプログラムを利用したPCで作成したテキストデータ等のアプリケーションデータであってもよい。この場合は、原稿抽出装置100は、取得手段であるインタフェースでアプリケーションデータである原稿データを受け付け、本発明に係る処理を実行する。
また本実施の形態においては、取得した原稿データを登録し、登録した原稿データの中から必要な原稿データを抽出する処理を行う形態を示したが、これに限るものではなく、本発明の原稿抽出装置100は、予め原稿データを記憶している記憶部12を取り付けられる等の方法により、登録の処理を行うことなく原稿データを抽出する処理を行う形態であってもよい。また本実施の形態においては、原稿抽出装置100で内蔵する記憶部12に記憶する原稿データから必要な原稿データを抽出する処理を行う形態を示したが、これに限るものではなく、本発明の原稿抽出装置100は、通信ネットワークで接続されたストレージ装置又はサーバ装置等の外部の記憶手段に記憶された原稿データから必要な原稿データを抽出する処理を行う形態であってもよい。
(実施の形態2)
実施の形態2においては、入力画像データとの類似度が高い原稿データが複数ある場合に、更に入力画像データを取得して画像データの絞込みを行う形態を示す。本実施の形態に係る原稿抽出装置の内部構成は、図1〜図3を用いて説明した実施の形態1の場合と同様である。また本実施の形態に係る記憶部12での記憶内容は、図11及び図12を用いて説明した実施の形態1の場合と同様である。また本実施の形態に係る原稿抽出装置が原稿データを登録する処理は、図13のフローチャートを用いて説明した実施の形態1の場合と同様である。
図15及び図16は、実施の形態2に係る原稿抽出装置が行う原稿データを抽出する処理の手順を示すフローチャートである。原稿抽出装置100の制御部11は、操作パネル15を使用者が操作することによる、原稿データの抽出指示の受付を随時待ち受けている(S501)。抽出指示の受付がない場合は(S501:NO)、制御部11は、抽出指示の受付の待ち受けを続行する。画像データの抽出指示を受け付けた場合は(S501:YES)、複数のページでなる原稿に含まれる一部のページを原稿抽出装置100に使用者がセットし、カラー画像入力部13は、セットされた一のページを光学的に読み取ることによって、RGB信号でなる画像データである入力原稿データを取得する(S502)。
カラー画像入力部13は、入力原稿データをカラー画像処理部2へ出力し、カラー画像処理部2では、A/D変換部20、シェーディング補正部21、入力階調補正部22、及び領域分離処理部23の順に入力原稿データを処理し、原稿抽出処理部24では、特徴点抽出部241が入力原稿データについて複数の特徴点を抽出する(S503)。特徴データ算出部242は、特徴点抽出部241が抽出した各特徴点について特徴データを計算することにより、入力原稿データの特徴を示す複数の特徴データを算出する(S504)。
投票処理部243は、次に、特徴データ算出部242が算出した各特徴データについて、記憶部12が記憶する特徴テーブルを検索し、算出した特徴データに関連付けられたページインデックスが示す原稿データに投票する投票処理を行う(S505)。類似度判定処理部244は、投票処理部243での投票結果に基づいて、入力原稿データが、記憶部12に記憶された原稿データのいずれに類似するかを判定する(S506)。ステップS506では、類似度判定処理部244は、正規化された得票数が所定の閾値以上である原稿データを、入力原稿データとの類似度が高い原稿データであると判定する。
制御部11は、次に、類似度判定処理部244での判定結果が、入力原稿データとの類似度が高い原稿データがあることを示しているか否かを判定する(S507)。判定結果が、類似度が高い原稿データがないことを示している場合は(S507:NO)、制御部11は、使用者がカラー画像入力部13に読み取らせた原稿と類似する原稿がないことを示す情報を出力する(S508)。ステップS508が終了した後は、原稿抽出装置100は、原稿データを抽出する処理を終了する。
ステップS507で、判定結果が、入力原稿データとの類似度が高い原稿データがあることを示している場合は(S507:YES)、原稿抽出部245は、記憶部12が記憶する原稿テーブルを検索し、類似度判定処理部244が入力原稿データとの類似度が高いと判定した原稿データのページインデックスに関連付けられた原稿インデックスを取得する(S509)。入力原稿データとの類似度が高い原稿データが複数ある場合は、ステップS509では複数の原稿インデックスが取得される。制御部11は、次に、現在処理中の入力原稿データが、複数のページでなる原稿の内の2ページ目以降のページを読み取った入力原稿データであるか否かを判定する(S510)。現在処理中の入力原稿データが原稿の1ページ目を読み取った入力原稿データである場合は(S510:NO)、制御部11は、ステップS509で取得した原稿インデックスが複数個あるか否かを判定する(S515)。ステップS509で取得した原稿インデックスが単数である場合は(S515:NO)、原稿抽出部245は、取得した原稿インデックスに原稿テーブルで関連付けられた複数のページインデックスが示す複数の原稿データを抽出する(S516)。
原稿抽出部245は、抽出した原稿データを色補正部25へ出力し、色補正部25、黒生成下色除去部26、空間フィルタ処理部27、出力階調補正部28、階調再現処理部29の順に原稿データを処理し、カラー画像処理部2はカラー画像形成部14へ原稿データを出力する。カラー画像形成部14は、画像データである複数の原稿データに基づいた画像を形成することにより、複数の原稿データに対応する複数のページで構成される原稿を出力する原稿出力処理を行う(S517)。ステップS517が終了した後は、原稿抽出装置100は、原稿データを抽出する処理を終了する。
ステップS510で、現在処理中の入力原稿データが原稿の2ページ目以降のページを読み取った入力原稿データである場合は(S510:YES)、制御部11は、原稿からこれまで読み取ったページに対応する入力原稿データに関して取得した原稿インデックスの内、これまで読み取った全ページに共通する原稿インデックスがあるか否かを判定する(S511)。全ページに共通する原稿インデックスがない場合は(S511:NO)、制御部11は、処理をステップS508へ進め、類似する原稿がないことを出力する。
これまで読み取った全ページに共通する原稿インデックスがある場合は(S511:YES)、制御部11は、全ページに共通する原稿インデックスが複数個あるか否かを判定する(S512)。全ページに共通する原稿インデックスが単数である場合は(S512:NO)、制御部11は、処理部ステップS516へ進め、原稿抽出部245は、取得した原稿インデックスに関連付けられた複数のページインデックスが示す複数の原稿データを抽出し(S516)、カラー画像形成部14は、複数の原稿データに対応する複数のページで構成される原稿を出力する原稿出力処理を行い(S517)、原稿抽出装置100は処理を終了する。
ステップS515において、取得した原稿インデックスが複数個ある場合(S515:YES)、又はステップS512において、これまで読み取った全ページに共通する原稿インデックスが複数個ある場合は(S512:YES)、制御部11は、原稿の他のページの要求を示す情報を出力する処理を行う(S513)。具体的には、制御部11は、原稿に含まれる新たなページの読取を要求する文字情報を操作パネル15の表示部に表示させる。
制御部11は、次に、原稿に含まれる他のページが原稿抽出装置100に使用者によりセットされているか否かを判定する(S514)。原稿に含まれる他のページが原稿抽出装置100にセットされている場合は(S514:YES)、制御部11は、処理をステップS502へ戻し、カラー画像入力部13は、原稿に含まれる他のページに対応する入力原稿データを取得する。
原稿に含まれる他のページが原稿抽出装置100にセットされていない場合は(S514:NO)、制御部11は、処理をステップS516へ進める。なお、ステップS514では、制御部11は、ステップS513の処理が終了してから所定時間が経過しても原稿の他のページがセットされない場合、又は使用者が操作パネル15を操作することにより原稿読取の終了指示を受けつけた場合に、原稿の他のページがセットされていないと判定する処理を行ってもよい。制御部11が処理をステップS516へ進めることにより、原稿抽出部245は、これまで読み取った全ページに共通する複数の原稿インデックスの夫々に関連付けられた各ページインデックスが示す原稿データを抽出し(S516)、カラー画像形成部14は、抽出した原稿データに対応する原稿を出力する原稿出力処理を行う(S517)。これにより、原稿抽出装置100は、複数の原稿インデックスに対応する複数の原稿を出力する。ステップS517が終了した後は、原稿抽出装置100は処理を終了する。
以上詳述した如く、本実施の形態に係る原稿抽出装置は、原稿の内で読みとったページに対応する入力原稿データとの類似度が高い原稿データに関連付けられた原稿インデックスが複数ある場合に、原稿の他のページに対応する入力原稿データを要求し、原稿の他のページを読み取った入力画像データを取得する。更に本実施の形態に係る原稿抽出装置は、読み取った全ページに共通して入力原稿データとの類似度が高い原稿データに関連付けられた原稿インデックスを取得し、取得した原稿インデックスに関連付けられた複数の原稿データを抽出する。これにより、入力原稿データに類似すると判定された原稿データの原稿インデックスが複数ある場合に、原稿の他のページをも利用して原稿インデックスの絞込みが行われ、入力原稿データに類似する原稿データの原稿インデックスが確定するまで絞込みが繰り返される。従って、複数のページを利用することにより、より確からしい類似度判定を行うことが可能となり、所望の原稿データを高精度で抽出することが可能となる。
(実施の形態3)
実施の形態1及び2においては、一ページに対応する入力原稿データに基づいていずれの原稿をも出力できる形態を示したが、実施の形態3においては、特定の原稿について出力の条件をより厳しくした形態を示す。本実施の形態に係る原稿抽出装置の内部構成は、図1〜図3を用いて説明した実施の形態1の場合と同様である。
図17は、実施の形態3に係る記憶部12が記憶する原稿データと原稿とを対応付ける原稿テーブルの内容例を示す概念図である。原稿を個別に示すDoc1,Doc2,…の原稿インデックスに関連付けて、ページインデックス及びページ数が記録されており、更に、原稿を出力するために必要となる出力条件が原稿インデックスに関連付けて記録されている。図17に示す例では、Doc1〜Doc4の原稿インデックスには出力条件が関連付けられておらず、Doc21及びDoc51の原稿インデックスに出力条件が関連付けられている。Doc21の原稿インデックスには、原稿インデックスに関連付けられたID21〜ID28のページインデックスの内、ID21及びID25に対応する原稿データが共に入力原稿データと類似となることが出力条件として関連付けられている。またDoc51の原稿インデックスには、原稿インデックスに関連付けられたID51〜ID55のページインデックスの内、三個以上のページインデックスに対応する原稿データが入力原稿データと類似となることが出力条件として関連付けられている。また、本実施の形態に係る記憶部11が記憶する原稿データと特徴データとを対応付ける特徴テーブルの内容は、図12を用いて説明した実施の形態1の場合と同様である。
また本実施の形態に係る原稿抽出装置が原稿データを登録する処理は、図13のフローチャートを用いて説明した実施の形態1の場合と同様である。また本実施の形態に係る原稿抽出装置が行う原稿データを抽出する処理は、図14のフローチャートを用いて説明した実施の形態1の場合、又は図15及び図16を用いて説明した実施の形態2の場合とほぼ同様であるが、ステップS44又はステップS517の原稿出力処理の内容が実施の形態1又は2と異なる。
図18は、実施の形態3に係る原稿抽出装置が行う原稿出力処理の手順を示すフローチャートである。本実施の形態に係る原稿抽出装置100は、原稿データを抽出する処理において、図13に示したステップS31〜S43、又は図14及び図15に示したステップS501〜S516の処理を実行する。ステップS44又はステップS517の原稿出力処理では、制御部11は、まず、原稿抽出部245がステップS43又はステップS516で抽出した原稿データの内、一の原稿データに関連付けられた原稿インデックスを選択する(S61)。制御部11は、次に、記憶部12に記憶している原稿テーブルを検索し、選択した原稿インデックスに出力条件が関連付けられているか否かを判定する(S62)。選択した原稿インデックスに出力条件が関連付けられている場合は(S62:YES)、制御部11は、原稿インデックスに関連付けられた出力条件が満たされているか否かを判定する(S63)。
例えば、図17に示すDoc21の原稿インデックスが選択されている場合は、ステップS37又はステップS507で、ID21及びID25に対応する原稿データが共に入力原稿データと類似する原稿データとして判定されているときに、出力条件が満たされていると判定される。ID21及びID25のいずれかに対応する原稿データが、入力原稿データと類似する原稿データとは判定されなかったときは、出力条件は満たされていないと判定される。またDoc21の原稿インデックスが選択されている場合は、ステップS37又はステップS507で、ID51〜ID55のページインデックスの内、三個以上のページインデックスに対応する原稿データが入力原稿データと類似する原稿データとして判定されているときに、出力条件が満たされていると判定される。三個未満のページインデックスに対応する原稿データしか、入力原稿データと類似する原稿データとして判定されていないときには、出力条件は満たされていないと判定される。
ステップS62で原稿インデックスに出力条件が関連付けられていない場合(S62:NO)、又はステップS63で原稿インデックスに関連付けられた出力条件が満たされている場合は(S63:YES)、カラー画像形成部14は、選択した原稿インデックスに関連付けられた各ページインデックスが示す原稿データに基づいた画像を形成することにより、選択した原稿インデックスに対応する原稿を出力する(S64)。例えば、図17に示すDoc1〜Doc4の原稿インデックスに対応する原稿は、出力条件が定められていないので、無条件に出力される。またDoc21及びDoc51の原稿インデックスに対応する原稿は、出力条件が見たされている場合に出力される。ステップS64が終了した後は、制御部11は、処理を次のステップS65へ進める。ステップS63で原稿インデックスに関連付けられた出力条件が満たされていない場合は(S63:NO)、選択した原稿インデックスに対応する原稿を出力することなく、制御部11は、処理を次のステップS65へ進める。このようにして、制御部11は、出力条件が満たされていない原稿データの出力を禁止する。
制御部11は、次に、ステップS43又はステップS516で抽出された全原稿データに対する処理が終了したか否かを判定する(S65)。処理がまだ終了していない原稿データがまだある場合は(S65:NO)、制御部11は、処理をステップS61へ戻し、ステップS43又はステップS516で抽出された原稿データに関連付けられた原稿インデックスの内でまだ選択していない原稿インデックスを選択する。ステップS43又はステップS516で抽出された全原稿データに対する処理が終了した場合は(S65:YES)、制御部11は、原稿出力処理を終了し、処理を原稿データを抽出する処理へ戻す。原稿出力処理が終了した後は、原稿抽出装置100は、原稿データを抽出する処理を終了する。
以上詳述した如く、本実施の形態に係る原稿抽出装置は、各原稿インデックスについて予め出力条件を定めておき、原稿出力処理を行う際には、出力条件が満たされる原稿インデックスに対応する原稿のみを出力する。実施の形態1及び2では、一ページに対応する入力原稿データに基づいて原稿を出力することができるので、秘密情報を含むような重要度の高い原稿であっても、原稿の一ページに基づいて全原稿ページを容易に出力することが可能となっていた。本実施の形態においては、原稿抽出装置は、出力条件が定められている原稿については、出力条件が満たされた場合に出力するので、重要度の高い原稿に出力条件を定めておくことにより、重要度の高い原稿が容易に出力されることを防止することができる。
例えば、出力条件として、複数のページで入力原稿データと原稿データとが類似であると判定されることが必要であるとしておくことにより、原稿の一ページに基づいて重要度の高い原稿の全ページが出力されることを防止することができる。また出力条件として、入力原稿データと特定の原稿データとが類似であると判定されることが必要であるとしておくことにより、原稿の特定のページを所有していない使用者は原稿を原稿抽出装置から抽出することができなくなる。特定の原稿データとしては、複数ページからなる原稿の主な内容とは関連性の無い照合用の内容を表す原稿データを登録しておけばよい。照合用の内容としては、原稿の主な内容が日本文である場合に照合用の内容を英文とする等、原稿の主な内容とは全く異なるフォーマットとしておくことがより望ましい。
以上のようにして、本実施の形態に係る原稿抽出装置は、照合用の特定の原稿データを所有している特定の使用者に対して、出力条件が定められている原稿を抽出することを可能とし、照合用の特定の原稿データを所有していないその他の使用者では重要度の高い原稿を出力できないようにする。従って、本実施の形態においては、秘密情報が含まれる重要度の高い原稿に対して出力条件を定めておくことにより、原稿に含まれる秘密情報を保護することが可能となる。
(実施の形態4)
実施の形態1〜3では、本発明の原稿抽出装置が画像形成装置である形態を示したが、実施の形態4においては、本発明の原稿抽出装置がスキャナ装置である形態を示す。図19は、実施の形態4に係る本発明の原稿抽出装置300の内部の機能構成を示すブロック図である。本発明の原稿抽出装置300は、原稿抽出装置300を構成する各部の動作を制御する制御部31、半導体メモリ又はハードディスク等で構成される記憶部32、及びカラー画像を光学的に読み取るカラー画像入力部33を備えている。カラー画像入力部33にはA/D変換部34が接続されており、A/D変換部34にはシェーディング補正部35が接続され、シェーディング補正部35には原稿抽出処理部36が接続されている。原稿抽出処理部36には、原稿データを外部へ送信する送信部37が接続されている。記憶部32、カラー画像入力部33、A/D変換部34、シェーディング補正部35、原稿抽出処理部36、及び送信部37は、制御部31に接続されており、更に制御部31には、使用者からの操作を受け付ける操作部38が接続されている。
記憶部32は、実施の形態1〜3で説明した原稿抽出装置100が備える記憶部12と同様に、夫々に複数のページで構成される原稿毎に、各ページに対応する原稿データを記憶し、更に、原稿データと原稿とを対応付ける原稿テーブル、及び原稿データと特徴データとを対応付ける特徴テーブルを記憶している。また送信部37には、外部のPC又は画像形成装置等が接続されている。
カラー画像入力部33は、CCDを備えたスキャナにて構成されており、原稿からの反射光像をRGBに分解してCCDで読み取り、RGBのアナログ信号に変換してA/D変換部34へ出力する。A/D変換部34は、RGBのアナログ信号をデジタルのRGB信号へ変換し、RGB信号をシェーディング補正部35へ出力する。
シェーディング補正部35は、A/D変換部34から入力されたRGB信号に対して、カラー画像入力部33の照明系、結像系及び撮像系で生じる各種の歪みを取り除く処理を行う。更にシェーディング補正部35は、RGB信号のカラーバランスを調整する処理を行い、RGBの反射率信号を濃度信号へ変換する処理を行う。シェーディング補正部35は、次に、処理後のRGB信号でなる画像データである原稿データを原稿抽出処理部36へ出力する。
原稿抽出処理部36は、実施の形態1〜3で説明した原稿抽出装置100が備える原稿抽出処理部24と同様に構成されており、原稿抽出処理部24と同様の処理を実行する。即ち、原稿抽出処理部36は、シェーディング補正部35から入力された原稿データを入力原稿データとして、図14、又は図15及び図16のフローチャートで示した処理と同様の処理を行って、記憶部32から、入力原稿データと類似度が高い原稿データに対応するページが含まれる原稿に係る複数の原稿データを抽出する。
制御部31は、原稿抽出処理部36が抽出した複数の原稿データを送信部37に外部へ送信させることにより、抽出した原稿データを出力する。送信部37は、外部のPC又は画像形成装置等の装置へ複数の原稿データを送信し、外部の装置は複数の原稿データに基づいて画像を形成する等の処理を実行する。
以上詳述した如く、本実施の形態においても、実施の形態1〜3と同様に、複数ページで構成される原稿の一部に対応する入力原稿データに基づき、原稿の全てのページに対応する原稿データを抽出することが可能となる。従って、本実施の形態においても、複数ページで構成されている原稿に紛失又は汚れ等によって欠落が生じた場合であっても、原稿データを予め記憶してあるデータベースの中から、原稿の全てのページに亘った原稿データを容易に抽出することが可能となる。
(実施の形態5)
実施の形態5では、汎用のコンピュータを用いて本発明の原稿抽出装置を実現した形態を示す。図20は、実施の形態5に係る本発明の原稿抽出装置400の内部構成を示すブロック図である。本実施の形態に係る本発明の原稿抽出装置400は、PC等の汎用コンピュータを用いて構成されており、演算を行うCPU41と、演算に伴って発生する一時的な情報を記憶するRAM42と、光ディスク等の本発明の記録媒体5から情報を読み取るCD−ROMドライブ等のドライブ部43と、ハードディスク等の記憶部44とを備えている。CPU41は、本発明の記録媒体5から本発明のコンピュータプログラム51をドライブ部43に読み取らせ、読み取ったコンピュータプログラム51を記憶部44に記憶させる。コンピュータプログラム51は必要に応じて記憶部44からRAM42へロードされ、ロードされたコンピュータプログラム51に基づいてCPU41は原稿抽出装置400に必要な処理を実行する。
また原稿抽出装置400は、使用者が操作することによる各種の処理指示等の情報が入力されるキーボード又はポインティングデバイス等の入力部45と、各種の情報を表示する液晶ディスプレイ等の表示部46とを備えている。更に原稿抽出装置400は、画像形成装置等の原稿を出力する外部の出力装置61に接続された送信部47と、スキャナ装置等の原稿データを入力する外部の入力装置62に接続された受信部48とを備えている。送信部47は、原稿データを出力装置61へ送信し、出力装置61は原稿データに基づいて原稿を出力する。入力装置62は、原稿を光学的に読み取って原稿データを生成し、生成した原稿データを原稿抽出装置400へ送信し、受信部48は、入力装置62から送信された原稿データを受信する。受信部48は、本発明における取得手段として機能する。
記憶部44は、実施の形態1〜3で説明した原稿抽出装置100が備える記憶部12と同様に、夫々に複数のページで構成される原稿毎に、各ページに対応する原稿データを記憶し、更に、原稿データと原稿とを対応付ける原稿テーブル、及び原稿データと特徴データとを対応付ける特徴テーブルを記憶している。
CPU41は、本発明のコンピュータプログラム51をRAM42にロードし、ロードしたコンピュータプログラム51に従って、本発明の原稿抽出方法に係る処理を実行する。即ち、受信部48で入力装置62から原稿データが入力された場合に、入力された原稿データを入力原稿データとして、CPU41は、図14、又は図15及び図16のフローチャートで示した処理と同様の処理を行って、記憶部44から、入力原稿データと類似度が高い原稿データに対応するページが含まれる原稿に係る複数の原稿データを抽出する。CPU41は、抽出した複数の原稿データを送信部47から出力装置61へ送信し、出力装置61は、原稿データに基づいて複数ページからなる原稿を出力する。なお、CPU41は、原稿データとして、アプリケーションプログラムを利用して作成したテキストデータ等のアプリケーションデータを扱う処理を行ってもよい。
以上詳述した如く、本実施の形態においても、実施の形態1〜4と同様に、複数ページで構成される原稿の一部に対応する入力原稿データに基づき、原稿の全てのページに対応する原稿データを抽出することが可能となる。従って、本実施の形態においても、複数ページで構成されている原稿に紛失又は汚れ等によって欠落が生じた場合であっても、原稿データを予め記憶してあるデータベースの中から、原稿の全てのページに亘った原稿データを容易に抽出することが可能となる。
なお、本実施の形態においては、原稿抽出装置400で内蔵する記憶部44に記憶する原稿データから必要な原稿データを抽出する処理を行う形態を示したが、これに限るものではなく、本発明の原稿抽出装置400は、通信ネットワークで接続されたストレージ装置又はサーバ装置等の図示しない外部の記憶手段に記憶された原稿データから必要な原稿データを抽出する処理を行う形態であってもよい。
なお、本発明のコンピュータプログラム51を記録してある本発明の記録媒体5は、磁気テープ、磁気ディスク、可搬型のハードディスク、CD−ROM/MO/MD/DVD等の光ディスク、又はICカード(メモリカードを含む)/光カード等のカード型記録媒体のいずれの形態であってもよい。また本発明の記録媒体5は、原稿抽出装置400に装着され、記録媒体5の記録内容をCPU41が読み出すことが可能な半導体メモリ、即ちマスクROM、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)、フラッシュROM等であってもよい。
また、本発明のコンピュータプログラム51は、インターネット又はLAN等の通信ネットワークを介して原稿抽出装置400に接続された図示しない外部のサーバ装置から原稿抽出装置400へダウンロードされて記憶部44に記憶される形態であってもよい。この形態の場合は、コンピュータプログラム51をダウンロードするために必要なプログラムは、予め記憶部44に記憶されてあるか、又は所定の記録媒体からドライブ部43を用いて読み出されて記憶部44に記憶され、必要に応じてRAM42にロードされるものであればよい。
実施の形態1に係る本発明の原稿抽出装置の内部の機能構成を示すブロック図である。 原稿抽出処理部の構成を示すブロック図である。 特徴点抽出部の構成を示すブロック図である。 フィルタ処理部が利用する空間フィルタの例を示す説明図である。 連結領域の特徴点の例を示す説明図である。 文字列に対する特徴点の抽出結果の例を示す説明図である。 注目特徴点と抽出した特徴点を示す説明図である。 注目特徴点P1に対して3点の周辺特徴点を抽出し、特徴データを算出する例を示す説明図である。 注目特徴点P2に対して3点の周辺特徴点を抽出し、特徴データを算出する例を示す説明図である。 記憶部が記憶する原稿データを示す概念図である。 記憶部が記憶する原稿データと原稿とを対応付ける原稿テーブルの内容例を示す概念図である。 記憶部が記憶する原稿データと特徴データとを対応付ける特徴テーブルの内容例を示す概念図である。 原稿データを登録する処理の手順を示すフローチャートである。 原稿データを抽出する処理の手順を示すフローチャートである。 実施の形態2に係る原稿抽出装置が行う原稿データを抽出する処理の手順を示すフローチャートである。 実施の形態2に係る原稿抽出装置が行う原稿データを抽出する処理の手順を示すフローチャートである。 実施の形態3に係る記憶部が記憶する原稿データと原稿とを対応付ける原稿テーブルの内容例を示す概念図である。 実施の形態3に係る原稿抽出装置が行う原稿出力処理の手順を示すフローチャートである。 実施の形態4に係る本発明の原稿抽出装置の内部の機能構成を示すブロック図である。 実施の形態5に係る本発明の原稿抽出装置の内部構成を示すブロック図である。
符号の説明
100、300、400 原稿抽出装置
11、31 制御部
12、32、44 記憶部(記憶手段)
13、33 カラー画像入力部
24、36 原稿抽出処理部
242 特徴データ算出部
243 投票処理部
244 類似度判定処理部
245 原稿抽出部
41 CPU
5 記録媒体
51 コンピュータプログラム

Claims (10)

  1. 記憶手段で記憶してある原稿データの中から特定の原稿データを抽出する方法において、
    複数のページで構成される原稿を示す原稿インデックスを、前記原稿に含まれる各ページに対応する原稿データに関連付けて記憶手段で記憶しておき、
    原稿データから抽出した特徴点に基づいて計算され、前記原稿データの特徴を示す特徴データを、前記原稿データに関連付けて記憶手段で記憶しておき、
    新たな原稿データである入力原稿データを取得し、
    取得した入力原稿データから特徴点を抽出し、
    抽出した特徴点に基づいて、入力原稿データの特徴を示す特徴データを生成し、
    生成した特徴データと記憶手段で記憶してある特徴データとを比較することによって、記憶手段が記憶している特徴データに関連付けられた原稿データと入力原稿データとの類似度を判定し、
    入力原稿データとの類似度が高い原稿データであると判定した原稿データに関連付けられた原稿インデックスを取得し、
    取得した原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データを抽出すること
    を特徴とする原稿抽出方法。
  2. 原稿データを記憶する原稿記憶手段を備え、該原稿記憶手段が記憶している原稿データの中から特定の原稿データを抽出する原稿抽出装置において、
    複数のページで構成される原稿を示す原稿インデックスを、前記原稿に含まれる各ページに対応する原稿データに関連付けて記憶する手段と、
    原稿データから抽出した特徴点に基づいて計算され、前記原稿データの特徴を示す特徴データを、前記原稿データに関連付けて記憶する特徴データ記憶手段と、
    新たな原稿データである入力原稿データを取得する取得手段と、
    該取得手段が取得した入力原稿データから特徴点を抽出する手段と、
    該手段が抽出した特徴点に基づいて、入力原稿データの特徴を示す特徴データを生成する生成手段と、
    該生成手段が生成した特徴データと前記特徴データ記憶手段が記憶している特徴データとを比較することによって、前記特徴データ記憶手段が記憶している特徴データに関連付けられた原稿データと入力原稿データとの類似度を判定する判定手段と、
    入力原稿データとの類似度が高い原稿データであると前記判定手段が判定した原稿データに関連付けられた原稿インデックスを取得する手段と、
    該手段が取得した原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データを抽出する抽出手段と
    を備えることを特徴とする原稿抽出装置。
  3. 前記特徴データ記憶手段は、
    一の原稿データに関連付けて、該原稿データの特徴を示す複数の特徴データを記憶するように構成してあり、
    前記生成手段は、
    入力原稿データの特徴を示す複数の特徴データを生成するように構成してあり、
    前記判定手段は、
    前記生成手段が生成した複数の特徴データの夫々について、当該特徴データと一致する特徴データに関連付けられた原稿データに対して投票を行う手段と、
    前記原稿記憶手段が記憶している原稿データの内、得票数が最大である原稿データ又は得票数が所定量以上である原稿データを、入力原稿データとの類似度が高い原稿データであると判定する手段と
    を有することを特徴とする請求項2に記載の原稿抽出装置。
  4. 前記取得手段は、
    複数の入力原稿データを取得する手段を有し、
    前記判定手段は、
    複数の入力原稿データの夫々について、前記原稿記憶手段が記憶している原稿データと入力原稿データとの類似度を判定する手段を有し、
    前記抽出手段は、
    複数の入力原稿データの夫々との類似度が高い原稿データに関連付けられた原稿インデックスが互いに一致する場合に、当該原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データを抽出する手段を有すること
    を特徴とする請求項2又は3に記載の原稿抽出装置。
  5. 入力原稿データとの類似度が高い原稿データに関連付けられた原稿インデックスが複数個取得された場合、又は、複数の入力原稿データの夫々との類似度が高い原稿データに関連付けられた原稿インデックスの内で前記複数の入力原稿データに共通した原稿インデックスが複数個取得された場合に、更なる入力原稿データを要求する手段を更に備えること
    を特徴とする請求項4に記載の原稿抽出装置。
  6. 前記取得手段は、
    原稿を光学的に読み取ることによって入力原稿データを取得するように構成してあること
    を特徴とする請求項2乃至5のいずれか一つに記載の原稿抽出装置。
  7. 原稿インデックスに関連付けて、当該原稿インデックスが示す原稿に含まれる各ページに対応する原稿データを出力するために必要な所定の出力条件を記憶する手段と、
    前記抽出手段が抽出した原稿データに関連付けられた原稿インデックスに関連付けられた出力条件が満たされているか否かを判定する手段と、
    前記出力条件が満たされていると判定された場合に、原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データを出力する手段と、
    前記出力条件が満たされていないと判定された場合に、原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データの出力を禁止する手段と
    を更に備えることを特徴とする請求項2乃至6のいずれか一つに記載の原稿抽出装置。
  8. 前記抽出手段が抽出した複数の原稿データに基づいた複数の画像を形成する手段を更に備えること
    を特徴とする請求項2乃至6のいずれか一つに記載の原稿抽出装置。
  9. コンピュータに、コンピュータ内部又は外部で記憶された原稿データの中から特定の原稿データを抽出させるコンピュータプログラムにおいて、
    コンピュータに、入力された入力原稿データから特徴点を抽出させる手順と、
    コンピュータに、抽出した特徴点に基づいて、入力原稿データの特徴を示す特徴データを生成させる手順と、
    コンピュータに、生成した特徴データと記憶された原稿データの特徴を示す特徴データとを比較することによって、記憶された原稿データと入力原稿データとの類似度を判定させる手順と、
    コンピュータに、入力原稿データとの類似度が高い原稿データであると判定した原稿データに関連付けられた原稿インデックスを取得させる手順と、
    コンピュータに、取得した原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データを抽出させる手順と
    を含むことを特徴とするコンピュータプログラム。
  10. コンピュータに、コンピュータ内部又は外部で記憶された原稿データの中から特定の原稿データを抽出させるコンピュータプログラムを記録してあるコンピュータでの読み取りが可能な記録媒体において、
    コンピュータに、入力された入力原稿データから特徴点を抽出させる手順と、
    コンピュータに、抽出した特徴点に基づいて、入力原稿データの特徴を示す特徴データを生成させる手順と、
    コンピュータに、生成した特徴データと記憶された原稿データの特徴を示す特徴データとを比較することによって、記憶された原稿データと入力原稿データとの類似度を判定させる手順と、
    コンピュータに、入力原稿データとの類似度が高い原稿データであると判定した原稿データに関連付けられた原稿インデックスを取得させる手順と、
    コンピュータに、取得した原稿インデックスが示す原稿に含まれる複数のページに対応する複数の原稿データを抽出させる手順と
    を含むコンピュータプログラムを記録してあることを特徴とするコンピュータでの読み取りが可能な記録媒体。
JP2008162324A 2007-07-24 2008-06-20 原稿抽出方法、原稿抽出装置、コンピュータプログラム及び記録媒体 Active JP4340714B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2008162324A JP4340714B2 (ja) 2007-07-24 2008-06-20 原稿抽出方法、原稿抽出装置、コンピュータプログラム及び記録媒体
US12/178,482 US8351706B2 (en) 2007-07-24 2008-07-23 Document extracting method and document extracting apparatus
CN2008101316932A CN101354717B (zh) 2007-07-24 2008-07-23 原稿提取方法和原稿提取装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2007192192 2007-07-24
JP2008162324A JP4340714B2 (ja) 2007-07-24 2008-06-20 原稿抽出方法、原稿抽出装置、コンピュータプログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2009048618A true JP2009048618A (ja) 2009-03-05
JP4340714B2 JP4340714B2 (ja) 2009-10-07

Family

ID=40307526

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008162324A Active JP4340714B2 (ja) 2007-07-24 2008-06-20 原稿抽出方法、原稿抽出装置、コンピュータプログラム及び記録媒体

Country Status (2)

Country Link
JP (1) JP4340714B2 (ja)
CN (1) CN101354717B (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440622A (zh) * 2013-07-31 2013-12-11 北京中科金财科技股份有限公司 一种影像数据优化方法及装置
CN109284787B (zh) * 2018-08-02 2022-02-25 广东南天司法鉴定所 一种自动采集手写体墨迹色阶的方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3182362B2 (ja) * 1997-02-07 2001-07-03 松下電器産業株式会社 簡易ファイリング装置
JP4165435B2 (ja) * 2004-04-13 2008-10-15 富士ゼロックス株式会社 画像形成装置およびプログラム

Also Published As

Publication number Publication date
CN101354717A (zh) 2009-01-28
CN101354717B (zh) 2010-09-29
JP4340714B2 (ja) 2009-10-07

Similar Documents

Publication Publication Date Title
US8351706B2 (en) Document extracting method and document extracting apparatus
JP4565015B2 (ja) 画像処理装置、画像形成装置、画像処理システム、画像処理プログラムおよびその記録媒体
JP4362528B2 (ja) 画像照合装置、画像照合方法、画像データ出力処理装置、プログラム、及び記録媒体
JP4310356B2 (ja) 画像処理方法、画像処理装置、画像読取装置、画像形成装置、コンピュータプログラム及び記録媒体
JP4604100B2 (ja) 画像処理方法、画像処理装置、画像形成装置、プログラムおよび記憶媒体
JP4469885B2 (ja) 画像照合装置、画像照合方法、画像データ出力処理装置、プログラム、及び記録媒体
JP4436858B2 (ja) 画像処理装置、画像形成装置、画像送信装置、画像読取装置、画像処理システム、画像処理方法、画像処理プログラムおよびその記録媒体
JP4399486B2 (ja) 画像処理装置、外部記憶装置、画像形成装置、画像送信装置、画像読取装置、画像処理システム、画像処理方法、プログラムおよびその記録媒体
JP4362538B2 (ja) 画像処理装置、画像形成装置、画像送信装置、画像読取装置、画像処理システム、画像処理方法、画像処理プログラムおよびその記録媒体
US8103108B2 (en) Image processing apparatus, image forming apparatus, image processing system, and image processing method
US20090028436A1 (en) Image processing apparatus, image forming apparatus and image reading apparatus including the same, and image processing method
JP4970301B2 (ja) 画像処理方法、画像処理装置、画像読取装置、画像形成装置、画像処理システム、プログラムおよび記録媒体
JP4378413B2 (ja) 画像処理装置、画像形成装置、画像読取装置、画像処理システム、画像処理方法、画像処理プログラムおよびその記録媒体
JP4457140B2 (ja) 画像処理方法、画像処理装置、画像形成装置、画像読取装置、コンピュータプログラム及び記録媒体
JP4486995B2 (ja) 画像処理システム
JP4336729B2 (ja) 画像処理装置、画像形成装置、画像送信装置、画像読取装置、画像処理システム、画像処理プログラムおよびその記録媒体
JP2009015819A (ja) 画像処理装置、画像形成装置、画像送信装置、画像読取装置、画像処理システム、画像処理方法、画像処理プログラムおよびその記録媒体
JP4487000B2 (ja) 画像処理装置、画像形成装置、画像処理方法、画像処理システム、画像処理プログラムおよびその記録媒体
JP4340714B2 (ja) 原稿抽出方法、原稿抽出装置、コンピュータプログラム及び記録媒体
JP4393556B2 (ja) 画像処理方法、画像処理装置、画像読取装置、画像形成装置、コンピュータプログラム及びコンピュータでの読み取りが可能な記録媒体
JP4487003B2 (ja) 画像データ出力処理装置、画像データ出力処理方法、プログラム及び記録媒体
JP2008154216A (ja) 画像処理方法、画像処理装置、画像形成装置、原稿読取装置、コンピュータプログラム及び記録媒体
JP2008245147A (ja) 画像処理装置、画像読取装置、画像形成装置、画像処理方法、コンピュータプログラム、及び記録媒体
JP4378408B2 (ja) 画像処理装置、画像読取装置、及び画像形成装置
JP2008123456A (ja) 画像処理方法、画像処理装置、画像形成装置、コンピュータプログラム及び記録媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090317

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090513

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090609

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090706

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4340714

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120710

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120710

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130710

Year of fee payment: 4