JP2016200967A

JP2016200967A - 画像処理装置、画像処理方法、及びプログラム

Info

Publication number: JP2016200967A
Application number: JP2015080441A
Authority: JP
Inventors: 航也島村; Koya Shimamura
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2015-04-09
Filing date: 2015-04-09
Publication date: 2016-12-01
Also published as: US9692936B2; US20160301827A1

Abstract

【課題】デジタル化された原稿内に記載されているオブジェクトの切り出しを行うことが可能な画像処理装置、画像処理方法を提供する。【解決手段】複数の原稿を読み取る読取手段と、読取手段により読み取った原稿のうち第１の原稿に対応する第１の画像を画面に表示させる表示制御手段と、第１の画像における領域を指定するための領域の起点となる位置を受信する受信手段と、受信手段により受信した前記領域の起点となる位置に従い、読取手段により読取られた第２の原稿に対応する第２の画像の領域を特定する特定手段と、を有する。表示制御手段は、第１の画像とともに特定手段により特定された第２の画像の領域を表示させる。【選択図】図５

Description

本発明は、デジタル化された原稿内に記載されているオブジェクトの切り出しを行うことが可能な画像処理装置、画像処理方法、に関するものである。

原稿から所望の領域を抽出し、電子化するには主に２通りの方法が挙げられる。
第１の方法は、スキャナで原稿を読み取ることで得られた入力画像に対してオペレータが所望する抽出すべき領域をその都度指定する。
例えば、スキャナで原稿を読み取り、その結果得られた入力画像をディスプレイ上に表示する。そして、表示された入力画像のうちオペレータが所望の領域を、マウス等を用いて指定する方法である。
第２の方法は、あらかじめ矩形の位置情報を定めたテンプレートを作成しておき、このテンプレートに定められた矩形領域をそのまま入力画像に当てはめて抽出するものである。この場合、入力画像中から、テンプレートで定められた位置及び大きさの矩形領域が抽出されることになり、オペレータが一つ一つ抽出領域を指定するという手間を省ける。

特開平１１−２０３４９１号公報

前述したオペレータが入力画像における所望の領域を指定する第１の方法や、矩形の位置情報を定めたテンプレートをオペレータが作成する第２の方法では、オペレータが抽出したい領域を決める事ができる。つまり、入力画像における指定ブロック内の一部領域のみをピンポイントで領域選択することも可能である。

しかしながら、第１の方法では、オペレータが所望の領域をその都度、指定しなければならず、大量の原稿を読み取って得られた入力画像に対してそれぞれ領域指定するのは手間がかかる。

また、テンプレートを用いる第２の方法においても、入力画像の抽出すべき所望の領域とテンプレートで設定されている領域との間に、位置や大きさのずれがある場合には、所望領域が欠けて抽出されてしまうという問題がある。

例えば、抽出すべき所望の領域に書かれた文字の長さが原稿によって異なり、かつ、テンプレート作成時に用いた文字が短く抽出すべき所望の領域を狭く指定してしまった場合に、入力画像における所望領域が欠けて抽出されてしまう事が考えられる。

特許文献１では、入力画像の抽出すべき所望の領域とテンプレートで設定されている領域との間に、位置や大きさのずれがある場合には、所望領域が欠けて抽出されてしまうという問題に対し、以下の方法で解決する方法が示されている。ます、入力画像上の領域について、位置、大きさ、属性をテンプレート情報として保持する。次に、スキャナにより原稿を読み取り、読み取られた入力画像からブロック領域を抽出し、抽出されたブロック領域の属性を判定する。そして、抽出されたブロック領域の内、テンプレート情報によって示される領域と少なくとも一部が重なり、その属性がテンプレート情報に設定されている属性と一致するブロック領域を抽出する。以上の処理を行うことで、テンプレートで指定した領域に対し、狭く指定してしまった場合においても、所望領域が欠けて抽出されることはなくなる。

しかし、特許文献１の場合、ブロック領域の抽出処理に依存しているため指定ブロック認識結果に左右され、領域が決まる。例えば、文字ブロックが横に３つ並ぶ場合、３つの文字ブロックの内、中間に位置する文字ブロックのみピンポイントで選択したい場合、ブロック領域の抽出処理ため、３つの文字ブロック全てが選択されてしまう可能性がある。よって、オペレータが所望する指定ブロック内の一部領域のみをピンポイントで選択することが難しい。

上記課題を解決するために、本発明は、複数の原稿を読み取る読取手段と、前記読取手段により読み取った原稿のうち第１の原稿に対応する第１の画像を画面に表示させる表示制御手段と、前記第１の画像における領域を指定するための領域の起点となる位置を受信する受信手段と、前記受信手段により受信した前記領域の起点となる位置に従い、前記読取手段により読取られた第２の原稿に対応する第２の画像の領域を特定する特定手段と、を有し、前記表示制御手段は、前記第１の画像とともに前記特定手段により特定された前記第２の画像の領域を表示させることを特徴とする。

本発明によれば、複数枚ある原稿に対してそれぞれ所望の領域指定する手間を省くことが可能である。また、所望の領域に大きさ異なるオブジェクトが含まれる場合であっても、各オブジェクトの大きさを考慮して領域を決定することが可能となる。

システムの全体構成である。画像形成装置１００のハードウェア構成を説明するための図である。ウェブサーバー１０３のハードウェア構成を説明するための図である。ＰＣなどの端末１０１のハードウェア構成を説明するための図である。実施例１の全体のフローチャートである。原稿のサンプル例を示す。原稿のサンプル例を示す。原稿のサンプル例の詳細である。実施例１にて実行される処理のシーケンス図である。領域決定について示す図である。実施例１にて実行されるプログラムのサンプルである。実施例２において発生が考えられる画像の位置ずれサンプルである。実施例２にて実行される処理のフローチャートである。実施例３にて実行される処理のフローチャートである。実施例４にて実行される処理のフローチャートである。

以下、図面を用いて本発明に係る実施形態を詳細に説明する。ただし、この実施形態に記載されている構成要素はあくまで例示であり、この発明の範囲をそれらに限定する趣旨のものではない。

＜システム構成＞
図１は本実施例を適用可能なシステムの全体構成を示す図である。

図１に示すように、画像形成装置１００、ＰＣなどの端末１０１、ウェブサーバー１０３はイーサネット（登録商標）や無線ＬＡＮなどからなるＬＡＮ１０５に接続され、Ｉｎｔｅｒｎｅｔ１０２に接続されている。また、モバイル端末１０６は公衆無線通信網１０４などからＩｎｔｅｒｎｅｔ１０２に接続されている。画像形成装置１００、ＰＣなどの端末１０１、ウェブサーバー１０３及び、モバイル端末１０６はＬＡＮ１０５又は、公衆無線通信網１０４からＩｎｔｅｒｎｅｔ１０２に接続され、相互に通信可能となっている。なお、ＰＣなどの端末１０１とモバイル端末１０６に関しては、どちらか一方がある構成でも良い。

画像形成装置１００は操作部、スキャナ部及び、プリンタ部を有する複合機である。本実施例のシステムでは複数部の紙文書のスキャン端末として利用する。

ウェブサーバー１０３は、ウェブサーバー端末として利用し、それに必要なＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）ファイルなどウェブ上の文書を記述するためのテキストファイル等が保存されている。また、画像形成装置１００から送られてくる画像を、保持をするファイルサーバーや、画像処理を行う画像処理サーバーとしても利用可能である。本実施例のシステムでは、ウェブサーバー１０３を、ウェブサーバー、ファイルサーバー、画像処理サーバーとして利用する。

ＰＣなどの端末１０１は、ウェブサーバー１０３に保持されたＨＴＭＬ言語などのウェブ言語をウェブブラウザなど通して、ウェブページの表示・閲覧を行う。また、入力部や指示部を有し、ウェブページから操作を行う。本実施例のシステムでは、表示端末、操作端末として利用する。また、モバイル端末１０６は、操作部、無線通信部、ウェブブラウザを動作させるアプリ部を有するスマートフォンやタブレット端末である。本実施例のシステムでは、ＰＣなどの端末１０１と同様に表示端末、操作端末として利用することができる。なお、ＰＣなどの端末１０１とモバイル端末１０６は、ウェブブラウザを操作する機能として、重複した機能を有しており、どちらを使用することも可能であるが、片方どちらか一方の構成でもかまわない。

以上の構成要素はあくまで例示であり、すべての構成が必要というものではない。例えば、画像形成装置１００内において、原稿の読み込むスキャン機能から、画像の保存、ウェブサーバー機能、ブラウザアプリケーションによる表示・操作が可能であれば、画像形成装置１００のみの構成で実現することも可能である。また、画像形成装置１００内において、原稿の読み込みから、画像の保存、ウェブサーバー機能、画像処理サーバー機能を有し、ＰＣなどの端末１０１においてブラウザアプリケーションによる表示・操作することも可能である。また、ウェブサーバー機能、ブラウザアプリケーションによる表示・操作に関しても、ウェブベースのウェブアプリケーションに限定するものではなく、ローカルのデスクトップ環境上で動作するスタンドアロンアプリケーションであっても良い。

＜画像形成装置１００のハードウェア構成＞
図２は、画像形成装置１００の構成を示すブロック図である。制御部２００上に、ＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０３、ＨＤＤ２０４、ネットワークＩ／Ｆ部２１１、スキャナＩ／Ｆ部２０９、プリンタＩ／Ｆ部２０７、操作部Ｉ／Ｆ部２０５がシステムバスを介して互いに通信可能に接続されている。制御部２００は、画像形成装置１００全体の動作を制御する。
ＣＰＵ２０１は、ＲＯＭ２０２に記憶された制御プログラムを読み出して読取制御や送信制御などの各種制御を行う。
ＲＡＭ２０３は、ＣＰＵ２０１の主メモリ、ワークエリア等の一時記憶領域として用いられる。
ＨＤＤ２０４は、画像データや各種プログラム、或いは各種情報テーブルを記憶する。
操作部Ｉ／Ｆ部２０５は、操作部２０６と制御部２００とを接続する。操作部２０６には、タッチパネル機能を有する液晶表示部やキーボードなどが備えられている。
プリンタＩ／Ｆ部２０７は、プリンタ部２０８と制御部２００とを接続する。プリンタ部２０８で印刷すべき画像データはプリンタＩ／Ｆ部２０７を介して制御部２００から転送され、プリンタ部２０８において記録媒体上に印刷される。
スキャナＩ／Ｆ部２０９は、スキャナ部２１０と制御部２００とを接続する。スキャナ部２１０は、原稿上の画像を読み取って画像データを生成し、スキャナＩ／Ｆ部２０９を介して制御部２００に入力する。
ネットワークＩ／Ｆ部２１１は、制御部２００（画像形成装置１００）をＬＡＮ１０５に接続する。ネットワークＩ／Ｆ部２１１は、ＬＡＮ１０５上の外部装置（本実施例の場合、ウェブサーバー１０３）に画像データを送信したり、ＬＡＮ１０５上の外部装置から各種情報を受信したりする。

＜ウェブサーバー１０３のハードウェア構成＞
図３は、ウェブサーバー１０３の構成を示すブロック図である。制御部３００上に、ＣＰＵ３０１、ＲＯＭ３０２、ＲＡＭ３０３、ＨＤＤ３０４、ネットワークＩ／Ｆ部３０５がシステムバスを介して互いに通信可能に接続されている。制御部３００は、ウェブサーバー１０３全体の動作を制御する。ＣＰＵ３０１は、ＲＯＭ３０２に記憶された制御プログラムを読み出して各種制御処理を実行する。ＲＡＭ３０３は、ＣＰＵ３０１の主メモリ、ワークエリア等の一時記憶領域として用いられる。ＨＤＤ３０４は、画像形成装置１００でスキャンされた画像データを受信し、保存する。また、画像データに加え、ＨＴＭＬファイルなどウェブ上の文書を記述するためのテキストファイル等も記憶する。より詳細には、例えば、ＨＴＭＬ言語やそのページスタイルを決めるスタイルシート言語（例えば、ＣＳＳ言語）で記載されたテキストファイルを記憶する。また、動的なウェブページ、ウェブアプリケーション用のプログラミング言語であるＪａｖａＳｃｒｉｐｔ（登録商標）言語やＰＨＰ言語で記載されたテキストファイルを記憶する。

ネットワークＩ／Ｆ部３０５は、制御部３００（ウェブサーバー１０３）をＬＡＮ１０５に接続する。ネットワークＩ／Ｆ部３０５は、ＬＡＮ１０５上の他の装置との間で各種情報を送受信する。

＜ＰＣなどの端末１０１及び、モバイル端末１０６のハードウェア構成＞
図４は、ＰＣなどの端末１０１及び、モバイル端末１０６の構成を示すブロック図である。なお、ＰＣなどの端末１０１及び、モバイル端末１０６は、本実施例においては同機能を実現するものであるため、まとめて記載する。

図４において、制御部４００上に、ＣＰＵ４０１、ＲＯＭ４０２、ＲＡＭ４０３、ＨＤＤ４０４、ネットワークＩ／Ｆ部４０５、操作部Ｉ／Ｆ部４０６、表示部Ｉ／Ｆ部４０８がシステムバスを介して互いに通信可能に接続されている。ＣＰＵ４０１を含む制御部４００は、ＰＣなどの端末１０１及び、モバイル端末１０６全体の動作を制御する。ＣＰＵ４０１は、ＲＯＭ４０２に記憶された制御プログラムを読み出して各種制御処理を実行する。ＲＡＭ４０３は、ＣＰＵ４０１の主メモリ、ワークエリア等の一時記憶領域として用いられる。ＨＤＤ４０４は、ブラウザアプリケーション（ウェブアプリケーションなどのネットワークを介して使用するアプリケーションソフトウェア）がインストールされている。

ネットワークＩ／Ｆ部４０５は、制御部４００（ＰＣなどの端末１０１又は、モバイル端末１０６）をＬＡＮ１０５に接続する。ネットワークＩ／Ｆ部４０５は、ＬＡＮ１０５上の他の装置との間で各種情報を送受信する。また、モバイル端末１０６の場合には、ＬＡＮ１０５はなく、Ｗｉ−Ｆｉ等の無線ＬＡＮによりＩｎｔｅｒｎｅｔ１０２に接続することも可能である。

操作部Ｉ／Ｆ部４０６は、操作部４０７と制御部４００とを接続する。操作部４０７では、オペレータから操作を受け、操作部Ｉ／Ｆ部４０６を介して制御部４００に入力する。

表示部Ｉ／Ｆ部４０８は、ディスプレイ４０９と制御部４００とを接続する。ディスプレイ４０９では、オペレータに対し操作のための表示を行う。

＜シーケンス＞
共通の定型フォーマットを有する複数の原稿の同一箇所にそれぞれ書かれた文字の領域をＯＣＲ領域に指定する場合を例として処理のフローを説明する。
この文字は各原稿において同一でなくてよいため、それぞれの原稿の文字領域の大きさ（長さ）は異なる。すなわち文字領域は可変長である。

このフローで実行される処理は、同一箇所に書かれた文字の領域を領域指定する場合に、オペレータに対し指定するべき領域を決めるのに必要となる補助情報を表示し、最適な領域を決めるための処理である。

まず、図５を用いて定型フォーマットを有する複数の原稿それぞれにおける同一箇所の領域を指定するための全体フローを説明する。より詳細な説明を以下で行うため、ここでは全体の流れを説明する。

Ｓ８００に示す原稿の読み取り処理では、画像形成装置１００で複数部の定型フォーマット原稿を読み取る。なお、ここで言う定型フォーマット原稿に関しては後述でサンプルを示し説明を行う。

Ｓ８０１に示す１枚目の原稿画像描画処理では、Ｓ８００で読み取られた定型フォーマットを有する複数の原稿の内、１枚目に読み取られた原稿の画像データを用いて原稿画像を作成し、この原稿画像を画面等に表示を行う。この原稿画像を元に、切り出しを行うための領域の指定を行う。

Ｓ８０２に示す領域指定の起点決定処理では、画面に表示される１枚目に読み込まれた原稿の画像データを元に、原稿画像に対して切り出し処理を行う領域の起点位置の決定を行う。切り出し処理を行う領域が矩形の場合、この起点位置は切り出される矩形の左上の画素とする。

Ｓ８０３で示す２枚目以降の原稿画像のトリミング処理では、Ｓ８０１で描画を行わなかった２枚目以降の原稿の原稿画像に対し、Ｓ８０２で決定した起点位置を元にトリミングを行う。

以下に記載するＳ８０４、Ｓ８０５で実行される処理は本実施例の特徴となる処理である。

Ｓ８０４で示すトリミング画像の描画処理では、Ｓ８０３でトリミングを行った２枚目以降の原稿の原稿画像の描画を行う。

Ｓ８０５で示す領域指定の終点決定処理では、画面に表示される１枚目に読み取られた原稿に対応する原稿画像と２枚目以降に読み取られた原稿の原稿画像をトリミングした原稿画像とを画面に表示する。この表示された原稿画像のトリミング結果を元に、切り出し処理を行う領域の終点位置の決定を行う。

このフローにより、定型フォーマットを有する複数の原稿において、各原稿に対して特定の領域を切り出す場合、ユーザが画面を介して適切な領域を指定するための参考情報を表示することができる。具体的には、ある原稿に対して指定された位置に対応する位置にある他の原稿における領域を参考情報として並べて画面に表示するよう制御する。これにより、オペレータは他の原稿における領域の大きさを考慮しながら領域指定をすることが可能となる。

次に、図６〜図８を用いて定型フォーマットを有する複数の原稿の同一箇所に書かれた文字の領域をＯＣＲ領域に指定する場面について説明する。

図６は、定型フォーマットの原稿を示している。例えば、申請書や申込書、領収書、登録証明書などのような定型のフォーマットを有していればよい。

図６の定型フォーマットに対し、図７（ａ）、（ｂ）、（ｃ）の太字で記載された領域（灰色ハッチング・破線枠で示す領域）に文字を記載されている。例として、図７（ａ）、（ｂ）、（ｃ）内で、それぞれ領域５００、領域５０１、領域５０２で示した文字が書かれた領域の座標を指定する。領域５００、領域５０１、領域５０２で示した文字を抽出する場合、図８に示すような値を取得する。領域５００を抽出する場合、図８（ａ）に示す５００の左上座標｛Ｔｏｐ５００＿ｘ，Ｔｏｐ５００＿ｙ｝、右下座標｛Ｂｏｔｔｏｍ５００＿ｘ，Ｂｏｔｔｏｍ５００＿ｙ｝を取得する。また、左上座標｛Ｔｏｐ５００＿ｘ，Ｔｏｐ５００＿ｙ｝と、左上座標を起点とする幅｛Ｗｉｄｔｈ５００｝、高さ｛Ｈｅｉｇｈｔ５００｝を取得するとしても良い。なお、例で示す座標値は画像データの左上を起点とした値とする。領域５００と同様に、図８（ｂ）、（ｃ）でもそれぞれ座標値を取得する。つまり、座標値｛Ｔｏｐ５０１＿ｘ，Ｔｏｐ５０１＿ｙ｝｛Ｂｏｔｔｏｍ５０１＿ｘ，Ｂｏｔｔｏｍ５０１＿ｙ｝、｛Ｔｏｐ５０２＿ｘ，Ｔｏｐ５０２＿ｙ｝｛Ｂｏｔｔｏｍ５０２＿ｘ，Ｂｏｔｔｏｍ５０２＿ｙ｝を取得する。領域５００、領域５０１、領域５０２それぞれに対しオペレータが、座標指定を行うとなると指定回数が非常に多くなる。

一方で、定型フォーマット内の同一箇所（同一座標値）に書かれた文字である事から、領域５００のみで座標値を決め、領域５０１、領域５０２にも座標値を反映させると、文字の長さは原稿によって異なる（可変長）である。よって、｛Ｗｉｄｔｈ５００｝より｛Ｗｉｄｔｈ５０１｝や｛Ｗｉｄｔｈ５０２｝の方が大きい値をとる場合がある。よって、領域５０１や領域５０２において領域から出てしまう可能性がある。

そこで、定型フォーマット内の同一箇所（同一座標値）に書かれた文字である事から、代表する原稿１枚の１か所（本例では図７（ａ）の図８（ａ））で座標値を決める際に、他の原稿の対応箇所も参考情報として表示させる例を図９のシーケンス図を用いて紹介する。

図９には、画像形成装置１００、ウェブサーバー１０３、ＰＣなどの端末１０１が記載され、オペレータの指示によって処理が実行される。

まず、Ｓ６００からＳ６１３は、オペレータが行う、画像形成装置１００とウェブサーバー１０３によるスキャン処理のステップである。Ｓ６００において、オペレータは画像形成装置１００に対し、スキャンの開始を実行する。その際、スキャンする原稿は、上記図７（ａ）とする。これを原稿１とする。Ｓ６０１において、画像形成装置１００は、スキャンを実行する。ここでスキャンを行ったデータを画像データ１とし、これは図７（ａ）をスキャンした画像データを示している。Ｓ６０２において、画像形成装置１００はウェブサーバー１０３にスキャンした画像データ１を送信する。Ｓ６０３において、ウェブサーバー１０３は画像形成装置１００から送られた画像データ１を保存する。Ｓ６０４からＳ６０８、及び、Ｓ６０９からＳ６１３は、上記のＳ６００からＳ６０３と同様のフローを実行する。その際、スキャンする原稿はそれぞれ図７（ｂ）（原稿２）、図７（ｃ）（原稿３）を用い、画像データ２、画像データ３としてウェブサーバー１０３に保存する。以上が、オペレータが行う、画像形成装置１００とウェブサーバー１０３によるスキャン処理のシーケンスとなる。

次に、オペレータが行う、ＰＣなどの端末１０１とウェブサーバー１０３によるＯＣＲ領域の指定処理のシーケンスを説明する。

Ｓ７００からＳ７１４は、ＰＣなどの端末１０１に対し、原稿画像の表示を行うための画像取得を行うステップである。Ｓ７００において、オペレータはＰＣなどの端末１０１に対し、ブラウザアプリケーション起動しウェブサーバーへアクセスするよう指示を行う。Ｓ７０１において、ＰＣなどの端末１０１はウェブサーバー１０３に対しＨＴＭＬなどのファイルの取得を行う。Ｓ７０２において、ウェブサーバー１０３はＰＣなどの端末１０１に対しＨＴＭＬなどのファイルを送信する。Ｓ７０３において、ＰＣなどの端末１０１はウェブサーバー１０３から送られたＨＴＭＬ等のファイルを、ブラウザアプリケーションを用いて構文解析を行う。Ｓ７０４において、ブラウザアプリケーションによる構文解析結果に従って文字などを配置すると共に、ＨＴＭＬ内に書かれている参照（ハイパーリンク）を元にウェブサーバー１０３に対し画像データの取得を実行する。Ｓ７０５において、Ｓ７０４の命令に従い、ＰＣなどの端末１０１は画像データ１の画像取得依頼を実行する。Ｓ７０６において、ウェブサーバー１０３はＰＣなどの端末１０１に対し画像データ１を送信する。Ｓ７０７において、ＰＣなどの端末１０１は画像データ１を一時的に保持する。Ｓ７０８において、保持した画像１をＳ７０４での構文解析結果に応じて画面上に配置を行う。Ｓ７０９からＳ７１２、及び、Ｓ７１２からＳ７１４は、それぞれ画像２、画像３に対し上述Ｓ７０５からＳ７０７と同様の処理を行う。ただし、Ｓ７０８で画像データ１は画像描画（原稿画像１の描画）を行うが、この時点では画像データ２及び画像データ３に対しては、保持するのみで画像描画は行っていない。

Ｓ７１５からＳ７２４は、ＰＣなどの端末１０１でオペレータが領域指定を行うステップである。Ｓ７１５において、オペレータはＰＣなどの端末１０１に対して、画面上に表示されている原稿画像１内の範囲起点をマウスなどの外部端末からクリックし座標を指定する。Ｓ７１６において、ウェブサーバー１０３はオペレータが指定した範囲起点の画面上の座標を取得する。Ｓ７１７において、ウェブサーバー１０３は取得した画面上の座標を、スキャンした紙面上での座標値に変換する変換処理を実行する。Ｓ７１８において、ウェブサーバー１０３はＳ７１７で変換した座標値を元に画像データ２のトリミングを行う。ただし、以後説明を行うが、実際に画像処理でトリミング処理を行っても良いし、ＨＴＭＬ言語やＪａｖａＳｃｒｉｐｔ（登録商標）言語上で描画の際に指定領域外をマスクする処理であっても良い。Ｓ７１９において、Ｓ７１８でトリミングした画像データ２をＰＣなどの端末１０１の画面上に張り付ける位置を算出する。張り付ける座標は、例えば、Ｓ７１５で指定した画像データ１の起点座標（図８（ｄ）の｛Ｔｏｐ５００＿ｘ，Ｔｏｐ５００＿ｙ｝）に対し、ｙ軸方向にずらした位置に配置する。

より具体的には、｛Ｔｏｐ５００＿ｘ，Ｔｏｐ５００＿ｙ＋｛Ｈｅｉｇｈｔ５００｝＋α｝の位置に配置する。

Ｓ７１９において、Ｓ７１８でトリミングした画像データ２を、Ｓ７１９で算出した位置を元に画面上に描画する。

Ｓ７２１からＳ７２３においては、Ｓ７１８からＳ７２０のステップを画像データ３に対して行う。以上までのステップにて、画面に描画されているものは以下の画像である。

すなわち、Ｓ７０８において画像データ１を用いて描画された原稿画像１全面、Ｓ７２０において画像データ２を用いて描画された原稿画像２トリミング画像、Ｓ７２３において画像データ３を用いて描画された原稿画像３のトリミング画像である。

Ｓ７２５からＳ７２９は、オペレータが領域指定した領域において処理を実行するステップである。Ｓ７２５において、オペレータがＰＣなどの端末１０１にて決定した、領域指定（終点決定処理）の座標情報をウェブサーバー１０３に送信する。Ｓ７２６において、ＰＣなどの端末１０１から送られた領域指定座標情報を元に、ウェブサーバー１０３に保存されている画像データ１〜３のトリミング処理を行う。Ｓ７２７において、Ｓ７２６でトリミングされた画像に対応して、原稿画像１〜３それぞれＯＣＲ処理を実行する。Ｓ７２８において、Ｓ７２７で行ったＯＣＲ処理結果をＰＣなどの端末１０１に送信する。Ｓ７２９において、送信されたＯＣＲ結果を画面上に描画する。以上が、本実施例のシーケンスである。

＜領域指定時の画面表示のより詳細な説明＞
図１０及び、図１１を用いて領域指定時の画面表示のより詳細な説明をする。より詳細化するため、図１１には、領域指定時の画面表示の指示を行うためのＪａｖａＳｃｒｉｐｔ（登録商標）言語のサンプルを示す。

まず、Ｓ７０５〜Ｓ７０７までの処理を図１１（００７行〜００９行）に記載しており、図１０（ａ）の画像データをウェブサーバー１０３から取得し保持を行っている。画像データの保持が終了するＳ７０７のステップが完了すると図１１（０１１行〜０１２行）が実行される。Ｓ７０８の画像データ１を用いて原稿画像１を描画する処理を図１１（０１４行〜０１７行）に記述している。Ｓ７０８のステップにより、図１０（ａ）が画面上に描画される。その際、図１１（０１５行、０１６行）は画面に表示する際のサイズを示しており、実際のスキャンした原稿サイズをブラウザアプリケーションによりリサイズを行い表示する。Ｓ７０９からＳ７１１の原稿２（図７（ｂ））をスキャンした結果である画像データ２の保持の処理を図１１（０１９行〜０２１行）で行っている。また、Ｓ７１２からＳ７１４の原稿３（図７（ｃ））をスキャンした結果である画像データ３の保持の処理を図１１（０２３行〜０２５行）で行っている。Ｓ７１５のオペレータがＰＣなどの端末１０１に対し、範囲の起点を指示する処理を、図１１（０３０行、０３１行）に示している。オペレータは画面上に描画されている図１０（ａ）内の点Ａ（▽マークで示す）を指示する。オペレータが、Ｓ７１５において画面上の点を指示すると、Ｓ７１６の画面上の座標値を取得する処理を実行し、点Ａの座標値｛Ｔｏｐ５００＿ｘ，Ｔｏｐ５００＿ｙ｝を取得する。Ｓ７１６の指示として、図１１（０３３行〜０３５行）で画面上の座標値を取得している。Ｓ７１７の紙面上での座標への変換は、Ｓ７０８の原稿画像１を描画の際、図１１（０１５行、０１６行）で画面に表示する際のサイズにリサイズしており、実際の画像データに対し処理を行う際の座標に変換する処理である。Ｓ７１７の変換処理を、図１１（０３７行〜０４１行、０４６行〜０４７行、及び０５９行〜０６０行）で実行している。Ｓ７１８からＳ７２０に示す画像データ２を用いた原稿画像の描画処理を、図１１（０５２行）に示している。

Ｓ７１１で事前に保持していた画像データ２を用いて生成された原稿画像２を画面に表示されている原稿画像１上に描画する処理であり、本実施例のポイントとなる処理である。オペレータが原稿画像１で指示した図１０に示す点Ａの座標値｛Ｔｏｐ５００＿ｘ，Ｔｏｐ５００＿ｙ｝を起点とし、原稿２（図７（ｂ））を読み取ることで得られた原稿画像２内の座標値｛Ｔｏｐ５００＿ｘ，Ｔｏｐ５００＿ｙ｝を起点としてトリミング処理を行う。（図１１内のサンプルでは、０５２行目の２、３つ目の引数で示している｛Ｔｏｐ＿Ｘ１，Ｔｏｐ＿Ｙ１｝が起点となる。）その処理により、図８の領域５０１で示される領域部分のみが切り出される。トリミング領域の終点としては、任意に決めることができる。図１１内のサンプルでは、０５２行目の４、５つ目の引数で示している｛Ｗｉｄｔｈ１，Ｈｅｉｇｈｔ１｝である。なお、終点の位置は、画像の端に設定しても良いし、規定する固定の位置でも良い。このように、起点をもとにトリミング領域が特定される。

トリミングされた原稿画像２（図８の領域５０１）を図１０（ｂ）に示すように原稿画像１上の領域５００の下側に並べて描画する。描画位置に関しては、任意に決めることができる。本例の場合、領域５００の下側に配置しており、図１１内のサンプルでは、０５２行目の６、７つ目の引数で示している｛Ｔｏｐ＿Ｘ１，Ｔｏｐ＿Ｙ１＋Ｈｅｉｇｈｔ１＋５０｝である。また、Ｓ７２１からＳ７２３の処理は、上記同様に画像データ３を用いた原稿画像３の描画処理を、図１１（０５３行）に示している。以上の処理により、図１０（ｂ）に示すように、原稿画像１の全面と原稿画像２の一部（領域５０１）、及び、原稿画像３の一部（図８の５０２）が画面上に表示される。

オペレータは、Ｓ７２４のステップにて範囲指定の終点を指示する。

切り出し処理を行う領域が矩形の場合、この終点位置は切り出される矩形の右下の画素とする。

その際、オペレータは図１０（ｂ）に示す原稿画像１の領域５００の文字だけではなく、原稿画像２の領域５０１、原稿画像３の領域５０２の表示を参考にしながらＳ７２４のステップを実行することが可能となる。原稿画像１が描画され、原稿画像２の領域５０１、原稿画像３の領域５０２が描画されていないと、図１０（ｃ）内の点Ｂ（塗りつぶし▽マークで示す）の座標を範囲指定の終点として指示する。

本実施例で示す場合、原稿画像１が描画され、加えて原稿画像２の領域５０１、原稿画像３の領域５０２が描画されている。よって、オペレータは原稿画像２の領域５０１、原稿画像３の領域５０２の文字の幅（図８（ｂ）の｛Ｗｉｄｔｈ５０１｝や、図８（ｃ）の｛Ｗｉｄｔｈ５０２｝）を見ながら範囲指定の終点として指示することができる。

よって、領域５００（Ｗｉｄｔｈ５００）、領域５０１（Ｗｉｄｔｈ５０１）、領域５０２（Ｗｉｄｔｈ５０２）で最も文字領域の幅の広い領域５０１を元に図１０（ｃ）内の点Ｃ（▽マークで示す）の座標を範囲指定の終点として指示することが可能となる。

本実施例で説明したように、複数の原稿をスキャンして得られた原稿画像の中で、他の原稿画像をトリミングして参考情報として並べて表示することで、オペレータは他の原稿における領域の大きさを考慮しながら領域指定をすることが可能となる。

なお、本実施例ではＯＣＲを行うための領域指定を紹介したが、限定するものではなく、例えば写真などの自然画像切り出しであっても良いなど、限定するものではない。

また、領域指定の起点位置の決定も今回は一度切りの選択としたが、領域指定の起点位置の決定を複数回行う事を許可にし、その起点位置の決定の度にトリミング画像の描画を更新する構成であっても良い。

また、切り取る領域として文字領域を例に説明したが、切り取る領域は文字領域でなくグラフィック領域などでもよい。

実施例１では、定型フォーマット原稿を複数部読み取り、まず１枚目の原稿画像を描画し、領域指定の起点決定を行う。

そして、領域の起点を決定した時点で、２枚目以降の原稿画像のトリミング処理を行い、トリミングした原稿画像を既に描画されている１枚目の原稿画像上に描画し、トリミングされた複数の原稿画像を元に、領域指定をする方法を説明した。

しかし、画像形成装置１００で定型フォーマット原稿を複数読み取る際、読み取り時にそれぞれの原稿が位置ずれを起こしてしまう場合がある。また、定型フォーマット原稿内で印字ずれ等を起こしていた場合、用紙内で若干の平行移動ずれが発生してしまう場合がある。位置ずれの例として、図１２を参照し説明する。図１２（ａ）が位置ずれのない原稿とし、灰色ハッチング箇所を領域指定するものとする。図１２（ｂ）は、読み取り位置ずれや印字位置ずれの場合で発生する平行移動のずれを示したものになる。図１２（ｃ）は、主に読み取り位置ずれで発生する回転のずれを示したものになる。図１２（ｄ）は、印字位置ずれの場合で発生する拡大縮小ずれ（本例は縮小ずれ）を示したものになる。実施例１の方法の場合、上記で示したずれが発生すると、複数部で同一箇所（灰色ハッチング箇所の指定領域）を抽出したつもりが、領域から外れた位置を抽出してしまう事になる可能性がある。

そこで、図１３に示す通り、実施例１では図５に示したＳ８００〜Ｓ８０５の構成に加え、Ｓ８０６で示す読み取った画像データの位置合わせ処理を追加した構成とする。

画像形成装置１００で８００の原稿を複数部読み取った後、ウェブサーバー１０３等において複数部の原稿の内、例えば１枚目の原稿を読み取って得られた画像データを基準とする。そして、２枚目以降に読み取られた画像データをマッチング処理し、ズレ量の推定を行った上で、平行移動を行いずれの補正処理を行う。

マッチング処理に関しては、定型フォーマット原稿であるので、原稿間で一致する箇所がある。よって、定型フォーマット部の画像データを用いて相関をとり、マッチングを行う。マッチング処理により、ズレ量を推定し、平行移動の場合アフィン変換等でズレ量の補正を行う。なお、Ｓ８０６の読み込んだ画像データの位置合わせ処理に関しては、読み取った原稿間の位置を合わせる処理が行えればよく、処理方法を限定はしない。

Ｓ８０６にて読み取った画像データの位置合わせ処理を行う事で、読み取った複数の画像データの位相を合わせることができ、位置ずれのない画像データを作成し、Ｓ８０１以後の処理を行う事ができる。

また、平行移動のずれに関わらず、回転のずれ、拡大縮小のずれ、台形補正ずれ、に関しても、Ｓ８０６にて読み取った画像データの位置合わせ処理により、１枚目の画像データに一致させる。これにより、回転ずれ、拡大縮小のずれ、台形補正ずれも考慮した補正を行う事ができる。

以上のように、複数の原稿を読み取って得られた画像データの位置合わせ処理の構成を追加することで、複数の画像データの位相を合わせることでき、位置ズレのない原稿画像で領域指定を実施することが可能となる。

実施例２においては、読み取った画像データの位置合わせ処理を行うことで、複数部の画像間で位置ズレが起こった場合も、同座標を選択することが可能となる構成を説明した。しかし、ズレ量が大きすぎる場合や画像間のマッチングを行うのに必要な情報がない場合などの理由で、画像データの位置合わせ処理を失敗してしまった場合も考えられる。その場合や、画像データの位置合わせ処理がない場合、最終的な処理が終了するまで実際に抽出される画像を確認することができない。

そこで、オペレータが終点を決めた時点で実際に抽出される画像を確認及び、再選択できる構成を説明する。図１４に示す通り、実施例１では図５に示したＳ８００〜Ｓ８０５の構成に加え、Ｓ８０７で示す領域指定の領域画像描画処理を追加した構成とする。Ｓ８００〜Ｓ８０５の処理で抽出する領域指定を完了する。その後、Ｓ８０７の領域指定の領域画像描画処理において、実際に切り取られる原稿画像の描画を行う。

Ｓ８０５で座標指定を完了した後、図９のＳ７１７で画面上の座標値から紙面上での値に変換を行った値を用い、画像データから生成される原稿画像のトリミングを実行する。複数部ある原稿画像に対しトリミング処理が終了すると、画面上にトリミング処理結果を描画する。オペレータは、描画される原稿画像を確認することで、正確な位置で領域指定ができているか確認することができ、確認後、処理の終了もしくは、領域の再指定を行う事が可能となる。

実施例１においては、例としてＯＣＲ処理を行うための文字の取り出しを行う例を説明し、画面上に描画する２枚目以降の原稿画像に関して、描画サイズをオリジナルサイズのまま描画するような構成を説明した。

しかし、２枚目以降のトリミング画像を画面上に描画する場合、各原稿画像のトリミング画像が大きい場合や、読み取られる原稿の枚数が多い場合に画面にすべてトリミング画像を配置できるとは限らない。もしトリミング画像が大きく配置できない場合には、全てのトリミング画像の描画ができないことが考えられる。

そこで、描画するトリミング画像が大きい場合や読み取る原稿枚数が多い場合には、トリミング画像を変倍し画面に入りきるようにする。図１５に示す通り、実施例１では図５に示したＳ８００〜Ｓ８０５の構成に加え、Ｓ８０３とＳ８０４の間にＳ８０８で示すトリミング画像の変倍処理を追加した構成とする。トリミング画像とは、複数部読み込んだ定型フォーマット原稿に対応する原稿画像の内、２枚目以降の原稿画像からトリミングにより得られた原稿画像の事を指す。トリミング画像の例は図８の（ｂ）、（ｃ）の画像である。Ｓ８０３の２枚目以降の原稿画像のトリミング処理を行う。そこで、Ｓ８０８のトリミング画像の変倍処理において、トリミング処理を行った２枚目以降の原稿画像の枚数や幅、高さなどのサイズ、解像度を元に、全原稿画像を画面上に表示できるサイズの算出を行う。算出したサイズを元に変倍処理を実施し、Ｓ８０４のトリミング画像の描画処理で変倍処理及びトリミング処理済みの２枚目以降の原稿画像を描画する。

以上のようにトリミング画像の変倍処理を構成として追加することで、描画するトリミング画像が大きい場合や読み取る原稿枚数が多い場合であったとしても、複数あるトリミング画像を画面上に描画することが可能である。

なお、画面上に描画するトリミング画像は、画像形成装置１００で読み込んだ画像をすべて描画する必要はない。例えば上限を決め読み込んだ上位の数の上限をいれても良いし、属性判定などを行い、領域の大きいものから順番に並べる構成であっても良い。

（その他の実施例）
本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施例の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

Claims

複数の原稿を読み取る読取手段と、
前記読取手段により読み取った原稿のうち第１の原稿に対応する第１の画像を画面に表示させる表示制御手段と、
前記第１の画像における領域を指定するための領域の起点となる位置を受信する受信手段と、
前記受信手段により受信した前記領域の起点となる位置に従い、前記読取手段により読取られた第２の原稿に対応する第２の画像の領域を特定する特定手段と、
を有し、
前記表示制御手段は、前記第１の画像とともに前記特定手段により特定された前記第２の画像の領域を表示させることを特徴とする画像処理装置。
前記第２の原稿は、前記複数の原稿の中で、前記特定手段により特定される領域の大きさが最も大きい原稿であることを特徴とする請求項１に記載の画像処理装置。
前記特定手段により特定される第２の画像の領域は文字領域であることを特徴とする請求項１に記載の画像処理装置。
前記複数の原稿は共通のフォーマットを用いられていることを特徴とする請求項１に記載の画像処理装置。
前記受信手段は、前記第１の領域の終点となる位置の指定を受信することを特徴とする請求項１に記載の画像処理装置。
前記読取手段により読取った原稿に対応する画像の位置合わせを行う位置合わせ手段を有することを特徴とする請求項１に記載の画像処理装置。
前記画面に前記特定手段により特定された画像の領域を表示する際、該領域のサイズを変えて表示することを特徴とする請求項１に記載の画像処理装置。
複数の原稿を読み取る読取ステップと、
前記読取ステップにより読み取った原稿のうち第１の原稿に対応する第１の画像を画面に表示させる表示制御ステップと、
前記第１の画像における領域を指定するための領域の起点となる位置を受信する受信ステップと、
前記受信ステップにより受信した前記領域の起点となる位置に従い、前記読取ステップにより読取られた第２の原稿に対応する第２の画像の領域を特定する特定ステップと、
を有し、
前記表示制御ステップでは、前記第１の画像とともに前記特定ステップにより特定された前記第２の画像の領域を表示させることを特徴とする画像処理方法。
コンピュータに請求項８の方法を実行させるプログラム。