JP2016200967A - 画像処理装置、画像処理方法、及びプログラム - Google Patents
画像処理装置、画像処理方法、及びプログラム Download PDFInfo
- Publication number
- JP2016200967A JP2016200967A JP2015080441A JP2015080441A JP2016200967A JP 2016200967 A JP2016200967 A JP 2016200967A JP 2015080441 A JP2015080441 A JP 2015080441A JP 2015080441 A JP2015080441 A JP 2015080441A JP 2016200967 A JP2016200967 A JP 2016200967A
- Authority
- JP
- Japan
- Prior art keywords
- image
- area
- document
- read
- reading
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/387—Composing, repositioning or otherwise geometrically modifying originals
- H04N1/3872—Repositioning or masking
- H04N1/3873—Repositioning or masking defined only by a limited number of coordinate points or parameters, e.g. corners, centre; for trimming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/0035—User-machine interface; Control console
- H04N1/00405—Output means
- H04N1/00408—Display of information to the user, e.g. menus
- H04N1/00411—Display of information to the user, e.g. menus the display also being used for user input, e.g. touch screen
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/0035—User-machine interface; Control console
- H04N1/00405—Output means
- H04N1/00408—Display of information to the user, e.g. menus
- H04N1/00466—Display of information to the user, e.g. menus displaying finishing information, e.g. position of punch holes or staple or orientation references
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/00795—Reading arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N2201/00—Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
- H04N2201/0077—Types of the still picture apparatus
- H04N2201/0094—Multifunctional device, i.e. a device capable of all of reading, reproducing, copying, facsimile transception, file transception
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Processing Or Creating Images (AREA)
- Character Input (AREA)
- Image Input (AREA)
- Facsimiles In General (AREA)
Abstract
【課題】デジタル化された原稿内に記載されているオブジェクトの切り出しを行うことが可能な画像処理装置、画像処理方法を提供する。【解決手段】複数の原稿を読み取る読取手段と、読取手段により読み取った原稿のうち第1の原稿に対応する第1の画像を画面に表示させる表示制御手段と、第1の画像における領域を指定するための領域の起点となる位置を受信する受信手段と、受信手段により受信した前記領域の起点となる位置に従い、読取手段により読取られた第2の原稿に対応する第2の画像の領域を特定する特定手段と、を有する。表示制御手段は、第1の画像とともに特定手段により特定された第2の画像の領域を表示させる。【選択図】図5
Description
本発明は、デジタル化された原稿内に記載されているオブジェクトの切り出しを行うことが可能な画像処理装置、画像処理方法、に関するものである。
原稿から所望の領域を抽出し、電子化するには主に2通りの方法が挙げられる。
第1の方法は、スキャナで原稿を読み取ることで得られた入力画像に対してオペレータが所望する抽出すべき領域をその都度指定する。
例えば、スキャナで原稿を読み取り、その結果得られた入力画像をディスプレイ上に表示する。そして、表示された入力画像のうちオペレータが所望の領域を、マウス等を用いて指定する方法である。
第2の方法は、あらかじめ矩形の位置情報を定めたテンプレートを作成しておき、このテンプレートに定められた矩形領域をそのまま入力画像に当てはめて抽出するものである。この場合、入力画像中から、テンプレートで定められた位置及び大きさの矩形領域が抽出されることになり、オペレータが一つ一つ抽出領域を指定するという手間を省ける。
第1の方法は、スキャナで原稿を読み取ることで得られた入力画像に対してオペレータが所望する抽出すべき領域をその都度指定する。
例えば、スキャナで原稿を読み取り、その結果得られた入力画像をディスプレイ上に表示する。そして、表示された入力画像のうちオペレータが所望の領域を、マウス等を用いて指定する方法である。
第2の方法は、あらかじめ矩形の位置情報を定めたテンプレートを作成しておき、このテンプレートに定められた矩形領域をそのまま入力画像に当てはめて抽出するものである。この場合、入力画像中から、テンプレートで定められた位置及び大きさの矩形領域が抽出されることになり、オペレータが一つ一つ抽出領域を指定するという手間を省ける。
前述したオペレータが入力画像における所望の領域を指定する第1の方法や、矩形の位置情報を定めたテンプレートをオペレータが作成する第2の方法では、オペレータが抽出したい領域を決める事ができる。つまり、入力画像における指定ブロック内の一部領域のみをピンポイントで領域選択することも可能である。
しかしながら、第1の方法では、オペレータが所望の領域をその都度、指定しなければならず、大量の原稿を読み取って得られた入力画像に対してそれぞれ領域指定するのは手間がかかる。
また、テンプレートを用いる第2の方法においても、入力画像の抽出すべき所望の領域とテンプレートで設定されている領域との間に、位置や大きさのずれがある場合には、所望領域が欠けて抽出されてしまうという問題がある。
例えば、抽出すべき所望の領域に書かれた文字の長さが原稿によって異なり、かつ、テンプレート作成時に用いた文字が短く抽出すべき所望の領域を狭く指定してしまった場合に、入力画像における所望領域が欠けて抽出されてしまう事が考えられる。
特許文献1では、入力画像の抽出すべき所望の領域とテンプレートで設定されている領域との間に、位置や大きさのずれがある場合には、所望領域が欠けて抽出されてしまうという問題に対し、以下の方法で解決する方法が示されている。ます、入力画像上の領域について、位置、大きさ、属性をテンプレート情報として保持する。次に、スキャナにより原稿を読み取り、読み取られた入力画像からブロック領域を抽出し、抽出されたブロック領域の属性を判定する。そして、抽出されたブロック領域の内、テンプレート情報によって示される領域と少なくとも一部が重なり、その属性がテンプレート情報に設定されている属性と一致するブロック領域を抽出する。以上の処理を行うことで、テンプレートで指定した領域に対し、狭く指定してしまった場合においても、所望領域が欠けて抽出されることはなくなる。
しかし、特許文献1の場合、ブロック領域の抽出処理に依存しているため指定ブロック認識結果に左右され、領域が決まる。例えば、文字ブロックが横に3つ並ぶ場合、3つの文字ブロックの内、中間に位置する文字ブロックのみピンポイントで選択したい場合、ブロック領域の抽出処理ため、3つの文字ブロック全てが選択されてしまう可能性がある。よって、オペレータが所望する指定ブロック内の一部領域のみをピンポイントで選択することが難しい。
上記課題を解決するために、本発明は、複数の原稿を読み取る読取手段と、前記読取手段により読み取った原稿のうち第1の原稿に対応する第1の画像を画面に表示させる表示制御手段と、前記第1の画像における領域を指定するための領域の起点となる位置を受信する受信手段と、前記受信手段により受信した前記領域の起点となる位置に従い、前記読取手段により読取られた第2の原稿に対応する第2の画像の領域を特定する特定手段と、を有し、前記表示制御手段は、前記第1の画像とともに前記特定手段により特定された前記第2の画像の領域を表示させることを特徴とする。
本発明によれば、複数枚ある原稿に対してそれぞれ所望の領域指定する手間を省くことが可能である。また、所望の領域に大きさ異なるオブジェクトが含まれる場合であっても、各オブジェクトの大きさを考慮して領域を決定することが可能となる。
以下、図面を用いて本発明に係る実施形態を詳細に説明する。ただし、この実施形態に記載されている構成要素はあくまで例示であり、この発明の範囲をそれらに限定する趣旨のものではない。
<システム構成>
図1は本実施例を適用可能なシステムの全体構成を示す図である。
図1は本実施例を適用可能なシステムの全体構成を示す図である。
図1に示すように、画像形成装置100、PCなどの端末101、ウェブサーバー103はイーサネット(登録商標)や無線LANなどからなるLAN105に接続され、Internet102に接続されている。また、モバイル端末106は公衆無線通信網104などからInternet102に接続されている。画像形成装置100、PCなどの端末101、ウェブサーバー103及び、モバイル端末106はLAN105又は、公衆無線通信網104からInternet102に接続され、相互に通信可能となっている。なお、PCなどの端末101とモバイル端末106に関しては、どちらか一方がある構成でも良い。
画像形成装置100は操作部、スキャナ部及び、プリンタ部を有する複合機である。本実施例のシステムでは複数部の紙文書のスキャン端末として利用する。
ウェブサーバー103は、ウェブサーバー端末として利用し、それに必要なHTML(HyperText Markup Language)ファイルなどウェブ上の文書を記述するためのテキストファイル等が保存されている。また、画像形成装置100から送られてくる画像を、保持をするファイルサーバーや、画像処理を行う画像処理サーバーとしても利用可能である。本実施例のシステムでは、ウェブサーバー103を、ウェブサーバー、ファイルサーバー、画像処理サーバーとして利用する。
PCなどの端末101は、ウェブサーバー103に保持されたHTML言語などのウェブ言語をウェブブラウザなど通して、ウェブページの表示・閲覧を行う。また、入力部や指示部を有し、ウェブページから操作を行う。本実施例のシステムでは、表示端末、操作端末として利用する。また、モバイル端末106は、操作部、無線通信部、ウェブブラウザを動作させるアプリ部を有するスマートフォンやタブレット端末である。本実施例のシステムでは、PCなどの端末101と同様に表示端末、操作端末として利用することができる。なお、PCなどの端末101とモバイル端末106は、ウェブブラウザを操作する機能として、重複した機能を有しており、どちらを使用することも可能であるが、片方どちらか一方の構成でもかまわない。
以上の構成要素はあくまで例示であり、すべての構成が必要というものではない。例えば、画像形成装置100内において、原稿の読み込むスキャン機能から、画像の保存、ウェブサーバー機能、ブラウザアプリケーションによる表示・操作が可能であれば、画像形成装置100のみの構成で実現することも可能である。また、画像形成装置100内において、原稿の読み込みから、画像の保存、ウェブサーバー機能、画像処理サーバー機能を有し、PCなどの端末101においてブラウザアプリケーションによる表示・操作することも可能である。また、ウェブサーバー機能、ブラウザアプリケーションによる表示・操作に関しても、ウェブベースのウェブアプリケーションに限定するものではなく、ローカルのデスクトップ環境上で動作するスタンドアロンアプリケーションであっても良い。
<画像形成装置100のハードウェア構成>
図2は、画像形成装置100の構成を示すブロック図である。制御部200上に、CPU201、ROM202、RAM203、HDD204、ネットワークI/F部211、スキャナI/F部209、プリンタI/F部207、操作部I/F部205がシステムバスを介して互いに通信可能に接続されている。制御部200は、画像形成装置100全体の動作を制御する。
CPU201は、ROM202に記憶された制御プログラムを読み出して読取制御や送信制御などの各種制御を行う。
RAM203は、CPU201の主メモリ、ワークエリア等の一時記憶領域として用いられる。
HDD204は、画像データや各種プログラム、或いは各種情報テーブルを記憶する。
操作部I/F部205は、操作部206と制御部200とを接続する。操作部206には、タッチパネル機能を有する液晶表示部やキーボードなどが備えられている。
プリンタI/F部207は、プリンタ部208と制御部200とを接続する。プリンタ部208で印刷すべき画像データはプリンタI/F部207を介して制御部200から転送され、プリンタ部208において記録媒体上に印刷される。
スキャナI/F部209は、スキャナ部210と制御部200とを接続する。スキャナ部210は、原稿上の画像を読み取って画像データを生成し、スキャナI/F部209を介して制御部200に入力する。
ネットワークI/F部211は、制御部200(画像形成装置100)をLAN105に接続する。ネットワークI/F部211は、LAN105上の外部装置(本実施例の場合、ウェブサーバー103)に画像データを送信したり、LAN105上の外部装置から各種情報を受信したりする。
図2は、画像形成装置100の構成を示すブロック図である。制御部200上に、CPU201、ROM202、RAM203、HDD204、ネットワークI/F部211、スキャナI/F部209、プリンタI/F部207、操作部I/F部205がシステムバスを介して互いに通信可能に接続されている。制御部200は、画像形成装置100全体の動作を制御する。
CPU201は、ROM202に記憶された制御プログラムを読み出して読取制御や送信制御などの各種制御を行う。
RAM203は、CPU201の主メモリ、ワークエリア等の一時記憶領域として用いられる。
HDD204は、画像データや各種プログラム、或いは各種情報テーブルを記憶する。
操作部I/F部205は、操作部206と制御部200とを接続する。操作部206には、タッチパネル機能を有する液晶表示部やキーボードなどが備えられている。
プリンタI/F部207は、プリンタ部208と制御部200とを接続する。プリンタ部208で印刷すべき画像データはプリンタI/F部207を介して制御部200から転送され、プリンタ部208において記録媒体上に印刷される。
スキャナI/F部209は、スキャナ部210と制御部200とを接続する。スキャナ部210は、原稿上の画像を読み取って画像データを生成し、スキャナI/F部209を介して制御部200に入力する。
ネットワークI/F部211は、制御部200(画像形成装置100)をLAN105に接続する。ネットワークI/F部211は、LAN105上の外部装置(本実施例の場合、ウェブサーバー103)に画像データを送信したり、LAN105上の外部装置から各種情報を受信したりする。
<ウェブサーバー103のハードウェア構成>
図3は、ウェブサーバー103の構成を示すブロック図である。制御部300上に、CPU301、ROM302、RAM303、HDD304、ネットワークI/F部305がシステムバスを介して互いに通信可能に接続されている。制御部300は、ウェブサーバー103全体の動作を制御する。CPU301は、ROM302に記憶された制御プログラムを読み出して各種制御処理を実行する。RAM303は、CPU301の主メモリ、ワークエリア等の一時記憶領域として用いられる。HDD304は、画像形成装置100でスキャンされた画像データを受信し、保存する。また、画像データに加え、HTMLファイルなどウェブ上の文書を記述するためのテキストファイル等も記憶する。より詳細には、例えば、HTML言語やそのページスタイルを決めるスタイルシート言語(例えば、CSS言語)で記載されたテキストファイルを記憶する。また、動的なウェブページ、ウェブアプリケーション用のプログラミング言語であるJavaScript(登録商標)言語やPHP言語で記載されたテキストファイルを記憶する。
図3は、ウェブサーバー103の構成を示すブロック図である。制御部300上に、CPU301、ROM302、RAM303、HDD304、ネットワークI/F部305がシステムバスを介して互いに通信可能に接続されている。制御部300は、ウェブサーバー103全体の動作を制御する。CPU301は、ROM302に記憶された制御プログラムを読み出して各種制御処理を実行する。RAM303は、CPU301の主メモリ、ワークエリア等の一時記憶領域として用いられる。HDD304は、画像形成装置100でスキャンされた画像データを受信し、保存する。また、画像データに加え、HTMLファイルなどウェブ上の文書を記述するためのテキストファイル等も記憶する。より詳細には、例えば、HTML言語やそのページスタイルを決めるスタイルシート言語(例えば、CSS言語)で記載されたテキストファイルを記憶する。また、動的なウェブページ、ウェブアプリケーション用のプログラミング言語であるJavaScript(登録商標)言語やPHP言語で記載されたテキストファイルを記憶する。
ネットワークI/F部305は、制御部300(ウェブサーバー103)をLAN105に接続する。ネットワークI/F部305は、LAN105上の他の装置との間で各種情報を送受信する。
<PCなどの端末101及び、モバイル端末106のハードウェア構成>
図4は、PCなどの端末101及び、モバイル端末106の構成を示すブロック図である。なお、PCなどの端末101及び、モバイル端末106は、本実施例においては同機能を実現するものであるため、まとめて記載する。
図4は、PCなどの端末101及び、モバイル端末106の構成を示すブロック図である。なお、PCなどの端末101及び、モバイル端末106は、本実施例においては同機能を実現するものであるため、まとめて記載する。
図4において、制御部400上に、CPU401、ROM402、RAM403、HDD404、ネットワークI/F部405、操作部I/F部406、表示部I/F部408がシステムバスを介して互いに通信可能に接続されている。CPU401を含む制御部400は、PCなどの端末101及び、モバイル端末106全体の動作を制御する。CPU401は、ROM402に記憶された制御プログラムを読み出して各種制御処理を実行する。RAM403は、CPU401の主メモリ、ワークエリア等の一時記憶領域として用いられる。HDD404は、ブラウザアプリケーション(ウェブアプリケーションなどのネットワークを介して使用するアプリケーションソフトウェア)がインストールされている。
ネットワークI/F部405は、制御部400(PCなどの端末101又は、モバイル端末106)をLAN105に接続する。ネットワークI/F部405は、LAN105上の他の装置との間で各種情報を送受信する。また、モバイル端末106の場合には、LAN105はなく、Wi−Fi等の無線LANによりInternet102に接続することも可能である。
操作部I/F部406は、操作部407と制御部400とを接続する。操作部407では、オペレータから操作を受け、操作部I/F部406を介して制御部400に入力する。
表示部I/F部408は、ディスプレイ409と制御部400とを接続する。ディスプレイ409では、オペレータに対し操作のための表示を行う。
<シーケンス>
共通の定型フォーマットを有する複数の原稿の同一箇所にそれぞれ書かれた文字の領域をOCR領域に指定する場合を例として処理のフローを説明する。
この文字は各原稿において同一でなくてよいため、それぞれの原稿の文字領域の大きさ(長さ)は異なる。すなわち文字領域は可変長である。
共通の定型フォーマットを有する複数の原稿の同一箇所にそれぞれ書かれた文字の領域をOCR領域に指定する場合を例として処理のフローを説明する。
この文字は各原稿において同一でなくてよいため、それぞれの原稿の文字領域の大きさ(長さ)は異なる。すなわち文字領域は可変長である。
このフローで実行される処理は、同一箇所に書かれた文字の領域を領域指定する場合に、オペレータに対し指定するべき領域を決めるのに必要となる補助情報を表示し、最適な領域を決めるための処理である。
まず、図5を用いて定型フォーマットを有する複数の原稿それぞれにおける同一箇所の領域を指定するための全体フローを説明する。より詳細な説明を以下で行うため、ここでは全体の流れを説明する。
S800に示す原稿の読み取り処理では、画像形成装置100で複数部の定型フォーマット原稿を読み取る。なお、ここで言う定型フォーマット原稿に関しては後述でサンプルを示し説明を行う。
S801に示す1枚目の原稿画像描画処理では、S800で読み取られた定型フォーマットを有する複数の原稿の内、1枚目に読み取られた原稿の画像データを用いて原稿画像を作成し、この原稿画像を画面等に表示を行う。この原稿画像を元に、切り出しを行うための領域の指定を行う。
S802に示す領域指定の起点決定処理では、画面に表示される1枚目に読み込まれた原稿の画像データを元に、原稿画像に対して切り出し処理を行う領域の起点位置の決定を行う。切り出し処理を行う領域が矩形の場合、この起点位置は切り出される矩形の左上の画素とする。
S803で示す2枚目以降の原稿画像のトリミング処理では、S801で描画を行わなかった2枚目以降の原稿の原稿画像に対し、S802で決定した起点位置を元にトリミングを行う。
以下に記載するS804、S805で実行される処理は本実施例の特徴となる処理である。
S804で示すトリミング画像の描画処理では、S803でトリミングを行った2枚目以降の原稿の原稿画像の描画を行う。
S805で示す領域指定の終点決定処理では、画面に表示される1枚目に読み取られた原稿に対応する原稿画像と2枚目以降に読み取られた原稿の原稿画像をトリミングした原稿画像とを画面に表示する。この表示された原稿画像のトリミング結果を元に、切り出し処理を行う領域の終点位置の決定を行う。
このフローにより、定型フォーマットを有する複数の原稿において、各原稿に対して特定の領域を切り出す場合、ユーザが画面を介して適切な領域を指定するための参考情報を表示することができる。具体的には、ある原稿に対して指定された位置に対応する位置にある他の原稿における領域を参考情報として並べて画面に表示するよう制御する。これにより、オペレータは他の原稿における領域の大きさを考慮しながら領域指定をすることが可能となる。
次に、図6〜図8を用いて定型フォーマットを有する複数の原稿の同一箇所に書かれた文字の領域をOCR領域に指定する場面について説明する。
図6は、定型フォーマットの原稿を示している。例えば、申請書や申込書、領収書、登録証明書などのような定型のフォーマットを有していればよい。
図6の定型フォーマットに対し、図7(a)、(b)、(c)の太字で記載された領域(灰色ハッチング・破線枠で示す領域)に文字を記載されている。例として、図7(a)、(b)、(c)内で、それぞれ領域500、領域501、領域502で示した文字が書かれた領域の座標を指定する。領域500、領域501、領域502で示した文字を抽出する場合、図8に示すような値を取得する。領域500を抽出する場合、図8(a)に示す500の左上座標{Top500_x,Top500_y}、右下座標{Bottom500_x,Bottom500_y}を取得する。また、左上座標{Top500_x,Top500_y}と、左上座標を起点とする幅{Width500}、高さ{Height500}を取得するとしても良い。なお、例で示す座標値は画像データの左上を起点とした値とする。領域500と同様に、図8(b)、(c)でもそれぞれ座標値を取得する。つまり、座標値{Top501_x,Top501_y}{Bottom501_x,Bottom501_y}、{Top502_x,Top502_y}{Bottom502_x,Bottom502_y}を取得する。領域500、領域501、領域502それぞれに対しオペレータが、座標指定を行うとなると指定回数が非常に多くなる。
一方で、定型フォーマット内の同一箇所(同一座標値)に書かれた文字である事から、領域500のみで座標値を決め、領域501、領域502にも座標値を反映させると、文字の長さは原稿によって異なる(可変長)である。よって、{Width500}より{Width501}や{Width502}の方が大きい値をとる場合がある。よって、領域501や領域502において領域から出てしまう可能性がある。
そこで、定型フォーマット内の同一箇所(同一座標値)に書かれた文字である事から、代表する原稿1枚の1か所(本例では図7(a)の図8(a))で座標値を決める際に、他の原稿の対応箇所も参考情報として表示させる例を図9のシーケンス図を用いて紹介する。
図9には、画像形成装置100、ウェブサーバー103、PCなどの端末101が記載され、オペレータの指示によって処理が実行される。
まず、S600からS613は、オペレータが行う、画像形成装置100とウェブサーバー103によるスキャン処理のステップである。S600において、オペレータは画像形成装置100に対し、スキャンの開始を実行する。その際、スキャンする原稿は、上記図7(a)とする。これを原稿1とする。S601において、画像形成装置100は、スキャンを実行する。ここでスキャンを行ったデータを画像データ1とし、これは図7(a)をスキャンした画像データを示している。S602において、画像形成装置100はウェブサーバー103にスキャンした画像データ1を送信する。S603において、ウェブサーバー103は画像形成装置100から送られた画像データ1を保存する。S604からS608、及び、S609からS613は、上記のS600からS603と同様のフローを実行する。その際、スキャンする原稿はそれぞれ図7(b)(原稿2)、図7(c)(原稿3)を用い、画像データ2、画像データ3としてウェブサーバー103に保存する。以上が、オペレータが行う、画像形成装置100とウェブサーバー103によるスキャン処理のシーケンスとなる。
次に、オペレータが行う、PCなどの端末101とウェブサーバー103によるOCR領域の指定処理のシーケンスを説明する。
S700からS714は、PCなどの端末101に対し、原稿画像の表示を行うための画像取得を行うステップである。S700において、オペレータはPCなどの端末101に対し、ブラウザアプリケーション起動しウェブサーバーへアクセスするよう指示を行う。S701において、PCなどの端末101はウェブサーバー103に対しHTMLなどのファイルの取得を行う。S702において、ウェブサーバー103はPCなどの端末101に対しHTMLなどのファイルを送信する。S703において、PCなどの端末101はウェブサーバー103から送られたHTML等のファイルを、ブラウザアプリケーションを用いて構文解析を行う。S704において、ブラウザアプリケーションによる構文解析結果に従って文字などを配置すると共に、HTML内に書かれている参照(ハイパーリンク)を元にウェブサーバー103に対し画像データの取得を実行する。S705において、S704の命令に従い、PCなどの端末101は画像データ1の画像取得依頼を実行する。S706において、ウェブサーバー103はPCなどの端末101に対し画像データ1を送信する。S707において、PCなどの端末101は画像データ1を一時的に保持する。S708において、保持した画像1をS704での構文解析結果に応じて画面上に配置を行う。S709からS712、及び、S712からS714は、それぞれ画像2、画像3に対し上述S705からS707と同様の処理を行う。ただし、S708で画像データ1は画像描画(原稿画像1の描画)を行うが、この時点では画像データ2及び画像データ3に対しては、保持するのみで画像描画は行っていない。
S715からS724は、PCなどの端末101でオペレータが領域指定を行うステップである。S715において、オペレータはPCなどの端末101に対して、画面上に表示されている原稿画像1内の範囲起点をマウスなどの外部端末からクリックし座標を指定する。S716において、ウェブサーバー103はオペレータが指定した範囲起点の画面上の座標を取得する。S717において、ウェブサーバー103は取得した画面上の座標を、スキャンした紙面上での座標値に変換する変換処理を実行する。S718において、ウェブサーバー103はS717で変換した座標値を元に画像データ2のトリミングを行う。ただし、以後説明を行うが、実際に画像処理でトリミング処理を行っても良いし、HTML言語やJavaScript(登録商標)言語上で描画の際に指定領域外をマスクする処理であっても良い。S719において、S718でトリミングした画像データ2をPCなどの端末101の画面上に張り付ける位置を算出する。張り付ける座標は、例えば、S715で指定した画像データ1の起点座標(図8(d)の{Top500_x,Top500_y})に対し、y軸方向にずらした位置に配置する。
より具体的には、{Top500_x,Top500_y+{Height500}+α}の位置に配置する。
S719において、S718でトリミングした画像データ2を、S719で算出した位置を元に画面上に描画する。
S721からS723においては、S718からS720のステップを画像データ3に対して行う。以上までのステップにて、画面に描画されているものは以下の画像である。
すなわち、S708において画像データ1を用いて描画された原稿画像1全面、S720において画像データ2を用いて描画された原稿画像2トリミング画像、S723において画像データ3を用いて描画された原稿画像3のトリミング画像である。
S725からS729は、オペレータが領域指定した領域において処理を実行するステップである。S725において、オペレータがPCなどの端末101にて決定した、領域指定(終点決定処理)の座標情報をウェブサーバー103に送信する。S726において、PCなどの端末101から送られた領域指定座標情報を元に、ウェブサーバー103に保存されている画像データ1〜3のトリミング処理を行う。S727において、S726でトリミングされた画像に対応して、原稿画像1〜3それぞれOCR処理を実行する。S728において、S727で行ったOCR処理結果をPCなどの端末101に送信する。S729において、送信されたOCR結果を画面上に描画する。以上が、本実施例のシーケンスである。
<領域指定時の画面表示のより詳細な説明>
図10及び、図11を用いて領域指定時の画面表示のより詳細な説明をする。より詳細化するため、図11には、領域指定時の画面表示の指示を行うためのJavaScript(登録商標)言語のサンプルを示す。
図10及び、図11を用いて領域指定時の画面表示のより詳細な説明をする。より詳細化するため、図11には、領域指定時の画面表示の指示を行うためのJavaScript(登録商標)言語のサンプルを示す。
まず、S705〜S707までの処理を図11(007行〜009行)に記載しており、図10(a)の画像データをウェブサーバー103から取得し保持を行っている。画像データの保持が終了するS707のステップが完了すると図11(011行〜012行)が実行される。S708の画像データ1を用いて原稿画像1を描画する処理を図11(014行〜017行)に記述している。S708のステップにより、図10(a)が画面上に描画される。その際、図11(015行、016行)は画面に表示する際のサイズを示しており、実際のスキャンした原稿サイズをブラウザアプリケーションによりリサイズを行い表示する。S709からS711の原稿2(図7(b))をスキャンした結果である画像データ2の保持の処理を図11(019行〜021行)で行っている。また、S712からS714の原稿3(図7(c))をスキャンした結果である画像データ3の保持の処理を図11(023行〜025行)で行っている。S715のオペレータがPCなどの端末101に対し、範囲の起点を指示する処理を、図11(030行、031行)に示している。オペレータは画面上に描画されている図10(a)内の点A(▽マークで示す)を指示する。オペレータが、S715において画面上の点を指示すると、S716の画面上の座標値を取得する処理を実行し、点Aの座標値{Top500_x,Top500_y}を取得する。S716の指示として、図11(033行〜035行)で画面上の座標値を取得している。S717の紙面上での座標への変換は、S708の原稿画像1を描画の際、図11(015行、016行)で画面に表示する際のサイズにリサイズしており、実際の画像データに対し処理を行う際の座標に変換する処理である。S717の変換処理を、図11(037行〜041行、046行〜047行、及び059行〜060行)で実行している。S718からS720に示す画像データ2を用いた原稿画像の描画処理を、図11(052行)に示している。
S711で事前に保持していた画像データ2を用いて生成された原稿画像2を画面に表示されている原稿画像1上に描画する処理であり、本実施例のポイントとなる処理である。オペレータが原稿画像1で指示した図10に示す点Aの座標値{Top500_x,Top500_y}を起点とし、原稿2(図7(b))を読み取ることで得られた原稿画像2内の座標値{Top500_x,Top500_y}を起点としてトリミング処理を行う。(図11内のサンプルでは、052行目の2、3つ目の引数で示している{Top_X1,Top_Y1}が起点となる。)その処理により、図8の領域501で示される領域部分のみが切り出される。トリミング領域の終点としては、任意に決めることができる。図11内のサンプルでは、052行目の4、5つ目の引数で示している{Width1,Height1}である。なお、終点の位置は、画像の端に設定しても良いし、規定する固定の位置でも良い。このように、起点をもとにトリミング領域が特定される。
トリミングされた原稿画像2(図8の領域501)を図10(b)に示すように原稿画像1上の領域500の下側に並べて描画する。描画位置に関しては、任意に決めることができる。本例の場合、領域500の下側に配置しており、図11内のサンプルでは、052行目の6、7つ目の引数で示している{Top_X1,Top_Y1+Height1+50}である。また、S721からS723の処理は、上記同様に画像データ3を用いた原稿画像3の描画処理を、図11(053行)に示している。以上の処理により、図10(b)に示すように、原稿画像1の全面と原稿画像2の一部(領域501)、及び、原稿画像3の一部(図8の502)が画面上に表示される。
オペレータは、S724のステップにて範囲指定の終点を指示する。
切り出し処理を行う領域が矩形の場合、この終点位置は切り出される矩形の右下の画素とする。
その際、オペレータは図10(b)に示す原稿画像1の領域500の文字だけではなく、原稿画像2の領域501、原稿画像3の領域502の表示を参考にしながらS724のステップを実行することが可能となる。原稿画像1が描画され、原稿画像2の領域501、原稿画像3の領域502が描画されていないと、図10(c)内の点B(塗りつぶし▽マークで示す)の座標を範囲指定の終点として指示する。
本実施例で示す場合、原稿画像1が描画され、加えて原稿画像2の領域501、原稿画像3の領域502が描画されている。よって、オペレータは原稿画像2の領域501、原稿画像3の領域502の文字の幅(図8(b)の{Width501}や、図8(c)の{Width502})を見ながら範囲指定の終点として指示することができる。
よって、領域500(Width500)、領域501(Width501)、領域502(Width502)で最も文字領域の幅の広い領域501を元に図10(c)内の点C(▽マークで示す)の座標を範囲指定の終点として指示することが可能となる。
本実施例で説明したように、複数の原稿をスキャンして得られた原稿画像の中で、他の原稿画像をトリミングして参考情報として並べて表示することで、オペレータは他の原稿における領域の大きさを考慮しながら領域指定をすることが可能となる。
なお、本実施例ではOCRを行うための領域指定を紹介したが、限定するものではなく、例えば写真などの自然画像切り出しであっても良いなど、限定するものではない。
また、領域指定の起点位置の決定も今回は一度切りの選択としたが、領域指定の起点位置の決定を複数回行う事を許可にし、その起点位置の決定の度にトリミング画像の描画を更新する構成であっても良い。
また、切り取る領域として文字領域を例に説明したが、切り取る領域は文字領域でなくグラフィック領域などでもよい。
実施例1では、定型フォーマット原稿を複数部読み取り、まず1枚目の原稿画像を描画し、領域指定の起点決定を行う。
そして、領域の起点を決定した時点で、2枚目以降の原稿画像のトリミング処理を行い、トリミングした原稿画像を既に描画されている1枚目の原稿画像上に描画し、トリミングされた複数の原稿画像を元に、領域指定をする方法を説明した。
しかし、画像形成装置100で定型フォーマット原稿を複数読み取る際、読み取り時にそれぞれの原稿が位置ずれを起こしてしまう場合がある。また、定型フォーマット原稿内で印字ずれ等を起こしていた場合、用紙内で若干の平行移動ずれが発生してしまう場合がある。位置ずれの例として、図12を参照し説明する。図12(a)が位置ずれのない原稿とし、灰色ハッチング箇所を領域指定するものとする。図12(b)は、読み取り位置ずれや印字位置ずれの場合で発生する平行移動のずれを示したものになる。図12(c)は、主に読み取り位置ずれで発生する回転のずれを示したものになる。図12(d)は、印字位置ずれの場合で発生する拡大縮小ずれ(本例は縮小ずれ)を示したものになる。実施例1の方法の場合、上記で示したずれが発生すると、複数部で同一箇所(灰色ハッチング箇所の指定領域)を抽出したつもりが、領域から外れた位置を抽出してしまう事になる可能性がある。
そこで、図13に示す通り、実施例1では図5に示したS800〜S805の構成に加え、S806で示す読み取った画像データの位置合わせ処理を追加した構成とする。
画像形成装置100で800の原稿を複数部読み取った後、ウェブサーバー103等において複数部の原稿の内、例えば1枚目の原稿を読み取って得られた画像データを基準とする。そして、2枚目以降に読み取られた画像データをマッチング処理し、ズレ量の推定を行った上で、平行移動を行いずれの補正処理を行う。
マッチング処理に関しては、定型フォーマット原稿であるので、原稿間で一致する箇所がある。よって、定型フォーマット部の画像データを用いて相関をとり、マッチングを行う。マッチング処理により、ズレ量を推定し、平行移動の場合アフィン変換等でズレ量の補正を行う。なお、S806の読み込んだ画像データの位置合わせ処理に関しては、読み取った原稿間の位置を合わせる処理が行えればよく、処理方法を限定はしない。
S806にて読み取った画像データの位置合わせ処理を行う事で、読み取った複数の画像データの位相を合わせることができ、位置ずれのない画像データを作成し、S801以後の処理を行う事ができる。
また、平行移動のずれに関わらず、回転のずれ、拡大縮小のずれ、台形補正ずれ、に関しても、S806にて読み取った画像データの位置合わせ処理により、1枚目の画像データに一致させる。これにより、回転ずれ、拡大縮小のずれ、台形補正ずれも考慮した補正を行う事ができる。
以上のように、複数の原稿を読み取って得られた画像データの位置合わせ処理の構成を追加することで、複数の画像データの位相を合わせることでき、位置ズレのない原稿画像で領域指定を実施することが可能となる。
実施例2においては、読み取った画像データの位置合わせ処理を行うことで、複数部の画像間で位置ズレが起こった場合も、同座標を選択することが可能となる構成を説明した。しかし、ズレ量が大きすぎる場合や画像間のマッチングを行うのに必要な情報がない場合などの理由で、画像データの位置合わせ処理を失敗してしまった場合も考えられる。その場合や、画像データの位置合わせ処理がない場合、最終的な処理が終了するまで実際に抽出される画像を確認することができない。
そこで、オペレータが終点を決めた時点で実際に抽出される画像を確認及び、再選択できる構成を説明する。図14に示す通り、実施例1では図5に示したS800〜S805の構成に加え、S807で示す領域指定の領域画像描画処理を追加した構成とする。S800〜S805の処理で抽出する領域指定を完了する。その後、S807の領域指定の領域画像描画処理において、実際に切り取られる原稿画像の描画を行う。
S805で座標指定を完了した後、図9のS717で画面上の座標値から紙面上での値に変換を行った値を用い、画像データから生成される原稿画像のトリミングを実行する。複数部ある原稿画像に対しトリミング処理が終了すると、画面上にトリミング処理結果を描画する。オペレータは、描画される原稿画像を確認することで、正確な位置で領域指定ができているか確認することができ、確認後、処理の終了もしくは、領域の再指定を行う事が可能となる。
実施例1においては、例としてOCR処理を行うための文字の取り出しを行う例を説明し、画面上に描画する2枚目以降の原稿画像に関して、描画サイズをオリジナルサイズのまま描画するような構成を説明した。
しかし、2枚目以降のトリミング画像を画面上に描画する場合、各原稿画像のトリミング画像が大きい場合や、読み取られる原稿の枚数が多い場合に画面にすべてトリミング画像を配置できるとは限らない。もしトリミング画像が大きく配置できない場合には、全てのトリミング画像の描画ができないことが考えられる。
そこで、描画するトリミング画像が大きい場合や読み取る原稿枚数が多い場合には、トリミング画像を変倍し画面に入りきるようにする。図15に示す通り、実施例1では図5に示したS800〜S805の構成に加え、S803とS804の間にS808で示すトリミング画像の変倍処理を追加した構成とする。トリミング画像とは、複数部読み込んだ定型フォーマット原稿に対応する原稿画像の内、2枚目以降の原稿画像からトリミングにより得られた原稿画像の事を指す。トリミング画像の例は図8の(b)、(c)の画像である。S803の2枚目以降の原稿画像のトリミング処理を行う。そこで、S808のトリミング画像の変倍処理において、トリミング処理を行った2枚目以降の原稿画像の枚数や幅、高さなどのサイズ、解像度を元に、全原稿画像を画面上に表示できるサイズの算出を行う。算出したサイズを元に変倍処理を実施し、S804のトリミング画像の描画処理で変倍処理及びトリミング処理済みの2枚目以降の原稿画像を描画する。
以上のようにトリミング画像の変倍処理を構成として追加することで、描画するトリミング画像が大きい場合や読み取る原稿枚数が多い場合であったとしても、複数あるトリミング画像を画面上に描画することが可能である。
なお、画面上に描画するトリミング画像は、画像形成装置100で読み込んだ画像をすべて描画する必要はない。例えば上限を決め読み込んだ上位の数の上限をいれても良いし、属性判定などを行い、領域の大きいものから順番に並べる構成であっても良い。
(その他の実施例)
本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施例の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施例の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
Claims (9)
- 複数の原稿を読み取る読取手段と、
前記読取手段により読み取った原稿のうち第1の原稿に対応する第1の画像を画面に表示させる表示制御手段と、
前記第1の画像における領域を指定するための領域の起点となる位置を受信する受信手段と、
前記受信手段により受信した前記領域の起点となる位置に従い、前記読取手段により読取られた第2の原稿に対応する第2の画像の領域を特定する特定手段と、
を有し、
前記表示制御手段は、前記第1の画像とともに前記特定手段により特定された前記第2の画像の領域を表示させることを特徴とする画像処理装置。 - 前記第2の原稿は、前記複数の原稿の中で、前記特定手段により特定される領域の大きさが最も大きい原稿であることを特徴とする請求項1に記載の画像処理装置。
- 前記特定手段により特定される第2の画像の領域は文字領域であることを特徴とする請求項1に記載の画像処理装置。
- 前記複数の原稿は共通のフォーマットを用いられていることを特徴とする請求項1に記載の画像処理装置。
- 前記受信手段は、前記第1の領域の終点となる位置の指定を受信することを特徴とする請求項1に記載の画像処理装置。
- 前記読取手段により読取った原稿に対応する画像の位置合わせを行う位置合わせ手段を有することを特徴とする請求項1に記載の画像処理装置。
- 前記画面に前記特定手段により特定された画像の領域を表示する際、該領域のサイズを変えて表示することを特徴とする請求項1に記載の画像処理装置。
- 複数の原稿を読み取る読取ステップと、
前記読取ステップにより読み取った原稿のうち第1の原稿に対応する第1の画像を画面に表示させる表示制御ステップと、
前記第1の画像における領域を指定するための領域の起点となる位置を受信する受信ステップと、
前記受信ステップにより受信した前記領域の起点となる位置に従い、前記読取ステップにより読取られた第2の原稿に対応する第2の画像の領域を特定する特定ステップと、
を有し、
前記表示制御ステップでは、前記第1の画像とともに前記特定ステップにより特定された前記第2の画像の領域を表示させることを特徴とする画像処理方法。 - コンピュータに請求項8の方法を実行させるプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015080441A JP2016200967A (ja) | 2015-04-09 | 2015-04-09 | 画像処理装置、画像処理方法、及びプログラム |
US15/082,894 US9692936B2 (en) | 2015-04-09 | 2016-03-28 | Image processing apparatus and image processing method for clipping, from a second image, an area at a position corresponding to designated position in a first image |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015080441A JP2016200967A (ja) | 2015-04-09 | 2015-04-09 | 画像処理装置、画像処理方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016200967A true JP2016200967A (ja) | 2016-12-01 |
Family
ID=57111424
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015080441A Pending JP2016200967A (ja) | 2015-04-09 | 2015-04-09 | 画像処理装置、画像処理方法、及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US9692936B2 (ja) |
JP (1) | JP2016200967A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019168747A (ja) * | 2018-03-22 | 2019-10-03 | 富士ゼロックス株式会社 | 文書読取装置及びプログラム |
US11170211B2 (en) | 2019-03-22 | 2021-11-09 | Fujifilm Business Innovation Corp. | Information processing apparatus for extracting portions filled with characters from completed document without user intervention and non-transitory computer readable medium |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4100746B2 (ja) | 1998-01-09 | 2008-06-11 | キヤノン株式会社 | 画像処理装置及び方法 |
JP4658078B2 (ja) * | 2006-03-13 | 2011-03-23 | 株式会社沖データ | 画像形成装置 |
KR101901910B1 (ko) * | 2011-12-23 | 2018-09-27 | 삼성전자주식회사 | 선택 영역을 변화시키는 결과 영상을 생성 또는 저장하는 장치 및 방법 |
-
2015
- 2015-04-09 JP JP2015080441A patent/JP2016200967A/ja active Pending
-
2016
- 2016-03-28 US US15/082,894 patent/US9692936B2/en active Active
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019168747A (ja) * | 2018-03-22 | 2019-10-03 | 富士ゼロックス株式会社 | 文書読取装置及びプログラム |
JP7059734B2 (ja) | 2018-03-22 | 2022-04-26 | 富士フイルムビジネスイノベーション株式会社 | 文書読取装置及びプログラム |
US11170211B2 (en) | 2019-03-22 | 2021-11-09 | Fujifilm Business Innovation Corp. | Information processing apparatus for extracting portions filled with characters from completed document without user intervention and non-transitory computer readable medium |
Also Published As
Publication number | Publication date |
---|---|
US9692936B2 (en) | 2017-06-27 |
US20160301827A1 (en) | 2016-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6983675B2 (ja) | スキャン画像に関連する情報を設定するための装置、方法、プログラム、およびシステム | |
US8237976B2 (en) | Image processing device and system, and computer readable medium therefor | |
EP2264995B1 (en) | Image processing apparatus, image processing method, and computer program | |
JP5554931B2 (ja) | 画像処理システム、画像処理装置、画像処理方法、及びプログラム | |
US10306085B2 (en) | Information processing apparatus, control method of information processing apparatus, and recording medium | |
JP2009165088A (ja) | 画像処理装置 | |
JP2019161463A (ja) | 画像処理装置、プログラム、画像処理方法 | |
JP2016200967A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
US8599433B2 (en) | Image processor, image processing method, computer readable medium, and image processing system | |
JP2019036891A (ja) | 画像処理装置とその制御方法、及びプログラム | |
JP2018117310A (ja) | スキャナー、スキャン制御プログラム、画像データの生成方法 | |
JP2019201356A (ja) | 画像処理装置、プログラム、画像処理方法 | |
JP2019140555A (ja) | 制御プログラム、および情報処理装置 | |
JP2009048473A (ja) | 画像検査装置、画像検査方法、及び画像検査プログラム。 | |
JP6152365B2 (ja) | 情報処理装置、及び画像処理プログラム | |
JP5537786B2 (ja) | 情報処理装置、画像形成装置、情報処理システム、プレビュー方法、情報処理システムの制御方法、プログラム | |
KR20120019020A (ko) | 화상을 독취하는 방법 및 이를 수행하는 화상독취시스템 | |
JP2021129252A (ja) | 機器、処理実行システム、処理実行方法、プログラム | |
JP2011242936A (ja) | 検版支援方法、その装置及びそのプログラム | |
JP4710508B2 (ja) | 画像処理プログラム、画像処理装置 | |
JP2017041174A (ja) | 描画命令処理装置および描画命令処理方法 | |
JP2016139360A (ja) | コンピュータプログラム及び制御装置 | |
JP2019134364A (ja) | スキャン画像データに関連する情報を設定するための装置、方法、及びプログラム | |
US20220301326A1 (en) | Ocr target area position acquisition system, computer-readable non-transitory recording medium storing ocr target area position acquisition program, hard copy, hard copy generation system, and computer-readable non-transitory recording medium storing hard copy generation program | |
JP2013122661A (ja) | 画像処理装置、画像処理方法、およびプログラム |