JP2021164132A - 画像処理システム、及びプログラム - Google Patents
画像処理システム、及びプログラム Download PDFInfo
- Publication number
- JP2021164132A JP2021164132A JP2020067335A JP2020067335A JP2021164132A JP 2021164132 A JP2021164132 A JP 2021164132A JP 2020067335 A JP2020067335 A JP 2020067335A JP 2020067335 A JP2020067335 A JP 2020067335A JP 2021164132 A JP2021164132 A JP 2021164132A
- Authority
- JP
- Japan
- Prior art keywords
- image
- processing system
- image processing
- character area
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 88
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000004458 analytical method Methods 0.000 claims abstract description 16
- 238000000605 extraction Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 17
- 238000010191 image analysis Methods 0.000 description 16
- 230000004044 response Effects 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 6
- 238000013523 data management Methods 0.000 description 5
- 238000012015 optical character recognition Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 239000003086 colorant Substances 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 239000000344 soap Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/00127—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/0035—User-machine interface; Control console
- H04N1/00405—Output means
- H04N1/00408—Display of information to the user, e.g. menus
- H04N1/0044—Display of information to the user, e.g. menus for image preview or review, e.g. to help the user position a sheet
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/94—Hardware or software architectures specially adapted for image or video understanding
- G06V10/945—User interactive design; Environments; Toolboxes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/94—Hardware or software architectures specially adapted for image or video understanding
- G06V10/95—Hardware or software architectures specially adapted for image or video understanding structured as a network, e.g. client-server architectures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/00127—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
- H04N1/00132—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture in a digital photofinishing system, i.e. a system where digital photographic images undergo typical photofinishing processing, e.g. printing ordering
- H04N1/00161—Viewing or previewing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/00127—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
- H04N1/00204—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server
- H04N1/00244—Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server with a server, e.g. an internet server
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/04—Scanning arrangements, i.e. arrangements for the displacement of active reading or reproducing elements relative to the original or reproducing medium, or vice versa
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/40—Picture signal circuits
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/40—Picture signal circuits
- H04N1/40062—Discrimination between different image types, e.g. two-tone, continuous tone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/41—Bandwidth or redundancy reduction
- H04N1/411—Bandwidth or redundancy reduction for the transmission or storage or reproduction of two-tone pictures, e.g. black and white pictures
- H04N1/413—Systems or arrangements allowing the picture to be reproduced without loss or modification of picture-information
- H04N1/417—Systems or arrangements allowing the picture to be reproduced without loss or modification of picture-information using predictive or differential encoding
- H04N1/4177—Systems or arrangements allowing the picture to be reproduced without loss or modification of picture-information using predictive or differential encoding encoding document change data, e.g. form drop out data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N2201/00—Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
- H04N2201/0077—Types of the still picture apparatus
- H04N2201/0094—Multifunctional device, i.e. a device capable of all of reading, reproducing, copying, facsimile transception, file transception
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Facsimiles In General (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
画面に表示された文字領域をクリックすることで画像の中の文字領域を選択し、ファイルの属性を設定する方法において、画面に表示されている複数ある文字領域のうちマウスで選択する場合に、ユーザが正しい文字領域を選択できているか判断が困難であった。
【解決手段】
本発明は、スキャン画像に属性情報を設定する画像処理システムであって、スキャン画像の文字領域を解析する解析処理手段と、スキャン画像をプレビュー画像として画面に表示する表示手段と、前記文字領域の1つがマウスオーバーされた場合に、マウスオーバーされた文字領域を識別可能に表示し、前記マウスオーバーされた文字領域の切り抜き画像を抽出し、前記マウスオーバーされた文字領域の文字列を抽出するとともに、前記切り抜き画像と、前記文字列の少なくとも一つを属性情報として画面に表示することを特徴とする。
【選択図】図7
Description
上記のようなシステムにおいて、帳票画像に対して文字認識を行って表示したプレビュー画像上の文字領域をクリックすることで画像の中の文字を属性に設定する方法が考えられる。文字領域をクリックする操作において、ユーザが設定したい文字を明確にし、誤った選択を防止する処理方法として、大きな文字をポイントするときは大きなマウスカーソルを表示し、小さな文字をポイントする時は小さなマウスカーソルを表示する方法があった(特許文献1)。
本発明は、上記課題に鑑みてなされたものであり、スキャン画像の文字領域をマウスオーバーしたときに、マウスオーバーされた文字領域に枠をつけるなど識別可能に表示することを目的とする。さらに、マウスオーバーされた文字領域の切り抜き画像とOCR処理で抽出した文字列を、スキャン画像とは別の属性領域に明確に表示することを目的とする。
図1は、本システムのハードウェアの全体構成を示す図である。画像処理システムは、画像処理装置であるMFP(Multifunction Peripheral)110、クライアントPC111、MFP連携サービスサーバ120及びクラウドストレージ130を含んでいる。MFP110及びクライアントPC111は、LAN(Local Area Network)112経由でインターネット上の各種サービスを提供するサーバに対して通信可能に接続されている。
MFP110は、スキャナやプリンタといった複数の機能を有する複合機であり、画像処理装置の一例である。
クライアントPC111はMFP連携サービスサーバ120に対して依頼したサービスの提供を受けるコンピュータである。
MFP連携サービスサーバ120は、MFP110でスキャンした画像ファイルを自サーバ上に保存したり、別のストレージサービス等のファイル保存が可能なサービスに転送したりする機能を持つサーバである。
クラウドストレージ130は、インターネットを介してファイルを保存したりウェブブラウザでファイルを取得したりすることができるサービスである。
なお、本実施例の画像処理システムは、MFP110、クライアントPC111、MFP連携サービスサーバ120及びクラウドストレージ130からなる構成としているがこれに限定されるものではない。例えば、MFP110がクライアントPC111やMFP連携サービスサーバ120の役割を兼ね備えてもよい。また、MFP連携サービスサーバ120はインターネット上ではなくLAN112上のサーバに配置してもよい。また、クラウドストレージ130はメールサーバなどに置き換えて、スキャンした画像をメールに添付し送信することとしてもよい。
図2は、MFP110のハードウェア構成図である。MFP110は、制御部210、操作部220、プリンタ部221、スキャナ部222、モデム223で構成される。
制御部210は、互いにシステムバス240で接続される以下の各部211〜219で構成され、MFP110全体の動作を制御する。
CPU211は、ROM212に記憶された制御プログラムを読み出して、読取/印刷/通信などMFP110が有する各種機能を実行・制御する。
RAM213は、CPU211の主メモリ、ワークエリア等の一時記憶領域として用いられる。なお、本実施例では1つのCPU211が1つの記憶領域(RAM213又はHDD214)を用いて後述のフローチャートに示す各処理を実行するものとするが、これに限定されるものではない。例えば、複数のCPUや複数のRAM又はHDDを協働させて各処理を実行してもよい。
HDD214は、画像データや各種プログラムを記憶する大容量記憶部である。
操作部I/F215は、操作部220と制御部210とを接続するインタフェースである。
操作部220には、タッチパネルやキーボードなどが備えられており、ユーザによる操作/入力/指示を受け付ける。
プリンタI/F216は、プリンタ部221と制御部210とを接続するインタフェースである。印刷用の画像データはプリンタI/F216を介して制御部210からプリンタ部221へ転送され、記録媒体上に印刷される。
スキャナI/F217は、スキャナ部222と制御部210とを接続するインタフェースである。
スキャナ部222は、不図示の原稿台やADF(Auto Document Feeder)にセットされた原稿を読み取って画像データを生成し、スキャナI/F217を介して制御部210に入力する。MFP110は、スキャナ部222で生成された画像データをプリンタ部221から印刷出力(コピー)する他、ファイル送信又はメール送信することができる。
モデムI/F218は、モデム223と制御部210とを接続するインタフェースである。
モデム223は、PSTN上のファクシミリ装置との間で画像データをファクシミリ通信する。
ネットワークI/F219は、制御部210(MFP110)をLAN112に接続するインタフェースである。MFP110は、ネットワークI/F219を用いてインターネット上の各サービスに画像データや情報を送信したり、各種情報を受信したりする。
図3は、クライアントPC111及びMFP連携サービスサーバ120のハードウェア構成図である。クライアントPC111及びMFP連携サービスサーバ120は、どちらもいわゆる情報処理装置で、CPU311、ROM312、RAM313、HDD314及びネットワークI/F315で構成され、互いにシステムバス316で接続されている。
CPU311は、ROM312に記憶された制御プログラムを読み出して各種処理を実行することで、全体の動作を制御する。
RAM313は、CPU311の主メモリ、ワークエリア等の一時記憶領域として用いられる。
HDD314は、画像データや各種プログラムを記憶する大容量記憶部である。
ネットワークI/F315は、クライアントPC111、MFP連携サービスサーバ120、クラウドストレージ130をネットワークに接続するインタフェースである。クライアントPC111は、構内のLAN112に、MFP連携サービスサーバ120及びクラウドストレージ130は、構内のLANを通してインターネットに接続される。そして、MFP連携サービスサーバ120、クラウドストレージ130は、ネットワークI/F315を介して他の装置(MFP110など)から処理リスエストを受けて各種情報を送受信する。
図4は、本実施例に係る画像処理システムのソフトウェア構成図である。
2−1.MFP
MFP110は、ネイティブ機能部410と追加機能部420の大きく2つに分けられる。ネイティブ機能部410に含まれる各部はMFP110に標準的に備えられたものであり、追加機能部420はMFP110に追加インストールされたアプリケーションである。追加機能部420は Java(登録商標)をベースとしたアプリケーションで、MFP110への機能追加を容易に実現できる。なお、MFP110には図示しない他の追加アプリケーションがインストールされていてもよい。
ネイティブ機能部410は、スキャン実行部411及び画像データ保存部412を有する。追加機能部420は、表示制御部421、スキャン指示部422、連携サービスリクエスト部423を有する。
表示制御部421は、MFP110の操作部220のタッチパネル機能を有する液晶表示部に、ユーザによる操作を受け付けるためのUI画面を表示する。例えば、MFP連携サービスサーバ120へアクセスするための認証情報の入力、スキャン設定、ならびに、スキャン開始の操作、プレビュー画面などのUI画面を表示する。
スキャン指示部422は、UI画面を介して入力されたユーザ指示に応じたスキャン設定と共にスキャン実行部411にスキャン処理を要求する。
スキャン実行部411は、スキャン指示部422からのスキャン設定を含んだスキャン要求を受け取る。スキャン実行部411は、スキャン要求に従い、スキャナI/F217を介してスキャナ部222により読取られた原稿台ガラスに置かれた原稿のスキャン画像データを生成する。生成したスキャン画像データは、画像データ保存部412に送られる。また、スキャン実行部411は、保存したスキャン画像データを一意に示すスキャン画像識別子をスキャン指示部422へ送る。スキャン画像識別子はMFP110においてスキャンした画像を一意に識別するための番号や記号、アルファベットなどである(不図示)。画像データ保存部412は、スキャン実行部411から受け取ったスキャン画像データをHDD214に保存する。
スキャン指示部422は、スキャン実行部411から受け取ったスキャン画像識別子に対応するスキャン画像データを画像データ保存部412から取得する。スキャン指示部422は、取得したスキャン画像データをMFP連携サービスサーバ120で処理させる指示を連携サービスリクエスト部423に要求する。
連携サービスリクエスト部423は、MFP連携サービスサーバ120に対して各種処理の要求を行う。例えば、ログイン、スキャン画像の解析、スキャン画像の送信などの要求を行う。MFP連携サービスサーバ120とのやり取りはRESTやSOAPなどのプロトコルを使用するが、その他の通信手段を用いてもよい。
MFP連携サービスサーバ120は、リクエスト制御部431、画像処理部432、クラウドストレージアクセス部433、データ管理部434、表示制御部435を有する。
リクエスト制御部431は、外部装置からの要求を受信できる状態で常に待機している。処理要求を受けると要求に応じて適宜、画像処理部432、クラウドストレージアクセス部433、データ管理部434に処理を指示する。
画像処理部432は、画像に対して文字領域解析、OCR(Optical Character Recognition)、類似帳票判定(後述の図5のS510の処理で説明する)、画像の回転や傾き補正などの画像に対する認識処理や画像の加工処理を行う。
クラウドストレージアクセス部433は、クラウドストレージ130に対する処理の要求を行う。クラウドサービスは一般的にRESTやSOAPなどのプロトコルで、クラウドストレージにファイルを保存したり、保存したファイルを取得したりするための様々なインタフェースを公開している。クラウドストレージアクセス部433は、公開されたクラウドストレージのインタフェースを使用してクラウドストレージ130の操作を行う。
データ管理部434は、MFP連携サービスサーバ120で管理するユーザ情報や各種設定データ等を保持する。
表示制御部435は、インターネット経由で接続されたPCやモバイル等の別端末(不図示)上で動作しているウェブブラウザからのリクエストを受けて画面表示に必要な画面構成情報(HTML、CSS等)を返す。ユーザは、ウェブブラウザで表示される画面経由でMFP連携サービスサーバ120に登録しているユーザ情報を確認したり、スキャンする際の設定を変更したりする。
なお図4ではMFP110に追加機能部420をインストールする構成の例について説明したが、本発明は、この構成に限定されず、クライアントPC111に追加機能部420の機能が含まれていても構わない。
3−1.全体の処理シーケンス
図5は、MFP110でスキャンした画像をファイル化してクラウドストレージに送信する際の各装置間の処理の流れを示すシーケンス図である。ここでは、各装置間のやり取りを中心に説明する。なお、図5ではMFP110がMFP連携サービスサーバ120とやり取りする動作としているが、後述する解析結果取得、画面の表示、学習の指示等はMFP110でなくクライアントPC111が実行する構成でも構わない。
MFP110は、通常の状態では提供する各機能を実施するためのボタンを並べたメイン画面を操作部220のタッチパネル上に表示する。
MFP110に、帳票をスキャンしてその画像ファイルをクラウドストレージ130に送信するための追加アプリケーション(以下「スキャンアプリ」という。)をインストールすることで、アプリケーションの機能を使用するボタンがMFP110のメイン画面に表示される。このボタンを押すとスキャンした帳票をクラウドストレージ130に送信するための画面が表示され、図5のシーケンスで示す処理が行われる。
S501で、スキャンアプリは、MFP連携サービスサーバ120にアクセスするための認証情報を入力するログイン画面(不図示)を表示する。
S502で、ユーザによりログイン画面にユーザID等が入力されると、スキャンアプリは、MFP連携サービスサーバ120に対してログイン要求を実行する。
S503で、MFP連携サービスサーバ120は、ログイン要求に含まれるユーザ名とパスワードが正しいかを、データ管理部434が管理しているユーザ情報と照合、検証し、正しければアクセストークンをMFP110に返信する。
以降のMFP110からMFP連携サービスサーバ120に対して行う各種リクエストにはこのアクセストークンと共に出され、このアクセストークンにより処理対象のユーザを特定することができる。ユーザ認証の方法は一般的に公知な手法(Basic認証、Digest認証、OAuthを用いた認可等)を用いて行う。
すると、S505で、MFP110はスキャンを実行して、紙帳票を電子化したスキャン画像のデータを生成する。
続く、S506で、MFP110はスキャン処理により生成した画像とともにスキャン画像の解析要求をMFP連携サービスサーバ120に送信する。
S507で、MFP連携サービスサーバ120のリクエスト制御部431は、スキャン画像の解析要求を受信すると、画像処理部432に画像解析を依頼する。
その後、MFP連携サービスサーバ120のリクエスト制御部431は、画像解析処理の終了を待たずに、依頼されたスキャン画像の解析要求を一意に示す識別子である”processId”をMFP110に返信する。
一方、画像解析の要求を受けたMFP連携サービスサーバ120の画像処理部432は、画像解析処理(S508〜S510)を行う。
画像処理部432は、画像解析処理のS508で、画像内に存在する文字領域の解析を行う。これは文字領域の配置情報等の解析を行うものである。
続いて、S509で帳票内の文字領域の配置情報を利用して、過去にスキャンした画像の配置情報と今回スキャンした画像の配置情報を比較し類似した文字領域の配置を持つ画像をスキャンしたかどうかを判定する。この処理を類似帳票判定という。この判定で使用する過去のスキャン画像の情報は後述するS517の処理により保存、蓄積がなされている。
その後S510で判定結果に基づいて、解析した文字領域に対して文字認識処理を行う。なおS508〜S510の画像解析処理結果に基づく表示処理の詳細については図7を用いて後述する。
レスポンスには、statusに現在の処理状況を示す文字列が格納される。例えばstatusが”processing”の時は、MFP連携サービスサーバ120で処理中であることを示し、”completed”の時は処理が完了している状態であることを示す。なお、処理が失敗した場合に”failed”など、この他のステータスが返信されることもある。また処理完了時(statusが”completed”の場合)のレスポンスには、ステータスと共にスキャン画像を解析した結果やスキャン設定等の情報が含まれる。
画像解析処理が終了すると、画像処理部432からリクエスト制御部431に画像解析処理が完了した旨の通知がなされる。
MFP連携サービスサーバ120において画像解析処理が完了した後、S512で、MFP110が、MFP連携サービスサーバ120に対して処理状況確認を行うと、リクエスト制御部431から、画像解析処理が完了している旨の処理ステータスのレスポンスが返信される。
続いて、S513において、MFP110はリクエスト制御部431に対し画像解析結果を取得要求をし、リクエスト制御部431から解析結果についてのレスポンスを受ける。そして、そのレスポンスに含まれる結果情報が格納されたURLから画像解析結果情報を取得する。類似帳票があった場合には、画像解析結果としての属性情報も含まれる。
MFP110は、スキャン済み帳票一覧画面600(図6A)を操作部220に表示する。
ユーザは、属性設定画面でスキャンされた帳票に属性を設定し、「OK」ボタンを押下する。
S515で、MFP110は、属性を設定するために使用した文字領域の情報を入力情報として、帳票の学習の依頼をMFP連携サービスサーバ120に送信する。
S516で、属性を設定するために使用した文字領域の情報を受信したMFP連携サービスサーバ120のリクエスト制御部431は、画像処理部432に帳票学習を依頼する。
S517で、画像処理部432は画像全体の文字領域の情報とS516で受け取ったユーザが属性に使用した文字領域の情報を学習の入力情報として保存する。
またS518において、MFP連携サービスサーバ120は、S517で保存した帳票と類似する帳票が存在する場合には再度類似帳票判定処理を行う。学習が終了したらその旨をMFP110に通知する。ここで、学習とは、帳票とその帳票の文字領域の配置情報のデータを関係づけて保存することである。
その後S519で、MFP110はスキャン画像と、スキャン画像をファイル化した後に設定するファイル名等の属性情報をMFP連携サービスサーバ120に送信する。MFP連携サービスサーバ120はリクエストを受信すると、リクエストを正常に受けたことをMFP110に返す。
MFP110は送信のレスポンスを受けると処理を終了し、S504のスキャン設定画面表示に戻る。
S520で、MFP連携サービスサーバ120のリクエスト制御部431は、ファイル生成処理を開始する。ここで、MFP連携サービスサーバ120は、MFP連携サービスサーバ120に登録されたスキャン設定からクラウドストレージ130に送信するファイルフォーマットの情報を取得し、その設定に基づいてスキャン画像からファイルを生成する。
そして、S521でMFP連携サービスサーバ120のリクエスト制御部431は、生成したファイルをS519で受信した属性情報を設定してクラウドストレージ130に送信する。
クラウドストレージ130は、ファイルを受信すると、送信完了のレスポンスをMFP連携サービスサーバ120に返す。
図6A、BはMFP110が表示する画面の一例を示す図である。これらの画面の制御は表示制御部421が表示制御を行う。なお、前述のとおりこの画面を表示するのはクライアントPC111であってもよい。
図6Aはスキャン済み帳票一覧画面600の一例を示す図である。本画面はスキャン及び画像解析処理が完了し、クラウドストレージ130に送信前の帳票の一覧を閲覧することができる(図5のS513)。また本画面はスキャン済み帳票一覧601、送信ボタン602、編集ボタン603、削除ボタン604から構成されている。
スキャン済み帳票一覧601はスキャン及び画像解析(S505〜S510)が完了した帳票の一覧を表示するエリアである。本エリアは帳票名605、送信先606、ステータス607、種類608のフィールドから構成されている。
帳票名605は帳票の名前を一意に識別する識別子である。
送信先606は帳票のファイルの送信先であるクラウドストレージ130の名前である。
ステータス607は帳票に対して類似帳票判定を行った際の結果を示しており、"未学習"又は"学習済"のいずれかが表示される。"未学習"は類似帳票が存在しないと判定されたことを、"学習済"は類似帳票が存在したと判定されたことを意味している。
種類608は帳票の種類を表している。例えば"見積書"や"請求書"が表示される。またステータス607が学習済の帳票に関しては、"請求書AAA"や"請求書BBB"のように、どの請求書のフォーマットに該当するか詳細な種類も表示される。これは類似帳票判定処理により決定した最も類似する帳票と関連付けられている。
送信ボタン602はクラウドストレージ130に対して帳票を送信するためのボタンである。スキャン済み帳票一覧601から任意の帳票を選択し、送信ボタン602を押下することで送信先606に表示されているクラウドストレージ130に対して送信を行う。なお送信が正常に完了した場合、その帳票は一覧から削除される。
編集ボタン603は、後述する属性設定画面610に移動するためのボタンである。スキャン済み帳票一覧601から任意の帳票を選択し、編集ボタン603を押下することで選択した帳票の属性設定画面610(図6B)へと移動し、ユーザにより属性設定を編集可能する。
削除ボタン604は帳票の削除を行うボタンである。スキャン済み帳票一覧601から任意の帳票を選択し、削除ボタン604を押下することで選択した帳票を削除することができる。
属性領域611は、ユーザが設定した属性情報を表示する領域である。属性領域611には属性情報を入力するテキストフィールド618と後述する文字領域の切り抜き画像619が表示される。文字領域が選択されていない場合、テキストフィールドは空であり、切り抜き画像は設定されていない状態で表示される。また、クリック等で選択状態となった属性領域はユーザに識別できるように背景色が変えたり、枠で囲ったりしてもよい。
プレビュー領域612は、スキャン画像を表示する。画像の文字領域をマウスオーバーすると、当該文字領域を識別可能に線、枠線などの形状や色を付与する。さらに、テキストフィールド618に当該文字領域の文字列が表示される。また、切り抜き画像619に当該文字領域の切り抜き画像が表示される。マウスオーバーされる文字領域が変わるたびにテキストフィールド618及び切り抜き画像619が切り替わる。このとき、仮設定であることをユーザに知らせるために、後述する文字領域クリックによって選択が確定された際の表示形式と異なる表示形式で文字領域を表現してもよい。詳細は、図7のフローチャートを用いて後述する。文字領域をクリックすると、クリックした位置に対応する文字領域の選択が確定される。選択したことがわかるように選択した文字領域などに線、枠線などの形状や色などを付与して表示する。属性ごとに文字領域の色を異なる色にしてもよいし、一つの属性に対して複数の文字領域を選択した場合、それぞれの文字領域の色を異なる色にしてもよい。また、選択した文字領域が中央になるようにプレビュー表示位置の変更や、拡大率の変更を行ってもよい。
一度選択した文字領域を再度クリックすると、選択が解除されて対応するファイル名の文字列を削除して、文字領域に付与した線や色なども表示しない状態に戻す。例では文字列が非選択時の場合に、文字領域はプレビュー上には表示されないように記載している。しかし、ユーザにどの領域がクリックできるのかを示すために色や枠線を用いて文字領域がわかるように表示してもよい。また、文字領域がわかるようにする表示は、ボタンなどで表示と非表示が切り替えられるようにしてもよい。また、プレビュー領域に対してスワイプ操作を行うと、プレビュー領域で表示される画像の位置を移動するようにする。
プレビュー拡大ボタン614は、プレビュー領域に表示している画像の拡大倍率を大きくする。
プレビュー縮小ボタン615は、プレビュー領域に表示している画像の拡大倍率を小さくする。
なお、拡大及び縮小時にプレビュー領域の中央の座標が拡大及び縮小前と同一となるように表示位置の調整を行う。
プレビュー初期表示ボタン616は、スワイプによるプレビュー画像の表示位置の移動やプレビュー拡大ボタンやプレビュー縮小ボタンを押して表示倍率を変更していた場合に、初期状態の倍率と表示位置に戻す。
OKボタン617は、属性設定画面610で設定したファイル名と共にスキャン画像をMFP連携サービスサーバ120へ送信し、機械学習処理(S515〜S518)を実行する。送信が完了するとスキャン済み帳票一覧画面600に戻る。
図7は、本システムにおける文字領域にマウスオーバーした時の表示処理の詳細を示すフローチャートである。カーソルがプレビュー画像上にある場合に繰り返し実行される。
はじめにS1において、マウスオーバーされた箇所が文字領域かどうか判定する。S1において、マウスオーバーされた箇所が文字領域であると判定された場合(Yes)は、S2に進み、文字領域でないと判定された場合(No)は、S7に進む。
文字領域であった場合、S2で、当該文字領域を線、枠線などの形状や色を付与する。
続くS3で、当該文字領域の枠に合わせて画像を切り取ることで、切り取り画像を抽出する。
S4で、当該文字領域の文字列を抽出する。S4の時点でOCR処理を行い、文字列を抽出してもよい。また、事前にプレビュー画像内の全文字領域にOCR処理を行うか、S513の解析結果の取得要求のレスポンスとして、S510での全文字医療域の文字認識処理の結果を取得し、利用してもよい。
S5で、S3で抽出した切り抜き画像619を属性領域に表示する。
S6で、S4で抽出した文字列を属性領域のテキストフィールド618に表示し、本フローを終了する。
一方、文字領域でないと判定された場合は、S7で、文字領域に付与された枠や線を消し、属性領域の切り抜き画像及びテキストフィールドを元の表示に戻し、本フローを終了する。
図8(a)は、マウスカーソル801がプレビュー画像802の領域の外にある場合を図示している。この時点では、プレビュー画像802内の文字領域に対して、枠や線などの形状や色が付与されていない。
一方、図8(b)のマウスカーソル801がプレビュー画像の領域の中にある場合では、プレビュー画像802内の全文字領域を識別可能に枠や線などの形状や色を付与する(803)。そして、この状態で、実施例1で説明したようにプレビュー画像内の文字領域にマウスオーバーされると、前記全文字領域に付与された色や形状と異なる色や形状を当該マウスオーバーされた文字領域に付与することで識別可能に表示する。
以上本発明は、画像処理装置(MFP)とMFP連携サービスサーバ、クラウドストレージを組み合わせたシステムとして説明したが、説明した各機能はそれぞれ他の装置が備えるものであってもよい。例えば、全ての機能を画像処理装置(MFP)が備えてもよく、また、サービスサーバがストレージの機能を備えるものであってもよい。
また、本発明では、帳票の文字領域の配置情報から類似帳票を判定しているが、その判定に、文字領域の配置情報と帳票との関係を学習したニューラルネットワークを用いて、判定させるようにしてもよい。
また、本発明における、画像の文字領域の選択機能は、画像を表示、選択可能とする情報処理装置であれば適用可能である。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
111 クライアントPC
120 MFP連携サービスサーバ
421 表示制御部
431 リクエスト制御部
432 画像処理部
434 データ管理部
Claims (14)
- スキャン画像に属性情報を設定する画像処理システムであって、
スキャン画像の文字領域を解析する解析処理手段と、
スキャン画像をプレビュー画像として画面に表示する表示手段と、
前記文字領域の1つがマウスオーバーされた場合に、
マウスオーバーされた文字領域を識別可能に表示する第1の表示制御手段と、
前記マウスオーバーされた文字領域の切り抜き画像を抽出する第1の抽出手段と、
前記マウスオーバーされた文字領域の文字列を抽出する第2の抽出手段と、
前記切り抜き画像と、前記文字列の少なくとも一つを属性情報として画面に表示する第2の表示手段と、
を備えることを特徴とする画像処理システム。 - 前記プレビュー画像がマウスオーバーされた場合、
プレビュー画像にマウスオーバーすると、プレビュー画像内の全文字領域を識別可能に表示する第2の表示制御手段を有し、
前記第1の表示制御手段は、さらに、前記文字領域の1つがマウスオーバーされた場合、マウスオーバーされた文字領域を識別可能に表示すること
を有することを特徴とする請求項1に記載の画像処理システム。 - 前記第1の表示制御手段は、前記文字領域に、線又は枠線による形状及び/又は色を付与し識別可能に表示することを特徴とする請求項1に記載の画像処理システム。
- 前記第2の表示制御手段は、前記文字領域に、線又は枠線による形状及び/又は色を付与し識別可能に表示することを特徴とする請求項2に記載の画像処理システム。
- スキャン画像は、帳票の画像であることを特徴とする請求項1〜4の何れか1項に記載の画像処理システム。
- 前記解析処理手段は、文字領域の配置情報も解析することを特徴とする請求項1〜5のいずれか1項に記載の画像処理システム。
- 前記第2の表示手段により画面に表示された属性情報は、ユーザにより確定がなされることを特徴とすることを特徴とする請求項1〜6の何れか1項に記載の画像処理システム。
- 前記スキャン画像のファイルをストレージに保存することを特徴とする請求項1〜7の何れか1項に記載の画像処理システム。
- 前記ストレージは、ネットワークにより接続された外部のストレージであることを特徴とする請求項8の何れか1項に記載の画像処理システム。
- 前記解析処理手段は、前記スキャン画像と保存された帳票との類似の判定を行い、類似する帳票が存在する場合には、その帳票の種類を解析結果とすることを特徴とする請求項1〜9の何れか1項に記載の画像処理システム。
- 前記画像処理システムは、画像処理装置と、前記画像処理装置とネットワークにて通信可能に接続されているサーバから構成され、
前記解析処理手段は、前記サーバが備えていることを特徴とする請求項1〜10の何れか1項に記載の画像処理システム。 - 前記画像処理システムは、画像処理装置のみから構成されていることを特徴とする請求項1〜10の何れか1項に記載の画像処理システム。
- スキャン画像に属性情報を設定する画像処理システムの制御方法であって、
スキャン画像の文字領域を解析する解析ステップと、
スキャン画像をプレビュー画像として画面に表示する第1の表示ステップと、
前記文字領域の1つがマウスオーバーされた場合に、
マウスオーバーされた文字領域を識別可能に表示する表示制御ステップと、
前記マウスオーバーされた文字領域の切り抜き画像を抽出する第1の抽出ステップと、
前記マウスオーバーされた文字領域の文字列を抽出する第2の抽出ステップと、
前記切り抜き画像と、前記文字列の少なくとも一つを属性情報として画面に表示する第2の表示ステップと、
を備えることを特徴とする画像処理システムの制御方法 - 請求項13に記載の画像処理システムの制御方法を、コンピュータに実行させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020067335A JP2021164132A (ja) | 2020-04-03 | 2020-04-03 | 画像処理システム、及びプログラム |
US17/217,256 US11528372B2 (en) | 2020-04-03 | 2021-03-30 | Image processing system for providing attribute information, image processing method and storage medium |
CN202110346079.3A CN113497860A (zh) | 2020-04-03 | 2021-03-31 | 提供属性信息的图像处理***、图像处理方法及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020067335A JP2021164132A (ja) | 2020-04-03 | 2020-04-03 | 画像処理システム、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021164132A true JP2021164132A (ja) | 2021-10-11 |
JP2021164132A5 JP2021164132A5 (ja) | 2023-04-10 |
Family
ID=77922646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020067335A Pending JP2021164132A (ja) | 2020-04-03 | 2020-04-03 | 画像処理システム、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11528372B2 (ja) |
JP (1) | JP2021164132A (ja) |
CN (1) | CN113497860A (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023160049A (ja) * | 2022-04-21 | 2023-11-02 | キヤノン株式会社 | 情報処理装置 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001154779A (ja) | 1999-11-25 | 2001-06-08 | Sharp Corp | マウスカーソル制御方法 |
US20020188669A1 (en) * | 2001-06-11 | 2002-12-12 | Levine Marc Jay | Integrated method for disseminating large spatial data sets in a distributed form via the internet |
US7188316B2 (en) * | 2003-03-24 | 2007-03-06 | Microsoft Corporation | System and method for viewing and editing multi-value properties |
US20070192719A1 (en) * | 2006-02-10 | 2007-08-16 | Microsoft Corporation | Hover indicator for objects |
JP2012009005A (ja) * | 2010-05-24 | 2012-01-12 | Pfu Ltd | 帳票処理システム、ocr装置、ocr処理プログラム、帳票作成装置、帳票作成プログラム、および帳票処理方法 |
US9015141B2 (en) * | 2011-02-08 | 2015-04-21 | The Nielsen Company (Us), Llc | Methods, apparatus, and articles of manufacture to measure search results |
US8953228B1 (en) * | 2013-01-07 | 2015-02-10 | Evernote Corporation | Automatic assignment of note attributes using partial image recognition results |
JP2014203219A (ja) * | 2013-04-03 | 2014-10-27 | 日本電信電話株式会社 | エリア消費電力可視化システム |
US10146424B2 (en) * | 2014-02-28 | 2018-12-04 | Dell Products, Lp | Display of objects on a touch screen and their selection |
JP6370162B2 (ja) * | 2014-08-22 | 2018-08-08 | キヤノン株式会社 | 情報処理装置、情報処理方法、プログラム |
US9594489B2 (en) * | 2014-08-12 | 2017-03-14 | Microsoft Technology Licensing, Llc | Hover-based interaction with rendered content |
KR102399764B1 (ko) * | 2015-09-22 | 2022-05-19 | 삼성전자 주식회사 | 전자 장치 및 촬영 방법 |
JP6968647B2 (ja) * | 2017-10-03 | 2021-11-17 | キヤノン株式会社 | スキャン画像にファイル名を設定するための装置、その制御方法及びプログラム |
JP7034730B2 (ja) * | 2018-01-23 | 2022-03-14 | キヤノン株式会社 | スキャン画像に関連する情報を設定するための装置、方法、およびプログラム |
JP6983675B2 (ja) * | 2018-01-23 | 2021-12-17 | キヤノン株式会社 | スキャン画像に関連する情報を設定するための装置、方法、プログラム、およびシステム |
JP7077127B2 (ja) * | 2018-05-09 | 2022-05-30 | キヤノン株式会社 | スキャン画像データに関連する情報を設定するための装置、方法、及びプログラム |
US10921975B2 (en) * | 2018-06-03 | 2021-02-16 | Apple Inc. | Devices, methods, and user interfaces for conveying proximity-based and contact-based input events |
-
2020
- 2020-04-03 JP JP2020067335A patent/JP2021164132A/ja active Pending
-
2021
- 2021-03-30 US US17/217,256 patent/US11528372B2/en active Active
- 2021-03-31 CN CN202110346079.3A patent/CN113497860A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20210314449A1 (en) | 2021-10-07 |
CN113497860A (zh) | 2021-10-12 |
US11528372B2 (en) | 2022-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6953230B2 (ja) | スキャン画像にファイル名等を設定するための装置、その制御方法及びプログラム | |
JP6968647B2 (ja) | スキャン画像にファイル名を設定するための装置、その制御方法及びプログラム | |
JP7391672B2 (ja) | 文書を電子化するための画像処理システム、その制御方法及びプログラム | |
JP7317561B2 (ja) | タッチパネルを用いた文字入力のための画像処理装置、その制御方法及びプログラム | |
JP7467737B2 (ja) | ユーザ操作のためのガイダンスを表示する画像処理装置、その制御方法及びプログラム | |
JP2021163178A (ja) | 情報処理装置 | |
JP7225017B2 (ja) | タッチパネルを用いた文字入力のための画像処理装置、その制御方法及びプログラム | |
JP7330742B2 (ja) | スキャン画像にプロパティを設定するための画像処理装置、その制御方法及びプログラム | |
US11800032B2 (en) | Apparatus, information processing method, and storage medium | |
JP2021164132A (ja) | 画像処理システム、及びプログラム | |
JP2023072812A (ja) | 情報処理装置、情報処理装置の制御方法、そのプログラム及び画像処理システム | |
CN113225446B (zh) | 使文档计算机化的图像处理***及其控制方法和存储介质 | |
JP7358663B2 (ja) | タッチパネルを用いた文字入力のための画像処理装置、その制御方法及びプログラム | |
JP7387282B2 (ja) | スキャン画像のプレビュー表示を行なう画像処理装置、その制御方法及びプログラム | |
JP2023071227A (ja) | 情報処理装置、情報処理装置の制御方法及びプログラム | |
JP2024032563A (ja) | 情報処理装置、情報処理装置の制御方法及びプログラム | |
JP2023167871A (ja) | 画像処理装置、情報処理装置、画像処理システム、画像処理方法、情報処理方法、およびプログラム | |
JP2021118534A (ja) | 文書を電子化するための画像処理システム、その制御方法及びプログラム | |
JP2022083074A (ja) | 情報処理システム | |
JP2024040612A (ja) | 情報処理装置、情報処理装置の制御方法、及びプログラム | |
JP2024072113A (ja) | 情報処理装置、情報処理装置の処理方法およびプログラム | |
JP2022113038A (ja) | 画像処理装置、方法、及びプログラム | |
JP2023120267A (ja) | タッチパネルを用いた文字入力のための画像処理装置、その制御方法及びプログラム | |
JP2022167157A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
JP2022069405A (ja) | 情報処理装置、情報処理システム、情報処理装置の制御方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230331 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230331 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240123 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240227 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240425 |