JP2021012589A - 画像処理装置、画像処理方法及びプログラム - Google Patents
画像処理装置、画像処理方法及びプログラム Download PDFInfo
- Publication number
- JP2021012589A JP2021012589A JP2019127026A JP2019127026A JP2021012589A JP 2021012589 A JP2021012589 A JP 2021012589A JP 2019127026 A JP2019127026 A JP 2019127026A JP 2019127026 A JP2019127026 A JP 2019127026A JP 2021012589 A JP2021012589 A JP 2021012589A
- Authority
- JP
- Japan
- Prior art keywords
- cpu
- processing
- character recognition
- image processing
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
【課題】画像処理において画質の劣化を防ぎ、かつ、処理時間を短縮することを目的とする。【解決手段】原稿画像に対して第1の文字認識処理を行い、領域を特定する。特定された領域にノイズ除去処理を実行する。ノイズ除去処理された原稿画像に対して第1の文字認識処理とは異なる第2の文字認識処理を行う。【選択図】図3
Description
本発明は、画像処理装置、画像処理方法及びプログラムに関する。
帳票文書、非定型面積の領収書、名刺、カード等の原稿をスキャナの原稿台上に複数枚並べてまとめて読み取りを行い、生成されたスキャン画像から各原稿領域の画像を切り出すマルチクロップ処理を行った後、必要な情報を取り出す帳票認識処理が知られている。
また、帳票認識処理において、文字抽出時のノイズとなり得る複雑背景・罫線等を有する帳票に対して、ノイズを除去する前処理が検討されている。例えば、特許文献1では、入力画像から文字画像を切り出し、文字画像に対してOCR(optical character recognition)処理を実施し、文字認識の確信度によって文字画像に対してノイズ除去を行った後、再度OCRする、それでも確信度がまだ低ければ更にノイズ除去をしてOCRを繰り返す方法が提案されている。
また、帳票認識処理において、文字抽出時のノイズとなり得る複雑背景・罫線等を有する帳票に対して、ノイズを除去する前処理が検討されている。例えば、特許文献1では、入力画像から文字画像を切り出し、文字画像に対してOCR(optical character recognition)処理を実施し、文字認識の確信度によって文字画像に対してノイズ除去を行った後、再度OCRする、それでも確信度がまだ低ければ更にノイズ除去をしてOCRを繰り返す方法が提案されている。
マルチクロップ処理の対象とする文書には、帳票類等が含まれるが、一般に利用される帳票においては、様々な書式が存在する。例えば、物品購入時に受け取るレシートでは、薄い着色領域があるものや、ないものがある。又は領収書をとってみると、電車の自動販売機で発見される領収書等、背景に薄い色で細かなパターン模様が印字されているものがある。また、他の法的な証明書となる帳票、例えば保険証文や、車検証等の証明書は、薄いコピー防止のための地紋が印字されているものが多い。
これらの背景は、OCRにおいて精確な文字認識の妨げになる。また、他にもOCRの妨げになる、より一般的な帳票の構成物として、表の罫線や、スキャナでのスキャン時に混入してしまうゴマ塩ノイズのようなものもある。罫線は文字と接触することによってOCRを妨げ、ゴマ塩ノイズのような粒状のノイズもOCRにとって阻害要因となる。
これら、一部の色領域(網掛け)、薄い背景パターン、地紋パターン、そして罫線、一般的なノイズ類を、ここでは全部まとめて「OCR阻害ノイズ」と呼ぶことにする。
これらの背景は、OCRにおいて精確な文字認識の妨げになる。また、他にもOCRの妨げになる、より一般的な帳票の構成物として、表の罫線や、スキャナでのスキャン時に混入してしまうゴマ塩ノイズのようなものもある。罫線は文字と接触することによってOCRを妨げ、ゴマ塩ノイズのような粒状のノイズもOCRにとって阻害要因となる。
これら、一部の色領域(網掛け)、薄い背景パターン、地紋パターン、そして罫線、一般的なノイズ類を、ここでは全部まとめて「OCR阻害ノイズ」と呼ぶことにする。
帳票認識において、OCR阻害ノイズを除去する個別の画像処理が存在する。そして、前述のマルチクロップ処理のユースケースにおいては、1回のスキャン実行で複数の画像を連続的に処理するので、その全ての画像に対して同じノイズ除去前処理を、ましてや全種類のノイズ除去処理行うのは処理時間がかかり、ユーザへのレスポンスが大きく低下する。また、一般に画像処理を重ねると画質が劣化するので、むやみにノイズ除去処理を行うべきでない。
本発明の画像処理装置は、原稿画像に対して第1の文字認識処理を行い、領域を特定する特定手段と、前記特定された領域にノイズ除去処理を実行するノイズ除去処理手段と、前記ノイズ除去処理された前記原稿画像に対して前記第1の文字認識処理とは異なる第2の文字認識処理を行う文字認識処理手段と、を有することを特徴とする。
本発明によれば、画像処理において画質の劣化を防ぎ、かつ、処理時間を短縮することができる。
以下、本発明の実施形態について図面に基づいて説明する。
<実施形態1>
(システム構成)
図1は、画像処理システムのシステム構成の一例を示す図である。
図1に示すように、画像処理装置100、PC/サーバー端末101はイーサネット(登録商標)、無線LAN等からなるLAN104に接続され、Internet105に接続されている。また、モバイル端末103は、公衆無線通信網102等からInternet105に接続されている。画像処理装置100、PC/サーバー端末101及び、モバイル端末103は、LAN104又は、公衆無線通信網102からInternet105に接続され、相互に通信可能となっている。PC/サーバー端末101とモバイル端末103に関しては、どちらか一方が画像処理システムに含まれる構成でもよい。また、画像処理システムに、PC/サーバー端末101とモバイル端末103とは含まれず、画像処理装置100がPC/サーバー端末101及びモバイル端末103の何れか又は双方が実施する処理を行ってもよい。
(システム構成)
図1は、画像処理システムのシステム構成の一例を示す図である。
図1に示すように、画像処理装置100、PC/サーバー端末101はイーサネット(登録商標)、無線LAN等からなるLAN104に接続され、Internet105に接続されている。また、モバイル端末103は、公衆無線通信網102等からInternet105に接続されている。画像処理装置100、PC/サーバー端末101及び、モバイル端末103は、LAN104又は、公衆無線通信網102からInternet105に接続され、相互に通信可能となっている。PC/サーバー端末101とモバイル端末103に関しては、どちらか一方が画像処理システムに含まれる構成でもよい。また、画像処理システムに、PC/サーバー端末101とモバイル端末103とは含まれず、画像処理装置100がPC/サーバー端末101及びモバイル端末103の何れか又は双方が実施する処理を行ってもよい。
画像処理装置100は操作部、スキャナ部及びプリンタ部を有する複写複合機である。本実施形態の画像処理システムで、画像処理装置100は、複数枚の名刺、免許証、ハガキ等原稿を読み取るスキャン端末として利用される。また、画像処理装置100は、原稿を読み取って得られたスキャン画像から原稿ごとの原稿画像を抽出するマルチクロップ処理を実施する。更に、画像処理装置100は、表示部、タッチパネル、ハードボタン等の操作部を有し、エラー通知、指示通知等の表示、スキャン操作、設定操作等の操作を行う。
PC/サーバー端末101は、画像処理装置100で生成された原稿画像を表示する。また、PC/サーバー端末101は、画像処理装置100で生成された原稿画像の保存、OCR(optical character recognition)処理等を実施し、再利用可能なコンテンツデータを生成する。なお、画像処理装置100が実施するマルチクロップ処理をPC/サーバー端末101で実施してもよい。更に、画像処理装置100、PC/サーバー端末101は、クラウドやサーバー等の外部ストレージとの通信も可能で、保存した原稿画像、メタデータを外部ストレージへ送信することができる。なお、本実施形態では、画像処理装置100で原稿画像の保存、メタデータ生成及び、外部ストレージへの送信を行う処理を説明するが、PC/サーバー端末101で同機能を備えてもよい。
また、モバイル端末103は、操作部、無線通信部、ウェブブラウザを動作させるアプリ部を有するスマートフォン又はタブレット端末である。本実施形態のシステムで、モバイル端末103は、PC/サーバー端末101と同様に表示端末、操作端末及び、コンテンツデータ生成、保存端末として利用される。なお、PC/サーバー端末101とモバイル端末103は、表示及び操作、メタデータ生成、コンテンツデータ生成及び保存の機能等、どちらか一方の構成でもよい。
以上の構成要素はあくまで例示であり、すべての構成が必要というものではない。
以上の構成要素はあくまで例示であり、すべての構成が必要というものではない。
(画像処理装置100のハードウェア構成)
図2は、画像処理装置100のハードウェア構成の一例を示す図である。制御部110は、CPU111、記憶装置112、ネットワークI/F部113、スキャナI/F部114、表示・操作部I/F部115で構成され、これらはシステムバス116を介して互いに通信可能に接続されている。制御部110は、画像処理装置100全体の動作を制御する。
CPU111は、記憶装置112に記憶された制御プログラムを読み出して読取制御及び送信制御等の各種制御を行う。
記憶装置112は、プログラム、画像、メタデータ、設定データ及び処理結果データ等を格納し保持する。記憶装置112は、不揮発性メモリであるROM117、揮発性メモリであるRAM118及び、大容量記憶領域であるHDD119等で構成される。
図2は、画像処理装置100のハードウェア構成の一例を示す図である。制御部110は、CPU111、記憶装置112、ネットワークI/F部113、スキャナI/F部114、表示・操作部I/F部115で構成され、これらはシステムバス116を介して互いに通信可能に接続されている。制御部110は、画像処理装置100全体の動作を制御する。
CPU111は、記憶装置112に記憶された制御プログラムを読み出して読取制御及び送信制御等の各種制御を行う。
記憶装置112は、プログラム、画像、メタデータ、設定データ及び処理結果データ等を格納し保持する。記憶装置112は、不揮発性メモリであるROM117、揮発性メモリであるRAM118及び、大容量記憶領域であるHDD119等で構成される。
ROM117は、制御プログラム等を保持する。CPU111がROM117又はHDDD119に記憶された制御プログラムを読み出し、実行することにより、後述する図3、図6、図8、図9、図11のフローチャートの処理が実現される。
RAM118は、CPU111の主メモリ、ワークエリア等の一時記憶領域として用いられる。
HDD119は、大容量記憶領域であるHDDで、画像、メタデータ等を保存する記憶領域として用いられる。
ネットワークI/F部113は、制御部110又は画像処理装置100をLAN104に接続するインタフェースである。ネットワークI/F部113は、PC/サーバー端末101及びモバイル端末103等のLAN104上の外部装置に画像を送信したり、LAN104上の外部装置から各種情報を受信したりする。
RAM118は、CPU111の主メモリ、ワークエリア等の一時記憶領域として用いられる。
HDD119は、大容量記憶領域であるHDDで、画像、メタデータ等を保存する記憶領域として用いられる。
ネットワークI/F部113は、制御部110又は画像処理装置100をLAN104に接続するインタフェースである。ネットワークI/F部113は、PC/サーバー端末101及びモバイル端末103等のLAN104上の外部装置に画像を送信したり、LAN104上の外部装置から各種情報を受信したりする。
スキャナI/F部114は、スキャナ部120と制御部110を接続するインタフェースである。スキャナ部120は、原稿台上の画像を読み取ってスキャン画像を生成し、スキャナI/F部114を介して制御部110に入力する。
表示・操作部I/F部115は、表示・操作部121と制御部110とを接続するインタフェースである。表示・操作部121には、タッチパネル機能を有する液晶表示部及びテンキー、スタートボタン、キャンセルボタン等のハードキーが備えられている。スタートボタンは、コピー及びスキャンの処理を開始させるためのボタンである。キャンセルボタンは画像処理装置100が実行中の処理を一時停止、又は中止するためのボタンである。
その他、画像処理装置100にはプリンタ部等もあるものがあるが、本実施形態では用いないため説明を省略する。
以上のように、本実施形態に係る画像処理装置100は、図2に示したハードウェア構成によって、画像処理機能を提供することができる。
表示・操作部I/F部115は、表示・操作部121と制御部110とを接続するインタフェースである。表示・操作部121には、タッチパネル機能を有する液晶表示部及びテンキー、スタートボタン、キャンセルボタン等のハードキーが備えられている。スタートボタンは、コピー及びスキャンの処理を開始させるためのボタンである。キャンセルボタンは画像処理装置100が実行中の処理を一時停止、又は中止するためのボタンである。
その他、画像処理装置100にはプリンタ部等もあるものがあるが、本実施形態では用いないため説明を省略する。
以上のように、本実施形態に係る画像処理装置100は、図2に示したハードウェア構成によって、画像処理機能を提供することができる。
(全体処理の概要フローチャート)
図3は、画像処理装置100のCPU111による情報処理の一例を示すフローチャートである。本実施形態では、一般的にOCRに必要であるとされる処理は特記しない。すなわち、データファイルの読み込み、展開、必要に応じて二値化処理等については説明を省略する。
ステップS301において、CPU111は、OCRの事前処理として知られる、レイアウト解析処理を行う。レイアウト解析処理とは、一般的に文書画像中の領域を分割し、それにメタデータとして領域の種別をラベリングするものである。例えばラベルとして「テキスト領域」「表領域」「線画領域」「写真領域」等が代表的な領域種別である。ステップS301では、CPU111は、ラベリングした結果を使ってテキスト領域だけを抽出する。
図3は、画像処理装置100のCPU111による情報処理の一例を示すフローチャートである。本実施形態では、一般的にOCRに必要であるとされる処理は特記しない。すなわち、データファイルの読み込み、展開、必要に応じて二値化処理等については説明を省略する。
ステップS301において、CPU111は、OCRの事前処理として知られる、レイアウト解析処理を行う。レイアウト解析処理とは、一般的に文書画像中の領域を分割し、それにメタデータとして領域の種別をラベリングするものである。例えばラベルとして「テキスト領域」「表領域」「線画領域」「写真領域」等が代表的な領域種別である。ステップS301では、CPU111は、ラベリングした結果を使ってテキスト領域だけを抽出する。
次に、ステップS302において、CPU111は、抽出したテキスト領域に対して、回転方向検知を目的とした軽い文字認識処理を行う。これは、一般的なOCR処理を軽量化したもので、軽量化の手法は問わない。例えば、OCR特徴の検出のベクトル次元数を少数に制限したり、又は認識候補文字の検索ツリーの検索層数を削減したりする。即ち、ステップS302で行われる文字認識処理は、後述するステップS512で行われる文字認識処理より処理負荷の軽い処理である。
次に、ステップS303において、CPU111は、ステップS301、ステップS302の結果を利用して、現行の方向検知処理を行う。更に、ステップS304において、CPU111は、ステップS302で得られた文字認識処理の信頼度の累積値として「累積信頼度」を計算し、この原稿に対して累積信頼度が閾値以下かを判定する。これらの具体的な内容については、後述する。CPU111は、累積信頼度が閾値以下であると判定すると、処理をステップS311へ進める。CPU111は、累積信頼度が閾値以下でないと判定すると、図3に示すノイズ除去前処理を終了する。
ステップS311において、CPU111は、前処理フラグを出力する計算処理を行う。ステップS311の処理の詳細は、後述する図6を用いて説明する。
次に、ステップS312において、CPU111は、ステップS311の結果を受けて、前処理フラグ別のノイズ除去処理を行う。ステップS312の処理の詳細は、後述する図8を用いて説明する。
ステップS311において、CPU111は、前処理フラグを出力する計算処理を行う。ステップS311の処理の詳細は、後述する図6を用いて説明する。
次に、ステップS312において、CPU111は、ステップS311の結果を受けて、前処理フラグ別のノイズ除去処理を行う。ステップS312の処理の詳細は、後述する図8を用いて説明する。
ステップS304で計算している「累積信頼度」とは、原稿に含まれる文字の各信頼度を特定の計算(方法は任意)によって集計し、原稿に対して1つの信頼度として表現する方法である。例えば、各文字の最も高い候補文字の信頼度を平均する、等が簡単な方法である。
ここで図4、図5を参照して、原稿の向きと原稿に含まれるOCR阻害ノイズによってどのような傾向が出るかを示す。
図4で、レシート600は着色領域のあるレシートの例を示している。レシート600において、文字を除くと領域601が着色領域である。
ここで図4、図5を参照して、原稿の向きと原稿に含まれるOCR阻害ノイズによってどのような傾向が出るかを示す。
図4で、レシート600は着色領域のあるレシートの例を示している。レシート600において、文字を除くと領域601が着色領域である。
このような着色領域が、OCR信頼度にどのように影響を与えるかを図5で説明する。ここでは、文字列方向が左から右であると前提している。
図5の(a)〜(d)は着色領域がないレシート原稿の4方向の向きそれぞれにおける累積信頼度の違いを例示したものである。実際にこの値になるとは限らないが、正立した向きの文字は当然高いOCR信頼度を得るであろうことより、(a)の累積信頼度も高くなることが予想されるだろう。
ここで、同じレシートを、図4のような着色領域のある状態にしたとする。すると、(e)〜(h)の4方向での累積信頼度が得られるが、正立しているため最も高い累積信頼度であっても、(a)の結果よりも低くなっている。これが、着色領域のようなOCR阻害ノイズが、OCR信頼度に与える影響である。ステップS304の処理は、この状態を判別するものとして実行される。
図5の(a)〜(d)は着色領域がないレシート原稿の4方向の向きそれぞれにおける累積信頼度の違いを例示したものである。実際にこの値になるとは限らないが、正立した向きの文字は当然高いOCR信頼度を得るであろうことより、(a)の累積信頼度も高くなることが予想されるだろう。
ここで、同じレシートを、図4のような着色領域のある状態にしたとする。すると、(e)〜(h)の4方向での累積信頼度が得られるが、正立しているため最も高い累積信頼度であっても、(a)の結果よりも低くなっている。これが、着色領域のようなOCR阻害ノイズが、OCR信頼度に与える影響である。ステップS304の処理は、この状態を判別するものとして実行される。
(前処理フラグ出力)
図6は、図3のステップS311の処理の詳細を示すフローチャートである。
ステップS403において、CPU111は、ステップS302の軽い文字認識処理の結果として、原稿に含まれる各文字の認識の信頼度を取得する。ここで信頼度とは、例えば「1」という文字を認識処理したとして、その認識結果を「"1":80%、"I":30%、"l":15%、等々」のような候補文字とその文字が正答である確率値とを合わせて結果とする手法で、その確率値のことを指す。
その結果を受け、ステップS404において、CPU111は、信頼度が既定の閾値よりも低い文字が存在するかを1文字について確認する。
図6は、図3のステップS311の処理の詳細を示すフローチャートである。
ステップS403において、CPU111は、ステップS302の軽い文字認識処理の結果として、原稿に含まれる各文字の認識の信頼度を取得する。ここで信頼度とは、例えば「1」という文字を認識処理したとして、その認識結果を「"1":80%、"I":30%、"l":15%、等々」のような候補文字とその文字が正答である確率値とを合わせて結果とする手法で、その確率値のことを指す。
その結果を受け、ステップS404において、CPU111は、信頼度が既定の閾値よりも低い文字が存在するかを1文字について確認する。
ステップS404がYesであれば、CPU111は、処理をステップS405へ進める。ステップS404がNoであれば、CPU111は、処理をステップS410へ進める。ステップS405において、CPU111は、既出のノイズ除去処理フラグON領域とこの文字の領域が連続しているかを確認する。ここで「連続している」か、は適切な閾値以内の距離にあるか、という観点で座標位置を比較することを想定している。しかし、状況によってこの判定方法は任意に変更することが可能である。
ステップS410において、CPU111は、該当文字が含まれる領域をノイズ除去処理フラグOFFに設定する。
ステップS410において、CPU111は、該当文字が含まれる領域をノイズ除去処理フラグOFFに設定する。
ステップS405がNoであれば、CPU111は、処理をステップS406へ進める。ステップS405がYesであれば、CPU111は、処理をステップS407へ進める。ステップS406において、CPU111は、該当文字が含まれる領域を、新規のノイズ除去処理フラグON領域に設定する。
ステップS407において、CPU111は、該当文字が含まれる領域を連続しているノイズ除去処理フラグON領域にマージする。
ステップS411において、CPU111は、これらの処理が全文字領域に対して終了したかを判定する。終了していなければ、CPU111は、処理をステップS408へ進める。終了していれば、CPU111は、処理をステップS412へ進める。ステップS408において、CPU111は、次の文字領域の処理に進む。ステップS412において、CPU111は、処理の結果を、ノイズ除去処理フラグ付き領域のリストとして出力する。
ステップS407において、CPU111は、該当文字が含まれる領域を連続しているノイズ除去処理フラグON領域にマージする。
ステップS411において、CPU111は、これらの処理が全文字領域に対して終了したかを判定する。終了していなければ、CPU111は、処理をステップS408へ進める。終了していれば、CPU111は、処理をステップS412へ進める。ステップS408において、CPU111は、次の文字領域の処理に進む。ステップS412において、CPU111は、処理の結果を、ノイズ除去処理フラグ付き領域のリストとして出力する。
ここで、図7を参照すると、これら(a)〜(c)はすべて、図4で示したレシートの例の一部の領域を拡大したものである。各文字はすでにステップS301のレイアウト解析で、文字領域として分割されていることを示している枠で囲まれている。
811の領域に着色領域があり、801の点線で囲った文字群が、OCR信頼度が低くなる対象となる。
そして、図6のフローチャートを経ることにより、ステップS406で821、822のように信頼度の低い文字がノイズ除去フラグON領域に設定され、連続しているのでマージされていく。
そして、フローチャートの処理を完了すると、823のノイズ除去フラグON領域と、824のノイズ除去フラグOFF領域の連なった、ノイズ除去処理フラグ付き領域のリストが出力される。
811の領域に着色領域があり、801の点線で囲った文字群が、OCR信頼度が低くなる対象となる。
そして、図6のフローチャートを経ることにより、ステップS406で821、822のように信頼度の低い文字がノイズ除去フラグON領域に設定され、連続しているのでマージされていく。
そして、フローチャートの処理を完了すると、823のノイズ除去フラグON領域と、824のノイズ除去フラグOFF領域の連なった、ノイズ除去処理フラグ付き領域のリストが出力される。
(フラグ別ノイズ除去処理)
図8は、図3のステップS312の処理の詳細を示すフローチャートである。
ステップS501において、CPU111は、入力として図6のフローチャートが出力した、原稿に含まれるノイズ除去処理フラグ付き領域のリストを受け取る。CPU111は、ノイズ除去処理フラグ付き領域のリストから、1つのノイズ除去処理フラグ付き領域を取り出す。ステップS502において、CPU111は、取り出した領域のフラグがONかどうかを判定する。ステップS502がNoなら、CPU111は、処理をステップS503へ進める。ステップS502がYesなら、CPU111は、処理をステップS505へ進める。
ステップS503において、CPU111は、ステップS501で取り出した領域に対して通常の処理を継続する。即ち、CPU111は、この領域に対してノイズ除去の処理は行わない。
図8は、図3のステップS312の処理の詳細を示すフローチャートである。
ステップS501において、CPU111は、入力として図6のフローチャートが出力した、原稿に含まれるノイズ除去処理フラグ付き領域のリストを受け取る。CPU111は、ノイズ除去処理フラグ付き領域のリストから、1つのノイズ除去処理フラグ付き領域を取り出す。ステップS502において、CPU111は、取り出した領域のフラグがONかどうかを判定する。ステップS502がNoなら、CPU111は、処理をステップS503へ進める。ステップS502がYesなら、CPU111は、処理をステップS505へ進める。
ステップS503において、CPU111は、ステップS501で取り出した領域に対して通常の処理を継続する。即ち、CPU111は、この領域に対してノイズ除去の処理は行わない。
一方、ステップS505において、CPU111は、ステップS501で取り出した領域に対して特定のノイズ除去の処理を行う。
ステップS510において、CPU111は、ノイズ除去処理フラグ付き領域のリストに含まれる全ての領域に対してステップS501からの処理を実行したか否かを判定する。ステップS510がNoなら、CPU111は、処理をステップS504へ進める。ステップS510がYesなら、CPU111は、処理をステップS511へ進める。
ステップS510において、CPU111は、ノイズ除去処理フラグ付き領域のリストに含まれる全ての領域に対してステップS501からの処理を実行したか否かを判定する。ステップS510がNoなら、CPU111は、処理をステップS504へ進める。ステップS510がYesなら、CPU111は、処理をステップS511へ進める。
ステップS504において、CPU111は、次の領域に進む。
ステップS511において、CPU111は、ノイズ除去を、領域ごとに適用した、全体の原稿画像に対して、再びレイアウト解析処理を実行してテキスト領域を抽出する。
ステップS512において、CPU111は、抽出したテキスト領域の文字画像に対してOCR処理を行う。OCR処理は、文字認識処理の一例である。
ステップS511において、CPU111は、ノイズ除去を、領域ごとに適用した、全体の原稿画像に対して、再びレイアウト解析処理を実行してテキスト領域を抽出する。
ステップS512において、CPU111は、抽出したテキスト領域の文字画像に対してOCR処理を行う。OCR処理は、文字認識処理の一例である。
実施形態1によれば、必要な領域にのみ、必要なノイズ除去処理を適用することができ、OCR精度の向上が可能となる。
<実施形態2>
実施形態1では、処理対象とする原稿例としては着色領域があるレシートを挙げた。しかし、先に述べたように、対象とする帳票類は多様であるため、種々のノイズ除去処理方法を必要に応じて、領域ごとに切り替えて適用されるべきである。即ち、前述のフローチャートでいえばステップS505におけるノイズ除去処理の方式が領域の含むOCR阻害ノイズの特性によって切り替えられるべきである。
実施形態1では、処理対象とする原稿例としては着色領域があるレシートを挙げた。しかし、先に述べたように、対象とする帳票類は多様であるため、種々のノイズ除去処理方法を必要に応じて、領域ごとに切り替えて適用されるべきである。即ち、前述のフローチャートでいえばステップS505におけるノイズ除去処理の方式が領域の含むOCR阻害ノイズの特性によって切り替えられるべきである。
そこで、ステップS505において適切なノイズ除去処理を選択するための方法を説明する。図9は、OCR阻害ノイズの特性を判断し、付与する情報処理の一例を示すフローチャートである。
ステップS901において、CPU111は、図5に示したように、原稿方向で異なるOCRの累積信頼度を比較し、一番高いものを取り出す。この例で取り出されるのは図5の(e)の値である。
次に、ステップS902において、CPU111は、各文字のOCR信頼度の分布形状の種別を判断する。図5の(e)の例では、分布形状は、着色領域内にある文字の概説矩形の分布となる。これは、図10の(a)のような形状となる。
ステップS901において、CPU111は、図5に示したように、原稿方向で異なるOCRの累積信頼度を比較し、一番高いものを取り出す。この例で取り出されるのは図5の(e)の値である。
次に、ステップS902において、CPU111は、各文字のOCR信頼度の分布形状の種別を判断する。図5の(e)の例では、分布形状は、着色領域内にある文字の概説矩形の分布となる。これは、図10の(a)のような形状となる。
ここでいう分布形状の種別の判断は、どのような手段で分類されてもよい。例えば、帳票認識等に利用されるパターン認識、機械学習によるパターン認識がある。又は統計学におけるロジスティック回帰、又は、サポートベクターマシン等の認識手法によるものもある。この結果、例えば、CPU111は、図10(a)の右図のような、文字領域の分布を取得する。ステップS902において、CPU111は、この分布の形状が、「着色領域のあるレシートのパターンに合致している」ことを判定する。ステップS903において、CPU111は、着色領域のノイズを除去するフラグをノイズ特性として領域の情報に付与する。
もし、パターン認識の結果が図10(b)であった場合、ステップS902において、CPU111は、分布の形状が、「地紋のある帳票パターンである」と判定する。そして、ステップS903において、CPU111は、地紋領域のノイズを除去するフラグをノイズ特性として領域の情報に付与する。
もし、パターン認識の結果が図10(b)であった場合、ステップS902において、CPU111は、分布の形状が、「地紋のある帳票パターンである」と判定する。そして、ステップS903において、CPU111は、地紋領域のノイズを除去するフラグをノイズ特性として領域の情報に付与する。
この結果、ステップS505において、CPU111は、ステップS501で取り出した領域に対して、付与されている領域のノイズ特性に応じた、ノイズ除去処理を実行する。即ち、CPU111は、領域のノイズ特性に基づき、ノイズ除去処理を切り替えて実行することができる。
実施形態2によれば、領域の特性を判断してノイズ除去処理を切り替えることで、より効果的なノイズ除去を行い、OCR精度を上げることができる。
<実施形態3>
実施形態1及び実施形態2では、複数のノイズ除去処理から適切なものを1つ選んで行う方法について説明した。実施形態3では複数のノイズ除去処理を重ねて行う方法について説明する。
実施形態1及び実施形態2では、複数のノイズ除去処理から適切なものを1つ選んで行う方法について説明した。実施形態3では複数のノイズ除去処理を重ねて行う方法について説明する。
帳票には複数の種類のノイズが混在して載っているものもある。例えば、CPU111は、
ノイズ除去処理1:着色領域
ノイズ除去処理2:ごま塩ノイズ
ノイズ除去処理3:地紋
ノイズ除去処理4:罫線
というように複数のノイズ除去処理を切り替えて順に適用しながらOCR処理を行い、累積信頼度が閾値に達するまで繰り返す。
ノイズ除去処理1:着色領域
ノイズ除去処理2:ごま塩ノイズ
ノイズ除去処理3:地紋
ノイズ除去処理4:罫線
というように複数のノイズ除去処理を切り替えて順に適用しながらOCR処理を行い、累積信頼度が閾値に達するまで繰り返す。
図11は、実施形態3の画像処理装置100のCPU111による情報処理の一例を示すフローチャートである。図11では、図3のフローチャートとの差分を説明する。
ステップS1101において、CPU111は、前処理の種類を示すiを0に初期化する。
続いてステップS304において、CPU111は、累積信頼度が閾値以下か否かを判定する。閾値以下であれば、CPU111は、処理をステップS1102へ進める。閾値以上であれば、CPU111は、情報処理を終了する。
ステップS1102において、CPU111は、前処理iのフラグを出力する。この処理の詳細は図6を使って先述した通りである。
ステップS1101において、CPU111は、前処理の種類を示すiを0に初期化する。
続いてステップS304において、CPU111は、累積信頼度が閾値以下か否かを判定する。閾値以下であれば、CPU111は、処理をステップS1102へ進める。閾値以上であれば、CPU111は、情報処理を終了する。
ステップS1102において、CPU111は、前処理iのフラグを出力する。この処理の詳細は図6を使って先述した通りである。
続いてステップS1103において、CPU111は、前処理iを用いたノイズ除去処理を行う。ここではノイズ種に応じた除去手段を、図8で示したように用いる。
続いてステップS1104において、CPU111は、準備したノイズ除去処理を全て行ったか否かを判定する。CPU111は、準備したノイズ除去処理が残っていれば、処理をステップS1105へ進める。CPU111は、準備したノイズ除去処理が残っていれば、情報処理を終了する。ステップS1105において、CPU111は、iのカウンタを1つ増やす。そして、CPU111は、ステップS304へ進んで以降の処理を繰り返す。
続いてステップS1104において、CPU111は、準備したノイズ除去処理を全て行ったか否かを判定する。CPU111は、準備したノイズ除去処理が残っていれば、処理をステップS1105へ進める。CPU111は、準備したノイズ除去処理が残っていれば、情報処理を終了する。ステップS1105において、CPU111は、iのカウンタを1つ増やす。そして、CPU111は、ステップS304へ進んで以降の処理を繰り返す。
実施形態3によれば、複数のノイズ除去処理を重ねて行うことで、複合的なノイズの載った帳票にも対応でき、OCR精度を上げることができる。
<その他の実施形態>
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給する。そして、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読み出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給する。そして、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読み出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
以上、本発明の実施形態の一例について詳述したが、本発明は係る特定の実施形態に限定されるものではない。
100 画像処理装置
111 CPU
111 CPU
Claims (7)
- 原稿画像に対して第1の文字認識処理を行い、領域を特定する特定手段と、
前記特定された領域にノイズ除去処理を実行するノイズ除去処理手段と、
前記ノイズ除去処理された前記原稿画像に対して前記第1の文字認識処理とは異なる第2の文字認識処理を行う文字認識処理手段と、
を有することを特徴とする画像処理装置。 - 前記ノイズ除去処理手段は、前記特定された領域の特性に基づき前記ノイズ除去処理を切り替えることを特徴とする請求項1に記載の画像処理装置。
- 前記ノイズ除去処理手段は、前記特定された領域に対して複数のノイズ除去処理を実行することを特徴とする請求項1に記載の画像処理装置。
- 前記第1の文字認識処理は、前記第2の文字認識処理より処理負荷の軽い処理であることを特徴とする請求項1乃至3の何れか1項に記載の画像処理装置。
- 前記第1の文字認識処理は、回転方向の検知を目的とする文字認識処理であることを特徴とする請求項1乃至4の何れか1項に記載の画像処理装置。
- 原稿画像に対して第1の文字認識処理を行い、領域を特定する特定工程と、
前記特定された領域にノイズ除去処理を実行するノイズ除去処理工程と、
前記ノイズ除去処理された前記原稿画像に対して前記第1の文字認識処理とは異なる第2の文字認識処理を行う文字認識処理工程と、
を含むことを特徴とする画像処理方法。 - コンピュータを、請求項1乃至5の何れか1項に記載の画像処理装置の各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019127026A JP2021012589A (ja) | 2019-07-08 | 2019-07-08 | 画像処理装置、画像処理方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019127026A JP2021012589A (ja) | 2019-07-08 | 2019-07-08 | 画像処理装置、画像処理方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021012589A true JP2021012589A (ja) | 2021-02-04 |
Family
ID=74227638
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019127026A Pending JP2021012589A (ja) | 2019-07-08 | 2019-07-08 | 画像処理装置、画像処理方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021012589A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021047693A (ja) * | 2019-09-19 | 2021-03-25 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
JP2021047704A (ja) * | 2019-09-19 | 2021-03-25 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
-
2019
- 2019-07-08 JP JP2019127026A patent/JP2021012589A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021047693A (ja) * | 2019-09-19 | 2021-03-25 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
JP2021047704A (ja) * | 2019-09-19 | 2021-03-25 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
JP7351159B2 (ja) | 2019-09-19 | 2023-09-27 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107979709B (zh) | 图像处理装置、***、控制方法和计算机可读介质 | |
JP2008140377A (ja) | 情報検索装置、方法およびプログラム | |
US11418658B2 (en) | Image processing apparatus, image processing system, image processing method, and storage medium | |
JP7255121B2 (ja) | レシート処理装置及びレポートの生産方法 | |
JP4574313B2 (ja) | 画像処理装置および方法 | |
JP2006259045A (ja) | 画像形成装置及び方法 | |
JP2021012589A (ja) | 画像処理装置、画像処理方法及びプログラム | |
US20180270387A1 (en) | Printing apparatus, server, printing method, and control method | |
CN111126273B (zh) | 图像处理方法、装置、电子设备以及存储介质 | |
JP6776906B2 (ja) | スキャナー、スキャン制御プログラム、画像データの生成方法 | |
JP5003606B2 (ja) | 画像処理装置 | |
JP2021114192A (ja) | 情報処理装置及びプログラム | |
JP7014921B2 (ja) | 画像処理装置 | |
US9456094B2 (en) | Electronic device and information providing method that provide assistance to user's operation on how to use electronic equipment | |
CN107995382A (zh) | 登记用于控制作业的图像的图像形成装置及其控制方法 | |
US20190356815A1 (en) | Image processing apparatus and control program for image processing apparatus | |
JP2020047138A (ja) | 情報処理装置 | |
CN111669478A (zh) | 图像处理装置、图像处理***、存储介质及图像处理方法 | |
JP6413450B2 (ja) | 画像処理装置、画像形成装置およびプログラム | |
JP2021018520A (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP7342518B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP2019220906A (ja) | 画像処理システム、印刷指示装置、画像処理装置及びプログラム | |
US20210289078A1 (en) | Information processing apparatus, method, and non-transitory computer readable medium | |
JP7497620B2 (ja) | 文書データ生成装置、画像形成装置、及び文書データ生成プログラム | |
JP5910292B2 (ja) | 属性データ生成装置、画像処理装置、サーバ、属性データ生成方法、およびコンピュータプログラム |