JP2023136551A

JP2023136551A - 画像処理装置、画像処理方法及び画像処理プログラム

Info

Publication number: JP2023136551A
Application number: JP2022042281A
Authority: JP
Inventors: 淳吉田; Atsushi Yoshida
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2022-03-17
Filing date: 2022-03-17
Publication date: 2023-09-29

Abstract

【課題】画像に含まれる文字が手書きである場合であっても認識領域を正しく設定する画像処理装置、画像処理方法及び画像処理プログラムを提供する。【解決手段】ＭＦＰにおいて、操作部３０の画像処理機能は、画像内に記載された文字の認識が行われる領域である認識領域に記載された文字が、手書きか活字かを判定する文字判定部３０３と、文字判定部３０３により認識領域に記載された文字が手書きであると判定された場合に、認識領域のサイズを変更する第１補正部３０５と、文字判定部３０３により認識領域に記載された文字が活字であると判定された場合に、認識領域の位置を移動させる第２補正部３０８と、を備える。【選択図】図３

Description

本発明は、画像処理装置、画像処理方法及び画像処理プログラムに関する。

ＭＦＰ（Multifunction Peripheral／Printer／Product）やスキャナで読み取った帳票や文書などの画像から、文字が印字された領域を抽出し、種類を認識する文字認識処理（ＯＣＲ）という技術がある。このような技術では、文字が印字された領域を正確に抽出するために、原稿から表の枠線等の特徴的な領域を抽出して文字認識が行われる認識領域を設定する場合や、認識領域を手動で設定する場合がある。しかし、予め印字された枠線に必要事項のみ追記する原稿の場合、印字ずれなどにより事前に設定した認識領域外に文字が出てしまうことがある。そこで、読み取った原稿の印字のずれを検出して、認識領域を補正する技術が知られている。

このような技術の一例として、例えば、特許文献１には、枠線を含む文書をスキャナで電子化した画像中の印字データを読取る方法において、データが印字されない領域に混入した印字ずれデータの検出と、枠の領域と印字ずれデータの外接矩形の重なり度の算出と、２つの枠を仕切る枠線の位置と重なった文字の位置と枠の中心位置との関係と、印字ずれデータの外接矩形の大きさと枠の大きさと、大局的な印字ずれ方向とを利用することで、印字ずれデータがどの枠からはみ出した印字データであるかを判別する技術が開示されている。

しかしながら、文字認識の対象が、ずれ方が一律である活字である場合、大局的なずれの検出から、文字と認識領域の対応付けが可能だが、文字認識の対象が、ずれ方が一律でない手書きの文字の場合は、認識領域を正しく設定できず、誤認識が発生し易いという問題点があった。

本願は、上記に鑑みてなされたものであって、画像に含まれる文字が手書きである場合であっても認識領域を正しく設定することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、画像内に記載された文字の認識が行われる領域である認識領域に記載された文字が、手書きか活字かを判定する文字判定部と、前記判定部により前記認識領域に記載された文字が手書きであると判定された場合に、前記認識領域のサイズを変更する第１補正部と、前記判定部により前記認識領域に記載された文字が活字であると判定された場合に、前記認識領域の位置を移動させる第２補正部とを備えたことを特徴とする。

本発明によれば、画像に含まれる文字が手書きである場合であっても認識領域を正しく設定することができるといった効果を奏する。

図１は、実施形態に係る画像処理システム１の構成の一例を示す図である。図２は、実施形態に係るＭＦＰ１０のハードウェア構成例を示した図である。図３は、操作部３０の画像処理機能に関するモジュール構成を示すブロック図である。図４は、ＭＦＰ１０による画像処理の流れを示すフローチャートである。図５は、手書きされた文字を含む原稿を示す画像の例を示す図である。図６は、はみ出し判定部３０４による判定の例を示す図である。図７は、第１補正部３０５による認識領域の補正の例を示す図である。図８は、追記判定部３０６による判定の例を示す図である。図９は、認識領域からずれて印字された文字列の矩形の抽出の例を示す図である。図１０は、算出部３０７によるずれ量の算出の例を示す図である。図１１は、第２補正部３０８による認識領域の補正の例を示す図である。

以下に添付図面を参照して、画像処理装置、画像処理方法及び画像処理プログラムの実施の形態を詳細に説明する。下記に示す実施の形態においては、本発明の画像処理装置が複合機（ＭＦＰ）である場合を例に取り説明するが、これに限定されるものではない。なお、複合機とは、印刷機能、複写機能、スキャナ機能、及びファクシミリ機能のうち少なくとも２つの機能を有する装置である。

（実施形態）
まず、図１を用いて、実施形態に係る画像処理装置（ＭＦＰ）１０を含む画像処理システム１全体の概要について説明する。図１は、実施形態に係る画像処理システム１の構成の一例を示す図である。図１に示すように、画像処理システム１は、ＭＦＰ１０と、ＰＣ（Personal Computer）１１と、サーバ１２と、記憶装置１３とを含む。ＭＦＰ１０、ＰＣ（Personal Computer）１１、サーバ１２及び記憶装置１３は、ネットワーク１４を介して接続されている。ネットワーク１４としては、例えば、ＬＡＮ（Local Area Network）やインターネットなどが挙げられる。なお、図１に示した画像処理システム１には、複数台のＭＦＰ１０、複数台のＰＣ（Personal Computer）１１、複数台のサーバ１２及び複数台の記憶装置１３が含まれていてもよい。

ＭＦＰ１０は、原稿を読み取り、当該原稿を示す画像に含まれる文字の認識処理を実行する。また、文字の認識処理が行われる領域である認識領域に関する情報が、読み取る原稿に対して設定されていない場合、ＭＦＰ１０は、認識領域の抽出を行う。

ＰＣ１１は、ユーザによって利用される情報処理装置である。例えば、ＰＣ１１は、ＭＦＰ１０による認識処理の認識結果をユーザが確認するために用いられる。また、ＰＣ１１は、認識領域の修正をユーザが行うために用いられる。

なお、文字の認識処理や認識領域の設定は、ＰＣ１１やサーバ１２が、ＭＦＰ１０により読み取られた原稿を示す画像を、ＭＦＰ１０から受信して実行してもよい。また、認識領域の設定は、ＭＦＰ１０が原稿の読み取りと同時に自動で行わず、画像を見ながらユーザが手動でＭＦＰ１０を操作することにより行われてもよい。

また、認識結果や認識領域に関する情報は、基本的にＰＣ１１やサーバ１２に保存されるが、外部の記憶装置１３に保存しておくことも可能である。

次に、図２を用いて、実施形態に係るＭＦＰ１０の構成について説明する。図２は、実施形態に係るＭＦＰ１０のハードウェア構成例を示した図である。図２に示すように、複合機であるＭＦＰ１０は、コピー機能、スキャナ機能、ファクス機能、プリンタ機能などの各種の機能を実現可能な本体２０と、ユーザの操作を受け付ける操作部３０とを備える。なお、ユーザの操作を受け付けるとは、ユーザの操作に応じて入力される情報（画面の座標値を示す信号等を含む）を受け付けることを含む概念である。本体２０と操作部３０とは、専用の通信路１００を介して相互に通信可能に接続されている。通信路１００は、例えばＵＳＢ（Universal Serial Bus）規格のものを用いることもできるが、有線か無線かを問わず任意の規格のものであってよい。

なお、本体２０は、操作部３０で受け付けた操作に応じた動作を行うことができる。また、本体２０は、クライアントＰＣ等の外部装置（例えば、ＰＣ１１）とも通信可能であり、外部装置から受信した指示に応じた動作を行うこともできる。

まず、本体２０のハードウェア構成について説明する。図２に示すように、本体２０は、ＣＰＵ２１と、ＲＯＭ２２と、ＲＡＭ２３と、ＨＤＤ（ハードディスクドライブ）２４と、通信Ｉ／Ｆ（インタフェース）２５と、接続Ｉ／Ｆ２６と、エンジン部２７とを備える。ＣＰＵ２１と、ＲＯＭ２２と、ＲＡＭ２３と、ＨＤＤ２４と、通信Ｉ／Ｆ２５と、接続Ｉ／Ｆ２６と、エンジン部２７とは、システムバス２８を介して相互に接続されている。

ＣＰＵ２１は、本体２０の動作を統括的に制御する。ＣＰＵ２１は、ＲＡＭ２３をワークエリア（作業領域）としてＲＯＭ２２またはＨＤＤ２４等に格納されたプログラムを実行することで、本体２０全体の動作を制御し、上述したコピー機能、スキャナ機能、ファクス機能、プリンタ機能などの各種機能を実現する。

通信Ｉ／Ｆ２５は、ネットワーク１４と接続するためのインタフェースである。接続Ｉ／Ｆ２６は、通信路１００を介して操作部３０と通信するためのインタフェースである。

エンジン部２７は、コピー機能、スキャナ機能、ファクス機能、および、プリンタ機能を実現させるための、汎用的な情報処理及び通信以外の処理を行うハードウェアである。エンジン部２７は、例えば、原稿の画像をスキャンして読み取るスキャナ（画像読取部）、用紙等のシート材への印刷を行うプロッタ（画像形成部）、ファクス通信を行うファクス部などを備えている。更に、エンジン部２７は、印刷済みシート材を仕分けるフィニッシャや、原稿を自動給送するＡＤＦ（自動原稿給送装置）のような特定のオプションを備えることもできる。

次に、操作部３０のハードウェア構成について説明する。図２に示すように、操作部３０は、ＣＰＵ３１と、ＲＯＭ３２と、ＲＡＭ３３と、フラッシュメモリ３４と、通信Ｉ／Ｆ３５と、接続Ｉ／Ｆ３６と、操作パネル３７とを備える。ＣＰＵ３１と、ＲＯＭ３２と、ＲＡＭ３３と、フラッシュメモリ３４と、通信Ｉ／Ｆ３５と、接続Ｉ／Ｆ３６と、操作パネル３７とは、システムバス３８を介して相互に接続されている。

ＣＰＵ３１は、操作部３０の動作を統括的に制御する。ＣＰＵ３１は、ＲＡＭ３３をワークエリア（作業領域）としてＲＯＭ３２またはフラッシュメモリ３４等に格納されたプログラムを実行することで、操作部３０全体の動作を制御し、ユーザから受け付けた入力に応じた情報（画像）の表示などの後述する各種機能を実現する。

通信Ｉ／Ｆ３５は、ネットワーク１４と接続するためのインタフェースである。接続Ｉ／Ｆ３６は、通信路１００を介して本体２０と通信するためのインタフェースである。

操作パネル３７は、ユーザの操作に応じた各種の入力を受け付けるとともに、各種の情報（例えば受け付けた操作に応じた情報、ＭＦＰ１０の動作状況を示す情報、設定状態などを示す情報など）を表示する。この例では、操作パネル３７は、タッチパネル機能を搭載した液晶表示装置（ＬＣＤ）で構成されるが、これに限られるものではない。例えば、操作パネル３７は、タッチパネル機能が搭載された有機ＥＬ表示装置で構成されてもよい。さらに、操作パネル３７は、これに加えて又はこれに代えて、ハードウェアキー等の操作部やランプ等の表示部を設けることもできる。

本実施形態のＭＦＰ１０の操作部３０で実行される画像処理プログラムは、ＲＯＭ等に予め組み込まれて提供される。

なお、本実施形態のＭＦＰ１０の操作部３０で実行される画像処理プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ－ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ－Ｒ、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録されて提供するように構成してもよい。

また、本実施形態のＭＦＰ１０の操作部３０で実行される画像処理プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態のＭＦＰ１０の操作部３０で実行される画像処理プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

本実施の形態のＭＦＰ１０の操作部３０で実行される画像処理プログラムは、後述する各部（画像受信部３０１、認識領域取得部３０２、文字判定部３０３、はみ出し判定部３０４、第１補正部３０５、追記判定部３０６、算出部３０７、第２補正部３０８及び認識領域出力部３０９）を含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵ（プロセッサ）が上記ＲＯＭから画像処理プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、画像受信部３０１、認識領域取得部３０２、文字判定部３０３、はみ出し判定部３０４、第１補正部３０５、追記判定部３０６、算出部３０７、第２補正部３０８及び認識領域出力部３０９が主記憶装置上に生成されるようになっている。

次に、図３を用いて、ＭＦＰ１０の操作部３０で実行される音声補助機能について説明する。図３は、操作部３０の画像処理機能に関するモジュール構成を示すブロック図である。

図３に示すように、本実施の形態のＭＦＰ１０の操作部３０で実行されるプログラムは、各部（画像受信部３０１、認識領域取得部３０２、文字判定部３０３、はみ出し判定部３０４、第１補正部３０５、追記判定部３０６、算出部３０７、第２補正部３０８及び認識領域出力部３０９）を含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵ３１がＲＯＭ３２またはフラッシュメモリ３４等からプログラムを読み出して実行することにより上記各部がＲＡＭ３３上にロードされ、画像受信部３０１、認識領域取得部３０２、文字判定部３０３、はみ出し判定部３０４、第１補正部３０５、追記判定部３０６、算出部３０７、第２補正部３０８及び認識領域出力部３０９がＲＡＭ３３上に生成されるようになっている。

画像受信部３０１は、エンジン部２７により実現されるスキャナ機能により読み取られた原稿の画像を、通信路１００を介して受信する。

認識領域取得部３０２は、画像受信部３０１により受信された画像のうち、文字の認識処理が行われる領域である認識領域に関する情報を、ネットワーク１４を介してＰＣ１１から取得する。また、認識領域取得部３０２は、原稿を示す画像を見ながらユーザが手動でＭＦＰ１０を操作することにより設定した認識領域に関する情報を取得する。

認識領域に関する情報が取得できない場合や、認識領域が未設定の場合、認識領域取得部３０２は、原稿を示す画像から認識領域の抽出及び設定を行ってもよい。例えば、認識領域取得部３０２は、画像に対して罫線抽出及び枠抽出を行い、抽出した枠を認識領域として設定する。

ここで、罫線抽出には、例えば、水平、垂直方向の画素の連続性を抽出する手段や、水平、垂直な線を検出するフィルタをかけて抽出する手段を用いることにより実現されてもよい。また、枠抽出には、罫線の交点を見つけ、それらの位置関係から１つ１つの枠位置を抽出する手段を用いることにより実現されてもよい。また、抽出された認識領域は、ユーザが確認しながら追加、削除などの修正を行えるように構成されてもよい。

なお、認識領域取得部３０２による認識領域の抽出処理及び設定処理は、上記の手法に限定されず、任意の従来技術を用いて実現されてもよい。

文字判定部３０３は、画像内に記載された文字の認識が行われる領域である認識領域に記載された文字が、手書きか活字かを判定する。例えば、文字判定部３０３は、画像から同じ色の画素の塊を取り出し、隣接する画素の塊を連結することで１文字単位の複数の矩形を抽出する。ここで、各文字の矩形の大きさがほぼ一定である場合、文字判定部３０３は、これらの文字を活字と判定する。一方で、各文字の矩形の大きさが不均一である場合、文字判定部３０３は、これらの文字を手書きと判定する。

なお、文字判定部３０３は、他にも抽出した文字の中心位置のばらつきや、文字内で使われている線分の直線性を用いて、画像に記載された文字が手書きか活字かを判定してもよい。また、文字判定部３０３による文字の判定処理は、上記の手法に限定されず、任意の従来技術を用いて実現されてもよい。

はみ出し判定部３０４は、認識領域に記載された文字が手書きであると判定された場合に、当該文字が認識領域からはみ出しているか否かを判定する。

第１補正部３０５は、文字判定部３０３により認識領域に記載された文字が手書きであると判定された場合に、認識領域のサイズを変更する。また、第１補正部３０５は、はみ出し判定部３０４により認識領域に記載された文字がはみ出していると判定された場合に、認識領域のサイズを変更する。また、第１補正部３０５は、認識領域の境界から所定の範囲内に画素データが存在する場合に、認識領域に記載された文字がはみ出していると判定する。

追記判定部３０６は、認識領域に記載された文字が活字であると判定された場合に、当該文字が画像に予め印字された文字であるか、画像に追記された文字であるかを判定する。また、追記判定部３０６は、認識領域に記載された文字の認識領域内における位置、当該文字の文字色、当該文字のフォント種、並びに、当該文字のフォントサイズのうち少なくともいずれかに基づいて、当該文字が画像に予め印字された文字であるか、画像に追記された文字であるかを判定する。

算出部３０７は、追記判定部３０６により、認識領域に記載された文字が、画像に追記された文字であると判定された場合に、認識領域からの当該文字のずれ量を算出する

第２補正部３０８は、文字判定部３０３により認識領域に記載された文字が活字であると判定された場合に、認識領域の位置を移動させる。また、第２補正部３０８は、算出部３０７による算出されたずれ量に応じて、認識領域の位置を移動させる。

認識領域出力部３０９は、第１補正部３０５による補正結果、並びに、第２補正部３０８による補正結果を統合した新たな認識領域を画像に対応付け、ＭＦＰ１０において文字認識処理を実行するモジュール等に対し出力する。

次に、図４を用いて、ＭＦＰ１０による画像処理の流れについて説明する。図４は、ＭＦＰ１０による画像処理の流れを示すフローチャートである。図４に示すように、ＭＦＰ１０は、スキャナ機能により原稿を読み取る（ステップＳ４０１）。

続いて、ＭＦＰ１０は、原稿を読み取った画像に設定された認識領域を取得する（ステップＳ４０２）。続いて、ＭＦＰ１０は、各認識領域に記載された文字が手書きであるか、活字であるかを判定する（ステップＳ４０３）。

認識領域に記載された文字が手書きである場合（ステップＳ４０４；Ｙｅｓ）、ＭＦＰ１０は、当該認識領域のサイズを変更する（ステップＳ４０５）。

認識領域に記載された文字が手書きではない（言い換えると、活字）である場合（ステップＳ４０４；Ｎｏ）、ＭＦＰ１０は、当該認識領域の位置を移動させる（ステップＳ４０６）。

続いて、ＭＦＰ１０は、補正した認識領域を統合する（ステップＳ４０７）。

このような本実施形態によれば、認識領域に記載された文字の種別が活字か手書きか判定したうえで、活字であれば認識領域をシフトし、手書きであれば認識領域を拡張することができるため、認識領域を正しく設定することができる。すなわち、本実施形態によれば、画像に含まれる文字が手書きである場合であっても認識領域を正しく設定することができる。

なお、上記の実施形態では、本発明の画像処理装置を、コピー機能、プリンタ機能、スキャナ機能およびファクシミリ機能のうち少なくとも２つの機能を有する複合機に適用した例を挙げて説明したが、複写機、プリンタ、スキャナ装置、ファクシミリ装置等の画像処理装置であればいずれにも適用することができる。

（はみ出し判定部３０４及び第１補正部３０５による処理について）
次に、図５～７を用いて、はみ出し判定部３０４及び第１補正部３０５による処理の具体例について説明する。図５は、手書きされた文字を含む原稿を示す画像の例を示す図である。図６は、はみ出し判定部３０４による判定の例を示す図である。図７は、第１補正部３０５による認識領域の補正の例を示す図である。

図５に示すように、原稿には活字で項目名が予め印字（プレ印字）されており、それに対応する内容をユーザが手書きで追記するようなものが多い。例えば、図５（Ａ）のように商品名が書かれていて注文したい個数を手書きで記載するようなものや、図５（Ｂ）のように名前、住所、電話番号などを記載するようなものである。

上述の認識領域取得部３０２により罫線と交点の情報を基に認識領域の抽出処理を実行すると、項目名がプレ印字された領域にはユーザによる追記が行われない（すなわち、認識領域ではない）と判定可能であるため、図５（Ａ）の原稿では認識領域５００～５０３、図５（Ｂ）の原稿では認識領域５０４～５０６がそれぞれ抽出される。プレ印字された原稿に手書きで追記する場合、個々の枠ごとに記載するため、プレ印字された原稿に活字で追記する場合のように認識領域に対してずれ方は一律にならない。一方で、ユーザは枠を見ながら追記するため、活字の場合のように２つの認識領域の中心に位置するように文字が記載されるような大きなずれも起こりづらい。

したがって、はみ出し判定部３０４は、認識領域の境界周辺の画素を走査し、黒画素が存在した場合には文字のはみ出しがあると判定する。例えば、図６の例において、はみ出し判定部３０４は、認識領域５００内の黒画素が、領域６００内において認識領域５００の境界を跨ぐように存在しているため、記載された文字がはみ出していると判定する。

一方で、はみ出し判定部３０４は、認識領域５０１内の各黒画素が、認識領域５０１内にのみ存在しているため、認識領域５０１内に記載された文字がはみ出していないと判定する。

そして、第１補正部３０５は、図７に示すように、記載された文字がはみ出していると判定された認識領域５００のサイズを変更し、新たな認識領域５１０とする。例えば、第１補正部３０５は、文字のはみ出しに対応するため、認識領域５００を拡大し、認識領域５１０とする。なお、拡大率は一律で事前に設定しされてもよく、黒画素の塊を連結して抽出した矩形（すなわち、文字）の大きさを判断してそれに合わせて拡大させてもよい。

以上のように、第１補正部３０５は、記載された文字がはみ出している認識領域だけ拡大させることにより、認識領域内に収まっている文字については枠の罫線や隣接枠内に書かれた文字が含まれて認識結果にノイズが混ざるのを防ぎ、はみ出してしまっている文字については認識領域を拡大することで文字を全て認識領域内に収められ認識精度が上がることが期待できる。

なお、第１補正部３０５は、認識領域内に文字が収まっている場合であっても、より認識率を向上さるため、当該文字の大きさに応じて認識領域を縮小するようにしてもよい。

（追記判定部３０６、算出部３０７及び第２補正部３０８による処理について）
次に、図８～１１を用いて、追記判定部３０６、算出部３０７及び第２補正部３０８による処理の具体例について説明する。図８は、追記判定部３０６による判定の例を示す図である。図９は、認識領域からずれて印字された文字列の矩形の抽出の例を示す図である。図１０は、算出部３０７によるずれ量の算出の例を示す図である。図１１は、第２補正部３０８による認識領域の補正の例を示す図である。

通常、原稿に活字で項目名がプレ印字されており、それに対応する内容をユーザが活字で追記する場合、原稿に重ねて印字しても、ＰＣのデータ上で文字を合わせているため位置、サイズ共にずれることはない。しかし、印字の際の紙の設置位置のずれや、搬送時のエラーが発生すると、図８に示すように、プレ印字された枠内からはみ出して印字されることがある。このように印字された活字のずれは、サイズは変わらずに一律に同じ方向にずれる。

図８に示す画像について、上述の認識領域取得部３０２による認識領域の抽出処理が実行された場合、罫線と交点の情報を基に認識領域が抽出されるため、プレ印字の文字が書かれた領域７０３～７０５も、追記された文字の領域７００～７０２もどちらも認識領域として抽出される。また、プレ印字された文字は枠と一緒に印刷されており、枠に対して位置ずれがないため、この領域も含めて印字ずれを判定してしまった場合、印字ずれ量の算出を誤る可能性がある。

そこで、追記判定部３０６は、各領域内の文字がプレ印字なのか、追記された文字なのか判定する。プレ印字の文字が書かれた領域の特徴としては、項目名が記載されているため、枠の上端、もしくは左端に文字が位置している。また、プレ印字の文字は、罫線と一緒に印刷されているため、同じ色で再現されている。さらに、プレ印字の文字と追記された文字を比較した場合、領域内において異なる位置に印字されている場合や、異なる文字の文字色、フォント種、フォントサイズが使われている場合が多くある。追記判定部３０６は、これらの情報を用いて、領域７００～７０２が認識領域であり、領域７０３～７０５がプレ印字された領域（すなわち、認識領域ではない）と判定する。

図９（Ａ）に示すように、認識領域７００～７０２が判定された後、算出部３０７は、図９（Ｂ）のように、認識領域７００～７０２を切り出し、各領域内の黒画素を抽出する。続いて、算出部３０７は、図９（Ｃ）のように、図９（Ｂ）で抽出した黒画素と連結している黒画素を抽出する。続いて、算出部３０７は、図９（Ｄ）のように、認識領域７００から抽出された黒画素の塊を文字列矩形７１０、認識領域７０１から抽出された黒画素の塊を文字列矩形７１１、認識領域７０２から抽出された黒画素の塊を文字列矩形７１２として特定する。なお、認識領域７０２内には文字列矩形７１０に対応する「０」、文字列矩形７１１に対応する「１０」も含まれているが、他の認識領域から検出済みの文字列矩形について、算出部３０７は無視するものとする。

続いて、算出部３０７は、図１０に示すように、抽出した文字列矩形７１０～７１２のそれぞれから、認識領域７００～７０２それぞれへのベクトルを算出する。ここで、ベクトルの始点は、文字列矩形７１０～７１２それぞれの左端、中央、右端のいずれかを用いるものとする。また、ベクトルの終点は、認識領域７００～７０２それぞれの左端、中央、右端のいずれかを用いるものとする。

文字列矩形７１０の場合、図１０（Ａ）に示す３本のベクトルが算出される。また、文字列矩形７１１の場合、図１０（Ｂ）に示す３本のベクトルが算出される。また、文字列矩形７１２の場合、図１０（Ｃ）に示す３本のベクトルが算出される。図１０（Ａ）～（Ｃ）には、いずれもベクトル８００が含まれているため、算出部３０７は、文字列矩形７１０～７１２（言い換えると、追記された文字）のずれ量がベクトル８００の逆方向のベクトルと算出する。このように、算出部３０７は、各文字列矩形から認識領域へのベクトルの最頻値を求めることにより、追記された文字のずれ量を算出できる。

そして、第２補正部３０８は、図１１に示すように、上記のように算出されたずれ量に基づき、認識領域７００～７０２をそれぞれ移動させ、新たな認識領域７２０～７２２とする。

以上の処理を行うことにより、文字が認識領域内に収まり、正しく認識されることが期待できる。なお、特許文献１に開示されているように、罫線の除去と文字の補完とを実施すれば、さらに認識精度を向上させることが可能となる

１０ＭＦＰ
２０本体
３０操作部
３０１画像受信部
３０２認識領域取得部
３０３文字判定部
３０４はみ出し判定部
３０５第１補正部
３０６追記判定部
３０７算出部
３０８第２補正部
３０９認識領域出力部

特開２００６－１４６７４１号公報

Claims

画像内に記載された文字の認識が行われる領域である認識領域に記載された文字が、手書きか活字かを判定する文字判定部と、
前記文字判定部により前記認識領域に記載された文字が手書きであると判定された場合に、前記認識領域のサイズを変更する第１補正部と、
前記文字判定部により前記認識領域に記載された文字が活字であると判定された場合に、前記認識領域の位置を移動させる第２補正部と
を備えたことを特徴とする画像処理装置。
前記認識領域に記載された文字が手書きであると判定された場合に、当該文字が前記認識領域からはみ出しているか否かを判定するはみ出し判定部
をさらに備え、
前記第１補正部は、
前記はみ出し判定部により前記認識領域に記載された文字がはみ出していると判定された場合に、前記認識領域のサイズを変更する
ことを特徴とする請求項１に記載の画像処理装置。
前記はみ出し判定部は、
前記認識領域の境界から所定の範囲内に画素データが存在する場合に、前記認識領域に記載された文字がはみ出していると判定する
ことを特徴とする請求項２に記載の画像処理装置。
前記認識領域に記載された文字が活字であると判定された場合に、当該文字が前記画像に予め印字された文字であるか、前記画像に追記された文字であるかを判定する追記判定部と、
前記追記判定部により、前記認識領域に記載された文字が、前記画像に追記された文字であると判定された場合に、前記認識領域からの当該文字のずれ量を算出する算出部と
をさらに備え、
前記第２補正部は、
前記算出部による算出されたずれ量に応じて、前記認識領域の位置を移動させる
ことを特徴とする請求項１から３のうちいずれか１つに記載の画像処理装置。
前記追記判定部は、
前記認識領域に記載された文字の前記認識領域内における位置、当該文字の文字色、当該文字のフォント種、並びに、当該文字のフォントサイズのうち少なくともいずれかに基づいて、当該文字が前記画像に予め印字された文字であるか、前記画像に追記された文字であるかを判定する
ことを特徴とする請求項４に記載の画像処理装置。
画像処理装置で実行される画像処理方法であって、
画像内に記載された文字の認識が行われる領域である認識領域に記載された文字が、手書きか活字かを判定する文字判定工程と、
前記文字判定工程により前記認識領域に記載された文字が手書きであると判定された場合に、前記認識領域のサイズを変更する第１補正工程と、
前記文字判定工程により前記認識領域に記載された文字が活字であると判定された場合に、前記認識領域の位置を移動させる第２補正工程と
を含むことを特徴とする画像処理方法。
画像内に記載された文字の認識が行われる領域である認識領域に記載された文字が、手書きか活字かを判定する文字判定手順と、
前記文字判定手順により前記認識領域に記載された文字が手書きであると判定された場合に、前記認識領域のサイズを変更する第１補正手順と、
前記文字判定手順により前記認識領域に記載された文字が活字であると判定された場合に、前記認識領域の位置を移動させる第２補正手順と
を画像処理装置に実行させることを特徴とする画像処理プログラム。