JP2005071134A - 光学的文字読取装置 - Google Patents

光学的文字読取装置 Download PDF

Info

Publication number
JP2005071134A
JP2005071134A JP2003301024A JP2003301024A JP2005071134A JP 2005071134 A JP2005071134 A JP 2005071134A JP 2003301024 A JP2003301024 A JP 2003301024A JP 2003301024 A JP2003301024 A JP 2003301024A JP 2005071134 A JP2005071134 A JP 2005071134A
Authority
JP
Japan
Prior art keywords
ruled line
color
character
image
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003301024A
Other languages
English (en)
Inventor
Akihiro Uda
明弘 宇田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2003301024A priority Critical patent/JP2005071134A/ja
Publication of JP2005071134A publication Critical patent/JP2005071134A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

【課題】本発明は、プレプリント色、フォーマット等を異にする多種多様な帳票を混在して文字認識処理を行う場合であっても、精度の高い安定した文字切り出しが行える光学的文字読取装置を提供することを課題とする。
【解決手段】罫線色推定部15は、文字色空間投票部13が取得した文字色空間(クラス1)と、罫線色空間投票部14が取得した罫線色空間(クラス2)との閾値(Th)をもとに罫線色を推定し罫線色削除部16に送出する。罫線色削除部16は罫線色推定部15が推定した罫線色を入力画像から削除し、罫線色を取り除いた入力画像を二値化部17に送出する。
【選択図】 図1

Description

本発明は、カラー帳票を扱う光学的文字読取装置に関する。
光学的文字読取装置に於いて、スキャナで読み取った帳票イメージから認識処理の対象となる文字の切り出しを行う技術として、従来では、二値化した画像から幾何的な情報(直線成分)を用いてプレプリントされた罫線を抽出し、その罫線をもとに認識対象文字領域を特定して文字の切り出しを行う技術と、色彩情報を使って罫線の色(例えばドロップアウトカラー)を推定し、その罫線をもとに認識対象文字領域を特定して文字の切り出しを行う技術とが存在した。このうち、幾何的な情報を用いた技術に於いては、プレプリント文字と認識対象の文字との重なり部分に於いて上記各文字の判定が付き難く、精度の高い安定した文字切り出しが行えないという問題があった。また、色彩情報を用いた技術に於いては、表の形式が固定されている場合やプレプリントされた罫線の色が決まっている場合は有効でであるが、フォーマットおよび罫線色が特定されない複数種の帳票を混在して扱う場合に於いては罫線色を正しく認識できず、従って認識対象文字領域を特定できないことから、扱う帳票に制約を受け、使用用途が限られてしまうという問題があった。
特開平8−212296号公報
上述したように従来では、幾何的な情報を用いた技術に於いては、プレプリント文字と認識対象の文字との重なり部分に於いて上記各文字の判定が付き難く、精度の高い安定した文字切り出しが行えないという問題があり、また、色彩情報を用いた技術に於いては、プレプリント色、フォーマット等が特定されない複数種の帳票を混在して扱う場合に罫線を正しく認識できず、従って認識対象文字領域を特定できないことから、扱う帳票に制約を受け、使用用途が限られてしまうという問題があった。
本発明は上記実情に鑑みなされたもので、プレプリント色、フォーマット等を異にする複数種の帳票を混在して扱う場合に、罫線を含むプレプリント色を高い精度で特定でき、これによって、多種多様な帳票を混在して文字認識処理を行う場合であっても、精度の高い安定した文字切り出しが行える光学的文字読取装置を提供することを目的とする。
本発明は、スキャナで読み取ったカラー帳票全体のイメージからプレプリント部分を安定して抽出するために、読み取ったカラー画像を一旦二値化し、その二値画像から幾何情報(直線成分)を用いて罫線画像を抽出する。この罫線画像と上記二値画像との差分を文字画像として、その文字画像の色(輝度や色相)を集計し、文字画像の色情報を取得する。また上記罫線画像について罫線の色(プレプリントの色)を集計し罫線画像の色情報を取得する。上記取得した各色情報を用いて上記読み取ったカラー画像から罫線色を取り除いた画像を取得し、当該画像を二値化して文字画像を切り出す。
このように、幾何的な情報を用いて罫線を抽出し、その画素の色を集計することで、精度良く罫線の色を抽出でき、さらに、その罫線色を用いて読み取ったカラー画像から罫線色を取り除き、文字画像を取得することで、プレプリントに文字が重なった場合であっても文字を精度良く切り出すことができる。
さらに本発明は、文字切り出しの精度を向上させるために、罫線画素の推定を、認識するフィールド(認識対象となる部分画像)毎に行う。これによって、不要な部分領域の処理を行わないことから、より高速化が図られ、また、部分毎に処理されることから、帳票に於けるシェーディングや朱印などのノイズに対してロバストになる。
フォーマット並びにプレプリント色を異にする複数種の帳票を混在して扱う場合に、罫線を含むプレプリント色を高い精度で特定でき、これによって、多種多様な帳票を混在して文字認識処理を行う場合であっても、精度の高い安定した文字切り出しが行える。
以下、図面を参照してこの発明の実施の形態を説明する。
図1は本発明の第1、第2実施形態に於ける光学的文字読取装置の構成を示すブロック図であり、スキャナ1と処理装置2とを具備して構成される。スキャナ1はカラー帳票(P)の読み取りが可能であり、帳票(P)上を走査して読み取ったカラー帳票(P)の帳票イメージを処理装置2に送出する。処理装置2はスキャナ1が読み取ったカラー帳票(P)のイメージから帳票上の文字を認識する文字認識部3を具備する。この文字認識部3は、スキャナ1が読み取ったカラー帳票(P)の帳票イメージから、プレプリント色の罫線内に記録された文字を認識処理の対象として、文字情報を切り出す、文字、罫線の切り出し部(以下単に文字切り出し部と称す)4と、文字切り出し部4で切り出した文字領域内の文字を認識する認識処理部5とを具備する。
文字切り出し部4は、上記カラー帳票(P)の帳票イメージを一旦二値化して幾何情報をもとに罫線を抽出し、その罫線部分のプレプリント色を推定して、その推定した色を上記カラー帳票イメージから取り除き、二値化して、文字の切り出しを行う処理機能をもつもので、この文字切り出し部4の構成並びに処理動作を以下に図面を参照して説明する。
図2は上記第1実施形態に於ける文字切り出し部4の構成要素を示すブロック図であり、二値化部11、罫線抽出部12、文字色空間投票部13、罫線色空間投票部14、罫線色推定部15、罫線色削除部16、二値化部17等により構成される。
二値化部11は、スキャナ1が読み取ったカラー帳票(P)の帳票イメージを入力画像として、当該入力画像を背景部と、背景部を除いた処理の対象となる前景部とに二値化する。
罫線抽出部12は、上記二値化部11で二値化された帳票イメージの前景部から、幾何的な情報(直線成分)をもとに罫線(パターン)を抽出する。
文字色空間投票部13は、罫線抽出前の入力画像と罫線抽出部12で抽出した罫線の抽出結果との差分、即ち、前景部の画像から罫線を取り除いた画像に対して色空間(色相、彩度、明度)の投票を行い、その集計結果としてクラス1の色空間情報を取得する。ここでは一例として、彩度と、明度との色空間投票を行い、文字記録部分と推定される色空間情報を文字色空間として取得する。
罫線色空間投票部14は、罫線抽出部12で抽出した罫線部分の入力画像に対して色空間の投票を行い、その集計結果としてクラス2の色空間情報を取得する。ここでは上記文字色空間投票部13と同様に、彩度と、明度との色空間投票を行い、罫線部分の色空間情報を罫線色空間として取得する。
罫線色推定部15は、文字色空間投票部13で取得した文字色空間(クラス1)と、罫線色空間投票部14で取得した罫線色空間(クラス2)との2クラス問題を解き(クラスタリングして)、罫線色を推定する。即ち、文字色空間投票部13が取得した文字色空間と罫線色空間投票部14が取得した罫線色空間との閾値を求め、その閾値をもとに罫線色を推定する。この際の罫線色推定部15の処理例については図5を参照して後述する。
罫線色削除部16は、罫線色推定部15で推定した罫線色を入力画像から削除する。二値化部17は罫線色削除部16で罫線色を取り除いた入力画像を二値化して、認識対象となる文字画像を取得する。尚、この二値化部17は上記した二値化部11と単一の二値化処理手段を共通に用いて実現可能である。この二値化部17で取得した文字画像が、認識対象文字として認識処理部5に供給される。
図3は上記図2に示した本発明の第1実施形態に於ける文字切り出し部4の処理手順を示すフローチャートであり、各ステップ(S11〜S17)に於ける処理の一例を後述する図4に示している。
図4および図5はそれぞれ上記文字切り出し部4の処理動作を説明するための動作説明図である。このうち、図4は上記図3のフローチャートに従う各処理ステップでの処理例を示す動作説明図であり、同図(a)はスキャナ1から得られた入力画像の一例を示す図、同図(b)は二値化部11で二値化された二値画像の一例を示す図、同図(c)は罫線抽出部12で抽出された罫線の一例を示す図、同図(d)は文字色空間投票部13で取得した文字色空間(クラス1)の一例を示す図、同図(e)は罫線色空間投票部14で取得した罫線色空間(クラス2)の一例を示す図、同図(f)は罫線色削除部16で罫線を削除した入力画像に対して二値化部17により二値化を行って得た文字画像の一例を示す図である。また、図中のThは、罫線色削除部16に於いて、文字色空間と罫線罫線色空間とを切り分けるために求められる閾値(Th)であり、図5を参照して後述する。尚、ここでは、入力画像に含まれる罫線を粗めのハッチで示し、二値化された罫線を細かめのハッチで示している。
また図5は文字色空間投票部13で取得した文字色空間(クラス1)と罫線色空間投票部14で取得した罫線色空間(クラス2)との閾値をもとに罫線色を推定する罫線色推定部15の処理例を示す動作説明図であり、同図(a)に文字色空間投票部13で得た文字色空間(クラス1)の一例を示し、同図(b)に罫線色空間投票部14で得た罫線色空間(クラス2)の一例を示し、同図(c)に同図(a)に示す文字色空間の投票結果と同図(b)に示す罫線色空間の投票結果から求めた文字色と罫線色とを切り分ける境界となる閾値(Th)を示している。図5(a)に示す文字色空間の投票結果に於いて、C1は本来の読み取り対象となる文字と推定される部分の投票結果の色空間領域であり、dはプレプリントされた罫線部分を除く文字、記号等の投票結果の色空間領域である。図5(b)に示す罫線色の投票結果に於いて、C2は罫線部分の投票結果の色空間領域である。いずれの領域に於いても著しく得点の高い部分(細かめのハッチで示す領域)を中心に、その周辺に得点の少ない色のばらつき部分(粗めのハッチで示す領域)が存在している。このばらつき部分が相互に重複した場合、罫線色を推定するための、即ち文字色と罫線色を切り分けるための閾値(Th)が必要となる。そこで上記文字色空間投票部13で得た図5(a)に示す文字色空間(クラス1)と、罫線色空間投票部14で得た同図(b)に示す罫線色空間(クラス2)とをマージした同図(c)に示す文字色空間上で、文字色と罫線色との切り分けを行う閾値(Th)を決定し、その閾値(Th)をもとに罫線色を推定して、文字色空間から罫線色を除去する。この際の閾値(Th)の決定は、確立された判別分析法に則る方法、若しくは経験則に基づく方法等、いずれの方法を用いて決定してもよい。
ここで、上記各図を参照して本発明の第1実施形態に於ける文字切り出し部4の処理動作を説明する。尚、スキャナ1が読み取るカラー帳票(P)は、プレプリント色の罫線と、その罫線領域内の記入文字とがそれぞれ色(ここでは色相、彩度)を異にするものとする。
スキャナ1で読み取られたカラー帳票(P)の帳票イメージは、処理装置2の文字認識部3に設けられた文字切り出し部4に入力される。文字切り出し部4に於いて、二値化部11はスキャナ1から入力された入力画像(図4(a)参照)を背景部と前景部とに二値化し、その二値化した画像(図4(b)参照)を罫線抽出部12、および文字色空間投票部13に送出する(図3ステップS11)。
罫線抽出部12は上記二値化部11で二値化された帳票イメージの前景部から、直線成分をもとに、罫線を抽出し(図4(c)参照)、その抽出した罫線部分の画像を文字色空間投票部13および罫線色空間投票部14に送出する(図3ステップS12)。
文字色空間投票部13は、罫線抽出前の入力画像と罫線抽出部12で抽出した罫線の抽出画像との差分をとり、前景部の画像から罫線を取り除いた画像に対して色空間(色相、彩度)の投票を行い(図4(d)参照)、文字色空間(クラス1)を取得して、当該文字色空間(クラス1)を罫線色推定部15に送出する(図3ステップS13)。
一方、罫線色空間投票部14は、罫線抽出部12で抽出した罫線部分の入力画像に対して色空間の投票を行い(図4(e)参照)、罫線色空間(クラス2)を取得して、当該罫線色空間(クラス2)を罫線色推定部15に送出する(図3ステップS14)。
罫線色推定部15は、文字色空間投票部13が取得した文字色空間(クラス1)と、罫線色空間投票部14が取得した罫線色空間(クラス2)との閾値(Th)を求め(図5参照)、その閾値(Th)をもとに罫線色を推定し、当該推定した罫線色を罫線色削除部16に送出する(図3ステップS15)。この際の色空間上に於ける閾値(Th)の決定は、前述したように、確立された判別分析法により求める方法、経験則に基づいて決定する方法等のいずれであってもよい。
罫線色削除部16は罫線色推定部15が推定した罫線色を入力画像から削除し、罫線色を取り除いた入力画像を二値化部17に送出する(図3ステップS16)。
二値化部17は罫線色削除部16で罫線色を取り除いた罫線で囲まれる領域の入力画像を二値化し(図4(f)参照)、その二値化画像を認識対象となる文字画像として認識処理部5に送出する(図3ステップS17)。
認識処理部5は、罫線色削除部16で罫線を削除した入力画像に対して二値化部17により二値化を行って得た文字画像を認識処理対象として文字認識を行う(図3ステップS18)。
このようにして、二値化部17より得られた文字画像は、罫線に重なった文字部分について、罫線(罫線色)が削除された二値画像であり、従って罫線に重なった文字部分が本来の文字パターンとして常に正しく二値化されることから、精度の高い文字認識が行える。
次に、図6乃至図8を参照して本発明の第2実施形態を説明する。この第2実施形態では、罫線色の推定並びに削除を、帳票全体を対象とせず、部分単位(例えばフィールド単位)で行うことによって、文字認識の精度をより向上させている。帳票の全体イメージを対象に一括して罫線色の推定並びに削除を含む文字切り出しの処理を行った場合、帳票上の記入位置、文字を記入する際の入力手段の問題等によって若干の色の違いが起きたり、色の違うノイズに悪影響を受けてしまうことで、罫線色の推定精度が劣化する場合が考えられる。特に文字色が特に薄い帳票やシェーディングなどで背景の濃さが場所によって少しづつ異なる帳票に対しては、部分単位で各部分毎に罫線色の推定並びに削除を行うことで、文字の切り出し精度をより向上できる。さらに帳票全体の画像を対象に二値化するのではなく必要部分のみの二値化で済むため、処理量の低減も見込むことができる。
図6は本発明の第2実施形態に於ける文字切り出し部4の構成要素を示すブロック図であり、二値化部31、罫線抽出部32、部分画像抽出部33、画像切り出し部34、文字色空間投票部35、罫線色空間投票部36、罫線色推定部37、罫線色削除部38、二値化部39等により構成される。
二値化部31は、スキャナ1が読み取ったカラー帳票(P)の帳票イメージを入力画像として、当該入力画像を背景部と前景部とに二値化する。罫線抽出部32は、上記二値化部31で二値化された帳票イメージの前景部から直線成分をもとに罫線を抽出する。
部分画像抽出部33は、罫線抽出部32の罫線抽出結果をもとに、帳票を所定の部分単位(例えばフィールド毎)に切り出すための帳票上に於ける各部分領域の座標値を抽出する。画像切り出し部34は、部分画像抽出部33で抽出した座標値をもとに入力画像から読取領域部分(例えば1フィールド分)の画像を切り出す。
文字色空間投票部35は、画像切り出し部34で切り出した部分画像と罫線抽出部32で抽出した罫線の抽出結果との差分、即ち、前景部の画像から罫線を取り除いた画像に対して色空間の投票を行い、その集計結果としてクラス1の色空間情報を取得する。ここでは上述した第1実施形態と同様に、彩度と明度との色空間投票を行い、文字記録部分と推定される色空間情報を文字色空間として取得する。
罫線色空間投票部36は、罫線抽出部32で抽出した罫線部分の入力画像に対して色空間の投票を行い、その集計結果としてクラス2の色空間情報を取得する。ここでは上述した第1実施形態と同様に、彩度と、明度との色空間投票を行い、罫線部分の色空間情報を罫線色空間として取得する。
罫線色推定部37は、文字色空間投票部35で取得した文字色空間(クラス1)と、罫線色空間投票部36で取得した罫線色空間(クラス2)との2クラス問題を解き、罫線色を推定する。ここでは、文字色空間投票部35が取得した部分画像(1フィールド)の文字色空間と罫線色空間投票部36が取得した罫線色空間との閾値を求め、その閾値をもとに罫線色を推定する。
罫線色削除部38は、罫線色推定部37で推定した罫線色を画像切り出し部34が切り出した部分画像から削除する。二値化部39は罫線色削除部38で罫線色を取り除いた部分画像を二値化して、認識対象となる文字画像を取得する。
図7は上記図6に示した文字切り出し部4の処理手順を示すフローチャートであり、各ステップ(S31〜S39)に於ける処理の一例を後述する図8に示している。
図8は上記図7のフローチャートに従う各処理ステップでの処理例を示す動作説明図である。ここでは、部分画像として、先ず「あいうえお」の文字フィールドが切り出され、次に「かきくけこ」の文字フィールドが切り出される場合を例に示している。図8(a)はスキャナ1から得られた入力画像の一例を示す図、同図(b)は二値化部31で二値化された二値画像の一例を示す図、同図(c)は罫線抽出部32で抽出した罫線の一例を示す図、同図(d)は文字色空間投票部35で取得した上記各部分画像の文字色空間(クラス1)の一例を示す図、同図(e)は罫線色空間投票部36で取得した罫線色空間(クラス2)の一例を示す図、同図(f)は罫線色削除部38で罫線を削除した各部分画像に対して二値化部17により二値化を行って得た文字画像の一例を示す図である。また、図中、「文字A」は「あいうえお」の文字フィールドについて文字色空間投票部35で得た文字色空間であり、「文字B」は「かきくけこ」の文字フィールドについて文字色空間投票部35で得た文字色空間である。さらに、Th(a)は、部分画像のうち、「あいうえお」の文字フィールドについて、罫線色削除部38で罫線色を削除する際に用いる閾値であり、Th(b)は「かきくけこ」の文字フィールドについて、罫線色削除部38で罫線色を削除する際に用いる閾値である。これら各閾値Th(a),Th(b)の求め方は、上述した第1実施形態と対象
画像の範囲が異なる(全体画像/部分画像)ことを除いて基本的に同様である。
ここで、上記6乃至図8を参照して本発明の第2実施形態に於ける文字切り出し部4の処理動作を説明する。
スキャナ1で読み取られたカラー帳票(P)の帳票イメージは、処理装置2の文字認識部3に設けられた文字切り出し部4に入力される。文字切り出し部4に於いて、二値化部31はスキャナ1から入力された入力画像(図8(a)参照)を背景部と前景部とに二値化し、その二値化した画像(図8(b)参照)を罫線抽出部32、および文字色空間投票部35に送出する(図7ステップS31)。
罫線抽出部32は上記二値化部31で二値化された帳票イメージの前景部から、直線成分をもとに、罫線を抽出し(図8(c)参照)、その抽出した罫線部分の画像を部分画像抽出部33に送出するとともに、文字色空間投票部35および罫線色空間投票部36に送出する(図7ステップS32)。
部分画像抽出部33は、罫線抽出部32の罫線抽出結果をもとに、帳票を所定の部分単位、即ちここではフィールド毎に切り出すための帳票(P)上に於ける各部分領域の座標値を抽出し、当該抽出した座標値を画像切り出し部34に送出する(図7ステップS33)。画像切り出し部34は、部分画像抽出部33で抽出した座標値をもとに入力画像から読取領域部分として、ここでは先ず「あいうえお」の文字フィールドの画像を切り出し、当該部分画像を文字色空間投票部35、および罫線色削除部38に送出する(図7ステップS34)。
文字色空間投票部35は、画像切り出し部34で切り出した部分画像(「あいうえお」の文字フィールドの画像)と罫線抽出部12で抽出した罫線の抽出画像との差分をとり、前景部の画像から罫線を取り除いた画像に対して色空間(色相、彩度)の投票を行い(図8(d)参照)、文字色空間(クラス1=文字A)を取得して、当該文字色空間(クラス1=文字A)を罫線色推定部37に送出する(図7ステップS35)。
また罫線色空間投票部36は、罫線抽出部32で抽出した罫線部分の入力画像に対して色空間の投票を行い(図8(e)参照)、罫線色空間(クラス2)を取得して、当該罫線色空間(クラス2)を罫線色推定部37に送出する(図7ステップS36)。
罫線色推定部37は、文字色空間投票部35が取得した部分画像(「あいうえお」の文字フィールドの画像)の文字色空間(クラス1=文字A)と、罫線色空間投票部14が取得した罫線色空間(クラス2)との閾値Th(a)を求め(図5参照)、その閾値Th(a)をもとに部分画像(「あいうえお」の文字フィールドの画像)に対する罫線色を推定し、当該推定した罫線色を罫線色削除部38に送出する(図7ステップS37)。この際の色空間上に於ける閾値Th(a)の決定は、上述した第1実施形態と同様に、確立された判別分析法により求める方法、経験則に基づいて決定する方法等のいずれであってもよい。
罫線色削除部38は罫線色推定部37が推定した罫線色を画像切り出し部34で切り出した部分画像(「あいうえお」の文字フィールドの画像)から削除し、罫線色を取り除いた部分画像を二値化部39に送出する(図7ステップS38)。
二値化部39は罫線色削除部38で罫線色を取り除いた罫線で囲まれる領域の部分画像を二値化し(図8(f)の「あいうえお」参照)、その二値化画像を認識対象となる文字画像として認識処理部5に送出する(図7ステップS39)。
認識処理部5は、罫線色削除部38で罫線を削除した部分画像に対して二値化部39により二値化を行って得た文字画像を認識処理対象として文字認識を行う(図7ステップS40)。
上記した部分画像(「あいうえお」の文字フィールドの画像)に対する文字画像の切り出し後、次の部分画像(「かきくけこ」の文字フィールドの画像)について次に上記同様の切り出し処理を実行する。
このように帳票全体の入力画像から切り出した部分画像毎に、罫線色を求めて、その罫線色を対象となる部分がぞうから削除する機能構成とすることによって、例えば認識対象となる記入文字の色が異なっていても各々別の色で文字切り出しと二値化を行うので常に精度の高い文字認識が可能となる。また、文字色が特に薄い帳票やシェーディングなどで背景の濃さが場所によって少しづつ異なる場合であっても文字部分を正しく二値化でき、常に精度の高い文字認識が可能となる。また、罫線色削除後の入力画像に対して、全体画像ではなく、部分画像を単位に二値化することから処理量の低減も見込むことができる。
本発明の第1、第2実施形態に於ける光学的文字読取装置の構成を示すブロック図。 本発明の第1実施形態に於ける文字切り出し部の構成を示すブロック図。 本発明の第1実施形態に於ける文字切り出し部の処理手順を示すフローチャート。 本発明の第1実施形態に於ける文字切り出し部の処理動作を説明するための動作説明図。 本発明の第1実施形態に於ける文字切り出し部の処理動作を説明するための動作説明図。 本発明の第2実施形態に於ける文字切り出し部の構成を示すブロック図。 本発明の第2実施形態に於ける文字切り出し部の処理手順を示すフローチャート。 本発明の第2実施形態に於ける文字切り出し部の処理動作を説明するための動作説明図。
符号の説明
1…スキャナ、2…処理装置、3…文字認識部、4…文字切り出し部(文字、罫線の切り出し部)、5…認識処理部、11,31…二値化部、12,32…罫線抽出部、13,35…文字色空間投票部、14,36…罫線色空間投票部、15,37…罫線色推定部、16,38…罫線色削除部、17,39…二値化部、33…部分画像抽出部、34…画像切り出し部。

Claims (2)

  1. カラー帳票のイメージを読み取るスキャナと、
    前記スキャナで読み取ったカラー帳票のイメージを前景部と背景部とに二値化する二値化手段と、
    前記二値化手段で二値化された帳票イメージの前景部から直線成分を検出し、当該検出情報をもとに前記前景部から罫線画像を抽出する罫線抽出手段と、
    前記罫線抽出手段で抽出した罫線画像の各画素の色空間投票と前記罫線画像を除く前景部の各画素の色空間投票とをもとに罫線色を推定する罫線色推定手段と、
    前記カラー帳票のイメージから前記罫線色推定手段で推定した罫線色の画素を削除する罫線色削除手段と、
    前記罫線色削除手段で罫線色の画素を削除した前記カラー帳票のイメージを二値化して認識対象となる文字画像を取得する文字画像取得手段と
    を具備したことを特徴とする光学的文字読取装置。
  2. 前記罫線色推定手段による罫線色の推定と、前記罫線色削除手段による罫線色の削除と、前記文字画像取得手段による二値化の各処理を前記二値化手段で二値化された帳票イメージの前景部に対して部分画像単位で実行する請求項1記載の光学的文字読取装置。
JP2003301024A 2003-08-26 2003-08-26 光学的文字読取装置 Pending JP2005071134A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003301024A JP2005071134A (ja) 2003-08-26 2003-08-26 光学的文字読取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003301024A JP2005071134A (ja) 2003-08-26 2003-08-26 光学的文字読取装置

Publications (1)

Publication Number Publication Date
JP2005071134A true JP2005071134A (ja) 2005-03-17

Family

ID=34405768

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003301024A Pending JP2005071134A (ja) 2003-08-26 2003-08-26 光学的文字読取装置

Country Status (1)

Country Link
JP (1) JP2005071134A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009159185A (ja) * 2007-12-26 2009-07-16 Hitachi Computer Peripherals Co Ltd ドロップアウトカラー処理方法およびその装置
JP2010003124A (ja) * 2008-06-20 2010-01-07 Hitachi Computer Peripherals Co Ltd ドロップアウトカラー処理装置およびこれを用いたドロップアウトカラー処理方法
JP2011018359A (ja) * 2010-09-16 2011-01-27 Hitachi Computer Peripherals Co Ltd ドロップアウトカラー処理装置およびこれを用いたドロップアウトカラー処理方法
US8326028B2 (en) 2007-12-26 2012-12-04 Hitachi Computer Peripherals Co., Ltd. Dropout color processing method and processing apparatus using same
US8615129B2 (en) 2007-01-18 2013-12-24 Fujitsu Limited Pattern separating extraction device, and pattern separating extraction method

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8615129B2 (en) 2007-01-18 2013-12-24 Fujitsu Limited Pattern separating extraction device, and pattern separating extraction method
JP2009159185A (ja) * 2007-12-26 2009-07-16 Hitachi Computer Peripherals Co Ltd ドロップアウトカラー処理方法およびその装置
JP4654237B2 (ja) * 2007-12-26 2011-03-16 日立コンピュータ機器株式会社 ドロップアウトカラー処理装置
US8326028B2 (en) 2007-12-26 2012-12-04 Hitachi Computer Peripherals Co., Ltd. Dropout color processing method and processing apparatus using same
JP2010003124A (ja) * 2008-06-20 2010-01-07 Hitachi Computer Peripherals Co Ltd ドロップアウトカラー処理装置およびこれを用いたドロップアウトカラー処理方法
JP4627787B2 (ja) * 2008-06-20 2011-02-09 日立コンピュータ機器株式会社 ドロップアウトカラー処理装置およびこれを用いたドロップアウトカラー処理方法
JP2011018359A (ja) * 2010-09-16 2011-01-27 Hitachi Computer Peripherals Co Ltd ドロップアウトカラー処理装置およびこれを用いたドロップアウトカラー処理方法

Similar Documents

Publication Publication Date Title
KR100625755B1 (ko) 문자 인식 장치, 문자 인식 방법, 매체 처리 방법 및 문자 인식 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
US9158986B2 (en) Character segmentation device and character segmentation method
US8792715B2 (en) System and method for forms classification by line-art alignment
JP6323437B2 (ja) 10指指紋カード入力装置、10指指紋カード入力方法、及び記憶媒体
CN101122952A (zh) 一种图片文字检测的方法
TW200842734A (en) Image processing program and image processing device
KR100691651B1 (ko) 배경 모델과 문자 모델의 결합에 의해 구조화된 배경 상의 문자를 자동 인식하는 방법
JP3018949B2 (ja) 文字読取装置およびその方法
Kalina et al. Application of template matching for optical character recognition
Chidiac et al. A robust algorithm for text extraction from images
JP2005071134A (ja) 光学的文字読取装置
JP5929282B2 (ja) 画像処理装置及び画像処理プログラム
JP4867894B2 (ja) 画像認識装置、画像認識方法及びプログラム
JPH0997309A (ja) 文字抽出装置
JP2001109887A (ja) 領域抽出方法、宛名領域抽出方法、宛名領域抽出装置、及び画像処理装置
JP2000357287A (ja) ナンバープレート認識方法および認識装置
JP2008219800A (ja) 書込み抽出方法、書込み抽出装置および書込み抽出プログラム
JP2001109842A (ja) 光学文字読取装置
Rahman et al. Text Information Extraction from Digital Image Documents Using Optical Character Recognition
JP3756660B2 (ja) 画像認識方法、装置および記録媒体
JP3645403B2 (ja) 文字読取装置および文字読取方法
JPH10154191A (ja) 帳票識別方法及び装置並びに帳票識別プログラムを記録した媒体
JP2000222577A (ja) 罫線処理方法、装置および記録媒体
JP3112190B2 (ja) 認識対象領域の設定方法
JPH05128308A (ja) 文字認識装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060713

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060718

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070206