JP2000331118A - Image processor and recording medium - Google Patents

Image processor and recording medium

Info

Publication number
JP2000331118A
JP2000331118A JP11135127A JP13512799A JP2000331118A JP 2000331118 A JP2000331118 A JP 2000331118A JP 11135127 A JP11135127 A JP 11135127A JP 13512799 A JP13512799 A JP 13512799A JP 2000331118 A JP2000331118 A JP 2000331118A
Authority
JP
Japan
Prior art keywords
character
absence
area
function
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11135127A
Other languages
Japanese (ja)
Inventor
Fumihiro Hasegawa
史裕 長谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP11135127A priority Critical patent/JP2000331118A/en
Publication of JP2000331118A publication Critical patent/JP2000331118A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Facsimile Image Signal Circuits (AREA)

Abstract

PROBLEM TO BE SOLVED: To give the optimum binarized threshold to each area without relying upon line widths and to prevent noise from being given to an area containing no character. SOLUTION: This image processor which generates a binary image suitable for optical character recognition from a variable density image is provided with a variable density image inputting means 1 which inputs a variable density image, a character writing position specifying means 2 which specifies an area in the image which becomes an object for character recognition, and a binarized threshold calculating means 3 which calculates binarized thresholds at every area. The processor is also provided with an in-area character presence/absence discriminating means 4 which discriminates the presence/absence of characters in an area and a binary image generating means 5 which generates a binary image by referring to the information on the presence/absence of characters.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、紙面に記入された
文字を光学的に認識する画像処理装置及びこれに用いら
れる記録媒体に関し、濃淡画像から文字が鮮明に再現さ
れた二値画像を生成し、文字認識の精度向上を図る技術
に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an image processing apparatus for optically recognizing characters written on a sheet of paper and a recording medium used for the same, and generates a binary image in which characters are clearly reproduced from a grayscale image. And a technique for improving the accuracy of character recognition.

【0002】[0002]

【従来の技術】光学的文字認識装置は、現在多くの技術
が提案されているが、そのほとんどが二値画像を対象と
したものであるので、二値画像の状態が認識精度を大き
く左右する。そのため、文字認識に好適な二値画像を生
成するために多くの技術が提案されている。
2. Description of the Related Art Although many techniques are currently proposed for optical character recognition apparatuses, most of them are directed to binary images, and the state of the binary image greatly affects recognition accuracy. . Therefore, many techniques have been proposed for generating a binary image suitable for character recognition.

【0003】特開平10−143608号公報は、濃淡
画像を適当な閾値で二値化し、できた二値画像上の平均
線幅を計算してその値が規定範囲外にある場合は、文字
認識に不適であると判断して二値化をやり直すことによ
り、文字認識に好適な二値画像を生成するものである。
Japanese Patent Laid-Open Publication No. Hei 10-143608 discloses a method of binarizing a grayscale image with an appropriate threshold value, calculating an average line width on the resulting binary image, and, if the average line width is out of a specified range, character recognition. In this case, a binarized image suitable for character recognition is generated by determining that the image is not suitable for the character recognition and performing the binarization again.

【0004】[0004]

【発明が解決しようとする課題】現在流通している帳票
には、図10(a)のように、背景が複数の色で印刷さ
れているものが存在する。記入される文字は大抵明度の
低い色(黒、紺など)であるため、白でない背景は、明
度の高い色で印刷されており、そこに文字が記入された
場合でも、人間が見て見づらいということはない。以
下、このような領域を中間色領域と呼ぶことにする。
As shown in FIG. 10A, some forms currently in circulation have a background printed in a plurality of colors. Since the characters to be entered are usually low brightness colors (black, dark blue, etc.), the background that is not white is printed in high brightness colors, and even if the characters are written there, it is difficult for humans to see. Not at all. Hereinafter, such an area is referred to as an intermediate color area.

【0005】ところが、この明度の高い色はほとんどの
場合、比較的明度の低い色のドットを非常に細かく印刷
することで表現している。この中間色領域部分を二値化
した場合、同図(b)のように、二値化閾値によっては
数ドット程度の細かいノイズ(黒画素)が非常に多く現
れることがある。なお、同図(c)は後述する本発明に
よる二値化結果を示している。
However, in most cases, the high-brightness color is expressed by printing dots of a relatively low-brightness color very finely. When the intermediate color region is binarized, very small noise (black pixels) of about several dots may appear depending on the binarization threshold as shown in FIG. FIG. 3C shows a binarization result according to the present invention described later.

【0006】上述の従来技術では、これら細かいノイズ
を線幅判定に加えてしまうため、正しい閾値決定が難し
い。また、領域内に文字が全く無い場合にも、ノイズを
手掛かりに二値化閾値の決定を行うことで、誤ってノイ
ズを文字画像として認識部に渡すことになり、どちらも
誤認識の原因となる。
In the above-mentioned prior art, since these fine noises are added to the line width judgment, it is difficult to determine a correct threshold value. In addition, even when there is no character in the area, the noise is used as a clue to determine the binarization threshold, so that the noise is erroneously passed to the recognition unit as a character image. Become.

【0007】本発明は、線幅に頼らず領域毎に最適な二
値化閾値を与えること及び、文字が無い領域では認識部
にノイズを渡さないようにすることができる画像処理装
置及び記録媒体を提供することを目的とするものであ
る。
The present invention provides an image processing apparatus and a recording medium which can provide an optimum binarization threshold value for each area without depending on a line width and can prevent noise from being passed to a recognition unit in an area where there is no character. The purpose is to provide.

【0008】[0008]

【課題を解決するための手段】上記目的を達成するため
に、請求項1記載の発明は、濃淡画像から光学的文字認
識に適した二値画像を生成する画像処理装置であって、
濃淡画像を入力する濃淡画像入力手段と、文字認識の対
象となる前記画像上の領域を特定する文字記入位置特定
手段と、各領域毎に二値化閾値を算出する二値化閾値算
出手段と、領域内の文字の有無を判定する領域内文字有
無判定手段と、前記文字の有無情報を参照して二値画像
を生成する二値画像生成手段とを備えることを特徴とす
るものである。
According to an aspect of the present invention, there is provided an image processing apparatus for generating a binary image suitable for optical character recognition from a grayscale image.
A grayscale image input unit for inputting a grayscale image, a character entry position specifying unit for specifying a region on the image to be subjected to character recognition, and a binarization threshold calculating unit for calculating a binarization threshold for each region And a binary image generation unit for generating a binary image by referring to the character presence / absence information.

【0009】また上記目的を達成するために、請求項2
記載の発明は、請求項1記載において、領域内文字有無
判定手段は、求められた二値化閾値で各文字領域内を二
値化した場合の画素の連結成分を抽出する連結成分抽出
手段と、連結成分の数を数える連結成分計数手段と、連
結成分の数から文字の有無を評価する評価値を算出する
文字有無評価値算出手段とを備えることを特徴とするも
のである。
Further, in order to achieve the above object, the present invention provides a second aspect.
According to the invention described in claim 1, the character presence / absence determining means in the area includes a connected component extracting means for extracting a connected component of a pixel when each character area is binarized with the obtained binarization threshold. And a connected component counting means for counting the number of connected components, and a character presence / absence evaluation value calculating means for calculating an evaluation value for evaluating the presence / absence of a character from the number of connected components.

【0010】また上記目的を達成するために、請求項3
記載の発明は、請求項1記載において、領域内文字有無
判定手段は、求められた二値化閾値で各文字領域内を二
値化した場合の各文字領域内のエッジを数えるエッジ数
計数手段と、エッジの数から文字の有無を評価する評価
値を算出する文字有無評価値算出手段とを備えることを
特徴とするものである。
[0010] In order to achieve the above object, a third aspect is provided.
The invention according to claim 1, wherein the character presence / absence determining means in the area counts the number of edges in each character area when each character area is binarized with the obtained binarization threshold. And a character presence / absence evaluation value calculating means for calculating an evaluation value for evaluating the presence / absence of a character from the number of edges.

【0011】また上記目的を達成するために、請求項4
記載の発明は、濃淡画像から光学的文字認識に適した二
値画像を生成する機能をコンピュータに実現させるプロ
グラムを格納した記録媒体であって、該プログラムは、
濃淡画像を入力する機能、文字認識の対象となる前記画
像上の領域を特定する機能、各領域毎に二値化閾値を算
出する機能、領域内の文字の有無を判定する機能、前記
文字の有無情報を参照して二値画像を生成する機能をコ
ンピュータに実現させるものであることを特徴とするも
のである。
According to another aspect of the present invention, the above object is achieved.
The described invention is a recording medium storing a program for causing a computer to realize a function of generating a binary image suitable for optical character recognition from a grayscale image, the program comprising:
A function of inputting a grayscale image, a function of specifying an area on the image to be subjected to character recognition, a function of calculating a binarization threshold for each area, a function of determining the presence or absence of a character in the area, It is characterized in that a function of generating a binary image with reference to presence / absence information is realized by a computer.

【0012】また上記目的を達成するために、請求項5
記載の発明は、請求項4記載において、文字の有無を判
定する機能として、二値化閾値で各文字領域内を二値化
した場合の画素の連結成分を抽出する機能と、連結成分
の数を数える機能と、連結成分の数から文字の有無を評
価する評価値を算出する機能とを備えることを特徴とす
るものである。
According to another aspect of the present invention, there is provided a semiconductor device comprising:
According to a fourth aspect of the present invention, in the fourth aspect, as a function of determining the presence or absence of a character, a function of extracting a connected component of a pixel when each character region is binarized by a binarization threshold, and a function of determining the number of connected components And a function of calculating an evaluation value for evaluating the presence or absence of a character from the number of connected components.

【0013】また上記目的を達成するために、請求項6
記載の発明は、請求項4記載において、文字の有無を判
定する機能として、二値化閾値で各文字領域内を二値化
した場合の各文字領域内のエッジを数える機能と、エッ
ジの数から文字の有無を評価する評価値を算出する機能
とを備えることを特徴とするものである。
According to another aspect of the present invention, there is provided a computer system comprising:
According to a fourth aspect of the present invention, in the fourth aspect, the function of determining the presence or absence of a character includes a function of counting edges in each character area when each character area is binarized using a binarization threshold, and a method of determining the number of edges. And a function for calculating an evaluation value for evaluating the presence / absence of a character from the character string.

【0014】[0014]

【発明の実施の形態】以下、本発明の実施の形態を添付
図面に従って説明する。図1は第1の実施の形態を示す
画像処理装置の構成図である。文字認識を行いたい帳票
原稿を濃淡画像として読み込むスキャナ等の濃淡画像入
力手段1、帳票上の文字の記入欄の位置を特定する文字
記入位置特定手段2、ある文字記入欄の二値化閾値を決
める二値化閾値算出手段3、文字領域内に文字が記入さ
れているか否かを判断する領域内文字有無判定手段4、
濃淡画像を基に、決定された閾値などから二値画像を生
成する二値画像生成手段5を備えている。
Embodiments of the present invention will be described below with reference to the accompanying drawings. FIG. 1 is a configuration diagram of an image processing apparatus according to the first embodiment. A gray-scale image input unit 1 such as a scanner for reading a form document to be subjected to character recognition as a gray-scale image, a character entry position specifying unit 2 for specifying a position of a character entry column on a form, and a binarization threshold value of a certain character entry column A binarization threshold calculating unit 3 for determining, a character presence / absence determining unit 4 for determining whether or not a character is written in a character region;
There is provided a binary image generating means 5 for generating a binary image from a determined threshold or the like based on the grayscale image.

【0015】図2は画像処理手順の第1の例を示すフロ
ーチャートである。濃淡画像入力手段1を用いて画像を
入力する(ステップ101)。次に文字の記入位置を文
字記入位置特定手段2により特定する(ステップ10
2)。これには様々な方法が考えられるが、特開平10
−91783号公報にあるように、未記入の同一フォー
マットの帳票画像との位置合わせを行い、この画像上の
位置座標値で定義された文字記入欄から処理対象の画像
上の文字記入欄の位置を推定する方法などを用いる。
FIG. 2 is a flowchart showing a first example of the image processing procedure. An image is input using the gray image input means 1 (step 101). Next, the character entry position is specified by the character entry position specifying means 2 (step 10).
2). Various methods can be considered for this purpose.
As described in Japanese Patent Application Laid-Open No. 9-17883, registration with a blank form image of the same format is performed, and the position of the character entry column on the image to be processed is changed from the character entry column defined by the position coordinate value on this image. Is used.

【0016】文字記入欄の位置推定の後、二値化閾値算
出手段3により二値化閾値の算出を行う(ステップ10
3)。ここでは判別分析法で閾値を決定する。判別分析
法とは、画像の濃度値ヒストグラムにおいて、濃度値の
集合を閾値tで2つのクラスに分割したときに、クラス
内の分散が最小、クラス間の分散が最小となるようなt
を閾値として決める方法である。
After estimating the position of the character entry field, the binarization threshold is calculated by the binarization threshold calculator 3 (step 10).
3). Here, the threshold value is determined by the discriminant analysis method. The discriminant analysis method is such that, when a set of density values is divided into two classes by a threshold value t in a density value histogram of an image, a variance within a class and a variance between classes are minimized.
Is determined as a threshold.

【0017】具体的には、閾値t未満の濃度値のクラス
を1、t以上のクラスを2と置き、それぞれのクラス内
の分散をv1 ,v2 、濃度平均値をe1 ,e2 、画素数
をn 1 ,n2 と置いたとき、クラス内分散vc とクラス
間分散vb を、 vc (t)=n1 1 +n2 2b (t)=n1 2 (e1 −e2 2 で定義する。このとき、 vb (t)/vc (t) が最大となるtを閾値とする。
Specifically, the class of the density value less than the threshold value t
Is set to 1, and the classes over t are set to 2, and within each class
The variance of v1, VTwoAnd the density average value is e1, ETwo, Number of pixels
To n 1, NTwoAnd put in the class variance vcAnd classes
Inter-variance vbAnd vc(T) = n1v1+ NTwovTwo vb(T) = n1nTwo(E1-ETwo)Two Defined by At this time, vb(T) / vcLet t at which (t) becomes the maximum be a threshold.

【0018】判別分析法で閾値を決定すると、白い領域
に文字が記入された場合に加え、中間色領域に文字が記
入された場合にも、背景を白、文字を黒として綺麗に二
値化が行える。ところが、領域内に文字が存在しない場
合、クラスの分割を強引に行うことになるので、できた
二値画像は白黒入り混じった画像になってしまうことは
前述した通りである。この画像を認識部に渡すと文字の
存在しない領域に対して、文字があるとの認識結果を生
み兼ねない。そこで、領域内文字有無判定手段4で文字
の有無を判定する(ステップ104)。文字の有無判定
には幾つかの方法が考えられるが、本実施例では画素の
連結成分の個数を用いる。
When the threshold value is determined by the discriminant analysis method, in addition to the case where a character is written in a white area and the case where a character is written in an intermediate color area, the binarization is beautifully performed by setting the background to white and the character to black. I can do it. However, if no characters exist in the area, the class is forcibly divided, so that the resulting binary image is an image mixed with black and white as described above. When this image is passed to the recognition unit, a recognition result indicating that there is a character may be generated in an area where no character exists. Therefore, the presence / absence of a character is determined by the in-region character presence / absence determining means 4 (step 104). Several methods are conceivable for determining the presence or absence of a character. In this embodiment, the number of connected components of pixels is used.

【0019】図3は領域内文字有無判定手段の第1の例
を示す構成図である。図2のステップ103で求められ
た二値化閾値で文字領域内を二値化した場合の、連結成
分を求める連結成分抽出手段201、連結成分の個数を
数える連結成分計数手段202、連結成分の個数から文
字の有無を判定する評価値を計算する文字有無評価値算
出手段203を備えている。
FIG. 3 is a block diagram showing a first example of the in-area character presence / absence determining means. When the inside of the character area is binarized by the binarization threshold value obtained in step 103 of FIG. 2, a connected component extracting unit 201 for obtaining a connected component, a connected component counting unit 202 for counting the number of connected components, There is provided a character presence / absence evaluation value calculation means 203 for calculating an evaluation value for determining the presence / absence of a character from the number.

【0020】図4は図3に示す領域内文字有無判定手段
による処理手順を示すフローチャートである。図2に示
すステップ104内の詳細な流れを説明する。まず、連
結成分抽出手段201で黒画素及び白画素の連結成分を
抽出する(ステップ301)。次に連結成分計数手段2
02で各連結成分の個数を数える(ステップ302)。
FIG. 4 is a flowchart showing a processing procedure by the character presence / absence determining means shown in FIG. A detailed flow in step 104 shown in FIG. 2 will be described. First, a connected component of a black pixel and a white pixel is extracted by the connected component extracting means 201 (step 301). Next, connected component counting means 2
In step 02, the number of each connected component is counted (step 302).

【0021】図5に示した例では、黒画素の連結成分が
5個、白画素の連結成分が3個である。次に文字有無評
価値算出手段203で評価値を求める(ステップ30
3)。本実施例では、領域内の全画素数をN、白画素、
黒画素の連結成分数をそれぞれw,bと置いた場合の、 R1 =(w+b)/N を評価値とする。
In the example shown in FIG. 5, there are five connected components of black pixels and three connected components of white pixels. Next, an evaluation value is obtained by the character presence / absence evaluation value calculation means 203 (step 30).
3). In this embodiment, the total number of pixels in the area is N, white pixels,
R 1 = (w + b) / N where the number of connected components of the black pixel is w and b, respectively, is used as the evaluation value.

【0022】評価値が予め定められた値より大きい場合
には、文字がない領域に無理に二値化閾値を決めたた
め、白黒入り混じった画像になったと判断されるので、
文字なしと判定する(ステップ305)。逆に小さい場
合には、文字を正しく二値化したと判断されるので、文
字ありと判定する(ステップ306)。
If the evaluation value is larger than a predetermined value, the binarization threshold is forcibly determined in an area where there is no character, so that it is determined that the image is a mixture of black and white.
It is determined that there is no character (step 305). Conversely, if it is smaller, it is determined that the character has been correctly binarized, so it is determined that there is a character (step 306).

【0023】次に、再び図2のフローに戻る。ステップ
104で文字がないと判断された場合には、誤って認識
を行わないように二値画像生成手段5で領域内をすべて
白画素にする処理を行う(ステップ105)。一方、文
字があると判断された領域では、先に求めた閾値で二値
化を行う(ステップ106)。このようにして、認識対
象となっている領域すべてに二値化処理を行うまで処理
を繰り返し(ステップ107)、終了したら二値画像を
出力して(ステップ108)認識部に渡し、処理を終了
する。
Next, the flow returns to the flow of FIG. If it is determined in step 104 that there is no character, the binary image generating means 5 performs a process of setting all the pixels in the area to white pixels so that recognition is not performed erroneously (step 105). On the other hand, in the area where it is determined that there is a character, binarization is performed using the previously obtained threshold (step 106). In this way, the processing is repeated until the binarization processing is performed on all the recognition target areas (step 107). When the processing is completed, a binary image is output (step 108) and passed to the recognition unit, and the processing ends. I do.

【0024】図6は領域内文字有無判定手段の第2の例
を示す構成図である。図6に示す領域内文字有無判定手
段4は、連結成分のエッジ数に着目して文字有無判定を
行うものであり、二値化した領域内のエッジ数を数える
エッジ数計数手段401、エッジ数から領域内の文字の
有無を吟味する評価値を算出する文字有無評価値算出手
段402を備えている。
FIG. 6 is a block diagram showing a second example of the in-area character presence / absence determining means. The in-region character presence / absence determination unit 4 shown in FIG. 6 performs character presence / absence determination by focusing on the number of edges of the connected component, and includes an edge number counting unit 401 that counts the number of edges in the binarized region, an edge number And a character presence / absence evaluation value calculation means 402 for calculating an evaluation value for examining the presence / absence of a character in the area from.

【0025】図7は図6に示す領域内文字有無判定手段
による処理手順を示すフローチャートである。上記と同
様、図2に示すステップ104内の詳細な流れを示すも
のである。まず、エッジ数計数手段401でエッジを数
える(ステップ501)。エッジは図8に示すように、
領域内を横方向に走査し、白黒が変動する回数を合計し
た後、縦方向に走査して同様の操作を行い、それらを合
計して求める(図8の例では領域のエッジ数=16+2
0=36)。
FIG. 7 is a flowchart showing a processing procedure by the character presence / absence determining means shown in FIG. Similarly to the above, a detailed flow in step 104 shown in FIG. 2 is shown. First, edges are counted by the edge number counting means 401 (step 501). The edge is as shown in FIG.
After the area is scanned in the horizontal direction and the number of times of black and white changes is totaled, the same operation is performed by scanning in the vertical direction, and the total is calculated (in the example of FIG. 8, the number of edges of the area = 16 + 2).
0 = 36).

【0026】次に、文字有無評価値算出手段402で、
エッジ数を基に評価値を計算する(ステップ502)。
本実施例での評価値は、エッジ数をe、領域内の総画素
数をNとおいて、 R2 =e2 /N で計算する。
Next, the character presence / absence evaluation value calculating means 402
An evaluation value is calculated based on the number of edges (step 502).
The evaluation value in this embodiment is calculated by R 2 = e 2 / N, where e is the number of edges and N is the total number of pixels in the area.

【0027】この評価値R2 は、文字がない領域に判別
分析法で閾値を決定した場合に現れる、白黒入り混じっ
た二値画像に対しては値が大きくなる傾向がある。よっ
て、評価値R2 の大小で文字の有無を判断できる。評価
値R2 と予め定めて置いた値を比較し(ステップ50
3)、既定値以上ならば文字なしと判定し(ステップ5
04)、図2のステップ105に進む。既定値以下なら
文字ありと判定し(ステップ505)、図2のステップ
106へ進む。
The evaluation value R 2 tends to be large for a binary image mixed with black and white, which appears when a threshold value is determined by a discriminant analysis method in a region where there is no character. Thus, the presence or absence of a character can be judged by the magnitude of the evaluation value R 2. Comparing a pre-determined value at the evaluation value R 2 (step 50
3) If the value is equal to or more than the predetermined value, it is determined that there is no character (step 5).
04), the process proceeds to a step 105 in FIG. If it is less than the predetermined value, it is determined that there is a character (step 505), and the process proceeds to step 106 in FIG.

【0028】図9は第2の実施の形態を示す画像処理装
置の構成図である。本実施形態は、請求項4ないし請求
項6記載のソフトウェアによって上記機能を実現する場
合の構成図であり、CPU601、メモリ602、ハー
ドディスク603、入力装置604、CD−ROMドラ
イブ605、ディスプレイ606、マウスなどからなる
汎用の処理装置を用意する。
FIG. 9 is a block diagram of an image processing apparatus according to the second embodiment. This embodiment is a configuration diagram when the above functions are realized by the software according to claims 4 to 6, and includes a CPU 601, a memory 602, a hard disk 603, an input device 604, a CD-ROM drive 605, a display 606, and a mouse. A general-purpose processing device composed of, for example, is prepared.

【0029】CD−ROMなどの記録媒体607には、
本発明の二値画像生成の処理機能や処理手順を実現させ
るためのプログラムが記録されている。また処理対象の
原稿画像は、例えばハードディスク603などに格納さ
れている。CPU601は、記録媒体607から上記し
た処理機能、手順を実現するプログラムを読み出し実行
し、二値画像生成の結果をディスプレイ606などに出
力する。
A recording medium 607 such as a CD-ROM includes
A program for realizing the processing function and the processing procedure of the binary image generation of the present invention is recorded. The document image to be processed is stored in, for example, the hard disk 603 or the like. The CPU 601 reads a program for realizing the above-described processing functions and procedures from the recording medium 607, executes the program, and outputs a result of the binary image generation to the display 606 or the like.

【0030】[0030]

【発明の効果】本発明の画像処理装置は、濃淡画像を入
力する濃淡画像入力手段と、文字認識の対象となる前記
画像上の領域を特定する文字記入位置特定手段と、各領
域毎に二値化閾値を算出する二値化閾値算出手段と、領
域内の文字の有無を判定する領域内文字有無判定手段
と、前記文字の有無情報を参照して二値画像を生成する
二値画像生成手段とを備える。
According to the image processing apparatus of the present invention, there are provided a grayscale image input means for inputting a grayscale image, a character entry position specifying means for specifying an area on the image to be subjected to character recognition, A binarization threshold calculation unit for calculating a binarization threshold, a character presence / absence determination unit for determining the presence / absence of a character in the region, and a binary image generation for generating a binary image with reference to the character presence / absence information Means.

【0031】またコンピュータ読み取り可能な記録媒体
は、コンピュータに濃淡画像を入力する機能、文字認識
の対象となる前記画像上の領域を特定する機能、各領域
毎に二値化閾値を算出する機能、領域内の文字の有無を
判定する機能、前記文字の有無情報を参照して二値画像
を生成する機能を実現させるためのプログラムを格納し
ている。
The computer-readable recording medium has a function of inputting a grayscale image to a computer, a function of specifying an area on the image to be subjected to character recognition, a function of calculating a binarization threshold for each area, A program for realizing a function of determining the presence / absence of a character in an area and a function of generating a binary image with reference to the presence / absence information of the character is stored.

【0032】従って、領域毎に背景色が異なる帳票に対
しても、文字認識に好適な二値画像の生成が可能であ
る。
Therefore, it is possible to generate a binary image suitable for character recognition even for a form having a different background color for each region.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1の実施の形態を示す画像処理装置
の構成図である。
FIG. 1 is a configuration diagram of an image processing apparatus according to a first embodiment of the present invention.

【図2】画像処理手順の第1の例を示すフローチャート
である。
FIG. 2 is a flowchart illustrating a first example of an image processing procedure.

【図3】領域内文字有無判定手段の第1の例を示す構成
図である。
FIG. 3 is a configuration diagram illustrating a first example of an in-area character presence / absence determination unit.

【図4】図3に示す領域内文字有無判定手段による処理
手順を示すフローチャートである。
FIG. 4 is a flowchart showing a processing procedure by an in-area character presence / absence determining unit shown in FIG. 3;

【図5】連結成分を数える例を示す図である。FIG. 5 is a diagram illustrating an example of counting connected components.

【図6】領域内文字有無判定手段の第2の例を示す構成
図である。
FIG. 6 is a configuration diagram showing a second example of the character presence / absence determination means in the area.

【図7】図6に示す領域内文字有無判定手段による処理
手順を示すフローチャートである。
FIG. 7 is a flowchart showing a processing procedure by an in-area character presence / absence determining unit shown in FIG. 6;

【図8】エッジの数え方を示す図である。FIG. 8 is a diagram showing how to count edges.

【図9】本発明の第2の実施の形態を示す画像処理装置
の構成図である。
FIG. 9 is a configuration diagram of an image processing apparatus according to a second embodiment of the present invention.

【図10】二値化の例を示す図である。FIG. 10 is a diagram illustrating an example of binarization.

【符号の説明】 1 濃淡画像入力手段 2 文字記入位置特定手段 3 二値化閾値算出手段 4 領域内文字有無判定手段 5 二値画像生成手段[Description of Signs] 1 Shading image input means 2 Character entry position specifying means 3 Binarization threshold calculation means 4 Character presence / absence determination means in area 5 Binary image generation means

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】 濃淡画像から光学的文字認識に適した二
値画像を生成する画像処理装置であって、 濃淡画像を入力する濃淡画像入力手段と、文字認識の対
象となる前記画像上の領域を特定する文字記入位置特定
手段と、各領域毎に二値化閾値を算出する二値化閾値算
出手段と、領域内の文字の有無を判定する領域内文字有
無判定手段と、前記文字の有無情報を参照して二値画像
を生成する二値画像生成手段とを備えることを特徴とす
る画像処理装置。
An image processing apparatus for generating a binary image suitable for optical character recognition from a grayscale image, comprising: a grayscale image input means for inputting a grayscale image; and an area on the image to be subjected to character recognition. Character entry position identification means for identifying a character, a binarization threshold value calculation means for calculating a binarization threshold value for each area, an in-area character presence / absence determination means for determining the presence / absence of a character in the area, and presence / absence of the character An image processing apparatus comprising: a binary image generating unit configured to generate a binary image by referring to information.
【請求項2】 請求項1記載において、 領域内文字有無判定手段は、求められた二値化閾値で各
文字領域内を二値化した場合の画素の連結成分を抽出す
る連結成分抽出手段と、連結成分の数を数える連結成分
計数手段と、連結成分の数から文字の有無を評価する評
価値を算出する文字有無評価値算出手段とを備えること
を特徴とする画像処理装置。
2. The connected component extracting unit according to claim 1, wherein the in-region character presence / absence determining unit extracts a connected component of a pixel when each character region is binarized by the obtained binarization threshold. An image processing apparatus comprising: connected component counting means for counting the number of connected components; and character presence / absence evaluation value calculation means for calculating an evaluation value for evaluating the presence / absence of a character from the number of connected components.
【請求項3】 請求項1記載において、 領域内文字有無判定手段は、求められた二値化閾値で各
文字領域内を二値化した場合の各文字領域内のエッジを
数えるエッジ数計数手段と、エッジの数から文字の有無
を評価する評価値を算出する文字有無評価値算出手段と
を備えることを特徴とする画像処理装置。
3. The edge number counting means for counting the number of edges in each character area when each character area is binarized with the obtained binarization threshold value according to claim 1, An image processing apparatus comprising: a character presence / absence evaluation value calculation unit that calculates an evaluation value for evaluating the presence / absence of a character from the number of edges.
【請求項4】 濃淡画像から光学的文字認識に適した二
値画像を生成する機能をコンピュータに実現させるプロ
グラムを格納した記録媒体であって、 該プログラムは、濃淡画像を入力する機能、文字認識の
対象となる前記画像上の領域を特定する機能、各領域毎
に二値化閾値を算出する機能、領域内の文字の有無を判
定する機能、前記文字の有無情報を参照して二値画像を
生成する機能をコンピュータに実現させるものであるこ
とを特徴とするコンピュータ読み取り可能な記録媒体。
4. A recording medium storing a program for causing a computer to realize a function of generating a binary image suitable for optical character recognition from a grayscale image, the program comprising: a function of inputting a grayscale image; A function for specifying an area on the image to be processed, a function for calculating a binarization threshold for each area, a function for determining the presence / absence of a character in the area, and a binary image with reference to the presence / absence information of the character. A computer-readable recording medium for causing a computer to realize a function of generating a program.
【請求項5】 請求項4記載において、 文字の有無を判定する機能として、二値化閾値で各文字
領域内を二値化した場合の画素の連結成分を抽出する機
能と、連結成分の数を数える機能と、連結成分の数から
文字の有無を評価する評価値を算出する機能とを備える
ことを特徴とするコンピュータ読み取り可能な記録媒
体。
5. The function according to claim 4, wherein, as a function of determining the presence or absence of a character, a function of extracting a connected component of a pixel when each character area is binarized by a binarization threshold, and a function of determining the number of connected components And a function for calculating an evaluation value for evaluating the presence or absence of a character from the number of connected components.
【請求項6】 請求項4記載において、 文字の有無を判定する機能として、二値化閾値で各文字
領域内を二値化した場合の各文字領域内のエッジを数え
る機能と、エッジの数から文字の有無を評価する評価値
を算出する機能とを備えることを特徴とするコンピュー
タ読み取り可能な記録媒体。
6. The function according to claim 4, wherein the function of determining the presence or absence of a character includes a function of counting edges in each character region when each character region is binarized by a binarization threshold, and a method of determining the number of edges. And a function for calculating an evaluation value for evaluating the presence or absence of a character from a computer.
JP11135127A 1999-05-17 1999-05-17 Image processor and recording medium Pending JP2000331118A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11135127A JP2000331118A (en) 1999-05-17 1999-05-17 Image processor and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11135127A JP2000331118A (en) 1999-05-17 1999-05-17 Image processor and recording medium

Publications (1)

Publication Number Publication Date
JP2000331118A true JP2000331118A (en) 2000-11-30

Family

ID=15144454

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11135127A Pending JP2000331118A (en) 1999-05-17 1999-05-17 Image processor and recording medium

Country Status (1)

Country Link
JP (1) JP2000331118A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008299673A (en) * 2007-05-31 2008-12-11 Sharp Corp Image processor, image processing program and computer readable recording medium recording image processing program and image processing method
US20120076371A1 (en) * 2010-09-23 2012-03-29 Siemens Aktiengesellschaft Phantom Identification
US9076225B2 (en) 2012-09-26 2015-07-07 Nidec Sankyo Corporation Image processing device, an image processing method and a program to be used to implement the image processing

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008299673A (en) * 2007-05-31 2008-12-11 Sharp Corp Image processor, image processing program and computer readable recording medium recording image processing program and image processing method
US20120076371A1 (en) * 2010-09-23 2012-03-29 Siemens Aktiengesellschaft Phantom Identification
US9076225B2 (en) 2012-09-26 2015-07-07 Nidec Sankyo Corporation Image processing device, an image processing method and a program to be used to implement the image processing

Similar Documents

Publication Publication Date Title
JP3904840B2 (en) Ruled line extraction device for extracting ruled lines from multi-valued images
US7292375B2 (en) Method and apparatus for color image processing, and a computer product
US7054485B2 (en) Image processing method, apparatus and system
US8947736B2 (en) Method for binarizing scanned document images containing gray or light colored text printed with halftone pattern
US8331670B2 (en) Method of detection document alteration by comparing characters using shape features of characters
US6798906B1 (en) Image processing apparatus and method including line segment data extraction
US8385643B2 (en) Determination of inputted image to be document or non-document
JP2000184202A (en) Image processing system for removing pattern arranged in vertical direction on image generated by scanning
JP2004272798A (en) Image reading device
US9076225B2 (en) Image processing device, an image processing method and a program to be used to implement the image processing
JP2002199206A (en) Method and device for imbedding and extracting data for document, and medium
JP4049560B2 (en) Halftone dot removal method and system
JP2010074342A (en) Image processing apparatus, image forming apparatus, and program
JP3772262B2 (en) How to identify the type of an image
JP2001222683A (en) Method and device for processing picture, device and method for recognizing character and storage medium
JP2000331118A (en) Image processor and recording medium
JP3989647B2 (en) Image processing method, apparatus, and recording medium
JP3830350B2 (en) Color image processing method, color image processing apparatus, program, and recording medium
JP4116377B2 (en) Image processing method and image processing apparatus
JP4409713B2 (en) Document image recognition apparatus and recording medium
JP3756660B2 (en) Image recognition method, apparatus and recording medium
JP2000040153A (en) Image processing method, medium recording image processing program and image processor
JP2001143076A (en) Image processor
JP2023132586A (en) Image processing device, image processing method, and program
JP2002279345A (en) Image processing device and method, and computer- readable storage medium with stored program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040902

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20040930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071218

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080422