JP2001143021A - Method and device for recognizing character - Google Patents

Method and device for recognizing character

Info

Publication number
JP2001143021A
JP2001143021A JP31948299A JP31948299A JP2001143021A JP 2001143021 A JP2001143021 A JP 2001143021A JP 31948299 A JP31948299 A JP 31948299A JP 31948299 A JP31948299 A JP 31948299A JP 2001143021 A JP2001143021 A JP 2001143021A
Authority
JP
Japan
Prior art keywords
character
image
recognition
ruled line
character image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP31948299A
Other languages
Japanese (ja)
Inventor
Jutaro Ishioka
寿太郎 石岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Digital Laboratory Co Ltd
Original Assignee
Japan Digital Laboratory Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Digital Laboratory Co Ltd filed Critical Japan Digital Laboratory Co Ltd
Priority to JP31948299A priority Critical patent/JP2001143021A/en
Publication of JP2001143021A publication Critical patent/JP2001143021A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide character recognition method and device capable of improving a recognition ratio, when a document or the like on which a ruled line or a frame line is printed out by monochromatic printing using a non-dropout color is read out by an image reader. SOLUTION: A character is segmented from an image from which a ruled line or the like is removed (S1, S2), ruled line contact information is stored in a memory, a segmented character image recognition processing (S4, S5) is executed, and when the segmented character image cannot be recognized, the segmented character image is interpolated, so as to connect partial sections lost by the ruled line removal on the basis of the ruled line contact information (S7), and recognition processing (S8, S9) is executed again and whether a recognition result is to be outputted is judged (S10).

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は文字認識技術に関
し、特に、非ドロップアウトカラーの1色刷りで罫線や
枠線が印刷された帳票に記入された文字をイメージリー
ダで読み取って得た読み取りイメージから罫線又は枠線
を除去した文字の認識技術に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character recognition technology, and more particularly to a character recognition technology which reads a character written on a form on which a ruled line and a frame line are printed by one color printing of a non-dropout color with an image reader. The present invention relates to a technology for recognizing characters from which ruled lines or frame lines have been removed.

【0002】[0002]

【従来の技術】OCRやスキャナ等のイメージリーダで
は帳票や原稿上の文字を読み取って電気信号に変換し文
字イメージを出力するが、帳票には、通常、罫線や枠線
が印刷されており文字は罫線に沿って印刷或いは記入さ
れるので、読み取りの邪魔にならないように罫線や枠線
はドロップアウトカラーで印刷されている。従って、イ
メージリーダで文字が印刷或いは記入された帳票を読み
取っても罫線又は枠線は読み取られないのでそれらの罫
線や枠線イメージなしの文字、すなわち、文字のみを読
み取ることができる。
2. Description of the Related Art An image reader such as an OCR or a scanner reads a character on a form or a document, converts the character into an electric signal, and outputs a character image. However, a form usually has a ruled line or a frame line printed thereon. Are printed or written along the ruled lines, so that the ruled lines and frame lines are printed in a dropout color so as not to interfere with reading. Therefore, even if a form on which characters are printed or written is read by an image reader, the ruled lines or the frame lines are not read, so that the characters without those ruled lines or the frame line images, that is, only the characters can be read.

【0003】しかし、従来、このような帳票をイメージ
リーダで読み取って文字認識処理を行うには文字記入位
置を判定するために罫線又は枠線の位置を示す非ドロッ
プアウトカラーのガイドマークを印刷しておく必要があ
った。
However, conventionally, in order to perform character recognition processing by reading such a form with an image reader, a non-dropout color guide mark indicating the position of a ruled line or a frame line is printed in order to determine the character entry position. Had to be kept.

【0004】しかし、上述のように非ドロップアウトカ
ラーのガイドマークを印刷する方法では帳票をドロップ
アウトカラーの罫線又は枠線と非ドロップアウトカラー
のガイドラインの2色刷りとする必要があるので、帳票
の印刷コストがかかりランニングコストが高くなるとい
った問題点があった。
However, in the method of printing the guide mark of the non-dropout color as described above, it is necessary to print the form in two colors of the ruled line or frame of the dropout color and the guideline of the non-dropout color. There is a problem that printing cost is high and running cost is high.

【0005】[0005]

【発明が解決しようとする課題】上述した2色刷りの帳
票を用いることによるランニングコストの上昇を避ける
には非ドロップアウトカラーの1色刷りで印刷された帳
票を用いればよいが、この場合には、非ドロップアウト
カラーで印刷された罫線又は枠線と記入された文字が接
触又は重複すると、イメージリーダで読み取った際、罫
線又は枠線と文字との区別がつかず、誤認識や読み取り
不能を生ずる場合があるといった問題点があった。
In order to avoid an increase in running cost due to the use of the above-described two-color printing form, a form printed with non-dropout color one-color printing may be used. If a ruled line or frame printed in a non-dropout color touches or overlaps with a written character, the ruled line or frame cannot be distinguished from the character when read by an image reader, resulting in erroneous recognition or inability to read. There was a problem that there was a case.

【0006】そこで、罫線又は枠線と文字が接触した場
合の誤認識や読み取り不能を防止するためには、イメー
ジリーダで読み取った後、罫線又は枠線を強制的に除去
すればよいが、単に、罫線や枠線を除去するだけでは
(罫線又は枠線と接触していた文字の一部が除去されて
しまうので)除去後の文字イメージの認識率が低下する
ので、従来は、残った文字イメージ部分の前後のストロ
ークの方向とその距離等から除去された部分を推定して
イメージ補間を行っていた。
Therefore, in order to prevent erroneous recognition or inability to read when a character contacts a ruled line or a frame line, the ruled line or the frame line may be forcibly removed after being read by an image reader. Since the recognition rate of the character image after the removal is reduced only by removing the ruled line or the frame line (since a part of the character in contact with the ruled line or the frame line is removed), conventionally, the remaining character Image interpolation is performed by estimating the removed portion from the directions of strokes before and after the image portion and the distance between the strokes.

【0007】しかし、上述のイメージ補間方法でストロ
ークの方向が真の文字イメージとは異なる方向に向いて
いる場合には正しいイメージ補間ができないといった問
題点があった。例えば、文字「2」の下の部分が図3の
例のように罫線に接触していると、罫線と共にその部分
が除去され図10(a)の例のようにストロークの方向
が左斜め下方向となり、しかもその距離が長いので、従
来の方法でイメージ補間すると図10(c)のように左
斜め方向にストローク部分が延長したイメージ(文字認
識すれば「7」)となり、正しい文字イメージ(図10
(b))とは異なったイメージ補間がなされることとな
る。
However, there is a problem that correct image interpolation cannot be performed if the stroke direction is different from the true character image in the above-described image interpolation method. For example, if the lower part of the character "2" is in contact with the ruled line as in the example of FIG. 3, that part is removed together with the ruled line, and the direction of the stroke is diagonally lower left as in the example of FIG. Since the distance is long and the distance is long, when the image is interpolated by the conventional method, an image in which the stroke portion is extended diagonally to the left as shown in FIG. FIG.
Image interpolation different from (b)) is performed.

【0008】本発明は上記問題点を解決するためになさ
れたものであり、非ドロップアウトカラーの1色刷りで
罫線或いは枠線(以下、罫線等)が印刷された帳票等を
イメージリーダで読み取る際の認識率向上を実現した文
字認識方法及び文字認識装置の提供を目的とする。
SUMMARY OF THE INVENTION The present invention has been made to solve the above-mentioned problem, and is intended to read a form or the like on which a ruled line or a frame (hereinafter referred to as a ruled line) is printed by non-dropout color printing with an image reader. It is an object of the present invention to provide a character recognition method and a character recognition device which realize an improvement in the recognition rate of a character.

【0009】[0009]

【課題を解決するための手段】上記課題を解決するため
に、第1の発明の文字認識方法は、読み取った原稿の読
み取りイメージから罫線等のイメージを取り除いて1文
字ずつ文字イメージを切り出して文字認識を行う文字認
識方法であって、文字イメージの切り出しの際に切り出
された文字イメージと罫線等との接触情報を取得し、切
り出し文字の認識処理を行い、その認識結果が所定の条
件を満たさない場合に、認識結果と接触情報を基に、原
稿の読み取りイメージから罫線等のイメージを取り除く
際に該文字イメージから取り除かれた接触部分をつなぐ
ように補間した文字イメージを作成し、補間後の文字イ
メージの認識処理を行う、ことを特徴とする。
In order to solve the above-mentioned problems, a character recognition method according to a first aspect of the present invention is to remove a ruled line or the like from a read image of a read original and cut out a character image one by one to extract a character image. This is a character recognition method that performs recognition, acquires contact information between a character image cut out at the time of cutting out a character image and a ruled line, performs recognition processing of a cut out character, and the recognition result satisfies a predetermined condition. If not, based on the recognition result and the contact information, when removing an image such as a ruled line from the read image of the original, create a character image interpolated so as to connect the contact portions removed from the character image, and Character image recognition processing is performed.

【0010】また、第2の発明は上記第1の発明の文字
認識方法において、補正後の文字イメージが所定の条件
を満たさない場合に、該認識結果と接触情報を基に、原
稿の読み取りイメージから罫線等のイメージを取り除く
際に該文字イメージから取り除かれた接触部分をつなぐ
ように補間した補間後の文字イメージのうち、余分に生
成された部分をとり除いて補正した文字イメージを作成
し、再補間後の文字イメージの認識処理を行う、ことを
特徴とする。
According to a second aspect of the present invention, in the character recognition method according to the first aspect, when the corrected character image does not satisfy a predetermined condition, a read image of the original is formed based on the recognition result and the contact information. When removing an image such as a ruled line from the interpolated character image interpolated so as to connect the contact portions removed from the character image, a corrected character image is created by removing an excessively generated portion, And performing recognition processing of the character image after the re-interpolation.

【0011】また、第3の発明の文字認識装置は、読み
取った原稿の読み取りイメージから罫線等のイメージを
取り除く罫線除去手段と、この罫線除去手段によって罫
線等が取り除かれた文字イメージから1文字ずつ文字イ
メージを切り出す切り出し手段と、罫線除去手段によっ
て罫線等が取り除かれた文字イメージから罫線等が接触
していた部分の接触情報を取得する罫線接触情報取得手
段と、切り出し手段によって切り出された文字イメージ
の認識処理を行なうと共に認識手段による認識結果を評
価する文字認識手段と、この文字認識手段による認識結
果の評価が所定の条件を満たさない場合に、該認識結果
と前記接触情報を基に、前記罫線除去手段による罫線除
去の際に該文字イメージから取り除かれた接触部分をつ
なぐように補間する文字イメージ補間手段とを備えたこ
とを特徴とする。
A character recognition device according to a third aspect of the present invention provides a ruled line removing means for removing an image such as a ruled line from a read image of a read original, and one character at a time from a character image from which a ruled line or the like has been removed by the ruled line removing means. A cutout means for cutting out a character image, a ruled line contact information obtaining means for obtaining contact information of a portion where a ruled line or the like has contacted from a character image from which a ruled line or the like has been removed by a ruled line removing means, and a character image cut out by the cutout means Character recognition means for performing recognition processing and evaluating the recognition result by the recognition means, and when the evaluation of the recognition result by the character recognition means does not satisfy a predetermined condition, based on the recognition result and the contact information, Interpolation is performed to connect the contact parts removed from the character image when the ruled line is removed by the ruled line removing means. Characterized in that a character image interpolation means.

【0012】また、第4の発明は上記第3の発明の文字
認識装置において、文字イメージ補間手段による補間後
の文字イメージが所定の条件を満たしているか否かを判
定する補間イメージ判定手段を備え、文字イメージ補正
手段は、文字イメージ補間手段による補間後の文字イメ
ージが補間イメージ判定手段によって所定の条件を満た
さないと判定された場合に、該認識結果と前記接触情報
を基に、接触部分をつなぐように補間した文字イメージ
のうち、余分に生成された部分を除いて補正した文字イ
メージを作成する手段を含むことを特徴とする。
According to a fourth aspect, in the character recognition apparatus according to the third aspect, there is provided an interpolated image determining means for determining whether or not the character image interpolated by the character image interpolating means satisfies a predetermined condition. The character image correcting means determines a contact portion based on the recognition result and the contact information when the character image interpolated by the character image interpolating means does not satisfy a predetermined condition by the interpolated image determining means. The image processing apparatus further includes means for creating a corrected character image by removing an extraly generated portion of the character image interpolated so as to be connected.

【0013】また、第5の発明は上記第3又は第4の発
明の文字認識装置において、接触情報は、罫線等と文字
の接触方向、罫線等と文字の接触又は重複個所数、罫線
等と文字の接触部分又は重複部分の端部または両端の位
置の全部またはそれらの組み合わせであることを特徴と
する。
According to a fifth aspect of the present invention, in the character recognition apparatus according to the third or fourth aspect, the contact information includes a contact direction of the ruled line or the like with the character, a contact of the ruled line or the like with the character or the number of overlapping portions, a ruled line or the like. It is characterized in that it is all or a combination of the positions of the ends or both ends of the contact portion or the overlapping portion of the character.

【0014】[0014]

【発明の実施の形態】図1は本発明の文字認識装置の一
実施例の構成を示すブロック図であり、文字認識装置1
00は、罫線除去部110、文字切り出し部120、罫
線接触情報格納部130及び文字認識ブロック140か
ら構成されている。なお、図示していないが文字認識装
置100はCPUおよびその周辺回路からなり、これら
各構成部分の動作制御及び文字認識装置全体の動作を制
御する制御部を備えている。
FIG. 1 is a block diagram showing the configuration of an embodiment of a character recognition apparatus according to the present invention.
Reference numeral 00 includes a ruled line removing unit 110, a character cutout unit 120, a ruled line contact information storage unit 130, and a character recognition block 140. Although not shown, the character recognition device 100 includes a CPU and its peripheral circuits, and includes a control unit that controls the operation of each of these components and controls the operation of the entire character recognition device.

【0015】罫線除去部110は、スキャナ等から読み
込んだ読み込みイメージIm1(図3)から罫線等(罫
線或いは枠線)のイメージを除去した文字イメージIm
2(図4)を取得し、罫線等に接触していたイメージの
罫線接触情報(例えば、文字の接触方向、接触個所数、
接触部分の位置(座標))を取得する。
The ruled line removing unit 110 is a character image Im obtained by removing a ruled line or the like (ruled line or frame line) from the read image Im1 (FIG. 3) read from a scanner or the like.
2 (FIG. 4), and obtains ruled line contact information (eg, character contact direction, number of contact points,
Acquire the position (coordinates) of the contact part).

【0016】文字切り出し部120は、罫線除去部11
0によって罫線等が除去されたイメージIm2から1文
字ずつ文字イメージを切り出して、切り出し文字イメー
ジCi1を取得し、その切り出し文字イメージのもつ罫
線接触情報を文字単位の罫線接触情報If2に変換す
る。
The character cutout unit 120 includes the ruled line removal unit 11
A character image is cut out character by character from the image Im2 from which ruled lines and the like have been removed by 0, a cut-out character image Ci1 is obtained, and ruled line contact information of the cut-out character image is converted into ruled line contact information If2 for each character.

【0017】罫線接触情報格納部130はRAM等の一
時格納メモリからなり、文字切り出し部130で得た罫
線接触情報If2を格納する。
The ruled line contact information storage unit 130 includes a temporary storage memory such as a RAM, and stores the ruled line contact information If2 obtained by the character cutout unit 130.

【0018】また、文字認識ブロック140は、特徴抽
出部141、辞書部142、識別部143、イメージ補
間処理部144、及び棄却判定部146を備え、特徴抽
出やイメージ補間処理等を行った後、文字認識を行う。
The character recognition block 140 includes a feature extraction section 141, a dictionary section 142, an identification section 143, an image interpolation processing section 144, and a rejection determination section 146. Perform character recognition.

【0019】すなわち、文字認識ブロック140におい
て、特徴抽出部141は、文字切り出し部120で切り
出された文字イメージCi1から特徴量Fd1を算出す
る(又は、イメージ補間処理部144でイメージ補間さ
れた文字イメージCi2から特徴量Fd2を算出す
る)。
That is, in the character recognition block 140, the feature extracting unit 141 calculates the feature amount Fd1 from the character image Ci1 cut out by the character cutout unit 120 (or the character image that is image-interpolated by the image interpolation processing unit 144). The feature amount Fd2 is calculated from Ci2).

【0020】また、辞書部142は、例えば、数字、ア
ルファベット等の標準的な特徴量Fdd、文字コードC
o等から構成されるテンプレート構成をなし、各文字種
に対して予め複数個のテンプレートをROM等の保存メ
モリに格納してなる。
The dictionary unit 142 includes standard feature values Fdd such as numbers and alphabets, and character codes C
The template configuration is made up of o and the like, and a plurality of templates are stored in advance in a storage memory such as a ROM for each character type.

【0021】また、識別部143は、特徴抽出部141
で算出された特徴量Fd1と辞書部142の各テンプレ
ートが持つ特徴量Fddとの距離計算を行い、距離の小
さい順(特徴の近い順)から上位規定値までの文字コー
ドCo1、その距離Di1等の認識候補情報を取得し
(又は、特徴抽出部141で算出された特徴量Fd2と
辞書部142の各テンプレートが持つ特徴量Fddとの
距離計算を行い、距離の小さい順(特徴の近い順)から
上位規定値までの文字コードCo2、その距離Di2等
の認識候補情報を取得し)、識別可否を判定する。
The identification unit 143 includes a feature extraction unit 141
The distance between the feature amount Fd1 calculated in step (1) and the feature amount Fdd of each template of the dictionary unit 142 is calculated, and the character code Co1 from the smallest distance (the order of the closest feature) to the upper specified value, the distance Di1, etc. (Or the distance between the feature amount Fd2 calculated by the feature extraction unit 141 and the feature amount Fdd of each template of the dictionary unit 142 is calculated, and the distance is calculated in ascending order (the order in which the features are closer). , The recognition candidate information such as the character code Co2 and the distance Di2 from the upper limit specified value to the upper specified value are obtained), and the identification is determined.

【0022】また、イメージ補間処理部144では、識
別部143で識別不可と判定された文字イメージ(つま
り、文字切り出し部120で切り出された文字イメー
ジ)Ci1と、それに対応する識別部143で得られた
認識候補情報と、罫線接触情報格納部130に格納され
ている罫線接触情報If2を基に罫線等の除去により失
われた部分のイメージ補間処理を行い、文字イメージC
i2を取得する。
In the image interpolation processing section 144, the character image determined to be unidentifiable by the identification section 143 (that is, the character image cut out by the character cutout section 120) Ci1 and the corresponding identification image obtained by the identification section 143 are obtained. Based on the recognized candidate information and the ruled line contact information If2 stored in the ruled line contact information storage unit 130, an image interpolation process for a part lost by removing ruled lines and the like is performed, and the character image C
Acquire i2.

【0023】また、棄却判定部146は、イメージ補間
処理部144でイメージ補間処理された文字イメージC
i2に対し、特徴抽出部141で特徴抽出され、識別部
143で取得された認識候補情報を基に、どの認識候補
の文字コードを出力するかそれともリジェクトコードを
出力するかを判定する。
The rejection judging section 146 outputs the character image C subjected to the image interpolation processing by the image interpolation processing section 144.
For i2, based on the recognition candidate information extracted by the feature extraction unit 141 and acquired by the identification unit 143, it is determined which recognition candidate character code to output or a reject code to output.

【0024】図2は、図1の文字認識装置100による
文字認識動作例を示すフローチャートであり、各ステッ
プの動作シーケンスの制御は制御部によって行われる。
また、図3は読み込み文字イメージの例を示す図であ
る。また、図4は罫線等の除去後の文字イメージの例を
示す図であり、図5は図4での罫線等の除去後の文字
「3」を例としたイメージ補間及び認識結果を示す図で
ある。ステップS1:(罫線等の除去)図2で、枠線除
去部110はDRAM等の一時記憶メモリに取り込まれ
た非ドロップアウトカラーの帳票又は原稿(図3の例で
は文字「1」、「2」、「3」、「4」、「5」が記入
されている)の読み込みイメージIm1の罫線等(図3
の例では符号31〜38で示される罫線及び符号39で
示される枠線)を除去した文字イメージIm2(図4)
を得て、DRAM等の一時記憶メモリに記憶する。
FIG. 2 is a flowchart showing an example of a character recognition operation performed by the character recognition apparatus 100 shown in FIG. 1. The control of the operation sequence of each step is performed by a control unit.
FIG. 3 is a diagram showing an example of a read character image. FIG. 4 is a diagram showing an example of a character image after removing ruled lines and the like, and FIG. 5 is a diagram showing an image interpolation and recognition result of a character “3” after removing ruled lines and the like in FIG. 4 as an example. It is. Step S1: (Removal of Ruled Lines and the Like) In FIG. 2, the frame line removing unit 110 reads out a non-dropout color form or document (characters "1", "2" in the example of FIG. 3) taken into a temporary storage memory such as a DRAM. , "3", "4", "5"), the ruled line of the read image Im1 (FIG. 3)
In the example, the character image Im2 (FIG. 4) from which the ruled lines denoted by reference numerals 31 to 38 and the frame line denoted by reference numeral 39) have been removed.
And store it in a temporary storage memory such as a DRAM.

【0025】ステップS2:(文字の切り出し) 次に、文字切り出し部120は上記ステップS1で罫線
等が除去されたイメージIm2から1文字ずつ文字イメ
ージを切り出して、切り出し文字イメージCi1(図4
の例では符号41〜45で表される各切り出し文字イメ
ージ)を取得する。
Step S2: (Cutout of Character) Next, the character cutout unit 120 cuts out character images one by one from the image Im2 from which the ruled lines and the like have been removed in step S1, and cuts out the character image Ci1 (FIG. 4).
In the example, each cut-out character image represented by reference numerals 41 to 45) is acquired.

【0026】ステップS3:(罫線接触情報の取得及び
格納) また、文字切り出し部120は上記ステップS2で切り
出した切り出し文字イメージのもつ罫線接触情報を文字
単位の罫線接触情報If2(例えば、文字の接触方向、
接触個所数、接触部分の位置(座標))に変換し(図4
の例では切り出し文字イメージ41〜45をそれぞれ変
換して5つの罫線接触情報を得て)、罫線接触情報格納
部130に格納する(罫線等と接触していない文字につ
いても「罫線接触なし」を意味する罫線接触情報(例え
ば、接触個所数=0)が格納される)。ここで、図4に
示す5文字の切り出しイメージのうち符号43で表され
る「3」を例とすると、図3で文字「3」は右側の罫線
36と枠線39の下側に接触しているので、ステップS
1で罫線除去を行うと図4の符号43に示すような3ブ
ロックに分かれた切り出しイメージとなる(つまり、上
記ステップS2で図5(a)に示すような3ブロックに
分かれたままの1文字イメージが切り出される)。ま
た、この例で、文字切り出し部120は文字イメージの
罫線接触情報として罫線36と接触した罫線等の位置
(つまり、罫線36と文字「3」が接触した両端の位置
51、52と、枠線39と文字「3」が接触した両端の
位置53、54)を罫線接触情報格納部130に格納す
る。なお、実施例では位置51、52、53、54を座
標値(X、Y)で表しているがこれに限定されない。
Step S3: (Acquisition and Storage of Ruled Line Contact Information) The character cutout unit 120 converts the ruled line contact information of the cut-out character image cut out in step S2 into ruled line contact information If2 for each character (for example, a character contact direction,
(The number of contact points and the position (coordinates) of the contact portion)
In the example of (5), the cut-out character images 41 to 45 are respectively converted to obtain five pieces of ruled line contact information), and stored in the ruled line contact information storage unit 130 (even for a character not in contact with a ruled line or the like, “No ruled line contact” is set. Meaning ruled line contact information (for example, the number of contact points = 0) is stored). Here, assuming that “3” represented by reference numeral 43 in the cut-out image of the five characters shown in FIG. 4 is an example, the character “3” contacts the right ruled line 36 and the lower side of the frame line 39 in FIG. Step S
When the ruled line is removed in step 1, a cutout image divided into three blocks as indicated by reference numeral 43 in FIG. 4 is obtained (that is, in step S 2, one character remains divided into three blocks as illustrated in FIG. 5A). Image is cropped). Further, in this example, the character cutout unit 120 determines the position of the ruled line or the like in contact with the ruled line 36 as the ruled line contact information of the character image (that is, the positions 51 and 52 at both ends where the ruled line 36 and the character “3” are in contact, and the frame line The positions 53 and 54 at both ends where 39 and the character “3” contact each other are stored in the ruled line contact information storage unit 130. In the embodiment, the positions 51, 52, 53, 54 are represented by coordinate values (X, Y), but the present invention is not limited to this.

【0027】ステップS4:(切り出した文字イメージ
の特徴抽出) 特徴抽出部141は、上記ステップS2で切り出された
1つの文字イメージCi1(例えば、図5(a)の切り
出し文字イメージ)から特徴量Fd1を算出する。
Step S4: (Characteristic Extraction of Cut-out Character Image) The feature extracting section 141 extracts the feature amount Fd1 from one character image Ci1 (for example, the cut-out character image in FIG. 5A) cut out in step S2. Is calculated.

【0028】ステップS5:(切り出した文字イメージ
の識別(文字認識)) 識別部143は上記ステップS4で算出された文字イメ
ージCi1の特徴量Fd1と辞書部142の各テンプレ
ートに格納されている標準的な特徴量Fddとの距離計
算を行い、距離の小さい順(特徴の近い順)から上位3
位までの認識候補文字コードCo1及び距離計算結果D
i1を認識候補情報として取得する。
Step S5: (Identification of Cut-out Character Image (Character Recognition)) The identification unit 143 calculates the characteristic amount Fd1 of the character image Ci1 calculated in step S4 and the standard value stored in each template of the dictionary unit 142. Calculate the distance to the feature amount Fdd, and select the top three
Recognition candidate character code Co1 up to the rank and distance calculation result D
Acquire i1 as recognition candidate information.

【0029】ステップS6:(識別可否の判定) また、識別部143は各認識候補文字コードCo1(つ
まり、1位から3位までの認識候補コード)が一致し、
且つ各認識候補の距離Di1が所定値以下である場合に
認識可としてS11に移行し、そうでない場合(各認識
候補コードCo1が一致しないか、距離Di1が所定値
以下の場合)には、S7に移行して文字イメージ補間処
理を行う。例えば、図5(a)の切り出し文字イメージ
について、上記ステップS5の認識処理を行った結果、
認識第3位までの認識候補文字コードCo1は全てが
「3」を示す文字コードであるが、辞書部412の標準
的な特徴量Fddとの距離が大きい(つまり、所定値以
上)とすると、このままでは信頼性のある認識結果を出
力することができないので、イメージ補間を要するもの
としてS7に移行する。
Step S6: (Determination of Identification Possibility) The identification section 143 determines that the recognition candidate character codes Co1 (that is, the first to third recognition candidate codes) match,
If the distance Di1 of each recognition candidate is equal to or less than a predetermined value, the process proceeds to S11 as recognizable, and if not (if each recognition candidate code Co1 does not match or the distance Di1 is equal to or less than a predetermined value), S7 And the character image interpolation process is performed. For example, as a result of performing the recognition process in step S5 on the cut-out character image in FIG.
The recognition candidate character codes Co1 up to the third place are all character codes indicating “3”, but if the distance from the standard feature value Fdd of the dictionary unit 412 is large (that is, a predetermined value or more), In this state, a reliable recognition result cannot be output, and the process proceeds to S7 on the assumption that image interpolation is required.

【0030】ステップS7:(イメージ補間処理) イメージ補間処理部144では、上記ステップS5で得
た認識候補情報(認識候補文字コードCo1及び距離計
算結果Di1)と、罫線接触情報格納部130に格納さ
れているこの切り出し文字イメージの罫線接触情報If
2(例えば、文字の接触方向、接触個所数、接触部分の
位置(座標))を基に次に述べるようなイメージ補間処
理を行い、文字イメージCi2(図5の例では図5
(b))の文字イメージを取得する。
Step S7: (Image Interpolation Processing) The image interpolation processing section 144 stores the recognition candidate information (recognition candidate character code Co1 and distance calculation result Di1) obtained in step S5 and the ruled line contact information storage section 130. Ruled line contact information If of this cut-out character image
2 (for example, the contact direction of the character, the number of contact points, and the position (coordinates) of the contact portion), an image interpolation process described below is performed, and the character image Ci2 (FIG.
(B) Acquire the character image.

【0031】まず、認識候補文字コードCo1を調べ、
その文字コードで表される文字が1ブロックからなる文
字(つまり、辺やつくりからなる文字(或いは、しんに
ゅう、冠、点を含む文字)のように2ブロック以上の部
分からなっていない文字)か否かを調べ1文字からなる
文字の場合にはステップS1の罫線等の除去処理で除去
された部分(図5(a)の例では位置51、52の間及
び位置53、54の間)を補間してつなぎ、1ブロック
からなる文字イメージCi2を得る。また、2ブロック
以上からなる文字の場合には各ブロック毎にステップS
1の罫線等の除去処理で除去された部分を補間してつな
ぎ、補間された複数ブロックからなる1つの文字イメー
ジCi2を得る(各数字「0」〜「9」はそれぞれ1ブ
ロックとなるので認識対象文字が数字だけの場合には処
理が簡単になる)。
First, the recognition candidate character code Co1 is checked.
Whether the character represented by the character code is a character consisting of one block (that is, a character that does not consist of two or more blocks, such as a character consisting of sides and structures (or a character containing shin, crown, dot)) It is checked whether or not the character consists of one character. In the case of a character consisting of one character, the portions removed by the ruled line removal processing in step S1 (between positions 51 and 52 and between positions 53 and 54 in the example of FIG. By interpolating and connecting, a character image Ci2 consisting of one block is obtained. If the character is composed of two or more blocks, step S is performed for each block.
Interpolated and connected portions removed by the removal processing of one ruled line or the like to obtain a single character image Ci2 composed of a plurality of interpolated blocks (each of the numerals “0” to “9” is one block, so it is recognized. If the target character is only a number, the process is easier.)

【0032】ステップS8:(イメージ補間後の文字イ
メージの特徴抽出) 次に、特徴抽出部141で上記ステップS7で補間・生
成された文字イメージCi2に対して特徴抽出を行い、
特徴量Fd2を算出する。
Step S8: (Character Image Character Extraction After Image Interpolation) Next, the feature extraction section 141 performs feature extraction on the character image Ci2 interpolated and generated in the above step S7.
The feature amount Fd2 is calculated.

【0033】ステップS9:(イメージ補間後の文字イ
メージの識別(文字認識)) また、識別部143は上記ステップS8で算出された文
字イメージCi2の特徴量Fd2と辞書部142の各テ
ンプレートに格納されている標準的な特徴量Fddとの
距離計算を行い、距離の小さい順(特徴の近い順)から
上位3位までの認識候補文字コードCo2及び距離計算
結果Di2を認識候補情報として取得する。
Step S9: (Identification of Character Image after Image Interpolation (Character Recognition)) The identification unit 143 stores the feature amount Fd2 of the character image Ci2 calculated in step S8 and the templates of the dictionary unit 142. The distance calculation is performed with respect to the standard feature amount Fdd, and the recognition candidate character codes Co2 and the distance calculation result Di2 from the smallest distance (the order of the features) to the top three are acquired as recognition candidate information.

【0034】ステップS10:(認識結果出力かリジェ
クトコード出力かの判定) 次に、棄却判定部146で認識候補文字コードCo2
(つまり、1位から3位までの認識候補)が一致し、且
つ各認識候補の距離Di2が所定値以下である場合に認
識可として認識結果を出力し、そうでない場合(各認識
候補コードCo2が一致しないか、距離Di2が所定値
以下の場合)にはリジェクトコードを出力して、S11
に移行する。例えば、図5の例で、棄却判定部146で
上記方法で得られた文字イメージCi2に対しての認識
候補文字コードCo2(つまり、1位から3位までの認
識候補文字コード)が全て「3」を示す文字コードであ
り、辞書部142で持っている標準的な特徴量Fddと
の距離が所定以下の場合には、その文字イメージ(図5
(b))は文字「3」としての信頼性が高いと判定し
「3」に対応する文字コードを認識結果として出力す
る。
Step S10: (Determination of Recognition Result Output or Reject Code Output) Next, the rejection determination unit 146 sets the recognition candidate character code Co2
When the recognition candidates (the first to third recognition candidates) match and the distance Di2 of each recognition candidate is equal to or less than a predetermined value, the recognition result is output as recognizable, and otherwise (each recognition candidate code Co2 Does not match or the distance Di2 is equal to or less than a predetermined value), a reject code is output and S11
Move to For example, in the example of FIG. 5, all of the recognition candidate character codes Co2 (that is, the first to third recognition candidate character codes) for the character image Ci2 obtained by the above method in the rejection determination unit 146 are “3”. When the distance from the standard feature value Fdd held by the dictionary unit 142 is equal to or less than a predetermined value, the character image (FIG. 5)
(B)) determines that the reliability of the character “3” is high, and outputs a character code corresponding to “3” as a recognition result.

【0035】ステップS11:(認識処理終了の可否判
定) 制御部は上記ステップS2で切り出した全ての文字イメ
ージについて上記S4〜S10の文字認識処理等が終了
したかを調べ、終了していない場合はS4に戻ってS4
以降の文字認識処理等を繰り返す。上記構成により、文
字が罫線等に接触している場合、罫線等の除去により幾
つかの部分(ブロック)に分かれても、図5(b)のよ
うな補間文字イメージを取得できるので、非ドロップア
ウトカラーの帳票又は原稿を読み取って罫線等の除去処
理を行なう場合の文字認識性能が従来より向上した。
Step S11: (Determining Whether Recognition Processing Ends) The control unit checks whether the character recognition processing of S4 to S10 has been completed for all the character images cut out in step S2, and if not completed, Return to S4 and S4
The subsequent character recognition processing and the like are repeated. According to the above configuration, if a character is in contact with a ruled line or the like, an interpolated character image as shown in FIG. The character recognition performance in the case where an out-colored form or document is read and a ruled line or the like is removed is improved compared to the related art.

【0036】図6は本発明の文字認識装置の他の実施例
の構成を示すブロック図であり、イメージ補間された文
字イメージに対する文字認識の信頼度が低い場合に再度
イメージの補間を繰り返して新たな文字イメージを取得
可能に構成した例である。図6で、文字認識装置10
0’は、罫線除去部110、文字切り出し部120、罫
線接触情報格納部130及び文字認識ブロック140’
から構成されている。なお、図1の文字認識装置100
と同様に図示していないが文字認識装置100’はCP
Uおよびその周辺回路からなり、これら各構成部分の動
作制御及び文字認識装置全体の動作を制御する制御部を
備えている。
FIG. 6 is a block diagram showing the configuration of another embodiment of the character recognition apparatus according to the present invention. When the reliability of character recognition for a character image on which image interpolation has been performed is low, image interpolation is repeated again to obtain a new image. This is an example in which a simple character image can be acquired. In FIG. 6, the character recognition device 10
0 ′ is a ruled line removing unit 110, a character cutout unit 120, a ruled line contact information storage unit 130, and a character recognition block 140 ′.
It is composed of Note that the character recognition device 100 shown in FIG.
Although not shown in the figure, the character recognition device 100 '
U and its peripheral circuits, and includes a control unit that controls the operation of each of these components and the operation of the entire character recognition device.

【0037】ここで、罫線除去部110、文字切り出し
部120及び罫線接触情報格納部130の構成、機能及
び動作は図1の文字認識装置100の場合と同様であ
る。
Here, the configurations, functions, and operations of the ruled line removing unit 110, the character cutout unit 120, and the ruled line contact information storage unit 130 are the same as those of the character recognition device 100 of FIG.

【0038】また、文字認識ブロック140は、特徴抽
出部141、辞書部142、識別部143、イメージ補
間処理部144’、補間イメージ判定部145及び棄却
判定部146を備え、特徴抽出やイメージ補間処理等を
行った後、文字認識を行う。
The character recognition block 140 includes a feature extraction unit 141, a dictionary unit 142, an identification unit 143, an image interpolation processing unit 144 ', an interpolation image determination unit 145, and a rejection determination unit 146. After that, character recognition is performed.

【0039】ここで、文字認識ブロック140’で特徴
抽出部141、辞書部142、識別部143及び棄却判
定部146の構成、機能及び動作は図1の文字認識装置
100の文字認識部140の場合と同様である。また、
イメージ補間処理部144’は、識別部143で識別不
可と判定された文字イメージ(つまり、文字切り出し部
120で切り出された文字イメージ)Ci1と、それに
対応する識別部143で得られた認識候補情報と、罫線
接触情報格納部130に格納されている罫線接触情報I
f2(例えば、文字の接触方向、接触個所数、接触部分
の位置(座標))を基に罫線等の除去により失われた部
分のイメージ補間処理を行い、文字イメージCi2を取
得する。また、イメージ補間処理部144’は、補間イ
メージ判定部145で再度イメージ補間を要すると判定
された場合に、再度イメージ補間を行い、新たな文字イ
メージCi2を取得する。
Here, in the character recognition block 140 ', the configurations, functions, and operations of the feature extraction unit 141, the dictionary unit 142, the identification unit 143, and the rejection determination unit 146 are the same as those of the character recognition unit 140 of the character recognition device 100 in FIG. Is the same as Also,
The image interpolation processing unit 144 'includes a character image determined to be unidentifiable by the identification unit 143 (that is, a character image extracted by the character extraction unit 120) Ci1 and recognition candidate information corresponding to the character image obtained by the identification unit 143. And the ruled line contact information I stored in the ruled line contact information storage unit 130.
Based on f2 (for example, the contact direction of the character, the number of contact points, and the position (coordinates) of the contact portion), image interpolation processing is performed on the portion lost due to the removal of ruled lines and the like to obtain a character image Ci2. Further, when the interpolation image determination unit 145 determines that image interpolation is necessary again, the image interpolation processing unit 144 ′ performs image interpolation again to acquire a new character image Ci2.

【0040】また、補間イメージ判定部145は、イメ
ージ補間処理部144でイメージ補間処理された文字イ
メージCi2に対し、特徴抽出部141で特徴抽出さ
れ、識別部143で算出された認識候補情報(認識候補
文字コードCo2及び距離計算結果Di2)から認識対
象文字のイメージとしての信頼性を判定する。
The interpolated image determining section 145 extracts the feature of the character image Ci2 subjected to the image interpolation processing by the image interpolation processing section 144 by the feature extracting section 141 and calculates the recognition candidate information (recognition information) calculated by the identifying section 143. The reliability as an image of the recognition target character is determined from the candidate character code Co2 and the distance calculation result Di2).

【0041】図7は、図6の文字認識装置100’によ
る文字認識動作例を示すフローチャートであり、補間イ
メージ判定ステップ(S9’)での補間イメージ判定が
否の場合に再度イメージ補間を行うイメージ補間処理ス
テップ(S9”)を設け、イメージ補間された文字イメ
ージに対する文字認識の信頼度が低い場合に再度イメー
ジの補間を繰り返して新たな文字イメージを取得可能と
した例である。また、各ステップの動作シーケンスの制
御は制御部によって行われる。また、図7でステップS
1〜S7(罫線等の除去〜イメージ補間処理)の動作は
図2の文字認識動作と同様である。
FIG. 7 is a flowchart showing an example of a character recognition operation performed by the character recognition device 100 'of FIG. 6. In the case where the interpolation image determination in the interpolation image determination step (S9') is negative, image interpolation is performed again. In this example, an interpolation processing step (S9 ") is provided, and when the reliability of character recognition for a character image subjected to image interpolation is low, a new character image can be obtained by repeating image interpolation again. The control of the operation sequence is performed by the control unit.
Operations 1 to S7 (removal of ruled lines and the like to image interpolation processing) are the same as the character recognition operation in FIG.

【0042】ステップS8:(イメージ補間後の文字イ
メージの特徴抽出) 図7で、特徴抽出部141は上記ステップS7または後
述のステップS9”で補間された文字イメージCi2に
対して特徴抽出を行い、特徴量Fd2を算出する。
Step S8: (Extraction of Character Image Character after Image Interpolation) In FIG. 7, the characteristic extraction unit 141 performs characteristic extraction on the character image Ci2 interpolated in the above-described step S7 or step S9 ″ described later. The feature amount Fd2 is calculated.

【0043】ステップS9:(イメージ補間後の文字イ
メージの識別(文字認識)) また、認識部143は上記ステップS8で算出された文
字イメージCi2の特徴量Fd2と辞書部142の各テ
ンプレートに格納されている標準的な特徴量Fddとの
距離計算を行い、距離の小さい順(特徴の近い順)から
上位3位までの認識候補文字コードCo2及び距離計算
結果Di2を認識候補情報として取得する。
Step S9: (Identification of Character Image after Image Interpolation (Character Recognition)) The recognition unit 143 stores the feature amount Fd2 of the character image Ci2 calculated in step S8 and the templates of the dictionary unit 142. The distance calculation is performed with respect to the standard feature amount Fdd, and the recognition candidate character codes Co2 and the distance calculation result Di2 from the smallest distance (the order of the features) to the top three are acquired as recognition candidate information.

【0044】ステップS9’:(補間イメージの可否判
定) 補間イメージ判定部145は上記ステップS9で取得し
た文字イメージCi2の認識候補情報(認識候補文字コ
ードCo2及び距離計算結果Di2)を基に後述するよ
うに補間イメージの信頼性を判定し、信頼性が低いと判
定した場合にはS9”に移行し、信頼性ありと判定した
場合はS10に移行する。
Step S9 ': (Judgment of availability of interpolation image) Interpolation image determination section 145 will be described later based on the recognition candidate information (recognition candidate character code Co2 and distance calculation result Di2) of character image Ci2 obtained in step S9. The reliability of the interpolated image is determined as described above. If it is determined that the reliability is low, the process proceeds to S9 ", and if it is determined that the image is reliable, the process proceeds to S10.

【0045】ステップS9”:(再イメージ補間処理) イメージ補間処理部144’では、上記ステップS9で
得た認識候補情報(認識候補文字コードCo2及び距離
計算結果Di2)と、罫線接触情報格納部130に格納
されているこの切り出し文字イメージの罫線接触情報I
f2を基に次に述べるようなイメージ補間処理を行い、
新たな文字イメージCi2(図8の例では図8(b)の
文字イメージを取得する。
Step S9 ": (Re-Image Interpolation Processing) The image interpolation processing section 144 'stores the recognition candidate information (recognition candidate character code Co2 and distance calculation result Di2) obtained in step S9 and the ruled line contact information storage section 130. Line contact information I of this cut-out character image stored in
Based on f2, the following image interpolation processing is performed.
A new character image Ci2 (in the example of FIG. 8, the character image of FIG. 8B is acquired).

【0046】まず、文字イメージCi2と罫線接触情報
If2(例えば、文字の接触方向、接触個所数、接触部
分の位置(座標))を調べ、上記ステップS9のイメー
ジ補間で2組以上の位置の間で余分につながっている区
間(例えば、図8(a)の例で(位置81、82)と位
置(83、84)の間)のつながりを取り除いて補間部
分を補正する。
First, the character image Ci2 and the ruled line contact information If2 (for example, the contact direction of the character, the number of contact points, and the position (coordinates) of the contact portion) are checked. Then, the connection between the sections (for example, between (positions 81, 82) and (83, 84) in the example of FIG. 8A) that are redundantly connected is removed to correct the interpolation portion.

【0047】以下、図6の文字認識装置100’による
文字認識の具体的動作例について上記図7のフローチャ
ート(S1〜S7については図2のフローチャート)を
基に説明する。
Hereinafter, a specific operation example of character recognition by the character recognition device 100 'of FIG. 6 will be described with reference to the flowchart of FIG. 7 (S1 to S7 are flowcharts of FIG. 2).

【0048】読み込みイメージIm1を図3に示したイ
メージとし、罫線除去部110により罫線等を除去した
イメージIm2を図4に示したイメージとする(S
1)。ここで、切り出された5文字分の切り出しイメー
ジCm1のうち、記入文字の質が悪く真の記入文字自体
が2ブロックに分かれ、枠線39(図3)の右側に接触
して更に分かれて4ブロックになってしまった切り出し
イメージ「5」(図8(a))(S2)の認識処理につ
いて説明する。
The read image Im1 is the image shown in FIG. 3, and the image Im2 from which the ruled lines and the like have been removed by the ruled line removing unit 110 is the image shown in FIG. 4 (S
1). Here, of the cut-out image Cm1 for the cut-out five characters, the quality of the input character is poor and the true input character itself is divided into two blocks, and is further divided by touching the right side of the frame 39 (FIG. 3). The recognition processing of the cut-out image “5” (FIG. 8A) (S2) that has become a block will be described.

【0049】文字切り出し部120は図8(a)の切り
出しイメージについて枠線39の右側と接触している部
分(81,82)、(83,84)と枠線39の下側と
接触している部分(85,86)の位置(及び文字の接
触方向、接触個所数等)を罫線接触情報格納部130に
格納する(S3)。
The character cutout section 120 contacts portions (81, 82) and (83, 84) of the cutout image shown in FIG. The position of the part (85, 86) (and the contact direction of the character, the number of contact points, etc.) is stored in the ruled line contact information storage unit 130 (S3).

【0050】次に、特徴抽出部141で図8(a)の切
り出しイメージに対して特徴抽出を行って特徴量Fd1
を算出し(S4)、識別部143でこの特徴量Fd1と
辞書部142の各テンプレートに格納されている標準的
な特徴量Fddとの距離計算を行い、距離の小さい順
(特徴の近い順)から上位3位までの認識候補文字コー
ドCo1及び距離計算結果Di1を認識候補情報として
取得する(S6)。ここで得られた第3位までの認識候
補文字コードCo1は全てが「5」を示す文字コードで
あるが、辞書部142の持っている標準的な特徴量Fd
dとの距離が大きい(つまり、所定値以上)とすると、
このままでは信頼性のある認識結果を出力することがで
きないと判定されると、イメージ補間を要するものとし
てS7に移行する(S6)。
Next, the feature extraction unit 141 performs feature extraction on the cut-out image of FIG.
(S4), and the identification unit 143 calculates the distance between the feature value Fd1 and the standard feature value Fdd stored in each template of the dictionary unit 142. Then, the recognition candidate character code Co1 and the distance calculation result Di1 from the top to the top three are acquired as recognition candidate information (S6). The recognition candidate character codes Co1 up to the third place obtained here are all character codes indicating “5”, but the standard feature amount Fd of the dictionary unit 142 is included.
If the distance to d is large (that is, a predetermined value or more),
If it is determined that a reliable recognition result cannot be output as it is, it is determined that image interpolation is required, and the process proceeds to S7 (S6).

【0051】イメージ補間処理部144’では、上記ス
テップS5で得た認識候補情報(認識候補文字コードC
o1及び距離計算結果Di1)と、罫線接触情報格納部
130に格納されているこの切り出し文字イメージ(図
8(a))の罫線接触情報If2を基にイメージブロッ
クを一つとするため罫線除去で失われた区間をつなぐイ
メージ補間処理を行い、文字イメージCi2(図8の例
では図8(b)の文字イメージ)を取得する。すなわ
ち、イメージ補間処理部144で認識候補文字コードC
o1を調べると、その文字コードで表される文字「5」
は数字であるから1ブロックからなる文字と判定し、ス
テップS1の罫線等の除去処理で除去された部分(図8
(a)の例では位置(81,82)、(83,84)、
(85,86)間)を補間してつなぎ、1ブロックから
なる文字イメージCi2(図8(b))を得る(S
7)。
In the image interpolation processing section 144 ', the recognition candidate information (recognition candidate character code C) obtained in step S5 is obtained.
o1 and the distance calculation result Di1) and the ruled line contact information If2 of the cut-out character image (FIG. 8 (a)) stored in the ruled line contact information storage unit 130. Image interpolation processing for connecting the divided sections is performed to obtain a character image Ci2 (the character image in FIG. 8B in the example of FIG. 8). That is, the recognition candidate character code C
When you check o1, the character "5" represented by that character code
Is a character consisting of one block because it is a numeral, and the part removed by the removal processing of the ruled line and the like in step S1 (FIG. 8)
In the example of (a), the positions (81, 82), (83, 84),
(Between (85, 86)) and interpolated to obtain a character image Ci2 (FIG. 8 (b)) composed of one block (S8).
7).

【0052】次に、特徴抽出部141で上記S7で得た
補正後の文字イメージCi2または後述のS9”で再補
間された文字イメージCi2に対して特徴抽出を行い
(S8)、特徴量Fd2を算出し、識別部143でこの
特徴量Fd2と辞書部142の各テンプレートに格納さ
れている標準的な特徴量Fddとの距離計算を行い、距
離の小さい順(特徴の近い順)から上位3位までの認識
候補文字コードCo2及び距離計算結果Di2を認識候
補情報として取得する(S9)。
Next, the feature extraction unit 141 performs feature extraction on the corrected character image Ci2 obtained in S7 or the character image Ci2 re-interpolated in S9 ″ described later (S8), and calculates the feature amount Fd2. The identification unit 143 calculates the distance between the feature value Fd2 and the standard feature value Fdd stored in each template of the dictionary unit 142. The recognition candidate character code Co2 and the distance calculation result Di2 up to are obtained as recognition candidate information (S9).

【0053】補間イメージ判定部145は補間後の文字
イメージCi2に対する認識候補情報を基に補間イメー
ジの信頼性を判定する。ここで、図8(b)の「5」の
文字イメージ(補正後の文字イメージCi2)の認識候
補文字コードCo2は第1位が「5」、第2位が
「8」、第3位が「9」を示す文字コードであり辞書部
142で持っている標準的な特長量Fddとの距離も大
きとすると、補間イメージ判定部145はイメージとし
ての信頼性が低いと判定して再度イメージ判定を行うた
めにS9”に移行する(S9’)。
The interpolated image determining section 145 determines the reliability of the interpolated image based on the recognition candidate information for the interpolated character image Ci2. Here, as for the recognition candidate character code Co2 of the character image (corrected character image Ci2) of “5” in FIG. 8B, the first place is “5”, the second place is “8”, and the third place is Assuming that the distance between the character code indicating “9” and the standard feature value Fdd held by the dictionary unit 142 is also large, the interpolation image determination unit 145 determines that the reliability of the image is low and determines again the image. Then, the process proceeds to S9 ″ (S9 ′).

【0054】イメージ補間処理部144’は、上記ステ
ップS9で得た認識候補情報(認識候補文字コードCo
2及び距離計算結果Di2)と、罫線接触情報格納部1
30に格納されているこの切り出し文字イメージ(図8
(a))の罫線接触情報If2を基に余分な補間部分
(図8(a)の例では位置82と83の間の線分)を取
り除いて補間部分を補正するイメージ補間処理を行い、
新たな文字イメージCi2(図8の例では図8(c)の
文字イメージ)を取得しS8に戻る(S9”)。
The image interpolation processing section 144 ′ performs the recognition candidate information (recognition candidate character code Co) obtained in step S 9.
2 and distance calculation result Di2), and ruled line contact information storage unit 1
This cut-out character image stored in the image 30 (FIG. 8)
Based on the ruled line contact information If2 of (a)), an image interpolation process of removing an extra interpolation portion (a line segment between positions 82 and 83 in the example of FIG. 8A) and correcting the interpolation portion is performed.
A new character image Ci2 (the character image of FIG. 8C in the example of FIG. 8) is obtained, and the process returns to S8 (S9 ″).

【0055】以下、ステップS8で特徴抽出部141は
上記S7で得た補正後の文字イメージCi2または後述
のS9”で再補間された文字イメージCi2に対して特
徴抽出を行なって特徴量Fd2を算出し、ステップS9
で識別部143はこの特徴量Fd2と辞書部142の各
テンプレートに格納されている標準的な特徴量Fddと
の距離計算を行い、距離の小さい順から上位3位までの
認識候補文字コードCo2及び距離計算結果Di2を新
たな認識候補情報として取得する。
Thereafter, in step S8, the feature extraction unit 141 performs feature extraction on the corrected character image Ci2 obtained in step S7 or the character image Ci2 re-interpolated in step S9 "described later to calculate a feature amount Fd2. And step S9
The identification unit 143 calculates the distance between the feature value Fd2 and the standard feature value Fdd stored in each template of the dictionary unit 142, and recognizes the recognition candidate character codes Co2 from the smallest distance to the top three, and The distance calculation result Di2 is acquired as new recognition candidate information.

【0056】次に、ステップS9’で補正イメージ判定
部145は補正後の文字イメージCi2に対する認識候
補情報を基に補間イメージの信頼性を判定する。ここ
で、図8(c)の「5」の文字イメージ(再補正後の文
字イメージCi2)の認識候補文字コードCo1は第3
位までが「5」を示す文字コードであり、辞書142で
持っている標準的な特長量Fddとの距離が小さいとす
ると、補正イメージ判定部145はイメージとしての信
頼性が高いと判定してS10に移行する。
Next, in step S9 ', the corrected image determining unit 145 determines the reliability of the interpolated image based on the recognition candidate information for the corrected character image Ci2. Here, the recognition candidate character code Co1 of the character image of “5” in FIG. 8C (the character image Ci2 after re-correction) is the third character code.
If the order is a character code indicating “5” and the distance from the standard feature value Fdd held in the dictionary 142 is small, the corrected image determination unit 145 determines that the reliability as an image is high. Move to S10.

【0057】ステップS10(図2)で、棄却判定部1
46は上記S9で得られた文字イメージCi2に対する
認識候補情報を基に認識結果を出力するか、リジェクト
コードを出力する(図8(c)の例では認識結果の信頼
度が高いと判定され認識結果が出力される)。
In step S10 (FIG. 2), rejection determination section 1
46 outputs a recognition result based on the recognition candidate information for the character image Ci2 obtained in S9 or outputs a reject code (in the example of FIG. 8C, it is determined that the reliability of the recognition result is high and the recognition is performed). The result is output).

【0058】上記構成により、罫線除去処理によって図
8(a)に示したように文字が数ブロックに分かれてい
て1度のイメージ補間で分離している部分を補間しても
余分な線分により認識できないような場合にも、余分な
補間部分を除去する再イメージ補間を行うことにより信
頼性の高い認識結果を得ることができる。
With the above-described configuration, even if a portion in which a character is divided into several blocks and separated by one image interpolation is interpolated as shown in FIG. Even in the case where recognition cannot be performed, a highly reliable recognition result can be obtained by performing re-image interpolation for removing an unnecessary interpolation portion.

【0059】次に、切り出された5文字分の切り出しイ
メージCm1のうち、記入文字の一部のストロークの大
部分が枠線39に重なり、罫線除去部110によって図
4に示すようにそのストロークを失ってしまった符号4
2で示される切り出しイメージ「2」(図9(a))の
認識処理について説明する。
Next, in the cut-out image Cm1 for the cut-out five characters, most of the strokes of a part of the entered characters overlap the frame 39, and the stroke is removed by the ruled line removing unit 110 as shown in FIG. Code 4 lost
The recognition processing of the cut-out image “2” (FIG. 9A) indicated by 2 will be described.

【0060】文字切り出し部120は図9(a)の切り
出しイメージについて枠線39の下と接触している部分
(91,92)の位置(及び文字の接触方向、接触個所
数等)を罫線接触情報格納部130に格納する(S
3)。
The character cutout section 120 determines the position of the portion (91, 92) in contact with the portion below the frame line 39 (and the character contact direction, the number of contact points, etc.) in the cutout image of FIG. Stored in the information storage unit 130 (S
3).

【0061】次に、特徴抽出部141で図9(a)の切
り出しイメージに対して特徴抽出を行って特徴量Fd1
を算出し(S4)、識別部143でこの特徴量Fd1と
辞書部142の各テンプレートに格納されている標準的
な特徴量Fddとの距離計算を行い、距離の小さい順
(特徴の近い順)から上位3位までの認識候補文字コー
ドCo1及び距離計算結果Di1を認識候補情報として
取得する(S6)。ここで得られた第3位までの認識候
補文字コードCo1は全てが「7」を示す文字コードで
あるが、辞書部142の持っている標準的な特徴量Fd
dとの距離が少し大きい(つまり、所定値以上)とする
と、この例の場合、「7」と認識するには標準的な特長
量FDDとの距離が少し大きく、下側の罫線と接触して
いるという情報(位置情報(91,92))から他の文
字(例えば「2」)の可能性が在るので「7」としての
信頼性は低いと判定され、イメージ補間を要するものと
してS7に移行する(S6)。
Next, the feature extraction unit 141 performs feature extraction on the cut-out image of FIG.
(S4), and the identification unit 143 calculates the distance between the feature value Fd1 and the standard feature value Fdd stored in each template of the dictionary unit 142. Then, the recognition candidate character code Co1 and the distance calculation result Di1 from the top to the top three are acquired as recognition candidate information (S6). All of the recognition candidate character codes Co1 up to the third place obtained here are character codes indicating “7”, but the standard feature amount Fd of the dictionary unit 142 is included.
Assuming that the distance to d is slightly large (that is, a predetermined value or more), in this example, the distance to the standard feature value FDD is slightly large to recognize “7”, From the information (position information (91, 92)) that there is a possibility of another character (for example, “2”), it is determined that the reliability as “7” is low. (S6).

【0062】イメージ補間処理部144’では、上記ス
テップS5で得た認識候補情報(認識候補文字コードC
o1及び距離計算結果Di1)と、罫線接触情報格納部
130に格納されているこの切り出し文字イメージ(図
9(a))の罫線接触情報If2を基にイメージブロッ
クが一つになるように罫線除去処理(S1)で失われた
区間をつなぐイメージ補間処理を行い、文字イメージC
i2(図9の例では図9(b)の文字イメージ)を取得
する。すなわち、イメージ補間処理部144’で認識候
補文字コードCo1を調べると、その文字コードで表さ
れる文字「7」は数字であるから1ブロックからなる文
字と判定し、ステップS1の罫線等の除去処理で除去さ
れた部分(図9(a)の例では位置(91,92)を補
間してつなぎ、1ブロックからなる文字イメージCi2
(図9(b))を得る(S7)。
In the image interpolation processing section 144 ', the recognition candidate information (recognition candidate character code C) obtained in step S5 is obtained.
o1 and the distance calculation result Di1) and the ruled line contact information If2 of this cut-out character image (FIG. 9A) stored in the ruled line contact information storage unit 130 so as to remove the ruled line so that the number of image blocks becomes one. The image interpolation processing for connecting the sections lost in the processing (S1) is performed, and the character image C
i2 (the character image of FIG. 9B in the example of FIG. 9) is obtained. That is, when the image interpolation processing unit 144 'examines the recognition candidate character code Co1, the character "7" represented by the character code is determined to be a character consisting of one block because it is a numeral, and the ruled line and the like are removed in step S1. The part removed by the processing (in the example of FIG. 9A, the positions (91, 92) are interpolated and connected, and the character image Ci2 composed of one block is obtained.
(FIG. 9B) is obtained (S7).

【0063】次に、特徴抽出部141で上記S7で得た
補正後の文字イメージCi2または後述のS9”で再補
間された文字イメージCi2に対して特徴抽出を行って
特徴量Fd2を算出し(S8)、識別部143でこの特
徴量Fd2と辞書部142の各テンプレートに格納され
ている標準的な特徴量Fddとの距離計算を行い、距離
の小さい順から上位3位までの認識候補文字コードCo
2及び距離計算結果Di2を認識候補情報として取得す
る(S9)。
Next, the feature extracting unit 141 performs feature extraction on the corrected character image Ci2 obtained in S7 or the character image Ci2 re-interpolated in S9 ″ described later to calculate a feature amount Fd2 ( S8) The identification unit 143 calculates the distance between the feature value Fd2 and the standard feature value Fdd stored in each template of the dictionary unit 142, and recognizes candidate character codes from the smallest distance to the top three. Co
2 and the distance calculation result Di2 are acquired as recognition candidate information (S9).

【0064】補間イメージ判定部145は補間後の文字
イメージCi2に対する認識候補情報を基に補間イメー
ジの信頼性を判定する。ここで、図9(b)の「2」の
文字イメージ(補正後の文字イメージCi2)の認識候
補文字コードCo1は第3位まで全て「2」を示す文字
コードであり辞書部142で持っている標準的な特長量
Fddとの距離も大きいとすると、補間イメージ判定部
145はイメージとしての信頼性が高いと判定してS1
0に移行し再イメージ補間(S9”)は行わない。
The interpolated image determining unit 145 determines the reliability of the interpolated image based on the recognition candidate information for the interpolated character image Ci2. Here, the recognition candidate character codes Co1 of the character image “2” (the corrected character image Ci2) in FIG. 9B are all character codes indicating “2” to the third place, and are held by the dictionary unit 142. If the distance from the standard feature value Fdd is also large, the interpolation image determination unit 145 determines that the reliability as an image is high, and S1
The process proceeds to 0 and re-image interpolation (S9 ") is not performed.

【0065】ステップS10(図2)で、棄却判定部1
46は上記S9で得られた文字イメージCi2に対する
認識候補情報を基に認識結果を出力するか、リジェクト
コードを出力する(図9(c)の例では認識結果の信頼
度が高いと判定され認識結果が出力される)。
In step S10 (FIG. 2), rejection determination section 1
46 outputs a recognition result based on the recognition candidate information for the character image Ci2 obtained in S9 or outputs a reject code (in the example of FIG. 9C, the recognition result is determined to have high reliability and the recognition is performed). The result is output).

【0066】上記構成により、罫線除去処理によって図
9(a)に示したように文字が数ブロックに分かれてい
て1度のイメージ補間で分離している部分を補間しても
余分な線分により認識できないような場合にも、余分な
補間部分を除去する再イメージ補間を行うことにより信
頼性の高い認識結果を得ることができる。
With the above configuration, even if a part where a character is divided into several blocks and separated by one image interpolation is interpolated by the ruled line removal processing as shown in FIG. Even in the case where recognition cannot be performed, a highly reliable recognition result can be obtained by performing re-image interpolation for removing an unnecessary interpolation portion.

【0067】上記構成により、罫線除去処理によって記
入文字の一部のストロークの大部分が枠線39に重な
り、罫線除去部110によって図9(a)に示すように
そのストロークを失ってしまった場合でも、従来のよう
に誤ったイメージ補間(図10(b)を行うことなく失
われたストローク部分を再現することができる。
According to the above configuration, a case where most of the stroke of a part of the input character overlaps with the frame line 39 by the ruled line removing process and the stroke is lost by the ruled line removing unit 110 as shown in FIG. However, it is possible to reproduce a lost stroke portion without performing erroneous image interpolation (FIG. 10B) as in the related art.

【0068】以上、本発明のいくつかの実施例について
説明したが本発明はこれらの実施例に限定されるもので
はなく、種々の変形実施が可能であることはいうまでも
ない。
Although several embodiments of the present invention have been described above, the present invention is not limited to these embodiments, and it goes without saying that various modifications can be made.

【0069】[0069]

【発明の効果】上記説明したように、第1の発明の文字
認識方法及び第3の発明の文字認識装置によれば、罫線
除去の際、罫線と接触していた部分の情報を保持してお
き、その情報を用いて文字イメージを補間するので、ス
クロール方向のいかんによらず文字イメージの補間がで
き、また、罫線に接触していた文字が幾つかの部分(ブ
ロック)に分離されても補間を行うことができるので非
ドロップアウトカラーの罫線等を1色刷りした帳票等を
用いても認識率の高い文字認識を実現できる。
As described above, according to the character recognition method of the first invention and the character recognition device of the third invention, the information of the portion that has been in contact with the ruled line is removed when the ruled line is removed. Since the character image is interpolated using the information, the character image can be interpolated irrespective of the scroll direction, and even if the character touching the ruled line is separated into several parts (blocks). Since interpolation can be performed, character recognition with a high recognition rate can be realized even using a form in which ruled lines and the like of non-dropout colors are printed in one color.

【0070】また、第1の発明の文字認識方法及び第3
の発明の文字認識装置によれば、罫線除去により多くの
ブロックに分離され、1度のイメージ補間では認識度が
低いため文字に対してはイメージ補間を2度行い、最初
のイメージ補間の結果(補間後の文字イメージ)を罫線
除去の際、罫線と接触していた部分の情報で補正できる
ので、非ドロップアウトカラーの罫線等を1色刷りした
帳票等を用いても更に高い認識率の文字認識を実現でき
る。
Further, the character recognition method of the first invention and the third
According to the character recognition apparatus of the present invention, the image data is separated into many blocks by ruled line removal, and the degree of recognition is low in one image interpolation. Therefore, image interpolation is performed twice for characters, and the result of the first image interpolation ( The character image after interpolation can be corrected with the information of the part that was in contact with the ruled line when the ruled line was removed, so that even if a non-dropout color ruled line or the like is printed in one color, character recognition with a higher recognition rate can be achieved. Can be realized.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の文字認識装置の一実施例の構成を示す
ブロック図である。
FIG. 1 is a block diagram illustrating a configuration of an embodiment of a character recognition device of the present invention.

【図2】図1の文字認識装置による文字認識動作例を示
すフローチャートである。
FIG. 2 is a flowchart illustrating an example of a character recognition operation performed by the character recognition device of FIG. 1;

【図3】読み込み文字イメージの例を示す図である。FIG. 3 is a diagram illustrating an example of a read character image.

【図4】罫線等の除去後の文字イメージの例を示す図で
ある。
FIG. 4 is a diagram showing an example of a character image after removing ruled lines and the like.

【図5】罫線等の除去後の文字を例としたイメージ補間
及び認識結果を示す図である。
FIG. 5 is a diagram illustrating an image interpolation and recognition result of a character after removing ruled lines and the like as an example.

【図6】本発明の文字認識装置の一実施例の構成を示す
ブロック図である。
FIG. 6 is a block diagram showing the configuration of an embodiment of the character recognition device of the present invention.

【図7】図6の文字認識装置による文字認識動作例を示
すフローチャートである。
FIG. 7 is a flowchart illustrating an example of a character recognition operation performed by the character recognition device of FIG. 6;

【図8】罫線等の除去後の文字を例としたイメージ補間
及び認識結果を示す図である。
FIG. 8 is a diagram showing an image interpolation and recognition result of a character after removing ruled lines and the like as an example.

【図9】罫線等の除去後の文字を例としたイメージ補間
及び認識結果を示す図である。
FIG. 9 is a diagram showing an image interpolation and recognition result of a character after removing ruled lines and the like as an example.

【図10】本発明の文字認識方法による認識結果と、従
来の文字認識方法による認識結果の比較説明図である。
FIG. 10 is a diagram illustrating a comparison between a recognition result obtained by the character recognition method of the present invention and a recognition result obtained by the conventional character recognition method.

【符号の説明】[Explanation of symbols]

100、100’ 文字認識装置 110 罫線除去部(罫線除去手段) 120 文字切り出し部(切り出し手段、罫線接触情報
取得手段) 141 特長抽出部(文字認識手段) 142 辞書部(文字認識手段) 143 識別部(文字認識手段) 144 イメージ補間処理部(文字イメージ補間手段) 145 補間イメージ判定部(補間イメージ判定手段)
100, 100 ′ Character recognition device 110 Ruled line removing unit (ruled line removing unit) 120 Character cutout unit (cutout unit, ruled line contact information acquiring unit) 141 Feature extracting unit (character recognizing unit) 142 Dictionary unit (character recognizing unit) 143 identifying unit (Character Recognition Unit) 144 Image Interpolation Processing Unit (Character Image Interpolation Unit) 145 Interpolation Image Judgment Unit (Interpolation Image Judgment Unit)

【手続補正書】[Procedure amendment]

【提出日】平成12年1月28日(2000.1.2
8)
[Submission date] January 28, 2000 (2000.1.2
8)

【手続補正1】[Procedure amendment 1]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】特許請求の範囲[Correction target item name] Claims

【補正方法】変更[Correction method] Change

【補正内容】[Correction contents]

【特許請求の範囲】[Claims]

【手続補正2】[Procedure amendment 2]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0010[Correction target item name] 0010

【補正方法】変更[Correction method] Change

【補正内容】[Correction contents]

【0010】また、第2の発明は上記第1の発明の文字
認識方法において、補間後の文字イメージが所定の条件
を満たさない場合に、該認識結果と接触情報を基に、原
稿の読み取りイメージから罫線等のイメージを取り除く
際に該文字イメージから取り除かれた接触部分をつなぐ
ように補間した補間後の文字イメージのうち、余分に生
成された部分をとり除いて補間した文字イメージを作成
し、再補間後の文字イメージの認識処理を行う、ことを
特徴とする。
According to a second aspect of the present invention, in the character recognition method according to the first aspect of the present invention, when the character image after interpolation does not satisfy a predetermined condition, a read image of the original is read based on the recognition result and the contact information. When removing an image such as a ruled line from the interpolated character image interpolated to connect the contact portions removed from the character image, an extraly generated portion is removed to create an interpolated character image, And performing recognition processing of the character image after the re-interpolation.

【手続補正3】[Procedure amendment 3]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0011[Correction target item name] 0011

【補正方法】変更[Correction method] Change

【補正内容】[Correction contents]

【0011】また、第3の発明の文字認識装置は、読み
取った原稿の読み取りイメージから罫線等のイメージを
取り除く罫線除去手段と、この罫線除去手段によって罫
線等が取り除かれた文字イメージから1文字ずつ文字イ
メージを切り出す切り出し手段と、罫線除去手段によっ
て罫線等が取り除かれた文字イメージから罫線等が接触
していた部分の接触情報を取得する罫線接触情報取得手
段と、切り出し手段によって切り出された文字イメージ
の認識処理を行なうと共に該認識処理の結果を評価する
認識手段と、この文字認識手段による認識結果の評価が
所定の条件を満たさない場合に、該認識結果と前記接触
情報を基に、前記罫線除去手段による罫線除去の際に該
文字イメージから取り除かれた接触部分をつなぐように
補間する文字イメージ補間手段とを備えたことを特徴と
する。
A character recognition device according to a third aspect of the present invention provides a ruled line removing means for removing an image such as a ruled line from a read image of a read original, and one character at a time from a character image from which a ruled line or the like has been removed by the ruled line removing means. A cutout means for cutting out a character image, a ruled line contact information obtaining means for obtaining contact information of a portion where a ruled line or the like has contacted from a character image from which a ruled line or the like has been removed by a ruled line removing means, and a character image cut out by the cutout means And evaluate the result of the recognition process
When the evaluation of the recognition result by the recognition unit and the character recognition unit does not satisfy a predetermined condition, the character line is removed from the character image when the ruled line is removed by the ruled line removal unit based on the recognition result and the contact information. Character image interpolating means for interpolating so as to connect the contact portions.

【手続補正4】[Procedure amendment 4]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0012[Correction target item name] 0012

【補正方法】変更[Correction method] Change

【補正内容】[Correction contents]

【0012】また、第4の発明は上記第3の発明の文字
認識装置において、文字イメージ補間手段による補間後
の文字イメージが所定の条件を満たしているか否かを判
定する補間イメージ判定手段を備え、文字イメージ補間
手段は、文字イメージ補間手段による補間後の文字イメ
ージが補間イメージ判定手段によって所定の条件を満た
さないと判定された場合に、該認識結果と接触情報を基
に、接触部分をつなぐように補間した文字イメージのう
ち、余分に生成された部分を除いて補間した文字イメー
ジを作成する手段を含むことを特徴とする。
According to a fourth aspect, in the character recognition apparatus according to the third aspect, there is provided an interpolated image determining means for determining whether or not the character image interpolated by the character image interpolating means satisfies a predetermined condition. When the character image interpolated by the character image interpolation means is determined not to satisfy the predetermined condition by the interpolation image determination means, the character image interpolation means, based on the recognition result and the contact information, The image processing apparatus further includes means for creating an interpolated character image by removing an extraly generated portion from the character image interpolated to connect the contact portions.

【手続補正5】[Procedure amendment 5]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0056[Correction target item name] 0056

【補正方法】変更[Correction method] Change

【補正内容】[Correction contents]

【0056】次に、ステップS9’で補正イメージ判定
部145は補正後の文字イメージCi2に対する認識候
補情報を基に補間イメージの信頼性を判定する。ここ
で、図8(c)の「5」の文字イメージ(再補正後の文
字イメージCi2)の認識候補文字コードCo1は第3
位までが「5」を示す文字コードであり、辞書142で
持っている標準的な特量Fddとの距離が小さいとす
ると、補正イメージ判定部145はイメージとしての信
頼性が高いと判定してS10に移行する。
Next, in step S9 ', the corrected image determining unit 145 determines the reliability of the interpolated image based on the recognition candidate information for the corrected character image Ci2. Here, the recognition candidate character code Co1 of the character image of “5” in FIG. 8C (the character image Ci2 after re-correction) is the third character code.
A character code indicating position until the "5", when the distance between the standard feature amount Fdd have a dictionary 142 is small, the correction image determination unit 145 determines that the reliability of the image To S10.

【手続補正6】[Procedure amendment 6]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0061[Correction target item name] 0061

【補正方法】変更[Correction method] Change

【補正内容】[Correction contents]

【0061】次に、特徴抽出部141で図9(a)の切
り出しイメージに対して特徴抽出を行って特徴量Fd1
を算出し(S4)、識別部143でこの特徴量Fd1と
辞書部142の各テンプレートに格納されている標準的
な特徴量Fddとの距離計算を行い、距離の小さい順
(特徴の近い順)から上位3位までの認識候補文字コー
ドCo1及び距離計算結果Di1を認識候補情報として
取得する(S6)。ここで得られた第3位までの認識候
補文字コードCo1は全てが「7」を示す文字コードで
あるが、辞書部142の持っている標準的な特徴量Fd
dとの距離が少し大きい(つまり、所定値以上)とする
と、この例の場合、「7」と認識するには標準的な特徴
量Fddとの距離が少し大きく、下側の罫線と接触して
いるという情報(位置情報(91,92))から他の文
字(例えば「2」)の可能性が在るので「7」としての
信頼性は低いと判定され、イメージ補間を要するものと
してS7に移行する(S6)。
Next, the feature extraction unit 141 performs feature extraction on the cut-out image of FIG.
(S4), and the identification unit 143 calculates the distance between the feature value Fd1 and the standard feature value Fdd stored in each template of the dictionary unit 142. Then, the recognition candidate character code Co1 and the distance calculation result Di1 from the top to the top three are acquired as recognition candidate information (S6). All of the recognition candidate character codes Co1 up to the third place obtained here are character codes indicating “7”, but the standard feature amount Fd of the dictionary unit 142 is included.
Assuming that the distance to d is slightly larger (that is, a predetermined value or more), in this example, a standard feature is used to recognize “7”.
The information (position information (91, 92)) indicating that the distance from the amount Fdd is slightly larger and in contact with the lower ruled line indicates that there is a possibility of another character (for example, “2”). Is determined to be low in reliability, and it is determined that image interpolation is required, and the process proceeds to S7 (S6).

【手続補正7】[Procedure amendment 7]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】符号の説明[Correction target item name] Explanation of sign

【補正方法】変更[Correction method] Change

【補正内容】[Correction contents]

【符号の説明】 100、100’ 文字認識装置 110 罫線除去部(罫線除去手段) 120 文字切り出し部(切り出し手段、罫線接触情報
取得手段) 141 特抽出部(文字認識手段) 142 辞書部(文字認識手段) 143 識別部(文字認識手段) 144 イメージ補間処理部(文字イメージ補間手段) 145 補間イメージ判定部(補間イメージ判定手段)
[Description of Reference Numerals] 100, 100 'character recognition device 110 line removal section (line removal means) 120 character segmentation unit (clipping means, borders contact information acquisition means) 141 feature extraction unit (character recognition means) 142 dictionary unit (character Recognition unit) 143 Identification unit (character recognition unit) 144 Image interpolation processing unit (character image interpolation unit) 145 Interpolation image determination unit (interpolation image determination unit)

Claims (5)

【特許請求の範囲】[Claims] 【請求項1】 読み取った原稿の読み取りイメージから
罫線等のイメージを取り除いて1文字ずつ文字イメージ
を切り出して文字認識を行う文字認識方法であって、 前記文字イメージの切り出しの際に切り出された文字イ
メージと罫線等との接触情報を取得し、 前記切り出し文字の認識処理を行い、 その認識結果が所定の条件を満たさない場合に、該認識
結果と前記接触情報を基に、原稿の読み取りイメージか
ら罫線等のイメージを取り除く際に該文字イメージから
取り除かれた接触部分をつなぐように補間した文字イメ
ージを作成し、 上記補間後の文字イメージの認識処理を行う、ことを特
徴とする文字認識方法。
1. A character recognition method for removing characters such as ruled lines from a read image of a read original and extracting a character image one character at a time to perform character recognition, wherein the character extracted when the character image is extracted. Acquiring contact information between an image and a ruled line, etc., and performing recognition processing of the cut-out character.If the recognition result does not satisfy a predetermined condition, based on the recognition result and the contact information, a document read image is used. A character recognition method, comprising: creating a character image interpolated so as to connect contact portions removed from the character image when removing an image such as a ruled line; and performing recognition processing of the character image after the interpolation.
【請求項2】 前記補正後の文字イメージが所定の条件
を満たさない場合に、該認識結果と前記接触情報を基
に、原稿の読み取りイメージから罫線等のイメージを取
り除く際に該文字イメージから取り除かれた接触部分を
つなぐように補間した補間後の文字イメージのうち、余
分に生成された部分をとり除いて補正した文字イメージ
を作成し、 上記再補間後の文字イメージの認識処理を行う、ことを
特徴とする請求項1記載の文字認識方法。
2. When the corrected character image does not satisfy a predetermined condition, when removing an image such as a ruled line from a read image of a document based on the recognition result and the contact information, the character image is removed from the character image. Of the interpolated character image interpolated so as to connect the touched parts, and create a corrected character image by removing the extraly generated part, and perform the re-interpolated character image recognition process. 2. The character recognition method according to claim 1, wherein:
【請求項3】 読み取った原稿の読み取りイメージから
罫線等のイメージを取り除く罫線除去手段と、 この罫線除去手段によって罫線等が取り除かれた文字イ
メージから1文字ずつ文字イメージを切り出す切り出し
手段と、 前記罫線除去手段によって罫線等が取り除かれた文字イ
メージから罫線等が接触していた部分の接触情報を取得
する罫線接触情報取得手段と、 前記切り出し手段によって切り出された文字イメージの
認識処理を行なうと共に認識手段による認識結果を評価
する文字認識手段と、 この文字認識手段による認識結果の評価が所定の条件を
満たさない場合に、該認識結果と前記接触情報を基に、
前記罫線除去手段による罫線除去の際に該文字イメージ
から取り除かれた接触部分をつなぐように補間する文字
イメージ補間手段とを備えたことを特徴とする文字認識
装置。
3. A ruled line removing means for removing an image such as a ruled line from a read image of a read document; a cutout means for cutting out a character image one by one from a character image from which a ruled line or the like has been removed by the ruled line removing means; A ruled line contact information acquiring means for acquiring contact information of a portion where the ruled line or the like is in contact from the character image from which the ruled line or the like has been removed by the removing means; Character recognition means for evaluating the recognition result by, and when the evaluation of the recognition result by the character recognition means does not satisfy a predetermined condition, based on the recognition result and the contact information,
A character recognition apparatus comprising: a character image interpolating means for interpolating so as to connect contact portions removed from the character image when the ruled line removing means removes a ruled line.
【請求項4】 前記文字イメージ補間手段による補間後
の文字イメージが所定の条件を満たしているか否かを判
定する補間イメージ判定手段を備え、 前記文字イメージ補正手段は、該文字イメージ補間手段
による補間後の文字イメージが前記補間イメージ判定手
段によって所定の条件を満たさないと判定された場合
に、該認識結果と前記接触情報を基に、接触部分をつな
ぐように補間した文字イメージのうち、余分に生成され
た部分を除いて補正した文字イメージを作成する手段を
含むことを特徴とする請求項3記載の文字認識装置。
4. An interpolation image determining means for determining whether or not a character image interpolated by the character image interpolating means satisfies a predetermined condition, wherein the character image correcting means comprises an When the subsequent character image is determined not to satisfy the predetermined condition by the interpolation image determination means, based on the recognition result and the contact information, an extra one of the character images interpolated so as to connect the contact portions. 4. The character recognition apparatus according to claim 3, further comprising means for creating a corrected character image excluding the generated portion.
【請求項5】 前記接触情報は、罫線等と文字の接触方
向、罫線等と文字の接触又は重複個所数、罫線等と文字
の接触部分又は重複部分の端部または両端の位置の全部
またはそれらの組み合わせであることを特徴とする請求
項3又は4記載の文字認識装置。
5. The contact information includes a contact direction of a ruled line or the like and a character, the number of contacting or overlapping portions of the ruled line or the like with a character, and all or all of the positions of the end portions or both ends of the contact portion or the overlapping portion of the ruled line or the like and the character. The character recognition device according to claim 3, wherein the combination is a combination of the following.
JP31948299A 1999-11-10 1999-11-10 Method and device for recognizing character Pending JP2001143021A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP31948299A JP2001143021A (en) 1999-11-10 1999-11-10 Method and device for recognizing character

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP31948299A JP2001143021A (en) 1999-11-10 1999-11-10 Method and device for recognizing character

Publications (1)

Publication Number Publication Date
JP2001143021A true JP2001143021A (en) 2001-05-25

Family

ID=18110709

Family Applications (1)

Application Number Title Priority Date Filing Date
JP31948299A Pending JP2001143021A (en) 1999-11-10 1999-11-10 Method and device for recognizing character

Country Status (1)

Country Link
JP (1) JP2001143021A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002074269A (en) * 2000-08-28 2002-03-15 Nippon Digital Kenkyusho:Kk Method for recognizing character

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002074269A (en) * 2000-08-28 2002-03-15 Nippon Digital Kenkyusho:Kk Method for recognizing character
JP4580520B2 (en) * 2000-08-28 2010-11-17 株式会社日本デジタル研究所 Character recognition method and character recognition apparatus

Similar Documents

Publication Publication Date Title
JP4607633B2 (en) Character direction identification device, image forming apparatus, program, storage medium, and character direction identification method
JP4031210B2 (en) Character recognition device, character recognition method, and recording medium
US20080069447A1 (en) Character recognition method, character recognition device, and computer product
JP3092576B2 (en) Character recognition device
JP3099797B2 (en) Character recognition device
JP2001143021A (en) Method and device for recognizing character
JP2001147988A (en) Method and device for recognizing character
JP3794285B2 (en) Optical character reader
JP2003030654A (en) Pattern identification device, pattern identification method and program for pattern identification
JP5003379B2 (en) Image processing apparatus and program
JP2000322514A (en) Pattern extraction device and character segmentation device
JP4083723B2 (en) Image processing device
JP4731748B2 (en) Image processing apparatus, method, program, and storage medium
JP3998439B2 (en) Image processing apparatus, image processing method, and program causing computer to execute these methods
JP2925270B2 (en) Character reader
JP4580520B2 (en) Character recognition method and character recognition apparatus
JP3196603B2 (en) Barcode recognition method and system
JPH07160809A (en) Ocr device
JPH10171924A (en) Character recognizing device
JPH0950488A (en) Method for reading different size characters coexisting character string
JP2001266070A (en) Device and method for recognizing character and storage medium
JPH0877293A (en) Character recognition device and generating method for dictionary for character recognition
JP3047857B2 (en) Optical character reader
JPH0554193A (en) Character recognition device
JPH02224085A (en) Character recognizing device

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20040608

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20040608

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061109

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091029

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091117

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100316