JP3343305B2 - Character extraction device and character extraction method - Google Patents

Character extraction device and character extraction method

Info

Publication number
JP3343305B2
JP3343305B2 JP01085195A JP1085195A JP3343305B2 JP 3343305 B2 JP3343305 B2 JP 3343305B2 JP 01085195 A JP01085195 A JP 01085195A JP 1085195 A JP1085195 A JP 1085195A JP 3343305 B2 JP3343305 B2 JP 3343305B2
Authority
JP
Japan
Prior art keywords
character
line
pattern
separation
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP01085195A
Other languages
Japanese (ja)
Other versions
JPH08202822A (en
Inventor
敦子 浅川
悦伸 堀田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP01085195A priority Critical patent/JP3343305B2/en
Publication of JPH08202822A publication Critical patent/JPH08202822A/en
Application granted granted Critical
Publication of JP3343305B2 publication Critical patent/JP3343305B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は、OCRの手書き文字認
識装置等に利用される文字切り出し装置、及び文字切り
出し方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character extracting device and a character extracting method used for an OCR handwritten character recognition device and the like.

【0002】近年、手書き文字の入力周辺機器として、
手書き文字認識装置を有するOCRの需要が急増してい
る。個々の文字の高い認識率を実現する為には、文字認
識の前段階である文字切り出し処理がその正確さの点で
重要になる。
Recently, as a peripheral device for inputting handwritten characters,
The demand for OCR with handwritten character recognition devices is increasing rapidly. In order to realize a high recognition rate of each character, a character segmentation process, which is a stage before character recognition, is important in terms of its accuracy.

【0003】これまで、帳票等の文書に対して一文字ず
つ分離されて書かれていれば、かなりの率で文字の認識
ができたが、少しでも互いに接触している文字、または
続け字が入ると著しく認識率が低下する。このような事
情から、前記続き文字を一文字ずつ正確に認識する方法
が手書き文字認識装置において求められており、特に、
文字切り出し装置における文字切り出し処理の精度向上
が求められている。
Heretofore, if a document such as a form has been written one character at a time, characters can be recognized at a considerable rate. And the recognition rate drops significantly. Under such circumstances, a method for accurately recognizing the following characters one by one is required in a handwritten character recognition device.
There is a demand for an improvement in the accuracy of character extraction processing in a character extraction device.

【0004】なお、本発明は、手書き文字の認識だけで
なく、印刷文字の認識、図面認識における文字切り出し
等、広い意味での文字切り出し処理に適応可能な技術で
ある。
The present invention is a technique applicable not only to recognition of handwritten characters but also to character extraction processing in a broad sense, such as recognition of print characters and character extraction in drawing recognition.

【0005】[0005]

【従来の技術】図18〜図25は従来例を示した図であ
り、図18〜図25中、1は文字切り出し装置、2は連
結パターン抽出部、3は横長パターン抽出部、4は続き
線抽出部、5は文字分離線決定部、6はゼロ判定部、7
は文字分離部を示す。
2. Description of the Related Art FIGS. 18 to 25 show a conventional example. In FIGS. 18 to 25, reference numeral 1 denotes a character cutout device, 2 denotes a connected pattern extracting unit, 3 denotes a horizontally long pattern extracting unit, and 4 denotes a continuous pattern extracting unit. Line extraction unit, 5 is a character separation line determination unit, 6 is a zero determination unit, 7
Indicates a character separation unit.

【0006】 §1:文字切り出し装置の構成の説明・・・図18参照 図18は従来の文字切り出し装置構成図である。従来、
文字認識装置において文字認識を行う場合、文字認識の
前段階の処理として、手書き文字の切り出し処理を行う
必要があった。そのため、文字切り出し装置が使用され
ていた。
§1: Description of the configuration of the character cutout device—see FIG. 18 FIG. 18 is a configuration diagram of a conventional character cutout device. Conventionally,
When performing character recognition in a character recognition device, it is necessary to perform a handwritten character cutout process as a process prior to the character recognition. Therefore, a character segmentation device has been used.

【0007】図示のように文字切り出し装置1には、連
結パターン抽出部2、横長パターン抽出部3、続き線抽
出部4、文字分離線決定部5、ゼロ判定部6、文字分離
部7が設けてある。前記各部の機能は次の通りである。
As shown in the figure, the character segmenting apparatus 1 is provided with a connected pattern extracting unit 2, a horizontally long pattern extracting unit 3, a continuous line extracting unit 4, a character separating line determining unit 5, a zero determining unit 6, and a character separating unit 7. It is. The function of each section is as follows.

【0008】(1) :連結パターン抽出部2は、入力パタ
ーンから連結パターンを抽出するものである。すなわ
ち、文字切り出しを行う場合、先ず、文字が配置されて
いる位置の相対的な関係に依存することなく、各文字パ
ターンを安定にピックアップするために、連結パターン
抽出部2では、例えば、8連結で繋がっているパターン
をラベリング処理で抽出する。
(1): The connection pattern extraction unit 2 extracts a connection pattern from an input pattern. That is, in the case of performing character segmentation, first, in order to stably pick up each character pattern without depending on the relative relationship between the positions where the characters are arranged, the connected pattern extracting unit 2 uses, for example, eight connected characters. The patterns connected by are extracted by the labeling process.

【0009】(2) :横長パターン抽出部3は、続き文字
の候補として、前記ラベリング処理で得られた連結パタ
ーン毎に、外接矩形の縦横の比率を算出し、或る一定以
上の横長の比率を持つパターンを抽出するものである。
(2): The horizontally long pattern extraction unit 3 calculates the ratio of the height and width of the circumscribed rectangle to each connected pattern obtained by the labeling process as a candidate for a subsequent character, This is to extract a pattern having.

【0010】(3) :続き線抽出部4は、水平、或いは斜
めの文字と文字の繋がっている部分の続き線を見つける
ことによって、前記抽出された連結パターンが続き文字
であるか否かを判断し、水平続き線、或いは斜め続き線
を抽出するものである。
(3): The continuation line extraction unit 4 finds a continuation line of a portion where the character is connected to a horizontal or oblique character, and determines whether or not the extracted connection pattern is a continuation character. Judgment is made and a horizontal continuation line or an oblique continuation line is extracted.

【0011】(4) :文字分離線決定部5は、前記抽出さ
れた続き線を基に、輪郭探索を用いて、文字数、及び一
文字毎の文字の存在する領域を求め、文字と文字の間に
垂直分離線、或いは斜め分離線等の文字分離線を引くも
のである。
(4): The character separation line determination unit 5 obtains the number of characters and the area where each character exists by using a contour search based on the extracted continuous line. , A character separation line such as a vertical separation line or a diagonal separation line is drawn.

【0012】(5) :ゼロ判定部6は、前記文字分離線で
分離された1文字毎の文字領域について、1文字毎に、
数字のゼロ(0)であるか否かを判定するものである。 (6) :文字分離部7は、前記数字のゼロ(0)と判定さ
れた文字については、左右に出ている不必要な続き線を
消去し、数字のゼロ以外の文字は、前記文字分離線で分
離するものである。
(5): The zero judging unit 6 sets, for each character, the character area separated by the character separation line,
It is determined whether or not the number is zero (0). (6): The character separation unit 7 deletes unnecessary continuous lines extending to the left and right for the character determined to be zero (0) of the number, and replaces the character other than zero with the character They are separated by a separation line.

【0013】 §2:文字切り出し方法の概要説明・・・図18参照 前記構成の文字切り出し装置による文字切り出し方法は
次の通りである。連結パターン抽出部2では入力パター
ンを入力すると、前記入力パターンの連結情報に基づい
て、入力パターンから画素と画素とが繋がっている連結
パターンを抽出する。
§2: Outline of Character Extraction Method—See FIG. 18 A character extraction method by the character extraction device having the above configuration is as follows. When an input pattern is input, the connection pattern extraction unit 2 extracts a connection pattern in which pixels are connected from the input pattern based on the connection information of the input pattern.

【0014】次に、横長パターン抽出部3では、前記抽
出された連結パターンの内、複数の文字が繋がっている
続き文字の候補として、横に長いパターンだけを抽出す
る。そして、続き線抽出部4では、水平、或いは斜めの
文字と文字の繋がっている部分の続き線を見つけること
によって、前記抽出された連結パターンが続き文字であ
るか否かを判断し、水平、或いは斜め続き線を抽出す
る。
Next, the horizontally long pattern extracting unit 3 extracts only a horizontally long pattern from the extracted connected patterns as a candidate for a continued character to which a plurality of characters are connected. Then, the continuation line extracting unit 4 determines whether or not the extracted connection pattern is a continuation character by finding a continuation line of a portion where the character is connected to a horizontal or oblique character. Alternatively, an oblique continuous line is extracted.

【0015】その後、文字分離線決定部5では、前記抽
出された続き線を基にパターンの輪郭探索を用いて、文
字数、及び一文字毎の文字の存在する領域を求め、文字
と文字の間に垂直分離線、或いは斜め分離線等の文字分
離線を決定する。
Thereafter, the character separation line determination unit 5 obtains the number of characters and the area where each character exists by using a contour search of the pattern based on the extracted continuation line. A character separation line such as a vertical separation line or a diagonal separation line is determined.

【0016】前記文字分離線が決定すると、ゼロ判定部
6では、前記文字分離線で分離された1文字毎の文字領
域について、1文字毎に、数字のゼロ(0)であるか否
かを判定する。
When the character separation line is determined, the zero determination unit 6 determines whether or not the character area of each character separated by the character separation line is a numeral zero (0) for each character. judge.

【0017】この処理が終了すると、文字分離部7で
は、前記数字のゼロ(0)と判定された文字について
は、左右に出ている不必要な続き線を消去し、数字のゼ
ロ以外の文字は、前記文字分離線で分離する。このよう
にして文字の切り出しを行う。以下、前記各部の詳細な
処理を説明する。
When this process is completed, the character separating unit 7 deletes unnecessary continuous lines on the left and right of the character determined to be the zero (0) of the number, and removes the character other than the zero. Are separated by the character separation line. The character is cut out in this manner. Hereinafter, detailed processing of each unit will be described.

【0018】§3:連結パターン抽出部、横長パターン
抽出部、及び続き線抽出部の詳細な処理説明・・・図1
9参照 図19は連結パターン抽出部、横長パターン抽出部、続
き線抽出部の処理説明図である。
§3: Detailed explanation of the processing of the connected pattern extracting unit, the horizontally long pattern extracting unit, and the continuous line extracting unit ... FIG.
FIG. 19 is a process explanatory diagram of the connected pattern extracting unit, the horizontally long pattern extracting unit, and the continuous line extracting unit.

【0019】(1) :通常、自由に書かれた文字列、例え
ば、数字の文字列から続き文字を抽出、分離する際、文
字に関しては、単独の文字と続き文字が混在しており、
文字の大きさとか、続けて書かれている文字数にも、特
に規定がない。そのため、入力された文字パターンに関
して極端な傾き補正を行い、雑音を除去し、かすれの穴
埋め等の前処理を行った後の2値画像を文字切り出しの
対象とする。
(1): Normally, when a continuation character is extracted and separated from a freely written character string, for example, a character string of numbers, a single character and a continuation character are mixed with respect to the character.
There is no particular restriction on the size of the characters or the number of characters written in succession. Therefore, the binary image after the input character pattern is subjected to extreme inclination correction, noise is removed, and pre-processing such as fading is performed as a character to be extracted.

【0020】文字と文字が続けて書かれていると、横線
で文字同士が繋がっていることが多いことに着目して、
その横方向の続き線(以下「水平続き線」と記す)、或
いは斜め方向の続き線(以下「斜め続き線」と記す)を
抽出することにより、続き文字を判別し、文字の分離を
行うようにしている。
Note that if characters are written consecutively, the characters are often connected by horizontal lines.
By extracting the horizontal continuation line (hereinafter, referred to as “horizontal continuation line”) or the continuation line in the diagonal direction (hereinafter, referred to as “diagonal continuation line”), the continuation character is determined and the characters are separated. Like that.

【0021】(2) :文字切り出しを行う場合、先ず、文
字が配置されている位置の相対的な関係に依存すること
なく、各文字パターンを安定にピックアップするため
に、連結パターン抽出部2では、例えば、8連結で繋が
っているパターンをラベリング処理により抽出する。
(2): When extracting characters, first, in order to stably pick up each character pattern without depending on the relative relationship between the positions where the characters are arranged, the connected pattern extracting unit 2 For example, patterns connected by eight connections are extracted by a labeling process.

【0022】具体的には、8連結のウインドウパターン
で文字パターンを走査して、該ウインドウで走査できた
画素に、所定の論理に基づいて、同じラベルを与える。
以下、これらのラベルを判別して、続き文字の分離を行
う。
More specifically, a character pattern is scanned by an 8-connected window pattern, and the same label is assigned to pixels scanned in the window based on a predetermined logic.
Hereinafter, these labels are determined, and the subsequent characters are separated.

【0023】また、該ラベリング処理で得られた連結パ
ターンのサイズが、後で必要となるので、連結パターン
を矩形近似して得られる矩形の角の座標を、該ラベリン
グの処理で算出しておくようにする。
Further, since the size of the connection pattern obtained by the labeling process is required later, the coordinates of the corners of the rectangle obtained by approximating the connection pattern by a rectangle are calculated by the labeling process. To do.

【0024】前記ラベリング処理については、例えば
「画像処理の基本技法(技法入門編)、(Image Proces
sing on Personal Computer )、第1部画像処理の基
礎、第3章、画像処理の基本アルゴリズム、2)連結成
分処理,ラベリング,長谷川純一,興水大和,中山
晶,横中茂樹著,技術評論社,昭和61年8月10日
刊」に詳しい。
The labeling process is described in, for example, “Basic Image Processing Techniques (Introduction to Techniques)”, “Image Proces
sing on Personal Computer), Part 1 Basics of Image Processing, Chapter 3, Basic Algorithms of Image Processing, 2) Connected Component Processing, Labeling, Junichi Hasegawa, Yamato Kosui, Akira Nakayama, Shigeki Yokonaka, Technical Review Company , August 10, 1986 ”.

【0025】(3) :次の横長パターン抽出部3では、続
き文字の候補として、前記ラベリング処理で得られた連
結パターン毎に、外接矩形の縦横の比率を算出し、或る
一定の値以上の横長の比率を持つパターンを抽出する。
(3): The next horizontally long pattern extraction unit 3 calculates the ratio of the height and width of the circumscribed rectangle to each connected pattern obtained by the labeling process as a candidate for a subsequent character, The pattern having the horizontal ratio of is extracted.

【0026】また、この処理では、例えば、連結パター
ンを矩形近似して抽出した文字領域の平均サイズを算出
し、この算出した平均サイズと比較することにより、前
記続き文字の候補パターンを抽出する。
In this process, for example, the average size of a character area extracted by approximating a connected pattern by a rectangle is calculated, and the average pattern is compared with the calculated average size to extract the candidate pattern of the subsequent character.

【0027】(4) :続き線抽出部4では、水平続き線、
及び斜め続き線の抽出を行うが、水平続き線抽出処理で
は、初めに、(パターン面積)/(外接矩形の面積)を
算出し、その値に従って、抽出する直線の長さを決定す
る。
(4): In the continuation line extracting section 4, a horizontal continuation line,
In the horizontal continuation line extraction processing, (pattern area) / (area of the circumscribed rectangle) is calculated first, and the length of the straight line to be extracted is determined according to the value.

【0028】前記の値が、大きい時には、図19のA図
に示したように長い直線を抽出し、前記値が小さい時
には、図19のB図に示したように短い直線を抽出す
る。抽出する直線の長さを一定としない理由を以下に説
明する。
When the value is large, a long straight line is extracted as shown in FIG. 19A, and when the value is small, a short straight line is extracted as shown in FIG. 19B. The reason why the length of the straight line to be extracted is not constant will be described below.

【0029】(5) :図19のA図、B図に示したよう
に、前記(パターン面積)/(外接矩形の面積)=大の
場合、図19のA図に示したように短い直線を抽出す
ると文字部分にも多数の直線が抽出されるため、続き部
分に限って直線を抽出するには、図19のA図で示し
たように比較的長い直線の抽出を行う必要がある。
(5): As shown in FIGS. 19A and B, when (pattern area) / (area of circumscribed rectangle) = large, a short straight line as shown in FIG. 19A. Is extracted, a large number of straight lines are also extracted from the character portion. Therefore, in order to extract a straight line only in a continuous portion, it is necessary to extract a relatively long straight line as shown in FIG. 19A.

【0030】これに対して、前記(パターン面積)/
(外接矩形の面積)=小の場合には、図19のB図に
示したように長い直線を抽出しようとしても直線が抽出
されない場合が存在するため、図19のB図に示した
ように、短い直線を抽出して、それらを統合することに
より、長い続き線を求める方法が必要となるためであ
る。
On the other hand, the above (pattern area) /
When (the area of the circumscribed rectangle) = small, there is a case where a long straight line is not extracted even if an attempt is made to extract a long straight line as shown in FIG. 19B. This is because a method for extracting a long straight line by extracting short straight lines and integrating them is required.

【0031】(6) :次に、横方向の投影を行って直線の
抽出を行う。この時、投影値に周囲の行の投影値を足し
合わせたものをその行の投影値とする、所謂隣接投影の
方法を用いる。この隣接投影の方法を用いることによ
り、斜めに繋がっている続き線を検出することができ
る。
(6): Next, a horizontal line is projected to extract a straight line. At this time, a so-called adjacent projection method is used in which the projection value of the surrounding row is added to the projection value as the projection value of the row. By using the adjacent projection method, it is possible to detect a continuous line that is connected diagonally.

【0032】図19のC図は、前記隣接投影を行う際の
投影範囲を説明する図である。前記隣接投影を行う際の
投影範囲は、前記抽出する直線の長さに従って、文字パ
ターンを縦方向に分割を行い、その分割された範囲内で
隣接投影の処理を行う。
FIG. 19C is a diagram for explaining a projection range when the adjacent projection is performed. In the projection range for performing the adjacent projection, the character pattern is vertically divided according to the length of the straight line to be extracted, and the adjacent projection is performed within the divided range.

【0033】そして、該投影値が或る一定値以上である
と、その部分に直線があると認識し、抽出された直線の
存在する範囲を図19のD図に示したように、矩形近似
して、矩形直線を形成する。
If the projection value is equal to or greater than a certain value, it is recognized that there is a straight line in that portion, and the range where the extracted straight line exists is, as shown in FIG. Thus, a rectangular straight line is formed.

【0034】その後、図19のD図に示したように、接
触、または近隣の矩形直線を統合して長い直線を抽出
し、その中で一番長い直線を水平続き線とする。この水
平続き線も、矩形近似を行った矩形直線を用いる。
Thereafter, as shown in FIG. 19D, a long straight line is extracted by integrating the contact or neighboring rectangular straight lines, and the longest straight line among them is defined as a horizontal continuous line. As this horizontal continuation line, a rectangular straight line obtained by performing rectangular approximation is used.

【0035】前記のようにして水平続き線が抽出された
ら、続き文字を判別して文字の分離を行うが、続き線が
斜めの場合、前記水平続き線抽出処理では水平続き線が
抽出できないことがある。このような場合、前記水平続
き線抽出処理に加えて、斜め方向に隣接投影を行うこと
により斜め続き線抽出処理を行う。
When a horizontal continuation line is extracted as described above, a continuation character is determined and characters are separated. If the continuation line is oblique, the horizontal continuation line cannot be extracted by the horizontal continuation line extraction processing. There is. In such a case, in addition to the horizontal continuation line extraction processing, diagonal continuation line extraction processing is performed by performing adjacent projection in the oblique direction.

【0036】§4:続き線抽出部による斜め続き線抽出
処理の詳細な説明・・・図20〜図22参照 図20は続き線抽出部の処理説明図(その1)であり、
A図は斜めの投影値算出方法説明図、B図は斜めの隣接
投影法説明図である。図21は続き線抽出部の処理説明
図(その2)であり、A図は原画像の説明図、B図は直
線抽出(傾き45度)の説明図、C図は斜め投影値の算
出の説明図である。図22は続き線抽出部の処理説明図
(その3)であり、A図はパターンの分割、B図は抽出
された矩形直線、C図は統合して抽出した長い直線を示
す。
§4: Detailed description of the oblique continuation line extraction processing by the continuation line extraction unit--see FIGS. 20 to 22. FIG. 20 is an explanatory diagram (part 1) of the processing of the continuation line extraction unit.
FIG. 7A is an explanatory diagram of an oblique projection value calculation method, and FIG. 7B is an explanatory diagram of an oblique adjacent projection method. FIG. 21 is an explanatory diagram (part 2) of the processing of the continuous line extracting unit. FIG. 21A is an explanatory diagram of the original image, FIG. 21B is an explanatory diagram of straight line extraction (tilt of 45 degrees), and FIG. FIG. FIG. 22 is an explanatory diagram (part 3) of the processing performed by the continuous line extracting unit. FIG. 22A shows a pattern division, FIG. 22B shows an extracted rectangular straight line, and FIG.

【0037】前記のように、続き線抽出部4の水平続き
線抽出処理で水平続き線の抽出ができなかった場合、以
下に説明する斜め方向の隣接投影法の処理を行うことに
より、斜め続き線を抽出する。
As described above, when the horizontal continuation line cannot be extracted by the horizontal continuation line extraction processing of the continuation line extraction unit 4, the processing of the oblique adjacent projection method described below is performed to execute the diagonal continuation processing. Extract the line.

【0038】(1) :斜め方向の隣接投影法説明・・・図
20、図21参照 斜め方向の隣接投影法は、或る一定の斜め方向に投影を
行い、注目している斜め線の投影値に、その周囲の投影
値を足し合わせた結果を、斜め線の投影値とする方法で
ある。図20のA図は、n×nの領域を、45度の角度
で斜めに投影を行った場合の投影値の算出方法を示して
いる。
(1): Description of the adjacent projection method in the oblique direction: see FIGS. 20 and 21 In the adjacent projection method in the oblique direction, the projection is performed in a certain oblique direction, and the oblique line of interest is projected. This is a method in which the result of adding the surrounding projection value to the value is used as the projection value of the oblique line. FIG. 20A illustrates a method of calculating a projection value when an nxn area is projected obliquely at an angle of 45 degrees.

【0039】この例では、縦方向の投影値をP1(i)
(i=1〜n)、横方向の投影値をP2(j)(j=1
〜n)とし、P1(n)=P2(1)とする。また、以
下に説明する式で、I(x,y)を画素値としている。
この場合、前記投影値P1(i)、及びP2(j)の算
出式は、次の通りである。
In this example, the projection value in the vertical direction is P1 (i)
(I = 1 to n), and the projection value in the horizontal direction is P2 (j) (j = 1
To n), and P1 (n) = P2 (1). Also, I (x, y) is a pixel value in the following equation.
In this case, the equations for calculating the projection values P1 (i) and P2 (j) are as follows.

【0040】[0040]

【数1】 (Equation 1)

【0041】斜め投影値の算出は、図20のB図に示し
たように、i番目の投影値をP(i)とすると、斜め隣
接投影値P(i)は、次の式で表現できる。なお、zは
足し合わせる周囲の投影値の数を示す。
In the calculation of the oblique projection value, as shown in FIG. 20B, assuming that the i-th projection value is P (i), the oblique adjacent projection value P (i) can be expressed by the following equation. . Note that z represents the number of surrounding projection values to be added.

【0042】先ず、図の左上の領域の場合は、P(i)
=p1(i−z)+p1(i−z+1)+・・・+p1
(i)+・・・+p1(i+z)となる。また、右上の
領域の場合は、P(j)=p2(j−z)+p2(j−
z+1)+・・・+p2(j)+・・・+p2(j+
z)となる。
First, in the case of the upper left area of the figure, P (i)
= P1 (iz) + p1 (iz + 1) + ... + p1
(I) +... + P1 (i + z). In the case of the upper right area, P (j) = p2 (j−z) + p2 (j−
z + 1) + ... + p2 (j) + ... + p2 (j +
z).

【0043】ここで、i=zの場合は、P(i)=p1
(i−z)+p1(i−z+1)+・・・+p1(i)
・・・+p1(z)となる。なお、図20のB図の場
合、斜めの隣接投影値は、P(i)=p(i−1)+p
(i)+p(i+1)である。
Here, when i = z, P (i) = p1
(I−z) + p1 (i−z + 1) +... + P1 (i)
.. + P1 (z). In the case of FIG. 20B, the oblique adjacent projection value is P (i) = p (i−1) + p
(I) + p (i + 1).

【0044】具体例を図21について説明する。例え
ば、図21のA図に示したような原画像があるとする。
この図では、各画素を四角印で示してある。直線抽出を
行う場合、図21のB図に示したように、X−Y座標で
傾きが45度の場合は、X方向に1進んだら、Y方向に
1進む。同様に、45度以外の場合にも、XとYとの整
数比を算出し、その比に従って、投影値を算出する。
A specific example will be described with reference to FIG. For example, assume that there is an original image as shown in FIG.
In this figure, each pixel is indicated by a square mark. In the case of performing the straight line extraction, as shown in FIG. 21B, when the inclination is 45 degrees in the XY coordinates, after going forward in the X direction, it goes forward in the Y direction. Similarly, when the angle is other than 45 degrees, an integer ratio between X and Y is calculated, and a projection value is calculated according to the ratio.

【0045】例えば、前記の式において、z=1、閾値
=10とすると、図21のA図の場合、10番目が直線
として抽出される。また、図21のC図では、X方向の
増加数と、Y方向の増加数の比は、1対2となってい
る。
For example, assuming that z = 1 and the threshold value = 10 in the above equation, in the case of FIG. 21A, the tenth line is extracted as a straight line. In FIG. 21C, the ratio of the number of increases in the X direction to the number of increases in the Y direction is 1: 2.

【0046】(2) :斜め隣接投影値算出から、斜め続き
線の検出までの具体例による処理説明・・・図22参照 斜め隣接投影値算出処理では、図22のA図のように、
パターンを横複数に分割し、それぞれの分割範囲内で、
斜めの隣接投影を行う。この場合、隣接投影値と分割長
との比が、或る一定値以上になった行に直線が存在する
ものとする。
(2): Description of the process from the calculation of the diagonally adjacent projection value to the detection of the diagonally continuous line: see FIG. 22 In the diagonally adjacent projection value calculation process, as shown in FIG.
Divide the pattern into multiple horizontal parts, and within each division range,
Oblique adjacent projection is performed. In this case, it is assumed that a straight line exists in a row where the ratio between the adjacent projection value and the division length has reached a certain value or more.

【0047】斜め直線抽出処理では、図22のB図に示
したように、抽出された直線の存在する範囲を矩形近似
して矩形直線を抽出する。その後、斜め直線統合処理を
行い、図22のC図に示したように、接触、または近隣
の矩形直線を統合することにより、長い直線を抽出し、
統合された直線の中で最も長い直線を斜め続き線とす
る。そして、前記斜め続き線を矩形近似して出力する。
In the diagonal straight line extraction process, as shown in FIG. 22B, a rectangular straight line is extracted by approximating a range where the extracted straight line exists. Thereafter, a diagonal straight line integration process is performed, and as shown in FIG. 22C, a long straight line is extracted by integrating contact or neighboring rectangular straight lines.
The longest straight line among the integrated straight lines is defined as a diagonal continuous line. Then, the oblique continuous line is approximated by a rectangle and output.

【0048】 §5:文字分離決定部の処理説明・・・図23参照 図23は文字分離線決定部の処理説明図であり、A図は
パターンの傾き算出、B図はパターンの傾き算出、C図
は文字分離線決定の説明図である。
§5: Description of the processing of the character separation determining section—see FIG. 23 FIG. 23 is an explanatory view of the processing of the character separation line determining section. FIG. 23A shows the calculation of the pattern inclination, FIG. FIG. C is an explanatory diagram of character separation line determination.

【0049】文字分離線決定部5では、続き線抽出部4
で抽出した続き線を基に文字分離線を決定する。この処
理では、水平続き線が抽出された場合は、矩形近似され
た水平続き線の下辺を端から辿っていき、パターンと交
差したところを輪郭探索の開始点として輪郭探索を行
う。
In the character separation line determination unit 5, the continuation line extraction unit 4
The character separation line is determined based on the continuation line extracted in step (1). In this process, when a horizontal continuation line is extracted, the lower side of the horizontal continuation line approximated to a rectangle is traced from the end, and a contour search is performed at a position where the pattern intersects with the pattern as a start point of the contour search.

【0050】そして、再び下辺と交差したら、探索を終
了し、再びパターンと交差するまで、下辺を辿り、同様
の処理を繰り返す。最終的に探索を行った回数を文字数
とし、探索の開始点から終了点までを、一文字が存在し
ている領域とする。探索終了点と開始点との間で、且つ
縦方向の線密度が1である部分を、文字と文字を分離す
る垂直分離線とする。
Then, when it again intersects the lower side, the search is terminated, and the same processing is repeated until the lower side intersects the pattern again. The number of times the search is finally performed is set as the number of characters, and the area from the start point to the end point of the search is defined as an area where one character exists. A portion between the search end point and the start point and having a vertical line density of 1 is defined as a vertical separation line for separating characters from each other.

【0051】また、縦方向の線密度1の部分が無い場合
には、斜め線で文字分離を行う。この場合、分離線の傾
きは、パターンの傾きを用いる。パターンの傾きの算出
は、例えば、以下に説明する式を用いて算出するが、こ
の処理の詳細は、例えば、次の文献を参照されたい。
When there is no portion having a line density of 1 in the vertical direction, character separation is performed using oblique lines. In this case, the inclination of the pattern is used as the inclination of the separation line. The inclination of the pattern is calculated using, for example, an equation described below. For details of this processing, refer to the following document, for example.

【0052】「F.Kimura, M.Shridhar and Z.Chen "Imp
rovement of Lexicon Directed Algorithm Recognition
of Unconstrained Handwritten Words" Proceeding of
Second International Conference on Document Analy
sis and Recognition,Tsukuba Science City, Japan 19
93,IEEE Computer Society Press, P.18〜 P.22」。
"F.Kimura, M.Shridhar and Z.Chen" Imp
rovement of Lexicon Directed Algorithm Recognition
of Unconstrained Handwritten Words "Proceeding of
Second International Conference on Document Analy
sis and Recognition, Tsukuba Science City, Japan 19
93, IEEE Computer Society Press, P.18-P.22 ".

【0053】前記のように、一文字領域間で、前記の傾
きに従って、線密度を求め、線密度1のところで前記の
傾きを持つ分離線(斜め分離線)を引く。前記パターン
の傾きを算出する場合、例えば、図23のA図、B図に
示したように、隣接画素n1、n2、n3の方向が図示
矢印方向にあるものとする。このような隣接画素n1、
n2、n3に対し、n1の総数をN1、n2の総数をN
2、n3の総数をN3とし、パターンの傾き角をθとす
ると、tanθ=(N1+N2+N3)/(N3−N
1)の式が成立する。
As described above, the line density is obtained between one character area in accordance with the above-mentioned inclination, and a separation line (oblique separation line) having the above-mentioned inclination is drawn at a line density of 1. When calculating the inclination of the pattern, for example, as shown in FIGS. 23A and 23B, it is assumed that the directions of the adjacent pixels n1, n2, and n3 are in the directions indicated by the arrows. Such an adjacent pixel n1,
For n2 and n3, the total number of n1 is N1, and the total number of n2 is N
2, when the total number of n3 is N3 and the inclination angle of the pattern is θ, tan θ = (N1 + N2 + N3) / (N3-N
The expression of 1) holds.

【0054】すなわち、図23のC図に示したように、
水平軸に対する斜め分離線の角度θは、tanθ=(N
1+N2+N3)/(N3−N1)の式で与えられる。 §6:ゼロ判定部の詳細な処理説明・・・図24参照 図24はゼロ判定部の処理説明図であり、A図は線密度
の算出処理、B図は線密度の算出処理を示す。
That is, as shown in FIG. 23C,
The angle θ of the oblique separation line with respect to the horizontal axis is tan θ = (N
1 + N2 + N3) / (N3-N1). §6: Detailed description of processing of zero determination unit—refer to FIG. 24 FIG. 24 is an explanatory diagram of processing of the zero determination unit. FIG. 24A illustrates a line density calculation process, and FIG.

【0055】ゼロ判定部6は、続き線(水平続き線、及
び斜め続き線)と、分離線(垂直分離線、斜め分離線)
に囲まれた一文字領域内において、図24に示したよう
に、続き線とパターンに囲まれた空白部分から、複数方
向放射状に線密度を算出し、全ての方向について線密度
が1であれば、ループ構造をしたゼロであると判定す
る。
The zero judging section 6 includes a continuation line (horizontal continuation line and diagonal continuation line) and a separation line (vertical separation line, diagonal separation line).
In the one character area surrounded by, as shown in FIG. 24, the line density is calculated in a plurality of directions radially from the blank portion surrounded by the continuous line and the pattern, and if the line density is 1 in all directions, Is determined to be zero with a loop structure.

【0056】 §7:文字分離部の詳細な処理説明・・・図25参照 図25は文字分離部の処理説明図である。文字分離部7
では、ゼロ判定部6でゼロであると判定された文字に関
しては、左右に出ている不必要な続き線の消去を行い、
それ以外の文字は文字分離線で分離する。
§7: Detailed description of the processing of the character separation unit—see FIG. 25 FIG. 25 is an explanatory diagram of the processing of the character separation unit. Character separation unit 7
Then, with respect to the character determined to be zero by the zero determination unit 6, unnecessary continuous lines extending to the left and right are erased,
Other characters are separated by a character separation line.

【0057】この場合、分離線から線の傾きが急激に変
化する部分までを消去範囲とする。図25のA図に示し
たように、一定範囲内に傾きの変化が殆ど無い場合は、
続き線の消去は行わない。すなわち、a部分は傾きに急
激な変化がないため消去しない部分であり、b部分は傾
きに急激な変化がある所まで消去する部分である。
In this case, the area from the separation line to the portion where the inclination of the line changes sharply is defined as the erasure range. As shown in FIG. 25A, when there is almost no change in inclination within a certain range,
No continuation line is erased. That is, the portion a is a portion that is not erased because there is no sharp change in the slope, and the portion b is a portion that is erased to a place where the slope changes abruptly.

【0058】また、ゼロと判定されたパターンの内部
に、図25のB図に示したように、ループがあった場
合、後の認識処理において、誤認識等の悪影響を少なく
するために、内部の線の消去も行う。ゼロでないと判定
された文字に関しては、分離線で他の文字と分離を行
い、水平続き線の消去は行わない。
If there is a loop inside the pattern determined to be zero, as shown in FIG. 25B, in order to reduce adverse effects such as erroneous recognition in the subsequent recognition processing. Line is also erased. For a character determined to be not zero, the character is separated from other characters by a separation line, and the horizontal continuation line is not deleted.

【0059】[0059]

【発明が解決しようとする課題】前記のような従来のも
のにおいては、次のような課題があった。 (1) :帳票等の文書に対して1文字ずつ分離して書かれ
た文字についてはかなりの高い認識率で文字認識を行う
ことができた。しかし、接触文字や、続け字が入ると文
字と文字の分離ができない場合が多くなり、文字の認識
率が低下する。
The above-mentioned prior art has the following problems. (1): Character recognition could be performed at a considerably high recognition rate for characters written separately for documents such as forms. However, if a contact character or a continuous character is entered, the characters cannot be separated from each other in many cases, and the character recognition rate is reduced.

【0060】(2) :続き線のある数字のゼロの続け字の
場合は正確に文字の分離処理を行うことができる。しか
し、続き線があっても数字のゼロでない場合は、正確に
文字と文字の分離線を見つけることができないことが多
かった。このような場合、所定の位置で強制分離を行う
ことで文字と文字を分離していた。
(2): In the case of a continuation of zero in a number with a continuous line, character separation processing can be performed accurately. However, if there is a continuation line but the number is not zero, the character-to-character separation line cannot often be found accurately. In such a case, characters are separated from each other by performing forced separation at a predetermined position.

【0061】そのため、前記強制分離を行ったことによ
り、余分な「ヒゲ」が残ってしまい認識処理が困難にな
る等の悪影響が発生していた。 (3) :従来の装置では斜め続き線を抽出する際に、或る
一定の角度を持った方向に投影処理を行い続き線を抽出
していた。この処理では、始めの角度設定を誤ると精度
よく続き線が抽出できない。
For this reason, by performing the forcible separation, an extra "whisker" remains, causing an adverse effect such that recognition processing becomes difficult. (3): In the conventional apparatus, when extracting a continuous line obliquely, projection processing is performed in a direction having a certain angle to extract a continuous line. In this process, if the initial angle setting is incorrect, a continuous line cannot be extracted accurately.

【0062】(4) :続け字を分離する場合、2文字を直
線で分離できるかどうかを見ているため、文字間の空白
が少しでも複雑な形状になると対処できなかった。ま
た、文字の訂正線を間違えて続き線として抽出すること
があった。
(4): In the case of separating continuous characters, since it is checked whether two characters can be separated by a straight line, it is not possible to cope with a case where even a small space between characters has a complicated shape. In some cases, a character correction line is mistakenly extracted as a continuous line.

【0063】本発明は、このような従来の課題を解決
し、数字のゼロを含まない文字の場合であっても、常に
正確に文字と文字の分離が行えるようにして高精度の認
識処理を可能とすることを目的とする。
The present invention solves such a conventional problem, and performs a high-precision recognition process by always accurately separating characters even if the character does not include the numeral zero. The purpose is to make it possible.

【0064】また、本発明は、文字の訂正線の抽出を行
うことにより続き線の抽出精度を向上させると共に、変
化点の抽出処理を高精度で実現し、文字の分離精度を向
上させることを目的とする。
Further, the present invention improves the extraction accuracy of a continuation line by extracting a correction line of a character, and realizes the extraction processing of a change point with high accuracy, thereby improving the separation accuracy of a character. Aim.

【0065】[0065]

【課題を解決するための手段】図1は本発明の原理説明
図であり、A図は文字切り出し装置イ、B図は文字切り
出し装置ロを示す。本発明は前記の目的を達成するた
め、文字切り出し装置を次のように構成した。
FIG. 1 is a view for explaining the principle of the present invention. FIG. 1A shows a character extracting device A, and FIG. According to the present invention, in order to achieve the above object, a character cutout device is configured as follows.

【0066】(1) :図1のA図に示した文字切り出し装
置イにおいて、入力パターンの連結情報に基づいて、入
力パターンから連結パターンを抽出する連結パターン抽
出部2と、連結パターン抽出部が抽出した連結パターン
の内、複数の文字が繋がっている続き文字の候補とし
て、横に長い横長パターンだけを抽出する横長パターン
抽出部3と、横長パターン抽出部が抽出した横長パター
ンから文字と文字を繋いでいる続き線を見つけることに
よって、前記抽出された連結パターンが続き文字である
か否かを判断し、文字の続き線を抽出する続き線抽出部
4と、続き線抽出部で続き線が抽出できなかった場合
に、パターンの輪郭探索を行ってパターン輪郭の傾きの
変化点を抽出し、前記変化点を文字と文字の分離点候補
とする変化点抽出部10と、変化点抽出部が抽出した変
化点を基に、それぞれの分離点候補で分離した場合の分
離後の文字の大きさを求め、前記文字の大きさの比較に
より文字の分離点を決定する分離点決定部11と、分離
点決定部で決定した文字の分離点で文字を分離する文字
分離部12を設けた。
(1): In the character segmentation device A shown in FIG. 1A, a connection pattern extraction unit 2 for extracting a connection pattern from an input pattern based on connection information of the input pattern, and a connection pattern extraction unit Among the extracted concatenated patterns, a horizontal pattern extraction unit 3 that extracts only a horizontally long horizontal pattern as a candidate for a continuous character to which a plurality of characters are connected, and a character and a character from the horizontal pattern extracted by the horizontal pattern extraction unit By finding a connected continuation line, it is determined whether or not the extracted connected pattern is a continuation character, and a continuation line extraction unit 4 that extracts a continuation line of the character, and a continuation line is extracted by the continuation line extraction unit. If the extraction is not successful, a pattern contour search is performed to extract a change point in the inclination of the pattern contour, and the change point is used as a candidate for a character-to-character separation point. And, based on the change points extracted by the change point extraction unit, determine the size of the character after separation when separated by each separation point candidate, and determine the character separation point by comparing the character sizes. A separation point determination unit 11 and a character separation unit 12 that separates characters at the character separation points determined by the separation point determination unit are provided.

【0067】(2) :図1のB図に示した文字切り出し装
置ロにおいて、入力パターンの連結情報に基づいて、入
力パターンから連結パターンを抽出する連結パターン抽
出部2と、連結パターン抽出部が抽出した連結パターン
の内、複数の文字が繋がっている続き文字の候補として
横に長い横長パターンだけを抽出する横長パターン抽出
処理、及び前記横長パターンから文字と文字を繋いでい
る続き線を抽出して、文字上に書かれた訂正線を抽出す
る訂正線抽出処理を行う続け字抽出部23と、続け字抽
出部が抽出した横長パターンから文字と文字を繋いでい
る続き線を見つけることによって、前記抽出された連結
パターンが続き文字であるか否かを判断し、文字の続き
線を抽出する続き線抽出部4と、続き線抽出部4で続き
線が抽出された場合、その続き線の位置情報を基に、文
字分離線を決定する文字分離線決定部5と、文字分離線
決定部が決定した文字分離線で分けられた一文字毎の文
字領域について、一文字毎に、数字のゼロであるか否か
を判定するゼロ判定部6と、数字のゼロと判定された文
字について、文字領域を残し不必要な続き部分を消去す
る文字分離部7と、続き線抽出部4で続き線が抽出でき
なかった場合、及び前記ゼロ判定部で数字のゼロと判定
されなかった場合に、パターンの輪郭探索を行ってパタ
ーン輪郭の傾きの変化点を抽出し、前記変化点を文字と
文字の分離点候補とする変化点抽出部10と、変化点抽
出部が抽出した変化点を基に、それぞれの分離点候補で
分離した場合の分離後の文字の大きさを求め、前記文字
の大きさの比較により文字の分離点を決定する分離点決
定部11と、分離点決定部11で決定した文字の分離点
で文字を分離し、文字領域を残し不必要な続き部分を消
去する文字分離部12を設けた。
(2): In the character segmentation device B shown in FIG. 1B, the connection pattern extraction unit 2 for extracting a connection pattern from the input pattern based on the connection information of the input pattern, and the connection pattern extraction unit Among the extracted connection patterns, a horizontal pattern extraction process of extracting only a horizontally long horizontal pattern as a candidate for a continuous character in which a plurality of characters are connected, and extracting a continuous line connecting a character and a character from the horizontal pattern And a continuous character extracting unit 23 that performs a correction line extracting process for extracting a correction line written on the character, and a continuous line connecting the characters from the horizontal pattern extracted by the continuous character extracting unit, A determination is made as to whether or not the extracted connection pattern is a continuation character, and a continuation line extraction unit 4 for extracting a continuation line of the character; The character separation line determination unit 5 that determines a character separation line based on the positional information of the continuation line, and the character region for each character divided by the character separation line determined by the character separation line determination unit, for each character A zero judging unit 6 for judging whether or not the number is zero, a character separating unit 7 for deleting a character determined to be zero, leaving a character area and deleting an unnecessary continuation part, and a continuation line extracting unit If a continuous line cannot be extracted in step 4, and if the number is not determined to be zero by the zero determination unit, a pattern contour search is performed to extract a change point in the slope of the pattern contour, and the change point is determined. Based on the change point extraction unit 10 as a character-to-character separation point candidate and the change point extracted by the change point extraction unit, the size of the separated character when separated by each separation point candidate is determined. Separation point of character by comparing character size A separation point determining unit 11 to a constant, a character separated by the separation point of the character determined in the separation point determining unit 11, provided with the character segmentation unit 12 to erase the unnecessary continuation portion leaving the character region.

【0068】[0068]

【作用】前記構成に基づく本発明の作用を、図1に基づ
いて説明する。 (1) :前記文字切り出し装置イでは、先ず、連結パター
ン抽出部2が、入力パターンの連結情報に基づいて、入
力パターンから、画素と画素とが繋がっている連結パタ
ーンを抽出する。
The operation of the present invention based on the above configuration will be described with reference to FIG. (1): In the character segmentation device A, first, the connection pattern extraction unit 2 extracts a connection pattern in which pixels are connected from the input pattern based on the connection information of the input pattern.

【0069】次に、横長パターン抽出部3では、前記抽
出された連結パターンの内、複数の文字が繋がっている
続き文字の候補として、横に長い横長パターンだけを抽
出する。そして、続き線抽出部4では、文字と文字を繋
いでいる続き線を見つけることによって、前記抽出され
た連結パターンが続き文字であるか否かを判断し、水
平、或いは斜め続き線を抽出する。
Next, the horizontal pattern extraction unit 3 extracts only a horizontally long horizontal pattern from the extracted connected patterns as a continuation character candidate in which a plurality of characters are connected. Then, the continuation line extraction unit 4 determines whether or not the extracted connection pattern is a continuation character by finding a continuation line connecting the characters, and extracts a horizontal or diagonal continuation line. .

【0070】その後、続き線が抽出できた場合は、別の
処理部(図示省略)により前記続き線を基に文字分離点
を決定して文字の分離を行う。しかし、続き線が抽出で
きなかった場合には、変化点抽出部10でパターンの輪
郭探索を行ってパターン輪郭の傾きの変化点を抽出し、
前記変化点を文字と文字の分離点候補とする。
Thereafter, if a continuous line can be extracted, another processing unit (not shown) determines a character separation point based on the continuous line and separates characters. However, when a continuous line cannot be extracted, the change point extraction unit 10 performs a pattern outline search to extract a change point of the inclination of the pattern outline.
The change points are set as character-to-character separation point candidates.

【0071】その後、分離点決定部11は、変化点抽出
部10が抽出した変化点を基に、それぞれの分離点候補
で分離した場合の分離後の文字の大きさを求め、前記文
字の大きさの比較により文字の分離点を決定する。次
に、文字分離部12は、分離点決定部11で決定した文
字分離点で文字を分離する。
Thereafter, based on the change points extracted by the change point extraction unit 10, the separation point determination unit 11 obtains the size of the separated character when separated by each separation point candidate, and obtains the size of the character. The character separation point is determined by comparing the characters. Next, the character separation unit 12 separates characters at the character separation points determined by the separation point determination unit 11.

【0072】(2) :文字切り出し装置ロでは、連結パタ
ーン抽出部2が、先ず、入力パターンの連結情報に基づ
いて、入力パターンから、画素と画素とが繋がっている
連結パターンを抽出する。
(2) In the character extracting device B, the connection pattern extraction unit 2 first extracts a connection pattern in which pixels are connected from the input pattern based on the connection information of the input pattern.

【0073】次に、続け字抽出部23は、連結パターン
抽出部2が抽出した連結パターンの内、複数の文字が繋
がっている続け字候補として横に長い横長パターンだけ
を抽出する。この時、続け字抽出部23は、前記横長パ
ターンから文字と文字を繋いでいる続き線を抽出するこ
とで、文字上に書かれた訂正線を抽出する。
Next, the continuous character extracting unit 23 extracts only a horizontally long horizontal pattern from the connected pattern extracted by the connected pattern extracting unit 2 as a continuous character candidate in which a plurality of characters are connected. At this time, the continuation character extraction unit 23 extracts a correction line written on the character by extracting a continuation line connecting the characters from the horizontal oblong pattern.

【0074】その後、続き線抽出部4は、続け字抽出部
23で抽出した横長パターンから文字と文字を繋いでい
る続き線を見つけることによって、前記抽出された連結
パターンが続き文字であるか否かを判断し、文字の続き
線を抽出する。
Subsequently, the continuation line extraction unit 4 finds a continuation line connecting the characters from the horizontal pattern extracted by the continuation character extraction unit 23, and determines whether the extracted connected pattern is a continuation character. Is determined, and a continuation line of the character is extracted.

【0075】そして、続き線抽出部4で続き線が抽出さ
れた場合、文字分離線決定部5は、その続き線の位置情
報を基に文字分離線を決定する。続いてゼロ判定部6
は、文字分離線決定部5が決定した文字分離線で分けら
れた一文字毎の文字領域について、一文字毎に数字のゼ
ロであるか否かを判定する。その結果、ゼロと判定され
た場合は、文字分離部7は数字のゼロと判定された文字
について、文字領域を残し不必要な続き部分を消去す
る。
When a continuation line is extracted by the continuation line extraction unit 4, the character separation line determination unit 5 determines a character separation line based on the positional information of the continuation line. Subsequently, the zero determination unit 6
Determines whether or not the character area of each character divided by the character separation line determined by the character separation line determination unit 5 is a numeral zero for each character. As a result, when it is determined that the number is zero, the character separating unit 7 deletes an unnecessary continuation part of the character whose number is determined to be zero, leaving a character area.

【0076】しかし、続き線抽出部4で続き線が抽出で
きなかった場合、及びゼロ判定部6で数字のゼロと判定
されなかった場合は、変化点抽出部10は、パターンの
輪郭探索を行ってパターン輪郭の傾きの変化点を抽出
し、前記変化点を文字と文字の分離点候補とする。
However, if the continuation line extraction unit 4 fails to extract the continuation line, and if the zero determination unit 6 does not determine that the number is zero, the change point extraction unit 10 performs a pattern contour search. Then, a change point of the inclination of the pattern outline is extracted, and the change point is used as a separation point candidate between characters.

【0077】次に分離点決定部11は、変化点抽出部1
0が抽出した変化点を基に、それぞれの分離点候補で分
離した場合の分離後の文字の大きさを求め、前記文字の
大きさの比較により文字の分離点を決定する。
Next, the separation point determination unit 11 changes the change point extraction unit 1
Based on the change point extracted by 0, the size of the character after separation when separated by each separation point candidate is obtained, and the separation point of the character is determined by comparing the size of the character.

【0078】そして、文字分離部12は、分離点決定部
11で決定した文字の分離点で文字を分離し、文字領域
を残し不必要な続き部分を消去する。以上の処理により
文字の切り出しを行う。
Then, the character separating section 12 separates the character at the character separating point determined by the separating point determining section 11, and deletes an unnecessary continuous portion while leaving a character area. With the above processing, characters are cut out.

【0079】(3) :前記A図に示した文字切り出し装置
イにおいては、更に次のような作用がある。 a)前記変化点抽出部10の処理において、注目パター
ンの縦の長さ、他のパターンの平均サイズ等より仮の探
索開始基準線を決定した後、仮の探索開始基準線の周辺
部分において線密度1の部分を探索して正式の探索開始
基準線を求め、探索開始基準線から探索開始点を決定し
てパターンの輪郭探索を行う。
(3) The character extracting device A shown in FIG. a) In the process of the change point extracting unit 10, after determining a temporary search start reference line based on the vertical length of the pattern of interest, the average size of other patterns, and the like, a line around the temporary search start reference line is determined. A formal search start reference line is obtained by searching for a portion having a density of 1, a search start point is determined from the search start reference line, and a pattern contour search is performed.

【0080】b)変化点抽出部10の処理において、パ
ターンの輪郭探索を行う場合の探索開始点を、線密度1
の部分のパターンの上端、下端の2点とする。 c)変化点抽出部10の処理において、パターンの輪郭
探索を開始する探索開始点を決定した後、前記探索開始
点からそれぞれパターンの左右方向に輪郭探索を行うこ
とにより、パターンの傾きの変化点を抽出する。
B) In the process of the change point extracting unit 10, the search start point when searching for the contour of the pattern is set to the line density 1
Are two points, the upper end and the lower end of the pattern. c) In the process of the change point extraction unit 10, after the search start point for starting the contour search of the pattern is determined, the contour search is performed in the left-right direction of the pattern from the search start point, thereby changing the slope of the pattern. Is extracted.

【0081】d)変化点抽出部10の処理において、パ
ターンの輪郭探索を行ってパターンの輪郭の傾きの変化
点を抽出する際、パターン上の探索開始点と輪郭上の或
る点とを結ぶ直線と、検出された輪郭との重なりを算出
し、前記算出した重なりの度合いにより、探索開始点か
ら輪郭上の或る点までが直線であるか否かを判断するこ
とで変化点の抽出を行う。
D) In the process of the change point extraction unit 10, when a pattern contour search is performed to extract a change point of the inclination of the pattern contour, a search start point on the pattern is connected to a certain point on the contour. The overlap between the straight line and the detected contour is calculated, and the change point is extracted by judging whether or not the search start point to a certain point on the contour is a straight line based on the calculated degree of overlap. Do.

【0082】e)変化点抽出部10の処理において、パ
ターンの輪郭探索を行ってパターンの輪郭の傾きの変化
点を抽出する際、パターン上の探索開始点と輪郭上の或
る点とを結ぶ直線と、輪郭との重なりを算出し、前記重
なりの変化量から輪郭の傾きの変化点を抽出する。
E) In the process of the change point extracting unit 10, when the contour search of the pattern is performed to extract the change point of the inclination of the contour of the pattern, the search start point on the pattern is connected to a certain point on the contour. An overlap between the straight line and the contour is calculated, and a change point of the slope of the contour is extracted from the change amount of the overlap.

【0083】f)分離点決定部11の処理において、パ
ターンの上下2点の変化点間の距離が、或る一定のしき
い値以下であれば、前記2点を変化点として選択し、前
記距離が或る一定のしきい値を超えていた場合は、探索
開始点に近い方の1点を変化点として選択する。
F) In the processing of the separation point determination unit 11, if the distance between the two upper and lower changing points of the pattern is equal to or less than a certain threshold value, the two points are selected as changing points. If the distance exceeds a certain threshold, one point closer to the search start point is selected as a change point.

【0084】g)前記f)の処理において、上下2点間
の距離のしきい値を、周囲の投影値を足し合わせた結果
を注目行、または列の投影値とする隣接投影法によって
抽出された線分の太さの平均値を基準にして設定する。
G) In the processing of the above f), the threshold value of the distance between the upper and lower points is extracted by the adjacent projection method in which the result of adding the surrounding projection values is the projection value of the target row or column. Set based on the average value of the thickness of the line segments.

【0085】h)前記f)の処理において、上下2点間
の距離のしきい値を、注目パターンの高さを基準にして
設定する。 i)文字分離部12の処理において、分離点決定部11
で決定した文字の分離点で文字を分離する際、分離点と
分離点とを結ぶ直線とその両隣の画素を消去する。
H) In the process of f), the threshold value of the distance between the upper and lower points is set based on the height of the pattern of interest. i) In the processing of the character separation unit 12, the separation point determination unit 11
When a character is separated at the character separation point determined in step 2, the straight line connecting the separation point and the pixels on both sides thereof are deleted.

【0086】j)分離点決定部11の処理において、変
化点抽出部10が抽出した変化点を基に、それぞれの分
離点候補で分離したと仮定し、ラベリング、輪郭探索、
投影法等により、分離後の文字の大きさを求めることに
より、分離点を決定する。
J) In the processing of the separation point determination unit 11, it is assumed that separation is performed at each separation point candidate based on the change points extracted by the change point extraction unit 10, and labeling, contour search,
The separation point is determined by obtaining the size of the character after separation by a projection method or the like.

【0087】k)分離点決定部11の処理において、変
化点抽出部10が抽出した変化点を基に、それぞれの分
離点候補で分離したと仮定し、分離後の文字の大きさを
求め、前記分離後の大きさが均等になるように分離点を
決定する。
K) In the processing of the separation point determination unit 11, it is assumed that the separation points are separated by the respective separation point candidates based on the change points extracted by the change point extraction unit 10, and the size of the character after separation is obtained. The separation point is determined so that the size after the separation becomes uniform.

【0088】(4) :前記B図に示した文字切り出し装置
ロにおいては、更に次のような作用がある。 a)続け字抽出部23の処理において、続け字候補から
続け字を抽出する際に、水平方向の投影処理を行って続
き線が2本抽出されたら前記2本の続き線を訂正線と判
断し、その文字を訂正文字として扱う。
(4) The character extracting device B shown in FIG. a) In the process of the continuation character extracting unit 23, when continuation characters are extracted from continuation character candidates, if two consecutive lines are extracted by performing horizontal projection processing, the two consecutive lines are determined to be correction lines. And treats that character as a correction character.

【0089】b)続き線抽出部4の処理において、続け
字抽出部23の処理で抽出した横長パターンから文字と
文字を繋いでいる続き線を抽出する際、複数の傾きに対
して続き線の抽出処理を行う。
B) In the process of the continuation line extracting unit 4, when extracting the continuation line connecting characters from the horizontally long pattern extracted in the process of the continuation character extracting unit 23, the continuation line is extracted for a plurality of inclinations. Perform extraction processing.

【0090】c)文字分離線決定部5の処理において、
続き線抽出部4で続き線が抽出され、その続き線の位置
情報を基に文字分離線を決定する際、2文字を折れ線で
分離できるか否かにより分離可否を決定する。
C) In the processing of the character separation line determination unit 5,
When a continuation line is extracted by the continuation line extraction unit 4 and a character separation line is determined based on the position information of the continuation line, whether or not two characters can be separated by a broken line determines whether or not separation is possible.

【0091】d)変化点抽出部10の処理において、文
字と文字の接触した点として変化点を抽出する際、始め
に縦方向に線密度1となる輪郭線上の点を見つけ、次に
変化点の探索開始点を輪郭線上に複数設定し、各点から
前記複数の変化点候補を算出する。
D) In the process of the change point extraction unit 10, when a change point is extracted as a point where a character touches a character, a point on a contour line having a line density of 1 in the vertical direction is first found, and then a change point Are set on the contour line, and the plurality of change point candidates are calculated from each point.

【0092】e)前記d)の処理において、変化点の探
索開始点を輪郭線上に複数設定する際、パターンに対す
る探索範囲を限定して探索開始点を見つける。 f)前記d)の処理において、複数の変化点候補を算出
する際、パターンに対する探索範囲を限定して変化点候
補を算出する。
E) In the process d), when a plurality of change start points are set on the contour line, the search start point is found by limiting the search range for the pattern. f) In the process d), when calculating a plurality of change point candidates, change point candidates are calculated by limiting the search range for the pattern.

【0093】g)前記e)の処理において、探索開始点
の探索範囲を限定する際、パターンの高さの定数倍を探
索範囲とする。 h)前記e)の処理において、探索開始点の探索範囲を
限定する際、その文字が属する文字列の平均文字サイズ
の定数倍を探索範囲とする。
G) In the process e), when limiting the search range of the search start point, the search range is a constant multiple of the pattern height. h) In the process e), when limiting the search range of the search start point, the search range is a constant multiple of the average character size of the character string to which the character belongs.

【0094】i)前記f)の処理において、変化点の探
索範囲を限定する際、パターンの高さの定数倍を探索範
囲とする。 j)前記f)の処理において、変化点の探索範囲を限定
する際、その文字が属する文字列の平均文字サイズの定
数倍を探索範囲とする。
I) In the process of f), when limiting the search range of the change point, a constant multiple of the pattern height is used as the search range. j) In the process of f), when limiting the search range of the change point, the search range is a constant multiple of the average character size of the character string to which the character belongs.

【0095】k)文字分離部7、12の処理において、
続け字の分離に伴って生じる文字のヒゲを除去すると共
に、その際、パターンの上側の輪郭線と続き線の位置情
報から文字内に含まれるヒゲ部分を除去する。
K) In the processing of the character separation units 7 and 12,
A whisker of a character caused by separation of a continuation character is removed, and at this time, a whisker portion included in the character is removed from position information of an upper contour line and a continuation line of the pattern.

【0096】(5) :以上のようにすれば、数字のゼロを
含まない文字の場合であっても、常に正確に文字と文字
の分離が行えるようにして高精度の認識処理を可能とす
ることができる。
(5) As described above, even if the character does not include the numeral zero, it is possible to always accurately separate the character from the character, thereby enabling a highly accurate recognition process. be able to.

【0097】また、文字の訂正線の抽出を行うことによ
り続き線の抽出精度を向上させると共に、変化点の抽出
処理を高精度で実現し、文字の分離精度を向上させるこ
とが可能になる。
Further, by extracting the correction line of the character, the extraction accuracy of the continuation line can be improved, and the process of extracting the change point can be realized with high accuracy, so that the separation accuracy of the character can be improved.

【0098】[0098]

【実施例】以下、本発明の実施例を図面に基づいて説明
する。図2〜図17は、本発明の実施例を示した図であ
り、図2〜図17中、図1、図18〜図25と同じもの
は、同一符号で示してある。また、14は探索開始基準
線決定部、15は探索開始点決定部、16は輪郭探索
部、17は変化点抽出処理部、19は分離点候補抽出
部、20は大きさ比較部、21は分離線決定部を示す。
Embodiments of the present invention will be described below with reference to the drawings. 2 to 17 are views showing an embodiment of the present invention. In FIGS. 2 to 17, the same components as those in FIGS. 1 and 18 to 25 are denoted by the same reference numerals. 14 is a search start reference line determining unit, 15 is a search starting point determining unit, 16 is a contour searching unit, 17 is a change point extraction processing unit, 19 is a separation point candidate extracting unit, 20 is a size comparing unit, and 21 is a size comparing unit. 3 shows a separation line determination unit.

【0099】(実施例1の説明) §1:文字切り出し装置基本構成の説明・・・図2参照 図2は実施例1の文字切り出し装置基本構成図である。
図示のように、文字切り出し装置1は、連結パターン抽
出部2、横長パターン抽出部3、続き線抽出部4、文字
分離線決定部5、ゼロ判定部6、文字分離部7、変化点
抽出部10、分離点決定部11、文字分離部12で構成
する。
(Explanation of First Embodiment) §1: Basic Configuration of Character Extraction Device—See FIG. 2 FIG. 2 is a basic configuration diagram of the character extraction device of the first embodiment.
As shown in the figure, the character cutout device 1 includes a connection pattern extraction unit 2, a horizontally long pattern extraction unit 3, a continuous line extraction unit 4, a character separation line determination unit 5, a zero determination unit 6, a character separation unit 7, a change point extraction unit. 10, a separation point determination unit 11, and a character separation unit 12.

【0100】前記各部の内、変化点抽出部10、分離点
決定部11、文字分離部12以外の構成は前記従来例の
構成と同じである。前記各部の機能は次の通りである。 (1) :連結パターン抽出部2は、入力パターンから連結
パターンを抽出するものである。すなわち、文字切り出
しを行う場合、先ず、文字が配置されている位置の相対
的な関係に依存することなく、各文字パターンを安定に
ピックアップするために、連結パターン抽出部2では、
例えば、8連結で繋がっているパターンをラベリング処
理で抽出する。
The components other than the change point extracting unit 10, the separation point determining unit 11, and the character separating unit 12 are the same as those of the conventional example. The function of each section is as follows. (1): The connection pattern extraction unit 2 extracts a connection pattern from an input pattern. That is, when performing character segmentation, first, in order to stably pick up each character pattern without depending on the relative relationship of the positions where the characters are arranged, the connected pattern extraction unit 2
For example, patterns connected by eight connections are extracted by a labeling process.

【0101】(2) :横長パターン抽出部3は、続き文字
の候補として、前記ラベリング処理で得られた連結パタ
ーン毎に、外接矩形の縦横の比率を算出し、或る一定以
上の横長の比率を持つパターンを抽出するものである。
(2): The horizontally long pattern extracting unit 3 calculates the length and width ratios of the circumscribed rectangles for each of the connected patterns obtained by the labeling process as candidates for the following characters, This is to extract a pattern having.

【0102】(3) :続き線抽出部4は、水平、或いは斜
めの文字と文字の繋がっている部分の続き線を見つける
ことによって、前記抽出された連結パターンが続き文字
であるか否かを判断し、水平続き線、或いは斜め続き線
を抽出するものである。
(3): The continuation line extracting unit 4 finds a continuation line of a portion where the character is connected to a horizontal or oblique character, and determines whether or not the extracted connection pattern is a continuous character. Judgment is made and a horizontal continuation line or an oblique continuation line is extracted.

【0103】(4) :文字分離線決定部5は、前記抽出さ
れた続き線を基に、輪郭探索を用いて、文字数、及び一
文字毎の文字の存在する領域を求め、文字と文字の間に
垂直分離線、或いは斜め分離線等の文字分離線を引くも
のである。
(4): The character separation line determination unit 5 obtains the number of characters and the area where each character exists by using a contour search based on the extracted continuation line. , A character separation line such as a vertical separation line or a diagonal separation line is drawn.

【0104】なお、この文字分離線決定部5は、続き線
抽出部4で水平続き線、或いは斜め続き線が抽出された
場合(続き線有りの場合)にのみ文字分離線の決定処理
を行うものである。
The character separation line determination unit 5 performs the character separation line determination process only when the continuous line extraction unit 4 extracts a horizontal continuous line or an oblique continuous line (when there is a continuous line). Things.

【0105】(5) :ゼロ判定部6は、前記文字分離線で
分離された1文字毎の文字領域について、1文字毎に、
数字のゼロ(0)であるか否かを判定するものである。 (6) :文字分離部7は、前記数字のゼロ(0)と判定さ
れた文字については、左右に出ている不必要な続き線や
ヒゲ等を消去し、前記文字分離線で分離することにより
文字の分離を行うものである。
(5): The zero judging unit 6 sets the character area for each character separated by the character separation line,
It is determined whether or not the number is zero (0). (6): The character separation unit 7 deletes unnecessary continuous lines and whiskers appearing on the left and right of the character determined to be zero (0) of the numeral, and separates the characters by the character separation line. Is used to separate characters.

【0106】(7) :変化点抽出部10は、続き線抽出部
4の処理で続き線(水平続き線、或いは斜め続き線)が
抽出できなかった場合(続き線無しの場合)に、処理対
象としているパターンに対して、傾きの変化点の抽出を
行うものである。
(7): The changing point extraction unit 10 performs processing when a continuation line (horizontal continuation line or diagonal continuation line) cannot be extracted in the processing of the continuation line extraction unit 4 (when there is no continuation line). The change point of the inclination is extracted for the target pattern.

【0107】(8) :分離点決定部11は、変化点抽出部
10で抽出した変化点を基に、文字の分離点を決定する
ものである。 (9) :文字分離部12は、分離点決定部11で決定した
文字の分離点を基に、文字の分離を行うものである。
(8) The separation point determination unit 11 determines a character separation point based on the change points extracted by the change point extraction unit 10. (9): The character separation unit 12 separates characters based on the character separation points determined by the separation point determination unit 11.

【0108】§2:実施例1の文字切り出し装置構成の
説明・・・図3参照 図3は実施例1の文字切り出し装置構成図である。図示
のように、文字切り出し装置は、連結パターン抽出部
2、横長パターン抽出部3、続き線抽出部4、文字分離
線決定部5、ゼロ判定部6、文字分離部7、変化点抽出
部10、分離点決定部11、文字分離部12で構成す
る。
§2: Description of the structure of the character cutout device of the first embodiment—see FIG. 3 FIG. 3 is a diagram showing the structure of the character cutout device of the first embodiment. As shown in the figure, the character cutout device includes a connection pattern extraction unit 2, a horizontally long pattern extraction unit 3, a continuous line extraction unit 4, a character separation line determination unit 5, a zero determination unit 6, a character separation unit 7, and a change point extraction unit 10. , A separation point determination unit 11 and a character separation unit 12.

【0109】そして、前記変化点抽出部10は、探索開
始基準線決定部14、探索開始点決定部15、輪郭探索
部16、変化点抽出処理部17で構成し、前記分離点決
定部11は、分離点候補抽出部19、大きさ比較部2
0、分離線決定部21で構成する。前記各部の機能等は
次の通りである。
The change point extraction unit 10 is composed of a search start reference line determination unit 14, a search start point determination unit 15, a contour search unit 16, and a change point extraction processing unit 17, and the separation point determination unit 11 Separation point candidate extraction unit 19, size comparison unit 2
0, a separation line determining unit 21. The functions and the like of the respective units are as follows.

【0110】(1) :探索開始基準線決定部14は、続き
線が抽出されなかった場合に、続き文字、接触文字等の
変化点の探索を行うための探索開始の基準線の決定を行
うものである。
(1): The search start reference line determination unit 14 determines a search start reference line for searching for a change point of a continued character, a contact character, or the like when a continuous line is not extracted. Things.

【0111】(2) :探索開始点決定部15は、前記探索
開始基準線決定部14が決定した探索開始の基準線を基
に、探索開始点を決定するものである。 (3) :輪郭探索部16は、前記探索開始点決定部15が
決定した探索開始点から順番にパターンの輪郭を探索す
るものである。
(2): The search start point determining unit 15 determines a search start point based on the search start reference line determined by the search start reference line determining unit 14. (3): The contour search unit 16 searches for the contour of the pattern in order from the search start point determined by the search start point determination unit 15.

【0112】(4) :変化点抽出処理部17は、前記輪郭
探索により得られた情報から変化点の抽出を行うもので
ある。 (5) :分離点候補抽出部19は、前記変化点抽出処理部
17が抽出した変化点を基に、文字と文字を分離するた
めの分離点候補を抽出するものである。
(4): The change point extraction processing section 17 extracts a change point from the information obtained by the contour search. (5): The separation point candidate extraction unit 19 extracts separation point candidates for separating characters from each other based on the change points extracted by the change point extraction processing unit 17.

【0113】(6) :大きさ比較部20は、前記分離点候
補抽出部19が抽出した分離点候補を基に、文字の分離
を行った場合の分離文字の外接矩形を求めてその大きさ
を比較するものである。
(6): The size comparison unit 20 obtains a circumscribed rectangle of the separated character when the characters are separated based on the separation point candidates extracted by the separation point candidate extraction unit 19, and determines its size. Is to compare.

【0114】(7) :分離線決定部21は、大きさ比較部
20での大きさの比較結果により、文字と文字の分離線
を決定するものである。 §3:文字切り出し方法の説明・・・図2、図3参照 以下、図2、図3に基づいて文字切り出し方法を説明す
る。文字切り出し処理において、続き線が抽出される場
合は、連結パターン抽出部2、横長パターン抽出部3、
続き線抽出部4、文字分離線決定部5、ゼロ判定部6、
文字分離部7により前記従来例と同じようにして文字切
り出し処理を行う。
(7): Separation line determination unit 21 determines the separation line between characters based on the result of the size comparison by size comparison unit 20. §3: Description of character extraction method: see FIGS. 2 and 3 Hereinafter, the character extraction method will be described with reference to FIGS. When a continuous line is extracted in the character segmentation process, the connection pattern extraction unit 2, the horizontally long pattern extraction unit 3,
Continuation line extraction unit 4, character separation line determination unit 5, zero determination unit 6,
The character separation process is performed by the character separation unit 7 in the same manner as in the conventional example.

【0115】また、続き線が抽出されない場合は、前記
続き線抽出部4での続き線抽出処理終了後、変化点抽出
部10、分離点決定部11、文字分離部12により文字
切り出し処理を行う。
If the continuation line is not extracted, after the continuation line extraction processing by the continuation line extraction unit 4 is completed, the character extraction processing is performed by the change point extraction unit 10, the separation point determination unit 11, and the character separation unit 12. .

【0116】前記構成の文字切り出し装置では、自由に
書かれた文字列から、続き文字を抽出し、分離する処理
を行う。文字に関しては、字の大きさや、続けて書かれ
た文字数に規定はないものとする。入力パターンに関し
ては、極端な傾きは傾きの補正を行い、雑音を除去し、
かすれた部分の穴埋め等の前処理後の2値画像を用い
る。
The character extracting apparatus having the above-described structure performs a process of extracting and separating a continued character from a freely written character string. Regarding characters, there is no stipulation on the size of characters or the number of characters written continuously. For input patterns, extreme slopes are corrected for slope, noise is removed,
A binary image after pre-processing such as filling in a blurred portion is used.

【0117】先ず、文字が配列される位置の相対的な関
係に依存することなく、各パターンを安定にピックアッ
プするために、連結パターン抽出部2では、例えば、8
連結で繋がっているパターンをラベリングにより抽出す
る。以下、これらを判別して続け字、接触文字の分離を
行う。また、前記ラベリングで得られた部分パターンを
矩形近似して得られる矩形の角の座標をラベリング処理
中に算出しておく。
First, in order to stably pick up each pattern without depending on the relative relationship between the positions where characters are arranged, the connected pattern extracting unit 2 uses, for example, 8
Patterns connected by connection are extracted by labeling. Hereinafter, these are discriminated to separate the continuous characters and the contact characters. The coordinates of the corners of the rectangle obtained by approximating the partial pattern obtained by the labeling to a rectangle are calculated during the labeling process.

【0118】横長パターン抽出部3では、続き文字、接
触文字の候補として、前記ラベリングで得られた部分パ
ターン毎に、外接矩形の縦横比を算出し、或る一定の値
以上の横長パターンを抽出する。
The horizontal pattern extracting unit 3 calculates the aspect ratio of a circumscribed rectangle as a candidate for a subsequent character or a contact character for each partial pattern obtained by the labeling, and extracts a horizontal pattern having a certain value or more. I do.

【0119】続き線抽出部4では、横方向の隣接投影
(或る行の投影値に周囲の行の投影値を足し合わせたも
のをその行の投影値とする)によって直線を抽出し、そ
の中で一定以上の長さのものを続き線として抽出する。
The continuous line extracting unit 4 extracts a straight line by horizontal adjacent projection (a projection value of a certain row is added to a projection value of a surrounding row to obtain a projection value of the row). A line longer than a certain length is extracted as a continuous line.

【0120】前記処理により続き線が抽出された場合
(水平続き線、或いは斜め続き線有りの場合)は、文字
分離線決定部5、ゼロ判定部6、及び文字分離部7によ
る数字のゼロの続け字分離処理を行い、続き線が抽出さ
れない場合(水平続き線、及び斜め続き線無しの場合)
は、変化点抽出部10、分離点決定部11、及び文字分
離部12による接触文字の分離処理を行う。
When a continuous line is extracted by the above-described processing (when there is a horizontal continuous line or a diagonal continuous line), the character separation line determination unit 5, the zero determination unit 6, and the character separation unit 7 determine whether or not the number is zero. When continuation character separation processing is performed and no continuation line is extracted (when there is no horizontal continuation line or diagonal continuation line)
Performs a contact character separation process by the change point extraction unit 10, the separation point determination unit 11, and the character separation unit 12.

【0121】前記続き線抽出部4の処理で続き線が抽出
されなかった場合は、変化点抽出部10が処理対象とし
ているパターンに対して、変化点の抽出を行い、分離点
決定部11が前記変化点を基に文字の分離点を決定した
後、文字分離部12が文字の分離を行う。
If no continuation line is extracted in the processing of the continuation line extraction unit 4, a change point is extracted from the pattern to be processed by the change point extraction unit 10, and the separation point determination unit 11 After determining the character separation point based on the change point, the character separation unit 12 performs character separation.

【0122】この場合、先ず、探索開始基準線決定部1
4は、続き線が抽出されなかった場合に続き文字、接触
文字等の変化点の探索を行うための探索開始の基準線の
決定を行う。次に、探索開始点決定部15は、前記探索
開始基準線決定部14が決定した探索開始の基準線を基
に探索開始点を決定する。
In this case, first, the search start reference line determination unit 1
Reference numeral 4 determines a search start reference line for searching for a change point such as a continued character or a contact character when a continuous line is not extracted. Next, the search start point determination unit 15 determines a search start point based on the search start reference line determined by the search start reference line determination unit 14.

【0123】探索開始点が決定すると、輪郭探索部16
は、探索開始点から順番にパターンの輪郭を探索する。
そして、変化点抽出処理部17は、前記輪郭探索により
得られた情報から変化点の抽出を行う。
When the search start point is determined, the contour search unit 16
Searches for the contour of the pattern in order from the search start point.
Then, the change point extraction processing unit 17 extracts a change point from the information obtained by the contour search.

【0124】その後、分離点候補抽出部19は、前記変
化点抽出処理部17が抽出した変化点を基に、文字と文
字を分離するための分離点候補を抽出し、大きさ比較部
20は、前記分離点候補抽出部19が抽出した分離点候
補を基に、文字の分離を行った場合(仮の分離を行った
場合)の分離文字の外接矩形を求めてその大きさを比較
する。
Thereafter, the separation point candidate extraction unit 19 extracts separation point candidates for separating characters from each other based on the change points extracted by the change point extraction processing unit 17, and the size comparison unit 20 Based on the separation point candidates extracted by the separation point candidate extraction unit 19, a circumscribed rectangle of the separated characters when the characters are separated (when the temporary separation is performed) is determined and the sizes are compared.

【0125】前記処理が終了すると、分離線決定部21
は、大きさ比較部20での大きさの比較結果により、文
字と文字の分離線を決定する。このようにして文字の分
離線が決定すると、文字分離部12は、文字の分離を行
う。以下、前記各部の処理を具体例に基づいて説明す
る。
When the above processing is completed, the separation line determination unit 21
Determines the character-to-character separation line based on the size comparison result of the size comparison unit 20. When the character separation line is determined in this way, the character separation unit 12 separates the characters. Hereinafter, the processing of each unit will be described based on specific examples.

【0126】§4:続き線が抽出されなかった場合の処
理説明・・・図4〜図6参照 図4は実施例1の処理説明図1であり、A図は輪郭探索
開始点、B図は輪郭探索の説明図、C図は傾き変化点検
出処理を示した図である。図5は実施例1の処理説明図
2であり、A図は文字パターンの傾き変化点、B図は文
字分離後の文字外接矩形(その1)、C図は文字分離後
の文字外接矩形(その2)である。図6は実施例1の処
理説明図3であり、A図は分離点決定、B図は文字分
離、C図は文字分離説明図である。
§4: Description of processing when a continuous line is not extracted—see FIGS. 4 to 6 FIG. 4 is a processing explanatory diagram of the first embodiment, FIG. 4A is a contour search start point, and FIG. Is an explanatory diagram of the contour search, and FIG. C is a diagram showing the inclination change point detection processing. FIGS. 5A and 5B are diagrams for explaining the processing of the first embodiment. FIG. 5A shows a change point of the inclination of a character pattern, FIG. 5B shows a character circumscribed rectangle after character separation (part 1), and FIG. Part 2). FIG. 6 is an explanatory diagram of the processing in the first embodiment. FIG. 6A is a diagram illustrating separation point determination, FIG. 6B is a diagram illustrating character separation, and FIG.

【0127】以下、図4〜図6に基づいて、続き線が抽
出されなかった場合の処理を説明する。なお、この処理
は変化点抽出部10、分離点決定部11、文字分離部1
2の各処理である。また、処理対象のパターンは、例え
ば、数字の2、3の続け字であったとする。
The processing in the case where a continuous line is not extracted will be described below with reference to FIGS. This processing is performed by the change point extraction unit 10, the separation point determination unit 11, the character separation unit 1
2, respectively. It is also assumed that the pattern to be processed is, for example, a continuation character of the numerals 2, 3.

【0128】(1) :変化点抽出部の処理説明 先ず、続き線抽出部4の処理で続き線が抽出されなかっ
た場合、変化点抽出部10では変化点の抽出処理を行
う。この場合、先ず、探索開始基準線決定部14は、注
目パターンの縦の長さ、或いは他のパターンの平均サイ
ズより、仮の1文字の横幅を算出し、それに伴いだいた
いの探索開始基準線L1を決定する(図4のA図参
照)。
(1): Description of the process of the change point extraction unit First, if no continuation line is extracted in the process of the continuation line extraction unit 4, the change point extraction unit 10 performs a change point extraction process. In this case, first, the search start reference line determination unit 14 calculates the width of a temporary one character from the vertical length of the pattern of interest or the average size of another pattern, and the search start reference line L1 (See FIG. 4A).

【0129】そして、探索開始基準線決定部14は、前
記探索開始基準線L1を基にその周辺部分において縦方
向に線密度を算出し、線密度1の部分を正式な探索開始
基準線L2とする。
Then, the search start reference line determination unit 14 calculates the line density in the vertical direction in the peripheral portion based on the search start reference line L1, and determines the line density 1 portion as the official search start reference line L2. I do.

【0130】その後、探索開始点決定部15は、前記探
索開始基準線L2の上端、下端を探索開始点(点1、点
2)として決定する(図4のA図参照)。この場合、輪
郭の探索開始点は、パターンの上下両側を探索するた
め、探索開始点も上下2点(点1、点2)を設定する。
Thereafter, the search start point determination unit 15 determines the upper and lower ends of the search start reference line L2 as search start points (points 1 and 2) (see FIG. 4A). In this case, as the search start point of the contour, both upper and lower sides of the pattern are searched, so that the search start point is set at two upper and lower points (point 1 and point 2).

【0131】次に、輪郭探索部16は、前記処理で求め
た探索開始点(点1、点2)からそれぞれパターンの左
右方向に輪郭探索を行い(図4のB図に示した点線矢印
参照)、輪郭のXY座標を内部のメモリに記憶してお
く。
Next, the contour search unit 16 performs a contour search in the left and right directions of the pattern from the search start points (points 1 and 2) obtained in the above processing (see the dotted arrow shown in FIG. 4B). ), The XY coordinates of the contour are stored in an internal memory.

【0132】そして、前記変化点抽出処理部17は、前
記輪郭探索で得られた輪郭のXY座標を基に、輪郭の傾
きの変化する点を検出して変化点の抽出を行う(図4の
C図参照)。この処理は次のようにして行う。
Then, the change point extraction processing section 17 detects a point where the inclination of the outline changes based on the XY coordinates of the outline obtained by the outline search, and extracts a change point (FIG. 4). (See FIG. C). This processing is performed as follows.

【0133】すなわち、既に検出した輪郭の座標値を用
いて、探索開始点(例えば、点1)と、該探索開始点か
ら離れて行く輪郭上の各点P1、P2、P3、P4、P
5、P6、P7・・・とを順番に直線で結ぶ。
That is, using the coordinate values of the contour already detected, the search start point (for example, point 1) and each point P1, P2, P3, P4, P4 on the contour going away from the search start point.
5, P6, P7,... Are sequentially connected by a straight line.

【0134】例えば、点1とP1を結ぶ直線、点1とP
2を結ぶ直線、点1とP3を結ぶ直線、点1とP4を結
ぶ直線、点1とP5を結ぶ直線、点1とP6を結ぶ直
線、点1とP7を結ぶ直線・・・のように順番に2点間
を直線で結ぶ。
For example, a straight line connecting point 1 and P1, point 1 and P1
A straight line connecting points 2, a line connecting points 1 and P3, a line connecting points 1 and P4, a line connecting points 1 and P5, a line connecting points 1 and P6, a line connecting points 1 and P7, etc. A straight line connects two points in order.

【0135】この場合、点1から或る点P5までのパタ
ーンの輪郭が直線であったとすると、点1とP1を結ぶ
直線、点1とP2を結ぶ直線、点1とP3を結ぶ直線、
点1とP4を結ぶ直線、点1とP5を結ぶ直線は全てパ
ターンの輪郭と重なる。
In this case, assuming that the contour of the pattern from point 1 to a certain point P5 is a straight line, a straight line connecting points 1 and P1, a straight line connecting points 1 and P2, a straight line connecting points 1 and P3,
The straight line connecting point 1 and P4 and the straight line connecting point 1 and P5 all overlap the contour of the pattern.

【0136】しかし、点P6以降のように、途中に傾き
の変化する点があった場合には、探索開始点と点P6以
降の各点を結んだ直線はパターンの輪郭と重ならない。
すなわち、点P5以降にパターンの傾きがあると、点1
と点P5以降の各点を結ぶ直線は、輪郭上から外れる。
従って、点1とP6を結ぶ直線、点1とP7を結ぶ直線
・・・は、いずれもパターンの輪郭と重ならない。
However, when there is a point whose inclination changes in the middle, such as after the point P6, the straight line connecting the search start point and each point after the point P6 does not overlap the contour of the pattern.
That is, if there is a pattern inclination after the point P5, the point 1
The straight line connecting the point and the points after the point P5 deviates from the contour.
Therefore, the straight line connecting point 1 and P6, the straight line connecting point 1 and P7, do not overlap the contour of the pattern.

【0137】前記の処理を行うことにより、2点間の輪
郭と2点間を結ぶ直線との重なりの割合が少なくなった
時に、傾きの変化のある点を過ぎたとして、直前の点を
変化点として決定する。この例では点P5が変化点とな
る。
By performing the above-described processing, when the ratio of the overlap between the outline between two points and the straight line connecting the two points decreases, it is determined that the point immediately before the point where the inclination has changed is changed. Determined as a point. In this example, the point P5 is a change point.

【0138】(2) :分離点決定部の処理説明 分離点決定部11は、前記変化点抽出部10で抽出した
変化点を基に次のようにして分離点の決定処理を行う。
先ず、分離点候補抽出部19は、前記の処理で検出され
た変化点で仮想的に分離を行い分離点候補を抽出する。
(2) Description of Processing by Separation Point Determination Unit The separation point determination unit 11 performs a separation point determination process based on the change points extracted by the change point extraction unit 10 as follows.
First, the separation point candidate extraction unit 19 virtually separates the change points detected in the above-described processing to extract separation point candidates.

【0139】その後、大きさ比較部20は、ラベリング
処理によって分離後の文字の外接矩形の大きさを算出
し、それぞれの大きさがなるべく均等になるように前記
外接矩形の大きさを比較する。次に、分離線決定部21
は、外接矩形の大きさが均等になるようにして分離線を
決定する。具体的には次のようにして処理を行う。
Thereafter, the size comparing section 20 calculates the size of the circumscribed rectangle of the separated characters by the labeling process, and compares the sizes of the circumscribed rectangles so that the sizes become as equal as possible. Next, the separation line determination unit 21
Determines the separation line so that the sizes of the circumscribed rectangles are equal. Specifically, the processing is performed as follows.

【0140】例えば、図5のA図のように、変化点とし
て、、、、の各点が抽出されたとする。この場
合、変化点として、を採用し各分離後の外接矩形を
求めると図5のB図の外接矩形が得られる。また、変化
点として、を採用し各分離後の外接矩形を求めると
図5のC図の外接矩形が得られる。
For example, as shown in FIG. 5A, it is assumed that each of the following points is extracted as a change point. In this case, when the circumscribed rectangle after each separation is obtained by adopting as a change point, the circumscribed rectangle in FIG. 5B is obtained. When the circumscribed rectangle after each separation is obtained by adopting as a change point, the circumscribed rectangle in FIG. 5C is obtained.

【0141】そこで、前記各外接矩形の大きさを比較す
ると、、で分離した場合の方が、点、点で分離
した場合に比べて分離後の文字の外接矩形の大きさが均
等である。このため、分離点を点、点と決定する。
前記の変化点、のように、上下の変化点が近くにあ
る場合は、上下の変化点同士を結んだ直線で文字の分離
を行うように分離線を決定する。
Therefore, comparing the sizes of the circumscribed rectangles, the circumscribed rectangles of the separated characters are more uniform when separated by dots than when separated by dots. Therefore, the separation point is determined as a point.
When the upper and lower transition points are close to each other as in the above-described transition point, the separation line is determined so that the characters are separated by a straight line connecting the upper and lower transition points.

【0142】しかし、図6のA図において、変化点P
5、P6のように、探索開始点(点1、点2)と変化点
間の距離が一定のしきい値以上異なっていた場合(点1
−P6間の距離と点2−P5間の距離が異なる)には、
探索開始点(●印で示した点1、点2)に近い方の変化
点である点P5を選択し、前記点P5の位置で垂直にパ
ターンを分離するように仮想的な変化点Q5を作る。そ
して、前記点P5、Q5を結ぶ線を分離線として決定す
る。
However, in FIG.
5, when the distance between the search start point (point 1 and point 2) and the change point differs by a certain threshold or more (point 1
The distance between -P6 and the distance between points 2-P5 are different)
A point P5 which is a change point closer to the search start point (points 1 and 2 indicated by ●) is selected, and a virtual change point Q5 is set so as to vertically separate the pattern at the position of the point P5. create. Then, a line connecting the points P5 and Q5 is determined as a separation line.

【0143】具体的な変化点の距離のしきい値を決定す
るのは、処理の一番始めに行う隣接投影によって抽出さ
れた線分の太さである。抽出された線分の太さの平均値
を算出し、その値を文字ストロークの太さの平均値と見
なし、上下2点の変化点の距離が平均太さより長い場合
は、仮想的に変化点を作り、平均太さ以下であれば、上
下2点の変化点間で分離を行うように文字の分離線を決
定する。
The specific threshold value of the distance between the changing points is determined by the thickness of the line segment extracted by the adjacent projection performed at the beginning of the processing. The average value of the thicknesses of the extracted line segments is calculated, and the calculated value is regarded as the average value of the thicknesses of the character strokes. Is determined, and if the thickness is equal to or smaller than the average thickness, a character separation line is determined so as to perform separation between two upper and lower changing points.

【0144】 (3) :文字分離部の処理説明・・・図6参照 文字分離部12では、前記の処理で決定した文字の分離
線で分離を行う。この処理では、図6のB図のように、
2点、間で分離を行う場合、1ドットラインで消し
込みを行うと、8連結で繋がってしまう部分が出てく
る。
(3): Description of the processing of the character separation section—see FIG. 6 The character separation section 12 separates the characters at the separation line determined in the above processing. In this process, as shown in FIG.
In the case where separation is performed between two points, if erasing is performed with one dot line, a part that is connected by eight connections appears.

【0145】そのため、図6のC図に示したように、消
し込み画素の両側を同時に消し込み(黒印は画素消
去)、8連結で繋がることを防ぐ。 §5:フローチャートによる変化点抽出部の処理説明・
・・図7参照 図7は変化点抽出部の処理フローチャートである。以
下、図7に基づいて変化点抽出部の処理を説明する。な
お、S1〜S8は各処理ステップを示す。
Therefore, as shown in FIG. 6C, both sides of the erased pixel are erased at the same time (black marks are erased), thereby preventing eight connected pixels from being connected. §5: Flowchart explanation of change point extraction unit
.. See FIG. 7 FIG. 7 is a processing flowchart of the change point extracting unit. Hereinafter, the process of the change point extraction unit will be described with reference to FIG. In addition, S1 to S8 indicate each processing step.

【0146】先ず、探索開始基準線決定部14は、パタ
ーンの縦横比から文字数を概算し、だいたいの探索開始
基準線L1を決定する(S1)。その後、前記探索開始
基準線L1を基にその周辺部分において縦方向に線密度
を算出し、線密度1の部分を正式な探索開始基準線L2
として決定する(S2)。
First, the search start reference line determining unit 14 roughly estimates the number of characters from the aspect ratio of the pattern and determines a search start reference line L1 (S1). Thereafter, based on the search start reference line L1, a line density is calculated in the vertical direction in a peripheral portion thereof, and a portion having a line density of 1 is set to the formal search start reference line L2.
(S2).

【0147】次に、探索開始点決定部15は、前記探索
開始基準線L2の上端、下端を探索開始点(点1、点
2)として決定する(S3)。その後、輪郭探索部16
は、前記処理で求めた探索開始点(点1、点2)からそ
れぞれパターンの左右方向に輪郭探索を行い、輪郭のX
Y座標を内部のメモリに記憶しておく(S4)。
Next, the search start point determination unit 15 determines the upper and lower ends of the search start reference line L2 as search start points (points 1 and 2) (S3). Then, the contour search unit 16
Performs a contour search in the left-right direction of the pattern from the search start points (points 1 and 2) obtained in the above processing, and
The Y coordinate is stored in an internal memory (S4).

【0148】そして、前記変化点抽出処理部17は、前
記輪郭探索で得られた輪郭のXY座標を基に、輪郭の傾
きの変化する点を検出して変化点の抽出を行う。この処
理では、前記探索開始点と注目地点との間の輪郭線と2
点間の間に引いた直線との重なりを算出する(S5)。
The change point extraction processing section 17 detects a point where the inclination of the outline changes based on the XY coordinates of the outline obtained by the outline search, and extracts a change point. In this process, the outline between the search start point and the point of interest is
The overlap with the straight line drawn between the points is calculated (S5).

【0149】その結果、算出された重なりが一定しきい
値以下でなければ(2点間の直線と輪郭が略重なった場
合)前記S5の処理を行うが、算出された重なりが一定
しきい値以下となった場合(2点間の直線と輪郭が重な
らなくなった場合)には、変化点を検出する(S7)。
As a result, if the calculated overlap is not less than the fixed threshold value (when the straight line between two points and the outline substantially overlap), the processing of S5 is performed. If the following conditions are met (when the straight line between the two points and the contour no longer overlap), a change point is detected (S7).

【0150】前記変化点が抽出された場合、探索開始点
に一番近い変化点を文字の分離候補点とする(S8)。 §6:フローチャートによる分離点決定部、及び文字分
離部の処理説明・・・図8参照 図8は分離点決定部、及び文字分離部の処理フローチャ
ートである、以下、図8に基づいて分離点決定部、及び
文字分離部の処理を説明する。なお、S11〜S20は
各処理ステップを示す。
If the change point is extracted, the change point closest to the search start point is set as a character separation candidate point (S8). §6: Explanation of the processing of the separation point determining unit and the character separating unit according to the flowchart .. FIG. 8 FIG. 8 is a processing flowchart of the separating point determining unit and the character separating unit. The processing of the determination unit and the character separation unit will be described. In addition, S11 to S20 indicate each processing step.

【0151】分離点候補抽出部19は、変化点抽出部1
0で抽出した変化点で仮想的に分離を行い、分離点候補
を抽出する。この場合、先ず、分離点候補抽出部19
は、分離候補点と同じ側(左、または右)にあるもう1
つの変化点との距離を算出する(S11)。
The separation point candidate extraction unit 19
Virtual separation is performed at the change point extracted at 0, and separation point candidates are extracted. In this case, first, the separation point candidate extraction unit 19
Is another on the same side (left or right) as the separation candidate point.
The distance between the two change points is calculated (S11).

【0152】そして、文字線分の平均太さを基準に算出
したしきい値が前記算出距離より大きいか否かを判断す
る(S12)。その結果、文字線分の平均太さを基準に
算出したしきい値>算出距離であれば、分離候補点から
垂直に分離するように分離点候補を抽出する(S19)
が、それ以外の場合は2候補点を結んだ線で文字分離を
行うように分離点候補を抽出する(S13)。
Then, it is determined whether or not the threshold calculated based on the average thickness of the character line segment is larger than the calculated distance (S12). As a result, if the threshold calculated based on the average thickness of the character line segment> the calculated distance, a separation point candidate is extracted so as to be vertically separated from the separation candidate point (S19).
However, in other cases, separation point candidates are extracted so as to perform character separation using a line connecting the two candidate points (S13).

【0153】そして、前記S13、S19の処理終了
後、大きさ比較部20は、前記分離点候補で仮想的に分
離した場合の分離後の文字の外接矩形を算出し(S1
4)、左右の文字の大きさを比較する(S15)。
After the processing of S13 and S19 is completed, the size comparing section 20 calculates a circumscribed rectangle of the separated character when the character is virtually separated by the separation point candidate (S1).
4) The sizes of the left and right characters are compared (S15).

【0154】次に、分離線決定部21は、前記文字の大
きさ比較の結果により外接矩形の大きさが均等になるよ
うにして分離線を決定する。この場合、左右の文字の大
きさが異なっていたら、分離線として決定しない(S2
0)が、左右の文字の大きさが略等しい場合は、前記分
離候補点を分離点として決定する(S16)。そして、
前記分離点として決定した上下2点の変化点間で分離を
行うように文字の分離線を決定する。
Next, the separation line determination unit 21 determines a separation line such that the size of the circumscribed rectangle becomes uniform based on the result of the character size comparison. In this case, if the sizes of the left and right characters are different, it is not determined as a separation line (S2
0), when the sizes of the left and right characters are substantially equal, the separation candidate point is determined as a separation point (S16). And
The separation line of the character is determined so as to perform separation between the two upper and lower change points determined as the separation point.

【0155】文字分離部12は、前記処理で分離点2点
間を結ぶ文字の分離線(直線)が決定すると、前記分離
線で文字の分離を行う(S17)。その後、分離線(直
線)の両側の画素も消去する(S18)。
When the separation line (straight line) of the character connecting the two separation points is determined in the above processing, the character separation unit 12 separates the character by the separation line (S17). Thereafter, pixels on both sides of the separation line (straight line) are also erased (S18).

【0156】§7:処理結果の説明・・・図9参照 図9は実施例1の処理結果説明図である。前記文字切り
出し装置により処理した結果は図示のとおりである。
§7: Explanation of Processing Result—See FIG. 9 FIG. 9 is an explanatory diagram of the processing result of the first embodiment. The result of processing by the character segmentation device is as shown in the figure.

【0157】図9において、例1〜例13はそれぞれ前
記実施例1の文字切り出し装置により分離して切り出し
た文字パターンの例である。例えば、例1は数字の2と
数字の4の続け字を分離した例であり、2と4が良好に
分離されている。また、例2は英字のBと英字のEの続
け字を分離した例であり、良好に分離されている。
In FIG. 9, Examples 1 to 13 are examples of character patterns separated and cut out by the character cutout apparatus of the first embodiment. For example, Example 1 is an example in which the continuation character of the numeral 2 and the numeral 4 is separated, and 2 and 4 are well separated. Example 2 is an example in which the continuation characters of the alphabetic character B and the alphabetic character E are separated, and are separated well.

【0158】(実施例2の説明) §1:文字切り出し装置構成の説明・・・図10参照 図10は実施例2の文字切り出し装置構成図である。図
示のように、文字切り出し装置には、連結パターン抽出
部2、続け字抽出部23、続き線抽出部4、文字分離線
決定部5、ゼロ判定部6、文字分離部7、変化点抽出部
10、分離点決定部11、文字分離部12が設けてあ
る。
(Explanation of the Second Embodiment) §1: Description of the Character Extraction Device—See FIG. 10 FIG. 10 is a configuration diagram of the character extraction device of the second embodiment. As shown in the figure, the character cutout device includes a connected pattern extraction unit 2, a continuation character extraction unit 23, a continuation line extraction unit 4, a character separation line determination unit 5, a zero determination unit 6, a character separation unit 7, and a change point extraction unit. 10, a separation point determination unit 11 and a character separation unit 12 are provided.

【0159】なお、前記構成の内、連結パターン抽出部
2、ゼロ判定部6、文字分離部12は実施例1と同じで
ある。前記各部の機能は次の通りである。 (1) :連結パターン抽出部2は、入力パターンから連結
パターンを抽出するものである。すなわち、文字切り出
しを行う場合、先ず、文字が配置されている位置の相対
的な関係に依存することなく、各文字パターンを安定に
ピックアップするために、連結パターン抽出部2では、
例えば、8連結で繋がっているパターンをラベリング処
理で抽出する。
In the above configuration, the connection pattern extraction unit 2, the zero determination unit 6, and the character separation unit 12 are the same as in the first embodiment. The function of each section is as follows. (1): The connection pattern extraction unit 2 extracts a connection pattern from an input pattern. That is, when performing character segmentation, first, in order to stably pick up each character pattern without depending on the relative relationship of the positions where the characters are arranged, the connected pattern extraction unit 2
For example, patterns connected by eight connections are extracted by a labeling process.

【0160】(2) :続け字抽出部23は、横長パターン
抽出処理と訂正線抽出処理を行うものである。前記横長
パターン抽出処理では、実施例1と同様に、続き文字の
候補として、前記ラベリング処理で得られた連結パター
ン毎に、外接矩形の縦横の比率を算出し、或る一定以上
の横長の比率を持つパターンを抽出する。
(2): The continuation character extracting unit 23 performs a horizontal pattern extracting process and a correction line extracting process. In the horizontal pattern extraction processing, as in the first embodiment, the length and width ratio of the circumscribed rectangle is calculated for each of the connected patterns obtained in the labeling processing as candidates for a subsequent character, and Extract patterns with.

【0161】また、前記訂正線抽出処理では、続き線が
2本以上抽出された場合は文字上に書かれた訂正線であ
ると判定して訂正線の抽出処理を行う。すなわち、続け
字抽出部23では、続け字候補に対して水平方向の投影
処理を行う。投影値がパターンの横幅に対して定まる一
定のしきい値を超える部分があれば、それをパターン間
の続き線と見なして抽出する。この時、続き線が2本以
上抽出されたものについては、文字上に書かれた訂正線
を抽出したものとして以降の続け字分離処理から除外す
る。
In the correction line extraction process, when two or more continuous lines are extracted, it is determined that the line is a correction line written on a character, and the correction line is extracted. That is, the continuation character extracting unit 23 performs a horizontal projection process on the continuation character candidate. If there is a portion where the projection value exceeds a certain threshold value determined with respect to the width of the pattern, it is extracted as a continuous line between the patterns. At this time, those in which two or more continuous lines are extracted are excluded from the subsequent continuation character separation processing as those in which a correction line written on the character is extracted.

【0162】(3) :続き線抽出部4は、水平、或いは斜
めの文字と文字の繋がっている部分の続き線を見つける
ことによって、前記抽出された連結パターンが続き文字
であるか否かを判断し、水平、或いは斜め続き線を抽出
するものである。
(3): The continuation line extraction unit 4 finds a continuation line of a portion where the character is connected to a horizontal or oblique character, and determines whether or not the extracted connection pattern is a continuous character. Judgment is made, and a horizontal or diagonal continuous line is extracted.

【0163】この場合、複数の角度方向に対してパター
ンの投影処理を行う。そして、投影値の中に所定のしき
い値以上をとったものがあれば、それを続き線として改
めて抽出する。
In this case, pattern projection processing is performed in a plurality of angle directions. Then, if any of the projection values exceeds a predetermined threshold value, it is extracted again as a continuous line.

【0164】(4) :文字分離線決定部5は、前記抽出さ
れた続き線を基に、輪郭探索を用いて、文字数、及び一
文字毎の文字の存在する領域を求め、文字と文字の間に
垂直分離線、或いは斜め分離線等の文字分離線を引くも
のである。
(4) The character separation line determination unit 5 obtains the number of characters and the area where each character exists by using a contour search based on the extracted continuation line. , A character separation line such as a vertical separation line or a diagonal separation line is drawn.

【0165】この場合、続き線抽出部4で求めた続き線
の位置情報を基に、文字間の空白部を折れ線で探索す
る。そして、パターンの最下部まで折れ線が到達した
ら、そのパターンを分離可能と判定するものである。
In this case, based on the position information of the continuation line obtained by the continuation line extraction unit 4, a blank portion between characters is searched for using a broken line. When the broken line reaches the bottom of the pattern, the pattern is determined to be separable.

【0166】(5) :ゼロ判定部6は、前記文字分離線で
分離された1文字毎の文字領域について、1文字毎に、
数字のゼロ(0)であるか否かを判定するものである。 (6) :文字分離部7は、前記数字のゼロ(0)と判定さ
れた文字については、左右に出ている不必要な続き線を
消去し、数字のゼロ以外の文字は、前記文字分離線で分
離するものである。また、続け字より抽出された続き線
より上部の画像だけを用いて、続け字の分離に伴って生
じる文字中の不要な「ヒゲ」部分を除去するものであ
る。
(5): The zero judging unit 6 sets the character area for each character separated by the character separation line,
It is determined whether or not the number is zero (0). (6): The character separation unit 7 deletes unnecessary continuous lines extending to the left and right for the character determined to be zero (0) of the number, and replaces the character other than zero with the character They are separated by a separation line. Unnecessary "whisker" portions in a character caused by separation of continuous characters are removed by using only the image above the continuous line extracted from the continuous characters.

【0167】(7) :変化点抽出部10は、続き線抽出部
4の処理で続き線(水平続き線、或いは斜め続き線)が
抽出できなかった場合(続き線無しの場合)に処理対象
としているパターンに対して変化点の検出を行うもので
ある。
(7): The changing point extraction unit 10 is a processing target when a continuation line (horizontal continuation line or diagonal continuation line) cannot be extracted in the processing of the continuation line extraction unit 4 (when there is no continuation line). A change point is detected with respect to the pattern described as above.

【0168】(8) :分離点決定部11は、変化点抽出部
10で抽出した変化点を基に文字の分離点を決定するも
のである。 (9) :文字分離部12は、分離点決定部11で決定した
文字の分離点を基に、文字の分離を行うものである。
(8) The separation point determination unit 11 determines a character separation point based on the change points extracted by the change point extraction unit 10. (9): The character separation unit 12 separates characters based on the character separation points determined by the separation point determination unit 11.

【0169】 §2:訂正線判定処理の説明・・・図11参照 図11は訂正線判定処理説明図であり、A図は通常の続
け字の例、B図、C図は訂正文字の例である。以下、図
11に基づいて続け字抽出部23が行う訂正線抽出処理
を説明する。
§2: Description of Correction Line Judgment Processing—See FIG. 11 FIG. 11 is an explanatory diagram of correction line judgment processing. FIG. 11A is an example of a normal continuation character, and FIGS. It is. Hereinafter, the correction line extraction processing performed by the continuous character extraction unit 23 will be described with reference to FIG.

【0170】前記のように、続け字抽出部23では、続
け字候補に対して水平方向の投影処理を行い、その投影
値がパターンの横幅に対して定まる一定のしきい値を超
える部分があれば、それをパターン間の続き線と見なし
て抽出する。
As described above, the continuation character extracting unit 23 performs horizontal projection processing on continuation character candidates, and there is a portion where the projection value exceeds a certain threshold value determined with respect to the width of the pattern. If it is, it is extracted as a continuous line between the patterns.

【0171】前記のように、続き線を抽出する場合、続
け字内の続き線(A図参照)の外に、間違えて訂正線
(B図、C図参照)を抽出することがある。訂正線は殆
どの場合、2本以上書かれるので、続き線の抽出処理に
おいて2本以上の続き線が抽出されたら訂正線であると
判断する。そして、前記訂正線を抽出した文字は訂正文
字であるとして続け字処理から除外する。
As described above, when extracting a continuation line, a correction line (see FIGS. B and C) may be erroneously extracted in addition to the continuation line in the continuation character (see FIG. A). In most cases, two or more correction lines are written, so if two or more continuous lines are extracted in the continuous line extraction processing, it is determined that the correction line is a correction line. Then, the character from which the correction line is extracted is regarded as a corrected character and is excluded from the continuous character processing.

【0172】具体的には、A図のように1本の続き線が
抽出されたら続け字の続き線であると判断するが、B
図、C図のように2本の続き線が抽出されたら、続き線
ではなく訂正線であると判断する。そして、B図、C図
の文字は訂正文字であると判断し、以降の処理から除外
する。
More specifically, when one continuous line is extracted as shown in FIG. A, it is determined that the continuous character is a continuous line.
If two continuation lines are extracted as shown in the figures and C, it is determined that the continuation line is not a continuation line but a correction line. Then, the characters in FIGS. B and C are determined to be corrected characters, and are excluded from the subsequent processing.

【0173】 §3:続き線抽出処理の説明・・・図12、図13参照 図12は実施例2の続き線抽出処理説明図であり、A図
は続き線が抽出される場合の例、B図は続き線が抽出さ
れない場合の例、C図は投影方向の変化を示した図であ
る。また、図13は斜め投影値算出方法説明図である。
§3: Description of Continuation Line Extraction Processing—See FIGS. 12 and 13 FIG. 12 is an explanatory diagram of continuation line extraction processing according to the second embodiment. FIG. FIG. B is a diagram showing an example in which no continuous line is extracted, and FIG. C is a diagram showing a change in the projection direction. FIG. 13 is an explanatory diagram of an oblique projection value calculation method.

【0174】前記のように、続き線抽出部4は水平、或
いは斜めの文字と文字の繋がっている部分の続き線を見
つけることによって、前記抽出された連結パターンが続
き文字であるか否かを判断し、水平、或いは斜め続き線
を抽出する。
As described above, the continuation line extraction unit 4 finds a continuation line of a portion where a character is connected to a horizontal or oblique character, and determines whether or not the extracted connection pattern is a continuation character. Judge and extract a horizontal or diagonal continuous line.

【0175】この場合、図12のC図に示したように、
複数の角度方向に対してパターンの斜め投影処理を行
う。そして、投影値の中に所定のしきい値以上をとった
ものがあれば、それを続き線として改めて抽出する。
In this case, as shown in FIG.
The oblique projection processing of the pattern is performed in a plurality of angle directions. Then, if any of the projection values exceeds a predetermined threshold value, it is extracted again as a continuous line.

【0176】前記続き線抽出部4は、続け字の候補文字
に対して、それが続け字かどうかを判断するために、文
字と文字を繋ぐ続き線であるかどうか、すなわち、文字
内に長い直線状成分が有るかどうかを評価する。具体的
には、或る角度方向に文字を構成する黒画素の投影をと
っていく。
The continuation line extraction unit 4 determines whether a continuation character candidate character is a continuation line connecting characters, that is, whether a continuation character candidate character is a continuation character. Evaluate whether there is a linear component. Specifically, the projection of the black pixels constituting the character is performed in a certain angle direction.

【0177】続き線が存在すれば、投影値が大きくなる
ので、投影値が所定のしきい値を超えたかどうかによ
り、続き線の有無を評価する。その際、一方だけでな
く、複数の方向に対して投影処理を行うことにより、続
き線の傾きによらない処理が可能となる。
If a continuous line exists, the projection value increases. Therefore, the presence or absence of a continuous line is evaluated based on whether the projection value has exceeded a predetermined threshold value. At this time, by performing projection processing in a plurality of directions, not only in one direction, processing that does not depend on the inclination of the continuous line can be performed.

【0178】図12のA図は投影方向と続き線の傾きが
一致し、続き線が抽出される場合の例である。また、図
12のB図は、投影方向と続き線の傾きが異なるために
続き線が抽出されない例である。このように、複数の方
向の投影を評価することにより、正確な続き線の抽出が
可能になる。
FIG. 12A shows an example in which the projection direction and the inclination of the continuation line coincide with each other, and the continuation line is extracted. FIG. 12B is an example in which a continuous line is not extracted because the inclination of the continuous line is different from the projection direction. In this manner, by evaluating the projections in a plurality of directions, it is possible to accurately extract a continuous line.

【0179】前記のように続き線抽出部4では、複数の
角度に対してパターンの斜め投影を取り、投影値が或る
しきい値を超えたものがあれば、それを続き線として抽
出する。この場合に用いる斜め方向の隣接投影法を図1
3に示す。
As described above, the continuation line extracting unit 4 performs oblique projection of the pattern at a plurality of angles, and if any of the projection values exceeds a certain threshold value, extracts it as a continuation line. . FIG. 1 shows an oblique adjacent projection method used in this case.
3 is shown.

【0180】この斜め方向の隣接投影法は、或る一定の
斜め方向に投影を行い、注目している斜め線の投影値
に、その周囲の投影値を足し合わせた結果をその斜め線
の投影値とする。斜め線の角度は、(Y方向の変化量)
/(X方向の変化量)の値が整数分の1となるような値
とする。
In the oblique projection method, projection is performed in a certain oblique direction, and the projection value of the oblique line of interest is added to the projection value of the surrounding area to obtain the result of projecting the oblique line. Value. The angle of the oblique line is (the amount of change in the Y direction)
The value of / (the amount of change in the X direction) is set to a value that is a fraction of an integer.

【0181】図13では、n×nの領域を(Y方向の変
化量)/(X方向の変化量)の値が1/2となるような
角度で斜めに投影を行った場合の斜め投影値の算出方法
を示してある。
In FIG. 13, oblique projection is performed when an n × n area is obliquely projected at an angle such that the value of (the amount of change in the Y direction) / (the amount of change in the X direction) is 1 /. The method of calculating the value is shown.

【0182】この例では、縦方向の投影値をp1(i)
(i=1〜n)、横方向の投影値をp2(j)(j=1
〜n)とし、p1(n)=p2(1)とする。この場
合、前記投影値p1(i)、p2(j)の算出式は次の
通りである。
In this example, the projection value in the vertical direction is p1 (i)
(I = 1 to n), and the projection value in the horizontal direction is p2 (j) (j = 1
To n), and p1 (n) = p2 (1). In this case, the equations for calculating the projection values p1 (i) and p2 (j) are as follows.

【0183】[0183]

【数2】 (Equation 2)

【0184】なお、前記算出式において、I(x,y)
は画素値である。斜め隣接投影値の算出は、水平の場合
と同様に、注目している投影値の周囲の投影値を足し合
わせた結果の値を隣接投影値とする。
In the above calculation formula, I (x, y)
Is a pixel value. In the calculation of the diagonally adjacent projection value, the value obtained by adding the projection values around the projection value of interest is the adjacent projection value, as in the case of the horizontal projection value.

【0185】 §4:文字分離線決定部の処理説明・・・図14参照 図14は文字分離線決定部の処理説明図であり、A図は
折れ線による分離判定処理、B図は従来の手法による分
離判定結果、C図は実施例2の手法による分離判定結果
を示す。
§4: Description of Processing of Character Separation Line Determining Unit—See FIG. 14 FIG. 14 is an explanatory diagram of processing of the character separation line deciding unit. FIG. C shows the separation determination result by the method of the second embodiment.

【0186】文字分離線決定部5は、続き線抽出部4の
処理で抽出された続き線を基に、輪郭探索を用いて文字
数、及び一文字毎の文字の存在する領域を求め、文字と
文字の間に垂直分離線、或いは斜め分離線等の文字分離
線を引くものである。この場合、続き線抽出部4で求め
た続き線の位置情報を基に、文字間の空白部を折れ線で
探索する。
The character separation line determination unit 5 obtains the number of characters and the area where each character exists by using a contour search, based on the continuation lines extracted by the processing of the continuation line extraction unit 4. A character separation line such as a vertical separation line or a diagonal separation line is drawn between them. In this case, based on the position information of the continuous line obtained by the continuous line extraction unit 4, a blank portion between characters is searched for using a broken line.

【0187】この処理では、例えば、図14のA図に示
したように、続き線領域下部を開始点として、文字と文
字の空白領域を縦方向に黒画素が見つかるまで垂直に探
索する(線番号1)。次に、前記開始点と黒画素の中点
のY座標に対して、水平方向に左右の黒画素を見つける
(線番号2)。
In this processing, for example, as shown in FIG. 14A, starting from the lower part of the continuous line area, a character and a blank area of the character are searched vertically until a black pixel is found in the vertical direction (line Number 1). Next, black pixels on the left and right in the horizontal direction are found with respect to the Y coordinate of the start point and the middle point of the black pixel (line number 2).

【0188】更に、左右の黒画素の中点を開始点とし
て、縦方向に黒画素が見つかるまで垂直に探索する(線
番号3)。以下同様の手法により処理を繰り返すことに
より、探索位置がパターンの最下部まで到達すれば、そ
のパターンを分離可能と判定する。
Further, starting from the middle point of the left and right black pixels as a starting point, a vertical search is performed until a black pixel is found in the vertical direction (line number 3). When the search position reaches the bottom of the pattern by repeating the processing in the same manner, it is determined that the pattern can be separated.

【0189】なお、従来方法では直線による分離判定で
あるため、分離不可能となっていたもの(B図参照)が
実施例2の手法を用いることにより、折れ線により正し
く分離判定ができるようになった(C図参照)。
In the conventional method, since the separation is determined by a straight line, the separation cannot be performed (see FIG. B). However, by using the method of the second embodiment, the separation can be correctly determined by the broken line. (See FIG. C).

【0190】 §5:変化点抽出部の処理説明・・・図15参照 図15は変化点抽出部の処理説明図であり、A図は実施
例1の変化点処理、B図は実施例2の変化点処理を示
す。なお、比較のため実施例1と実施例2の処理を図示
してある。また、以下の説明では、「変化点」は輪郭線
上で曲率の変化する点であり、「接触点」は文字と文字
が接触した点のことをいう。
§5: Description of Processing of Change Point Extraction Unit—See FIG. 15 FIG. 15 is an explanatory diagram of processing of the change point extraction unit. FIG. 15A illustrates change point processing of the first embodiment, and FIG. Shows the change point processing. Note that the processes of the first embodiment and the second embodiment are illustrated for comparison. In the following description, a "change point" is a point at which the curvature changes on the contour line, and a "contact point" is a point at which a character touches a character.

【0191】続き線抽出部4の処理で続き線が抽出され
なかった場合、及びゼロ判定部6の処理で数字のゼロと
判定されなかった場合に、変化点抽出部10では変化点
の抽出処理を行う。
If no continuation line is extracted in the processing of the continuation line extraction section 4 and if the number is not determined to be zero in the processing of the zero determination section 6, the change point extraction section 10 performs change point extraction processing. I do.

【0192】この変化点抽出処理では、図15のB図に
示したように、処理対象のパターンに対し、縦方向の線
密度が1となる点を指定範囲内の輪郭線上から見つけ
る。次に前記指定範囲をn等分し、n等分された各点を
探索開始点として、それぞれ左右方向に変化点の探索を
行い、極率の大きく変化する点があれば、それを変化点
として抽出する。
In this change point extraction processing, as shown in FIG. 15B, a point where the line density in the vertical direction becomes 1 is found from the contour within the designated range with respect to the pattern to be processed. Next, the specified range is divided into n equal parts, and each of the n equally divided points is used as a search start point, and a search is made for a change point in the left and right directions. Extract as

【0193】図15のA図に示したように、実施例1で
は、変化点が最大でも左右1つずつ抽出されるだけであ
った(図5参照)。そのため、抽出された変化点の中に
文字と文字の接触した点(接触点)が含まれない場合が
あった。
As shown in FIG. 15A, in the first embodiment, only one change point is extracted at a time on the left and right sides at the maximum (see FIG. 5). For this reason, in some cases, a point where a character touches a character (a contact point) is not included in the extracted change points.

【0194】しかし、実施例2では、図15のB図に示
したように、複数の探索開始点を基に変化点を抽出する
ため、より多くの変化点が抽出され、接触点が抽出され
る確率が上がる。
However, in the second embodiment, as shown in FIG. 15B, since a change point is extracted based on a plurality of search start points, more change points are extracted and contact points are extracted. Probability increases.

【0195】認識する際には、各変化点で続け字を分離
したパターンに対して認識処理を行い、その評価値の高
かった変化点の地点で分離するので、接触点が変化点に
含まれている必要がある。なお、前記以外の処理は、実
施例1と同じである。
At the time of recognition, recognition processing is performed on a pattern in which a continuation character is separated at each change point, and separation is performed at the point of the change point whose evaluation value is high, so that the contact point is included in the change point. Need to be. The other processes are the same as those in the first embodiment.

【0196】§6:探索範囲(探索開始点、変化点)の
限定の説明・・・図16参照 図16は探索範囲の限定の説明図である。前記のよう
に、変化点抽出部10では処理対象のパターンに対し、
縦方向の線密度が1となる点を指定範囲内の輪郭線上か
ら見つける。この場合の指定範囲は、以下に説明する探
索範囲(探索開始点、変化点)の限定処理により行う。
§6: Description of limitation of search range (search start point, change point)... See FIG. 16 FIG. 16 is an explanatory diagram of limitation of the search range. As described above, the change point extraction unit 10 performs processing on a pattern to be processed.
A point where the line density in the vertical direction becomes 1 is found from the contour within the specified range. In this case, the designated range is determined by limiting the search range (search start point, change point) described below.

【0197】一般的に前記接触点は続け字の中心付近に
存在し易く、端に行くに従ってその存在確率が減少す
る。そこで、予め、探索開始点、及び変化点の探索範囲
を限定することにより、探索処理の高速化を図ると同時
に、端の方に位置する接触点らしさの低い変化点の抽出
を減らすことで、認識処理に掛かる時間の増加を防ぐこ
とが可能になる。
Generally, the contact point is likely to exist near the center of the continuation character, and the existence probability decreases toward the end. Therefore, by limiting the search start point and the search range of the change point in advance, the search process is speeded up, and at the same time, the extraction of the change point having low likelihood of the contact point located at the end is reduced, It is possible to prevent an increase in the time required for the recognition processing.

【0198】探索範囲の限定処理では、続け字の高さ、
若しくは続け字が属する文字列の平均文字サイズを基
に、探索開始点、及び変化点の探索範囲を限定する。例
えば、実施例1では、文字の全範囲を探索範囲としてい
たために、文字の端に位置する変化点までも抽出してし
まう。しかし、実施例2の処理では、前記のように探索
範囲を限定することで、不要な変化点の抽出を防ぐこと
ができる。
In the processing for limiting the search range, the height of the continuation character,
Alternatively, the search start point and the search range of the change point are limited based on the average character size of the character string to which the continuation character belongs. For example, in the first embodiment, since the entire range of the character is set as the search range, even the change point located at the end of the character is extracted. However, in the process of the second embodiment, extraction of unnecessary change points can be prevented by limiting the search range as described above.

【0199】具体的には次の通りである。 :第1の探索範囲限定処理は、図16のA図に示した
ように、続け字の高さを基に探索開始点、及び探索範囲
を限定する処理である。例えば、図示のように、続け字
の高さをht、探索範囲をW、しきい値をAとした場
合、W=ht×Aとして探索範囲を求める。
The details are as follows. The first search range limiting process is a process of limiting the search start point and the search range based on the height of the continuation character as shown in FIG. 16A. For example, as shown in the drawing, when the height of the continuation character is ht, the search range is W, and the threshold value is A, the search range is obtained as W = ht × A.

【0200】:第2の探索範囲限定処理は、図16の
B図、C図に示したように、続け字が属する文字列の平
均文字サイズを基に探索開始点、及び変化点の探索範囲
を限定する処理である。
As shown in FIGS. 16B and C in FIG. 16, the second search range limiting processing is performed based on the average character size of the character string to which the continuation character belongs, and the search range of the change point is determined. This is a process for limiting.

【0201】例えば、図16のB図に示したような文字
列があった場合、前記文字列の平均サイズを求める。そ
して、前記図16のC図に示したように、前記平均サイ
ズから文字の高さhtを求める。この時、該平均サイズ
の続け字の高さをht、探索範囲をW、しきい値をAと
した場合、W=ht×Aとして探索範囲を求める。
For example, when there is a character string as shown in FIG. 16B, the average size of the character string is obtained. Then, as shown in FIG. 16C, the character height ht is obtained from the average size. At this time, if the height of the continuation character of the average size is ht, the search range is W, and the threshold value is A, the search range is determined as W = ht × A.

【0202】ところで、実施例1では、図16のD図に
示したように、文字の全範囲を探索範囲Wとしていたた
めに、文字の端に位置する変化点(例えば、数字の2の
下端)までも抽出していた。
In the first embodiment, as shown in FIG. 16D, since the entire range of the character is set as the search range W, the change point (for example, the lower end of the numeral 2) located at the end of the character ) Was also extracted.

【0203】しかし、実施例2の処理では探索範囲Wを
限定しているので、図16のE図に示したように、不要
な変化点の抽出を防ぐことができる(例えば、数字の2
の下端を変化点として抽出しない)。
However, since the search range W is limited in the processing of the second embodiment, extraction of an unnecessary change point can be prevented as shown in FIG.
Is not extracted as a change point).

【0204】 §7:ひげ消し処理等の説明・・・図17参照 図17はひげ消し処理説明図である。文字分離部7、1
2では、続け字を分離する際に生じる文字のヒゲ等を除
去するが、この処理では続け字の上部の画像のみをメモ
リに格納して処理を行う。
§7: Explanation of Beard-Off Processing ... See FIG. 17 FIG. Character separation unit 7, 1
In step 2, the whiskers and the like of the characters generated when the continuous characters are separated are removed. In this processing, only the image above the continuous characters is stored in the memory and the processing is performed.

【0205】すなわち、続け字中に含まれる文字のヒゲ
部分、及び文字と文字を繋ぐ続き線を除去するために、
パターンの上端から続き線の下部までの画像を基に消し
込み処理を行う。具体的には、パターンの上側の輪郭線
と続き線下部に含まれる文字線分の内、下側に位置する
ものを除去する。
That is, in order to remove a mustache portion of a character included in the continuous character and a continuous line connecting the character and the character,
The erase processing is performed based on the image from the upper end of the pattern to the lower part of the continuous line. Specifically, of the character line segments included below the contour line and the continuation line of the pattern, those located below are removed.

【0206】例えば、図17のA図に示したような数字
のゼロの続け字があったとする。この場合、図17のB
図に示したように画像の上側部分のみをメモリに格納
し、ひげ消し等の処理を行う。このようにすれば、パタ
ーン全体をメモリに格納して処理するのに比べてメモリ
容量が少なくて済む。
For example, assume that there is a continuation character of zero as shown in FIG. 17A. In this case, B in FIG.
As shown in the figure, only the upper part of the image is stored in the memory, and processing such as whiskers is performed. In this way, the memory capacity can be reduced as compared with storing and processing the entire pattern in the memory.

【0207】(他の実施例)以上実施例について説明し
たが、本発明は次のようにしても実施可能である。 (1) :手書き文字認識装置に限らず、印刷文字認識装
置、図面認識装置等、各種の認識装置の文字切り出し処
理に適用可能である。
(Other Embodiments) The embodiments have been described above, but the present invention can be implemented as follows. (1) The present invention is not limited to a handwritten character recognition device, but can be applied to character cutout processing of various recognition devices such as a print character recognition device and a drawing recognition device.

【0208】(2) :切り出し対象文字は、数字のゼロに
限らず、ゼロ以外の全数字、英字、その他の各種文字に
ついて全て適用可能である。
(2): The character to be cut out is not limited to the numeral zero, but can be applied to all non-zero numbers, alphabets, and other various characters.

【0209】[0209]

【発明の効果】以上説明したように、本発明によれば次
のような効果がある。 (1) :水平続き線、或いは斜め続き線が抽出されない場
合、従来の文字切り出し装置では文字の切り出しが不可
能であったが、本発明では、変化点抽出部の処理で文字
線分の傾きの変化点を抽出して文字を分離するので、続
き線が抽出されない場合でも文字の切り出しが確実にで
きる。
As described above, the present invention has the following effects. (1): When a horizontal continuous line or a diagonal continuous line is not extracted, character extraction is impossible with the conventional character extraction device, but in the present invention, the inclination of the character line segment is processed by the change point extraction unit. The character is separated by extracting the change point of the character, so that the character can be reliably cut out even when the continuous line is not extracted.

【0210】従って、文字と文字の接触点を正確に見つ
けられるので、文字認識への悪影響を減らすことができ
る・・・(請求項1〜4対応の効果)。 (2) :文字と文字が連続して書かれた続け字から、文字
同士が接触した続け字まで同一アルコリズムで文字切り
出し処理が確実にできる。また、従来の処理では、二重
線で訂正された文字が誤って続け字処理される場合があ
った。しかし、本発明では、続き線と訂正線を区別する
ことができるので、より正確な続け字の分離処理ができ
る・・・(請求項2、4対応の効果)。
Therefore, since the contact point between the characters can be accurately found, the adverse effect on the character recognition can be reduced. (2): From the continuation character in which the characters are continuously written to the continuation character in which the characters are in contact with each other, the character extraction process can be reliably performed with the same algorithm. Further, in the conventional processing, characters corrected by double lines may be continually erroneously processed. However, according to the present invention, the continuation line and the correction line can be distinguished from each other, so that a more accurate continuation character separation process can be performed (effects corresponding to claims 2 and 4).

【0211】(3) :縦方向線密度が1の部分から輪郭探
索を行うことで、確実に文字と文字の繋がりを見つける
ことができる・・・(請求項5対応の効果)。 (4) :パターン輪郭の探索開始点をパターンの上側、下
側の2点とすることで、上側左右2点、下側左右2点の
合計4点の傾きの変化点を見つけることができるため、
接触点が左右どちらかにずれていた場合であっても、正
解の分離点を含む候補点を正確に抽出することができる
・・・(請求項6対応の効果)。
(3): By performing a contour search from a portion where the vertical line density is 1, the connection between characters can be reliably found ... (an effect corresponding to claim 5). (4): Since the search start point of the pattern contour is set to the upper and lower two points of the pattern, a total of four change points of inclination, ie, two upper right and left points and two lower left and right points, can be found. ,
Even if the contact point is shifted to the left or right, a candidate point including a correct separation point can be accurately extracted (effect corresponding to claim 6).

【0212】(5) :探索開始点からそれぞれ左右に輪郭
探索を行い、傾きの変化点を抽出することによって、垂
直に文字を分離するだけでなく、分離線が斜めであって
も、正確に分離することができる・・・(請求項7対応
の効果)。
(5): By performing a contour search to the left and right from the search start point and extracting a change point of the inclination, not only characters are separated vertically, but also accurate even if the separation line is oblique. Can be separated ... (effect corresponding to claim 7).

【0213】(6) :輪郭探索の開始点と輪郭上の或る点
とを結ぶ直線と、検出された輪郭、または輪郭とその近
隣の画素との重なりの度合いにより、探索開始点から或
る点までの輪郭が直線となっているか否かを判断する処
理により、パターンに多少の凹凸がある場合であって
も、輪郭の傾きの変化点を正確に抽出することが可能で
ある・・・(請求項8対応の効果)。
(6): A certain distance from the search start point depends on a straight line connecting the start point of the contour search and a certain point on the contour and the degree of overlap between the detected contour or the contour and the pixels adjacent thereto. By the process of determining whether or not the outline up to a point is a straight line, it is possible to accurately extract a change point in the inclination of the outline even when the pattern has some irregularities ... (Effect of Claim 8).

【0214】(7) :輪郭探索の開始点と輪郭上の或る点
とを結ぶ直線と、検出された輪郭、または輪郭とその近
隣の画素との重なりを算出し、或る点の位置を動かした
時に、その変化量の変化により、弧を描いている輪郭の
傾きの急激な変化点を正確に抽出することができる・・
・(請求項9対応の効果)。
(7): A straight line connecting the start point of the contour search and a certain point on the contour is calculated, and the detected contour or the overlap between the contour and neighboring pixels is calculated, and the position of the certain point is determined. When moved, the change in the amount of change can accurately extract the sharp change point of the slope of the contour drawing the arc.
-(Effect of claim 9).

【0215】(8) :上下2点の変化点間の距離が或る一
定のしきい値以下であれば、2点を変化点として選択
し、しきい値以上であれば、探索開始点に近い1点を選
択することにより、T字型の変化点部分であっても正確
に抽出することができる・・・(請求項10対応の効
果)。
(8): If the distance between the two upper and lower change points is less than a certain threshold, two points are selected as change points, and if the distance is more than the threshold, the search start point is set. By selecting one close point, it is possible to accurately extract even a T-shaped change point part (effect corresponding to claim 10).

【0216】(9) :上下2点の変化点間の距離の基準
を、周囲の足し合わせた結果を注目行、または列の投影
値とする隣接投影法によって抽出された線分の太さの平
均値を基準にして設定することにより、文字を構成する
線の太さが変化しても対応することが可能である・・
(請求項11対応の効果)。
(9): The thickness of the line segment extracted by the adjacent projection method using the result of adding the surroundings as the reference for the distance between the two upper and lower changing points and the projection value of the target row or column. By setting based on the average value, it is possible to cope with changes in the thickness of the lines that make up the characters.
(Effect of Claim 11).

【0217】(10):文字の高さは接続文字数に関係な
く、文字の大きさによって略一定であるため、上下2点
の変化点間距離の基準を、注目パターンの高さを基に算
出した値とすることで、接続文字数に影響されず、しき
い値を求めることが可能である・・・(請求項12対応
の効果)。
(10): Since the height of the character is substantially constant depending on the size of the character regardless of the number of connected characters, the standard of the distance between the two upper and lower changing points is calculated based on the height of the pattern of interest. The threshold value can be obtained without being affected by the number of connected characters by setting the calculated value (the effect corresponding to claim 12).

【0218】(11):分離点と分離点とを結ぶ直線と、そ
の両隣の画素を消去することにより、8連結で画素が繋
がり、文字と文字が分離されないことを防ぐことができ
る・・・(請求項13対応の効果)。
(11): By erasing the straight line connecting the separation point and the pixels on both sides thereof, it is possible to prevent the pixels from being connected by eight concatenation and not separating the characters from each other. (Effect of Claim 13).

【0219】(12):分離点候補で分離したと仮定し、ラ
ベリング、輪郭探索、または投影処理によって分離後の
文字の大きさを求めることにより、分離位置だけでは求
められない分離後の文字の大きさを算出することが可能
である・・・(請求項14対応の効果)。
(12): Assuming that a character is separated by a separation point candidate, the size of the character after separation is determined by labeling, contour search, or projection processing. It is possible to calculate the size ... (effect corresponding to claim 14).

【0220】(13):算出された分離後の大きさが均等に
なるように分離点を決定することで、複数の分離点候補
から分離点を決定することが可能である・・・(請求項
15対応の効果)。
(13): By determining a separation point so that the calculated size after separation becomes uniform, it is possible to determine a separation point from a plurality of candidate separation points. Effect of item 15).

【0221】(14):従来の処理では、二重線で訂正され
た文字が誤って続け字処理される場合があった。しか
し、本発明では、続き線と訂正線を区別することができ
るので、より正確な続け字抽出処理ができる・・・(請
求項16対応の効果)。
(14): In the conventional processing, a character corrected by a double line may be incorrectly subjected to continuous character processing. However, according to the present invention, the continuation line and the correction line can be distinguished from each other, so that a more accurate continuation character extraction process can be performed (effect corresponding to claim 16).

【0222】(15):続け字候補文字から続き線を抽出す
る際に、一方向の投影処理しか行わない場合、その方向
と続き線の傾きの方向がずれた場合は、正確に続き線を
抽出することができなかった。しかし、本発明によれ
ば、複数方向に対して投影処理を行うので、続き線の傾
きによらず、正確な続き線の抽出が可能となる・・・
(請求項17対応の効果)。
(15): When extracting a continuation line from a continuation character candidate character, if only one-direction projection processing is performed, and if the direction of the inclination of the continuation line deviates from that direction, the continuation line is accurately extracted. Could not be extracted. However, according to the present invention, since projection processing is performed in a plurality of directions, it is possible to accurately extract a continuous line regardless of the inclination of the continuous line.
(Effect of Claim 17).

【0223】(16):続け字の分離可否を判定する際に、
文字間に直線が引けるかどうかで判断すると、接触した
文字間の空白領域が複雑になった場合、分離不可能とす
るしかなかった。
(16): When judging whether or not continuation characters can be separated,
Judging whether or not a straight line can be drawn between the characters, if the blank area between the touching characters becomes complicated, it is inevitable that separation is impossible.

【0224】しかし、本発明によれば、接触した文字間
に折れ線がひけるか否かで判定を行うため、従来の処理
で不可能と間違って判定されていた続け字を正確に分離
判定することができる・・・(請求項18対応の効
果)。
However, according to the present invention, since the determination is made based on whether a broken line is drawn between the touched characters, it is possible to accurately separate and determine the continuation characters which were erroneously determined to be impossible in the conventional processing. Can be achieved (effect corresponding to claim 18).

【0225】(17):変化点抽出処理において、文字と文
字の接触した点が抽出されていないと、続け字を正確に
分離することができない、しかし、本発明によれば、変
化点の探索を複数の開始点から行うことで、より広範囲
に変化点の抽出を行うことができる・・・(請求項19
対応の効果)。
(17): In the change point extraction processing, if a point where a character touches a character is not extracted, it is not possible to accurately separate consecutive characters. However, according to the present invention, a search for a change point is performed. Is performed from a plurality of start points, a change point can be extracted in a wider range.
Response effect).

【0226】(18):文字と文字の接触した点は続け字の
中心近傍に位置し易く、端に行くに従って存在確率が減
少する。続け字全体を探索範囲として開始点を設定する
と、開始点の数が増えてしまう。本発明によれば、接触
点の存在確率の低い領域は変化点探索の際の開始点範囲
から除外されるので、設定される開始点の数を少なくす
ることができる。その結果処理の高速化が可能になる・
・・(請求項20対応の効果)。
(18): The point at which the character touches the character is likely to be located near the center of the continuous character, and the existence probability decreases toward the end. If the starting point is set with the entire continuation character as the search range, the number of starting points increases. According to the present invention, since the region having a low contact point existence probability is excluded from the start point range in the change point search, the number of set start points can be reduced. As a result, processing can be accelerated.
.. (Effect of Claim 20).

【0227】(19):変化点を抽出した場合、文字と文字
の接触点以外にも変化点が抽出される。各変化点に対す
る認識処理を行って切り出しを評価する場合、変化点が
多いほど認識処理に時間がかかる。
(19): When a change point is extracted, a change point is extracted in addition to a contact point between characters. When performing cutout evaluation by performing recognition processing for each change point, the recognition processing takes longer as the number of change points increases.

【0228】本発明によれば、接触点の存在確率の低い
領域は探索範囲から除外されるので、候補として抽出さ
れる変化点の数が減少し、処理の高速化が可能である。
また同時に探索時間も短縮することができる・・・(請
求項21対応の効果)。
According to the present invention, a region having a low contact point existence probability is excluded from the search range, so that the number of change points extracted as candidates is reduced, and the processing can be speeded up.
At the same time, the search time can be shortened (effect corresponding to claim 21).

【0229】(20):変化点の探索開始範囲を決定する際
に、文字枠の高さといった固定値を用いると文字サイズ
が変動した場合に処理結果が安定しない。本発明によれ
ば、注目パターンの文字サイズに応じた探索開始範囲を
設定することができる・・・(請求項22対応の効
果)。
(20): If a fixed value such as the height of a character frame is used when determining the search start range for a change point, the processing result will not be stable if the character size changes. According to the present invention, it is possible to set a search start range in accordance with the character size of a pattern of interest (effect corresponding to claim 22).

【0230】(21):変化点の探索開始範囲を決定する際
に、文字の高さといった固定値を用いると、文字サイズ
が変動した場合に処理結果が安定しない。本発明によれ
ば、文字列全体の文字サイズの傾向、例えば、横長の文
字が多い、などに応じて探索範囲を設定することが可能
である・・・(請求項23対応の効果)。
(21): If a fixed value such as the height of a character is used to determine the search start range for a change point, the processing result will not be stable if the character size changes. According to the present invention, it is possible to set the search range according to the tendency of the character size of the entire character string, for example, a large number of horizontally long characters, etc. (effect corresponding to claim 23).

【0231】(22):変化点の探索範囲を決定する際に、
文字の高さといった固定値を用いると文字サイズが変動
した場合に処理結果が安定しない。本発明によれば、文
字サイズに応じた探索範囲を設定することができる・・
・(請求項24対応の効果)。
(22): When determining the search range of the changing point,
If a fixed value such as the character height is used, the processing result is not stable when the character size changes. According to the present invention, a search range can be set according to a character size.
-(Effect corresponding to claim 24).

【0232】(23):変化点の探索範囲を文字の高さとい
った固定値を用いると文字サイズが変動した場合に処理
結果が安定しない。本発明によれば、文字列全体の文字
サイズの傾向、例えば、横長の文字が多い、などに応じ
て探索範囲を設定することが可能である・・・(請求項
25対応の効果)。
(23): If a fixed value such as the character height is used as the search range of the change point, the processing result is not stable when the character size changes. According to the present invention, it is possible to set the search range according to the tendency of the character size of the entire character string, for example, a large number of horizontally long characters, etc. (effect corresponding to claim 25).

【0233】(24):ハードウェアのメモリ容量が限定さ
れている場合、1文字を全てメモリに取り込むことがで
きない場合がある。このような場合、本発明によれば、
文字の部分画像だけで処理を行うことができ、小容量の
メモリで処理が可能である・・・(請求項26対応の効
果)。
(24): When the memory capacity of the hardware is limited, it may not be possible to take all characters into the memory. In such a case, according to the present invention,
Processing can be performed only with partial images of characters, and processing can be performed with a small-capacity memory (effect corresponding to claim 26).

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の原理説明図である。FIG. 1 is a diagram illustrating the principle of the present invention.

【図2】実施例1の文字切り出し装置基本構成図であ
る。
FIG. 2 is a basic configuration diagram of a character cutout device according to the first embodiment.

【図3】実施例1の文字切り出し装置構成図である。FIG. 3 is a configuration diagram of a character cutout device according to the first embodiment.

【図4】実施例1の処理説明図1である。FIG. 4 is a diagram illustrating a process according to the first embodiment.

【図5】実施例1の処理説明図2である。FIG. 5 is a diagram illustrating a process in the first embodiment;

【図6】実施例1の処理説明図3である。FIG. 6 is an explanatory diagram of a process in the first embodiment.

【図7】実施例1における変化点抽出部の処理フローチ
ャートである。
FIG. 7 is a processing flowchart of a change point extracting unit according to the first embodiment.

【図8】実施例1における分離点決定部、及び文字分離
部の処理フローチャートである。
FIG. 8 is a processing flowchart of a separation point determination unit and a character separation unit according to the first embodiment.

【図9】実施例1の処理結果説明図である。FIG. 9 is an explanatory diagram of a processing result of the first embodiment.

【図10】実施例2の文字切り出し装置構成図である。FIG. 10 is a configuration diagram of a character cutout device according to a second embodiment.

【図11】実施例2における訂正線判定処理説明図であ
る。
FIG. 11 is an explanatory diagram of a correction line determination process according to the second embodiment.

【図12】実施例2の続き線抽出処理説明図である。FIG. 12 is an explanatory diagram of a continuous line extraction process according to the second embodiment.

【図13】実施例2における斜め投影値算出方法説明図
である。
FIG. 13 is an explanatory diagram of an oblique projection value calculation method according to the second embodiment.

【図14】実施例2における文字分離線決定部の処理説
明図である。
FIG. 14 is an explanatory diagram of a process performed by a character separation line determination unit according to the second embodiment.

【図15】実施例2における変化点抽出部の処理説明図
である。
FIG. 15 is a diagram illustrating a process performed by a change point extracting unit according to the second embodiment.

【図16】実施例2における探索範囲の限定の説明図で
ある。
FIG. 16 is an explanatory diagram of limiting a search range in the second embodiment.

【図17】実施例2におけるヒゲ消し処理説明図であ
る。
FIG. 17 is an explanatory diagram of a mustache elimination process according to the second embodiment.

【図18】従来の文字切り出し装置構成図である。FIG. 18 is a configuration diagram of a conventional character cutout device.

【図19】従来の連結パターン抽出部、横長パターン抽
出部、続き線抽出部の処理説明図である。
FIG. 19 is an explanatory diagram of processing performed by a conventional connected pattern extracting unit, a horizontally long pattern extracting unit, and a continuous line extracting unit.

【図20】従来の続き線抽出部の処理説明図(その1)
である。
FIG. 20 is an explanatory diagram of a process performed by a conventional continuous line extracting unit (part 1);
It is.

【図21】従来の続き線抽出部の処理説明図(その2)
である。
FIG. 21 is an explanatory diagram of a process performed by a conventional continuation line extracting unit (part 2);
It is.

【図22】従来の続き線抽出部の処理説明図(その3)
である。
FIG. 22 is an explanatory diagram of a process performed by a conventional continuation line extracting unit (part 3);
It is.

【図23】従来の文字分離線決定部の処理説明図であ
る。
FIG. 23 is an explanatory diagram of processing of a conventional character separation line determination unit.

【図24】従来のゼロ判定部の処理説明図である。FIG. 24 is a diagram illustrating a process performed by a conventional zero determination unit.

【図25】従来の文字分離部の処理説明図である。FIG. 25 is an explanatory diagram of processing of a conventional character separation unit.

【符号の説明】[Explanation of symbols]

2 連結パターン抽出部 3 横長パターン抽出部 4 続き線抽出部 5 文字分離線決定部 6 ゼロ判定部 7 文字分離部 10 変化点抽出部 11 分離点決定部 12 文字分離部 23 続け字抽出部 2 Concatenated pattern extraction unit 3 Horizontal pattern extraction unit 4 Continuation line extraction unit 5 Character separation line determination unit 6 Zero judgment unit 7 Character separation unit 10 Change point extraction unit 11 Separation point determination unit 12 Character separation unit 23 Continuous character extraction unit

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平7−192094(JP,A) 特開 平7−28937(JP,A) 特開 平1−271891(JP,A) 特開 平2−217978(JP,A) 特開 平2−128293(JP,A) 特開 昭54−49034(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06K 9/00 - 9/82 ────────────────────────────────────────────────── ─── Continuation of the front page (56) References JP-A-7-192094 (JP, A) JP-A-7-28937 (JP, A) JP-A 1-2271891 (JP, A) JP-A-2- 217978 (JP, A) JP-A-2-128293 (JP, A) JP-A-54-49034 (JP, A) (58) Fields investigated (Int. Cl. 7 , DB name) G06K 9/00-9 / 82

Claims (26)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 文字の認識処理を行うための文字切り出
し装置において、 入力パターンの連結情報に基づいて、入力パターンから
連結パターンを抽出する連結パターン抽出部と、 前記連結パターン抽出部が抽出した連結パターンの内、
複数の文字が繋がっている続き文字の候補として、横に
長い横長パターンだけを抽出する横長パターン抽出部
と、 前記横長パターン抽出部が抽出した横長パターンから文
字と文字を繋いでいる続き線を見つけることによって、
前記抽出された連結パターンが続き文字であるか否かを
判断し、文字の続き線を抽出する続き線抽出部と、 前記続き線抽出部で続き線が抽出できなかった場合に、
パターンの輪郭探索を行ってパターン輪郭の傾きの変化
点を抽出し、前記変化点を文字と文字の分離点候補とす
る変化点抽出部と、 前記変化点抽出部が抽出した変化点を基に、それぞれの
分離点候補で分離した場合の分離後の文字の大きさを求
め、前記文字の大きさの比較により文字の分離点を決定
する分離点決定部と、 前記分離点決定部で決定した文字の分離点で文字を分離
する文字分離部を設けたことを特徴とする文字切り出し
装置。
1. A character segmentation device for performing character recognition processing, comprising: a connection pattern extraction unit that extracts a connection pattern from an input pattern based on connection information of an input pattern; and a connection pattern extracted by the connection pattern extraction unit. Of the patterns,
A horizontal pattern extraction unit that extracts only a horizontally long horizontal pattern as a candidate for a continuous character to which a plurality of characters are connected; and a continuous line that connects characters and characters from the horizontal pattern extracted by the horizontal pattern extraction unit. By
A continuation line extraction unit that determines whether the extracted connection pattern is a continuation character and extracts a continuation line of the character, and when the continuation line cannot be extracted by the continuation line extraction unit,
A change point extraction unit that performs a pattern outline search to extract a change point of the inclination of the pattern outline, and uses the change point as a candidate for a separation point between characters and a character, based on the change points extracted by the change point extraction unit A separation point determining unit that determines a character size after separation when separated by each separation point candidate, and determines a character separation point by comparing the character sizes, and is determined by the separation point determination unit. A character segmentation device comprising a character separation unit for separating a character at a character separation point.
【請求項2】 文字の認識処理を行うための文字切り出
し装置において、 入力パターンの連結情報に基づいて、入力パターンから
連結パターンを抽出する連結パターン抽出部と、 前記連結パターン抽出部が抽出した連結パターンの内、
複数の文字が繋がっている続き文字の候補として横に長
い横長パターンだけを抽出する横長パターン抽出処理、
及び前記横長パターンから文字と文字を繋いでいる続き
線を抽出して、文字上に書かれた訂正線を抽出する訂正
線抽出処理を行う続け字抽出部と、 前記続け字抽出部が抽出した横長パターンから文字と文
字を繋いでいる続き線を見つけることによって、前記抽
出された連結パターンが続き文字であるか否かを判断
し、文字の続き線を抽出する続き線抽出部と、 前記続き線抽出部で続き線が抽出された場合、その続き
線の位置情報を基に、文字分離線を決定する文字分離線
決定部と、 前記文字分離線決定部が決定した文字分離線で分けられ
た一文字毎の文字領域について、一文字毎に、数字のゼ
ロであるか否かを判定するゼロ判定部と、 前記数字のゼロと判定された文字について、文字領域を
残し不必要な続き部分を消去する文字分離部と、 前記続き線抽出部で続き線が抽出できなかった場合、及
び前記ゼロ判定部で数字のゼロと判定されなかった場合
に、パターンの輪郭探索を行ってパターン輪郭の傾きの
変化点を抽出し、前記変化点を文字と文字の分離点候補
とする変化点抽出部と、 前記変化点抽出部が抽出した変化点を基に、それぞれの
分離点候補で分離した場合の分離後の文字の大きさを求
め、前記文字の大きさの比較により文字の分離点を決定
する分離点決定部と、 前記分離点決定部で決定した文字の分離点で文字を分離
し、文字領域を残し不必要な続き部分を消去する文字分
離部を設けたことを特徴とする文字切り出し装置。
2. A character cutout device for performing character recognition processing, comprising: a connection pattern extraction unit that extracts a connection pattern from an input pattern based on connection information of an input pattern; and a connection pattern extracted by the connection pattern extraction unit. Of the patterns,
A horizontal pattern extraction process that extracts only a horizontally long horizontal pattern as a candidate for a continued character in which a plurality of characters are connected,
And a continuation character extraction unit that performs a correction line extraction process of extracting a correction line written on the character by extracting a continuation line connecting characters from the horizontal pattern, and the continuation character extraction unit extracts A continuation line extracting unit that determines whether or not the extracted connected pattern is a continuation character by finding a continuation line connecting the characters from the horizontally long pattern, and extracts a continuation line of the character; When a continuous line is extracted by the line extracting unit, the character separating line determining unit that determines a character separating line based on the positional information of the continuous line is divided into a character separating line determined by the character separating line determining unit. A zero determination unit that determines whether or not each character is a numeral zero for each character, and for a character determined to be zero in the character, deletes an unnecessary continued portion while leaving a character region. Character separator, When the continuation line cannot be extracted by the continuation line extraction unit, and when the zero determination unit does not determine that the number is zero, a pattern contour search is performed to extract a change point of the inclination of the pattern contour, A change point extraction unit that uses the change point as a candidate for a character-to-character separation point; and, based on the change point extracted by the change point extraction unit, the size of the character after separation when separated at each separation point candidate. And a separation point determining unit that determines a character separation point by comparing the character size, and separates a character at the character separation point determined by the separation point determination unit, leaving a character area and unnecessary continuation. A character cutout device provided with a character separation unit for erasing a part.
【請求項3】 文字の認識処理を行うための文字切り出
し方法において、 入力パターンの連結情報に基づいて、入力パターンから
連結パターンを抽出する連結パターン抽出処理と、 前記連結パターン抽出部が抽出した連結パターンの内、
複数の文字が繋がっている続き文字の候補として、横に
長い横長パターンだけを抽出する横長パターン抽出処理
と、 前記横長パターン抽出部が抽出した横長パターンから文
字と文字を繋いでいる続き線を見つけることによって、
前記抽出された連結パターンが続き文字であるか否かを
判断し、文字の続き線を抽出する続き線抽出処理と、 前記続き線抽出処理で続き線が抽出できなかった場合
に、パターンの輪郭探索を行ってパターン輪郭の傾きの
変化点を抽出し、前記変化点を文字と文字の分離点候補
とする変化点抽出処理と、 前記変化点抽出処理で抽出した変化点を基に、それぞれ
の分離点候補で分離した場合の分離後の文字の大きさを
求め、前記文字の大きさの比較により文字の分離点を決
定する分離点決定処理と、 前記分離点決定処理で決定した文字の分離点で文字を分
離する文字分離処理とを有することを特徴とした文字切
り出し方法。
3. A character extraction method for performing character recognition processing, comprising: a connection pattern extraction process of extracting a connection pattern from an input pattern based on connection information of an input pattern; and a connection pattern extracted by the connection pattern extraction unit. Of the patterns,
A horizontal pattern extraction process of extracting only a horizontally long horizontal pattern as a candidate for a continuous character to which a plurality of characters are connected; and finding a continuous line connecting the characters from the horizontal pattern extracted by the horizontal pattern extraction unit. By
Determining whether the extracted connected pattern is a continuation character, and extracting a continuation line of the character; and extracting a continuation line by the continuation line extraction process. A search is performed to extract a change point of the inclination of the pattern contour, a change point extraction process in which the change point is a candidate for a separation point between a character and a character, and a change point extracted in the change point extraction process. Separation point determination processing for determining the size of a character after separation when separation is performed at a separation point candidate, and determining the character separation point by comparing the character size, and separation of the character determined in the separation point determination processing And a character separation process for separating characters by points.
【請求項4】 文字の認識処理を行うための文字切り出
し方法において、 入力パターンの連結情報に基づいて、入力パターンから
連結パターンを抽出する連結パターン抽出処理と、 前記連結パターン抽出部が抽出した連結パターンの内、
複数の文字が繋がっている続け字候補として横に長い横
長パターンだけを抽出する横長パターン抽出処理、及び
前記横長パターンから文字と文字を繋いでいる続き線を
抽出することで、文字上に書かれた訂正線を抽出する訂
正線抽出処理からなる続け字抽出処理と、 前記続け字抽出処理で抽出した横長パターンから文字と
文字を繋いでいる続き線を見つけることによって、前記
抽出された連結パターンが続き文字であるか否かを判断
し、文字の続き線を抽出する続き線抽出処理と、 前記続き線抽出処理で続き線が抽出された場合、その続
き線の位置情報を基に、文字分離線を決定する文字分離
線決定処理と、 前記文字分離線決定処理で決定した文字分離線で分けら
れた一文字毎の文字領域について、一文字毎に、数字の
ゼロであるか否かを判定するゼロ判定処理と、 前記数字のゼロと判定された文字について、文字領域を
残し不必要な続き部分を消去する第1の文字分離処理
と、 前記続き線抽出処理で続き線が抽出できなかった場合、
及び前記ゼロ判定処理で数字のゼロと判定されなかった
場合に、パターンの輪郭探索を行ってパターン輪郭の傾
きの変化点を抽出し、前記変化点を文字と文字の分離点
候補とする変化点抽出処理と、 前記変化点抽出処理で抽出した変化点を基に、それぞれ
の分離点候補で分離した場合の分離後の文字の大きさを
求め、前記文字の大きさの比較により文字の分離点を決
定する分離点決定処理と、 前記分離点決定処理で決定した文字の分離点で文字を分
離し、文字領域を残し不必要な続き部分を消去する第2
の文字分離処理を有することを特徴とした文字切り出し
方法。
4. A character extraction method for performing character recognition processing, comprising: a connection pattern extraction process for extracting a connection pattern from an input pattern based on connection information of an input pattern; and a connection pattern extracted by the connection pattern extraction unit. Of the patterns,
A horizontal pattern extraction process that extracts only a horizontally long horizontal pattern as a continuation character candidate in which a plurality of characters are connected, and a continuous line that connects a character and a character is extracted from the horizontal pattern to write on a character. A continuation character extraction process consisting of a correction line extraction process of extracting a corrected line, and by finding a continuation line connecting characters from the horizontal pattern extracted in the continuation character extraction process, the extracted connected pattern is A continuation line extraction process for determining whether or not the character is a continuation character, and extracting a continuation line of the character; if a continuation line is extracted in the continuation line extraction process, the character Character separation line determination processing for determining a line separation, For each character in the character area divided by the character separation line determined in the character separation line determination processing, for each character, whether the number is zero or not A first character separation process of leaving a character area and deleting an unnecessary continuation part of the character determined to be zero in the number; and a continuation line cannot be extracted in the continuation line extraction process. If
And when the number is not determined to be zero in the zero determination processing, a pattern contour search is performed to extract a change point in the inclination of the pattern contour, and the change point is set as a candidate for a character-to-character separation point. Extraction processing, Based on the change points extracted in the change point extraction processing, determine the size of the character after separation when separated by each separation point candidate, and compare the character size by comparing the character size And a second step of separating characters at the character separation points determined in the above-described separation point determination processing and removing unnecessary continuation parts while leaving a character area.
A character extracting method characterized by having a character separating process.
【請求項5】 前記変化点抽出処理において、 注目パターンの縦の長さ、他のパターンの平均サイズ等
より仮の探索開始基準線を決定した後、前記仮の探索開
始基準線の周辺部分において線密度1の部分を探索して
正式の探索開始基準線を求め、前記探索開始基準線から
探索開始点を決定してパターンの輪郭探索を行うことを
特徴とした請求項3記載の文字切り出し方法。
5. In the change point extraction processing, after determining a temporary search start reference line based on the vertical length of a pattern of interest, the average size of other patterns, and the like, a temporary search start reference line is determined in a peripheral portion of the temporary search start reference line. 4. A character segmentation method according to claim 3, further comprising: searching for a formal search start reference line by searching for a line density 1 portion; determining a search start point from said search start reference line; and performing a pattern contour search. .
【請求項6】 前記変化点抽出処理において、 パターンの輪郭探索を行う場合の探索開始点を、線密度
1の部分のパターンの上端、下端の2点とすることを特
徴とした請求項3記載の文字切り出し方法。
6. The method according to claim 3, wherein in the change point extraction processing, a search start point in a case where a pattern contour search is performed is set to two points of an upper end and a lower end of the pattern having a linear density of 1. Character extraction method.
【請求項7】 前記変化点抽出処理において、 パターンの輪郭探索を開始する探索開始点を決定した
後、前記探索開始点からそれぞれパターンの左右方向に
輪郭探索を行うことにより、パターンの傾きの変化点を
抽出することを特徴とした請求項3記載の文字切り出し
方法。
7. In the change point extraction process, after determining a search start point for starting a contour search of a pattern, contour search is performed in the left and right directions of the pattern from the search start point, thereby changing the inclination of the pattern. 4. The character extracting method according to claim 3, wherein points are extracted.
【請求項8】 前記変化点抽出処理において、 パターンの輪郭探索を行ってパターンの輪郭の傾きの変
化点を抽出する際、パターン上の探索開始点と輪郭上の
或る点とを結ぶ直線と、検出された輪郭との重なりを算
出し、前記算出した重なりの度合いにより、探索開始点
から輪郭上の或る点までが直線であるか否かを判断する
ことで変化点の抽出を行うことを特徴とした請求項3記
載の文字切り出し方法。
8. In the change point extraction process, when a contour search of a pattern is performed to extract a change point of the inclination of the contour of the pattern, a straight line connecting a search start point on the pattern and a certain point on the contour is used. Calculating an overlap with the detected contour, and extracting a change point by determining whether or not a straight line extends from the search start point to a certain point on the contour based on the calculated degree of overlap. 4. The character segmentation method according to claim 3, wherein:
【請求項9】 前記変化点抽出処理において、 パターンの輪郭探索を行ってパターンの輪郭の傾きの変
化点を抽出する際、パターン上の探索開始点と輪郭上の
或る点とを結ぶ直線と、輪郭との重なりを算出し、前記
重なりの変化量から輪郭の傾きの変化点を抽出すること
を特徴とした請求項3記載の文字切り出し方法。
9. In the change point extraction processing, when a pattern contour search is performed to extract a change point of the inclination of the pattern contour, a straight line connecting a search start point on the pattern with a certain point on the contour is extracted. 4. The character segmentation method according to claim 3, wherein an overlap with the outline is calculated, and a change point of the inclination of the outline is extracted from the change amount of the overlap.
【請求項10】 前記分離点決定処理において、 パターンの上下2点の変化点間の距離が、或る一定のし
きい値以下であれば、前記2点を変化点として選択し、
前記距離が或る一定のしきい値を超えていた場合は、探
索開始点に近い方の1点を変化点として選択することを
特徴とした請求項3記載の文字切り出し方法。
10. In the separation point determination processing, if a distance between two upper and lower changing points of the pattern is equal to or less than a certain threshold value, the two points are selected as changing points;
4. The character segmentation method according to claim 3, wherein when the distance exceeds a certain threshold, one point closer to the search start point is selected as a change point.
【請求項11】 前記上下2点間の距離のしきい値を、
周囲の投影値を足し合わせた結果を注目行、または列の
投影値とする隣接投影法によって抽出された線分の太さ
の平均値を基準にして設定することを特徴とした請求項
10記載の文字切り出し方法。
11. A threshold value of a distance between the upper and lower points,
11. The method according to claim 10, wherein a result of adding surrounding projection values is set as a projection value of an attention row or a column based on an average value of thicknesses of line segments extracted by an adjacent projection method. Character extraction method.
【請求項12】 前記上下2点間の距離のしきい値を、
注目パターンの高さを基準にして設定することを特徴と
した請求項10記載の文字切り出し方法。
12. A threshold value of the distance between the upper and lower points,
11. The character extracting method according to claim 10, wherein the setting is performed based on the height of the pattern of interest.
【請求項13】 前記文字分離処理において、 前記分離点決定部で決定した文字の分離点で文字を分離
する際、分離点と分離点とを結ぶ直線とその両隣の画素
を消去することを特徴とした請求項3記載の文字切り出
し方法。
13. In the character separation processing, when a character is separated at a character separation point determined by the separation point determination unit, a straight line connecting the separation point and pixels on both sides thereof are deleted. 4. The character segmentation method according to claim 3, wherein:
【請求項14】 前記分離点決定処理において、 前記変化点抽出部が抽出した変化点を基に、それぞれの
分離点候補で分離したと仮定し、ラベリング、輪郭探
索、投影法等により、分離後の文字の大きさを求めるこ
とにより、分離点を決定することを特徴とした請求項3
記載の文字切り出し方法。
14. In the separation point determination processing, it is assumed that separation is performed at each separation point candidate based on the change points extracted by the change point extraction unit, and the separation points are determined by labeling, contour search, projection, or the like. 4. The method according to claim 3, wherein the separation point is determined by calculating the size of the character.
The character extraction method described.
【請求項15】 前記分離点決定処理において、 前記変化点抽出部が抽出した変化点を基に、それぞれの
分離点候補で分離したと仮定し、分離後の文字の大きさ
を求め、前記分離後の大きさが均等になるように分離点
を決定することを特徴とした請求項3記載の文字切り出
し方法。
15. In the separation point determination processing, it is assumed that separation is performed at each separation point candidate based on the change point extracted by the change point extraction unit, and the size of the character after separation is obtained. 4. The character segmentation method according to claim 3, wherein the separation point is determined so that the subsequent size becomes uniform.
【請求項16】 前記続け字抽出処理において、 続け字候補から続け字を抽出する際に、水平方向の投影
処理を行って続き線が2本抽出されたら前記2本の続き
線を訂正線と判断し、その文字を訂正文字として扱うこ
とを特徴とした請求項4記載の文字切り出し方法。
16. In the continuation character extraction processing, when extracting a continuation character from a continuation character candidate, if two continuous lines are extracted by performing a horizontal projection process, the two continuous lines are regarded as a correction line. 5. The character extracting method according to claim 4, wherein the character is determined and treated as a corrected character.
【請求項17】 前記続き線抽出処理において、 前記続け字抽出処理で抽出した横長パターンから文字と
文字を繋いでいる続き線を抽出する際、複数の傾きに対
して続き線の抽出処理を行うことを特徴とした請求項4
記載の文字切り出し方法。
17. In the continuous line extracting process, when extracting a continuous line connecting characters from the horizontal pattern extracted in the continuous character extracting process, a continuous line extracting process is performed for a plurality of inclinations. 5. The method according to claim 4, wherein
The character extraction method described.
【請求項18】 前記文字分離線決定処理において、 前記続き線抽出部で続き線が抽出され、その続き線の位
置情報を基に文字分離線を決定する際、2文字を折れ線
で分離できるか否かにより分離可否を決定することを特
徴とした請求項4記載の文字切り出し方法。
18. In the character separation line determination processing, a continuation line is extracted by the continuation line extraction unit. When a character separation line is determined based on positional information of the continuation line, whether two characters can be separated by a broken line? 5. The character segmentation method according to claim 4, wherein whether or not separation is possible is determined depending on whether the character is separated.
【請求項19】 前記変化点抽出処理において、 文字と文字の接触した点として変化点を抽出する際、始
めに縦方向に線密度1となる輪郭線上の点を見つけ、次
に変化点の探索開始点を輪郭線上に複数設定し、各点か
ら前記複数の変化点候補を算出することを特徴とした請
求項4記載の文字切り出し方法。
19. In the change point extraction processing, when a change point is extracted as a point where a character touches a character, a point on a contour line having a line density of 1 in the vertical direction is first found, and then a search for a change point is performed. 5. The character segmentation method according to claim 4, wherein a plurality of start points are set on the contour line, and the plurality of change point candidates are calculated from each point.
【請求項20】 前記変化点の探索開始点を輪郭線上に
複数設定する際、 パターンに対する探索範囲を限定して探索開始点を見つ
けることを特徴とした請求項19記載の文字切り出し方
法。
20. The character segmentation method according to claim 19, wherein when setting a plurality of search start points of the change point on the contour line, a search start point is found by limiting a search range for the pattern.
【請求項21】 前記複数の変化点候補を算出する際、
パターンに対する探索範囲を限定して変化点候補を算出
することを特徴とした請求項19記載の文字切り出し方
法。
21. When calculating the plurality of change point candidates,
20. The character segmentation method according to claim 19, wherein a change point candidate is calculated by limiting a search range for the pattern.
【請求項22】 前記探索開始点の探索範囲を限定する
際、パターンの高さの定数倍を探索範囲とすることを特
徴とした請求項20記載の文字切り出し方法。
22. The method according to claim 20, wherein when limiting the search range of the search start point, a constant multiple of the height of the pattern is used as the search range.
【請求項23】 前記探索開始点の探索範囲を限定する
際、その文字が属する文字列の平均文字サイズの定数倍
を探索範囲とすることを特徴とした請求項20記載の文
字切り出し方法。
23. The character extracting method according to claim 20, wherein, when limiting the search range of the search start point, a constant multiple of the average character size of a character string to which the character belongs is set as the search range.
【請求項24】 前記変化点の探索範囲を限定する際、
パターンの高さの定数倍を探索範囲とすることを特徴と
した請求項21記載の文字切り出し方法。
24. When limiting the search range of the change point,
22. The character segmenting method according to claim 21, wherein a search range is a constant multiple of the height of the pattern.
【請求項25】 前記変化点の探索範囲を限定する際、
その文字が属する文字列の平均文字サイズの定数倍を探
索範囲とすることを特徴とした請求項21記載の文字切
り出し方法。
25. When limiting the search range of the change point,
22. The character segmentation method according to claim 21, wherein a search range is a constant multiple of an average character size of a character string to which the character belongs.
【請求項26】 前記第1、第2の文字分離処理におい
て、 続き線を囲む矩形の中の画像のみを用いて、続け字の分
離に伴って生じる文字のヒゲを除去すると共に、その
際、パターンの上側の輪郭線と続き線の位置情報から文
字内に含まれるヒゲ部分を除去することを特徴とした請
求項4記載の文字切り出し方法。
26. In the first and second character separation processing, while using only an image in a rectangle surrounding a continuation line, a whisker of a character caused by separation of a continuation character is removed. 5. The character extracting method according to claim 4, wherein a beard portion included in the character is removed from the position information of the upper contour line and the continuation line of the pattern.
JP01085195A 1995-01-26 1995-01-26 Character extraction device and character extraction method Expired - Fee Related JP3343305B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP01085195A JP3343305B2 (en) 1995-01-26 1995-01-26 Character extraction device and character extraction method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP01085195A JP3343305B2 (en) 1995-01-26 1995-01-26 Character extraction device and character extraction method

Publications (2)

Publication Number Publication Date
JPH08202822A JPH08202822A (en) 1996-08-09
JP3343305B2 true JP3343305B2 (en) 2002-11-11

Family

ID=11761865

Family Applications (1)

Application Number Title Priority Date Filing Date
JP01085195A Expired - Fee Related JP3343305B2 (en) 1995-01-26 1995-01-26 Character extraction device and character extraction method

Country Status (1)

Country Link
JP (1) JP3343305B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341429A (en) * 2016-04-28 2017-11-10 富士通株式会社 Cutting method, cutting device and the electronic equipment of hand-written adhesion character string

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4834351B2 (en) * 2005-08-22 2011-12-14 株式会社東芝 Character recognition device and character recognition method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341429A (en) * 2016-04-28 2017-11-10 富士通株式会社 Cutting method, cutting device and the electronic equipment of hand-written adhesion character string

Also Published As

Publication number Publication date
JPH08202822A (en) 1996-08-09

Similar Documents

Publication Publication Date Title
JP2933801B2 (en) Method and apparatus for cutting out characters
JPH06309498A (en) Picture extracting system
JP2002133426A (en) Ruled line extracting device for extracting ruled line from multiple image
CN108154151B (en) Rapid multi-direction text line detection method
JP3411472B2 (en) Pattern extraction device
US7146047B2 (en) Image processing apparatus and method generating binary image from a multilevel image
JP3837193B2 (en) Character line extraction method and apparatus
JP3343305B2 (en) Character extraction device and character extraction method
JPH0950527A (en) Frame extracting device and rectangle extracting device
JP3188580B2 (en) Character extraction circuit and character extraction method
US20030123730A1 (en) Document recognition system and method using vertical line adjacency graphs
JP3798179B2 (en) Pattern extraction device and character segmentation device
JP4244692B2 (en) Character recognition device and character recognition program
JP3077929B2 (en) Character extraction method
JP3466899B2 (en) Character recognition device and method, and program storage medium
JPH09305707A (en) Image extracting system
Fadeel An efficient segmentation algorithm for arabic handwritten characters recognition system
JP3344069B2 (en) Character segmentation device
JP3848792B2 (en) Character string recognition method and recording medium
JP3190794B2 (en) Character segmentation device
JP3402755B2 (en) Area division method
JP3428504B2 (en) Character recognition device
JP2002074264A (en) Picture processor, its processing method and recording medium
JPH1021332A (en) Non-linear normalizing method
JP4878057B2 (en) Character recognition method, program, and recording medium

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20020813

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080823

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090823

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090823

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100823

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110823

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120823

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120823

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130823

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees