JPH08263589A - Character dividing method - Google Patents

Character dividing method

Info

Publication number
JPH08263589A
JPH08263589A JP7053009A JP5300995A JPH08263589A JP H08263589 A JPH08263589 A JP H08263589A JP 7053009 A JP7053009 A JP 7053009A JP 5300995 A JP5300995 A JP 5300995A JP H08263589 A JPH08263589 A JP H08263589A
Authority
JP
Japan
Prior art keywords
character
components
sentence
component
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7053009A
Other languages
Japanese (ja)
Other versions
JP2781150B2 (en
Inventor
Seikin Ko
政 欽 江
Koryo Tai
光 良 戴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial Technology Research Institute ITRI
Original Assignee
Industrial Technology Research Institute ITRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial Technology Research Institute ITRI filed Critical Industrial Technology Research Institute ITRI
Priority to JP7053009A priority Critical patent/JP2781150B2/en
Priority to CN 95105634 priority patent/CN1131301A/en
Publication of JPH08263589A publication Critical patent/JPH08263589A/en
Application granted granted Critical
Publication of JP2781150B2 publication Critical patent/JP2781150B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

PURPOSE: To extract and identify an independent character component relating to a character division method for generating and identifying the independent character component. CONSTITUTION: This method is composed of a first process for searching all the picture element connection components of a sentence, a sixth process for connecting the picture element connection components and forming the plural independent character components by a feedback type connection component connection operation method provided with a second process 201 for connecting a first picture element connection component and a second picture element connection component for completely including it in the inside to one, a third process 203 for setting the reference numerical values of a character width, a character pitch, a row width and a row pitch, a forth process 205 for connecting the picture element connection components belonging to the same character component to one matched with the stipulation of the reference numerical values and a fifth process 207 for judging whether or not to repeatedly execute the second forth processes based on the connection conditions of the picture element connection components and a seventh process for arraying the character components.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は文字識別システムに係
り、特に独立した文字成分を生成、識別するための文字
分割方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character identification system, and more particularly to a character division method for generating and identifying independent character components.

【0002】[0002]

【従来の技術】一般の光学文字識別システム中で、文字
の分割処理は相当重要な地位を占めており、図1に示す
光学文字識別フローチャートにその一部を垣間見ること
ができる。この識別プロセスでは、先ず文字上の図形と
文字部分を分離し、文字部分を独立させて識別に回し
(ステップ1)、次が識別プロセスで最も重要な分割で
ある。文章中の各文字を分割し、文字部分中の各文字を
すべて独立型式で比較対照、識別するのである(ステッ
プ2)。
2. Description of the Related Art In a general optical character identification system, character division processing occupies a considerably important position, and a part of it can be seen in the optical character identification flowchart shown in FIG. In this identification process, first, the graphic on the character and the character portion are separated, and the character portion is independently sent to identification (step 1), and the next is the most important division in the identification process. Each character in the sentence is divided, and each character in the character portion is compared and identified by a stand-alone type (step 2).

【0003】従って、文字分割の結果は識別のフィジビ
リティと正確さに重大な影響を及ぼすことになる。プリ
映像処理(ステップ3)は分割後の独立した各文字成分
への処理であり、例えばスムージングなどである。この
処理により文字識別動作(ステップ4)を更に容易に実
行することが期待できるのである。最後に既に発展した
各種の識別モデルにより文字識別及び識別完了後の言語
後処理(ステップ5)を実施するのである。
Therefore, the result of character segmentation has a significant impact on the feasibility and accuracy of identification. The pre-image processing (step 3) is processing for each independent character component after division, and is, for example, smoothing. By this processing, it can be expected that the character identification operation (step 4) will be executed more easily. Finally, character recognition and post-language post-processing (step 5) after completion of recognition are carried out by using various already developed recognition models.

【0004】[0004]

【発明が解決しようとする課題】これまで文字の分割に
採用されていた方法、例えば投影法、スモールエリア区
分法及びランレングスコード法などはすべて規則的に配
列された文字を処理の第一義的条件とするという点から
逃れられなかった。つまり各種の方法はそれ自身の長所
を持ってはいたが、下記の三種類の文章に対しては文字
の分割処理を実施する方策が皆無であった。 1.図2のような行が斜め配列または湾曲配列の文章 2.図3のような一部重複しているが、文字列が非連続
な文章 3.図4のような文章中の文字の大きさが不統一なもの これは、印刷された文章のように整った文章を除き、一
般の手書きによる文章が作り出す不規則な状態では文字
の分割を実施することが難しいことを意味しており、ま
して識別を実施することの難しさは言うまでもない。
The methods conventionally used for character division, such as the projection method, the small area segmentation method and the run length code method, are all the primary means of processing regularly arranged characters. I couldn't escape from the point of making it a physical condition. In other words, each method had its own merits, but there was no way to implement character division processing for the following three types of sentences. 1. A sentence in which the rows as shown in FIG. A sentence in which the character strings are partially continuous as shown in FIG. 3, but the character strings are not continuous. Character size in the text is not uniform as shown in Fig. 4. This is because the characters are divided in the irregular state created by general handwritten text, except for well-formed text such as printed text. It means that it is difficult to carry out, let alone the difficulty of carrying out the identification.

【0005】従って本発明の主な目的は一種の文字分割
の方法を提供する点にあり、画素連結成分とフィードバ
ック式連結成分結合演算法により文字の分割処理を行
い、重複しているが非連続な文字列または大きさが不統
一な文字で形成されている文章を分割し、独立した文字
成分の抽出、識別を提供することにある。本発明のもう
一つの目的は文字分割の方法を提供し、特殊な行配列及
び文字配列処理により、各種の斜めまたは湾曲配列の文
字列も分割し、組替え、識別することを提供することに
ある。
Therefore, a main object of the present invention is to provide a kind of character division method, in which character division processing is performed by a pixel connected component and a feedback type connected component combining operation method, and overlapping but non-continuous. The purpose of this is to divide a sentence formed of different character strings or characters of non-uniform size to provide independent extraction and identification of character components. It is another object of the present invention to provide a method of character division, and to divide, rearrange, and identify a character string of various oblique or curved arrangements by special line arrangement and character arrangement processing. .

【0006】本発明の更にもう一つの目的は一種の文字
分割の方法を提供し、手書き文字で構成される文章も文
字識別システムで識別及び処理することにある。
Yet another object of the present invention is to provide a method of character division so that sentences composed of handwritten characters are also identified and processed by the character identification system.

【0007】[0007]

【課題を解決するための手段】上記の問題を解決するた
めに、本発明では一種の文字分割の方法を提供している
が、それには文章中のすべての画素連結成分のサーチ、
フィードバック式連結成分結合演算法によるすべての画
素連結成分の複数個の独立した文字成分への処理及び各
独立文字成分の配列処理が含まれている。このうちフィ
ードバック式連結成分結合演算法は各画素連結成分間の
幾何学的関係を利用し、自動的に見積もった文字幅、文
字ピッチ、行幅及び行ピッチの参考値設定の条件に基づ
き、繰返し比較した後、適当な画素連結成分を独立した
文字成分に結合させるものである。本発明では文章の組
替えに便利なよう、斜めに湾曲した文字列の文字成分の
配列方法も提供している。
In order to solve the above problems, the present invention provides a kind of character segmentation method, in which all pixel connected components in a sentence are searched,
It includes processing of all pixel connected components into a plurality of independent character components by the feedback-type connected component combining arithmetic method and array processing of each independent character component. Of these, the feedback-type connected component combination calculation method uses the geometrical relationship between each pixel connected component, and iterates based on the automatically estimated character width, character pitch, line width, and line pitch reference value setting conditions. After comparison, the appropriate pixel connected components are combined into independent character components. The present invention also provides a method of arranging character components of a character string that is curved obliquely, which is convenient for rearranging sentences.

【0008】[0008]

【実施例】以下、本発明の一実施例について図面を参照
して説明する。本発明の文字分割方法は、独立した各画
素連結成分のサーチ及び結合を基礎としており、既存の
処理モデルとは別個のものである。漢字を主とするグラ
フィック文字には日本語やハングルなども含まれるが、
これらの各文字の多くは幾つかの独立した画素連結成分
に分解することが可能である。例えば「明」はそれ自身
で2つの画素連結成分「日」「月」を含んでいる。そし
て「日」はそれ自身で一つの文字でありまた画素連結成
分でもある。従ってもしこの独立した文字成分を文章中
からサーチできるならば、文字の分割処理には大きな助
けとなるのである。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described below with reference to the drawings. The character segmentation method of the present invention is based on the search and combination of independent pixel connected components and is separate from existing processing models. Graphic characters centered on kanji include Japanese and Hangul,
Many of each of these characters can be decomposed into several independent pixel connected components. For example, "bright" itself includes two pixel connected components "day" and "month". And "day" is a character by itself and is also a pixel connected component. Therefore, if this independent character component can be searched from the text, it will be a great help in the character division processing.

【0009】先ず文章の映像中から任意のドット画素を
サーチし、次にこの画素から出発し、このドット画素と
直接または間接的に結び付くすべてのドット画素をサー
チし独立した画素連結成分を構成させるのである。この
後、再度他のドット画素の中から逐次すべての画素連結
成分をサーチし、画素連結成分のサーチを完了させてゆ
くのである。上記の独立した画素連結成分のサーチ方法
は所謂画素追跡法であるが、この技術を熟知している人
であれば、この他のいずれかの方法で文章中からすべて
の画素連結成分をサーチすることが可能である。従って
画素連結成分のサーチ方式に本発明の目的があると言う
わけではない。
First, an arbitrary dot pixel is searched from the image of a sentence, then, from this pixel, all dot pixels directly or indirectly connected to this pixel are searched to form independent pixel connected components. Of. After that, all the pixel connected components are sequentially searched again from the other dot pixels, and the search for the pixel connected components is completed. The above-described independent pixel connected component search method is a so-called pixel tracking method, but a person who is familiar with this technique can search all pixel connected components from a sentence by any other method. It is possible. Therefore, the search method for pixel connected components does not necessarily have the object of the present invention.

【0010】次に、本発明が採用しているフィードバッ
ク式インテリジェント型連結成分結合演算法は、同一の
文字成分に属している各個に独立した画素連結成分を結
合させるものである。このフィードバック式結合演算法
の作用原理は主に各サイクル中で統計的に文章中の文字
幅、文字ピッチ、行幅、及び行ピッチなどの重要パラメ
ータを見積もり、同時にある種の規則を応用し異なった
連結成分を結合させるものである。本フィードバック法
の特色は後のサイクルに行けば行くほど、予測するパラ
メータがより正確になる点にあり、より正確な結合が可
能であり、より正確な分割が得られるのである。
Next, the feedback type intelligent connected component combining operation method adopted by the present invention is to combine independent pixel connected components to each belonging to the same character component. The principle of operation of this feedback-type combination operation method is different mainly by statistically estimating important parameters such as character width, character pitch, line width, and line pitch in a sentence in each cycle, and applying certain rules at the same time. It connects the connected components. The feature of this feedback method is that the later the cycle goes, the more accurate the predicted parameters are, the more accurate the combination is possible, and the more accurate the division is obtained.

【0011】図5に示したこのフィードバック式結合演
算法に関するフローチャートを参照して頂きたいが、そ
こには簡易結合(ステップ201)、文字幅、文字ピッチ、
行幅、及び行ピッチの見積もり(ステップ203)、細部の
結合(ステップ205)及び結合するか否かの検査(ステッ
プ207)などの処理過程が含まれている。簡易結合(ステ
ップ201)中では、文章中から分離した各画素連結成分を
相互の重複量の大きさに基づき初歩的に結合させてい
る。所謂重複量は水平重複量及び垂直重複量に分けるこ
とができるが、図6に示す通り、連結成分iと連結成分
jの水平重複量はoh、垂直重複量はovである。この初歩
的結合に於いては、以下の規則に合致する連結成分だけ
が結合されるのである。
Please refer to the flow chart relating to this feedback type combination operation method shown in FIG. 5, which includes simple combination (step 201), character width, character pitch,
It includes processing steps such as estimation of row width and row pitch (step 203), combination of details (step 205) and inspection of whether or not to combine (step 207). In the simple combination (step 201), the pixel connection components separated from the text are combined in a rudimentary manner based on the amount of mutual overlap. The so-called overlap amount can be divided into a horizontal overlap amount and a vertical overlap amount. As shown in FIG. 6, the horizontal overlap amount of the connected component i and the connected component j is oh, and the vertical overlap amount is ov. In this rudimentary combination, only connected components that meet the following rules are combined.

【0012】oh=min(wi,wj)and ov=min(Hi,Hj) その内wiとwjは連結成分jの幅であり、HiとHjはこの2
つの連結成分の高さである。以上の条件はそのうちの一
方の連結成分エリアが他方の連結成分エリアを含んでし
まう場合に限り結合が起こることを意味している。例え
ば「的」という字は3個の独立した画素連結成分「白」
「勹」「丶」で構成されているが、このうち「丶」は上
記の条件に合致するため、このステップ201 で「勹」と
結合し一つの画素となる。しかし「白」と「勺」の結合
は起こらない。
Oh = min (wi, wj) and ov = min (Hi, Hj) where wi and wj are the widths of the connected components j, and Hi and Hj are the two
The height of one connected component. The above conditions mean that the binding occurs only when one of the connected component areas includes the other connected component area. For example, the word “target” means three independent pixel connected components “white”.
Although it is composed of “paws” and “paws”, of which “pauses” meet the above conditions, they are combined with “paws” in step 201 to form one pixel. However, the combination of "white" and "strawberry" does not occur.

【0013】同一の文字成分中の各画素を結合させるた
めには、一定の規則を採用し画素間の関係を規範化させ
なければならない。そこで本発明では文字ピッチ、文字
幅、行幅、及び行ピッチの見積もりを利用し、細部結合
の根拠としている。このうち文字ピッチ及び文字幅の見
積もり方法はすべての連結成分の幅及び高さの統計をと
り、その分布を調べた後、数値を決定、得られたもので
ある。分布のうち最多の文字幅数値がwであると仮定
し、cw=1.2w(1.2は経験値)と設定することにする。
In order to combine pixels in the same character component, certain rules must be adopted to normalize the relationship between pixels. Therefore, in the present invention, the estimation of the character pitch, the character width, the line width, and the line pitch is used as the basis for the detail combination. Of these, the method of estimating the character pitch and the character width is obtained by taking the statistics of the width and height of all connected components and examining the distribution thereof, and then determining the numerical values. It is assumed that the largest character width numerical value in the distribution is w, and cw = 1.2w (1.2 is an empirical value) is set.

【0014】行幅数値の決定も類似した方法で実施す
る。文字ピッチ及び行ピッチの見積もりは少し複雑なの
で、まずは文字ピッチの見積もりについて説明を加える
ことにする。文字ピッチを見積もるにはまず最初に各連
結成分の左右に隣接する連結成分を決定することが必要
である。ここで連結成分iの左側の座標をLi、右側の座
標をRi、上側の座標をTi、下側の座標をBi(原点は文章
の左上隅)と仮定すると、連結成分iの左側に隣接する
連結成分jの検索方法は以下の通りである。 (a)下記の条件に合致するすべての連結成分kをサー
チする。
The determination of the line width value is performed in a similar manner. Since the estimation of the character pitch and the line pitch is a little complicated, the estimation of the character pitch will be described first. In order to estimate the character pitch, it is first necessary to determine the connected components adjacent to the left and right of each connected component. Assuming that the coordinate on the left side of the connected component i is Li, the coordinate on the right side is Ri, the coordinate on the upper side is Ti, and the coordinate on the lower side is Bi (the origin is the upper left corner of the sentence), it is adjacent to the left side of the connected component i. The search method for the connected component j is as follows. (A) Search for all connected components k that meet the following conditions.

【0015】[0015]

【数1】 [Equation 1]

【0016】(b)ステップ(a)でサーチした連結成
分で一つの集合Nを構成すると、連結成分iの左側に隣
接する連結成分jは下記の条件に合致する連結成分とな
る。
(B) When one set N is formed by the connected components searched in step (a), the connected component j adjacent to the left side of the connected component i becomes a connected component that meets the following conditions.

【0017】[0017]

【数2】 [Equation 2]

【0018】ステップ(a)の条件中の分子は2個の連
結成分の垂直重複量を算出するものであり、当該条件は
垂直重複量がその高さの1/3を越えた場合に限り、考
慮の範囲内に入れると言うことを意味している。ステッ
プ(b)は右側で連結成分iに最も接近している(しか
し重複はしていない)連結成分をサーチすることを意味
している。連結成分iの右側で隣接している連結成分を
サーチするためには、ステップ(b)の条件を下記の通
り修正するだけでよい。
The numerator in the condition of step (a) is for calculating the vertical overlap amount of two connected components, and the condition is only when the vertical overlap amount exceeds 1/3 of its height. It means to put it in the range of consideration. Step (b) means searching for the connected component on the right that is closest (but not overlapping) to connected component i. In order to search for a connected component that is adjacent to the right of the connected component i, the condition in step (b) need only be modified as follows.

【0019】[0019]

【数3】 (Equation 3)

【0020】行ピッチの見積もり方法は文字ピッチの見
積もり方法とかなり類似しており、先ず水平重複量に基
づき、上側に隣接する連結成分と下側で隣接する連結成
分をサーチすることから始まる。その条件はステップ
(a)及び(b)の条件を参照し、決定することができ
るため、ここでは多くを述べないことにする。隣接する
連結成分(上、下、左、右)をサーチした後では、すべ
ての連結成分とその隣接する連結成分間の距離の分布を
検索することが可能となる。本実施例では分布の4/5
を占めるポイントで見積もり数値を設定している。
The method for estimating the line pitch is quite similar to the method for estimating the character pitch, and starts by searching the connected component adjacent to the upper side and the connected component adjacent to the lower side based on the horizontal overlap amount. Since the conditions can be determined by referring to the conditions of steps (a) and (b), many will not be described here. After searching for adjacent connected components (top, bottom, left, right), it is possible to search the distribution of distances between all connected components and their adjacent connected components. In this embodiment, it is 4/5 of the distribution.
The estimated numerical value is set based on the points occupying.

【0021】上記の見積もり数値は画素の結合を更に一
歩進めるための根拠とすることが可能である。細部結合
(ステップ205)中では、おおよそ下記の3条件を結合す
る必要があるかないかの判断基準としている。 条件1: (1)結合後、幅(高さ)のトータルが文字幅(高さ)
の見積もり数値の1.5倍を越えてはならない。 (2)水平(または垂直)重複量は相対的に小さい方の
連結成分の文字幅(または高さ)の半分を越えていなけ
ればならない。 (3)両者の水平及び垂直距離が見積もった文字ピッチ
及び行ピッチの3/4より小さい。 それを数式で表すと次の通りである。
The above estimated numerical values can be used as the basis for taking the pixel combination one step further. In the detail combination (step 205), the following three conditions are used as a criterion for determining whether it is necessary to combine or not. Condition 1: (1) After combining, the total width (height) is the character width (height).
Should not exceed 1.5 times the estimated value of. (2) The horizontal (or vertical) overlap amount must exceed half the character width (or height) of the relatively smaller connected component. (3) The horizontal and vertical distances between the two are smaller than 3/4 of the estimated character pitch and line pitch. It is as follows when it is expressed by a mathematical formula.

【0022】[0022]

【数4】 [Equation 4]

【0023】条件2: (1)結合後、幅(高さ)のトータルが文字幅(高さ)
の見積もり数値の1.5倍を超過するが、見積もり数値の
2倍よりは小さい。 (2)水平(または垂直)重複量は相対的に小さい方の
連結成分の文字幅(または高さ)の半分を越えていなけ
ればならない。 (3)両者の水平及び垂直距離が見積もった文字ピッチ
及び行ピッチの3/4より小さい。 (4)結合後の幅と長さの比が0.6〜2.5の間にあ
る。 それを数式で表すと以下の通りである。
Condition 2: (1) After combining, the total width (height) is the character width (height).
It exceeds 1.5 times the estimated value, but is less than twice the estimated value. (2) The horizontal (or vertical) overlap amount must exceed half the character width (or height) of the relatively smaller connected component. (3) The horizontal and vertical distances between the two are smaller than 3/4 of the estimated character pitch and line pitch. (4) The width-to-length ratio after joining is between 0.6 and 2.5. The following is a mathematical expression thereof.

【0024】[0024]

【数5】 (Equation 5)

【0025】条件3: (1)単一の連結成分の幅(高さ)が文字幅(高さ)の
見積もり数値の0.25倍より小さい。 (2)水平(または垂直)重複量は相対的に小さい方の
連結成分の文字幅(または高さ)の半分を越えていなけ
ればならない。 (3)結合後の幅と長さの比が0.6〜2.5の間にあ
る。 それを数式に変換すると以下の通りである。
Condition 3: (1) The width (height) of a single connected component is smaller than 0.25 times the estimated value of the character width (height). (2) The horizontal (or vertical) overlap amount must exceed half the character width (or height) of the relatively smaller connected component. (3) The width-to-length ratio after joining is between 0.6 and 2.5. Converting it into a mathematical formula is as follows.

【0026】[0026]

【数6】 (Equation 6)

【0027】上記の3条件を利用し、任意の連結成分に
対する測定を実施し、要求に合致するすべての連結成分
をサーチしてゆく。このうち条件1の目的は、結合後の
高さ及び幅が1.5Lw及び1.5Cwを越えず、水平距離及び
垂直距離も文字ピッチ及び行ピッチの見積もり数値の3
/4を越えない連結成分をピックアップすることにあ
る。このほかその水平(または垂直)重複量は相対的に
狭い(または低い)方の連結成分の半分の幅(または高
さ)を越えていなければならないと規定する必要があ
る。
Using the above three conditions, measurement is performed on any connected component, and all connected components that meet the requirements are searched. Of these, the purpose of condition 1 is that the height and width after combining do not exceed 1.5Lw and 1.5Cw, and the horizontal and vertical distances are 3 of the estimated values of character pitch and line pitch.
It is to pick up connected components that do not exceed / 4. In addition, it is necessary to specify that the horizontal (or vertical) overlap amount must exceed the half width (or height) of the relatively narrow (or lower) connected component.

【0028】条件2では文章中に少し大きな文字を含ん
でいるため、結合後の高さ及び幅が1.5Lwまたは1.5Cw
を越えてしまう可能性を考慮に入れている。この場合は
同様に、水平距離及び垂直距離は共に文字ピッチ及び行
ピッチの見積もり数値の3/4倍を越えないと制限し、
水平(垂直)重複量の制限の対象外であるとしなければ
ならない。また結合後は正方形に近似した形状を形成し
なければならないとも制限する必要がある(一般に手書
き文字は縦長であるため、設定値は0.6である)。条
件3の目的は、“二”、“三”、“川”……等の細長い
連結成分を含んだ文字を処理することにある。
In condition 2, since the text contains a slightly large character, the height and width after combining are 1.5 Lw or 1.5 Cw.
It takes into account the possibility of exceeding. In this case, similarly, the horizontal distance and the vertical distance are both limited to not exceed 3/4 times the estimated values of the character pitch and the line pitch,
It must be outside the scope of horizontal (vertical) overlap. Also, it is necessary to limit that a shape approximate to a square must be formed after the combination (generally, handwritten characters are vertically long, so the setting value is 0.6). The purpose of condition 3 is to process characters including elongated connected components such as "two", "three", "river" ....

【0029】次に、条件に合致する連結成分で一つの集
合Cを構成し、続いて集合Cの中の連結成分Kをサーチ
し、連結成分iと連結成分K間の重複面積を最大とさせ
る。重複面積(A)の計算方法は以下の通りである。
Next, one set C is composed of connected components that meet the conditions, and then the connected component K in the set C is searched to maximize the overlapping area between the connected component i and the connected component K. . The calculation method of the overlapping area (A) is as follows.

【0030】[0030]

【数7】 (Equation 7)

【0031】このうちSの定義は次の通りである。Of these, the definition of S is as follows.

【0032】[0032]

【数8】 (Equation 8)

【0033】次に、連結成分iと連結成分Kを結合す
る。重複面積はある場合には図7(A)に示す通りプラ
スであり、またある場合には図7(B)及び同図(C)
に示す通りマイナスである。いずれも文字成分の結合の
参考数値とすることが可能である。ステップ207 では結
合作業がすでに完了したか否かをチェックしている。も
し適当な連結成分が集合Cを構成することを発見した場
合は、上記のステップ201からステップ205 を繰返し実
行し、Cが空集合になるまでその作業を続けてゆく。
Next, the connected component i and the connected component K are combined. In some cases, the overlapping area is positive as shown in FIG. 7 (A), and in other cases, the overlapping area is shown in FIGS. 7 (B) and (C).
It is negative as shown in. Any of these can be used as a reference value for combining character components. In step 207, it is checked whether or not the joining work has already been completed. If it is found that the appropriate connected components form the set C, the above steps 201 to 205 are repeated, and the work is continued until C becomes an empty set.

【0034】上記のフィードバック式結合演算法の実際
の作動状況については、図8(A)〜(D)を参照して
頂きたい。このうち図8(A)では文章中の独立した各
画素連結成分を画素追跡法で検索している。第1次の簡
易結合及び細部結合などのプロセスを経て、図8(B)
のような状態を形成することになる。まだ結合が発生す
るため、第2次の簡易結合及び細部結合が引続き実施さ
れ、図8(C)の結果が生み出される。そして最後の結
合の結果が図8(D)である。もはや結合条件に合致す
る連結成分が存在しないため、フィードバック式の結合
動作はここで終了となる。
Please refer to FIGS. 8 (A) to 8 (D) for the actual operating conditions of the above feedback type combination calculation method. Of these, in FIG. 8A, the independent pixel connected components in the sentence are searched by the pixel tracking method. 8B through the processes such as the first simple connection and the detail connection.
Will form a state like. Since the merging still occurs, the second simple coupling and the detail merging are continuously performed, and the result of FIG. 8C is produced. The result of the final combination is shown in FIG. Since there are no connected components that meet the combining condition anymore, the feedback-type combining operation ends here.

【0035】それぞれに独立した文字成分のピックアッ
プ後には、事実上文字成分間に順序関係は存在しない。
従ってこれに続くステップはこれら文字成分間の順序関
係(行列関係)の確定であり、これがあって始めて文字
成分を順番に識別ユニットに送り込み、識別にかけるこ
とができるのである。左から右、上から下というモデル
文章で言えば、本発明が採用している配列方法は先ず最
初にすべての文字を上から投影し、他の文字と互いに重
複している画素の個数が設定値を越えていない文字を取
り出し、仮にこれらの文字で集合Aを形成する。図2を
例にとると、A={中、華、民、國、影、像、處、理、
識、別、協、會、達}である。続いてAの中から最上者
のものをサーチする。この場合、最上は“影”である。
引続きAの中から最上のものとの垂直重複量が別の設定
値(5画素)を越える文字をサーチし、文字グループB0
を形成する。
After picking up the character components independent of each other, virtually no order relation exists between the character components.
Therefore, the subsequent step is to determine the order relation (matrix relation) between these character components, and only then can the character components be sequentially sent to the identification unit for identification. Speaking from left-to-right and top-to-bottom model sentences, the arrangement method adopted by the present invention first projects all characters from above and sets the number of pixels that overlap each other. The characters that do not exceed the value are taken out and the set A is temporarily formed with these characters. Taking FIG. 2 as an example, A = {Chinese, Chinese, People, Country, Shadow, Image, 處, Rhi,
Knowledge, distinction, cooperation, meeting, reaching}. Then, the highest one is searched from A. In this case, the top is the "shadow".
Continuing on, search for a character whose vertical overlap amount with the highest one from A exceeds another set value (5 pixels), and perform character group B0.
To form.

【0036】次に再度A-B0の文字の中からB0との垂直重
複量が設定値を越える文字をピックアップしB0に追加
し、新たな文字グループB1を形成する。この作業は新た
な文字が追加されなくなるまで繰り返される。この方法
に基づき、図2からサーチできる文字グループBは
{中、華、民、國、影、像、處、理、識、別、協、會}
である。このBが我々の第1文字列である。そしてこの
文字列の中で、文字の順序は左端境界線の数値に基づき
配列する。文字列のサーチ後、当該列の文字は削除さ
れ、続いて同様の方法で次の文字列がサーチされる。こ
のように類推してゆき、すべての文字の配列が決定され
るまで続けられることになる。
Next, a character whose vertical overlap amount with B0 exceeds the set value is picked up again from the characters A-B0 and added to B0 to form a new character group B1. This process is repeated until no new characters are added. Based on this method, the character group B that can be searched from FIG.
Is. This B is our first string. Then, in this character string, the character order is arranged based on the numerical value of the left boundary line. After searching for a character string, the characters in the string are deleted, and then the next character string is searched in the same manner. This analogy will continue until all the letters are aligned.

【0037】上記の文字分割及び配列方法に基づくと、
図2から図4の文章は特殊で不規則な配列になっている
が、すべて分割処理を施され、図9から図11の通りの
結果となる。図9から図11までの各々の手書き文字は
すべて長方形の外枠で囲むことができ、各文字はすべて
適切に分割、独立している。ここからはこれらの図は次
の識別ステップに提供することが可能であり、更に処理
を進めることができることが見て取れる。図12と図1
3のような更に複雑な文章も、本発明の文字分割方法で
処理すると、それぞれに独立した文字を形成し、識別に
かけることが可能である。
Based on the above character division and arrangement method,
Although the sentences in FIGS. 2 to 4 have a special and irregular arrangement, they are all divided, and the results are as shown in FIGS. 9 to 11. Each of the handwritten characters in FIGS. 9 to 11 can be surrounded by a rectangular outer frame, and each character is appropriately divided and independent. From here it can be seen that these figures can be provided to the next identification step and further processing can proceed. 12 and 1
When a more complicated sentence such as No. 3 is processed by the character division method of the present invention, it is possible to form an independent character and to identify it.

【0038】典型的な実施例を利用し、以上の通り本発
明を紹介してきたが、これは何も本実施例に限定したも
のではない。この技術分野に習熟した者であれば、本発
明の精神と範囲を外れることなく、より一層鮮明な手の
込んだものを作成することが可能である。
Although the present invention has been introduced above by using typical embodiments, it is not limited to the embodiments. Those skilled in this technical field can create a more elaborate and elaborate product without departing from the spirit and scope of the present invention.

【0039】[0039]

【発明の効果】上述の如く本発明によれば、画素連結成
分とフィードバック式連結成分結合演算法により文字の
分割処理を行い、重複しているが非連続な文字列または
大きさが不統一な文字で形成されている文章を分割し、
独立した文字成分の抽出、識別を提供することができる
とともに、特殊な行配列及び文字配列処理により、各種
の斜めまたは湾曲配列の文字列も分割し、組替え、識別
することを提供することができ、且つ、手書き文字で構
成される文章も文字識別システムで識別及び処理するこ
とができる特長がある。
As described above, according to the present invention, character division processing is performed by a pixel connected component and a feedback type connected component combining operation method, and overlapping but non-continuous character strings or sizes are not unified. Divide a sentence formed by letters,
In addition to being able to provide independent extraction and identification of character components, special line arrangement and character arrangement processing can also be used to divide, rearrange, and identify various oblique or curved arrangement character strings. Moreover, there is a feature that a sentence composed of handwritten characters can be identified and processed by the character identification system.

【図面の簡単な説明】[Brief description of drawings]

【図1】光学文字識別のフローチャートである。FIG. 1 is a flowchart of optical character identification.

【図2】文字列が斜めに湾曲した文章を示す図である。FIG. 2 is a diagram showing a sentence in which a character string is curved obliquely.

【図3】一部重複しているが、文字列が非連続な文章を
示す図である。
FIG. 3 is a diagram illustrating a sentence in which character strings are partially continuous but the character strings are not continuous.

【図4】文字の大きさが不統一な文章を示す図である。FIG. 4 is a diagram showing a sentence in which character sizes are not uniform.

【図5】本発明のフィードバック式連結成分結合演算法
に基づくフローチャートである。
FIG. 5 is a flow chart based on the feedback type connected component combination calculation method of the present invention.

【図6】画素連結成分間のパラメータの定義を示す図で
ある。
FIG. 6 is a diagram showing definitions of parameters between pixel connected components.

【図7】画素連結成分間の各種重複面積の可能性を示す
図である。
FIG. 7 is a diagram showing the possibility of various overlapping areas between pixel connected components.

【図8】本発明に基づく文字分割の実施例を示す図であ
る。
FIG. 8 is a diagram showing an example of character division according to the present invention.

【図9】本発明の方法に基づき図2の文章に文字分割を
実施した結果を示す図である。
FIG. 9 is a diagram showing a result of performing character division on the sentence of FIG. 2 based on the method of the present invention.

【図10】本発明の方法に基づき図3の文章に文字分割
を実施した結果を示す図である。
FIG. 10 is a diagram showing a result of performing character division on the sentence of FIG. 3 based on the method of the present invention.

【図11】本発明の方法に基づき図4の文章に文字分割
を実施した結果を示す図である。
FIG. 11 is a diagram showing a result of performing character division on the sentence of FIG. 4 based on the method of the present invention.

【図12】本発明の方法に基づき少し複雑な文章に文字
分割を実施した結果を示す図である。
FIG. 12 is a diagram showing a result of performing character division on a slightly complicated sentence based on the method of the present invention.

【図13】本発明の方法に基づき少し複雑な文章に文字
分割を実施した結果を示す図である。
FIG. 13 is a diagram showing a result of performing character division on a slightly complicated sentence based on the method of the present invention.

【符号の説明】[Explanation of symbols]

1〜5,201,203,205,207 ステップ i,j 連結成分 1-5, 201, 203, 205, 207 step i, j connected component

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 複数の文字記号により構成されている文
章に適用される文字分割方法であって、 該文章のすべての画素連結成分をサーチする第1過程
と、 第1の画素連結成分とそれを完全にその内部に包含する
第2の画素連結成分を一つに結合する第2過程と、文字
幅、文字ピッチ、行幅、及び行ピッチの参考数値を設定
する第3過程と、該参考数値の規定に合致し同一の文字
成分に属する画素連結成分を一つに結合する第4過程
と、該画素連結成分の結合状況に基づき第2〜第4過程
を繰返し実行するか否かを判定する第5過程とを含むフ
ィードバック式連結成分結合演算法により該画素連結成
分を結合し、複数の独立した文字成分を形成する第6過
程と、 該文字成分を配列する第7過程とからなることを特徴と
する文字分割方法。
1. A character segmentation method applied to a sentence composed of a plurality of character symbols, the first step of searching all pixel connected components of the sentence, the first pixel connected component and it. And a third step of setting the reference values of the character width, the character pitch, the line width, and the line pitch, and the second step of combining the second pixel connected components that completely include A fourth step of combining pixel connected components that belong to the same character component and that conform to the numerical rules and determine whether or not to repeat the second to fourth steps based on the connection status of the pixel connected components. And a fifth step of forming a plurality of independent character components by combining the pixel connected components by a feedback-type connected component combination operation method, and a seventh step of arranging the character components. Character division method characterized by.
【請求項2】 前記第7過程は、 前記文章中の最上層の文字成分中の水平投影重複量が第
1有効範囲を下回るものを一つの集合とする第8過程
と、 前記集合の文字成分中で、隣接する文字成分との垂直投
影重複量が第2有効範囲を下回るものを除外する第9過
程と、 前記集合中の文字成分を順番に配列するとともに、1字
ずつ前記文章から削除する第10過程と、 すべての文字成分が前記文章から削除されるまで第8過
程及び第9過程及び第10過程を繰り返し続ける第11
過程とを含むことを特徴とする請求項1記載の文字分割
方法。
2. The seventh step comprises an eighth step in which horizontal projection overlap amounts in the uppermost character components in the sentence are below a first effective range into one set, and the character components in the set. A ninth step of excluding those whose vertical projection overlap amount with an adjacent character component is below the second effective range, and arranging the character components in the set in order and deleting them one by one from the sentence The tenth step and the eighth, ninth and tenth steps are repeated until all the character components are deleted from the sentence.
The method according to claim 1, further comprising the steps of:
【請求項3】 前記第1過程は、画素追跡法により実施
されることを特徴とする請求項1記載の文字分割方法。
3. The character dividing method according to claim 1, wherein the first step is performed by a pixel tracking method.
【請求項4】 前記フィードバック式連結成分結合演算
法には前記第3過程の参考数値の設定のための統計過程
も含まれていることを特徴とする請求項1記載の文字分
割方法。
4. The character segmentation method according to claim 1, wherein the feedback-type connected component combination operation method also includes a statistical process for setting a reference value in the third process.
JP7053009A 1995-03-13 1995-03-13 Character division method Expired - Fee Related JP2781150B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP7053009A JP2781150B2 (en) 1995-03-13 1995-03-13 Character division method
CN 95105634 CN1131301A (en) 1995-03-13 1995-05-30 Word cutting method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7053009A JP2781150B2 (en) 1995-03-13 1995-03-13 Character division method

Publications (2)

Publication Number Publication Date
JPH08263589A true JPH08263589A (en) 1996-10-11
JP2781150B2 JP2781150B2 (en) 1998-07-30

Family

ID=12930922

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7053009A Expired - Fee Related JP2781150B2 (en) 1995-03-13 1995-03-13 Character division method

Country Status (2)

Country Link
JP (1) JP2781150B2 (en)
CN (1) CN1131301A (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102243621A (en) * 2010-05-11 2011-11-16 项洁 Typesetting method for image text file
CN102063619B (en) * 2010-11-30 2013-03-13 汉王科技股份有限公司 Character row extraction method and device
CN102541826B (en) * 2010-12-27 2014-08-06 北大方正集团有限公司 Text block content reorganizing method and device
CN111199224B (en) * 2018-11-20 2023-06-23 中国电信股份有限公司 Method and device for recognizing curved characters

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04130979A (en) * 1990-09-21 1992-05-01 Ricoh Co Ltd Character picture segmenting method

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04130979A (en) * 1990-09-21 1992-05-01 Ricoh Co Ltd Character picture segmenting method

Also Published As

Publication number Publication date
JP2781150B2 (en) 1998-07-30
CN1131301A (en) 1996-09-18

Similar Documents

Publication Publication Date Title
US10789504B2 (en) Method and device for extracting information in histogram
CN110738207A (en) character detection method for fusing character area edge information in character image
CN112883799B (en) Method for accurately identifying ramp in CAD ramp large-scale sample graph
CN110097087B (en) Automatic reinforcing steel bar binding position identification method
CN112767357A (en) Yolov 4-based concrete structure disease detection method
CN107784301A (en) Method and apparatus for identifying character area in image
CN111160352A (en) Workpiece metal surface character recognition method and system based on image segmentation
JP2007148677A (en) Image processor and image processing method
CN114092700B (en) Ancient character recognition method based on target detection and knowledge graph
CN104778458B (en) A kind of textile pattern search method based on textural characteristics
CN114332004A (en) Method and device for detecting surface defects of ceramic tiles, electronic equipment and storage medium
CN111696079A (en) Surface defect detection method based on multi-task learning
CN107194402A (en) A kind of parallel thinning framework extraction method
JPH08263589A (en) Character dividing method
CN116168192A (en) Image detection area determination method and device, electronic equipment and storage medium
JPH0612540B2 (en) Document creation support device
CN114550179A (en) Method, system and equipment for guiding handwriting Chinese character blackboard writing
JPH01129358A (en) Arithmetic unit for table numerical value
JPS62159291A (en) Sentence input device
Xu et al. Texture-aware ASCII art synthesis with proportional fonts
CN111382749A (en) Bronze ware inscription image automatic identification method based on two-dimensional structural features
JPH08153187A (en) Image recognizing method
CN116245950B (en) Screen corner positioning method for full screen or single corner deletion
CN112115949B (en) Optical character recognition method for tobacco certificate and order
CN111738088B (en) Pedestrian distance prediction method based on monocular camera

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080515

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090515

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090515

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090515

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090515

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100515

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100515

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110515

Year of fee payment: 13

LAPS Cancellation because of no payment of annual fees