JP2821303B2 - Sharp character combination method - Google Patents

Sharp character combination method

Info

Publication number
JP2821303B2
JP2821303B2 JP4035699A JP3569992A JP2821303B2 JP 2821303 B2 JP2821303 B2 JP 2821303B2 JP 4035699 A JP4035699 A JP 4035699A JP 3569992 A JP3569992 A JP 3569992A JP 2821303 B2 JP2821303 B2 JP 2821303B2
Authority
JP
Japan
Prior art keywords
character
area
blurred
combined
areas
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP4035699A
Other languages
Japanese (ja)
Other versions
JPH05205104A (en
Inventor
博行 上
陽一 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP4035699A priority Critical patent/JP2821303B2/en
Publication of JPH05205104A publication Critical patent/JPH05205104A/en
Application granted granted Critical
Publication of JP2821303B2 publication Critical patent/JP2821303B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は掠れ文字結合方式に関
し、特に英文活字認識システムにおける掠れ文字結合方
式に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method for combining blurred characters, and more particularly to a method for combining blurred characters in an English type recognition system.

【0002】[0002]

【従来の技術】従来、この種の掠れ文字結合方式では、
斜めに傾いた文字である斜体文字の存在が考慮されてお
らず、直立の文字である通常体文字だけが存在するもの
として処理が行われていた。
2. Description of the Related Art Conventionally, in this type of blurred character combining method,
The processing has been performed on the assumption that only normal body characters, which are upright characters, exist without considering the presence of italic characters, which are characters inclined obliquely.

【0003】図2(a)〜(f)を参照して、従来の掠
れ文字結合方式について説明する。
[0003] A conventional blurred character combining method will be described with reference to FIGS.

【0004】ここで、英文活字認識システムにおいて掠
れ文字結合方式の前段に位置する文字切出し方式によっ
て、図2(a)に示す文字行画像(1行分の文字群の画
像)に関する文字領域と推定文字ピッチPとが図2
(b)および(c)に示すように決定されているとす
る。
[0004] Here, in the English type recognition system, a character segmentation method located at the preceding stage of the blurred character combination method is used to estimate a character area related to a character line image (a character group image for one line) shown in FIG. Figure 2 shows the character pitch P
It is assumed that they are determined as shown in (b) and (c).

【0005】まず、図2(c)中の推定文字ピッチPに
基づいて、同図中の推定文字幅Wおよび推定文字間空白
Sが求められる。推定文字ピッチP,推定文字幅Wおよ
び推定文字間空白Sの関係は、次式のようになる。同式
において、C1 とC2 とは定数であり、実際の文字行画
像のいくつかが調査されて(あるいは、所定の実験が行
われて)求められた値である。 W=C1 ×P(ただし、0<C1 <1) S=C2 ×(P−W)(ただし、1>C2
First, based on the estimated character pitch P in FIG. 2C, an estimated character width W and an estimated inter-character space S in FIG. 2 are obtained. The relationship between the estimated character pitch P, the estimated character width W, and the estimated inter-character space S is as follows. In the equation, C 1 and C 2 are constants, and are values obtained by examining some actual character line images (or performing a predetermined experiment). W = C 1 × P (where 0 <C 1 <1) S = C 2 × (P−W) (where 1> C 2 )

【0006】一方、図2(b)に示す文字領域に基づい
て、図2(d)に示す文字間空白と図2(e)に示す結
合文字幅とが求められる。文字間空白とはある文字領域
の右辺から次の文字領域の左辺までの長さをいい、結合
文字幅とはある文字領域の左辺から次の文字領域の右辺
までの長さをいう。
On the other hand, based on the character area shown in FIG. 2B, a space between characters shown in FIG. 2D and a combined character width shown in FIG. 2E are obtained. The inter-character space refers to the length from the right side of a certain character area to the left side of the next character area, and the combined character width refers to the length from the left side of a certain character area to the right side of the next character area.

【0007】最後に、推定文字幅W,推定文字間空白
S,文字間空白および結合文字幅に基づいて、結合すべ
き隣接する文字領域(結合領域)が求められる。すなわ
ち、結合文字幅が推定文字幅Wより小さく文字間空白が
推定文字間空白Sより小さい隣接する2つの文字領域が
探索され、探索された文字領域が結合された領域が結合
領域として求められる(図2(f)参照)。
Finally, an adjacent character area to be combined (combined area) is determined based on the estimated character width W, the estimated inter-character space S, the inter-character space, and the combined character width. That is, two adjacent character areas whose combined character width is smaller than the estimated character width W and whose inter-character space is smaller than the estimated inter-character space S are searched, and an area where the searched character areas are combined is determined as a combined area ( FIG. 2 (f)).

【0008】上述の掠れ文字結合方式においては、「結
合文字幅が推定文字幅Wより小さく文字間空白が推定文
字幅Sより小さい」という条件を満たす隣接する文字領
域が結合領域として認識されている。ここで、斜体文字
は文字が傾いているために、一般的に、斜体文字に係る
隣接する文字領域間の文字間空白は小さくなり、結合文
字幅は小さくなる。したがって、斜体文字に係る文字領
域については、掠れ文字に係る文字領域でないにもかか
わらず上述の条件が満たされる場合が多くなる。すなわ
ち、従来の掠れ文字結合方式では、処理対象の文字が全
て通常体文字であることを前提として(斜体文字の存在
が考慮されずに)、上述の条件だけで文字領域の結合を
行うべきか否かが判定されていた。
[0008] In the above-mentioned blurred character combining method, an adjacent character region satisfying the condition that "the combined character width is smaller than the estimated character width W and the inter-character space is smaller than the estimated character width S" is recognized as the combined region. . Here, since the characters of the italic characters are inclined, the space between characters between adjacent character regions related to the italic characters is generally small, and the combined character width is small. Therefore, the above-described condition is often satisfied in a character area related to an italic character even though the character area is not a character area related to a blurred character. That is, in the conventional blurred character combining method, assuming that all characters to be processed are normal characters (without considering the presence of italic characters), should character regions be combined only under the above conditions? Or not.

【0009】[0009]

【発明が解決しようとする課題】上述した従来の掠れ文
字結合方式では、斜体文字の存在が考慮されていないの
で、斜体文字に係る文字領域が誤って結合されてしまう
という欠点があった。
In the above-mentioned conventional blurred character combining method, since the existence of italic characters is not taken into account, there is a disadvantage that character regions relating to italic characters are erroneously combined.

【0010】本発明の目的は、上述の点に鑑み、通常体
文字の掠れ文字に係る文字領域であっても斜体文字の掠
れ文字に係る文字領域であっても共通して正確に結合す
ることが可能な掠れ文字結合方式を提供することにあ
る。
SUMMARY OF THE INVENTION In view of the above, it is an object of the present invention to accurately and commonly combine a character area relating to a normal character and a character area relating to an italic character. The object of the present invention is to provide a method for combining sharp characters.

【0011】[0011]

【課題を解決するための手段】本発明の掠れ文字結合方
式は、処理対象の文字行画像に関して文字領域の大きさ
と接触領域の大きさおよび座標と接触領域間距離と結合
文字幅とを含む領域情報を求める領域情報調査手段と、
この領域情報調査手段により求められた領域情報に基づ
いて文字領域中の文字が掠れ文字の一部であるか否かを
判定する掠れ文字判定手段と、この掠れ文字判定手段に
よる判定結果に基づいて内部の文字が掠れ文字の一部で
あると判定された隣接する文字領域を結合して結合領域
を生成する文字領域結合手段とを有する。
According to the present invention, a blurred character combining method includes a character line image to be processed which includes a character region size, a contact region size, coordinates, a distance between contact regions, and a combined character width. Area information investigation means for seeking information;
Based on the area information obtained by the area information investigating means, a blurred character determining means for determining whether or not a character in a character area is a part of a blurred character, A character area combining unit configured to combine adjacent character areas determined to be a part of a blurred character, thereby generating a combined area.

【0012】[0012]

【作用】本発明の掠れ文字結合方式では、領域情報調査
手段が処理対象の文字行画像に関して文字領域の大きさ
と接触領域の大きさおよび座標と接触領域間距離と結合
文字幅とを含む領域情報を求め、掠れ文字判定手段が領
域情報調査手段により求められた領域情報に基づいて文
字領域中の文字が掠れ文字の一部であるか否かを判定
し、文字領域結合手段が掠れ文字判定手段による判定結
果に基づいて内部の文字が掠れ文字の一部であると判定
された隣接する文字領域を結合して結合領域を生成す
る。
In the blurred character combining method according to the present invention, the area information examining means uses the area information including the size of the character area, the size of the contact area, the coordinates, the distance between the contact areas, and the combined character width for the character line image to be processed. And the blurred character determination means determines whether or not the character in the character area is a part of the blurred character based on the area information obtained by the area information investigating means. Then, adjacent character areas determined to be part of a blurred character based on the result of the determination are combined to generate a combined area.

【0013】[0013]

【実施例】次に、本発明について図面を参照して詳細に
説明する。
Next, the present invention will be described in detail with reference to the drawings.

【0014】図1は、本発明の掠れ文字結合方式の一実
施例の構成を示すブロック図である。本実施例の掠れ文
字結合方式は、英文活字認識システムにおいて、既存の
方式である文字切出し方式11と、既存の方式である文
字認識方式16とに接続されている。また、本実施例の
掠れ文字結合方式は、文字行画像記憶手段12と、領域
情報調査手段13と、掠れ文字判定手段14と、文字領
域結合手段15とを含んで構成されている。
FIG. 1 is a block diagram showing the configuration of an embodiment of the sharper character combining system according to the present invention. The sharpened character combining method of this embodiment is connected to an existing character extraction method 11 and an existing character recognition method 16 in the English type recognition system. Further, the blurred character combining method of this embodiment includes a character line image storage unit 12, a region information checking unit 13, a blurred character determining unit 14, and a character region combining unit 15.

【0015】図3(a)〜(c)は、本実施例の掠れ文
字結合方式の具体的な動作を説明するための図である。
FIGS. 3A to 3C are diagrams for explaining a specific operation of the blurred character combining system of the present embodiment.

【0016】図4(a)および(b)は、領域情報調査
手段13による処理を説明するための図である。
FIGS. 4A and 4B are views for explaining the processing by the area information checking means 13. FIG.

【0017】図5は、掠れ文字判定手段14の処理を示
す流れ図である。この処理は、文字領域抽出ステップ5
1と、文字行画像処理終了判定ステップ52と、結合文
字幅大小判定ステップ53と、接触領域大小判定ステッ
プ54と、接触領域遠近判定ステップ55と、縦横比範
囲内判定ステップ56と、文字高さ・行高さ比大小判定
ステップ57と、結合領域認識ステップ58とからな
る。
FIG. 5 is a flowchart showing the processing of the blurred character determination means 14. This processing is performed in the character area extraction step 5
1, character line image processing end determination step 52, combined character width size determination step 53, contact area size determination step 54, contact area perspective determination step 55, aspect ratio range determination step 56, character height A row height ratio magnitude determination step 57 and a combined area recognition step 58;

【0018】図6(a)〜(e)は、掠れ文字判定手段
14の処理を具体的に説明するための図である。
FIGS. 6A to 6E are diagrams for specifically explaining the processing of the blurred character judging means 14. FIG.

【0019】次に、このように構成された本実施例の掠
れ文字結合方式の動作について説明する。なお、ここで
は、図3および図4に示すような「falling u
nder」という斜体文字を有する文字行画像に対する
処理が行われる場合の動作について説明する。
Next, the operation of the blurred character combining system of the embodiment constructed as described above will be described. In this case, “falling u” as shown in FIGS.
The operation when a process is performed on a character line image having an italic character “nder” will be described.

【0020】文字行画像記憶手段12は、英文活字認識
システムにおける処理対象の文書画像中の任意の1つの
文字行画像を記憶している。ここでは、文字行画像記憶
手段12は、図3(a)に示す文字行画像を記憶してい
るものとする。
The character line image storage means 12 stores an arbitrary character line image in a document image to be processed in the English type recognition system. Here, it is assumed that the character line image storage means 12 stores the character line image shown in FIG.

【0021】文字切出し方式11は、この文字行画像に
ついて、文字領域,行高さおよび推定文字ピッチを決定
する。図3(b)は、文字切出し方式11により求めら
れた文字領域の集合を示す図である。
The character extracting method 11 determines a character area, a line height, and an estimated character pitch for this character line image. FIG. 3B is a diagram showing a set of character regions obtained by the character segmentation method 11.

【0022】領域情報調査手段13は、文字行画像記憶
手段12に記憶されている文字行画像と文字切出し方式
11により決定された文字領域とを参照して、領域情報
を求める。領域情報とは、文字領域の大きさ(幅および
高さ)と、文字領域中の接触領域の大きさおよび座標
と、隣接する2つの文字領域における接触領域間距離
と、隣接する2つの文字領域における結合文字幅とを含
む情報をいう。
The area information investigating means 13 refers to the character line image stored in the character line image storage means 12 and the character area determined by the character segmentation method 11 to obtain area information. The area information includes the size (width and height) of the character area, the size and coordinates of the contact area in the character area, the distance between the contact areas in two adjacent character areas, and the two adjacent character areas. The information includes the combined character width in.

【0023】領域情報調査手段13による領域情報を求
める処理について、図4(a)および(b)を参照して
詳細に説明する。
The processing for obtaining area information by the area information checking means 13 will be described in detail with reference to FIGS. 4 (a) and 4 (b).

【0024】図4(a)は、文字行画像記憶手段12に
記憶されている文字行画像と文字切出し方式11により
求められた文字領域とを重ねて示す図である。
FIG. 4A is a diagram showing the character line image stored in the character line image storage means 12 and the character area obtained by the character segmentation method 11 in a superimposed manner.

【0025】図4(b)は、図4(a)中の一点鎖線で
囲まれた領域を拡大して示す図である。
FIG. 4B is an enlarged view of a region surrounded by a dashed line in FIG. 4A.

【0026】図4(b)において、文字領域R1 の幅と
はwであり、文字領域R1 の高さとはhである。これら
の値は、文字領域R1 中の文字が掠れ文字の一部である
か否かを判定する際の基本的な判定基準となる値であ
る。
In FIG. 4B, the width of the character region R 1 is w, and the height of the character region R 1 is h. These values are values to be fundamental criterion in determining whether a character in the character region R 1 is part of a blurred characters.

【0027】接触領域とは、文字領域の右辺と左辺とに
おいてその文字領域中の文字の黒画素が接する領域をい
い(接触領域は1つの文字領域の1つの辺において複数
個存在しうる)、図4(b)中の点rsi から点rei
までの領域(直線の範囲)をいう。なお、i=0,…,
2N−1(Nは文字行画像中の文字領域の数)であり、
図4(b)においては0≦i≦3の範囲を示している。
The contact area refers to an area where the right and left sides of the character area are in contact with the black pixels of the character in the character area (a plurality of contact areas can exist on one side of one character area). The point rs i to the point re i in FIG.
(Area of a straight line) up to this point. In addition, i = 0, ...,
2N-1 (N is the number of character areas in the character line image),
FIG. 4B shows a range of 0 ≦ i ≦ 3.

【0028】点rsi の座標は、原点を文字行画像の左
上の点として(rsi x,rsi y)で表されるものと
する。また、点rei の座標は、原点を文字行画像の左
上の点として(rei x,rei y)で表されるものと
する。これらの座標の関係は、rsi x=rei xであ
り、rsi y≦rei yである。
The coordinates of the point rs i are represented by (rs ix , rs i y) with the origin at the upper left point of the character line image. The coordinates of the point re i are represented by (re ix , re i y) with the origin being the upper left point of the character line image. Relationship between these coordinates are rs i x = re i x, is rs i y ≦ re i y.

【0029】接触領域の大きさとは、点rsi と点re
i との間隔rwi のことをいい、次式により求められる
値をいう。 rwi =rei y−rsi y(ただし、rwi ≧0)
The size of the contact area is defined as a point rs i and a point re.
It means an interval rwi with i , and a value obtained by the following equation. rw i = re i y-rs i y ( However, rw i ≧ 0)

【0030】接触領域の座標とは、点rsi および点r
i の座標である(rsi x,rsi y)および(re
i x,rei y)のことをいう。
The coordinates of the contact area are the points rs i and r
The coordinates of e i (rs ix , rs i y) and (re
ix , re i y).

【0031】ある文字領域Rj の右辺の接触領域と次の
文字領域Rj+1 の左辺の接触領域との距離である接触領
域間距離dj は、次式により求められる(ここで、j=
1,…,N−1であり、k=2j−1である)。なお、
1つの文字領域の1つの辺について複数個の接触領域が
存在する場合には、隣接する文字領域に関する接触領域
の組合せの全てについて上述の距離が求められ、それら
の距離の中の最小値が最終的な接触領域間距離として決
定される。 dj =1/2×〔{(rsk+1 x−rsk x)2 +(r
k+1 y−rsk y)21/2 +{(rek+1 x−re
k x)2 +(rek+1 y−rek y)2 1/2
The distance d j between contact areas, which is the distance between the contact area on the right side of a certain character area R j and the contact area on the left side of the next character area R j + 1 , is obtained by the following equation (where j =
1,..., N−1, and k = 2j−1). In addition,
When there are a plurality of contact areas for one side of one character area, the above distances are obtained for all combinations of contact areas for adjacent character areas, and the minimum value of those distances is the final value. Is determined as a typical distance between contact areas. dj = 1/2 × [{(rs k + 1 x−rs k x) 2 + (r
s k + 1 y-rs k y) 2} 1/2 + {(re k + 1 x-re
k x) 2 + (re k + 1 y-re k y) 2} 1/2 ]

【0032】結合文字幅とは、ある文字領域の左辺から
次の文字領域の右辺までの長さをいい、図4(b)中の
cw(文字領域R1 の左辺から文字領域R2 の右辺まで
の長さ)で示される値をいう。
The binding character width refers to the length from the left side of a character area to the right side of the next character area, and FIG. 4 (b) in the cw (from the left side of the character region R 1 of the character region R 2 right Length).

【0033】領域情報調査手段13は、以上のような文
字領域の大きさと接触領域の大きさおよび座標と接触領
域間距離と結合文字幅とを含む領域情報を求めて出力す
る。
The area information investigating means 13 obtains and outputs area information including the size of the character area, the size of the contact area, the coordinates, the distance between the contact areas, and the combined character width as described above.

【0034】掠れ文字判定手段14は、領域情報調査手
段13によって求められた領域情報と文字切出し方式1
1により求められた行高さおよび推定文字ピッチとを用
いて、結合領域を認識するための判定処理を行う。
The blurred character judging means 14 compares the area information obtained by the area information examining means 13 with the character extraction method 1
Using the line height and the estimated character pitch obtained in step 1, a determination process for recognizing the combined area is performed.

【0035】すなわち、掠れ文字判定手段14は、領域
情報と文字行画像の行高さおよび推定文字ピッチとを参
照して、各文字領域中の文字が掠れ文字の一部であるか
否かを判定し(ある文字領域中の文字が掠れ文字の一部
であればその文字領域は結合領域に属することにな
る)、その判定結果を出力する。
That is, the blurred character determination means 14 refers to the area information, the line height of the character line image, and the estimated character pitch to determine whether or not the characters in each character area are part of the blurred characters. A determination is made (if a character in a certain character area is a part of a blurred character, the character area belongs to the combined area), and the result of the determination is output.

【0036】掠れ文字判定手段14による処理につい
て、図5および図6を参照して詳細に説明する。掠れ文
字判定手段14は、次のような処理を行う。
The processing by the blurred character determination means 14 will be described in detail with reference to FIGS. The slashed character determination unit 14 performs the following processing.

【0037】まず最初に、文字行画像記憶手段12内の
文字行画像の中から隣接する2つの文字領域を抽出する
(先頭の文字領域から順次抽出する)(ステップ5
1)。
First, two adjacent character areas are extracted from the character line image in the character line image storage means 12 (extract sequentially from the first character area) (step 5).
1).

【0038】1行分の文字行画像の処理が終了したか否
かを判定する(ステップ52)。
It is determined whether the processing of the character line image for one line has been completed (step 52).

【0039】この判定で「1行分の文字行画像の処理が
終了している」場合には、処理を終了する。
If the result of this determination is that "processing of one character line image has been completed", the processing is terminated.

【0040】ステップ52の判定で「1行分の文字行画
像の処理が終了していない」場合には、判定対象の2つ
の文字領域に関する結合文字幅が推定文字ピッチより小
さいか否かを判定する(ステップ53)。このような判
定を行うのは、判定対象の2つの文字領域中の文字が掠
れ文字の一部であればそれらの文字領域に関する結合文
字幅が推定文字ピッチよりも小さい可能性が大きいから
である。
If it is determined in step 52 that the processing of the character line image for one line has not been completed, it is determined whether the combined character width of the two character regions to be determined is smaller than the estimated character pitch. (Step 53). Such a determination is made because if the characters in the two character regions to be determined are part of the blurred characters, there is a high possibility that the combined character width for those character regions is smaller than the estimated character pitch. .

【0041】ステップ53の判定で「結合文字幅が推定
文字ピッチより小さくない」場合には、判定対象の文字
領域中の文字が掠れ文字の一部である可能性が小さいの
で、ステップ51に処理を戻して次の文字領域に関する
処理(それまで処理していた2つの文字領域の右側の文
字領域とその次(右)の文字領域とに関する処理)に進
む。
If it is determined in step 53 that the combined character width is not smaller than the estimated character pitch, it is unlikely that the character in the character area to be determined is a part of a blurred character. And returns to the process for the next character region (the process for the character region on the right side of the two character regions that have been processed and the next (right) character region).

【0042】ステップ53の判定で「結合文字幅が推定
文字ピッチより小さい」場合には、判定対象の2つの文
字領域に関する隣接する辺の接触領域が小さいか否かを
判定する(判定対象の2つの文字領域に関する隣接する
辺における複数の接触領域の大きさの合計値が判定の対
象の値となる)(ステップ54)。このような判定を行
うのは、ゴシック体の文字等の場合には接触領域が近く
ても(後述するステップ55の判定参照)掠れ文字でな
い場合があり、このような場合には一般的に判定対象の
文字領域における隣接する辺の接触領域が大きくなるか
らである(図6(a)参照)。
If it is determined in step 53 that the combined character width is smaller than the estimated character pitch, it is determined whether or not the contact area on the adjacent side with respect to the two character areas to be determined is small. The total value of the sizes of the plurality of contact areas on adjacent sides of one character area is the value to be determined (step 54). Such a determination may be made in the case of a Gothic character or the like even if the contact area is close (see the determination in step 55 described later) and the character is not a blurred character. This is because the contact area of the adjacent side in the target character area increases (see FIG. 6A).

【0043】ステップ54の判定で「接触領域が小さく
ない」場合には、判定対象の文字領域中の文字が掠れ文
字の一部である可能性が小さいので、ステップ51に処
理を戻して次の文字領域に関する処理に進む。
If it is determined in step 54 that the contact area is not small, it is unlikely that the character in the character area to be determined is a part of a blurred character, so the process returns to step 51 to return to the next step. Proceed to the process for the character area.

【0044】ステップ54の判定で「接触領域が小さ
い」場合には、判定対象の2つの文字領域の接触領域が
近いか否かを判定する(ステップ55)。このような判
定を行うのは、ステップ53および54の判定が「Ye
s」であっても(結合文字幅が小さい等の状態であって
も)、図6(b)に示すような斜体文字同士に係る2つ
の文字領域(隣接する別個の斜体文字同士に係る2つの
文字領域の間の接触領域は一般的に遠くなる)を結合す
ることは妥当ではないからである(結合すべきでない文
字領域を誤って結合してしまうのを防ぐ必要があるから
である)。
If the determination in step 54 is "small contact area", it is determined whether or not the two character areas to be determined are close to each other (step 55). Such determination is made because the determination in steps 53 and 54 is “Ye
s "(even if the combined character width is small, etc.), two character areas related to italic characters as shown in FIG. It is not appropriate to combine (the contact area between two character areas is generally farther away) because it is necessary to prevent accidentally combining character areas that should not be combined .

【0045】ステップ55の判定で「接触領域が近くな
い」場合には、判定対象の文字領域中の文字が掠れ文字
の一部である可能性が小さいので、ステップ51に処理
を戻して次の文字領域に関する処理に進む。
If it is determined in step 55 that "the contact area is not close", it is unlikely that the character in the character area to be determined is a part of the blurred character. Proceed to the process for the character area.

【0046】ステップ55の判定で「接触領域が近い」
場合には、判定対象の文字領域中の文字の縦横比が設定
値の範囲内である(「縦の長さ」/「横の長さ」が設定
値よりも大きい)か否かを判定する(2つの文字領域中
の文字の両方について、縦横比が設定値よりも大きいか
否かを判定する)(ステップ56)。このような判定を
行うのは、ステップ53〜55の判定が「Yes」であ
っても、図6(c)に示す「−」のような文字同士に係
る2つの文字領域を結合することは妥当ではないからで
ある。
In the determination of step 55, "the contact area is close"
In this case, it is determined whether the aspect ratio of the character in the character area to be determined is within the range of the set value (“vertical length” / “horizontal length” is larger than the set value). (It is determined whether the aspect ratio is greater than the set value for both characters in the two character areas) (step 56). This determination is made even if the determinations in steps 53 to 55 are “Yes” that two character areas related to characters such as “−” shown in FIG. This is not appropriate.

【0047】ステップ56の判定で「文字の縦横比が設
定値の範囲内でない」場合(図6(c)に示すような場
合)には、判定対象の文字領域中の文字が掠れ文字の一
部である可能性が小さいので、ステップ51に処理を戻
して次の文字領域に関する処理に進む。
If it is determined in step 56 that the character aspect ratio is not within the set value range (as shown in FIG. 6C), the character in the character area to be determined is one of the blurred characters. Since it is unlikely that the set is a copy, the process returns to step 51 and proceeds to the process for the next character area.

【0048】ステップ56の判定で「文字の縦横比の範
囲が設定値の範囲内である」場合には、判定対象の文字
領域中の文字の文字高さと文字行画像の行高さとの比が
小さい(「文字高さ」/「行高さ」が一定の設定値より
も小さい)か否かを判定する(ステップ57)。このよ
うな判定を行うのは、ステップ53〜56の判定が「Y
es」であっても、図6(d)に示す「I」のような文
字同士に係る2つの文字領域を結合することは妥当では
ないからである。
If "the range of the character aspect ratio is within the range of the set value" is determined in step 56, the ratio between the character height of the character in the character area to be determined and the line height of the character line image is determined. It is determined whether it is small (“character height” / “line height” is smaller than a certain set value) (step 57). Such determination is made because the determination in steps 53 to 56 is “Y
This is because, even with “es”, it is not appropriate to combine two character areas related to characters such as “I” shown in FIG.

【0049】ステップ57の判定で「文字高さと行高さ
との比が小さくない」場合には、判定対象の文字領域中
の文字が掠れ文字の一部である可能性が小さいので、ス
テップ51に処理を戻して次の文字領域に関する処理に
進む。
If it is determined in step 57 that the ratio between the character height and the line height is not small, it is unlikely that the character in the character area to be determined is a part of a blurred character. The processing is returned to the processing for the next character area.

【0050】ステップ57の判定で「文字高さと行高さ
との比が小さい」場合には、ステップ53〜57の判定
条件(判定対象の文字領域中の文字が掠れ文字の一部で
あると判定する際の判定条件)が全て満たされているの
で、判定対象の2つの文字領域を結合領域として認識す
る(ステップ58)。例えば、図6(e)に示す「u」
や「n」という掠れ文字に係る2つの文字領域を結合領
域として認識する。図3(b)に示す例では、矢線で示
す隣接する2つの文字領域が結合領域として認識され
る。
If "the ratio between the character height and the line height is small" in the determination in step 57, the determination conditions in steps 53 to 57 (determine that the character in the character area to be determined is a part of a blurred character) Are satisfied, the two character areas to be determined are recognized as combined areas (step 58). For example, “u” shown in FIG.
And two character areas related to the slashed character "n" are recognized as combined areas. In the example shown in FIG. 3B, two adjacent character areas indicated by arrows are recognized as combined areas.

【0051】なお、以上の判定処理において、「小さい
/大きい」,「近い/遠い」等の判定の基準となる具体
的な数値は、実際の文字行画像の調査等に基づいて決定
される。
In the above-described determination processing, specific numerical values serving as criteria for determination such as “small / large” and “near / far” are determined based on a survey of an actual character line image.

【0052】文字領域結合手段15は、掠れ文字判定手
段14から出力された判定結果に基づいて、内部の文字
が掠れ文字の一部であると判定された隣接する2つの文
字領域を結合領域として結合し(図3(c)参照)、結
合後の文字領域の集合(結合領域も1つの文字領域と認
識されている集合)を文字認識方式16に渡す。
The character area combining means 15 sets two adjacent character areas determined as being a part of the blurred character as the combined area based on the determination result output from the blurred character determination means 14. The character areas are combined (see FIG. 3C), and a set of character areas after combination (a set in which the combined areas are also recognized as one character area) is passed to the character recognition system 16.

【0053】文字認識方式16は、その文字領域の集合
に係る文字を認識する処理を行う(この文字認識におい
ては、文字行画像記憶手段12内の文字行画像が参照さ
れる)。
The character recognition system 16 performs a process of recognizing a character relating to the set of character areas (in this character recognition, a character line image in the character line image storage means 12 is referred to).

【0054】[0054]

【発明の効果】以上説明したように本発明は、斜体文字
の存在を考慮して掠れ文字に係る文字領域の結合を行う
ことにより、通常体文字の掠れ文字に係る文字領域と斜
体文字の掠れ文字に係る文字領域とを共通に対象とし
て、掠れ文字に係る文字領域の正確な結合を行うことが
可能になるという効果がある。なお、このような効果に
より、文字認識方式によって行われる文字認識の精度を
向上させることが可能になる。
As described above, according to the present invention, by combining the character areas related to the blurred characters in consideration of the existence of the italic characters, the character area related to the blurred characters of the normal characters and the blurring of the italic characters are combined. There is an effect that it is possible to perform an accurate combination of a character area relating to a blurred character by targeting a character area relating to a character in common. It should be noted that such effects make it possible to improve the accuracy of character recognition performed by the character recognition method.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施例の構成を示すブロック図であ
る。
FIG. 1 is a block diagram showing the configuration of an embodiment of the present invention.

【図2】従来の掠れ文字結合方式を説明するための図で
ある。
FIG. 2 is a diagram for explaining a conventional blurred character combining method.

【図3】図1に示す掠れ文字結合方式の動作を説明する
ための図である。
FIG. 3 is a diagram for explaining the operation of the blurred character combining method shown in FIG. 1;

【図4】図1中の領域情報調査手段による領域情報を求
める処理を説明するための図である。
FIG. 4 is a diagram for explaining a process of obtaining area information by an area information investigating unit in FIG. 1;

【図5】図1中の掠れ文字判定手段による処理を示す流
れ図である。
FIG. 5 is a flowchart showing processing by a blurred character determination unit in FIG. 1;

【図6】図5に示す掠れ文字判定手段による処理を具体
的に説明するための図である。
FIG. 6 is a diagram for specifically explaining a process performed by a blurred character determination unit shown in FIG. 5;

【符号の説明】[Explanation of symbols]

11 文字切出し方式 12 文字行画像記憶手段 13 領域情報調査手段 14 掠れ文字判定手段 15 文字領域結合手段 16 文字認識方式 11 Character Extraction Method 12 Character Line Image Storage Means 13 Area Information Investigation Means 14 Sharp Character Determination Means 15 Character Area Combining Means 16 Character Recognition Method

Claims (1)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 処理対象の文字行画像に関して文字領域
の大きさと接触領域の大きさおよび座標と接触領域間距
離と結合文字幅とを含む領域情報を求める領域情報調査
手段と、 この領域情報調査手段により求められた領域情報に基づ
いて文字領域中の文字が掠れ文字の一部であるか否かを
判定する掠れ文字判定手段と、 この掠れ文字判定手段による判定結果に基づいて内部の
文字が掠れ文字の一部であると判定された隣接する文字
領域を結合して結合領域を生成する文字領域結合手段と
を有することを特徴とする掠れ文字結合方式。
1. An area information searching means for obtaining area information including a size of a character area, a size of a contact area, coordinates, a distance between contact areas, and a combined character width with respect to a character line image to be processed; Means for determining whether or not a character in the character area is a part of a blurred character based on the area information obtained by the means; A character area combining means for combining adjacent character areas determined to be part of a blurred character to generate a combined area.
JP4035699A 1992-01-27 1992-01-27 Sharp character combination method Expired - Fee Related JP2821303B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4035699A JP2821303B2 (en) 1992-01-27 1992-01-27 Sharp character combination method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4035699A JP2821303B2 (en) 1992-01-27 1992-01-27 Sharp character combination method

Publications (2)

Publication Number Publication Date
JPH05205104A JPH05205104A (en) 1993-08-13
JP2821303B2 true JP2821303B2 (en) 1998-11-05

Family

ID=12449133

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4035699A Expired - Fee Related JP2821303B2 (en) 1992-01-27 1992-01-27 Sharp character combination method

Country Status (1)

Country Link
JP (1) JP2821303B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100977713B1 (en) * 2003-03-15 2010-08-24 삼성전자주식회사 Device and method for pre-processing in order to recognize characters in images
US7766026B2 (en) 2006-10-27 2010-08-03 Boey Kum F Faucet control system and method

Also Published As

Publication number Publication date
JPH05205104A (en) 1993-08-13

Similar Documents

Publication Publication Date Title
US5410611A (en) Method for identifying word bounding boxes in text
US6347156B1 (en) Device, method and storage medium for recognizing a document image
US6327384B1 (en) Character recognition apparatus and method for recognizing characters
JPH11219407A (en) Document image recognizing device and storage medium for document image recognizing program
JPH0713995A (en) Automatic determination device of feature of text
JPH09179937A (en) Method for automatically discriminating boundary of sentence in document picture
JP2001283152A (en) Device and method for discrimination of forms and computer readable recording medium stored with program for allowing computer to execute the same method
JP5600723B2 (en) Method and system for splitting characters in a text line having various character widths
JP2008217833A (en) Document image recognition system and storage medium for document image recognition program
US7146047B2 (en) Image processing apparatus and method generating binary image from a multilevel image
US8787702B1 (en) Methods and apparatus for determining and/or modifying image orientation
Boudraa et al. An improved skew angle detection and correction technique for historical scanned documents using morphological skeleton and progressive probabilistic hough transform
JPH09311905A (en) Line detecting method and character recognition device
JP2821303B2 (en) Sharp character combination method
JP4228592B2 (en) Character recognition device
JPH06203202A (en) Image processor
US11710331B2 (en) Systems and methods for separating ligature characters in digitized document images
JPH07230525A (en) Method for recognizing ruled line and method for processing table
JP2003208568A (en) Image processor, image processing method and program used in the method
JPH0728935A (en) Document image processor
JP3115139B2 (en) Character extraction method
JP3402755B2 (en) Area division method
JP3104355B2 (en) Feature extraction device
JP2795222B2 (en) Character extraction method and character extraction device
JP3226355B2 (en) Recognition result evaluation method

Legal Events

Date Code Title Description
S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees