JPH06111070A - Character recognizing device - Google Patents

Character recognizing device

Info

Publication number
JPH06111070A
JPH06111070A JP4262553A JP26255392A JPH06111070A JP H06111070 A JPH06111070 A JP H06111070A JP 4262553 A JP4262553 A JP 4262553A JP 26255392 A JP26255392 A JP 26255392A JP H06111070 A JPH06111070 A JP H06111070A
Authority
JP
Japan
Prior art keywords
pattern
character
character string
cutting
cutting line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4262553A
Other languages
Japanese (ja)
Inventor
Yasuto Ishitani
康人 石谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP4262553A priority Critical patent/JPH06111070A/en
Publication of JPH06111070A publication Critical patent/JPH06111070A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

PURPOSE:To provide a character recognizing device capable of performing the recognition of each character pattern by accurately segmenting a character string pattern which comes in contact with a graphic pattern. CONSTITUTION:A round pattern is extracted from an input image extracted by an image input part 4 by a graphic pattern extraction part 6, and also. the presence area of the round pattern and that of the character string pattern in the inside are detected. respectively, and the boundary area of the contact part of the round pattern with the character string pattern is detected by using information relating to the round pattern. Two points which comprise the cutoff line of the round pattern and the character string pattern are found for the boundary area, and the character string pattern is segmented by a circular arc connecting those points, thereby, following character recognition can be performed.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、文書や図面中に記載さ
れた特定形状の図形に接触したり内包された文字列を抽
出し各文字パターンについての認識を行う文字認識装置
に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character recognizing device for recognizing each character pattern by extracting a character string which is in contact with or contained in a figure of a specific shape described in a document or a drawing. .

【0002】[0002]

【従来の技術】最近、文書や図形に記載された文字列を
抽出し各文字パターンを自動的に認識する文字認識装置
が盛んに用いられるようになっているが、これまでの文
字認識装置では、例えば、丸中文字や丸中文字列のよう
な特定形状の図形に接触したり内包されるような文字列
については他の文字列と区別して検出することができな
かった。
2. Description of the Related Art Recently, a character recognition device for extracting a character string written in a document or a figure and automatically recognizing each character pattern has been widely used. For example, a character string that comes into contact with or is included in a graphic of a particular shape such as a Marunaka character or a Marunaka character string cannot be detected separately from other character strings.

【0003】このため、このような文字認識装置では、
丸中文字列について外側の円とともに一塊の文字パター
ンとして取り扱うことになるため、正しくコード化する
ことができず、仮に、そのパターンに対して丸中文字列
であるという知識を利用して認識処理を行うようにして
も、文字列と丸(円)が接触している場合には、正確な
文字列パターンの切り出しができないため認識精度が著
しく低下するといった問題点があった。
Therefore, in such a character recognition device,
The Marunaka character string is handled as a block of character patterns together with the outer circle, so it cannot be coded correctly, and the recognition process is performed using the knowledge that the pattern is a Marunaka character string. However, if the character string and the circle (circle) are in contact with each other, there is a problem that the recognition accuracy is significantly reduced because the character string pattern cannot be cut out accurately.

【0004】また、従来の文字認識装置では、文字列パ
ターンにおいて各文字パターン同士が接触しているよう
な場合には文字列パターンを所定間隔の文字列の方向に
垂直な直線により切断し、その時の黒画素と白画素の分
布から各文字パターンを判断して切り出を行うようにし
ているが、上述の丸中文字列のように図形に内包されて
いる文字列においてよく見られる各文字同士が複雑に入
り組んで接触しているような場合には対応できないとい
った問題点があった。
Further, in the conventional character recognition device, when the character patterns are in contact with each other in the character string pattern, the character string pattern is cut by straight lines perpendicular to the direction of the character string at predetermined intervals, and at that time. Each character pattern is judged based on the distribution of black pixels and white pixels of each character and cut out, but each character that is often seen in a character string included in a figure such as the above Marunaka character string However, there is a problem in that it is not possible to deal with cases in which they are intricately intricately contacting each other.

【0005】[0005]

【発明が解決しようとする課題】このように従来の文字
認識装置にあっては、丸中文字列のような特定の形状を
した図形に接触および内包されている文字列については
その存在領域を自動的に検出できず、また、当該図形パ
ターンと文字列パターンが接触しているような場合には
図形パターンと文字列パターンを正確に分離できず、さ
らには文字同士が複雑に入り組んで接触しているような
場合には文字パターンの正確な切り出しができないとい
った問題点があった。
As described above, in the conventional character recognition apparatus, the existence area of a character string that is in contact with or contained in a figure having a specific shape such as a Maruchu character string is determined by its existence area. If the figure pattern and the character string pattern cannot be detected automatically, and the figure pattern and the character string pattern are in contact with each other, the figure pattern and the character string pattern cannot be accurately separated. However, there is a problem that the character pattern cannot be cut out accurately.

【0006】本発明は上記事情に鑑みなされたもので、
図形パターンに接触するような文字列パターンを正確に
切り出して各文字パターンの認識を行うことができる文
字認識装置を提供することを目的とする。
The present invention has been made in view of the above circumstances.
An object of the present invention is to provide a character recognition device that can accurately cut out a character string pattern that comes into contact with a figure pattern and recognize each character pattern.

【0007】また、本発明は、文字同士が複雑に入り組
んで接触するような文字列パターンについても各文字パ
ターンを正確に切り出して認識を行うことができる文字
認識装置を提供することを目的とする。
It is another object of the present invention to provide a character recognition device capable of accurately slicing and recognizing a character string pattern in which characters are intricately intricately touching each other. .

【0008】[0008]

【課題を解決するための手段】本発明の文字認識装置
は、互いに接触する複数の文字パターンから構成される
文字列パターンの外側の輪郭部上における各文字パター
ンの切断線端点の候補を検出する手段と、前記文字列パ
ターンが形成する内側の輪郭部上における各文字パター
ンの切断線端点の候補を検出する手段と、これら手段よ
り検出された各切断線端点の候補から各文字パターンの
切断線と見なされる線分を構成する切断線端点のペアを
抽出する手段と、この抽出されたペアの切断線端点を結
ぶ線分で文字パターンの切り出しを行う手段により構成
されている。
A character recognition device of the present invention detects a candidate for a cutting line end point of each character pattern on an outer contour portion of a character string pattern composed of a plurality of character patterns that are in contact with each other. Means, means for detecting a candidate for a cutting line endpoint of each character pattern on the inner contour portion formed by the character string pattern, and a cutting line for each character pattern from the candidates for each cutting line endpoint detected by these means And a means for extracting a pair of cutting line end points forming a line segment regarded as a line segment and a means for cutting out a character pattern with a line segment connecting the cutting line end points of the extracted pair.

【0009】また、本発明は、互いに接触する複数の文
字パターンから構成される文字列パターンを該文字列パ
ターンの文字列方向に垂直な方向の走査線で順次走査し
て各文字パターンが接触する箇所を検出するとともにこ
れら接触箇所を通る走査線により文字列パターンを切断
する第1の部分パターン切り出し手段と、互いに接触す
る複数の文字パターンから構成される文字列パターンの
外側の輪郭部上における各文字パターンの切断線端点の
候補を検出する手段、前記文字列パターンが形成する内
側の輪郭部上における各文字パターンの切断線端点の候
補を検出する手段、これら手段より検出された各切断線
端点の候補から各文字パターンの切断線と見なされる線
分を構成する切断線端点のペアを抽出する手段、この抽
出されたペアの切断線端点を結ぶ線分で文字パターンの
切り出しを行う手段を有する第2の部分パターン切り出
し手段と、これら第1および第2のパターン切り出し手
段より切り出された部分パターンの集合から隣接する部
分パターンを文字らしさの基準に照らし統合することで
可能なすべての文字候補パターンを生成する手段と、前
記文字候補パターンに対しパターン照合による認識処理
を行うとともに各文字候補パターンについて最大類似度
値を付与する手段と、前記文字候補パターンから文字の
並び方に関する基準に照らして可能なすべての文字列の
組み合わせを文字列候補として生成する手段と、この手
段で生成された文字列候補について各文字候補パターン
の最大類似度値の合計の最も高いものを文字認識結果と
して出力する手段により構成されている。
Further, according to the present invention, a character string pattern composed of a plurality of character patterns that are in contact with each other is sequentially scanned by a scanning line in a direction perpendicular to the character string direction of the character string pattern so that the respective character patterns come into contact with each other. First partial pattern cutting-out means for detecting a position and cutting the character string pattern by a scanning line passing through these contact points, and each on the outer contour portion of the character string pattern composed of a plurality of character patterns in contact with each other. Means for detecting candidates of cutting line end points of a character pattern, means for detecting candidates of cutting line end points of each character pattern on the inner contour portion formed by the character string pattern, and each cutting line end point detected by these means Means for extracting a pair of cutting line end points forming a line segment considered to be a cutting line of each character pattern from the candidates of A second partial pattern cutout unit having a unit for cutting out a character pattern with a line segment connecting line end points, and an adjacent partial pattern from a set of partial patterns cut out by the first and second pattern cutout units Means for generating all possible character candidate patterns by integrating them in light of the likelihood criterion, and means for performing recognition processing by pattern matching for the character candidate patterns and giving a maximum similarity value for each character candidate pattern. A means for generating all possible character string combinations from the character candidate patterns in accordance with the criteria regarding the arrangement of characters as character string candidates, and the maximum similarity of each character candidate pattern for the character string candidates generated by this means It consists of a means to output the highest sum of the values as the character recognition result. That.

【0010】さらに本発明は、入力画像に対して特定形
状の図形パターンを抽出し図形パターンおよび該図形パ
ターンに接触している文字列パターンのそれぞれの存在
領域を検出する手段と、前記図形パターンに関する情報
を用いて前記図形パターンと文字列パターンの接触部分
での境界領域を検出する手段と、この手段より検出され
た境界領域に対して前記図形パターンと文字列パターン
の切断線と見なされる線分を構成する端点のペアを抽出
する手段と、この手段で抽出されたペアの端点を結ぶ線
分で文字列パターンの切り出しを行う手段とにより構成
されている。
Further, the present invention relates to a means for extracting a figure pattern having a specific shape from an input image and detecting the respective existing regions of the figure pattern and the character string pattern in contact with the figure pattern, and the figure pattern. Means for detecting a boundary area at the contact portion between the graphic pattern and the character string pattern using information, and a line segment regarded as a cutting line between the graphic pattern and the character string pattern for the boundary area detected by this means And a means for extracting a character string pattern with a line segment connecting the end points of the pair extracted by this means.

【0011】[0011]

【作用】この結果、本発明によれば、互いに接触する複
数の文字パターンから構成される文字列パターンに対し
て、文字列パターンの外内輪郭部で検出した切断線端点
の候補から各文字パターンの切断線と見なされる線分を
構成する切断線端点のペアを抽出し、このペアの切断線
端点を結ぶ線分で文字パターンの切り出しを行うように
なるので、複雑に入り組んで接触している文字列でも正
確な文字の切出しが可能となる。
As a result, according to the present invention, for a character string pattern composed of a plurality of character patterns that are in contact with each other, each character pattern is selected from the candidates of the cutting line end points detected at the outer and inner contour portions of the character string pattern. A pair of cutting line end points that form a line segment that is considered to be a cutting line is extracted, and the character pattern is cut out with the line segment that connects the cutting line end points of this pair, so it is intricately intricately touching. Accurate cut-out of characters is possible even with character strings.

【0012】また、このような文字パターンの切り出し
手段に並行して文字列方向と垂直な走査線を用いて文字
パターンの切り出しを行う手段を実施し、これら手段よ
り得られた文字パターンより可能なすべての文字候補パ
ターンを生成し、この中から最大類似度値の合計の最も
高いものを文字認識結果として出力するようになるの
で、上述と同様に複雑に入り組んで接触している文字列
でも正確な文字の切出しができるとともに、精度の高い
文字認識を実現することができる。
Further, a means for cutting out a character pattern by using a scanning line perpendicular to the character string direction is provided in parallel with such a means for cutting out a character pattern, and a character pattern obtained by these means can be used. All character candidate patterns are generated, and the one with the highest sum of maximum similarity values is output as the character recognition result. It is possible to cut out various characters and realize highly accurate character recognition.

【0013】さらに、入力画像に対して特定形状をした
図形パターンを抽出することで図形パターンと該図形パ
ターンに接触している文字列パターンのそれぞれの存在
領域を検出するとともに、この図形パターンに関する情
報を用いて図形パターンより文字列パターンを切り出す
ようになるので、図形パターンに複雑に接触している文
字列でも正確な文字の切出しが可能となる。
Further, by extracting a graphic pattern having a specific shape from the input image, each existing area of the graphic pattern and the character string pattern in contact with the graphic pattern is detected, and information regarding this graphic pattern is detected. Since the character string pattern is cut out from the graphic pattern by using, it is possible to accurately cut out a character string even in complicated contact with the graphic pattern.

【0014】[0014]

【実施例】以下、本発明の一実施例を図面に従い説明す
る。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described below with reference to the drawings.

【0015】図1は同実施例の概略構成を示している。
図において、1は操作部で、この操作部1は、本装置の
運用に関する指示情報の入力に用いられるキーボード、
マウス、ペン等からなるなっている。この操作部1から
の入力データは制御部2に送られる。この制御部2は各
回路の制御を指示するもので、この制御部2には、表示
部3、画像入力部4、出力部5、図形パターン抽出部
6、文字列パターン抽出部7、第1部分パターン切り出
し部8、第2部分パターン切り出部9、文字候補パター
ン生成部10、評価部13、記憶部15を接続してい
る。また、文字候補パターン生成部10には、辞書部1
2を接続したパターン照合部11を接続し、評価部13
には、後処理部14を接続している。
FIG. 1 shows a schematic configuration of the same embodiment.
In the figure, reference numeral 1 denotes an operation unit, which is a keyboard used for inputting instruction information regarding the operation of the apparatus,
It consists of a mouse and a pen. The input data from the operation unit 1 is sent to the control unit 2. The control unit 2 instructs the control of each circuit. The control unit 2 includes a display unit 3, an image input unit 4, an output unit 5, a figure pattern extraction unit 6, a character string pattern extraction unit 7, and a first unit. The partial pattern cutout unit 8, the second partial pattern cutout unit 9, the character candidate pattern generation unit 10, the evaluation unit 13, and the storage unit 15 are connected. Further, the character candidate pattern generation unit 10 includes the dictionary unit 1
2 is connected, the pattern matching unit 11 is connected, and the evaluation unit 13 is connected.
The post-processing unit 14 is connected to the.

【0016】ここで、表示部3は、種々の情報をオぺレ
ータに提示するためのCRTディスプレイ等からなって
いる。また、画像入力部4は、文書や図面を例えば光学
的にスキャンし、画像情報として入力するものである。
これにより本装置での文字認識処理は、画像入力部4か
ら画像情報として入力された文書・図面に対して操作部
1での操作と、表示部3による情報提示により対話的に
進められる。
Here, the display unit 3 is composed of a CRT display or the like for presenting various kinds of information to the operator. Further, the image input unit 4 optically scans a document or drawing, for example, and inputs it as image information.
As a result, the character recognition processing in the present apparatus is interactively proceeded by the operation of the operation unit 1 and the information presentation by the display unit 3 with respect to the document / drawing input as image information from the image input unit 4.

【0017】そして、画像入力部4から入力された画像
情報は、図形パターン抽出部6に送られる。この図形パ
ターン抽出部6は、例えば、円を特定の図形パターンと
考える場合には、画像情報全体に対してHough変換
を施して円の抽出を行うことにより丸中文字列の記載位
置およびそれに外接する円パターンに関する情報を抽出
するものである。
The image information input from the image input unit 4 is sent to the graphic pattern extraction unit 6. For example, when considering a circle as a specific graphic pattern, the figure pattern extraction unit 6 performs Hough conversion on the entire image information to extract the circle, thereby making it possible to extract the circle and the circumscribing position of the Marunaka character string. The information on the circle pattern to be extracted is extracted.

【0018】文字列切り出し部7は、図形パターン抽出
部6で抽出された図形を伴う文字列パターンから当該図
形パターンに関する情報を用いて図形パターンと文字パ
ターンを分離することにより文字列パターンを抽出する
ものである。ここで抽出された文字列パターンが複数文
字行で構成されている場合にはさらに各文字列(行)パ
ターンを切り出す。
The character string cutout unit 7 extracts the character string pattern from the character string pattern accompanied by the graphic extracted by the graphic pattern extraction unit 6 by separating the graphic pattern and the character pattern by using the information about the graphic pattern. It is a thing. When the character string pattern extracted here is composed of a plurality of character lines, each character string (row) pattern is further cut out.

【0019】第1部分パターン切り出し部8は、文字列
切り出し部7により切り出された文字列パターンを文字
列方向に垂直な直線で切断することにより部分パターン
群SP1を抽出するものである。第2部分パターン切り
出し分9は、第1部分パターン切り出し部8と並行して
独立に文字列パターンを文字列パターンの輪郭部で検出
された文字パターンが接触している箇所のうち、異なる
2つを結んだ線分で切断することにより部分パターン群
SP2を抽出するものである。
The first partial pattern cutout unit 8 extracts the partial pattern group SP1 by cutting the character string pattern cut out by the character string cutout unit 7 with a straight line perpendicular to the character string direction. The second partial pattern cutout portions 9 are different from each other in parallel with the first partial pattern cutout portion 8 among the positions where the character pattern detected in the contour portion of the character string pattern is in contact with the character string pattern independently. The partial pattern group SP2 is extracted by cutting with a line segment connecting the.

【0020】そして、第1部分パターン切り出し部8と
第2部分パターン切り出し分9からより抽出される部分
パターン群SP1およびSP2は、文字候補パターン生
成部10に送られる。
Then, the partial pattern groups SP1 and SP2 extracted from the first partial pattern cutout unit 8 and the second partial pattern cutout portion 9 are sent to the character candidate pattern generation unit 10.

【0021】文字候補パターン生成部10は、部分パタ
ーン群SP1およびSP2に対して隣接する部分パター
ンを文字らしさの基準に照らして再統合することにより
可能な全ての文字候補パターンを発生させるものであ
る。
The character candidate pattern generation unit 10 generates all possible character candidate patterns by re-integrating the partial patterns adjacent to the partial pattern groups SP1 and SP2 in accordance with the character likeness criterion. .

【0022】パターン照合部11は、文字候補パターン
生成部10で生成されたすべての文字候補パターンを認
識してコード化するものである。ここでの認識結果は、
辞書部12に格納される標準パターンとの照合により得
られる最大類似度値を得点として与えるようにしてい
る。
The pattern matching section 11 recognizes and codes all the character candidate patterns generated by the character candidate pattern generating section 10. The recognition result here is
The maximum similarity value obtained by matching with the standard pattern stored in the dictionary unit 12 is given as a point.

【0023】評価部13は、すべての文字候補パターン
群から文字の並び方に関する基準に照らして可能な全て
の文字列(文字並び)の候補を発生し、各文字列候補ご
とに文字認識処理で得られた得点の合計を求め、それが
最も高い文字列候補(最尤文字列候補)を選択するよう
にしている。
The evaluation unit 13 generates all possible character string (character arrangement) candidates from all the character candidate pattern groups in accordance with the criteria regarding the arrangement of characters, and obtains them by character recognition processing for each character string candidate. The total of the obtained scores is calculated, and the character string candidate with the highest score (maximum likelihood character string candidate) is selected.

【0024】そして後処理部14において、最尤文字列
候補の各文字パターンの認識結果に応じ、詳細識別を行
うことにより個別文字レベルにおける類似文字間の誤読
を救済するようにしている。
In the post-processing unit 14, the detailed identification is performed in accordance with the recognition result of each character pattern of the maximum likelihood character string candidate so that misreading between similar characters at the individual character level is remedied.

【0025】なお、5は、誤りが修正された認識結果を
出力するレーザプリンタ等からなる出力部であり、15
は各処理における途中結果および最終結果、装置の状態
に関する情報等を格納する記憶部である。
Reference numeral 5 is an output unit composed of a laser printer or the like for outputting the recognition result in which the error is corrected, and 15
Is a storage unit for storing intermediate results and final results in each process, information regarding the state of the apparatus, and the like.

【0026】次に、上述のように構成した実施例の動作
を説明する。
Next, the operation of the embodiment configured as described above will be described.

【0027】ここで、図形を伴う文字列の認識処理の一
例として、丸中文字列を対象とする場合について図2を
用いて説明する。
Here, as an example of the recognition processing of a character string accompanied by a figure, a case of targeting a Marunaka character string will be described with reference to FIG.

【0028】まず、画像入力部4により、例えば光学ス
キャナを用いて文書や図面を光学的にスキャンし画像情
報を取り込み、この入力された画像情報を2値化する
(ステップa)。
First, the image input section 4 optically scans a document or drawing by using, for example, an optical scanner to capture image information, and binarizes the input image information (step a).

【0029】この2値化された画像情報は、図形パター
ン抽出部6に送られる。図形パターン抽出部6では、2
値化された画像情報全体に対して輪郭追跡を行い、黒画
素で構成される領域の輪郭点列を求め(ステップb)、
さらに、この輪郭点列に対してHough変換を施すこ
とにより入力画像中に存在する全ての円パターンを抽出
する(ステップc)。このとき各円の半径と中心および
円間の包含関係も抽出する。
The binarized image information is sent to the graphic pattern extraction unit 6. In the figure pattern extraction unit 6, 2
Contour tracing is performed on the entire binarized image information to obtain a contour point sequence of a region composed of black pixels (step b),
Further, Hough transformation is applied to this contour point sequence to extract all the circular patterns existing in the input image (step c). At this time, the radius and center of each circle and the inclusion relation between the circles are also extracted.

【0030】図3は、一例として円図形中に水平方向
(横書き)の数字の文字列「266」を内包している場
合で、かかる入力画像中に存在する全ての円パターンC
1、C2、C4、C5を抽出した状態を示している。
As an example, FIG. 3 shows a case where a circular figure includes a character string "266" of a numeral in the horizontal direction (horizontal writing), and all the circular patterns C existing in the input image.
It shows a state in which 1, C2, C4, and C5 are extracted.

【0031】この状態で、内部に黒画素領域が存在せ
ず、且つ「包含関係にある円のうち最も外側の円の中
心」を共有しないC4とC5を無視する。そして、この
結果として残った円パターンとその内部の文字列パター
ンをひとまとまりのパターンPtr1としてその存在領
域を検出する(図4)。
In this state, C4 and C5 which have no black pixel area inside and which do not share the "center of the outermost circle of the inclusive circles" are ignored. Then, the remaining circle pattern and the character string pattern inside thereof are detected as a group of patterns Ptr1 to detect the existing area thereof (FIG. 4).

【0032】ここで、図3に示すようにパターンがある
程度の太さを持つ場合には、輪郭点列にHough変換
を施すことにより円パターンの外側と内側の円にそれぞ
れC1とC2の2つの円を抽出する(C1とC2の中心
は一致しており、これを0とする)。そして、これらを
用いてパターンPtr1から以下述べる手順で文字列パ
ターンを抽出する(ステップd)。
Here, when the pattern has a certain thickness as shown in FIG. 3, Hough transformation is applied to the outline point sequence to form two circles C1 and C2 on the outer and inner circles of the circle pattern, respectively. A circle is extracted (the centers of C1 and C2 coincide with each other, and this is set to 0). Then, using these, a character string pattern is extracted from the pattern Ptr1 by the procedure described below (step d).

【0033】この場合、円情報を検出する時に生じる検
出誤差や円パターンそのもの変動を考慮して図3に示す
円C2に対して、若干半径の小さい仮想的な円C3(中
心は0)を与え、その外側の黒画素を打ち抜く。そし
て、打ち抜いた黒画素に0.5の値を付与することによ
り図5に示すような3値画像を生成する。この場合、背
景部の画素には0、打ち抜かれた黒画素(斜線部)には
0.5、それ以外の黒画素には1がそれぞれ付与され
る。
In this case, a virtual circle C3 (having a center of 0) having a slightly smaller radius is given to the circle C2 shown in FIG. 3 in consideration of the detection error generated when detecting the circle information and the fluctuation of the circle pattern itself. , Punch out the black pixels on the outside. Then, the punched black pixel is given a value of 0.5 to generate a ternary image as shown in FIG. In this case, 0 is given to the pixels in the background portion, 0.5 is given to the punched black pixels (hatched portion), and 1 is given to the other black pixels.

【0034】ここで、円C2より半径の小さい円C3で
パターンを打ち抜くことにより円C2内部の文字列パタ
ーンの一部が打ち抜かれている可能性がある。そこで、
以下述べる処理により文字列パターンと円パターンが接
触している位置を正確に推定して、誤って打ち抜かれた
文字列パターンの一部を回復する。
Here, there is a possibility that part of the character string pattern inside the circle C2 may be punched out by punching out the pattern with the circle C3 having a smaller radius than the circle C2. Therefore,
By the process described below, the position where the character string pattern and the circular pattern are in contact with each other is accurately estimated, and a part of the character string pattern erroneously punched out is recovered.

【0035】まず、画素の値が「0.5から1」あるい
は「1から0.5」に変化する部分(すなわち打ち抜か
れた画素と黒画素の境界領域)を検出し、連続する境界
領域をラベリングする(図5のL1〜L5)。
First, the portion where the pixel value changes from "0.5 to 1" or "1 to 0.5" (that is, the boundary area between the punched pixel and the black pixel) is detected, and the continuous boundary area is determined. Label (L1 to L5 in FIG. 5).

【0036】次いで、各連続する境界領域において、そ
の領域の両端のすぐ外側の点(図6のp1およびp2)
を検出する。これら2つの点p1、p2は、前記境界領
域のすぐ外側にあり、しかも打ち抜かれた画素と背景の
画素の境界(すなわち0.5から0あるいは0から0.
5に変化する部分)である。また、これら点p1、p2
の位置は円パターンとその内部のパターンの境目である
ので、中心0から各点p1、p2までの距離の平均dを
求めて、当該境界領域において中心0から半径dの円弧
の内側にある打ち抜いた画素の値を1に戻すことによ
り、誤って打ち抜いた文字列パターンを回復する。
Then, in each successive boundary region, points immediately outside the ends of the region (p1 and p2 in FIG. 6).
To detect. These two points p1 and p2 are just outside the boundary area and are the boundaries between the punched pixels and the background pixels (ie 0.5 to 0 or 0 to 0.
5)). Also, these points p1 and p2
Since the position of is the boundary between the circular pattern and the pattern inside it, the average d of the distances from the center 0 to the points p1 and p2 is obtained, and punching is performed inside the arc of radius d from the center 0 in the boundary region. By resetting the value of the selected pixel to 1, the character string pattern erroneously punched out is recovered.

【0037】この時、文字列パターンと円パターンが、
例えば図5のL3のように重複している可能性を考慮し
て距離dより若干大きい距離で、上述の処理を行うよう
にしてもよい。こうすると円パターンに重なっている
(食い込んでいる)文字列パターンを正確に抽出するこ
とができる。
At this time, the character string pattern and the circle pattern are
For example, the above processing may be performed at a distance slightly larger than the distance d in consideration of the possibility of overlapping, as in L3 of FIG. By doing this, it is possible to accurately extract the character string pattern that is overlapping (cutting into) the circular pattern.

【0038】このような処理によれば、円パターンと文
字列パターンを分離するための切断線が直線ではなく円
弧としているため、分離部分がなめらかになり自然な文
字列パターンが得られる。
According to such processing, since the cutting line for separating the circle pattern and the character string pattern is not a straight line but an arc, the separated portion is smooth and a natural character string pattern can be obtained.

【0039】次に、ステップdにより抽出した文字列パ
ターンに対してステップeにおいて黒画素に着目したラ
ベリング処理すことにより黒連結成分を抽出し、孤立し
た微小な黒連結成分を文字列パターンから除去すること
によりノイズ除去を行う。
Next, in step e, the black connected component is extracted by subjecting the character string pattern extracted in step d to the labeling process focusing on the black pixel, and the isolated minute black connected component is removed from the character string pattern. By doing so, noise removal is performed.

【0040】そして、ステップfに進む。ステップfで
は、ステップdの処理により得られた文字列パターンが
複数行の文字列により構成されている可能性があること
を考慮して個別文字行(列)の切り出しを行う。
Then, the process proceeds to step f. In step f, individual character rows (columns) are cut out in consideration of the possibility that the character string pattern obtained by the processing in step d is composed of a plurality of character strings.

【0041】個別文字行の切り出し処理は以下の手順で
行われる。ここで、文字行切り出し処理の対象となるパ
ターンを便宜上フィールドパターンと呼ぶことにする。
The process of cutting out individual character lines is performed in the following procedure. Here, the pattern that is the target of the character line cutout process is referred to as a field pattern for convenience.

【0042】まず、フィールドパターン全体の外接矩形
(図7(a)) を抽出し、その高さhを求める。そし
て、h ≧ th1の関係が成立すれば、フィールドパタ
ーンは一行の文字列で構成されていると判断する。ここ
で、th1 はしきい値で、例えばth1 =(図3のC2の半
径/N)とする。
First, the circumscribed rectangle (FIG. 7A) of the entire field pattern is extracted, and its height h is obtained. If the relationship of h ≧ th1 is established, it is determined that the field pattern is composed of one line of character string. Here, th1 is a threshold value, for example, th1 = (radius of C2 in FIG. 3 / N).

【0043】一方、上述の関係が成立しなければ、フィ
ールドパターンは複数行で構成されているとして、以下
の処理を行う。
On the other hand, if the above relationship is not established, the following processing is performed assuming that the field pattern is composed of a plurality of lines.

【0044】この場合、図7(b)に示すように、フィ
ールドパターンに対し黒画素に着目したラベリング処理
を施して黒連結成分矩形群を抽出するとともに、これら
黒連結成分矩形群のうち、その高さがしきい値th1 以下
の矩形群r´を抽出する。ここで、r´は文字行方向と
垂直の方向に文字間の接触が無い矩形の集合に相当す
る。(例えば図7(b)に示すr´1、r´2、r´
3、r´4)。
In this case, as shown in FIG. 7B, a labeling process focusing on black pixels is applied to the field pattern to extract a black connected component rectangle group, and the black connected component rectangle group is extracted. A group of rectangles r ′ whose height is less than or equal to the threshold value th1 is extracted. Here, r'corresponds to a set of rectangles in which there is no contact between characters in the direction perpendicular to the character line direction. (For example, r′1, r′2, r ′ shown in FIG.
3, r'4).

【0045】仮に、r´が全く存在しない場合は、文字
行は接触していると見做して、従来技術である垂直(文
字列方向と直行する方向)軸への黒画素の射影の分布
(周辺分布)を解析して文字行の境界を検出するように
なる。
If r ′ does not exist at all, it is considered that the character lines are in contact with each other, and the distribution of the projection of black pixels on the vertical (direction orthogonal to the character string) axis, which is the conventional technique, is considered. (Boundary distribution) is analyzed to detect the boundaries of character lines.

【0046】図示のようにr´が存在する場合は、r´
のなかで垂直方向に重なりのある矩形同士を水平方向に
統合して文字行に相当する矩形r´´を発生する。(例
えば図7(c)に示すr´´1、r´´2)。そして、
各文字行に相当する矩形の間に挟まれる領域(図7
(c)のr´´1とr´´2に挾まれる領域)ごとに、
そこにふくまれる黒画素を垂直軸に対して射影し、その
分布を解析して境界線ln(図7(c))を設定する。
If r'exists as shown, r '
Among them, vertically overlapping rectangles are integrated in the horizontal direction to generate a rectangle r ″ corresponding to a character line. (For example, r ″ 1 and r ″ 2 shown in FIG. 7C). And
The area sandwiched between rectangles corresponding to each character line (see FIG. 7).
(C) the area between r ″ 1 and r ″ 2),
The black pixels included therein are projected onto the vertical axis, the distribution thereof is analyzed, and the boundary line ln (FIG. 7C) is set.

【0047】そして、境界線lnをまたぐ黒連結成分矩
形を当該境界線lnで切断することにより文字行(列)
の切り出しを行い、これにより各文字列パターンを生成
する。この時、文字行の高さがしきい値:height_th未
満であることが文字行らしさの基準であるとして図7
(d)に示すr´´3がその基準を満たしているなら
ば、これを文字列とは独立した文字列候補として抽出し
てもよい。また、r´´1とr´´2の文字行で構成さ
れる文字列パターンとr´´3の文字行で構成される文
字列パターンは、互いに排他的な関係にあり、個別文字
認識処理後にどちらかを最終結果として採用することに
なる。そして、これらの文字列パターンはその外接矩形
の幅、高さ、位置などにより表現される。
Then, a black connected component rectangle that straddles the boundary line ln is cut at the boundary line ln so that a character line (column) is formed.
Is cut out, and thereby each character string pattern is generated. At this time, it is assumed that the height of the character line is less than the threshold value: height_th as a criterion of character line likelihood.
If r ″ 3 shown in (d) satisfies the criterion, this may be extracted as a character string candidate independent of the character string. Further, the character string pattern formed by the character lines r ″ 1 and r ″ 2 and the character string pattern formed by the character line r ″ 3 are in an exclusive relationship with each other, and the individual character recognition processing is performed. Later, either will be adopted as the final result. Then, these character string patterns are expressed by the width, height, position, etc. of the circumscribing rectangle.

【0048】こうしてステップfで得られた各文字列パ
ターンは、第1部分パターン切り出し部8と第2部分パ
ターン切り出し部9に同時に供給される。
The character string patterns thus obtained in step f are simultaneously supplied to the first partial pattern cutting section 8 and the second partial pattern cutting section 9.

【0049】第1部分パターン切り出し部8では、文字
列パターンに対して文字列方向に垂直な直線で切断する
ことによる部分パターンの切り出しを行う(ステップ
g) 。また、第2部分パターン切り出し部9では、文字
列パターンに対して文字列パターンの輪郭部で検出され
た文字パターンが接触している箇所のうち異なる2つを
結んだ線分で線分で切断することにより部分パターンの
切り出しを行う(ステップh)。
The first partial pattern cutting section 8 cuts the partial pattern by cutting the character string pattern with a straight line perpendicular to the character string direction (step g). Further, the second partial pattern cutout unit 9 cuts the character string pattern with a line segment that connects two different portions of the character pattern detected in the contour portion of the character string pattern to each other. By doing so, the partial pattern is cut out (step h).

【0050】なお、文書中に含まれる文字列パターンの
多くは、文字列方向に垂直な直線のみのセグメンテーシ
ョンにより文字パターンを正しく切り出すことができ
る。したがって、第2部分パターン切り出し部9による
文字切り出し処理の悪影響を最小限に抑えることを目的
として上記のように垂直線のみによる文字切り出しも独
立して行い、それによる部分パターンを発生させてお
く。
Most of the character string patterns included in the document can be cut out correctly by segmenting only the straight lines perpendicular to the character string direction. Therefore, for the purpose of minimizing the adverse effect of the character cutout processing by the second partial pattern cutout unit 9, the character cutout using only the vertical lines is independently performed as described above to generate the partial pattern.

【0051】まず、第1部分パターン切り出し部8での
処理動作について述べる。
First, the processing operation in the first partial pattern cutout unit 8 will be described.

【0052】この第1部分パターン切り出し部8では、
最初は、黒連結画素をひとまとまりのパターンとしてラ
ベリングすることにより部分パターンを切り出すように
なる。この場合、文字列パターン中の文字パターンが全
て左右に接触している場合や文字列パターンが一文字で
構成されていてかすれや途切れが生じていない場合には
部分パターンは文字列パターンと一致する。そして、こ
こで生じた部分パターンの切断可能性を評価して、切断
可能な部分パターンを抽出する。切断可能な部分パター
ンとは、以下のすべての条件を満たさないものである。
In the first partial pattern cutting section 8,
Initially, a partial pattern is cut out by labeling black connected pixels as a group of patterns. In this case, the partial pattern matches the character string pattern when all the character patterns in the character string pattern are in contact with each other on the left and right, or when the character string pattern is composed of one character and there is no blur or discontinuity. Then, the possibility of cutting the partial pattern generated here is evaluated, and the cuttable partial pattern is extracted. The cuttable partial pattern does not satisfy all the following conditions.

【0053】(条件1):部分パターンが小さい(pw
<mwidth あるいは ph<mheight)。
(Condition 1): The partial pattern is small (pw
<Mwidth or ph <mheight).

【0054】(条件2):部分パターンが縦に長く(p
w<ph)かつその横幅がしきい値th2 より小さい(p
w<th2)。
(Condition 2): The partial pattern is vertically long (p
w <ph) and its width is smaller than the threshold value th2 (p
w <th2).

【0055】ここで、 pwは、部分パターンを外接する矩形の横幅 phは、部分パターンを外接する矩形の縦幅 mwidth、mheighr、th2 は、しきい値 である。Here, pw is the horizontal width of the rectangle circumscribing the partial pattern, ph is the vertical width of the rectangle circumscribing the partial pattern, mwidth, mheightr, and th2 are threshold values.

【0056】次に、このようにして抽出された切断可能
な部分パターン全てに対し以下の処理を施すことにより
当該部分パターンを切断する。この場合、図8の例を用
いて説明する。
Next, the following process is performed on all the cuttable partial patterns extracted in this way to cut the partial patterns. In this case, the example of FIG. 8 will be described.

【0057】まず、窪み位置の探索を行う。この場合、
図8(a)に示す文字列パターンを左から右に進みなが
ら垂直方向に所定間隔で走査し、各走査線において先頭
白ラン長、最終白ラン長、背景白画素数を計算し、各々
の極大箇所を抽出する。これにより文字列パターンの輪
郭で窪んでいる箇所を抽出する。
First, the depression position is searched. in this case,
The character string pattern shown in FIG. 8A is scanned from the left to the right in the vertical direction at predetermined intervals, and the leading white run length, the final white run length, and the background white pixel number are calculated for each scanning line. Extract the maximum points. As a result, a portion that is recessed in the outline of the character string pattern is extracted.

【0058】次に、切断可能領域の設定を行う。この場
合、抽出した3種類の窪み箇所のOR領域を切断可能領
域として設定する(例えば図8のCA1とCA2)。そ
して、各切断可能領域のすべての走査線を垂直切断線候
補とする。
Next, the cuttable area is set. In this case, the extracted OR regions of the three types of depressions are set as the cuttable regions (for example, CA1 and CA2 in FIG. 8). Then, all the scanning lines of each cuttable area are set as vertical cutting line candidates.

【0059】次いで、切断箇所を決定する。この場合、
各切断可能領域のうちで複数個の垂直切断線候補の中か
ら一本の垂直切断線を決定する。すなわち、同領域内の
切断線候補のうち以下の条件のうち一つでも満たす垂直
切断線候補を除去することにより垂直切断線(図8のc
p1とcp2)を決定する。
Then, the cutting point is determined. in this case,
In each of the cuttable areas, one vertical cutting line is determined from a plurality of vertical cutting line candidates. That is, among the cutting line candidates in the same region, the vertical cutting line candidates that satisfy at least one of the following conditions are removed to remove the vertical cutting line (c in FIG. 8).
p1 and cp2) are determined.

【0060】ここで、各切断可能領域における一本の走
査線上の最小黒ラン個数をmin _blk _run _kosu、最
大背景白画素数をmax _white _kosu、最大黒ラン長
(各走査線における)の最小値(各領域における)をmi
n _blk _run _lenghtとする。
Here, the minimum number of black runs on one scanning line in each cuttable area is min_blk_run_kosu, the maximum number of background white pixels is max_white_kosu, and the minimum value of the maximum black run length (in each scanning line). Mi (in each area)
n_blk_run_lenght.

【0061】[条件1]:切断線候補がパターンの両端
からそれぞれしきい値kofset未満の位置に存在する。
[Condition 1]: Cutting line candidates exist at positions below the threshold value kofset from both ends of the pattern.

【0062】[条件2]:切断線候補に当たる走査線上
の最大黒ラン長がmin _blk _run_length+1以上で
ある。
[Condition 2]: The maximum black run length on the scanning line corresponding to the cutting line candidate is min_blk_run_length + 1 or more.

【0063】[条件3]:切断線候補に当たる走査線上
の黒ラン個数がmin _blk _run _kosu+1以上であ
る。
[Condition 3]: The number of black runs on the scanning line corresponding to the cutting line candidate is min_blk_run_kosu + 1 or more.

【0064】[条件4]:切断線候補に当たる走査線上
の背景白画素数がmax _white _kosu−1以下である。
[Condition 4]: The number of white background pixels on the scanning line corresponding to the cutting line candidate is max_white_kosu-1 or less.

【0065】なお、切断箇所の決定は、ここで述べた方
法のほかに、例えば切断線候補で囲まれる全ての部分パ
ターンをパターン照合部11で認識し、その結果が最も
良くなるような切断線候補を検出するようにしてもよ
い。
In addition to the method described here, for example, all the partial patterns surrounded by the cutting line candidates are recognized by the pattern matching unit 11 and the cutting line is determined so that the result is the best. You may make it detect a candidate.

【0066】そして、切断処理を実施する。この場合、
左から右へ水平方向に見たとき、ある垂直切断線から次
の垂直切断線までの間に存在するパターンを順に切り出
し、部分パターンとする。ところで、例えば、図9に示
すように、垂直切断線cp1´により「5」のパターン
の一部(pat1)を切断したため、この部分が「7」
のパターンにマージされ、また垂直切断線cp2´によ
り「2」のパターンの一部(pat2)を切断したた
め、この部分が「5」のパターンにマージされ適切な部
分パターンが得られないことがあるが、このような場合
は、垂直切断線cp1´の左側に接触しているパターン
の一部(pat1)が小さくかつ垂直切断線cp1´の
右側のパターン(pat3)に接続しているなら、それ
とマージし、また、垂直切断線cp2´の左側に位置す
るパターンの一部(pat2)が小さくかつ垂直切断線
cp2´の右側の「2]のパターンに接続しているな
ら、それとマージすることで適切な部分パターンを発生
することができる。
Then, a cutting process is performed. in this case,
When viewed in the horizontal direction from left to right, the patterns existing between a certain vertical cutting line and the next vertical cutting line are sequentially cut out to form partial patterns. By the way, for example, as shown in FIG. 9, since a part (pat1) of the pattern of "5" is cut by the vertical cutting line cp1 ', this part is "7".
Since the part (pat2) of the "2" pattern is cut by the vertical cutting line cp2 ', this part may be merged with the "5" pattern and an appropriate partial pattern may not be obtained. However, in such a case, if a part (pat1) of the pattern contacting the left side of the vertical cutting line cp1 ′ is small and is connected to the pattern (pat3) on the right side of the vertical cutting line cp1 ′, If a part of the pattern located on the left side of the vertical cutting line cp2 '(pat2) is small and is connected to the pattern of "2" on the right side of the vertical cutting line cp2', it can be merged. Appropriate partial patterns can be generated.

【0067】このような処理により、図8(a)に示す
文字列パターンは、同図(b)に示す部分パターン群S
P1として切断処理されることになる。
By such processing, the character string pattern shown in FIG. 8A becomes a partial pattern group S shown in FIG. 8B.
The cutting process will be performed as P1.

【0068】次に、第2部分パターン切り出し部9での
処理動作を図10のフローチャートを用いて説明する。
Next, the processing operation of the second partial pattern cutout unit 9 will be described with reference to the flowchart of FIG.

【0069】まず、切り出し処理の前処理として文字列
パターンからその輪郭部のチェインコード(輪郭点列)
と細線データを抽出する(ステップr)。この場合、輪
郭点列は、外側部分(図11のchain 1)と内側部分
(図11のchain 2、chain 3、chain 4)で区別して
おり、各チェインコードは8方向に量子化されたいずれ
かの値をとる。一方、また細線データは、文字列パター
ンを細線化することにより得られるディジタル線を図1
2のようにセグメント化して折れ線近似したものであ
り、各線分の結合部分をノードとして表現している。各
ノードは、そこに結合している細線の情報を保持してお
り、さらに、3本以上の細線を結合しているノードを多
細線結合ノードとして抽出する(図12のnode1からno
de6)。
First, a chain code (contour point sequence) of the contour portion is extracted from the character string pattern as a pre-processing of the cutting processing.
And thin line data are extracted (step r). In this case, the contour point sequence is distinguished by an outer part (chain 1 in FIG. 11) and an inner part (chain 2, chain 3, chain 4 in FIG. 11), and each chain code is quantized in eight directions. Takes a value. On the other hand, the thin line data is a digital line obtained by thinning a character string pattern.
As shown in FIG. 2, the line segment is approximated to a polygonal line, and the connecting portion of each line segment is expressed as a node. Each node holds information on the thin lines connected to it, and further extracts the node connecting three or more thin lines as a multi-thin line connection node (from node 1 to no in FIG. 12).
de6).

【0070】次に、前処理で得られた輪郭点列と細線の
ノード情報を用いて文字列パターンから部分パターンを
切り出すための切断線の位置(すなわち切断線の端点)
を検出し、それを2次元座標値で管理する。そして、そ
の切断線により文字列パターンを切断し複数個の部分パ
ターンを発生する。この切断線は輪郭部上の2点を端点
としそれを結んだ線分で表現される。
Next, the position of the cutting line (that is, the end point of the cutting line) for cutting out the partial pattern from the character string pattern using the contour point string and the node information of the thin line obtained in the preprocessing.
Is detected and managed by the two-dimensional coordinate value. Then, the character string pattern is cut along the cutting line to generate a plurality of partial patterns. This cutting line is represented by a line segment connecting two points on the contour portion as end points.

【0071】このような処理を実現するのに、まず、文
字列パターンの外輪郭部における切断線の端点の候補
(以後、切断線端点候補と呼ぶ)を検出する(ステップ
s)。
In order to realize such processing, first, candidates for the end points of the cutting line in the outer contour portion of the character string pattern (hereinafter referred to as cutting line end point candidates) are detected (step s).

【0072】ステップsでは、文字列パターンの外輪郭
部上における切断線端点候補(POとする)を以下の手
順で検出する。
In step s, a cutting line end point candidate (referred to as PO) on the outer contour portion of the character string pattern is detected by the following procedure.

【0073】まず、数字パターン同士が接触することに
よって生じる図13(a)に示す凸形状、または同図
(b)に示す凹形状のくぼみを文字列パターンから抽出
する。この凸部分と凹部分は切断箇所として適当である
ので、凸形状ならその部分において最も高い位置にある
点を、凹形状なら最も低い位置にある点をそれぞれ抽出
して切断線端点候補とする。
First, the convex depression shown in FIG. 13A or the concave depression shown in FIG. 13B caused by the contact between the number patterns is extracted from the character string pattern. Since the convex portion and the concave portion are suitable as cutting points, the point at the highest position in the portion if the shape is convex and the point at the lowest position in the concave shape are extracted as cutting line end point candidates.

【0074】ここで、外輪郭における切断線端点候補の
抽出処理の具体例を説明すると、まず、外輪郭点列上に
おける凸または凹形状の抽出する。この場合、図14に
示すように外輪郭上で、2点間を水平線で結ぶことがで
き、その水平線と2点間の輪郭点列でつくられるループ
内が背景部の図素のみ(0の値を持つ画素)で占められ
る部分A1を検出する。ただし水平線の長さはしきい値
th20以下であるとする。
Here, a specific example of the extraction processing of the cutting line end point candidates in the outer contour will be described. First, the convex or concave shape on the outer contour point sequence is extracted. In this case, as shown in FIG. 14, on the outer contour, two points can be connected by a horizontal line, and the loop formed by the horizontal line and the contour point sequence between the two points has only the background pixels (0 The portion A1 occupied by pixels having a value) is detected. However, the length of the horizontal line is the threshold
It is assumed to be th20 or less.

【0075】次に、切断線端点候補点の抽出を行う。こ
の場合、部分A1のループ内の背景部の面積を求め、こ
れがしきい値th4 以上であるならば、部分A1の輪郭点
列から、切断線端点候補を一点検出する。この時、上記
2点間を結んだ水平線の長さはしきい値 l_thI 以下で
なければならない。
Next, the cutting line end point candidate points are extracted. In this case, the area of the background portion in the loop of the portion A1 is obtained, and if this is greater than or equal to the threshold value th4, one cutting line end point candidate is detected from the contour point sequence of the portion A1. At this time, the length of the horizontal line connecting the above two points must be less than the threshold l_thI.

【0076】ここで、部分A1の形状が凸である場合
は、部分A1の点列上でy座標値が最大である点を切断
線端点候補とする。また、部分A1の形状が凹である場
合は、部分A1の点列上でy座標値が最小である点を切
断線端点候補とする。
Here, when the shape of the portion A1 is convex, the point having the maximum y coordinate value on the point sequence of the portion A1 is taken as the cutting line end point candidate. Further, when the shape of the portion A1 is concave, the point having the smallest y coordinate value on the point sequence of the portion A1 is set as the cutting line end point candidate.

【0077】なお、ステップsで文字列パターンの外輪
郭部において切断線端点候補が抽出されない場合には第
2部分パターン切り出し部8において部分パターンの切
り出し処理を実施しないことになる。
When the cutting line end point candidate is not extracted in the outer contour portion of the character string pattern in step s, the second partial pattern cutout unit 8 does not perform the partial pattern cutout process.

【0078】次に、図15に示すように数字同士が接触
したことにより生じるループLP1を文字列パターンの
内輪郭部から検出する(ステップt)。これは次の理由
による。すなわち、ループLP1を考慮せずに、その外
側にある2点の切断線端点候補を結んだ線分( 図15に
示すLine1) で文字列パターンを切断すると、これによ
り得られた部分パターンは所望の文字候補パターンとし
て適切でない。この場合、ループLP1を抽出し、この
ループLP1上の2つの点と外側の2点の切断線端点候
補をそれぞれ対応させて2つの切断線( 図15のLine2
とLine3)を発生させ、これにしたがって文字列パター
ンを切断すれば最適な文字候補パターンを抽出すること
ができる。
Next, as shown in FIG. 15, the loop LP1 caused by the contact of the numbers is detected from the inner contour portion of the character string pattern (step t). This is for the following reason. That is, if the character string pattern is cut by a line segment (Line 1 shown in FIG. 15) connecting two cutting line end point candidates located outside the loop LP1, the partial pattern obtained by this is obtained. Is not appropriate as a character candidate pattern of. In this case, the loop LP1 is extracted, and two cutting line end point candidates of the two points on the loop LP1 and the outer two points are made to correspond to each other and two cutting lines (Line2 in FIG.
And Line 3) are generated and the character string pattern is cut in accordance with this, an optimum character candidate pattern can be extracted.

【0079】ところで、文字列パターンの内輪郭部は、
主に数字自身が元来持っているループ(例えば4、6、
8、9のループ)と、数字同士が接触することにより生
じるループの2つに大別することができる。この2つの
ループの違いは図15(a)から分かるようにループ形
状の円らしさにある。
By the way, the inner contour portion of the character string pattern is
Mainly the numbers themselves have their own loops (eg 4, 6,
Loops 8 and 9) and loops formed by the numbers contacting each other. The difference between the two loops lies in the circularity of the loop shape, as can be seen from FIG.

【0080】数字自身が元来持っているループには、ル
ープの内側に凸となる部分を含まないが、前記ループL
P1には図15(b)のようにループの内側に凸となる
部分がある。したがってステップtでは、文字列パター
ンにおけるすべての内輪郭部に対してループの内側に凸
となる部分を検出することで円らしさを評価して前記ル
ープLP1を抽出する。
The loop originally possessed by the numeral itself does not include a convex portion inside the loop, but the loop L
P1 has a convex portion inside the loop as shown in FIG. Therefore, in step t, the circularity is evaluated by detecting the portion that is convex inside the loop for all the inner contour portions in the character string pattern, and the loop LP1 is extracted.

【0081】前記LP1上に含まれる2つの切断線端点
候補は、その外側に存在するはずである外輪郭点列上の
2つの切断線端点候補とそれぞれペアを作るときに最適
な位置を持つものを選択することにより抽出される。し
たがってこの段階ではその位置座標を正確に決定するこ
とはできないので、2つのを切断線端点候補仮を仮の点
で代表しておく。
The two cutting line end point candidates included on the LP1 have optimal positions when paired with the two cutting line end point candidates on the outer contour point sequence that should exist outside thereof. It is extracted by selecting. Therefore, at this stage, it is not possible to accurately determine the position coordinates, so that the two tentative cutting line end point candidates are represented by temporary points.

【0082】切断線は、ステップsとステップtにより
抽出された複数の切断線端点候補のすべての組み合わせ
の中から最適な組み合わせを抽出することにより得るこ
とができる(ステップu)。ここで、切断線端点候補の
組み合わせは、例えばグラフG(行列G)により表現す
ることができる。そして、切断線端点候補の集合をYと
したとき、切断線端点候補の組み合わせを表現するグラ
フをm×mの行列G(Y×Y上の“ペアとなりうる”と
いう関係を表す行列、mはYの要素数)で表す。行列G
の要素gijはi番目の切断線端点候補:piとj番目の
切断線端点候補:pjがペアとなって切断線を構成する
可能性を表している。すなわち、 gij = 0 … ペアとなって切断線を構成する可
能性がない。
The cutting line can be obtained by extracting the optimum combination from all the combinations of the plurality of cutting line end point candidates extracted in steps s and t (step u). Here, the combination of cutting line end point candidates can be expressed by, for example, a graph G (matrix G). Then, when a set of cutting line end point candidates is Y, a graph expressing a combination of cutting line end point candidates is a matrix G of m × m (a matrix showing a relation “can be a pair” on Y × Y, m is The number of elements of Y). Matrix G
The element g ij of represents the possibility that the i-th cutting line end point candidate: pi and the j-th cutting line end point candidate: pj form a pair to form a cutting line. That is, there is no possibility that a cutting line is formed by a pair of g ij = 0.

【0083】gij = 1 … ペアとなって切断線
を構成する可能性がある。
G ij = 1 ... Pairs may form a cutting line.

【0084】gij = 0.5 … 現段階ではどちらと
もいえない。
G ij = 0.5 ... Neither can be said at this stage.

【0085】gij = −1 … 無効。G ij = -1 ... Invalid.

【0086】ただし、切断線は異なる2つの切断線端点
候補のペアによって表現されるのでgij=0とする。ま
た、線分の向きを区別しないので常にgij=gjiとする
(すなわち行列Gは対象行列である)。たとえば、図1
6に示す文字列パターンを切断する線分は図中Line2と
Line3とLine4であり、これは下式の行列で表現するこ
とができる。
However, since the cutting line is expressed by a pair of two different cutting line end point candidates, g ij = 0. Further, since the directions of the line segments are not distinguished, it is always g ij = g ji (that is, the matrix G is the target matrix). For example, in Figure 1.
The line segment that cuts the character string pattern shown in 6 is Line 2 in the figure.
Line 3 and Line 4, which can be expressed by the matrix below.

【0087】[0087]

【数1】 ここで、図16に示す文字列パターンにおいて、その外
輪郭上の切断線端点候補と内輪郭上の切断線端点候補の
集合から切断線を構成するペアを抽出するための具体的
な手順を以下に述べる。この時点では行列Gの各要素に
は0がセットされている。
[Equation 1] Here, in the character string pattern shown in FIG. 16, a specific procedure for extracting a pair forming a cutting line from a set of cutting line end point candidates on the outer contour and cutting line end point candidates on the inner contour will be described below. As described in. At this point, 0 is set in each element of the matrix G.

【0088】まず、外輪郭部上の切断線端点候補から切
断線の端点となり得ない点を不要な点として除去する。
すなわち以下の条件を一つでも満たす切断線端点候補を
不要であるとして除去する。
First, points that cannot be the end points of the cutting line are removed from the cutting line end point candidates on the outer contour portion as unnecessary points.
That is, a cutting line end point candidate that satisfies even one of the following conditions is removed as unnecessary.

【0089】[条件1]:候補点を含む黒連結パターン
の横幅がしきい値th5 以下である。この条件は、切断線
端点候補を含むパターンが切断不要であるほど小さいか
否かを判定するための条件である。
[Condition 1]: The horizontal width of the black connection pattern including the candidate points is not more than the threshold value th5. This condition is a condition for determining whether or not the pattern including the cutting line end point candidate is so small that cutting is unnecessary.

【0090】[条件2]:全多細線結合ノードからの距
離がすべてth6 以上である。
[Condition 2]: All distances from all the multi-fine wire connection nodes are th6 or more.

【0091】一般に、多細線結合ノードは数字同士が接
触している部分に多く発生するものである。したがって
この多細線結合ノードから遠い点はパターン接触部では
ないところに発生していることを意味する。ただし、上
記[条件1]と[条件2]のいずれかを満たしても前記
ループLP1付近にあるものは不要点として除去しな
い。ここで不要点として除去された切断線端点候補は他
のどの切断線端点候補ともペアになりえないので行列G
の要素のうち不要点とのペアを表す全ての要素に−1を
セットする。図19の場合ではp1がこれに相当し、行
列Gは次のようになる。
In general, the multi-thin wire connection node often occurs in a portion where numbers are in contact with each other. Therefore, it means that the point far from the multi-thin wire connection node occurs at a place other than the pattern contact portion. However, even if either of the above [Condition 1] and [Condition 2] is satisfied, those in the vicinity of the loop LP1 are not removed as unnecessary points. Here, the cutting line end point candidate removed as an unnecessary point cannot be paired with any other cutting line end point candidate, so the matrix G
-1 is set to all the elements that represent a pair with an unnecessary point among the elements of. In the case of FIG. 19, p1 corresponds to this, and the matrix G is as follows.

【0092】[0092]

【数2】 次に、外輪郭上の切断線端点候補のみに着目してペアを
つくる。
[Equation 2] Next, only the cutting line end point candidates on the outer contour are focused on to form a pair.

【0093】すなわち、異なる二つの外輪郭上の切断線
端点候補のペアが以下の条件をすべて満たすとき、その
ペアは切断線を構成する可能性があるとする。ここで当
該切断線端点候補のペアの一方をpi:(xi,y
i)、もう一方をpj:(xj,yj)とする。
That is, when a pair of cutting line end point candidates on two different outer contours satisfy all the following conditions, the pair may form a cutting line. Here, pi: (xi, y
i) and the other is pj: (xj, yj).

【0094】[条件1]:tan -1((l(Yj-Yil) ÷(lXj-X
il))がしきい値th7 以上である。または、2点間の距離
(ユークリッド距離)がth21以下である。(すなわち、
当該切り出し処理は横書き文字列を左右に分離するもの
であるから切断線の角度はある程度垂直に近いことを原
則とする。しかし二つの点の距離が近い場合は角度を考
慮しない) [条件2]:lXj-Xil がしきい値th8 以下である。
[Condition 1]: tan -1 ((l (Yj-Yil) ÷ (lXj-X
il)) is greater than or equal to the threshold th7. Alternatively, the distance between two points (Euclidean distance) is th21 or less. (Ie,
Since the cutting process separates the horizontally written character string into right and left, the angle of the cutting line is basically close to vertical to some extent. However, if the distance between the two points is short, the angle is not considered.) [Condition 2]: lXj-Xil is less than the threshold value th8.

【0095】[条件3]:文字列パターン上においてpi
からpjまでのパスは必ず文字部の内側(前記ループLP
1内部の背景部を通っても良い)を通ること。すなわち
パスは文字列パターンの外輪郭部より外側の背景部およ
び前記ループLP1以外の内輪郭ループの内側(すなわ
ち0の値を持つ画素)を通らないこと。
[Condition 3]: pi on the character string pattern
The path from pj to pj must be inside the character part (loop LP
1 You may pass through the background part inside). That is, the path should not pass through the background portion outside the outer contour portion of the character string pattern and the inner contour loop (that is, pixels having a value of 0) other than the loop LP1.

【0096】以上の3つの条件をすべて満たすペアPr
は、行列Gにおいて対応する要素gijとgjiに1をセッ
トする。図17の場合、外輪郭上の切断線端点候補のす
べてのペアは{p2,p3}、{p2,p4}、{p3,p4}であり、こ
のうち、{p3,p4} のみが上記条件をすべて満たす。この
場合の行列Gは次のようになる。
A pair Pr that satisfies all the above three conditions
Sets 1 to the corresponding elements g ij and g ji in matrix G. In the case of FIG. 17, all pairs of cutting line end point candidates on the outer contour are {p2, p3}, {p2, p4}, {p3, p4}, of which only {p3, p4} meets the above conditions. Meet all. The matrix G in this case is as follows.

【0097】[0097]

【数3】 ここでペアとならずに孤立した外輪郭上の切断線端点候
補のうち以下の条件をすべて満たす点pi´は、切断線
端点候補になる可能性が高いとしてそれに対応する(ペ
アとなる)点pj´を新たに外輪郭点列から検出する。
[Equation 3] Here, a point pi ′ that satisfies all of the following conditions among the cutting line end point candidates on the outer contour which are not paired and are isolated, has a high possibility of becoming a cutting line end point candidate, and is a corresponding point (becomes a pair). pj 'is newly detected from the outer contour point sequence.

【0098】[条件1]:LP1が付近に存在しない。[Condition 1]: LP1 does not exist in the vicinity.

【0099】[条件2]:prが付近に存在しない。[Condition 2]: pr does not exist in the vicinity.

【0100】新たに生じた切断線端点候補pj' を前記
集合Yに加え、それに伴い行列Gで生じた要素のうち、
i'j'とgj'i'には1をセットし、それ以外には0をセ
ットする。ここでもペアとならずに孤立した外輪郭上の
切断線端点候補pi" は、切断線端点候補を含む内輪郭
ループ(pLで代表しておく)が付近に存在する場合に
は、pi" とループLP1上の一点(pL1 かpL2 のいず
れかこの段階ではpL1 としておく)がペアとなる可能性
があるかも知れないとして行列Gの要素gi"L1に0.5 を
セットする。図19の場合はp2が孤立点となっており、
さらにp2はループLP1の付近に存在するのでpi"
=p2とし、行列Gを次のように変更する。
A newly generated cutting line end point candidate pj 'is added to the set Y, and among the elements generated in the matrix G with it,
1 is set in g i'j ' and g j'i' , and 0 is set otherwise. Here again, the cutting line end point candidate pi "on the outer contour which is not paired and is isolated is referred to as pi" when an inner contour loop (represented by pL) including the cutting line end point candidate exists in the vicinity. One point on the loop LP1 (either pL1 or pL2 is pL1 at this stage) may be paired, and 0.5 is set to the element g i "L1 of the matrix G. In the case of FIG. p2 is an isolated point,
Furthermore, since p2 exists near loop LP1, pi "
= P2, and the matrix G is changed as follows.

【0101】[0101]

【数4】 次に、切断線端点候補を含むループLP1を考慮してペ
アを作り直す。
[Equation 4] Next, the pair is recreated in consideration of the loop LP1 including the cutting line end point candidate.

【0102】(1)ループLP1の付近で抽出したペア
が存在する場合。
(1) When there is a pair extracted near the loop LP1.

【0103】そのペアが複数個存在するならその中から
最も適切なペアを選ぶ。ついで選ばれたペアを解除し、
それぞれを当該内輪郭ループ上の適切な点と対応づける
ことにより2の切断線を発生させる。ここで初めてpL1
とpL2の座標値が決まる。
If there are a plurality of pairs, the most appropriate pair is selected from among them. Then cancel the selected pair,
Two cutting lines are generated by associating each with an appropriate point on the inner contour loop. First time here pL1
And the coordinate value of pL2 is determined.

【0104】(2)上記(1)に該当せず、行列Gにお
いてLP1の一点 (pL1) と0.5 の値でペアとなる可能
性のある孤立切断線端点候補pi" が存在する場合。
(2) In the case where the above-mentioned (1) does not apply, there exists an isolated cutting line end point candidate pi "that may form a pair with a point (pL1) of LP1 in the matrix G with a value of 0.5.

【0105】前記pi" が複数個存在するならその中か
ら最も適切な点を抽出し、それとループLP1上の適切
な一点pj" とを対応させ一本の切断線を発生させる。
ここでpj" をp11とし、行列Gの要素gj"L1とgL1j"
に1をセットする。そして、前記pj" と対応する適切
な一点pj^をさらに内輪郭ループ上から検出し、この
pj^に対応する適切な外輪郭点列の一点pi^を検出
することによりもう一本の切断線を発生させる。ここ
で、新たに生じた切断線端点候補pi^を前記集合Yに
加え、それに伴い行列Gを変更し、その結果生じた要素
のうち、gi'L2とgL2i'には1をセットし、それ以外に
は0をセットする。
If there are a plurality of pi ", the most appropriate point is extracted from the plurality of pi", and the appropriate point pj "on the loop LP1 is made to correspond to one cutting line.
Here, pj "is p11, and elements g j" L1 and g L1j "of matrix G are
Set 1 to. Then, another suitable cutting point pj ^ corresponding to the above pj "is further detected from the inner contour loop, and another suitable cutting line pi ^ corresponding to this pj ^ is detected to obtain another cutting line. Here, the newly generated cutting line end point candidate pi ^ is added to the set Y and the matrix G is changed accordingly, and among the elements generated as a result, g i'L2 and g L2i ' are Set 1 and 0 otherwise.

【0106】(3)上記(1)(2)にいずれも該当し
ない場合。
(3) When none of the above (1) and (2) applies.

【0107】当該LP1を無効にする。すなわち、当該
LP1上のpL1 とpl2 とのペアを表す全ての要素に−1
をセットする。
The LP1 is invalidated. That is, -1 is set to all the elements that represent the pair of pL1 and pl2 on the LP1.
Set.

【0108】図17は上述の(2)のケースである。p
i" と対応するループLP1の適切な点pj^は図18
のPL1となり、PL1に対応するループLP1上の適
切な点pj^は図18のPL2となる。また、PL2と
対応する外輪郭点列上の一点は図18のp5となる。こ
の結果{p2,pL1}と{pL2,p5}の二つの切断線端点候補の
ペアが生じ、行列Gは以下のように変更される。
FIG. 17 shows the case (2) described above. p
The appropriate point pj ^ of the loop LP1 corresponding to i "is shown in FIG.
18 and the appropriate point pj ^ on the loop LP1 corresponding to PL1 is PL2 in FIG. Further, one point on the outer contour point sequence corresponding to PL2 is p5 in FIG. As a result, two pairs of cutting line end point candidates {p2, pL1} and {pL2, p5} are generated, and the matrix G is changed as follows.

【0109】[0109]

【数5】 次に、上述した式(2)から(5)に示す行列Gにおい
て、その要素に1がセットされている切断線端点候補の
ペアを抽出し(行列Gは対象行列であるので対角要素の
上半分か下半分のどちらかを調べれば良い)、それぞれ
で切断線を構成することにより文字列パターンを切断す
る(ステップv)。そして、切断により得られた部分パ
ターンを外接矩形により表現し、その矩形の中に図2の
ステップgで述べた二つの条件を満たす矩形が存在する
場合には、その矩形を第1部分パターン切り出し部8に
おいてさらに文字列の方向に垂直な直線で切断する。
[Equation 5] Next, in the matrix G shown in the above equations (2) to (5), a pair of cutting line end point candidates whose elements are set to 1 is extracted (since the matrix G is the target matrix, the diagonal element Either the upper half or the lower half may be checked), and the character string pattern is cut by constructing a cutting line for each (step v). Then, the partial pattern obtained by cutting is represented by a circumscribed rectangle, and if a rectangle that satisfies the two conditions described in step g of FIG. 2 exists in the rectangle, the rectangle is cut into the first partial pattern. In section 8, it is further cut by a straight line perpendicular to the direction of the character string.

【0110】以上の処理により、図16(a)に示す文
字列パターンは、同図(b)に示す部分パターン群SP
2として切断処理されることになる。
By the above processing, the character string pattern shown in FIG. 16A becomes the partial pattern group SP shown in FIG. 16B.
It will be cut as 2.

【0111】次に、第1部分パターン切り出し部8と第
2部分パターン切り出し部9でそれぞれ得られる部分パ
ターン群SP1とSP2のうち重複している部分パター
ン(異なる部分パターン同士を重ね合わせたときパター
ンが一致するもの)のどちらか一方を除去し、SP1+
SP2−重複部分パターンの一方=SP3とする。そし
て、このSP3から以下の手順で文字候補パターンを生
成する(ステップi)。
Next, overlapping partial patterns of the partial pattern groups SP1 and SP2 obtained by the first partial pattern cutting section 8 and the second partial pattern cutting section 9 (when different partial patterns are superposed, (The ones that match) are removed, and SP1 +
SP2-one of overlapping partial patterns = SP3. Then, a character candidate pattern is generated from this SP3 by the following procedure (step i).

【0112】まず、垂直方向の統合処理を行う。この場
合、文字パターンのかすれおよび途切れ(例えば図8
(b)のprt2とprt3)を考慮して、水平方向の
重なりがしきい値th9 以上である複数個の部分パターン
を垂直方向に統合する(図8(b)のprt4)。
First, vertical integration processing is performed. In this case, the character pattern is faint and discontinuous (see, for example, FIG.
In consideration of prt2 and prt3 in (b), a plurality of partial patterns whose horizontal overlap is equal to or larger than the threshold value th9 are integrated in the vertical direction (prt4 in FIG. 8B).

【0113】次に、水平方向のソーティングを行う。こ
の場合、部分パターン群SP3の左下端のX座標値につ
いて昇順にソートして部分パターンのリストを作る。こ
の結果部分パターンを左から右に並べたリストが得られ
る。そして部分パターン間の隣接関係を獲得する。
Next, horizontal sorting is performed. In this case, the X coordinate values at the lower left end of the partial pattern group SP3 are sorted in ascending order to create a partial pattern list. As a result, a list in which the partial patterns are arranged from left to right is obtained. Then, the adjacency relationship between the partial patterns is acquired.

【0114】そして、水平方向の統合処理を行う。この
場合、一つの部分パターンが一文字を正しく代表してい
る可能性もあるし、また複数個の隣接する部分パターン
を組み合わせたパターンが一文字を正しく代表している
可能性もある。あるいは一文字を代表し得ない偽のパタ
ーンであるかも知れない。
Then, horizontal integration processing is performed. In this case, one partial pattern may correctly represent one character, or a pattern in which a plurality of adjacent partial patterns are combined may correctly represent one character. Or it may be a fake pattern that cannot represent a single character.

【0115】従って、以下に述べる「文字らしさに関す
る条件」に照らして、複数個の隣接する部分パターンを
水平方向に統合して可能な全ての文字候補パターンを発
生させる。ただし、この時prt5とprt8のように
ほぼ同じ大きさで同じ位置に存在する部分パターンは統
合しないこととする。
Therefore, in light of the "conditions regarding character likeness" described below, a plurality of adjacent partial patterns are integrated in the horizontal direction to generate all possible character candidate patterns. However, at this time, partial patterns having substantially the same size and existing at the same position, such as prt5 and prt8, are not integrated.

【0116】(条件1):部分パターンを統合すること
により生じる文字候補パターンの横幅はしきい値:th10
以下である。
(Condition 1): The width of the character candidate pattern generated by integrating the partial patterns is a threshold value: th10.
It is the following.

【0117】(条件2):部分パターンを統合すること
により生じる文字候補パターンの縦横比はしきい値:mp
rop 以下である。
(Condition 2): The aspect ratio of a character candidate pattern generated by integrating partial patterns is a threshold value: mp
Below rop.

【0118】(条件3):文字候補パターンを構成する
隣接部分パターン間の水平方向の距離はしきい値:mgap
以下である。
(Condition 3): The horizontal distance between the adjacent partial patterns constituting the character candidate pattern is a threshold value: mgap.
It is the following.

【0119】(条件4):統合対象となる部分パターン
の間に他の部分パターンが存在しないこと。
(Condition 4): No other partial pattern exists between the partial patterns to be integrated.

【0120】図8(b)と図16(b)の部分パターン
群SP1とSP2に対して上記の条件を適用して得られ
た文字候補パターン群の例を図19に示す。
FIG. 19 shows an example of a character candidate pattern group obtained by applying the above conditions to the partial pattern groups SP1 and SP2 in FIGS. 8B and 16B.

【0121】ここで、図19のchar1は図8(b)のpt
r4、char2 はptr5、char3 はptr6、char4 はptr4とptr5
を統合したもの(これは図16のptr7とptr5を統合した
ものでもある)、char5 はptr5とptr6を統合したもの
(これはptr5とptr9を統合したものでもある)、char6
はptr4とptr5とptr6を統合したもの(これは図16のpt
r7とptr8とptr9を統合したものでもある)、char7 はpt
r7、char8 はptr8、char9 はptr9、char10はptr7とptr8
を統合したもの、char11はptr8とptr9を統合したもの
(これはptr8とptr6を統合したものとほぼ一致する)、
char12はptr4とptr8を統合したものである。各文字候補
パターンはそれを外接する矩形により代表され、その
幅、高さ、左上端の座標により表現されている。
Here, char1 in FIG. 19 is pt in FIG. 8 (b).
r4, char2 is ptr5, char3 is ptr6, char4 is ptr4 and ptr5
, Which is also a combination of ptr7 and ptr5 in Figure 16, char5 is a combination of ptr5 and ptr6 (which is also a combination of ptr5 and ptr9), char6
Is a combination of ptr4, ptr5, and ptr6 (this is pt in Fig. 16)
r7 and ptr8 and ptr9 are also integrated), char7 is pt
r7, char8 is ptr8, char9 is ptr9, char10 is ptr7 and ptr8
Char11 is a combination of ptr8 and ptr9 (which is almost the same as a combination of ptr8 and ptr6),
char12 is a combination of ptr4 and ptr8. Each character candidate pattern is represented by a rectangle that circumscribes it, and is represented by its width, height, and coordinates at the upper left end.

【0122】ステップiで生成された全ての文字候補パ
ターンに対してステップjでパターン照合による認識処
理を行う。このとき各文字候補パターンは辞書部12に
格納されている標準パターンと照合され、それらのうち
最も類似度が高いカテゴリとその類似度を認識結果とし
て得る。ここで、前記認識結果は最大類似度から類似度
の高い順に上位N個までのカテゴリとその類似度を保持
しても良い。さらに最大類似度値は当該文字候補パター
ンの得点とする。
In step j, recognition processing by pattern matching is performed on all the character candidate patterns generated in step i. At this time, each character candidate pattern is collated with the standard pattern stored in the dictionary unit 12, and the category having the highest similarity and the similarity thereof are obtained as the recognition result. Here, the recognition result may hold the top N categories and the degrees of similarity in order from the highest degree of similarity to the highest degree of similarity. Further, the maximum similarity value is the score of the character candidate pattern.

【0123】そして、ステップkに進む。ステップkで
は、前記文字候補パターン群に対して以下の文字列らし
さの条件を適用して可能な全ての文字列候補を生成す
る。
Then, the process proceeds to step k. In step k, all possible character string candidates are generated by applying the following character string-likeness conditions to the character candidate pattern group.

【0124】(条件1):文字列候補を構成する文字候
補パターンの左上端のX座標値の最小値は文字列パター
ンの左上端のX座標値と、また文字候補パターンの右下
端のX座標値の最大値は文字列パターンの右下端のX座
標値とそれぞれ一致している 。 (条件2):文字列候補を構成する文字候補パター
ンの間に、当該文字列候補を構成しない別の文字候補パ
ターンが存在しないこと。
(Condition 1): The minimum X coordinate value of the upper left corner of the character candidate pattern constituting the character string candidate is the X coordinate value of the upper left corner of the character string pattern, and the X coordinate of the lower right corner of the character candidate pattern. The maximum value matches the X coordinate value at the lower right corner of the character string pattern. (Condition 2): Another character candidate pattern that does not form the character string candidate does not exist between the character candidate patterns that form the character string candidate.

【0125】(条件3):文字列候補を構成する隣合う
文字候補パターンが水平方向にしきい値th11以上重なら
ない。
(Condition 3): Adjacent character candidate patterns forming a character string candidate do not overlap in the horizontal direction by a threshold value th11 or more.

【0126】例えば、図19の文字候補パターン群に対
して上記の条件を適用して得られた文字列候補群は次の
ようになる。
For example, the character string candidate group obtained by applying the above conditions to the character candidate pattern group of FIG. 19 is as follows.

【0127】string1 :char1-char2-char3 ( 文字列候
補string1 はchar1 とchar2 とchar3 で構成される) string2 :char1-char2-char9 string3 :char1-char8-char3 string4 :char1-char8-char9 string5 :char1-char5 string6 :char1-char11 string7 :char7-char2-char3 string8 :char7-char2-char9 string9 :char7-char8-char3 string10:char7-char8-char9 string11:char7-char5 string12:char7-char11 string13:char4-char3 string14:char4-char9 string15:char10-char3 string16:char10-char9 string17:char12-char3 string18:char12-char9 string19:char6 そして、ステップkで生成した文字列候補群を用いて評
価部13により、以下の方法により最尤文字列候補を選
択し、それを文字列単位の認識結果とする(ステップ
l)。この場合、各文字列候補においてそれを構成する
文字候補パターンの総和を求め、それを文字列候補の得
点とする。次に、文字列候補群から文字列候補の得点が
最も高い文字列候補を選択し、それを最尤文字列候補と
する。
String1: char1-char2-char3 (character string candidate string1 is composed of char1, char2 and char3) string2: char1-char2-char9 string3: char1-char8-char3 string4: char1-char8-char9 string5: char1 -char5 string6: char1-char11 string7: char7-char2-char3 string8: char7-char2-char9 string9: char7-char8-char3 string10: char7-char8-char9 string11: char7-char5 string12: char7-char11 string13: char4-char3 string14: char4-char9 string15: char10-char3 string16: char10-char9 string17: char12-char3 string18: char12-char9 string19: char6 Then, using the character string candidate group generated in step k, the evaluation unit 13 performs the following method. The maximum likelihood character string candidate is selected by and is used as a recognition result in character string units (step l). In this case, in each character string candidate, the sum of the character candidate patterns forming the character string candidate is obtained, and this is used as the score of the character string candidate. Next, the character string candidate having the highest score of the character string candidates is selected from the character string candidate group, and is selected as the maximum likelihood character string candidate.

【0128】次いで、ステップmに進む。ステップmで
は、後処理部14において、最尤文字列候補に対して、
以下に示す個別文字レベルの類似文字間の誤読の救済処
理を行う。この処理はパターン照合部11における認識
性能を補うものである。
Then, the process proceeds to step m. In step m, in the post-processing unit 14, for the maximum likelihood character string candidates,
A remedy process for misreading between similar characters at the individual character level shown below is performed. This processing complements the recognition performance of the pattern matching unit 11.

【0129】まず、最尤文字列候補における文字候補パ
ターンのなかで認識結果のカテゴリが類似文字を持つも
のを抽出する。
First, among the character candidate patterns in the maximum likelihood character string candidates, the ones in which the category of the recognition result has similar characters are extracted.

【0130】次に、抽出された文字候補パターンを以下
に述べるニューラルネットワークに入力することにより
詳細識別を行う。このニューラルネットワークは類似文
字の集合(例えば{5,6} 、{2,3,8} 、{7,9} )ごとに構
成されており、ネットワークにパターンを入力したと
き、そのパターンに対応するカテゴリを出力するように
学習されたものである。
Next, detailed identification is performed by inputting the extracted character candidate patterns to the neural network described below. This neural network is configured for each set of similar characters (eg {5,6}, {2,3,8}, {7,9}), and when a pattern is input to the network, it corresponds to that pattern. It has been learned to output categories.

【0131】そして、ここで得られた識別結果を当該文
字候補パターンの新しい認識結果として置き換える。
Then, the identification result obtained here is replaced with a new recognition result of the character candidate pattern.

【0132】次に、ステップnで、ステップmで得られ
た最尤文字列候補の認識結果を最終的な認識結果とし
て、表示部3に表示する。この場合、丸中文字列の円パ
ターンの抽出結果は、例えば原画像に重ね合わせて表示
するようにしても良い。このとき表示される円パターン
は文字列パターン抽出部7で打ち抜かれた部分であり、
原パターンとは色を変えて表示するものである。打ち抜
かれた部分と原パターンとが重なっているところは、さ
らに違った色で表示するようにしても良く、また操作部
1の操作により、打ち抜かれた部分の表示の有無を利用
者が制御できるようにしてもよい。そして、利用者はこ
れらの表示の拡大または縮小ができる。文字認識結果は
原パターン上に重なるように表示されるようにしても良
いし、原パターンの付近(真下、真上、真横のいずれで
も良い)に表示されるようにしても良い。原パターンの
付近に表示される場合には特別にウィンドウがその原パ
ターンの付近に出現するようになっても良い。このウイ
ンドウは操作部1を用いてその大きさや位置を自由に変
えられるものであり、以下の特徴をもっている。
Next, in step n, the recognition result of the maximum likelihood character string candidate obtained in step m is displayed on the display unit 3 as the final recognition result. In this case, the extraction result of the circle pattern of the Maruchu character string may be displayed, for example, in an overlapping manner with the original image. The circle pattern displayed at this time is a portion punched out by the character string pattern extraction unit 7,
The original pattern is displayed in different colors. A portion where the punched portion and the original pattern overlap may be displayed in a different color, and the user can control whether or not the punched portion is displayed by operating the operation unit 1. You may do it. Then, the user can enlarge or reduce these displays. The character recognition result may be displayed so as to overlap the original pattern, or may be displayed near the original pattern (either directly below, directly above, or just beside). When displayed in the vicinity of the original pattern, a window may appear to appear in the vicinity of the original pattern. The size and position of this window can be freely changed using the operation unit 1 and has the following features.

【0133】・文字列候補は、得点結果の高い順にM個
(利用者が決めることができる)、またはすべて表示す
る。これは操作部1の操作によって各文字列候補を順次
表示するようにしても良いし、一度に全てを表示しても
良い。表示された文字列候補において第1位の結果が誤
りであり、それ以外に正解が含まれている場合には操作
部1を用いて正解の文字列候補を指示することで認識結
果が入れ代わることにより修正するようにしても良い。
また、表示された文字列候補のいずれも正解ではなく、
文字パターンの正解が漏れなく別の文字列候補に渡って
存在するような場合には文字ごとの正解を、正しい順に
操作部1で指示することにより修正を行うようにしても
良い。
The character string candidates are displayed in the order of M (which can be determined by the user) or all in descending order of the score result. In this case, each character string candidate may be sequentially displayed by the operation of the operation unit 1, or all the character string candidates may be displayed at once. If the first-ranked result is incorrect in the displayed character string candidates and the correct answer is included in other than that, the recognition result is replaced by instructing the correct character string candidate using the operation unit 1. You may make it correct by.
Also, none of the displayed character string candidates are correct,
When the correct answer of the character pattern exists in different character string candidates without omission, the correct answer may be specified for each character by the operation unit 1 in the correct order.

【0134】・各文字列候補については各文字パターン
の認識結果を類似度の高い順に上位N度(利用者が決め
ることができる)まで候補として表示するようにしても
良い。このとき候補として間違い易い文字を常に表示す
るようにしても良い。また、文字切り出しは正しくなさ
れているが個別文字認識レベルにおいて誤りが生じてい
る場合には候補の中から選択できるようになっていても
良い。
For each character string candidate, the recognition result of each character pattern may be displayed as candidates up to the top N degrees (which can be determined by the user) in descending order of similarity. At this time, a character that is easily mistaken as a candidate may be always displayed. Further, if the character is cut out correctly but an error occurs in the individual character recognition level, it may be possible to select from the candidates.

【0135】上述した修正手段のほかに例えば以下に述
べる手段を用いて修正するようにしても良い。
In addition to the above-mentioned correction means, for example, the following means may be used for correction.

【0136】・原パターンを拡大表示し、円パターンと
文字列パターンが接触している箇所や、文字同士が接触
している箇所を利用者が消しゴム(操作部1で原画像消
去モードを指示することによって操作部1のマウスやペ
ンが消しゴムツールとなる)で消去した後、当該パター
ン上の一点を指示するとその丸中文字列は再度認識さ
れ、その結果を表示し直す。
The original pattern is enlarged and displayed, and the user erases the place where the circle pattern and the character string pattern are in contact with each other, or the place where the characters are in contact with each other (the original image erase mode is instructed in the operation unit 1). By doing so, the mouse or pen of the operation unit 1 becomes an eraser tool), and then, when a point on the pattern is specified, the character string in the circle is recognized again and the result is displayed again.

【0137】・図面などにおいては同じ丸中文字列は固
まって存在していることが多い。このような場合を想定
した修正手段を以下に述べる。この場合、同じ正解を持
つ文字列パターンのうち正しくコード化されている(も
しくは修正された)結果を操作部1で指示することによ
りその結果を保持する。同じ正解を持ちかつ認識結果が
誤っている文字列パターンを操作部1で選択することに
より、保持した正しい結果に交換する。一度正解を保持
しておけばこの修正作業は何回でもできるようにしても
良い。また、正解を保持した後、同じ正解を持ちかつ認
識結果が誤っている文字列パターンをいくつかピックア
ップして、その後、一括して誤りを保持した正解に変換
しても良い。
In the drawings and the like, the same circle-in-character string often exists in a solid state. Correcting means assuming such a case will be described below. In this case, the operation unit 1 holds the result by instructing the correct coded (or corrected) result among the character string patterns having the same correct answer. By selecting a character string pattern having the same correct answer and an incorrect recognition result with the operation unit 1, the held correct result is exchanged. Once the correct answer is retained, this correction work may be performed as many times as necessary. Alternatively, after holding the correct answer, a plurality of character string patterns having the same correct answer and having incorrect recognition results may be picked up, and then collectively converted into correct answers having the incorrect answer.

【0138】・文字列が数字のみで構成されている場
合、修正対象の当該文字列の原パターンの付近に図20
のような数字ウィンドウを自動的に表示し、これを操作
部1を用いて順に指示することにより正解の入力を行
う。このことにより利用者は目線をディスプレイとキー
ボードの間で移動すること無く修正作業を行うことがで
きる。
When the character string is composed only of numbers, the character pattern shown in FIG.
A numerical window like this is automatically displayed, and the correct answer is input by sequentially instructing this using the operating unit 1. This allows the user to perform the correction work without moving the line of sight between the display and the keyboard.

【0139】上述した手段により修正した文字列や操作
部1を用いてマークされた正解文字列は、他の文字列と
区別して表示して(例えば色を変えて表示する)、修正
作業時の混乱を避けるようにしても良い。
The character string corrected by the above-described means and the correct character string marked by using the operation unit 1 are displayed separately from other character strings (for example, displayed in different colors), and are You may try to avoid confusion.

【0140】そして、これまで述べてきた処理で得られ
た種々の結果は、記憶部15に格納することになるが、
これら文字確認結果や図形確認結果のほかに、例えば、
下記の関係も格納するようにしても良い。
The various results obtained by the processing described so far are stored in the storage unit 15.
In addition to these character confirmation results and figure confirmation results, for example,
The following relationships may also be stored.

【0141】(1)図形データと文字データの位置関係
や論理関係。
(1) Positional relationship and logical relationship between graphic data and character data.

【0142】(2)文字列領域と文字行と文字の階層的
な論理関係やそれぞれの物理的な位置情報。
(2) Hierarchical logical relationship between character string area, character line and character, and physical position information of each.

【0143】(3)他の文字列や図形との位置関係や論
理関係。
(3) Positional relationship and logical relationship with other character strings and figures.

【0144】本発明は、上記実施例にのみ限定されず、
その要旨を逸脱しない範囲において種々変形して実施す
ることができる。例えば、上述した実施例では、「文字
列方向と垂直な走査線を用いて文字パターンの切り出し
を行う手段」と「文字列パターンの外内輪郭部で検出し
た切断線端点の候補から各文字パターンの切断線と見な
される線分を構成する切断線端点のペアを抽出し、この
ペアの切断線端点を結ぶ線分で文字パターンの切り出し
を行う手段」を並行して実施する場合を述べたが、本発
明は、後者の切り出し手段のみによっても成立するもの
である。また、上述した実施例では、丸中文字列の自動
検出及び文字列パターンの円からの切り出しについて述
べたが、これに限ることなく、他の特定形状をした図形
パターンに接触している文字列パターンの切り出しにも
適用することができる。
The present invention is not limited to the above embodiment,
Various modifications can be implemented without departing from the gist of the invention. For example, in the above-described embodiment, "means for cutting out a character pattern by using a scanning line perpendicular to the character string direction" and "each character pattern from the candidates of the cutting line end points detected in the outer and inner contour portions of the character string pattern" The means for extracting a pair of cutting line end points that form a line segment that is considered to be a cutting line and cutting out a character pattern with a line segment that connects the cutting line end points of this pair has been described in parallel. The present invention can be realized only by the latter cutting means. Further, in the above-described embodiment, the automatic detection of the character string in the circle and the cutout from the circle of the character string pattern are described, but the present invention is not limited to this, and the character string in contact with the graphic pattern having another specific shape is described. It can also be applied to cut out patterns.

【0145】[0145]

【発明の効果】本発明によれば互いに接触する複数の文
字パターンから構成される文字列パターンに対して、文
字列パターンの外内輪郭部で検出した切断線端点の候補
から各文字パターンの切断線と見なされる線分を構成す
る切断線端点のペアを抽出し、このペアの切断線端点を
結ぶ線分で文字パターンの切り出しを行うようになるの
で、複雑に入り組んで接触している文字列でも正確な文
字の切出しを実現することができる。
According to the present invention, for a character string pattern composed of a plurality of character patterns that are in contact with each other, each character pattern is cut from the candidates of the cutting line end points detected at the outer and inner contour portions of the character string pattern. A pair of cutting line end points that form a line segment that is regarded as a line is extracted, and the character pattern is cut out with the line segment that connects the cutting line end points of this pair. However, it is possible to realize accurate character cutting.

【0146】また、このような文字パターンの切り出し
手段に並行して文字列方向と垂直な走査線を用いて文字
パターンの切り出しを行う手段を実施し、これら手段よ
り得られた文字パターンより可能なすべての文字候補パ
ターンを生成し、この中から最大類似度値の合計の最も
高いものを文字認識結果として出力するようになるの
で、複雑に入り組んで接触している文字列でもさらに正
確な文字の切出しができるとともに、精度の高い文字認
識を実現することができる。
Further, a means for cutting out a character pattern by using a scanning line perpendicular to the character string direction is provided in parallel with such a means for cutting out a character pattern, and a character pattern obtained by these means can be used. All character candidate patterns are generated, and the one with the highest total of the maximum similarity values is output as the character recognition result. It is possible to cut out and realize highly accurate character recognition.

【0147】さらに、入力画像に対して特定形状をした
図形パターンを抽出することで図形パターンと該図形パ
ターンに接触している文字列パターンのそれぞれの存在
領域を検出するとともに、この図形パターンに関する情
報を用いて図形パターンより文字列パターンを切り出す
ようになるので、従来不可能とされていた丸中文字列に
見られる図形パターンに複雑に接触している文字列でも
正確な文字の切出しを実現することができる。
Further, by extracting a graphic pattern having a specific shape from the input image, the existing areas of the graphic pattern and the character string pattern in contact with the graphic pattern are detected, and information on the graphic pattern is detected. Since the character string pattern is cut out from the figure pattern by using, it is possible to accurately cut out a character string that is in contact with the figure pattern found in the Marunaka character string, which was previously impossible. be able to.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施例の概略構成を示す図。FIG. 1 is a diagram showing a schematic configuration of an embodiment of the present invention.

【図2】一実施例の動作を説明するためのフローチャー
ト。
FIG. 2 is a flowchart for explaining the operation of the embodiment.

【図3】一実施例の丸中文字列パターンにおける円の抽
出例を示す図。
FIG. 3 is a diagram showing an example of extracting circles in a Maruchu character string pattern according to an embodiment.

【図4】一実施例の丸中文字列パターンの抽出例を示す
図。
FIG. 4 is a diagram showing an example of extracting a Marunaka character string pattern according to an embodiment.

【図5】一実施例の円パターンと文字列パターンが接触
している領域を示す図。
FIG. 5 is a diagram showing a region where a circle pattern and a character string pattern of one embodiment are in contact with each other.

【図6】一実施例の円パターンと文字列パターンの切り
出しを説明するための図。
FIG. 6 is a diagram for explaining how to cut out a circle pattern and a character string pattern according to an embodiment.

【図7】一実施例の文字行切り出しを説明するための文
字列パターン例を示す図。
FIG. 7 is a diagram showing an example of a character string pattern for explaining a character line cutout according to an embodiment.

【図8】一実施例の第1の部分パターンの切り出し部を
説明するための図。
FIG. 8 is a diagram for explaining a cutout portion of a first partial pattern according to an embodiment.

【図9】図8の部分パターンの切り出し処理の後処理を
説明するための図。
9A and 9B are views for explaining the post-process of the partial pattern cutout process of FIG. 8;

【図10】一実施例の第2の部分パターン切り出し部を
説明するフローチャート。
FIG. 10 is a flowchart illustrating a second partial pattern cutout unit according to the embodiment.

【図11】第2の部分パターン切り出し部での文字列パ
ターンの輪郭点列の例を示す図。
FIG. 11 is a diagram showing an example of a contour point sequence of a character string pattern in a second partial pattern cutout unit.

【図12】第2の部分パターン切り出し部での文字列パ
ターンの細線の抽出列の例を示す図。
FIG. 12 is a diagram showing an example of an extraction sequence of thin lines of a character string pattern in a second partial pattern cutout unit.

【図13】第2の部分パターン切り出し部での文字列パ
ターンの輪郭部における凸形状および凹形状のくぼみを
示す図。
FIG. 13 is a diagram showing convex and concave depressions in a contour portion of a character string pattern at a second partial pattern cutout portion.

【図14】第2の部分パターン切り出し部での凹形状の
くぼみを抽出する処理を説明するための図。
FIG. 14 is a diagram for explaining a process of extracting a concave depression at the second partial pattern cutout portion.

【図15】第2の部分パターンの切り出し部での切断線
の抽出処理を説明するための図。
FIG. 15 is a diagram for explaining a process of extracting a cutting line at a cutout portion of a second partial pattern.

【図16】第2の部分パターン切り出し部での部分パタ
ーンの切り出しの例を示す図。
FIG. 16 is a diagram showing an example of cutting out a partial pattern by a second partial pattern cutting portion.

【図17】第2の部分パターン切り出し部での部分パタ
ーンの切り出しの例を示す図。
FIG. 17 is a diagram showing an example of cutting out a partial pattern by a second partial pattern cutting portion.

【図18】第2の部分パターン切り出し部での部分パタ
ーンの切り出しの例を示す図。
FIG. 18 is a diagram showing an example of cutting out a partial pattern by a second partial pattern cutting portion.

【図19】一実施例の文字候補パターンの抽出例を説明
するための図。
FIG. 19 is a diagram for explaining an example of extracting character candidate patterns according to an embodiment.

【図20】一実施例の認識結果修正に用いる修正ツール
の一例を示す図。
FIG. 20 is a diagram showing an example of a correction tool used to correct a recognition result according to an embodiment.

【符号の説明】[Explanation of symbols]

1…操作部、2…制御部、3…表示部、4…画像入力
部、5…出力部、6…図形パターン抽出部、7…文字列
パターン抽出部、8…第1部分パターン切り出し部、9
…第2部分パターン切り出部、10…文字候補パターン
生成部、11…パターン照合部、12…辞書部、13…
評価部、14…後処理部、15…記憶部。
DESCRIPTION OF SYMBOLS 1 ... Operation part, 2 ... Control part, 3 ... Display part, 4 ... Image input part, 5 ... Output part, 6 ... Graphic pattern extraction part, 7 ... Character string pattern extraction part, 8 ... 1st partial pattern cutout part, 9
... second partial pattern cutout unit, 10 ... character candidate pattern generation unit, 11 ... pattern matching unit, 12 ... dictionary unit, 13 ...
Evaluation unit, 14 ... Post-processing unit, 15 ... Storage unit.

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 互いに接触する複数の文字パターンから
構成される文字列パターンの外側の輪郭部上における各
文字パターンの切断線端点の候補を検出する手段と、 前記文字列パターンが形成する内側の輪郭部上における
各文字パターンの切断線端点の候補を検出する手段と、 これら手段より検出された各切断線端点の候補から各文
字パターンの切断線と見なされる線分を構成する切断線
端点のペアを抽出する手段と、 この抽出されたペアの切断線端点を結ぶ線分で文字パタ
ーンの切り出しを行う手段とを具備したことを特徴とす
る文字認識装置。
1. A means for detecting a candidate of a cutting line end point of each character pattern on an outer contour portion of a character string pattern composed of a plurality of character patterns in contact with each other, and an inner part formed by the character string pattern. Means for detecting the candidates of the cutting line end points of each character pattern on the contour portion, and of the cutting line end points forming the line segment considered as the cutting line of each character pattern from the candidates of the cutting line end points detected by these means. A character recognition device comprising: a means for extracting a pair; and a means for cutting out a character pattern with a line segment connecting the cut line end points of the extracted pair.
【請求項2】互いに接触する複数の文字パターンから構
成される文字列パターンを該文字列パターンの文字列方
向に垂直な方向の走査線で順次走査して各文字パターン
が接触する箇所を検出するとともにこれら接触箇所を通
る走査線により文字列パターンを切断する第1の部分パ
ターン切り出し手段と、 互いに接触する複数の文字パターンから構成される文字
列パターンの外側の輪郭部上における各文字パターンの
切断線端点の候補を検出する手段、前記文字列パターン
が形成する内側の輪郭部上における各文字パターンの切
断線端点の候補を検出する手段、これら手段より検出さ
れた各切断線端点の候補から各文字パターンの切断線と
見なされる線分を構成する切断線端点のペアを抽出する
手段、この抽出されたペアの切断線端点を結ぶ線分で文
字パターンの切り出しを行う手段を有する第2の部分パ
ターン切り出し手段と、 これら第1および第2のパターン切り出し手段より切り
出された部分パターンの集合から隣接する部分パターン
を文字らしさの基準に照らし統合することで可能なすべ
ての文字候補パターンを生成する手段と、 前記文字候補パターンに対しパターン照合による認識処
理を行うとともに各文字候補パターンについて最大類似
度値を付与する手段と、 前記文字候補パターンから文字の並び方に関する基準に
照らして可能なすべての文字列の組み合わせを文字列候
補として生成する手段と、 この手段で生成された文字列候補について各文字候補パ
ターンの最大類似度値の合計の最も高いものを文字認識
結果として出力する手段とを具備したことを特徴とする
文字認識装置。
2. A character string pattern composed of a plurality of character patterns that are in contact with each other is sequentially scanned with a scanning line in a direction perpendicular to the character string direction of the character string pattern to detect a position where each character pattern contacts. Together with the first partial pattern cutting-out means for cutting the character string pattern by the scanning line passing through these contact points, and the cutting of each character pattern on the outer contour portion of the character string pattern composed of a plurality of character patterns that are in contact with each other. Means for detecting candidates for line end points, means for detecting candidates for cutting line end points of each character pattern on the inner contour portion formed by the character string pattern, and respective means for detecting cutting line end points detected by these means A means for extracting a pair of cutting line end points forming a line segment considered as a cutting line of a character pattern, and a line connecting the cutting line end points of the extracted pair Second partial pattern cutout means having means for cutting out a character pattern in minutes, and illuminating adjacent partial patterns from a set of the partial patterns cut out by the first and second pattern cutout means to a character likeness criterion. Means for generating all possible character candidate patterns by integration, means for performing recognition processing by pattern matching for the character candidate patterns, and giving a maximum similarity value for each character candidate pattern, the character candidate pattern From the means for generating all possible combinations of character strings as a character string candidate based on the criteria for arranging characters, and for the character string candidates generated by this means, the maximum of the maximum similarity value of each character candidate pattern is calculated. A sentence characterized by comprising means for outputting a high character as a character recognition result. Character recognition device.
【請求項3】 入力画像に対して特定形状の図形パター
ンを抽出し図形パターンと該図形パターンに接触してい
る文字列パターンのそれぞれの存在領域を検出する手段
と、 前記図形パターンに関する情報を用いて前記図形パター
ンと文字列パターンの接触部分での境界領域を検出する
手段と、 この手段より検出された境界領域に対して前記図形パタ
ーンと文字列パターンの切断線と見なされる線分を構成
する端点のペアを抽出する手段と、 この手段で抽出されたペアの端点を結ぶ線分で文字列パ
ターンの切り出しを行う手段とを具備したことを特徴と
する文字認識装置。
3. A means for extracting a figure pattern of a specific shape from an input image to detect the existing areas of the figure pattern and a character string pattern in contact with the figure pattern, and using information about the figure pattern. And means for detecting a boundary area at a contact portion between the graphic pattern and the character string pattern, and a line segment regarded as a cutting line between the graphic pattern and the character string pattern with respect to the boundary area detected by the means. A character recognition device comprising: means for extracting a pair of end points; and means for cutting out a character string pattern with a line segment connecting the end points of the pair extracted by this means.
JP4262553A 1992-09-30 1992-09-30 Character recognizing device Pending JPH06111070A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4262553A JPH06111070A (en) 1992-09-30 1992-09-30 Character recognizing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4262553A JPH06111070A (en) 1992-09-30 1992-09-30 Character recognizing device

Publications (1)

Publication Number Publication Date
JPH06111070A true JPH06111070A (en) 1994-04-22

Family

ID=17377408

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4262553A Pending JPH06111070A (en) 1992-09-30 1992-09-30 Character recognizing device

Country Status (1)

Country Link
JP (1) JPH06111070A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006163735A (en) * 2004-12-06 2006-06-22 Hoya Corp Mark detection method and device
WO2013084731A1 (en) * 2011-12-08 2013-06-13 日本電気株式会社 Image identifying system
JP2014130510A (en) * 2012-12-28 2014-07-10 Glory Ltd Method and device for recognizing character
JP7043670B1 (en) * 2021-09-17 2022-03-29 株式会社東芝 String extractor, string extractor, and string extractor

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006163735A (en) * 2004-12-06 2006-06-22 Hoya Corp Mark detection method and device
WO2013084731A1 (en) * 2011-12-08 2013-06-13 日本電気株式会社 Image identifying system
JPWO2013084731A1 (en) * 2011-12-08 2015-04-27 日本電気株式会社 Image identification system
JP2014130510A (en) * 2012-12-28 2014-07-10 Glory Ltd Method and device for recognizing character
JP7043670B1 (en) * 2021-09-17 2022-03-29 株式会社東芝 String extractor, string extractor, and string extractor

Similar Documents

Publication Publication Date Title
KR100248917B1 (en) Pattern recognizing apparatus and method
US5315667A (en) On-line handwriting recognition using a prototype confusability dialog
US5410611A (en) Method for identifying word bounding boxes in text
JP2951814B2 (en) Image extraction method
JP2641380B2 (en) Bending point extraction method for optical character recognition system
JPH08305796A (en) Pattern extracting device, table preparing device for pattern recognition and pattern recognition device
US6246793B1 (en) Method and apparatus for transforming an image for classification or pattern recognition
US6920247B1 (en) Method for optical recognition of a multi-language set of letters with diacritics
RU2259592C2 (en) Method for recognizing graphic objects using integrity principle
JP5906788B2 (en) Character cutout method, and character recognition apparatus and program using this method
JP2007058882A (en) Pattern-recognition apparatus
JPH06111070A (en) Character recognizing device
JP4543675B2 (en) How to recognize characters and figures
JP4176175B2 (en) Pattern recognition device
JP3586949B2 (en) Form recognition device
JP4810853B2 (en) Character image cutting device, character image cutting method and program
JP3476595B2 (en) Image area division method and image binarization method
JP2007026470A (en) Pattern recognition device
JPH09305707A (en) Image extracting system
JPH08263655A (en) Pattern recognition method
JPH0877293A (en) Character recognition device and generating method for dictionary for character recognition
Saeed et al. Intelligent feature extract system for cursive-script recognition
JPH06162266A (en) Method for recognizing on-line handwritten character and device therefor
JP2022184331A (en) Ledger sheet particular field recognizing method and particular field reading device
JP2000207491A (en) Reading method and device for character string