JPS5831028B2 - character recognition device - Google Patents

character recognition device

Info

Publication number
JPS5831028B2
JPS5831028B2 JP54045144A JP4514479A JPS5831028B2 JP S5831028 B2 JPS5831028 B2 JP S5831028B2 JP 54045144 A JP54045144 A JP 54045144A JP 4514479 A JP4514479 A JP 4514479A JP S5831028 B2 JPS5831028 B2 JP S5831028B2
Authority
JP
Japan
Prior art keywords
character
memory
midpoint
recognized
video signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP54045144A
Other languages
Japanese (ja)
Other versions
JPS55138179A (en
Inventor
憲雄 金光
篤 霜山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP54045144A priority Critical patent/JPS5831028B2/en
Publication of JPS55138179A publication Critical patent/JPS55138179A/en
Publication of JPS5831028B2 publication Critical patent/JPS5831028B2/en
Expired legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 本発明は、認識対象文字について複数の候補文字が存在
する場合、認識対象文字の前後の文字を参照して、複数
の候補文字の中の1個を選択するようにした文字認識装
置に関するものである。
[Detailed Description of the Invention] The present invention provides a method for selecting one of the plurality of candidate characters by referring to the characters before and after the recognition target character when there are multiple candidate characters for the recognition target character. The invention relates to a character recognition device.

現在のOCR装置は、各文字を前後の関連を見ず、1文
字ずつ認識して出力している。
Current OCR devices recognize and output each character one by one without looking at the relationship between the characters before and after.

このため、まわりに大きな文字が書かれているにも拘わ
らず、小さいゴミ出力に対しても認識結果を出力してし
まったり、片仮名フィールドに書かれた半濁点「。
As a result, recognition results may be output even for small garbage outputs, even if there are large letters written around them, or "handakuten characters" written in katakana fields.

」を片仮名「口」と認識するようなことが生じていた。'' was recognized as the katakana word ``口''.

この外、濁点r=Jと片仮名「ハ」の区別をつげ難(、
また、白丸「。
In addition to this, it is difficult to differentiate between the dakuten r=J and the katakana "ha" (,
Also, byakumaru.

」と黒丸「・」の区別をつげ難い場合が生ずるという欠
点も有している。
'' and a black circle ``・'' may be difficult to distinguish.

認識対象文字の文字種決定を確実に行うため、従来技術
においては、読取り行のセンターラインを絶対位置情報
として用い、センターラインより上側にあるか下側にあ
るかという情報を参照して、各文字単独で読取りを行っ
ていた。
In order to reliably determine the character type of the character to be recognized, in conventional technology, the center line of the reading line is used as absolute position information, and each character is determined by referring to information on whether it is above or below the center line. It was reading alone.

このような従来技術は次のような欠点を有している。Such conventional technology has the following drawbacks.

(イ)読取りセンターラインの決定方式が、センターマ
ークを読み取れない場合、仮想のセンターラインを設定
しなければならなかった。
(b) If the method for determining the reading center line fails to read the center mark, a virtual center line must be set.

すなわち、紙が停止する位置をセンターラインの仮想位
置に合うように、紙を移動停止せねばならなかった。
In other words, the paper had to be moved and stopped so that the paper stopped position coincided with the virtual position of the center line.

これには自と停止誤差が生じ、その誤差が大きかった。This caused a self-stop error, and the error was large.

(0)各行の左側および右側にセンターマークを設けた
読取シートを用い、対応するセンターマークを読取り、
両センターマークを結ぶ直線を読取り行のセンターライ
ンとする読取りセンターラインの決定方式が知られてい
る。
(0) Using a reading sheet with center marks on the left and right sides of each row, read the corresponding center mark,
A method for determining the reading center line is known in which the straight line connecting both center marks is the center line of the reading line.

この方式は、左右両側の2個のセンターマークを読取り
、スキューを補正した後に文字の読取りを行わなければ
ならず、その分だけ時間が余分に必要であり、読取シー
トのデザインにも問題が生じた。
This method requires reading the two center marks on the left and right sides and correcting the skew before reading the characters, which requires extra time and also poses problems in the design of the reading sheet. Ta.

←→ 読取り文字を文字枠の下側に書くユーザにとって
は、濁点「N」、白丸「。
←→ For users who write the reading characters below the character frame, the voiced mark "N" and the white circle ".

」、黒丸「・」、アポストローフr=j、ダッシュr−
Jなどが文字枠の中心に来ても不自然でないため、文字
枠の中心付近に書く場合が生じてしまい、読取り不能と
なった。
", black circle "・", apostrophe r=j, dash r-
It would not be unnatural for a character such as J to be placed in the center of the character frame, so it was sometimes written near the center of the character frame, making it unreadable.

本発明は、上記の欠点を除去するものであって、前後の
文字と認識対象文字との関係を参照して認識対象文子の
文字種を常に正しく決定するようにした文字認識装置を
提供することを目的としている。
The present invention aims to eliminate the above-mentioned drawbacks, and provides a character recognition device that always correctly determines the character type of a sentence to be recognized by referring to the relationship between the preceding and following characters and the character to be recognized. The purpose is

そしてそのため、本発明の文字認識装置は、イメージ・
センサと、該イメージ・センサからのアナログ映像信号
を量子化する量子化手段と、量子化映像信号を格納する
映像メモリとを備え、上記映像メモリから量子化映像信
号を読出し、該量子化映像信号によって文字認識を行う
文字認識装置において、認識対象文字に外接する四辺形
に対応するメモリ領域内の量子化映像信号を上記映像メ
モリから切出す切出し手段と、該切出し手段によって切
出された認識対象文字について1個又は複数個の候補文
字を定める認識手段と、上記四辺形の上端の基準位置に
対する位置を抽出する上端抽出手段と、上記四辺形の下
端の基準位置に対する位置を抽出する下端抽出手段と、
上記四辺形の中点の基準位置に対する位置を抽出する中
点抽出手段と、同一読取り行における各認識対象文字毎
に候補文字、下端位置、中点位置および上端位置を関連
付けて格納するメモリと、該メモリに格納されている中
点位置に基づいて現在の認識対象文字の中点位置と前の
認識対象文字の中点位置の差分を算出する文字相互間特
徴抽出手段と、上記メモリからデータを読出し上記文字
相互間特徴抽出手段によって算出された差分を参照して
認識対象文字の文子様を決定する答編集手段とを設けた
ことを特徴とするものである。
Therefore, the character recognition device of the present invention uses an image
A sensor, quantization means for quantizing an analog video signal from the image sensor, and a video memory for storing the quantized video signal, reads the quantized video signal from the video memory, and reads out the quantized video signal. In a character recognition device that performs character recognition, a cutting means cuts out from the video memory a quantized video signal in a memory area corresponding to a quadrilateral circumscribing a character to be recognized, and a recognition target cut out by the cutting means. recognition means for determining one or more candidate characters for a character; upper end extraction means for extracting the position of the upper end of the quadrilateral relative to a reference position; and lower end extraction means for extracting the position of the lower end of the quadrilateral relative to the reference position. and,
a midpoint extraction means for extracting the position of the midpoint of the quadrilateral with respect to a reference position; a memory for storing a candidate character, a lower end position, a midpoint position, and an upper end position in association with each other for each recognition target character in the same reading line; inter-character feature extraction means for calculating the difference between the midpoint position of the current character to be recognized and the midpoint position of the previous character to be recognized based on the midpoint position stored in the memory; The present invention is characterized in that it further comprises answer editing means for determining the writing style of the character to be recognized by referring to the difference calculated by the inter-character feature extraction means.

以下、本発明を図面を参照しつつ説明する。Hereinafter, the present invention will be explained with reference to the drawings.

第1図は本発明の1実施例のブロック図、第2図および
第3図は文字の切出しを説明する図、第4図はメモリ1
3の内容を説明する図である。
FIG. 1 is a block diagram of one embodiment of the present invention, FIGS. 2 and 3 are diagrams explaining character cutting, and FIG. 4 is a memory 1.
3 is a diagram illustrating the contents of No. 3. FIG.

第1図において、1は帳票、2はレンズ、3はセンサ、
4は増幅器、5はA/D変換器、6は前処理回路、7は
映像メモリ、8は切出し回路、9は認識回路、10は上
端抽出回路、11は中点抽出回路、12は下端抽出回路
、13はメモリ、14は文字相互間特徴抽出回路、15
は答編集回路をそれぞれ示している。
In Figure 1, 1 is a form, 2 is a lens, 3 is a sensor,
4 is an amplifier, 5 is an A/D converter, 6 is a preprocessing circuit, 7 is a video memory, 8 is an extraction circuit, 9 is a recognition circuit, 10 is an upper end extraction circuit, 11 is a midpoint extraction circuit, 12 is a lower end extraction circuit circuit, 13 is memory, 14 is inter-character feature extraction circuit, 15
indicate the answer editing circuits.

イメージ・センサ3は、帳票1上の文字を横方向にスキ
ャンニングするものである。
The image sensor 3 scans characters on the form 1 in the horizontal direction.

A/D変換器5は、イメージ・センサ3によって光電変
換されたアナログ映像信号をディジタル信号に変換する
The A/D converter 5 converts the analog video signal photoelectrically converted by the image sensor 3 into a digital signal.

前処理回路6は、映像信号を文字部と背景部の白黒2値
信号に変換するものである。
The preprocessing circuit 6 converts the video signal into black and white binary signals for the text portion and the background portion.

切出し回路8は、文字に外接する四辺形を作るものであ
る。
The cutting circuit 8 creates a quadrilateral circumscribing a character.

第2図および第3図は文字の切出しを説明するものであ
る。
FIGS. 2 and 3 illustrate cutting out characters.

文字を下から上へ向う走査線で右から左へ走査する場合
、最初に黒が検出される走査線のX座標値X2および最
後に黒が検出される走査線のX座標値X、を求め、次に
左から右へ向う水平走線で上から下へ走査し、最初に黒
が検出される走査線のY座標値y1 および最後に黒が
検出される走査線のY座標値y2 を求める。
When scanning characters from right to left with scanning lines going from bottom to top, find the X coordinate value X2 of the scanning line where black is detected first and the X coordinate value X of the scanning line where black is detected last. , then scan from top to bottom with a horizontal line going from left to right, and find the Y coordinate value y1 of the scan line where black is detected first and the Y coordinate value y2 of the scan line where black is detected last. .

なお、XI。x2.yl、y2は文字を囲む文字枠を基
準とするものである。
In addition, XI. x2. yl and y2 are based on the character frame surrounding the character.

文字の外接四辺形は点(x2 t y2 )、(X2+
y1)、(Xl、y2)および(xl、yl)で規定さ
れる。
The circumscribed quadrilateral of the character is the point (x2 t y2 ), (X2+
y1), (Xl, y2) and (xl, yl).

認識回路9は、切出された文字について1個又は複数個
の候補文字を抽出するものである。
The recognition circuit 9 extracts one or more candidate characters from the extracted characters.

上端抽出回路10は、文字の上端位置、すなわちyl
(第3図参照)を抽出するものである。
The upper edge extraction circuit 10 extracts the upper edge position of the character, that is, yl
(See Figure 3).

中点抽出回路11は、文字の上端と下端の中点位置、す
なわち(y1+y2)/2を抽出するものである。
The midpoint extraction circuit 11 extracts the midpoint position between the upper and lower ends of a character, that is, (y1+y2)/2.

下端抽出回路12は、文字の下端位置、すなわちy2
を抽出するものである。
The lower edge extraction circuit 12 extracts the lower edge position of the character, that is, y2.
This is to extract.

文字相互間特徴抽出回路14は、現在の認識対象文字の
中点位置と前の認識対象文字の中点位置との差分を求め
るものである。
The character-to-character feature extraction circuit 14 calculates the difference between the midpoint position of the current character to be recognized and the midpoint position of the previous character to be recognized.

次に、本発明の実施例を具体例で説明する。Next, embodiments of the present invention will be explained using specific examples.

いま、帳票1上に「ケロンパ」なる文字が記入され、メ
モリ13に第4図に示す如き情報が格納されたと仮定す
る。
Assume that the characters "Keronpa" are written on the form 1 and the information shown in FIG. 4 is stored in the memory 13.

第2番目の記入文字に(すなわち認識対象文子)につい
ては、中点位置が第1番目の記入文字の中点位置より上
側に存在しないので、答編集回路15は片仮名「口」を
選択する。
Regarding the second written character (that is, the sentence to be recognized), since the midpoint position does not exist above the midpoint position of the first written character, the answer editing circuit 15 selects the katakana ``mouth''.

第5番目の記入文字については、中点位置が第4番目の
記入文字の中点位置より上側に存在し、文字高さも小さ
いので、答編集回路15は半濁点「。
Regarding the fifth written character, the midpoint position is located above the midpoint position of the fourth written character, and the character height is also small, so the answer editing circuit 15 selects the "handakuten" mark.

」を選択する。”.

半濁点「。」を選択する場合、前の記入文字がノ・行の
文字であることを条件として付加するとを認識精度は一
層向上する。
When selecting the handakuten ".", the recognition accuracy will be further improved if it is added on the condition that the previous written character is a character in the ノ line.

候補文字としてげ」と「ハ」が選択された場合において
も、同様にして認識対象文字が濁点「1」であるか、或
は片仮名「・・」であるかを判定することが出来る。
Even when the candidate characters "Togege" and "Ha" are selected, it is possible to determine in the same way whether the character to be recognized is the voiced mark "1" or the katakana "...".

この場合においても前の文字がカ行、す行、り行、・・
行であることを条件とすれば、認識精度は一層向上する
Even in this case, the previous character is ka line, su line, ri line, etc.
If the condition is that it is a row, the recognition accuracy will be further improved.

又、現在の認識対象文字に対する候補文字として黒丸「
・」と白丸「。
In addition, a black circle "
・” and Byakumaru “.

」が選択された状態の下では、現在の認識対象文字につ
いて次の如き判定が行われる。
” is selected, the following determination is made regarding the current character to be recognized.

1、前の認識対象文字が・・行の文字であると判定され
た場合について、現在の認識対象文字が前の認識対象文
字より上側にあるとき、白丸「。
1. When the previous recognition target character is determined to be a character in the line... If the current recognition target character is above the previous recognition target character, a white circle ".

」と判定する。”.

2、現在の認識対象文字の前に文字が存在しない場合に
ついて。
2. Regarding the case where no character exists before the current recognition target character.

2−1.現在の認識対象文字の大きさが所定値より小さ
いとき、文字存在せずど判定する。
2-1. When the size of the current character to be recognized is smaller than a predetermined value, it is determined that the character does not exist.

2−2.現在の認識文字の大きさが所定値より大きく且
つ後の認識対象文字より上側であるとき、判読不能と判
定する。
2-2. When the size of the current recognized character is larger than a predetermined value and is above the subsequent recognition target character, it is determined that it is unreadable.

2−3.現在の認識対象文字の大きさが所定直より大き
く且つ下側にあるとき、黒丸「・」と判定する。
2-3. When the size of the current character to be recognized is larger than a predetermined size and is on the lower side, it is determined to be a black circle ".".

3、現在の認識対象文字の前の認識対象文字が・・行以
外の文字であると判定された場合について。
3. Regarding the case where the recognition target character before the current recognition target character is determined to be a character other than the line.

3−1.現在の認識対象文字の大きさが所定値より小さ
いとき、文字存在せずど判定する。
3-1. When the size of the current character to be recognized is smaller than a predetermined value, it is determined that the character does not exist.

3−2.現在の認識対象文字の大きさが所定(直より大
きく、且つ前の認識対象文字より上側にあるとき、判読
不能と判定する。
3-2. When the size of the current character to be recognized is larger than a predetermined size and is above the previous character to be recognized, it is determined to be unreadable.

3−3.現在の認識対象文字の大きさが所定値より大き
く、且つ下側にあるときは、黒丸「・」と判定する。
3-3. When the size of the current character to be recognized is larger than a predetermined value and is on the lower side, it is determined to be a black circle ".".

以上の説明から明らかなように、本発明によれば、現在
の認識対象文字の文字種決定を、現在の認識対象文字と
前後の認識対象文字との物理的相対関係を参照して行っ
ているので、文字認識の精度を著しく向上させることが
出来る。
As is clear from the above description, according to the present invention, the character type of the current recognition target character is determined by referring to the physical relative relationship between the current recognition target character and the preceding and succeeding recognition target characters. , the accuracy of character recognition can be significantly improved.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明の1実施例のフロック図、第2図および
第3図は文字の切出しを説明する図、第4図はメモリ1
3の内容を説明する図である。 1・・・・・・帳票、2・・・・・・レンズ、3・・・
・・・センサ、4・・・・・・増幅器、5・・・・・・
A/D変換器、6・・・・・・前処理回路、7・・・・
・・映像メモリ、8・・・・・・切出し回路、9・・・
・・・認識回路、10・・・・・・上端抽出回路、11
・・・・・・中点抽出回路、12・・・・・・下端抽出
回路、13・・・・・・メモリ、14・・・・・・文字
相互間特徴抽出回路、15・・・・・・答編集回路。
FIG. 1 is a block diagram of one embodiment of the present invention, FIGS. 2 and 3 are diagrams explaining character cutting, and FIG. 4 is a memory 1
3 is a diagram illustrating the contents of No. 3. FIG. 1...Form, 2...Lens, 3...
...Sensor, 4...Amplifier, 5...
A/D converter, 6... Pre-processing circuit, 7...
...Video memory, 8...Cutout circuit, 9...
... Recognition circuit, 10 ... Upper end extraction circuit, 11
...Middle point extraction circuit, 12...Lower edge extraction circuit, 13...Memory, 14...Character feature extraction circuit, 15... ...Answer editing circuit.

Claims (1)

【特許請求の範囲】[Claims] 1 イメージ・センサと、該イメージ・センサからのア
ナログ映像信号を量子化する量子化手段と、量子化映像
信号を格納する映像メモリとを備え、上記映像メモリか
ら量子化映像信号を読出し、該量子化映像信号によって
文字認識を行う文字認識装置において、認識対象文字に
外接する四辺形に対応するメモリ領域内の量子化映像信
号を上記映像メモリから切出す切出し手段と、該切出し
手段によって切出された認識対象文字について1個又は
複数個の候補文字を定める認識手段と、上記四辺形の上
端の基準位置に対する位置を抽出する上端抽出手段と、
上記四辺形の下端の基準位置に対する位置を抽出する下
端抽出手段と、上記四辺形の中点の基準位置に対する位
置を抽出する中点抽出手段と、同一読取り行における各
認識対象文字毎に候補文字、下端位置、中点位置および
上端位置を関連付けて格納するメモリと、該メモリに格
納されている中点位置に基づいて現在の認識対象文字の
中点位置と前の認識対象文字の中点位置の差分な算出す
る文字相互間特徴抽出手段と、上記メモリからデータを
読出し上記文字相互間特徴抽出手段によって算出された
差分を参照して認識対象文字の文字種を決定する答編集
手段とを設けたことを特徴とする文字認識装置。
1 comprises an image sensor, quantization means for quantizing an analog video signal from the image sensor, and a video memory for storing the quantized video signal, reads the quantized video signal from the video memory, and quantizes the quantized video signal. In a character recognition device that performs character recognition using a quantized video signal, a cutting means cuts out from the video memory a quantized video signal in a memory area corresponding to a quadrilateral circumscribing a character to be recognized; recognition means for determining one or more candidate characters for the recognition target character; and upper end extraction means for extracting the position of the upper end of the quadrilateral with respect to a reference position;
a lower end extraction means for extracting the position of the lower end of the quadrilateral with respect to the reference position; a midpoint extraction means for extracting the position of the midpoint of the quadrilateral with respect to the reference position; candidate characters for each recognition target character in the same reading line; , a memory that associates and stores the bottom position, midpoint position, and top position, and the midpoint position of the current character to be recognized and the midpoint position of the previous character to be recognized based on the midpoint position stored in the memory. and an answer editing means that reads data from the memory and determines the character type of the character to be recognized by referring to the difference calculated by the inter-character feature extraction means. A character recognition device characterized by:
JP54045144A 1979-04-13 1979-04-13 character recognition device Expired JPS5831028B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP54045144A JPS5831028B2 (en) 1979-04-13 1979-04-13 character recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP54045144A JPS5831028B2 (en) 1979-04-13 1979-04-13 character recognition device

Publications (2)

Publication Number Publication Date
JPS55138179A JPS55138179A (en) 1980-10-28
JPS5831028B2 true JPS5831028B2 (en) 1983-07-02

Family

ID=12711076

Family Applications (1)

Application Number Title Priority Date Filing Date
JP54045144A Expired JPS5831028B2 (en) 1979-04-13 1979-04-13 character recognition device

Country Status (1)

Country Link
JP (1) JPS5831028B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2521915B2 (en) * 1986-07-04 1996-08-07 日本電気株式会社 Type character recognition device
EP0457534B1 (en) * 1990-05-14 2001-10-31 Canon Kabushiki Kaisha Image processing method and apparatus

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5582382A (en) * 1978-12-18 1980-06-21 Matsushita Electric Ind Co Ltd Recognition system for hand-written symbol and kana (japanese syllabary) character

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5582382A (en) * 1978-12-18 1980-06-21 Matsushita Electric Ind Co Ltd Recognition system for hand-written symbol and kana (japanese syllabary) character

Also Published As

Publication number Publication date
JPS55138179A (en) 1980-10-28

Similar Documents

Publication Publication Date Title
US5664027A (en) Methods and apparatus for inferring orientation of lines of text
JP3727971B2 (en) Document processing apparatus and document processing method
US5799115A (en) Image filing apparatus and method
US5774580A (en) Document image processing method and system having function of determining body text region reading order
JP3345224B2 (en) Pattern extraction device, pattern re-recognition table creation device, and pattern recognition device
JPS5831028B2 (en) character recognition device
JPH07230525A (en) Method for recognizing ruled line and method for processing table
JPH0554072A (en) Digital translation device
ANTONACOPOULOS Automatic reading of Braille documents
JPH0660220A (en) Area extracting method for document image
JPS6160184A (en) Optical character reader
JP3027232B2 (en) Character recognition device
JPH0578068B2 (en)
JPS6039276A (en) Optical character reader
JPS5972577A (en) Drawing reader
JPH0443476A (en) Character recognizing device
JPH03230288A (en) Information processor
JPS6327751B2 (en)
JPH0550785B2 (en)
JPS588024B2 (en) Detection and cutting device for characters with ruby
JPS61289479A (en) Character recognizing device for reading out connected characters
JPH03282791A (en) Character recognizing method
JPS5827276A (en) Optical character reader
JPS6134683A (en) Optical character reader
JPS6045884A (en) Character frame delecting device for character recognizer