JPS6227876A - Character reader - Google Patents

Character reader

Info

Publication number
JPS6227876A
JPS6227876A JP60168006A JP16800685A JPS6227876A JP S6227876 A JPS6227876 A JP S6227876A JP 60168006 A JP60168006 A JP 60168006A JP 16800685 A JP16800685 A JP 16800685A JP S6227876 A JPS6227876 A JP S6227876A
Authority
JP
Japan
Prior art keywords
character
histogram
character pattern
pattern
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP60168006A
Other languages
Japanese (ja)
Inventor
Katsuhiko Furuya
古屋 勝彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP60168006A priority Critical patent/JPS6227876A/en
Publication of JPS6227876A publication Critical patent/JPS6227876A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

PURPOSE:To segment correctly the character pattern every one character with high probability even when the characters to be recognized touch each other by finding a histogram projected in the column direction of character patterns of one line on a form based on two different thresholds and detecting the character boundary position from any histogram. CONSTITUTION:When it becomes clear that the part of the character to be recognized touch that of the adjacent one in the segment process due to the bleeding of ink, the character is segmented according to the histogram stored in a histogram memory 4b. If in the above process the part whose histogram value comes to '0' cannot be detected, the part whose histogram value comes to the minimum in the section around the boundary position is detected in the histogram stored in the histogram memory 4b. Preliminarily the half position of the part is decided to be the boundary position. After the boundary position is decided, the character pattern is segmented from a pattern memory 3 character after character, and the character pattern is started to be recognized by comparing it with the standard character pattern.

Description

【発明の詳細な説明】 [発明の技術分野] 本発明は、特に印字装置や印鑑等により帳票上に記録さ
れた活字を認識する際に用いられる文字読取装置に関す
る。
DETAILED DESCRIPTION OF THE INVENTION [Technical Field of the Invention] The present invention particularly relates to a character reading device used for recognizing printed characters recorded on a form by a printing device, a seal stamp, or the like.

[発明の技術的背景とその問題点] 従来から光学的文字読取装置において、帳票上に記録さ
れている活字を1文字ずつ切出す方法としては、たとえ
ば第3図に示したように、切出し対象となる文字パター
ンの列方向の射影のヒストグラムを求め、このヒストグ
ラム中で値が0になる点りを検出して点りの位置を境界
位置とする方法や、あらかじめ与えられる文字ピッチお
よび文字幅を示す情報により強制的に切出しを行う方法
が知られている。
[Technical background of the invention and its problems] Conventionally, in optical character reading devices, as a method of cutting out printed characters recorded on a form one character at a time, as shown in FIG. Find a histogram of the projection of the character pattern in the column direction, detect dots with a value of 0 in this histogram, and use the dot positions as boundary positions, or use the character pitch and width given in advance. There is a known method of forcibly cutting out data based on the information shown.

しかしながらこのような方法によると、たとえば第4図
に示すように、隣接する文字がインクのにじみ等により
接触してヒストグラム中で値がOになる点が無くなった
り、文字ピッチや文字幅が乱れたりした場合などには、
正確に境界位置を検出することができず、不適当な位置
で文字の切出しが行われ、誤読や読取不能が生じ易いと
いう問題があった。
However, with this method, as shown in Figure 4, for example, adjacent characters may come into contact due to ink smearing, and there may be no point in the histogram where the value is O, or the character pitch or width may be disturbed. In such cases,
There is a problem in that the boundary position cannot be detected accurately, and characters are cut out at inappropriate positions, which tends to cause misreading or unreadability.

[発明の目的] 本発明はこのような従来の文字読取装置の問題点を解消
すべくなされたもので、認識すべき文字が相互に接触し
ていても、それぞれの文字を1字ずつ正確に切出すこと
ができる文字読取装置の提供を目的としている。
[Purpose of the Invention] The present invention has been made to solve the problems of conventional character reading devices. The purpose is to provide a character reading device that can be cut out.

[発明の概要1 すなわち本発明の文字読取装置は、帳票上に記録されて
いる文字の黒線部に応じた連続的な電気信号を出力する
光電変換部と、前記連続的な電気信号を第1のしきい値
を基準として2値化する第1の2@化部と、前記連続的
な電気信号を前記第1のしきい値よりも大きい第2のし
きい値を基準として2値化する第2の2値化部と、前記
第1または第2の2値化部が出力する2値化信号を前記
文字のパターンとして前記帳票の1行分ごとに記憶する
文字パターン記憶部と、前記第1の2値化部が出力する
2値化信号から前記帳票の1行分ごとの文字パターンの
列方向の射影のヒストグラムを求めこれを記憶する第1
のヒストグラム記憶部と、前記第2の2値化部が出力す
る2値化信号から前記帳票の1行分ごとの文字パターン
の列方向の射影のヒストグラムを求めこれを記憶する第
2のヒストグラム記憶部と、前記第1のヒストグラム記
憶部に記憶されている前記ヒストグラムに基づいて前記
文字パターン記憶部から1字分ごとの文字パターンの切
出しを試み、切出しが成功しなかったとき前記第2のヒ
ストグラム記憶部に記憶されている前記ヒストグラムに
基づいて前記文字パターン記憶部から1字分ごとの文字
パターンの切出しを試み、いずれかの試みにより切出し
が成功した時点で文字パターンの認識を実行する認識制
御部とを有し、異なる2つのしきい値に基づいて帳票の
1行分ごとの文字パターンの列方向の射影のヒストグラ
ムを求め、いずれかのヒストグラムから文字の境界位置
を検出することを特徴としている。
[Summary of the Invention 1 That is, the character reading device of the present invention includes a photoelectric conversion section that outputs a continuous electrical signal according to the black line portion of the characters recorded on a form, and a a first 2@ converting unit that binarizes the continuous electrical signal using a second threshold as a reference; a second binarization unit that stores the binarized signal output from the first or second binarization unit as the character pattern for each line of the form; A first unit that calculates and stores a histogram of the column-direction projection of the character pattern for each line of the form from the binary signal output by the first binarization unit.
a histogram storage unit; and a second histogram storage unit that calculates and stores a histogram of a column-direction projection of a character pattern for each line of the form from the binarized signal output from the second binarization unit. and attempts to cut out a character pattern for each character from the character pattern storage section based on the histogram stored in the first histogram storage section, and when the extraction is not successful, the second histogram Recognition control that attempts to extract character patterns for each character from the character pattern storage section based on the histogram stored in the storage section, and executes recognition of the character pattern when extraction is successful in any of the attempts. and a histogram of the projection of the character pattern in the column direction for each line of the form based on two different threshold values, and detects the boundary position of the character from either of the histograms. There is.

[発明の実施例] 以下、本発明の実施例の詳細を図面に基づいて説明する
[Embodiments of the Invention] Hereinafter, details of embodiments of the present invention will be described based on the drawings.

第1図は本発明の一実施例装置の要部の構成を示すブロ
ック図である。
FIG. 1 is a block diagram showing the configuration of essential parts of an apparatus according to an embodiment of the present invention.

本実施例装置は、認識すべき文字が記録されている帳票
に光を照射し、文字の黒線部に応じて変化する反射光を
連続的な電気信号に変換して出力する光電変換部1と、
光電変換部1が出力する連続的な電気信号を第1のしき
い値を基準として2値化する2値化部2aと、光電変換
部1が出力する連続的な電気信号を前記第1のしきい値
よりも値の大きい第2のしきい値を基準として2値化す
る2値化部2bと、2値化部2aが出力する2値化信号
を帳票上に記録されている文字のパターンとして帳票の
1行分ごとに記憶するパターンメモリ3と、2値化部2
aが出力する2値化信号から帳票の1行分ごとの文字パ
ターンの列方向の射影のヒストグラムを求めてこれを記
憶するヒストグラム記憶部4aと、2値化部2bが出力
する2値化信号から帳票の1行分ごとの文字パターンの
列方向の射影のヒストグラムを求めてこれを記憶するヒ
ストグラム記憶部4bと、後述するように1文字ごとの
文字パターンの切出しを試み、切出しが成功した時点で
1文字ごとに文字パターンの認識を実行する認識部5と
、装置全体を制御すると共に外部装置(ホストシステム
等)との通信を司どる制御部6とから構成されている。
The device of this embodiment includes a photoelectric conversion unit 1 that irradiates light onto a form on which characters to be recognized are recorded and converts the reflected light that changes depending on the black line part of the characters into a continuous electrical signal and outputs it. and,
A binarization unit 2a binarizes the continuous electrical signal output from the photoelectric conversion unit 1 using a first threshold as a reference, and a binarization unit 2a converts the continuous electrical signal output from the photoelectric conversion unit 1 into the first A binarization unit 2b performs binarization based on a second threshold value larger than the threshold value, and a binarization unit 2a outputs a binarization signal to convert the characters recorded on the form into characters. A pattern memory 3 that stores each line of a form as a pattern, and a binarization unit 2
a histogram storage unit 4a that calculates and stores a histogram of the column-direction projection of the character pattern for each line of the form from the binary signal output by the binarization unit 2b; and a binary signal output by the binarization unit 2b. A histogram storage unit 4b calculates and stores a histogram of the projection of the character pattern in the column direction for each line of the form, and a histogram storage unit 4b that attempts to cut out the character pattern for each character as described later, and when the cutting is successful. The apparatus is comprised of a recognition section 5 that executes character pattern recognition for each character, and a control section 6 that controls the entire device and manages communication with external devices (such as a host system).

本実施例装置の動作について説明する。The operation of the device of this embodiment will be explained.

まず帳票上に記録されている文字の黒線部に応じた電気
信号が光電変換部1から連続的に出力され、この電気的
信号が2値化部2aおよび2bにより2値化される。
First, an electrical signal corresponding to the black line portion of the characters recorded on the form is continuously outputted from the photoelectric conversion section 1, and this electrical signal is binarized by the binarization sections 2a and 2b.

このとき2値化部2bが2値化の基準とするしきい値は
2値化部2aのそれよりも大きいため、結果として2値
化部2aからは感度の高い2値化信号が出力され、2値
化部2bからは感度の低い2値化信号が出力される。モ
して2値化部2aから出力される2値化信号は文字パタ
ーンとしてパターンメモリ3に格納される。
At this time, the threshold value that the binarization unit 2b uses as a reference for binarization is larger than that of the binarization unit 2a, so as a result, a highly sensitive binarized signal is output from the binarization unit 2a. , the binarization section 2b outputs a binarized signal with low sensitivity. The binarized signal output from the binarizer 2a is then stored in the pattern memory 3 as a character pattern.

このときヒストグラム記憶部4aには2値化部2aが出
力する1行分の文字パターンの列方向の射影のヒストグ
ラムが格納される。またヒストグラム記憶部4bには2
値化部2bから出力される1行分の文字パターンの列方
向の射影のヒストグラムが格納される。
At this time, the histogram storage unit 4a stores a histogram of the column-direction projection of the character pattern for one line outputted by the binarization unit 2a. In addition, the histogram storage unit 4b contains 2
A histogram of the column-direction projection of one line of character patterns output from the digitization unit 2b is stored.

パターンメモリ3への文字パターンの格納が終了すると
認識部5が動作し、1文字ごとの文字パターンの切出し
を実行する。
When the storage of the character pattern in the pattern memory 3 is completed, the recognition unit 5 operates to cut out the character pattern for each character.

まず認識される文字が1文字ごとに分離し、接触してい
る部分がない場合には、ヒストグラム記憶部4aに格納
されているヒストグラムに従って文字の切出しが行われ
る。
First, the characters to be recognized are separated character by character, and if there are no touching parts, the characters are cut out according to the histogram stored in the histogram storage section 4a.

一方、この切出しの実行過程で、第2図に示したように
、インクのにじみ等により認識されるべき文字が隣接す
る文字と一部で接触していることが判明した場合には、
その文字パターンに限定して、ヒストグラム記憶部4b
に格納されているヒストグラムに従って文字の切出しが
行われる。
On the other hand, in the process of executing this extraction, if it is found that a character to be recognized is partially in contact with an adjacent character due to ink smearing, etc., as shown in Figure 2,
The histogram storage unit 4b is limited to that character pattern.
Characters are extracted according to the histogram stored in .

すなわちヒストグラム記憶部4aに格納されているヒス
トグラムを一定区間走査してヒストグラムの値がOにな
る文字の境界位置を検出することができない場合には、
境界位置付近の区間(あらかじめ与えられる文字ピッチ
や文字幅を示す情報から特定することができる)でヒス
トグラム記憶部4bに格納されているヒストグラムを一
定区間走査してヒストグラムの値がOになる部分を検出
する。
That is, if it is not possible to scan a certain section of the histogram stored in the histogram storage unit 4a and detect the boundary position of a character whose histogram value is O,
The histogram stored in the histogram storage unit 4b is scanned for a certain period in the area near the boundary position (which can be specified from information indicating the character pitch and character width given in advance) to find the part where the value of the histogram is O. To detect.

ざらにこれによってもヒストグラムの値がOになる部分
が検出できなかった場合には、ヒストグラム記憶部4b
に格納されているじストグラムにおいて、境界位置付近
の区間で値が最小になる部分を検出し、たとえばその部
分の1/2の位置を境界位置と決定する。
If a portion where the value of the histogram becomes O cannot be detected even after doing this, the histogram storage unit 4b
In the same stogram stored in , the part where the value is the minimum is detected in the section near the boundary position, and, for example, the position 1/2 of that part is determined as the boundary position.

そして境界位置が決定すると、パターンメモリ3から1
文字ごとに文字パターンを切出し、たとえば基準の文字
パターンと比較することにより文字パターンの認識を開
始する。
When the boundary position is determined, pattern memory 3 to 1
Character pattern recognition is started by cutting out a character pattern for each character and comparing it with, for example, a reference character pattern.

なお本実施例装置において、境界位置が決定された文字
パターンに対しては、その境界位置の前後1〜2ビツト
のパターンをカットするような処理を行ってもよい。
In the apparatus of this embodiment, for a character pattern whose boundary position has been determined, processing may be performed to cut the pattern of 1 to 2 bits before and after the boundary position.

また本実施例では、本発明装置を印字装置等により帳票
上に記録された活字の読取りに用いた場合について説明
したが、本発明装置は隣接する文字間の境界位置がおよ
そ特定できるような文字であれば、手書きの文字等も読
取ることができる。
Furthermore, in this embodiment, the case where the present invention device is used to read printed characters recorded on a form by a printing device etc. has been explained, but the present invention device can be used to read characters whose boundary positions between adjacent characters can be roughly specified. If so, even handwritten characters can be read.

[発明の効果] 以上説明したように本発明の文字読取装置は、異なる2
つのしきい値に基づいて帳票の1行分ごとの文字パター
ンの列方向の射影のヒストグラムを求め、いずれかのヒ
ストグラムから文字の境界位置を検出するので、認識さ
れるべき文字が相互に接触していても、1文字ごとの文
字パターンを高い確率で正確に切出すことができる。
[Effect of the invention] As explained above, the character reading device of the present invention has two different types.
The histogram of the projection of the character pattern in the column direction for each line of the form is calculated based on two thresholds, and the boundary positions of characters are detected from one of the histograms, so the characters to be recognized are not in contact with each other. It is possible to accurately cut out character patterns for each character with a high probability.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の一実施例装置の要部の構成を示すブロ
ック図、第2図は同実施例装置により認識される文字お
よびその列方向の射影のヒストグラムの一例を示す図、
第3図および第4図は従来の文字読取装置により認識さ
れる文字およびその列方向の射影のヒストグラムの一例
を示す図である。 1・・・・・・・・・・・・・・・光電変換部2a、2
b・・・2値化部
FIG. 1 is a block diagram showing the configuration of a main part of a device according to an embodiment of the present invention, and FIG. 2 is a diagram showing an example of a histogram of characters recognized by the device according to the embodiment and their projection in the column direction.
FIGS. 3 and 4 are diagrams showing examples of characters recognized by a conventional character reading device and histograms of their projections in the column direction. 1......Photoelectric conversion section 2a, 2
b...Binarization section

Claims (3)

【特許請求の範囲】[Claims] (1)帳票上に記録されている文字の黒線部に応じた連
続的な電気信号を出力する光電変換部と、前記連続的な
電気信号を第1のしきい値を基準として2値化する第1
の2値化部と、前記連続的な電気信号を前記第1のしき
い値よりも大きい第2のしきい値を基準として2値化す
る第2の2値化部と、前記第1または第2の2値化部が
出力する2値化信号を前記文字のパターンとして前記帳
票の1行分ごとに記憶する文字パターン記憶部と、前記
第1の2値化部が出力する2値化信号から前記帳票の1
行分ごとの文字パターンの列方向の射影のヒストグラム
を求めこれを記憶する第1のヒストグラム記憶部と、前
記第2の2値化部が出力する2値化信号から前記帳票の
1行分ごとの文字パターンの列方向の射影のヒストグラ
ムを求めこれを記憶する第2のヒストグラム記憶部と、
前記第1のヒストグラム記憶部に記憶されている前記ヒ
ストグラムに基づいて前記文字パターン記憶部から1字
分ごとの文字パターンの切出しを試み、切出しが成功し
なかったとき前記第2のヒストグラム記憶部に記憶され
ている前記ヒストグラムに基づいて前記文字パターン記
憶部から1字分ごとの文字パターンの切出しを試み、い
ずれかの試みにより切出しが成功した時点で文字パター
ンの認識を実行する認識制御部とを有してなることを特
徴とする文字読取装置。
(1) A photoelectric conversion unit that outputs a continuous electrical signal according to the black line portion of characters recorded on a form, and binarizes the continuous electrical signal based on a first threshold value. First thing to do
a second binarization unit that binarizes the continuous electric signal with reference to a second threshold that is larger than the first threshold; a character pattern storage unit that stores the binary signal outputted by the second binarization unit as the character pattern for each line of the form; and a binarization unit outputted by the first binarization unit. 1 of the above forms from the signal
A first histogram storage section that calculates and stores a histogram of the projection of the character pattern in the column direction for each row, and a binarized signal output from the second binarization section for each row of the form. a second histogram storage unit that obtains and stores a histogram of the column-direction projection of the character pattern;
An attempt is made to extract a character pattern for each character from the character pattern storage section based on the histogram stored in the first histogram storage section, and when extraction is not successful, the character pattern is stored in the second histogram storage section. a recognition control unit that attempts to extract a character pattern for each character from the character pattern storage unit based on the stored histogram, and executes recognition of the character pattern when extraction is successful in any of the attempts; A character reading device comprising:
(2)文字パターン記憶部からの1字分ごとの文字パタ
ーンの切出しが、ヒストグラムの分離点の検出により行
われる特許請求の範囲第1項記載の文字読取装置。
(2) The character reading device according to claim 1, wherein the character pattern is cut out for each character from the character pattern storage section by detecting separation points in a histogram.
(3)認識されるべき文字が、帳票上に記録された活字
である特許請求の範囲第1項または第2項記載の文字読
取装置。
(3) The character reading device according to claim 1 or 2, wherein the characters to be recognized are printed characters recorded on a form.
JP60168006A 1985-07-30 1985-07-30 Character reader Pending JPS6227876A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60168006A JPS6227876A (en) 1985-07-30 1985-07-30 Character reader

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60168006A JPS6227876A (en) 1985-07-30 1985-07-30 Character reader

Publications (1)

Publication Number Publication Date
JPS6227876A true JPS6227876A (en) 1987-02-05

Family

ID=15860052

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60168006A Pending JPS6227876A (en) 1985-07-30 1985-07-30 Character reader

Country Status (1)

Country Link
JP (1) JPS6227876A (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5043843A (en) * 1973-12-19 1975-04-19
JPS54133034A (en) * 1978-04-07 1979-10-16 Mitsubishi Electric Corp Optical character read-in system
JPS575181A (en) * 1980-06-10 1982-01-11 Toshiba Corp Character detection and segmentation system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5043843A (en) * 1973-12-19 1975-04-19
JPS54133034A (en) * 1978-04-07 1979-10-16 Mitsubishi Electric Corp Optical character read-in system
JPS575181A (en) * 1980-06-10 1982-01-11 Toshiba Corp Character detection and segmentation system

Similar Documents

Publication Publication Date Title
JPS6115284A (en) Optical character reader
IL98293A (en) Method of discriminating between text and graphics
JPS6227876A (en) Character reader
JPH0660224A (en) Optical character reader
JP2812256B2 (en) Character recognition apparatus and method
JP2630261B2 (en) Character recognition device
JPS6046471B2 (en) character reading device
JP3095437B2 (en) Character line detection cutout device and character reading device
JP3160458B2 (en) Character reading device and character reading method
JP2877380B2 (en) Optical character reader
JPS60181880A (en) Optical character inputting device
JP2590099B2 (en) Character reading method
JP2576370B2 (en) ID mark reading device
JPH0119193B2 (en)
JPS6160184A (en) Optical character reader
JPH05307640A (en) Character reader
JPS60122474A (en) Normalizing system
JPH10171924A (en) Character recognizing device
JP2963807B2 (en) Postal code frame detector
JPH0576674B2 (en)
JP3239965B2 (en) Character recognition device
JPS61250789A (en) Character recognizing device
JPH10162104A (en) Character recognition device
JPH01305488A (en) Character inclination angle detector
JPH01234985A (en) Character segmenting device for character reader