JPS63158678A - 単語間スペ−ス検出方法 - Google Patents

単語間スペ−ス検出方法

Info

Publication number
JPS63158678A
JPS63158678A JP61310412A JP31041286A JPS63158678A JP S63158678 A JPS63158678 A JP S63158678A JP 61310412 A JP61310412 A JP 61310412A JP 31041286 A JP31041286 A JP 31041286A JP S63158678 A JPS63158678 A JP S63158678A
Authority
JP
Japan
Prior art keywords
space
bits
inter
line
white
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP61310412A
Other languages
English (en)
Inventor
Hideaki Tanaka
秀明 田中
Morihiro Katsurada
守啓 桂田
Minehiro Konya
峰弘 紺矢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP61310412A priority Critical patent/JPS63158678A/ja
Priority to US07/133,531 priority patent/US4847912A/en
Publication of JPS63158678A publication Critical patent/JPS63158678A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〈産業上の利用分野〉 本発明は、英数字用の光学式文字読み取り装置(OCR
)によって単語間のスペースを検出する単語間スペース
検出方法に関する。
〈従来の技術〉 従来、英数字用の光学式文字読み取り装置による単語間
スペースの検出においては、定ビッヂ文古が入力された
場合は、そのピッチから求めた閾値に基づいて単語間ス
ペース検出を行なう一方、全行に亙って行頭と行末を揃
え、各行のlli語間スペースを均等化したプロポーシ
ョナル文書か入力された場合は、抽出した行高さより求
めた閾値に基づいて単語間スペース検出を行なっている
〈発明が解決しようとする問題点〉 しかし、一般の印刷物は、定ピツチ印字よりムプロボー
ンヨナル印字のものか格段に多く、同じ行高さてし単語
間スペースが異なる場合や1行中ても単語間スペースが
大きく変化する場合、さらに文字間スペースが変化する
場合が頻出し、上記従来の単語間スペース検出方法では
、正確な検出が難しいというのが実情である。このこと
は、行高さから最適の閾値を設定しようとする従来方法
の欠点に池ならず、それがため、単語の切り出しが不確
実になって、認識後のスペルチェック等の後処理が無駄
となり、認識率の低下をもたらす。
そこで、本発明の目的は、英数字用の光学式文字読み取
り装置において単語間スペースを正確に検出することが
てき、ひいては単語切り出しの確実化、認識後の後処理
の有効化および認識率の向−にを図ることができる単語
間スペース検出方法を提供することである。
〈問題点を解決するための手段〉 上記目的を達成するため、英数字用の光学式文字読み取
り装置による本発明の単語間スペース検出方法は、抽出
した各行ごとに、光電変換部による行頭から行末へ向か
っての行高さ方向の各走査で得られろ白黒を表わす一定
ビット数の2値化情報が、その一定ビットに亙って同じ
場合を白ビット、そうでない場合を黒ビットとして認識
論理部の記憶装置に論理数で順次格納し、次いて、この
記憶装置に格納された白ヒツトを示す論理数が黒ビット
を示す論理数によって挾まれている部分の白ビットを示
す論理数の個数を計数してスペースビット数とし、この
スペースビット数の頻度分布曲線における文字間スペー
スを表わすピークと単語間スペースを表わすピークの間
の谷間に対応するスペースビット数を算出して閾値とし
、この閾値に基づいて単語間スペースを検出することを
特徴とする。
〈実施例〉 以下、本発明を図示の実施例により詳細に説明する。
第1図は本発明に用いる光学式文字読み取り装置(以下
OCRと略す)の概略ブロック図であり、lは文字を読
み取って画像信号に変換する光電変換部としてのイメー
ジスキャナ、2はこのイメージスキャナIから出力され
る画像信号を処理する認識論理部としての本体、3はこ
の本体2へ制御信号等を入力する入力デバイス、4は上
記本体2て読み取られた文字等を表示する出力デバイス
である。
上記本体2は、認識論理部を制御して画像信号を演算処
理するCPU(中央処理装置)5と、上記イメージスキ
ャナIから出力される画像信号を格納ずろ画像メモリ6
と、この画像メモリ6から上記CPU5によって抽出さ
れた1ライン分の画像データを格納するライン画像メモ
リ7と、このライン画像メモリ7内のデータについて上
記CI) U5が求めた垂直方向の論理積を格納する論
理積結果格納バッファ8と、このバッファ8内のデータ
に基づき−に記CPU5が計数する印字のない空白部の
長さを表イっす白ヒツト数について、6数ごとの14現
度数を清算して格納するヒストグラムバッファ9とから
なる。
上記構成のOCRを用いた本発明の単語間スペース検出
方法について、第3〜6図を参照しつつ、第2図に示す
フローチャートに従ってステップ順に次に述べる。
(イ)上記OCRで読み取るべき文字は、第3図に例示
ケるように、全行に亙って行頭Aと行末Bを定位置に揃
え、6行の単語間スペースSを行ごとに均等長さに割り
付けてプロボーンヨナル印字されている。上記OCRの
イメージスキャナ!は、行頭Aから行末Bへ向かって第
4図に示すよに、行高さ方向(矢印C参照)に紙面を幅
Wで順次走査し、−走査ごとに白を“ビ、黒を“0”と
する16ビツトからなる2値化情報即ち画像信号をOC
1?の本体2に出力し、出力された画像信号は、全て画
像メモリ6に格納される。次に、CPU5は、上記画像
メモリ6から1ライン即ち一走査分だけの画像データを
抽出してライン画像メモリ7に格納した後、この画像デ
ータの16ビツトに亙ってその論理積を求め、その結果
を論理積結果格納バッファ8に第4図の下段に示すよう
に“0”、“ビで順次格納する。ここで、“0”はその
−走査で黒部があったことを示す黒ビット、“ビはその
一走査が白部ばかりであったことを示す白ヒツトを夫々
色味している。
(ロ)、(ハ) こうして、上記バッファ8に一行分の
結果が格納されると、上記CPU5は、このバッファ8
を左端から第5図(a)の矢印りの如く順に調べていき
、白ビット“ビが黒ビット“0“によって挾まれている
部分の白ビットの個数(白ビツト数)を第5図(b)の
如く計数し、計数結果をスペースビット数として、その
数に対応するヒストグラムバッファ9の頻度を第5図(
C)の如くインクリメントさ仕る。即ち、第5図(a)
、(b)の状態においては、ヒストグラムバッファ9の
内容は、スペースビット数“1”の頻度が3.スペース
ビット数“4”の頻度力月、他は全て0となっており、
次に出てくるスペースビット数が“5”なら、この部分
の頻度が0から1にインクリメントされるのである。
(ニ) こうして、−行についてスペースビット数Nの
頻度分布が第6図のようなヒストグラムで求まると、上
記CPU5は、文字間スペースでできたピークP、(N
=2)と単語間スペースでてきたピークP 2(N =
 5 )間の頻度0の谷間に対応するスペースビット数
N=3を閾値と判定オろ。
(ホ)上記CP U 5は、この閾値(N=3)に基づ
いて111び論理積結果格納バッファ8内を検索し、閾
値以上の白ビット数を検出したとき、この部分を単語間
スペースであると判断し、そうでないとき、単語間スペ
ースでないと判断する。
以上のステップ(イ)〜(ホ)を文章の各行毎に繰り返
して単語間スペースが正確に検出される。
上記実施例によれば、単語の切り出しか誤りなく確実に
行なえるので、認識後のスペルチェック等の後処理が無
駄になるごとがなく、後処理のa幼性を向」−でき、認
識率の大幅な向」二を図ることができろ。
なお、上記実施例では、単語間スペースSを行ごとに均
等割り付けした定ピツチ印字について述べたが、スペー
スビット数の頻度分布曲線の谷間から閾値を求める本発
明の方法は、−単語について文字間隔を均等割り付けす
るようなプロポーショナル印字にもa効に適用できる。
〈発明の効果〉 以上の説明で明らかなように、英数字用の光学式文字読
み取り装置による本発明の単語間スペース検出方法は、
抽出した各行ごとに、光電変換部による行頭から行末へ
向かっての行高さ方向の各走査で得られる白黒を表わす
一定ビット数の2値化情報が、その一定ビットに亙って
同じ場合を白ビット、そうでない場合を黒ビットとして
認識論理部の記憶装置に論理数で順次格納し、次いて、
この記憶装置に格納された白ビットを示す論理数が黒ビ
ットを示す論理数によって挾まれている部分の白ビット
を示す論理数の個数を計数してスペースビット数とし、
このスペースビット数の頻度分布曲線における文字間ス
ペースを表わすピークと単語間スペースを表わすピーク
の間の谷間に対応するスペースビット数を算出して閾値
とし、この閾値に基づいて単語間スペースを検出ずろよ
うにしているので、プロポーショナル印字の文書を読み
取る際にも単語間スペースを正確に検出することができ
、これによって単語切り出しか確実に行なえ、認識後の
スペルチェック等の後処理の有効化および認識率の向上
を図ることができる。
【図面の簡単な説明】
第1図は本発明に用いる光学式文字読み取り装置(OC
R)の概略ブロック図、第2図は本発明の手順を示すフ
ローチャート、第3図は読み取るべき文章の一行分を例
示した図、第4図は第3図の部分拡大図、第5図はOC
Rのバッファに格納したデータを示す図、第6図はスペ
ースビット数のヒストグラムである。 1・・・イメージスキャナ、2・・本体、5・・CPU
。 6・・・画像メモリ、7・ライン画像メモリ、8・・・
論理積結果格納バッファ、 9・・ヒストグラムバッファ。

Claims (1)

    【特許請求の範囲】
  1. (1)英数字用の光学式文字読み取り装置によって単語
    間のスペースを検出する単語間スペース検出方法であっ
    て、 抽出した各行ごとに、光電変換部による行頭から行末へ
    向かっての行高さ方向の各走査で得られる白黒を表わす
    一定ビット数の2値化情報が、その一定ビットに亙って
    同じ場合を白ビット、そうでない場合を黒ビットとして
    認識論理部の記憶装置に論理数で順次格納し、次いで、
    この記憶装置に格納された白ビットを示す論理数が黒ビ
    ットを示す論理数によって挾まれている部分の白ビット
    を示す論理数の個数を計数してスペースビット数とし、
    このスペースビット数の頻度分布曲線における文字間ス
    ペースを表わすピークと単語間スペースを表わすピーク
    の間の谷間に対応するスペースビット数を算出して閾値
    とし、この閾値に基づいて単語間スペースを検出するこ
    とを特徴とする単語間スペース検出方法。
JP61310412A 1986-12-23 1986-12-23 単語間スペ−ス検出方法 Pending JPS63158678A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP61310412A JPS63158678A (ja) 1986-12-23 1986-12-23 単語間スペ−ス検出方法
US07/133,531 US4847912A (en) 1986-12-23 1987-12-16 Method of detecting a space between words with optical character reader

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61310412A JPS63158678A (ja) 1986-12-23 1986-12-23 単語間スペ−ス検出方法

Publications (1)

Publication Number Publication Date
JPS63158678A true JPS63158678A (ja) 1988-07-01

Family

ID=18004949

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61310412A Pending JPS63158678A (ja) 1986-12-23 1986-12-23 単語間スペ−ス検出方法

Country Status (2)

Country Link
US (1) US4847912A (ja)
JP (1) JPS63158678A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03225576A (ja) * 1990-01-31 1991-10-04 Oki Electric Ind Co Ltd 単語切り出し装置
US5818952A (en) * 1994-12-27 1998-10-06 Matsushita Electric Industrial Co., Ltd. Apparatus for assigning categories to words in a documents for databases
JP2009289195A (ja) * 2008-05-30 2009-12-10 Nidec Sankyo Corp 磁気文字認識方法及び磁気文字認識装置

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01112388A (ja) * 1987-10-26 1989-05-01 Ricoh Co Ltd 文字認識処理方法
JP2597006B2 (ja) * 1989-04-18 1997-04-02 シャープ株式会社 矩形座標抽出方法
US5201014A (en) * 1990-02-08 1993-04-06 Hewlett-Packard Company Method and apparatus for establishing threshold level in a binary mode document scanner
US5216725A (en) * 1990-10-31 1993-06-01 Environmental Research Institute Of Michigan Apparatus and method for separating handwritten characters by line and word
US5245674A (en) * 1991-07-30 1993-09-14 Xerox Corporation Image processing using distance as a function of direction
JP3361124B2 (ja) * 1991-07-30 2003-01-07 ゼロックス・コーポレーション テキストを含む2次元画像上での画像処理方法と画像処理装置
US5201011A (en) * 1991-11-19 1993-04-06 Xerox Corporation Method and apparatus for image hand markup detection using morphological techniques
CA2077969C (en) * 1991-11-19 1997-03-04 Daniel P. Huttenlocher Method of deriving wordshapes for subsequent comparison
US5390259A (en) * 1991-11-19 1995-02-14 Xerox Corporation Methods and apparatus for selecting semantically significant images in a document image without decoding image content
CA2078423C (en) * 1991-11-19 1997-01-14 Per-Kristian Halvorsen Method and apparatus for supplementing significant portions of a document selected without document image decoding with retrieved information
CA2077604C (en) * 1991-11-19 1999-07-06 Todd A. Cass Method and apparatus for determining the frequency of words in a document without document image decoding
US5825919A (en) * 1992-12-17 1998-10-20 Xerox Corporation Technique for generating bounding boxes for word spotting in bitmap images
US5410611A (en) * 1993-12-17 1995-04-25 Xerox Corporation Method for identifying word bounding boxes in text
US5467408A (en) * 1994-04-22 1995-11-14 The Gillette Company Ball point writing quality analysis
AU690781B2 (en) * 1994-11-14 1998-04-30 Motorola, Inc. Method of splitting handwritten input
US5737443A (en) * 1994-11-14 1998-04-07 Motorola, Inc. Method of joining handwritten input
US5692069A (en) * 1995-03-17 1997-11-25 Eastman Kodak Company Apparatus for performing character segmentation using slant histograms
US5917941A (en) * 1995-08-08 1999-06-29 Apple Computer, Inc. Character segmentation technique with integrated word search for handwriting recognition
US6108444A (en) * 1997-09-29 2000-08-22 Xerox Corporation Method of grouping handwritten word segments in handwritten document images
US20090070157A1 (en) * 2006-02-13 2009-03-12 Jacob Weitman Method and means for delivering, handling and using coded information
JP5508359B2 (ja) * 2011-08-03 2014-05-28 シャープ株式会社 文字認識装置、文字認識方法及びプログラム
JP6492894B2 (ja) 2015-04-01 2019-04-03 富士通株式会社 認識プログラム、認識方法及び認識装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62133585A (ja) * 1985-12-05 1987-06-16 Ricoh Co Ltd 単語切出方式

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57101986A (en) * 1980-12-17 1982-06-24 Toshiba Corp Character detecting and cutting method
EP0120334B1 (en) * 1983-03-01 1989-12-06 Nec Corporation Letter pitch detection system
US4635290A (en) * 1983-12-20 1987-01-06 Nec Corporation Sectioning apparatus and method for optical character reader systems
US4742556A (en) * 1985-09-16 1988-05-03 Davis Jr Ray E Character recognition method

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62133585A (ja) * 1985-12-05 1987-06-16 Ricoh Co Ltd 単語切出方式

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03225576A (ja) * 1990-01-31 1991-10-04 Oki Electric Ind Co Ltd 単語切り出し装置
US5818952A (en) * 1994-12-27 1998-10-06 Matsushita Electric Industrial Co., Ltd. Apparatus for assigning categories to words in a documents for databases
JP2009289195A (ja) * 2008-05-30 2009-12-10 Nidec Sankyo Corp 磁気文字認識方法及び磁気文字認識装置

Also Published As

Publication number Publication date
US4847912A (en) 1989-07-11

Similar Documents

Publication Publication Date Title
JPS63158678A (ja) 単語間スペ−ス検出方法
US5696841A (en) Image processing method and apparatus for extracting vertically and horizontally written text
EP0063454A2 (en) Method for recognizing machine encoded characters
US5033104A (en) Method for detecting character strings
US20050271275A1 (en) Text character identification system and method thereof
US5164996A (en) Optical character recognition by detecting geo features
KR100383858B1 (ko) 문자인식장치의 문자추출방법 및 장치
CA1316605C (en) Method of searching binary images to find search regions in which straight lines may be found
JPH0291789A (ja) 文字認識方法
JPH07230525A (ja) 罫線認識方法及び表処理方法
JP2812256B2 (ja) 文字認識装置および方法
JP3160458B2 (ja) 文字読取装置及び文字読取方法
JP2590099B2 (ja) 文字読取方式
JP3381803B2 (ja) 傾き角検出装置
JPH06274691A (ja) 文字認識装置
JPS61160180A (ja) 文字列方向判別装置
JPS6343788B2 (ja)
JPH0433074B2 (ja)
JP2963807B2 (ja) 郵便番号枠検出装置
JPH10233930A (ja) 画像処理装置
JPH0259502B2 (ja)
JPH02297688A (ja) 文字認識装置
JPH04223584A (ja) 光学式文字読取装置
JPH0222427B2 (ja)
JPH03122786A (ja) 光学的文字読取装置