JPS60210069A - 文書情報符号化方法 - Google Patents

文書情報符号化方法

Info

Publication number
JPS60210069A
JPS60210069A JP6563684A JP6563684A JPS60210069A JP S60210069 A JPS60210069 A JP S60210069A JP 6563684 A JP6563684 A JP 6563684A JP 6563684 A JP6563684 A JP 6563684A JP S60210069 A JPS60210069 A JP S60210069A
Authority
JP
Japan
Prior art keywords
data
pattern
character
document information
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6563684A
Other languages
English (en)
Inventor
Koichi Ejiri
公一 江尻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP6563684A priority Critical patent/JPS60210069A/ja
Publication of JPS60210069A publication Critical patent/JPS60210069A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 ■技術分野 本発明は、例えばファクシミリのように図形と文字を含
む文書情報を読み取ってそれを符号化する装置に採用し
うる文書情報の符号化に関する。
■従来技術 通常、ファクシミリで伝送する文書は文字の情報と図形
の情報とを含んでいる。一般のファクシミリにおいては
、画像を走査してそれを構成する各微小画素のデータを
順次読み取り、そのデータの集りを、直接、ランレング
スコード化して伝送している。図形の情報のみを含む場
合のように、文書に含まれる情報の密度が小さい場合、
ランレングスコード化によって伝送すべきビット数がか
なり小さくなる。しかし、文字情報を含む文書の場合に
は、情報の密度が大きく、ランレングスコード化を行な
っても伝送するビット数はあまり小さくならない。
文字情報は、それ自体の種類が限られているので、その
文字が特定できれば、それをビット数の小さな1つの情
報(漢字であれば16ビツト)として表現できる。そこ
で、通常の文字認識と同様に、文書情報を予め定めた行
毎に切り出し、更にそれを短形の小領域毎に区分し、各
々の小領域についてパターンマツチング等による文字認
識を行ない、文字が認識された場合にはその文字に対応
する文字コードを伝送し、認識不可能なパターンについ
てはその領域についてランレングスコード化された情報
を伝送する方式(USP−4,091,424)が提案
されている。
しかしながら、これだと大きな図形をも含む文書の場合
には文字の切り出しによって1つの図形が多数の領域に
分断され、その結果図形を構成する線の一部が数字の1
″!やハイフン7′#lに誤認識されて不正確な情報が
再現されることがある。またこれだと、複雑な図形の場
合、通常よりも伝送効率が低下する。
■目的 本発明は、文字情報と図形情報を含む文書の情報をビッ
ト数の小さな情報に効率良くコード化するーとともに、
誤認識による誤まったコード化を防止することを目的と
する。
■構成 文書情報を少ないビット数で効率良くコード化するには
、やはり文書中に含まれる文字情報は文字コードに変換
して出力するのが良い。但し、従来のように一般の文字
認識と同一の方法を用いてパターン(文字)切り出しを
行なうと、上記のような併置が生ずる。
この種の併置は、本来なら1つであるべきパターンが複
数の領域に分断されるために生ずる。そこで例えば互い
に連続する一連の黒画素(又は白画素)毎にデータを区
分すれば、1つのパターンデータが複数に分断されるこ
とはなくなる。また、一般に文字の場合には各々のパタ
ーンの大きさが略所定範囲に入っている。従って、区分
したパターンデータのうち所定の大きさのもののみを抽
出し、それに対して文字認識を行なえばよい。文字を認
識できたパターンについては、その文字コードを出力し
、そのパターンデータを記憶している画像メモリからそ
のパターンデータを消去すれば、画像メモリに残る画像
データの有効情報量が少なくなるので、その画像データ
を従来と同様にランレングスコード化すれば、効率の良
いコード化を行ないうる。
以下、図面を参照して本発明の詳細な説明する。
第1図に示すような文書画像を読み取る場合について説
明する。第1図を参照すると、この画像は図形のパター
ンPTIと文字のパターンPT2およびPT3を含んで
いる。しかもこれらのパターンは互いに近接しているの
で、従来の光学式文字読み取り(OCR)において行な
われているような文字切り出しの方法では、文字のパタ
ーンPT2およびPT3をうまく切り出すことができな
し1゜ そこで、この情報を光学的に読み取った白黒に対応する
2値情報を予めバッファメモリに格納し、そのメモリの
内容に対して次のように処理する。
文書画像情報の左上画素位置を基点とし、第1図に示さ
れるような3×3マトリクスレジスタすなわち窓をX軸
方向およびY軸方向に順次走査し、黒画素を見つける。
黒画素が見つかったら、その位置に注目画素を合わせる
。次に、注目画素に隣接する黒画素を見つけて、連続す
る黒画素群すなわち1つのパターンの、輪郭に沿って窓
を移動する。窓がパターンの輪郭を一周したら、その間
に通った黒画素の座標XおよびYの中で最小のものXm
1nおよびYminならびに最大のものXmaxおよび
Ymaxを判定する。
この結果特定される1つの画素D (Xmin、Ymi
n)と、もう1つの画素D (Xmax 、 Ymax
)とを通る方形の領域を1つのパターン領域ARCとし
て定める。パターン領域ARCの横方向長さWXおよび
縦方向長さWYは、第1図に示すように、それが文字の
場合には比較的小さくなるが、図形を含む場合には横方
向と縦方向の少なくとも一方が大きくなる。
そこで、この大きさWXおよびWYをそれぞれ予め定め
た参照値RefXおよびRefYと比較して、抽出した
パターン領域ARCが文字のパターンか図形のパターン
かを判定する。
パターン領域ARCが図形であると判定した場合には何
もしないで次のパターンを捜すが、文字であると判定し
た場合には、この領域の画素データを予め備える辞書デ
ータと比較してパターンマツチング(他の方法でもよい
)を行ない、文字認識処理する。その結果、認識に成功
した場合には、そこで得られた文字コードと、その文字
パターンの左上の座標データすなわちXm1nおよびY
minを含む文字コードデータ群を生成する。
第1図に示すように複数の文字パターン(PT2゜PT
3)が並んでいる場合(各パターンのX minおよび
Yminを比較して判定する)には、これを一連の文字
と見なし、同一の文字コードデータ群に含める。その場
合の2番目以降の文字の座標は、前の文字の座標(2番
目ならX ll1in 、 Y min )に対する相
対座標dXYで表現する。
また、文字を認識した場合には、そのパターン領域AR
Cに相当するバッファメモリのデータを自画素データに
する。つまり、それまで存在していた黒画素のデータを
消去する。従って、この処理を繰り返すと、バッファメ
モリ内のデータから、文字パターンの成分がなくなる。
以上の処理の概略の流れは第2a図に示しである。
また、文字コードデータ群の構成例が第3a図に示しで
ある。第3a図を参照すると、CCが、それ以降に文字
コードデータ群が存在することを識別するための識別コ
ードであり、DNはこのデータ群内に存在する文字の数
であり、CHI、CH2、・・・CHnが各文字のコー
ド(漢字ならそれぞれ16ビツトで構成される)であり
、C/Rはこのデータ群の終りを示すキャリッジリター
ンコードである。
以上のような処理を行なうと、バッファメモリに含まれ
る画像データは図形成分と僅かに認識できない文字パタ
ーンの成分のみになるので、実質的にこの中に含まれる
情報足は小さく、これをそのままランレングスコード化
しても、かなり効率良くデータ量を減小させることがで
きる。しかし、この実施例では更にデータ量を減らすた
め、次のように線認識を行なう。
第4図に示すような線状の画素群を処理する場合につい
て説明する。上記と同様に、窓を横方向および縦方向に
移動して、残っている黒画素の始まり(第4図のD (
SX、5Y))を見つける。注目画素に隣接する黒画素
に対して、第5図に示すような優先順位をつける。つま
り、この例では注目画素の右上に位置する黒画素が最も
優先順位が高いので、この位置の画素が黒画素なら他の
画素が黒画素であっても無視する。
始点画素D (SX、SV)においては、その右中央に
位置する黒画素が最も優先順位が高い。そこで、第4図
に示す矢印のように、注目画素を、その優先順位の高い
黒画素の位置に移動する。この時の移動方向に応じて、
第5図に示すような方向データ(1〜8のいずれか)を
生成する。ここで生成した方向データは、カウンタCN
Tの値に対応付けた方向メモリのアドレスに格納してお
く。
次いでカウンタCNTの内容を+1し、注目画素に接す
る後方(第4図において注目画素の位置が(sx+i、
sy)の場合には(SX、5Y−1)。
(sx、sy)および(SX、SY+1)の座標)の、
黒画素データを白画素データに更新する。この処理を繰
り返すと、第4図に示す線状パターンの場合には、ハツ
チングを施した一部の画素のみが黒画素として残り、他
の黒画素は全て消去される。
注目画素が線状パターンの最終画素に達したら、その注
目画素自体も消去し、始点データSX、SY、カウンタ
CNTおよび方向メモリの内容を参照して、線コードデ
ータを生成する。つまり、第3b図に示すように、それ
に続くデータが一連の線コードデータであることを識別
するためのコードCL、始点のX座標(SX)l始点の
Y座標(SY)?データ数(CNT)、各々の方向デー
タおよびデータの終りを示すキャリッジリターンコード
C/Rでなる一連のコードデータを生成する。
パターンの長さが短い場合、パターンが複雑な場合等は
、線認識は行なわない。その以外のパターンについては
、上記処理を繰り返し行なって線コードデータに変換す
る。この処理が終わると、バッファメモリ上に残る画素
データの量が非常に少なくなる。この残りのデータに対
しては、一般のファクシミリ装置で行なわれているよう
に、ランレングスコード化を行ない、第3b図に示すよ
うなランレングスコードを生成する。第3b図に示すコ
ードCRはそれに続くデータがランレングスコードであ
ることを識別するためのものであり、EOLは走査ライ
ンを区別するための同期コードであり、EOFは全ての
データの送出が終了したことを示すデータ終了コードで
ある。
線認識以降の処理手順の概略が、第2b図に示しである
■効果 以上のとおり、本発明によれば文字パターンを正確に切
り出してそれを文字コード化でき、しかも残りのパター
ンから文字パターンを消去するので、その残りのデータ
を少ないビット数に効率良くコード化しうる。
【図面の簡単な説明】
第1図は文書画像情報の一部の平面図である。 第2a図および第2b図は、本発明の実施例における画
像情報のコード化手順を示すフローチャートである。 第3a図および第3b図は、コード化されたデータの配
列の例を示すブロック図である。 第4図は、文書画像のパターンの一部を示す平面図であ
る。 第5図は、コード化処理に用いる窓に呪われる画素の種
別と処理との対応を示す平面図である。

Claims (3)

    【特許請求の範囲】
  1. (1)所定のメモリに文書情報を記憶し、記憶された情
    報を調べ、互いに連続する有効画素の集りを見つけてそ
    れをそれぞれ独立したパターンデータとみなし、各々の
    パターンデータの縦および横の少なくとも一方の長さを
    判別して各々のパターンデータを少なくとも2種に区分
    し、そのうちの1種のパターンデータに対しては、文字
    認識処理を行ない、文字が認識されたら、その文字のコ
    ードを出力するとともに、メモリに記憶した文書情報か
    らその文字に対応するパターンデータを消去し、その後
    残りの文書情報を任意の手段でコード化する、文書情報
    符号化方法。
  2. (2)残りの文書情報について、特定の注目画素を定め
    、その注目画素をそれに隣接する有効画素に移動させな
    がらその移動方向をコード化情報として出力し、少なく
    とも注目画素の情報をメモリの文書情報から消去する、
    前記特許請求の範囲第(1)項記載の文書情報符号化方
    法。
  3. (3)残りの文書情報は、ランレングスコード化して出
    力する、前記特許請求の範囲第(1)項記載の文書情報
    符号化方法。
JP6563684A 1984-04-02 1984-04-02 文書情報符号化方法 Pending JPS60210069A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6563684A JPS60210069A (ja) 1984-04-02 1984-04-02 文書情報符号化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6563684A JPS60210069A (ja) 1984-04-02 1984-04-02 文書情報符号化方法

Publications (1)

Publication Number Publication Date
JPS60210069A true JPS60210069A (ja) 1985-10-22

Family

ID=13292706

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6563684A Pending JPS60210069A (ja) 1984-04-02 1984-04-02 文書情報符号化方法

Country Status (1)

Country Link
JP (1) JPS60210069A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003333341A (ja) * 2002-04-25 2003-11-21 Microsoft Corp インククラスタの明示的な表現を用いた2レベルイメージの圧縮

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56100565A (en) * 1980-01-16 1981-08-12 Toshiba Corp Facsimile device
JPS57137971A (en) * 1981-02-20 1982-08-25 Ricoh Co Ltd Picture area extracting method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56100565A (en) * 1980-01-16 1981-08-12 Toshiba Corp Facsimile device
JPS57137971A (en) * 1981-02-20 1982-08-25 Ricoh Co Ltd Picture area extracting method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003333341A (ja) * 2002-04-25 2003-11-21 Microsoft Corp インククラスタの明示的な表現を用いた2レベルイメージの圧縮

Similar Documents

Publication Publication Date Title
US4873426A (en) Technique for reading bar codes
US5280544A (en) Optical character reading apparatus and method
US4922545A (en) Facsimile image encoding method
US4562594A (en) Method and apparatus for segmenting character images
US4608489A (en) Method and apparatus for dynamically segmenting a bar code
EP0063454A2 (en) Method for recognizing machine encoded characters
JPH07505024A (ja) イメージ圧縮の方法および装置
JPS6118381B2 (ja)
GB2151829A (en) Document processing system and method
JPH07200712A (ja) バーコード読み取りの方法および装置
US4962432A (en) Selective retrieval of data from microfilm images of different forms by reading a memory index form cord (bar code) recorded on each image frame
US5197107A (en) Character recognition apparatus
US5164996A (en) Optical character recognition by detecting geo features
JPS6140684A (ja) 輪郭追跡装置
US5065439A (en) Pattern recognition apparatus
JPS60210069A (ja) 文書情報符号化方法
Holt A fast binary template matching algorithm for document image data compression
JPH02293989A (ja) 文字認識装置
JPH09138837A (ja) 帳票認識装置
JPH08212292A (ja) 枠線認識装置
JPS5850078A (ja) 文字認識装置
JPS58125183A (ja) 光学文字読取装置における認識不能文字表示方法
JPH1040333A (ja) 帳票認識装置
JPH0832816A (ja) 画像圧縮方法
JPH02166583A (ja) 文字認識装置