JPH0652354A - スキュー補正方法並びにスキュー角検出方法並びにドキュメントセグメンテーションシステムおよびスキュー角検出装置 - Google Patents

スキュー補正方法並びにスキュー角検出方法並びにドキュメントセグメンテーションシステムおよびスキュー角検出装置

Info

Publication number
JPH0652354A
JPH0652354A JP5100424A JP10042493A JPH0652354A JP H0652354 A JPH0652354 A JP H0652354A JP 5100424 A JP5100424 A JP 5100424A JP 10042493 A JP10042493 A JP 10042493A JP H0652354 A JPH0652354 A JP H0652354A
Authority
JP
Japan
Prior art keywords
rectangular area
skew
document
angle
rectangular
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5100424A
Other languages
English (en)
Other versions
JP3308032B2 (ja
Inventor
Koichi Ejiri
公一 江尻
Efu Karen Jiyon
エフ. カレン ジョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of JPH0652354A publication Critical patent/JPH0652354A/ja
Application granted granted Critical
Publication of JP3308032B2 publication Critical patent/JP3308032B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Facsimile Scanning Arrangements (AREA)

Abstract

(57)【要約】 【目的】 スキュー角の検出並びに補正を、精度良
く、かつ、装置資源を効率良く使用して行なうことが可
能である。 【構成】 本発明におけるスキュー角検出は、一般に
ドキュメントイメージを表現している関連した一組の矩
形領域を与える工程と、該一組の矩形領域と関連したコ
ラムエッジを検出する工程と、上記関連した一組の矩形
領域から、同じコラムにあって、適当に離れている矩形
領域を検出して比較する工程と、検出された矩形領域間
の正接(タンジェント)角を計算し、最も共通した正接
角をスキュー角として検出する工程とを有している。ま
た、上記スキュー角を使用する本発明のスキュー補正
は、一般に、抽出された矩形領域から、これと対応した
実際のスキュー矩形領域を形成し、実際のスキュー矩形
領域のそれぞれを上記スキュー角に基づき原点の周りに
回転させる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文字認識システムの分
野に関し、特に、ドキュメントセグメンテ−ションに関
連して使われるスキュ−角を識別し、修正する方法に関
する。
【0002】
【従来の技術】印刷ドキュメントペ−ジからコンピュ−
タシステム上の文書ファイルを作成するのに光学的文字
認識技術を用いることができて、作成された文書ファイ
ルをコンピュ−タシステム上で文書編集したり、ワ−ド
処理したりすることができる。新聞や雑誌の記事のよう
に、ドキュメントペ−ジが文書と画像によって構成され
ていたり、あるいは、文書がコラム(欄)をなしている
ときに、文字認識に先立つ重要なステップが、ドキュメ
ントセグメンテ−ションである。ドキュメントセグメン
テ−ションとは、ドキュメントイメ−ジの様々な文書や
画像や線分の部分を識別することである。文書ファイル
に変換できるのは、ドキュメントイメ−ジの文書の部分
だけであるので、文字認識を文書のあるドキュメントの
領域のみに制限し、文書の各部分を文書ファイルに挿入
するための順序付けをするのが望ましい。文書ファイル
の順序付けは、原文に論理的に対応しない文書ファイル
が作成されるのを避けるのに好ましい。
【0003】
【発明が解決しようとする課題】全てのドキュメントセ
グメンテ−ションシステムが直面する難しい問題は、ス
キューである。スキュ−は、ドキュメントの表現が実際
のドキュメントページイメージ上の文書の水平線を正し
く表わしていないときに生じる。スキューは、ドキュメ
ントイメージの文字認識に先だって、修正されなければ
ならない。スキュー修正には、一般に、スキュー角の測
定と、スキュー角に基づいたドキュメントイメージ表現
の変更とが必要である。スキュー角測定に関して、第1
の既知の方法は、Hough変換に基づくものである。
Hough変換では、ドキュメントのビットマップイメ
ージを極座標空間に変換し、極座標における極大値を識
別することにより、そのときの極座標角度からスキュー
の角度を直接得ることができる。しかしながら、Hou
gh変換法は、かなり長い計算時間を要し、かつスキュ
ー角に対して感度が十分ではない。
【0004】第2の既知の方法は、著者「H.S.Baird」
による文献「印刷ドキュメントのスキュ−,Proceeding
SPSE 40th Conference Symposium Hybrid Imaging Syst
ems,Rochester, New York, 1987年5月,第21−24
頁)」に示されている。この第2の方法においては、原
ドキュメントイメージを2次元フーリエ変換した後、極
座標に投射し、投射した値の最大値をスキュー角として
求める。この方法は、2分(角度1度の2/60)まで
の高い精度を出すことが知られているが、この方法もま
た、非常に長い処理時間を要する。
【0005】本発明は、スキュー角の検出並びに補正
を、精度良く、かつ、装置資源を効率良く使用して行な
うことの可能な装置および方法を提供することを目的と
している。
【0006】
【課題を解決するための手段および作用】本発明は、ド
キュメントイメージにおけるスキューの検出方法および
装置と、スキューの補正の方法および装置とに関するも
のである。スキューの補正には、スキュー角を計算する
ことが必要であり、本発明においては、実際の画素デー
タではなく、ドキュメントイメージのデータ表現すなわ
ち矩形領域に基づいてスキュー角を決定することによ
り、スキュー角をより短い計算時間で正確に決定するこ
とができる。さらに、間隔の短かい矩形領域を無視する
ことで、スキュー角を急峻なピークと高い精度で検出す
ることができる。
【0007】本発明におけるスキュー角検出は、一般に
ドキュメントイメージを表現している関連した一組の矩
形領域を与える工程と、該一組の矩形領域と関連したコ
ラムエッジを検出する工程と、上記関連した一組の矩形
領域から、同じコラムにあって、適当に離れている矩形
領域を検出して比較する工程と、検出された矩形領域間
の正接(タンジェント)角を計算し、最も共通した正接
角をスキュー角として検出する工程とを有している。
【0008】また、上記スキュー角を使用する本発明の
スキュー補正は、一般に、抽出された矩形領域から、こ
れと対応した実際のスキュー矩形領域を形成し、実際の
スキュー矩形領域のそれぞれを上記スキュー角に基づき
原点の周りに回転させる。
【0009】
【実施例】本発明は、ドキュメントセグメンテーション
システムの一部に適用されるものであり、ドキュメント
イメ−ジにおけるスキューを補正するための方法および
装置に関するものである。本発明全体を理解させるた
め、以下では、データ構造のような詳細な部分について
も説明がなされている。しかしながら、当業者にとっ
て、このような詳細な部分がなくても本発明を実施しう
ることは明らかであろう。また、本実施例と関連する良
く知られた技術,例えばイメージスキャニング技術や文
字認識の詳細については、本発明と直接関係しないので
省略する。
【0010】本実施例のドキュメントセグメンテーショ
ンシステムは、光学的文字認識システムにおいて用いら
れている。このような光学的文字認識システムは、3つ
の基本的な部分,すなわち走査部とセグメント部(区分
化部)と文字認識部とに分けることができる。走査部
は、例えば光学的スキャナーであって、ドキュメントイ
メ−ジのビットマップ表現を作成する。このビットマッ
プイメ−ジは、適当な処理手段によって解釈され操作さ
れうる論理ビット値の集合としてのドキュメントの表現
である。このような走査部は市販されており、例えば3
00DPI等、種々の走査解像度のものなどが用意され
ている。走査解像度は、後述のように、ドキュメントセ
グメンテーション法で使用されるある閾値を決定するた
めのパラメータとなる。また、文字認識部では、ビット
マップ表現を対応する文字や記号に解釈する文字認識が
なされる。ここで、文字認識の方法としては、テンプレ
ートマッチングや形状分析等の種々の方法が知られてい
る。また、文字認識は、かなりの処理時間を必要とする
ことが知られている。
【0011】また、セグメント部では、ドキュメントイ
メ−ジにおける個々のブロックの識別と分類を行なうド
キュメントセグメンテーションがなされる。ドキュメン
トセグメンテーションは、イメ−ジのビットマップ表現
の解析に基づいてなされる。ドキュメントセグメンテー
ションは、ドキュメント上の文書の領域を画像領域(す
なわち、文書でない領域)から区別するのに重要であ
る。本実施例のドキュメントセグメンテーションシステ
ムでは、テストマップイメ−ジ中に座標アドレスを付
し、文書のブロックを識別して文字認識部に与える。こ
れによって、文字認識部は、文書でないドキュメントイ
メ−ジの部分を無視することができ、文字認識部で処理
しなければならないデータ量を減少させることができ
る。
【0012】図1には、光学的文字認識を行なうコンピ
ュータシステムが示されている。このような光学的文字
認識システムは、スキャナー101と、中央演算処理装
置(CPU)をもつホストコンピュータ102と、表示
装置103と、キーボードのような入力装置106とを
有している。ドキュメントのビットマップ表現は、スキ
ャナー101によって作成される。また、文字認識処理
が終了した後、文書ファイルが作成され、ホストコンピ
ュータ102に接続された文書データベース104にセ
ーブされる。また、表示装置103は、セグメンテーシ
ョンの結果を確認するのに使用される。さらに、図1に
は、画像データベース105が示されている。本実施例
において、着目すべきは、文書として識別された部分
は、解釈されて文書データベース104に格納される一
方で、画像として識別された部分は、画像データベース
105に格納される点である。
【0013】図2は、図1のホストコンピュータ102
をより詳細に示す図である。図2のホストコンピュータ
は、情報を伝達するためのバスあるいは他の情報伝達手
段110と、演算処理手段111(例えば処理情報を伝
えるバス110に接続されており、情報を処理するため
の中央演算処理装置(CPU))と、バス110と接続
され、CPU111用の情報および命令を記憶するため
のランダムアクセスメモリ(RAM)または他の記憶装
置112(一般に主メモリと呼ばれる)と、バス110
に接続されCPU111用の固定的な情報および命令を
記憶するためのリードオンリーメモリ(ROM)または
他の固定的記憶装置113とを有している。CPU11
1は、ドキュメントのビットマップ表現に対して本実施
例のセグメンテーション機能および分類機能を作用させ
るのに用いられる。後でより詳細に述べるように、これ
らの機能には、スキャンラインの圧縮,ラン長さの抽出
および分類,矩形領域の構築および分類,スキューの検
出および補正,矩形領域のマ−ジ(併合)と文書ブロッ
クの順序付けとが含まれている。
【0014】また、バス110には、データ記憶装置1
14(例えば磁気または光学的ディスクおよびディスク
ドライブ)が接続されている。データ記憶装置114
は、命令,パラメーター情報,矩形領域情報および他の
データを記憶するのに使用され、デ−タ記憶装置114
には、本実施例のセグメンテーション方法に使用される
図1の文書データベース104と画像データベース10
5とが含まれている。
【0015】本発明の方法において、境界矩形領域は、
ドキュメントの特徴を表わすのに用いられる。境界矩形
領域は、パターン(例えば1つの語)の境界を画定す
る。図3(a)を参照すると、矩形領域220は、語
“house”221に対する1つの空間的境界を与え
る。図3(b)を参照すると、矩形領域230は、文
“The house is white”231に対
する1つの空間的境界を与える。これらの矩形領域がど
のように処理されるかについて方法すなわち特徴を次に
説明する。
【0016】図4には、イメージのセグメンテーション
および分類の全体的な処理方法が示されている。なお、
図4に示されている各ステップは、ここでは簡単に説明
し、後でより詳細に説明する。図4を参照すると、先
ず、ドキュメントのビットマップ表現を作成する(ステ
ップ201)。ここで、ビットマップ表現は、図1のス
キャナー101から作成されても良いし、あるいは、ド
キュメントのビットマップ表現を与える他の手段により
作成されても良い。ドキュメントのビットマップ表現の
作成方法は、当該分野で知られているので、ここでは詳
述しない。ビットマップ表現は、イメージの部分に対応
するスキャンラインからなっている。従って、全体の表
現は、所定数のスキャンラインを有しており、通常、走
査部の解像度によりビットマップ表現が定まる。次い
で、ドキュメント(イメ−ジ)の表現を圧縮する(ステ
ップ202)。この圧縮処理により、余分なデータをよ
り効率的に表現し、ドキュメントを表現するのに使用さ
れるデータ量を一般に低減することができる。処理され
るのに必要なデータを低減することによって必要なメモ
リーを少なくすることができ、また、処理時間をも短縮
することができる。ステップ202の出力は、圧縮され
たスキャンラインの集合である。
【0017】上記のように圧縮されたスキャンラインか
らラン長さを抽出し、分類する(ステップ203)。こ
こで、ラン長さとは、スキャンライン上の連続した黒画
素の長さである。ビットマップ表現においては、ラン長
さは、論理値1のビットの連続した長さである。ステッ
プ203と一緒にまたはステップ203と関連させて、
矩形領域の構築と初期的分類とを行なう(ステップ20
4)。上述したように、矩形領域は、ドキュメントの互
いに異なるブロックを識別するのに用いられる。着目す
べきは、矩形領域は、これらが作成されるときに、先
ず、初期分類がなされることである。全ての矩形領域を
作成し、初期分類すると、ある矩形領域は縦線として、
誤分類されることがわかった。従って、分類されたある
縦線については、これを再分類しなければならない(ス
テップ205)。ステップ205をステップ204に併
合しうることは、当業者にとって明らかであるが、この
2つのステップを分離することによって、より効率的な
処理が可能となる。
【0018】次いで、スキュー検出とスキュー角の計算
とを行なう(ステップ206)。ドキュメントにおける
スキューの見積りは、語(words)を表現している
対象,すなわち矩形領域を解析することによりなされ
る。また、このスキューの見積りは、マ−ジ(併合)処
理の初期の段階においてなされる。スキューの見積り
は、セグメンテーション処理に対してのみならず、イメ
ージのそのままのコピーを用いる他の処理,例えば文字
認識処理に対しても重要である。スキューが検出され、
スキュー角が計算されると、ドキュメントの特徴を表わ
している矩形領域に対してスキュー補正を行なう(ステ
ップ207)。ドキュメント表現のスキュー補正がなさ
れた後は、再び、誤認識された矩形領域をいくつかのデ
ータに基づいて再分類する必要がある(ステップ20
8)。この処理は、矩形領域の特徴を所定の規則の組と
照合することによってなされる。再分類のステップを終
了すると、関連した文書の矩形領域をマ−ジ(併合)し
て文書ブロックを作成する(ステップ209)。なお、
ステップ209の処理において、関連した矩形領域は
“UNKNOWN”型として予め識別される。これらの
文書ブロックは、ドキュメント上で画像(絵画像)と分
離することのできる文書のコラムである。次のステップ
として、イメ−ジ領域内の文書矩形領域をマ−ジする
(ステップ210)。最後に、この文書ブロックを論理
的に順序付ける必要がある(ステップ211)。文書ブ
ロックを論理的に順序付けることは、ドキュメントのレ
イアウトに対応した順序の文書の文書ファイルの作成を
容易にする上で望ましい。
【0019】本実施例のコンピュータシステムにおいて
なされるようなこのドキュメントセグメンテーション法
は、早い処理速度を維持するのと同時に、システムメモ
リーの使用量を最小限にする。さらに、この方法は、ド
キュメントセグメンテーションと領域の分類に対して、
非常に高い精度を維持している。ドキュメントセグメン
テーションの全体的な方法には、一般に、ボトム−アッ
プ手法を使用することができる。すなわち、先ず、ドキ
ュメントのありのままの本質的な形を含んだデータ集合
にビットマップ表現を縮小する。次いで、縮小されたド
キュメントイメージから対象(ラン長さと矩形領域)を
抽出する。すなわち、隣接黒画素の集合の基礎的なレベ
ルからマ−ジ作業を開始し、文書のコラム,画像(絵画
像),線などを表現する対象までマ−ジ作業を徐々に行
なうことによって対象(ラン長さと矩形領域)を抽出す
る。対象の分類は、マ−ジ処理全体を通して行なわれ
る。
【0020】また、本発明の方法の特定の部分,すなわ
ち矩形領域の分類処理,マ−ジ処理,ブロックの順序付
け処理には、トップ−ダウン法が使用される。規則ル−
ルには、一般のドキュメントについてのページレイアウ
トから構築されたものが使用される。例えば、英語にお
いては、複数の語を結合して行として知られる対象を形
成し、複数の行を結合してコラムとして知られる対象を
形成する。コラムにおけるブロックは、上から下へ順序
付けられ、コラムは左から右へ順序付けられる。
【0021】本発明の方法がドキュメントの中間調の画
像やグラフィックスの部分を効率的に分類することも特
筆すべきことである。中間調の画像あるいはグラフィッ
クスは、ドキュメントの対応する部分に生成された矩形
領域のサイズに基づいて、ドキュメント上で識別され
る。高い圧縮率を用いると、精細部がマ−ジされる。ラ
ン長さのサイズ分布は、矩形領域の境界内に含まれてい
るので、矩形領域の境界サイズとそのラン長さのサイズ
の分布の特徴とに基づいて、分類を行なうことができ
る。
【0022】セグメンテーション用にドキュメントのビ
ットマップ表現を圧縮すれば、より高速な処理が容易と
なる。本実施例における圧縮技術により、ドキュメント
を表現するのに使われる実際のデータ量は、1/4に減
少する。しかしながら、処理されるのに必要なデ−タ量
については、1/32に減少する。この圧縮技術は、ビ
ットに論理OR演算を用いて、4本の水平スキャンライ
ンを1本の圧縮スキャンラインにまとめる処理に基づい
ている。本実施例では、1本のスキャンラインとは、イ
メ−ジの左から右に延びている画素(ピクセル)を表現
している1つのビット列を意味している。これに対し
て、圧縮スキャンラインは、1つのバイト値が1つの画
素の値を表わしている。
【0023】圧縮されるスキャンラインの本数,すなわ
ち4本は、実験に基づいて選ばれたものである。光学的
文字認識(OCR)を正確に行なうことの可能な最低の
解像度は、300dpiであると判断された。従って、
4本のスキャンラインを選択するということは、最低の
解像度で、本実施例の方法が6ポイントのタイプフェ−
ス程度の低い精細度を持つドキュメントを処理すること
ができることを意味している。
【0024】圧縮技術には、2つの要素,すなわち縦方
向の圧縮と横方向の圧縮とがある。この圧縮技術におい
て、一本のスキャンラインに関しては、1つの黒画素が
論理値“1”をもつ1つのビットを表し、1つの白画素
が論理値“0”をもつ1つのビットを表しており、ま
た、圧縮されたスキャンライン,すなわち圧縮スキャン
ラインに関しては、1つの黒画素が“0”でない1つの
論理値を表わし、白画素が“0”の値をもった1つのバ
イトを表わしていることに先ず留意すべきである。ビッ
トの縦方向の圧縮についての基本的な前提は、隣接する
4本のスキャンラインの同じ位置に、1つまたはそれ以
上の黒画素が存在する場合には、圧縮された結果の画素
を1つの黒画素として考えるというものである。しかし
ながら、同じ位置に黒画素が存在しない場合には、圧縮
された結果の画素を白画素とみなす。横方向の圧縮は、
1つの画素値を1バイトとして定義することによりなさ
れる。すなわち、先ず、縦方向の圧縮により、1/4の
圧縮を行ない、次いで、縦方向に圧縮されたデータを横
方向の圧縮により1/8に圧縮する。この結果、処理さ
れるデータに関しては、1/32に効果的に圧縮され
る。なお、そのイメ−ジを記憶するメモリーに関して
は、実際の圧縮率は1/4である。
【0025】図5は、本実施例におけるスキャンライン
の圧縮を示す図である。図5には、元の圧縮されていな
いビットマップ表現からの4本のスキャンライン300
乃至303がそれぞれ示されている。着目すべきは、ス
キャンライン300乃至303の各々に対して、それぞ
れ2バイト(304,305;306,307;30
8,309;310,311)が与えられている。ま
た、縦方向の圧縮をした結果のバイト(312,31
3)が示されている。各バイト304乃至311と、圧
縮の結果得られたバイト312,313は、8ビットで
構成されている。最後に、縦方向の圧縮の結果得られた
各バイト312,313を横方向に圧縮した結果が、圧
縮スキャンライン314においてバイト315,316
として示されている。バイト312を得るのに、バイト
304,306,308,310のそれぞれ対応するビ
ットについて論理OR演算がなされている。同様に、バ
イト312を得るのに、バイト305,307,30
9,311のそれぞれ対応するビットについて論理OR
演算がなされている。この結果得られたバイト312
は、黒ビットを含んでいるので、すなわち、“0”でな
い論理値をもっているので、バイト312は圧縮スキャ
ンライン314において黒画素を表現するものとなる。
この黒画素は、バイト315として表わされている。ま
た、上記の結果得られたバイト313は、黒ビットを含
んでいないので、すなわち、論理値が“0”であるの
で、バイト313は、圧縮スキャンライン314におい
て白画素を表現するものとなる。これは、バイト316
として表されている。図示しないが、この手順は、スキ
ャンライン300からスキャンライン303までの各ス
キャンラインの各ビット(および各バイト)についても
繰り返される。
【0026】さらに、圧縮スキャンラインを得る処理に
おいて、システムメモリーは、元のビットマップ表現の
3本のスキャンラインを記憶する分だけ必要とされる。
1番目のスキャンラインメモリーは、処理されるスキャ
ンライン用のものであり、2番目のスキャンラインメモ
リーは、中間作業用のものであり、3番目のスキャンラ
インメモリーは、圧縮スキャンラインをセ−ブするため
のものである。
【0027】この方法では、バイトに関する処理による
処理スピードの利点を得るために、バイトに対する圧縮
を必要としている。しかしながら、圧縮スキャンライン
において1つの画素値を表わすのに1つのビット値を使
用するという変形例も当業者に明らかであろう。もちろ
ん、このためには、データ表現および処理操作について
の論理構造およびデータ構造の変更が必要となる。この
ような変形例も、本発明の技術的思想および技術的範囲
から逸脱するものではない。
【0028】本実施例では、ラン長さは、圧縮スキャン
ラインにおける一組の連続黒画素として定義される。上
述のように、圧縮スキャンラインにおいては、1つの黒
画素は、0でない値をもつ1つのバイトによって表現さ
れ、また、白画素は、0の値をもつ1つのバイトによっ
て表現される。ラン長さの定義において、最初の要素
は、白から黒への変移が生じる黒画素の位置を特定し、
次の要素は、黒から白への変移が生じる位置を特定す
る。各圧縮スキャンラインは、1またはそれ以上のラン
長さをもつことができる。各圧縮スキャンラインに対し
て、ラン長さレコードで構成される“ラン長さ”の組が
得られる。
【0029】表1には、C言語において変数となるラン
長さレコ−ドのデータ構造が示されている。ラン長さの
構造を定義するのに、このようなプログラミング技術を
用いることは、当業者には、良く知られていることであ
る。
【0030】
【表1】
【0031】表1において、第1行は、“aRun”と
命名された構造の定義である。表1のデ−タ構造の第2
行は、型“*parentRect”の“RECT”変
数の定義である。データ構造“*parentRec
t”は、親の矩形領域と、ラン長さに対応する圧縮スキ
ャンラインとに関する情報を含んでいる。第3行はラン
長さの開始位置を規定する整数変数sxである。また、
第4行はラン長さの終了位置を規定する整数変数exで
ある。また、第5行はラン長さの型を示すためのフラグ
である整数変数flである。最後に、第7行において、
変数RUNは、型“aRun”のものであるとして定義
されている。このデータ構造を、例えば、ラン長さの終
了位置のかわりにラン長さ中の画素の数を保持するとい
うように変更して使用することも可能であり、このよう
に変更して使用する場合にも、本発明の思想と範囲から
逸脱しないことは明らかである。
【0032】以上のように、圧縮スキャンラインの各々
について、ラン長さの組が得られる。ラン長さの組は、
典型的には、型“aRun”の要素をもつ配列である
が、これのかわりに、各変数が組(リスト)の次のラン
長さの構造をポイントするリンクされたリストデータ構
造(linked-list data structure)であっても良い。
【0033】ラン長さを抽出する基本的な処理には、圧
縮スキャンラインに沿って一連の連続黒画素をサ−チす
る処理が含まれている。この処理では、先ず、“0”で
ない論理値を求めてそのスキャンラインのバイト値を調
べる。このような処理での最初の黒画素位置がラン長さ
についての開始値としてセットされる。次いで、次の白
画素を探索する。すなわち、“0”の論理値の画素を求
めてスキャンラインの以後のバイト値を調べる。この画
素は、ラン長さの終了値としてセットされる。このよう
な仕方で、1つのスキャンラインについて全ての“ラン
長さ”が抽出される。所定のスキャンラインについて全
てのラン長さが抽出されると、これらの組は、圧縮され
たビットマップ表現の1番上からn番目のスキャンライ
ンに存在するラン長さの組としてラベル付けされる。
【0034】次いで、ラン長さのサイズ(画素単位での
長さ)とドキュメントイメ−ジの解像度に基づいて分類
がなされる。ドキュメントイメ−ジの解像度は、使用さ
れる走査手段に依存する。高解像度のドキュメントイメ
−ジは、低解像度のドキュメントイメ−ジよりも多くの
画素を必ず必要とするので、解像度について次に説明す
る。なお、解像度について説明を行なっても、本実施例
は、特定の解像度をもつスキャナーに限定されるもので
はない。以下に詳細に述べるように、ラン長さの分類
は、関連して抽出された矩形領域を初期分類するのに使
用される。300dpiの解像度で走査されたドキュメ
ントに対する分類規則は、発見的(heuristic)データに
基づいており、以下のようなものとなっている。 1. ラン長さ≦2画素である場合には、ラン長さの型
にSHORTを割り当てる。 2. ラン長さ>60画素である場合には、ラン長さの
型にLONGを割り当てる。 3. 60画素≧ラン長さ>2画素である場合には、ラ
ン長さの型にMEDIUMを割り当てる。
【0035】本実施例では、ラン長さの型を記述するた
めに、フラグとそれに対応する値を定義した。すなわ
ち、RNFL−MEDIUMフラグに(0)の値をもた
せ、これにより、中程度のラン長さを定義した。また、
RNFL−SHORTフラグに(1)の値をもたせ、こ
れにより、短いラン長さを定義した。また、RNFL−
LONGフラグに(2)の値をもたせ、これにより、長
いラン長さを定義した。上記の分類が決定されると、そ
れに対応するフラグ値がflフィールド(表1の第5
行)に挿入される。
【0036】図6は、画素のスキャンラインとラン長さ
とを示す図である。なお、図6では、1バイトをその対
応する画素値として表わし、簡略化していることに留意
すべきである。例えば、画素405は“0”でないバイ
ト値(すなわち、黒画素)を表わしている一方で、画素
406は“0”のバイト値(すなわち、白画素)を表わ
している。スキャンライン401には、一連の連続黒画
素で構成されている部分402がある。画素403のア
ドレスは、そのラン長さの始めを示しており、また、画
素404のアドレスは、そのラン長さの終端を示してい
る。ここで、画素403がアドレス312のところにあ
り、また、画素404がアドレス414のところにある
とし、長いラン長さに対する閾値が“100”であると
すると、結果として得られるラン長さレコ−ドは、“3
12”の始端値sxと、“414”の終端値exと、
“2”(長いラン長さ)のラン長さフラグflとをも
つ。
【0037】処理のどの時点においても、2つの圧縮ス
キャンラインのラン長さを記述する2組のレコ−ドだけ
が使用され、メモリーに記憶される。第1の組のレコ−
ドは、現在のスキャンラインのラン長さを記述してお
り、第2の組のレコ−ドは、過去のスキャンラインのラ
ン長さを記述している。後で詳細に説明するように、過
去のスキャンライン情報は、矩形領域の抽出に使用され
る。圧縮スキャンラインレコ−ドの新たな組を読み取る
に先立って、現在のレコ−ドの組は、過去のスキャンラ
インのレコ−ドとして保持するためメモリー位置に複写
される。次いで、新しいスキャンラインを記述するレコ
−ドが、現在のスキャンラインを記述するレコ−ドを保
持しているメモリー位置に読み込まれて、適宜処理され
る。この処理は、すべての圧縮スキャンラインが処理さ
れるまで、続けられる。
【0038】圧縮スキャンラインに基づいてラン長さが
抽出されるときに、ドキュメントの特徴を表わす矩形領
域が構築される。これらの矩形領域は、ドキュメントイ
メ−ジの横方向と縦方向の両方向における連続黒画素の
境界を表わしている。ラン長さは、一次元であるが、こ
れに対し、矩形領域は二次元である。上述したように、
現在および過去の圧縮スキャンラインのラン長さの情報
は、矩形領域を抽出する工程において必要となる。
【0039】現在の圧縮スキャンラインと過去の圧縮ス
キャンラインとの間の関係によって、現在の圧縮スキャ
ンラインのラン長さを、既存の矩形領域に割り当てる
か、新しい矩形領域を作るかが決定される。最初の圧縮
スキャンラインを処理しているとき、各ラン長さは、新
しい矩形領域を生成する。新しい圧縮スキャンラインを
次々に処理していくとき、あるスキャンラインにおいて
ラン長さと関連した矩形領域は、適宜拡張される。ラン
長さが矩形領域の境界内に存在する場合には、そのラン
長さはその矩形領域と関連付けられる。現在の圧縮スキ
ャンラインにおいて矩形領域と隣接している全ての画素
が白であるとき、1つの矩形領域は完成し、それ以上に
は拡張されない。換言すると、現在の圧縮スキャンライ
ンのラン長さが矩形領域境界内に存在しなくなるとき、
1つの矩形領域が完結する。1つのラン長さが矩形領域
境界内に一部存在するとき、新しい矩形領域が作り出さ
れる。このような方式では、重なり合う矩形領域が生成
されることがある。このような重なり合った矩形領域
は、この方法の次の工程において扱う。
【0040】図7には、現在の圧縮スキャンラインのラ
ン長さと過去の圧縮スキャンラインのラン長さとから、
矩形領域を構築する様子が示されている。図7におい
て、過去の圧縮スキャンライン501と現在の圧縮スキ
ャンライン502とは、それぞれ、複数のラン長さを含
んでいる。過去の圧縮スキャンライン501は、ラン長
さ503乃至509を有している。一方、現在の圧縮ス
キャンライン502は、ラン長さ510乃至517を有
している。なお、ここで注意すべきは、図7では、スキ
ャンライン501とスキャンライン502が、ビットに
関し整列していることである。すなわち、スキャンライ
ン501の左端ビットが、スキャンライン502の左端
ビットに対応している。また図7には、矩形領域520
乃至525が示されている。現在の圧縮スキャンライン
内のラン長さと過去の圧縮スキャンライン内のラン長さ
との間に、所定の関係が存在する場合には、現在の圧縮
スキャンライン内のラン長さは、既存の矩形領域に加え
られる。このような関係が存在しない場合には、新たな
矩形領域が作り出される。
【0041】過去の圧縮スキャンラインのラン長さと現
在の圧縮スキャンラインのラン長さとの間の所定の関係
が、上述した矩形領域構築規則となる。1つのラン長さ
を1つの既存の矩形領域に加えるのに必要な関係は、現
在のスキャンライン内の1つのラン長さの始点が、過去
のスキャンライン内のラン長さと連続性を有していなけ
ればならないということである。例えば、図7を参照す
ると、ラン長さ510は、圧縮スキャンライン501の
ラン長さ503,504と連続性をもっている。
【0042】ラン長さ515に関しては、過去のスキャ
ンライン501内のラン長さと連続性がない。従って、
新たな矩形領域522が作り出される。また、過去のス
キャンライン501内のラン長さ508については、現
在のスキャンライン内のラン長さと連続性がなく、従っ
て、矩形領域524が完成し、この矩形領域には最早、
ラン長さは付け加わらない。
【0043】図7において、スキャンライン501のラ
ン長さは、既存の矩形領域に次のように加えられる。す
なわち、ラン長さ503乃至504は矩形領域520に
加えられ、また、ラン長さ505は矩形領域521に加
えられ、また、ラン長さ506乃至507は、矩形領域
523に加えられ、また、ラン長さ509は、矩形領域
525に加えられる。また、ラン長さ508によって、
矩形領域524が作り出される。スキャンライン502
に関しては、ラン長さ510,511が矩形領域520
に加えられ、ラン長さ512乃至514が矩形領域52
1に加えられ、ラン長さ516が矩形領域523に加え
られ、ラン長さ517が矩形領域525に加えられる。
また、上述したように、ラン長さ515によって矩形領
域522が作り出される。
【0044】矩形領域が構築されているとき、各矩形領
域に含まれている互いに異なる型のラン長さについての
計数が続けられている。1つの矩形領域が完成される
と、矩形領域の初期分類が行なわれる。ラン長さの特性
と矩形領域の大きさとに基づいて、4つの型、すなわ
ち、縦線“VL”,横線“HL”,画像(絵画像)“I
MG”,不明“UNKNOWN”の1つへの初期分類が
なされる。以下の一般的な規則が、矩形領域の分類に使
用される。 規則1.「ラン長さが全て型LONGであり」、かつ、
「矩形領域の高さがラン長さの型SHORTの閾値より
も小さいかまたは等しい」ならば、HLの型として矩形
領域を分類する。 規則2.「ラン長さが全て型SHORTであり」、か
つ、「矩形領域の高さがラン長さの型SHORTの閾値
より大きい」)ならば、VL型として矩形領域を分類す
る。 規則3.「ラン長さが型LONGか」、または、「矩形
領域の幅がラン長さの型LONGの閾値よりも小さいか
または等しく」かつ「矩形領域の高さが画像高さ矩形領
域閾値よりも大きい」ならば、矩形領域をIMG型とし
て分類する。 規則4.その他の残りの矩形領域を全てUNKNOWN
として分類する。
【0045】規則1は、横線を識別し、規則2は縦線を
識別し、規則3は画像矩形領域を識別し、規則4は“不
明”のデフォルト分類を与える。
【0046】300dpiのドキュメントイメ−ジに対
して、ラン長さの型SHORTの閾値を2画素と定め、
また、画像高さ矩形領域の閾値を82画素と定めた。
【0047】上記分類規則は、典型的なドキュメントが
含んでいる既知のパラメータから得たものである。これ
らのパラメータを、ドキュメントのビットマップ表現の
解像度に応じて変更しても良いし、および/または、矩
形領域の大きさの分布を解析することにより、ドキュメ
ントに合わせても良い。
【0048】圧縮されたドキュメント表現の処理の最後
に、ドキュメントイメージの全ての基本的な対象を記述
している矩形領域のリストを作成した。後述のように、
UNKNOWN型の矩形領域は通常、文書を含んでい
る。
【0049】本実施例では、文字のフォントサイズは、
6ポイント乃至48ポイントのものが可能である。前述
の規則は、この仮定に一部基づいている。しかしなが
ら、基本的な分類を行なうのに用いられる閾値を変更す
ることによって、より小さいサイズのフォント,より大
きいサイズのフォントにも適用できることは、当業者に
とって明らかである。
【0050】VL型の矩形領域に対する最終的な分類
は、矩形領域の抽出時になされる。上述のようになされ
た初期分類結果を試験し、これをより正確なものにする
のに次の規則が使用される。 規則1’:誤分類された文書,すなわち縦線として分類
された1(いち),l(エル),またはI(アイ)を修
正する。「矩形領域の型がVLで」かつ「矩形領域の高
さが“不明”矩形領域の高さの閾値よりも小さい」なら
ば、矩形領域をUNKNOWN型として分類する。 規則2’:フォントサイズに基づいて矩形領域を再割り
当てする。最大のフォントサイズより大きい矩形領域に
ついては、これらを画像とする。(矩形領域の高さの2
倍)が(画像の高さに対する閾値)よりも大きいなら
ば、矩形領域をIMG型として分類する。 規則3’:「単語」は高くなるというよりも長くなると
いう傾向にあるとの前提に基づいて、画像領域を割り当
てる。((矩形領域の高さの4倍)+(矩形領域の
幅))が(画像の高さの閾値の4倍)よりも大きいなら
ば、矩形領域をIMG型として分類する。 規則4’:この規則4’は、横線を定義するための基準
を与えるものであって、長い横線が文書ブロックまたは
コラムを分割する短かい横線よりも太い傾向があるとの
前提に基づいている。(矩形領域の高さの4倍)の比と
しての(矩形領域の幅)が(横線の幅に対する閾値)よ
りも大きいならば、矩形領域をHL型として分類する。 規則5’:規則5’は、横線を小さな(例えば6ポイン
トの)フォントテキストの長い行と区別するための基準
を与えるものである。((矩形領域の高さ)の比として
の(矩形領域の幅))が(横線の幅と高さとの比に対す
る閾値)よりも大きいならば、矩形領域をHL型として
分類する。
【0051】300dpiのイメ−ジに対し、上記の各
閾値は次のとおりである。すなわち、“不明”矩形領域
に対する高さ閾値は“5”であり、画像高さ閾値は“8
2”であり、横線の幅閾値は“77”であって、横線の
幅高さ比の閾値は“15”である。ラン長さとともに、
矩形領域情報を記憶するためのデータ構造が設けられて
いる。このようなデータ構造は、次表に示されている。
【0052】
【表2】
【0053】第2行と第3行のデータ構造は、次に処理
される矩形領域へのポインタと、前に処理された矩形領
域へのポインタとを与えている。後述のように、このデ
−タ構造によって、次の工程での矩形領域の処理が容易
になる。矩形領域の空間的位置を示す座標点は、第4行
乃至第7行で与えられている。また、第4行乃至第5行
は、矩形領域の左上端のXY座標を与え、第6行乃至第
7行は、矩形領域の右下端のXY座標を与えている。第
8行は、矩形領域のフラグ値を与えている。このフラグ
値は、レコ−ドの型を示している。第9行乃至第10行
は、文書ブロック順序変数“TAU”と“MU”であ
る。これらの文書ブロック順序値の計算と割り当ては、
後で詳述する。第11行は、次の文書矩形領域に対する
ポインタを与えている。このようなポインタによって、
文書ブロックを作成するためのUNKNOWN型の矩形
領域のマ−ジ(併合)を含む処理工程が容易となる。最
後に、第13行は、矩形領域変数の定義を示している。
【0054】矩形領域パラメータ情報は、セグメンテー
ション処理中、継続的に使用されるので、システムメモ
リーの所定位置に記憶される。次表には、パラメータ情
報を含むこのようなデータ構造が示されている。
【0055】
【表3】
【0056】パラメータによるデータ構造は、ドキュメ
ントセグメンテーション中および対象の分類処理中に使
用される情報を記憶するための型定義の一例である。こ
のパラメータデータは、使用されるスキャン装置の解像
力に関係している。各情報フィールドの記述は、情報が
どこで使用されたかを示している部分に見出される。パ
ラメータデータを中央位置に記憶することによって、ド
キュメントセグメンテーションの閾値の変更が容易にな
される。
【0057】この時点までの処理過程では、文書の多く
の部分が縦線分VL(例えば、1(いち)と,l(エ
ル)と,I(アイ))として誤分類されてしまう。従っ
て、より短い縦線分を、上述した規則1’を使ってUN
KNOWNとして再分類する。後述のように、これらの
矩形領域は、文書矩形領域として再び再分類される。
【0058】この時点で、画像領域と、縦線と、横線と
に対する正確な分類がなされる。残っているのは、UN
KNOWN型として分類された矩形領域である。
【0059】スキューは当該分野において良く知られた
問題であり、文書のラインが水平線上にないドキュメン
トイメージを指す。スキュー検出方法には、スキュー角
の決定処理が設けられている。イメージを表現している
抽出された矩形領域のリストからドキュメントのスキュ
ー角を決定することができる。スキューを決定する方法
は、抽出された矩形領域がどのようにして導き出された
かに依らない。従って、矩形領域に関してドキュメント
表現を正確に行なうことができる方法であれば、これを
スキューの検出および補正方法に用いることができる。
【0060】本発明の方法は、文字列が矩形領域によっ
て近似されているとの前提の下でなされる。このような
矩形領域を本実施例の矩形領域構築方法を用いて得るの
が好ましい。しかしながら、矩形領域を得るのに他の方
法を用いても本発明の思想および範囲からは逸脱しな
い。いずれの場合においても、各矩形領域は、1つの
語,または1つの文字を形成する1組の連結パターン
(画素)の境界である。図8には、スキュー方法の基本
的な処理流れが示されている。X−Y平面上での座標点
として矩形領域をアドレスすることができることが先ず
理解されるべきである。最初、所定数の関連した矩形領
域のアドレス情報を矩形領域バッファに格納する(ステ
ップ601)。スキュー角を検出するために、正確には
80個の矩形領域を用いることとした。さらに、格納さ
れるアドレス情報は、矩形領域の左上隅の座標である。
全ての矩形領域アドレスについて一貫性をもたせれば、
これのかわりに、矩形領域の右下隅の座標をアドレス情
報として用いることもできる。
【0061】次いで、各々のアドレスのX座標をX座標
アドレスのヒストグラム上に投射し、コラムエッジを検
出する(ステップ602)。図9には、このようなヒス
トグラムが示されている。このヒストグラムは、最も共
通した(頻度の高い)X座標値を示している。この最も
共通したX座標値により、文書のコラムのエッジを検出
することができる。すなわち、矩形領域をこれらの左上
隅点により検出する場合には、左側のコラムエッジが検
出される。これとは逆に、右下隅点が用いられる場合に
は、右側のコラムエッジが検出される。図9を参照する
と、符号701の部分は、X座標を示しており、符号7
02の部分は頻度を示しており、符号703の部分は、
各X座標のカウント値の関係をグラフィックに示したも
のである。符号704で示すX座標値は、最も頻度が高
く、このX座標値がコラムエッジとして定められる。コ
ラムの検出は、スキュー角を決定するときに比較対象と
なる矩形領域をコラム検出結果を用いて制限することが
できる点で重要である。なお、この制限とは、同じコラ
ム内の矩形領域のみを比較することである。
【0062】図8を再び参照すると、矩形領域バッファ
に格納されている全てのあるいは限られた一部の関連し
た矩形領域間の正接角(タンジェント角)を決定し、ヒ
ストグラム上に投射してスキュー角を検出する(ステッ
プS603)。図10には、2つの矩形領域間の正接角
が示されている。第1の矩形領域801と第2の矩形領
域802とは、対角線804と水平線803とによって
定まるスキュー角をもつ。対角線804は、矩形領域8
01の右下隅806から矩形領域802の右下隅807
まで延びている。水平線803は、矩形領域801の隅
806から延びている。スキュー角805は、良く知ら
れた三角法の計算により、次のようにして計算される。
【0063】
【数1】 ΔX=|(点806のX座標)−(点807のX座標)| ΔY=|(点806のY座標)−(点807のY座標)| スキュー角=(180×ΔY)/(π×ΔX)
【0064】すなわち、対角線804を形成する座標点
間の絶対値を計算し、スキュー角の式に挿入すること
で、スキュー角を計算できる。
【0065】上述のように、関連した矩形領域だけが比
較される。関連した矩形領域は、同じコラムにあり、適
当に離れているものとして定義される。同じコラムにあ
り、適当に離れていない矩形領域,例えば隣接した矩形
領域は、これをヒストグラムにプロットするときに、誤
まった結果を生じさせる可能性がある。特に、スキュー
角が“0”であるような誤まったプロットを生じさせ
る。さらに、不必要な計算が行なわれることになる。
【0066】図11には、本実施例において生成されう
るヒストグラムが示されている。このヒストグラムは、
比較された矩形領域についての正接角の分布を示してお
り、符号820はスキュー角を示し、符号821は各正
接角についての頻度を示し、符号822は正接角の分布
をグラフィックに示している。
【0067】再び図8を参照すると、最後の処理では、
ピークを与える角度(ピーク角度)を検出し、これをス
キュー角とする(ステップ604)。この処理は、スキ
ュー角ヒストグラムを作る際に得られたデータを解析す
ることによってなされる。スキュー角“Ai”のヒスト
グラム上での値(頻度値)をHist(Ai)として表わす
と、最大値を与える角度は、次式により与えられ、これ
がスキュー角となる。
【0068】
【数2】 Hist(Ai)=hist slope(Ai-1)+hist slope(Ai)+hist slope(Ai+1)
【0069】この式を満たすものが、ヒストグラムのピ
ーク値である。図11を参照すると、符号824の角度
が上記式を満たすピーク角度である。従って、符号82
4の角度がスキュー角である。
【0070】検出されたスキュー角を用いて、抽出され
た矩形領域のスキューの補正がなされる。画像をスキュ
ー補正する場合、画像を表わす矩形領域もまた補正しな
ければならない。構築された矩形領域の補正処理は、基
本的に、次の2つの工程を有している。すなわち、1)
実際のスキュ−角度の導出工程と、2)矩形領域の回転
補正によって実質的にスキューを補正する工程と、の2
つの工程を有している。図12,図13は、それぞれ、
正にスキューしている矩形領域,負にスキューしている
矩形領域をそれぞれ示している。上から下に走査すると
きに最初に左上隅が検出される場合には、矩形領域は正
のスキューを有しているとして定められる。これに対
し、上から下に走査するときに、最初に右上隅が検出さ
れる場合には、矩形領域は負のスキューを有していると
定められる。図12および図13において、点A90
1,B902,C903,D904によって画定される
矩形910が、抽出されたスキューしている矩形領域を
表わしている。通常、スキューしているイメージでは、
スキューしていないイメージよりも大きな矩形領域が構
築される。
【0071】図12を参照すると、抽出された矩形領域
910は正にスキューしている。これと対応するスキュ
ーしていない矩形領域905は、点I906,J90
7,K908,L909によって画定されている。スキ
ュー角911は、この場合、点A901,L909,I
906によって定められる角度として規定される。スキ
ューしている矩形領域とスキューしていない矩形領域と
の間の関係を記述するために次の表記を用いる。
【0072】すなわち、抽出された矩形領域910を
{(Xu,Yu),(Xd,Yd)}により表わし、ま
た、点I906,J907,K908,L909によっ
て画定されるスキューしていない矩形領域905を
{(Vu,Wu),(Vd,Wd)}により表わす。ま
た、スキュー角を“a”で表わし、点A901とD90
4との間の距離をWで表わし、点A901とB902と
の間の距離をHで表わす。
【0073】かくして、スキューしている矩形領域91
0とスキューしていない矩形領域905との間の関係を
次式(数3,数4)のように定めることができる。
【0074】
【数3】 Vu=Xu Wu=Yu+sin|a|×(W cos|a|−H sin|a|)/(cos2|a|−sin2|a|)
【0075】
【数4】 Vd=Xd Wd=Yd−sin|a|×(W cos|a|−H sin|a|)/(cos2|a|−sin2|a|)
【0076】適当な値を代入して、矩形領域905を表
現することができる。
【0077】図13を参照すると、イメージは、正のス
キューの場合と軸対称になっている。ここで、負にスキ
ューしている矩形領域を表わすのに、再び符号910が
用いられている。負にスキューしている矩形領域910
に対応するスキューしていない矩形領域920は、点I
921,J922,K923,L924によって定めら
れている。さらに、この場合、スキュー角925は、点
D904,I921,L924によって定められる角度
として規定される。上記表記を用いると、スキューして
いる矩形領域とスキューしていない矩形領域との間の関
係を次式のように定めることができる。
【0078】
【数5】 Wu=Yu Vu=Xu−sin|a|×(W sin|a|−H cos|a|)/(cos2|a|−sin2|a|)
【0079】
【数6】 Wd=Yd Vd=Xd+sin|a|×(W sin|a|−H cos|a|)/(cos2|a|−sin2|a|)
【0080】適当な値を代入して、矩形領域920を得
ることができる。また、境界条件に関し、次式が数3か
ら得られる。
【0081】
【数7】a≧0のとき、Yu≦Wuであるので、 sin|a|×(W cos|a|−H sin|a|)/(cos2|a|−sin2|a|)≧0 同様に、a<0のときに、Xu≦Vuであるので、 −sin|a|×(W sin|a|−H cos|a|)/(cos2|a|−sin2|a|)≧0
【0082】抽出された矩形領域の各々に対して実際の
スキュー座標値が定まると、イメージを表わす矩形領域
の全ての組の座標値を原点の周りに角度“a”だけ回転
する。この演算は、次式のようなマトリックス変換を用
いてなされる。
【0083】
【数8】
【0084】ここで、“a”は検出されたスキュー角で
ある。また、座標Xu’,Yu’は矩形領域の修正され
た座標値を表わしている。
【0085】処理がデータ表現のより高次のレベルに進
むにつれて、本実施例のボトム−アップ方法と一貫性を
もたせて、現時点までに分類された全ての矩形領域の正
確さをチェックすることが必要となる。また、いくつか
の矩形領域を再分類することが必要となる。この際の確
認規則および再分類規則は、前述した分類規則のものと
同じものである。
【0086】この時点までに、矩形領域は、画像(絵画
像)(IMG),横線(HL),縦線(VL)のいずれ
かに分類されている。他の全ての矩形領域は、“UNK
NOWN”として分類されている。これらの“UNKN
OWN”矩形領域は、ドキュメント中の文書,あるいは
ノイズのような文書を表わしている。次の処理は、文書
のラインとして分類することのできるブロックにマージ
(併合)することの可能な矩形領域を見出すことであ
る。このようなマージブロック(merged blocks)は、
型“CHAR”として分類される。
【0087】先ず、ブロックの用語は、併合矩形領域
(merger rectangles)のグループを指すものとして用
いられる。また、マ−ジした“UNKNOWN”矩形領
域のグループを文書ブロックと呼ぶ。さらに、型“IM
G”の矩形領域は、決してマージ(併合)されない。こ
のことは、矩形領域が型“IMG”として分類される際
の判断基準に暗に示されている。
【0088】第1の処理工程は、ドキュメント中の矩形
領域の平均的高さを見積ることである。平均的高さの計
算の仕方に基づいて、横方向のマージ閾値と縦方向のマ
ージ閾値とを適宜設定する。矩形領域の平均的な大きさ
を見積るための方法は、ドキュメント全体についてなさ
れても良いし、あるいは関連した矩形領域のクラスタに
ついてなされても良い。関連した矩形領域のクラスタに
ついて見積りを行なう方法では、クラスタのマージ(併
合)には、横方向および縦方向の適当なマージ閾値を決
定する際に、クラスタ平均を利用する。矩形領域のクラ
スタは、クラスタリングの既知の方法,例えば、矩形領
域の平均距離間隔に基づいて矩形領域をクラスタリング
する最隣接アルゴリズム(nearest neighbor algorith
m)を用いて検出される。
【0089】マージ処理には、横方向のマージ処理と縦
方向のマージ処理とがある。横方向のマージ処理では、
隣接しているが異なるコラムの文書矩形領域をマージ
(併合)しないようにしなければならない。コラムエッ
ジの検出についての説明は、スキュー角の検出について
の説明と関連させて前述されている。横方向のマージ処
理中、“UNKNOWN”として分類され、かつ、境界
長さがノイズ長さの閾値よりも小さい矩形領域は、ノイ
ズとして除去される。横方向にマージされた矩形領域の
うち残りのものは、文書(すなわち、型“CHAR”)
として分類される。
【0090】縦方向のマージ処理には、文書の横線を抽
出する工程と、縦方向にマージ(併合)する工程とがあ
る。文書の矩形領域と型“IMG”,“HL”または
“VL”の矩形領域との間に重なり合い(オーバーラッ
プ)がある場合には、これらの矩形領域に対する処理を
後の処理まで延ばす。
【0091】本実施例において、2つの矩形領域のマー
ジ(併合)は、これらの矩形領域が同じ型のものであ
り、かつ、所定の横方向マージ閾値および縦方向マージ
閾値内にあるときになされる。このようなマージ閾値
は、イメージの解像度と矩形領域の平均的高さに応じて
定められる。次表には、300dpiの解像度をもつド
キュメントに対するこのようなマージ閾値が示されてい
る。
【0092】
【表4】
【0093】マージ(併合)は、矩形領域を定める座標
を、より大きなマージ矩形領域を反映するように変更す
ることによりなされる。これにより、マージされる以前
の矩形領域の座標値を捨てることができる。
【0094】また、画像の矩形領域の外側にある矩形領
域を、画像の矩形領域の内側にある矩形領域とマージ
(併合)することはできない。1つの矩形領域が画像の
矩形領域内にあるか、あるいは画像の矩形領域と重なり
合っている場合には、この矩形領域は、内側のものと
し、特殊なケースのものとして扱う。例えば、このよう
なケースは、図表の説明文が図表に重ね合されているド
キュメントにおいて生じる。
【0095】画像の矩形領域の内側の矩形領域の場合、
前述したものと同じパラメータ(例えば表4に示されて
いるパラメータと同じパラメータ)を用いて、マージ
(併合)が行なわれる。図14,図15には、このよう
なケースが示されている。なお、図14には、グラフィ
ック画像(自動車のサスペンションシステムの一部分の
画像)1001とともに、このグラフィック画像100
1を説明する文書,すなわち文書領域1002,100
3をもつドキュメントが示されている。また、図15に
は、ドキュメントのデジタルイメージ表現のラン長さ抽
出工程と矩形領域抽出工程とを行なった後の結果が示さ
れている。矩形領域1010は、グラフィック画像10
01に対応している。矩形領域1010は、型“IM
G”のものである。さらに、矩形領域の第1のグループ
1011は、文書領域1002に対応し、矩形領域の第
2のグループ1012は、文書領域1003に対応して
いる。各グループ1011,1012の矩形領域は型
“UNKNOWN”のものである。第1のグループ10
11の矩形領域は、“IMG”の矩形領域1010と重
なり合うので、これらをマージ(併合)することはでき
ない。
【0096】ドキュメントセグメンテーションの最後の
工程は、文書のブロックに論理的な順序を与えることで
ある。100%の正確な順序付けは、ページを当初レイ
アウトしたときにどの規則が用いられたかによる。これ
らの規則は、ドキュメントレイアウトが異なるとかなり
変わる。従って、全てのドキュメントレイアウトに対し
て一般的なソート方法を構成することは、実質的に不可
能であると認められる。
【0097】しかしながら、正しい順序に近づけること
は可能である。本実施例で用いられるソート方法は、検
討中のブロックの“上側”および“左側”の文書ブロッ
クの数を計数することに基づいている。なお、ここで、
“上側”,“左側”は、ドキュメントの幾何学的レイア
ウトに関するものである。
【0098】本実施例のこのようなブロック順序付け方
法を、図16乃至図18を参照して説明する。なお、図
16はドキュメントイメージの種々の文書ブロックの論
理的なの順序を決定するための処理を示すフローチャー
トである。また、図17は、ドキュメントイメージを示
す図であり、図18は、文書ブロックの論理的な順序を
計算するのに用いられる結果値テーブルを示す図であ
る。図16を参照すると、先ず、ドキュメントの各文書
ブロックに“TAU”値を割り当てる(ステップ110
1)。“TAU”値は、ドキュメントイメージの上から
下に“1”から始まる順次に連続した番号で割り当てら
れる。すなわち、“TAU”の割り当ては、文書ブロッ
クが構成される順序と同じ順序でなされる。図17を参
照すると、文書ブロック1201乃至1207をもつド
キュメントイメージ1200が示されている。さらに、
図17には、画像の矩形領域1208が示されている。
画像の矩形領域1208には“TAU値”が割り当てら
れないことに着目すべきである。ドキュメントを左から
右に、また上から下に順次に調べる場合に、最左上部の
文書ブロックがブロック1201であることは明らかで
あり、従って、この文書ブロックには、“1”の“TA
U”値が割り当てられる。また、次の文書ブロックはブ
ロック1202である。従って、この文書ブロック12
02には、“2”の“TAU”値が割り当てられる。こ
のような処理は、文書ブロック1207に“7”の“T
AU”値が割り当てられるまで続けられる。図18の結
果値テーブル1220には、文書ブロック1201乃至
1207の各々に対する“TAU”値が示されている。
すなわち、“TAU”の行1210には、各文書ブロッ
クに対する全ての“TAU”値が示されている。ブロッ
クを順序付けする“TAU”の値を文書ブロックの幾何
学的順序と呼ぶ。
【0099】“TAU”の値が設定されると、次のステ
ップでは、各文書ブロックについて“MU”の値を生成
する(ステップ1102)。“MU”の値は、文書ブロ
ックの論理的順序を決定する際に先ず用いられる。各文
書ブロックについて“MU”値を決定する際に、所定の
ブロックの上側または左側にあるブロックの全体の数に
は、該所定のブロックも含まれている。図18を参照す
ると、結果値テーブル1220の行1211には、ドキ
ュメントイメージ1200の文書ブロックについて得ら
れた“MU”値が示されている。例えば、文書ブロック
1204に対する“MU”値は、“4”である。文書ブ
ロック1204に対する“MU”値が“4”であるの
は、文書ブロック1203,1201,1202が文書
ブロック1204の上側または左側であることによる。
文書ブロックの“MU”値は、左から右に、また上から
下に順序付けする場合の論理的順序を与える。
【0100】一般に、上から下への幾何学的順序を、ペ
ージの左位置から右位置までを考慮して“MU”の値に
より重み付けする。この結果、上/左から下/右の順序
を与える値が得られる。しかしながら、文書ブロックが
ドキュメントにおいて上から下に整列されている場合に
は、右への次の文書ブロックに進む前に、文書コラムの
下に優先的に到達させる。このような優先処理は、各文
書ブロックについて値“PSI”を計算することによっ
て可能となる。
【0101】図16を参照すると、ドキュメントイメ−
ジの文書ブロックの各々について、所定のブロックの左
側にある文書ブロック数を合計することによって、“P
SI”値が計算される(ステップ1103)。上述のよ
うに、“PSI”値は、文書ブロックがコラムのフォ−
マットとなっているときに、文書を順序付ける手段を提
供する。図18を参照すると、結果値テ−ブル1220
の行1212には、得られた“PSI”値が示されてい
る。例えば、文書ブロック1205は、“5”の“PS
I”値をもつ。文書ブロック1205が“5”の“PS
I”値をもつのは、ブロック1201,1203,12
04,1206,1207が文書ブロック1205の左
側にあることによる。
【0102】図16を再び参照すると、次のステップで
は、元の“PSI”値に文書ブロック数を乗算して、
“PSI”値に重み付けをする(ステップ1104)。
この重み付けは、文書ブロックの論理的な順序付けをよ
り正確に行なうのに望ましい。結果値テ−ブル1220
の行1213には、重み付けされた“PSI”値が示さ
れている。
【0103】最終的な論理的順序を決定するために、各
文書ブロックについて、重み付けされた“PSI”値を
“MU”値に加算する(ステップ1105)。加算した
結果の値は、ドキュメント上の文書ブロックの論理的順
序を非常に良好に近似したものとなっている。図16を
参照すると、次いで、重み付けされた“PSI”値と
“MU”値とのうち同じものがあるか否かを判断する
(ステップ1106)。同じ値のものがある場合には、
複数の文書ブロックが同じ論理的順序値をもつので、こ
のブロック順序は有用な情報を与えない。“MU”値に
同じものがない場合には、文書ブロックの順序付け処理
を終了する。同じ“MU”値がある場合には、文書ブロ
ックの幾何学的順序を考慮する(ステップ1107)。
なお、前述したように、幾何学的順序は、最初に計算さ
れた“TAU”値である。
【0104】図18を再び参照すると、同じ“MU”値
をもつ文書ブロックがないことは明らかである。従っ
て、ドキュメントイメ−ジ1200の文書ブロックに対
する順序付けの結果は、1203,1201,120
4,1206,1207,1202,1205となる。
この結果は、新聞や雑誌において見られるような、コラ
ムタイプのフォ−マットである。ブロックの順序付けを
完了すると、これらの文書ブロックを文字認識プログラ
ムに用い、ドキュメントペ−ジ上の文字を論理的に順序
付けすることができる。
【0105】最後に、文書ブロックを“上側,左側”と
して検出する上記基準を適用するためには、文書ブロッ
クがいま問題としている文書ブロックのどの位置よりも
明確に上側,左側の位置でなければならない。しかしな
がら、“左側”の基準は、水平方向において、1つの文
書ブロックの1/2以上が問題としている文書ブロック
の左側に位置していれば良い。
【0106】ブロックの順序付けを完了すると、区分さ
れた文書ブロック情報を文字認識用に、すなわち利用可
能な形に作成する必要がある。イメ−ジの表現を圧縮し
たときに、ブロックに対応する実際の座標アドレスを作
成する必要がある。この処理は、イメ−ジ表現を元の圧
縮されていないドキュメントイメ−ジの寸法に再び尺度
付けすることによってなされる。
【0107】図19乃至図23には本実施例のドキュメ
ントセグメンテ−ション方法の種々の処理が示されてい
る。なお、図20乃至図23はドキュメントセグメンテ
−ション処理中には実際に作成される必要がなく、ここ
では本実施例の方法を例示するために示されている。図
19はスキャニング装置に与える印刷ペ−ジのフォ−マ
ットを示す図である。図19は実際に出版された単一ペ
−ジの雑誌記事に対応している。図20乃至図23は単
一ペ−ジの雑誌記事から本実施例のシステムを用いて作
られたイメ−ジを示す図である。
【0108】図19を参照すると、ドキュメントイメ−
ジは、タイトル領域1301,サブタイトル領域130
2,著者領域1303,画像の見出し領域1307,ペ
−ジ番号領域1309,出版/日付領域1311,コラ
ム文書領域1305,1308,1310,1312,
1313に、文書を含んでいる。また、このドキュメン
トペ−ジには、画像(絵画像)領域1304,1306
も含まれている。
【0109】図20には、イメ−ジ表現が、抽出された
一組の矩形領域として示されている。各矩形領域は、
語,語の列,または画像(絵画像)に対応している。図
20では、イメ−ジがスキュ−している。しかしなが
ら、ドキュメントレイアウトの主な特徴については、こ
れを確認することができる。領域1401乃至1413
の各々は、図19の領域1301乃至1313と直接関
係付けられる(すなわち、例えば、タイトル領域130
1は領域1401に対応し、サブタイトル領域1302
は領域1402に対応している)。
【0110】図21には、スキュ−を補正した後の矩形
領域が示されている。ここで、元のドキュメントの重要
な特徴は、図19のドキュメントイメ−ジとより密接に
対応している。図21においても、領域1501乃至1
513の各々は、図19の領域1301乃至1313と
直接関係付けられる(すなわち、例えば、タイトル領域
1301は領域1501に対応し、サブタイトル領域1
302は領域1502に対応している)。
【0111】図22を参照すると、文書ラインをマ−ジ
(併合)した結果の矩形領域の分類が示されている。図
22においても、領域1601乃至1613の各々は、
図19の領域1301乃至1313と直接関係付けられ
る(すなわち、例えば、タイトル領域1301は領域1
601に対応し、サブタイトル領域1302は領域16
02に対応している)。
【0112】最後に、図23を参照すると、型“UNK
NOWN”の矩形領域がマ−ジ(併合)されて、文書ブ
ロックが形成されている。さらに、文書ブロックは、順
序付けされている。この順序は、文書ブロックの左上部
分に記されている整数値によって示されている。かくし
て、文字認識において、ドキュメントイメ−ジを文書フ
ァイルに圧縮すると、文書ファイルには、文書が指示さ
れた順序で現われる。
【0113】以上、ドキュメントイメ−ジを区分するた
めの方法について説明した。ドキュメントイメ−ジの特
徴の圧縮表現を矩形領域として得ることによって、文書
イメ−ジと文書でないイメ−ジとを正確にかつ効率良く
識別することができる。
【0114】
【発明の効果】以上に説明したように、本発明によれ
ば、スキュ−角の検出並びに補正を精度良く、かつ、装
置資源を効率良く使用して行なうことができる。
【図面の簡単な説明】
【図1】本発明の一実施例における文字認識装置におい
て使用されるコンピュータシステムを示す図である。
【図2】図1のコンピュータシステムに用いられている
ホストコンピュータを示す図である。
【図3】(a)は1つの語に対する矩形領域を示す図、
(b)は1つの文に対する矩形領域を示す図である。
【図4】ドキュメントセグメンテーションおよび分類の
全体的な処理を示すフロ−チャ−トである。
【図5】スキャンラインの圧縮の一例を示す図である。
【図6】圧縮スキャンラインからラン長さを抽出する仕
方を説明するための図である。
【図7】過去の圧縮スキャンラインと現在の圧縮スキャ
ンラインとから矩形領域を形成する仕方を説明するため
の図である。
【図8】スキュー角検出処理を概略的に示すフローチャ
ートである。
【図9】コラムエッジを検出するためのヒストグラムを
示す図である。
【図10】2つの矩形領域間の正接角を説明するための
図である。
【図11】検出された正接角のヒストグラムの一例を示
す図である。
【図12】正側に実際にスキュ−している矩形領域と、
抽出されたスキュ−していない矩形領域との間の関係を
示す図である。
【図13】負側に実際にスキュ−している矩形領域と、
抽出されたスキュ−していない矩形領域との間の関係を
示す図である。
【図14】画像の矩形領域内に含まれている文書ブロッ
クのマ−ジ(併合)を説明するための図である。
【図15】画像の矩形領域内に含まれている文書ブロッ
クのマ−ジ(併合)を説明するための図である。
【図16】文書ブロックの論理的な順序を決定するため
の処理を示すフローチャートである。
【図17】ドキュメントイメージの一例を示す図であ
る。
【図18】ブロックの論理的な順序を計算するのに用い
られる結果値テ−ブルを示す図である。
【図19】ドキュメントイメ−ジの一例を示す図であ
る。
【図20】抽出された一連の矩形領域を示す図である。
【図21】スキュ−を補正した後の矩形領域を示す図で
ある。
【図22】文書ラインをマ−ジした結果の矩形領域の分
類を示す図である。
【図23】順序付けされた文書ブロックを示す図であ
る。
【符号の説明】
101 スキャナ− 102 ホストコンピュ−タ 103 表示装置 104 文書デ−タベ−ス 105 画像デ−タベ−ス 106 入力装置 110 バス 111 演算処理手段 112 RAM 113 ROM

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 ドキュメントイメ−ジのスキュ−を補正
    するためのスキュ−補正方法であって、前記ドキュメン
    トイメ−ジの部分が矩形領域により表現されるようにな
    っている場合に、 a)ドキュメントイメ−ジの一部分を表わしている一組
    の矩形領域をスキュ−検出手段に与える工程と、 b)前記一組の矩形領域に対応するコラムおよびコラム
    エッジを検出する工程と、 c)同じコラム内にある矩形領域の組からスキュ−角を
    検出する工程と、 d)前記スキュ−角および矩形領域とから、該矩形領域
    に対応した実際のスキュ−矩形領域を構成する工程と、 e)実際のスキュ−矩形領域を前記スキュ−角に基づい
    て回転して、前記矩形領域に対するスキュ−を補正する
    工程と を有していることを特徴とするスキュ−補正方法。
  2. 【請求項2】 請求項1記載のスキュ−補正方法におい
    て、スキュ−角を検出する前記工程は、さらに、 a)前記一組の矩形領域から第1の矩形領域と第2の矩
    形領域とを受け取る工程と、 b)前記第1の矩形領域と前記第2の矩形領域として、
    同じコラムにあって所定の距離を隔てているものを検出
    する工程と、 c)前記第1の矩形領域と前記第2の矩形領域との間の
    正接角を計算する工程と、 d)前記正接角を正接角値カウンタに入力する工程と、 e)最も頻度の高い正接角を検出し、これをスキュ−角
    とする工程と を有していることを特徴とするスキュ−補正方法。
  3. 【請求項3】 請求項1記載のスキュ−補正方法におい
    て、コラムエッジを検出する前記工程は、さらに、 a)前記一組の矩形領域から1つの矩形領域を受け取る
    工程と、 b)矩形領域の所定位置のX座標値をX座標値カウンタ
    に入力する工程と、 c)最も頻度の高いX座標値を検出し、これをコラムエ
    ッジとする工程と を有していることを特徴とするスキュ−補正方法。
  4. 【請求項4】 請求項3記載のスキュ−補正方法におい
    て、矩形領域の前記所定位置は、前記矩形領域の最左上
    端点であり、前記コラムエッジは、コラムの左側エッジ
    であることを特徴とするスキュ−補正方法。
  5. 【請求項5】 請求項3記載のスキュ−補正方法におい
    て、矩形領域の前記所定位置は、矩形領域の最下右端点
    であり、前記コラムエッジは、コラムの右側エッジであ
    ることを特徴とするスキュ−補正方法。
  6. 【請求項6】 ドキュメントのスキュ−角を検出するた
    めのスキュ−角検出方法であって、前記ドキュメントが
    少なくとも1つの対象として表現されている場合に、 a)前記少なくとも1つの対象(N個の対象)をもつ組
    の位置情報をコラムエッジ検出手段に与える工程と、 b)前記少なくとも1つの対象の組についてのコラムエ
    ッジを計算する工程と、 c)前記少なくとも1つの対象の組の位置情報を正接角
    計算手段に与える工程と、 d)前記少なくとも1つの対象の組の内の全ての対象に
    ついて、所定の関係をもつ第1の対象と第2の対象との
    間の正接角を計算する工程と、 e)最も共通した正接角を前記ドキュメントのスキュ−
    角として検出する工程と を有していることを特徴とするスキュ−角検出方法。
  7. 【請求項7】 請求項6記載のスキュ−角検出方法にお
    いて、前記少なくとも1つの対象の組についてコラムエ
    ッジを計算する前記工程は、さらに、 a)前記少なくとも1つの対象の前記組の各対象の所定
    位置のX座標値をX座標カウント手段に与える工程と、 b)前記X座標カウント手段から最も共通したX座標を
    検出し、これをコラムエッジとする工程と を有していることを特徴とするスキュ−角検出方法。
  8. 【請求項8】 請求項6記載のスキュ−角検出方法にお
    いて、前記所定の関係とは、前記第1の対象と前記第2
    の対象とが同じコラムにあって、所定距離を隔てている
    ことであることを特徴とするスキュ−角検出方法。
  9. 【請求項9】 請求項6記載のスキュ−角検出方法にお
    いて、Nは“80”であることを特徴とするスキュ−角
    検出方法。
  10. 【請求項10】 ドキュメントイメ−ジの文書部分と文
    書でない部分とを判断するためのドキュメントセグメン
    テ−ションシステムであって、該ドキュメントセグメン
    テ−ションシステムがスキュ−補正手段を有しており、
    該スキュ−補正手段が、 a)前記ドキュメントイメ−ジを受け入れて、ドキュメ
    ントイメ−ジの一部分をそれぞれ表現する複数の矩形領
    域を矩形領域記憶手段に出力として与えるための矩形領
    域抽出手段と、 b)前記矩形領域記憶手段に記憶されている矩形領域の
    うち、2つ以上の矩形領域の間のスキュ−角を検出する
    ためのスキュ−角検出手段と、 c)前記スキュ−角検出手段および前記矩形領域記憶手
    段に接続されており、前記複数の矩形領域全てのスキュ
    −を補正するための矩形領域補正手段と を有していることを特徴とするドキュメントセグメンテ
    −ションシステム。
  11. 【請求項11】 請求項10記載のドキュメントセグメ
    ンテ−ションシステムにおいて、前記スキュ−角検出手
    段は、さらに、 a)前記矩形領域記憶手段から所定数の矩形領域を受け
    取って記憶するための矩形領域バッファ手段と、 b)前記矩形領域バッファ手段に接続されており、前記
    矩形領域バッファ手段に記憶されている矩形領域と関連
    したコラムエッジを検出するコラムエッジ検出手段と、 c)前記コラムエッジ検出手段および前記矩形領域バッ
    ファ手段に接続されており、第1の矩形領域と第2の矩
    形領域とが共通のコラムにあって、所定の距離を隔てて
    いることを検出する矩形領域検出手段と、 d)前記矩形領域検出手段に接続されており、前記第1
    の矩形領域と前記第2の矩形領域との間の正接角を計算
    するための正接角処理手段と、 e)前記正接角処理手段に接続されており、最も共通し
    た正接角を検出し、該正接角をスキュ−角として出力す
    るためのピ−ク角検出手段と を有していることを特徴とするドキュメントセグメンテ
    −ションシステム。
  12. 【請求項12】 請求項10記載のドキュメントセグメ
    ンテ−ションシステムにおいて、前記矩形領域補正手段
    は、 a)前記矩形領域記憶手段および前記ピ−ク角検出手段
    に接続されており、前記矩形領域記憶手段内の対応する
    矩形領域から実際にスキュ−している矩形領域を構築す
    るためのスキュ−矩形領域構築手段と、 b)前記スキュ−矩形領域構築手段に接続されており、
    前記スキュ−矩形領域構築手段によって構築された実際
    にスキュ−している矩形領域を前記スキュ−角に対応し
    た仕方で回転させ、スキュ−補正された矩形領域を出力
    するための変換手段と を有していることを特徴とするドキュメントセグメンテ
    −ションシステム。
  13. 【請求項13】 ドキュメントのスキュ−角を検出する
    スキュ−角検出装置において、前記ドキュメントが少な
    くとも1つの対象として表現されている場合に、 a)前記少なくとも1つの対象の組を記憶するための対
    象バッファ手段と、 b)前記対象バッファ手段に接続されており、前記対象
    バッファ手段内の前記対象のコラムエッジを計算するた
    めのコラムエッジ計算手段と、 c)前記コラムエッジ検出手段および前記対象バッファ
    手段に接続されており、前記対象バッファ手段に記憶さ
    れている対象のうち、同じコラムにあって、所定の距離
    を隔てている対象を検出し、出力として与えるための対
    象検出手段と、 d)前記対象検出手段に接続されており、第1の対象と
    第2の対象との間の正接角を計算し、出力として与える
    ための正接角計算手段と、 e)前記正接角計算手段に接続されており、正接角を計
    数し、最も共通した正接角をスキュ−角として検出する
    正接角計数手段と を有していることを特徴とするスキュ−角検出装置。
JP10042493A 1992-04-06 1993-04-02 スキュー補正方法およびスキュー角検出方法およびスキュー補正装置およびスキュー角検出装置 Expired - Lifetime JP3308032B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US07/863948 1992-04-06
US07/863,948 US5452374A (en) 1992-04-06 1992-04-06 Skew detection and correction of a document image representation

Publications (2)

Publication Number Publication Date
JPH0652354A true JPH0652354A (ja) 1994-02-25
JP3308032B2 JP3308032B2 (ja) 2002-07-29

Family

ID=25342175

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10042493A Expired - Lifetime JP3308032B2 (ja) 1992-04-06 1993-04-02 スキュー補正方法およびスキュー角検出方法およびスキュー補正装置およびスキュー角検出装置

Country Status (3)

Country Link
US (2) US5452374A (ja)
JP (1) JP3308032B2 (ja)
DE (1) DE4311172C2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0846761A (ja) * 1994-07-28 1996-02-16 Kyushu Nippon Denki Software Kk 画像入力方法とその装置
US5563403A (en) * 1993-12-27 1996-10-08 Ricoh Co., Ltd. Method and apparatus for detection of a skew angle of a document image using a regression coefficient
JP2002541598A (ja) * 1999-04-08 2002-12-03 リットン・システムズ・インコーポレーテッド フーリエ変換の相関による回転の修正および重複イメージの識別
JP2009252115A (ja) * 2008-04-09 2009-10-29 Fuji Xerox Co Ltd 画像抽出装置、及び画像抽出プログラム
US7729536B2 (en) 2004-03-30 2010-06-01 Fujitsu Limited Boundary extracting method, program, and device using the same
US8064729B2 (en) 2008-04-03 2011-11-22 Seiko Epson Corporation Image skew detection apparatus and methods
US11835833B2 (en) 2017-04-27 2023-12-05 Lg Chem, Ltd. Electrochromic device

Families Citing this family (101)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06259597A (ja) * 1993-03-09 1994-09-16 Ricoh Co Ltd ドキュメントイメージ処理方法並びに文字認識システムおよびドキュメントイメージ処理装置
EP0677818B1 (en) * 1994-04-15 2000-05-10 Canon Kabushiki Kaisha Image pre-processor for character recognition system
US5528387A (en) * 1994-11-23 1996-06-18 Xerox Corporation Electronic image registration for a scanner
JP3727971B2 (ja) * 1995-02-01 2005-12-21 キヤノン株式会社 文書処理装置、及び文書処理方法
JP4114959B2 (ja) * 1995-06-20 2008-07-09 キヤノン株式会社 画像処理方法及び装置
JPH09222824A (ja) 1996-02-19 1997-08-26 Toshiba Corp 画像処理装置
US5867612A (en) * 1996-03-27 1999-02-02 Xerox Corporation Method and apparatus for the fast scaling of an image
US5901253A (en) * 1996-04-04 1999-05-04 Hewlett-Packard Company Image processing system with image cropping and skew correction
DE19700352A1 (de) * 1997-01-08 1998-07-09 Heidelberger Druckmasch Ag Verfahren zur Bestimmung der Geometriedaten des relevanten Bildausschnitts
DE19700318A1 (de) * 1997-01-08 1998-07-09 Heidelberger Druckmasch Ag Verfahren zur Bestimmung der Geometriedaten von Abtastvorlagen
JP2836681B2 (ja) * 1997-01-14 1998-12-14 日本電気株式会社 パタンマッチング符号化方法及び符号化装置
JP3099771B2 (ja) * 1997-05-07 2000-10-16 日本電気株式会社 文字認識方法、装置及び文字認識プログラムを記録した記録媒体
JP3013808B2 (ja) * 1997-05-19 2000-02-28 日本電気株式会社 解像度変換方法およびこれを用いた表示制御装置
GB9711022D0 (en) 1997-05-28 1997-07-23 Rank Xerox Ltd Text/image selection from document images
JP3675629B2 (ja) * 1997-08-04 2005-07-27 株式会社リコー パターン認識方法、装置および記録媒体
US6101290A (en) * 1997-10-24 2000-08-08 Texas Instruments Incorporated Bandwidth efficient image transformations on a multiprocessor
US6009198A (en) * 1997-11-21 1999-12-28 Xerox Corporation Method for matching perceptual shape similarity layouts across multiple 2D objects
JP4170441B2 (ja) 1997-11-28 2008-10-22 富士通株式会社 文書画像傾き検出装置および文書画像傾き検出プログラムの記憶媒体
US6298157B1 (en) * 1998-02-27 2001-10-02 Adobe Systems Incorporated Locating and aligning embedded images
US6360026B1 (en) 1998-03-10 2002-03-19 Canon Kabushiki Kaisha Method for determining a skew angle of a bitmap image and de-skewing and auto-cropping the bitmap image
US6310984B2 (en) * 1998-04-09 2001-10-30 Hewlett-Packard Company Image processing system with image cropping and skew correction
US6818437B1 (en) * 1998-05-16 2004-11-16 Applera Corporation Instrument for monitoring polymerase chain reaction of DNA
KR100264331B1 (ko) * 1998-05-26 2000-08-16 윤종용 원고 비틀림 보정 장치 및 방법
KR100607018B1 (ko) 1998-06-23 2006-08-01 샤프 가부시키가이샤 화상 처리 장치, 화상 처리 방법 및 화상 처리 프로그램을기록한 매체
US6741743B2 (en) * 1998-07-31 2004-05-25 Prc. Inc. Imaged document optical correlation and conversion system
US6188801B1 (en) * 1998-08-31 2001-02-13 Jenn-Tsair Tsai Method and apparatus for automatic image calibration for an optical scanner
US6490376B1 (en) * 1998-09-17 2002-12-03 Metrologic Instruments, Inc. Skew processing of raster scan images
US20010022674A1 (en) * 1998-09-23 2001-09-20 Xerox Corporation Electronic image registration for a scanner
US6381371B1 (en) 1999-03-17 2002-04-30 Hewlett-Packard Company Method and apparatus for processing image files
JP2000341501A (ja) * 1999-03-23 2000-12-08 Minolta Co Ltd 画像処理装置および画像処理方法、ならびに画像処理プログラムを記録した記録媒体
JP4450888B2 (ja) * 1999-05-28 2010-04-14 富士通株式会社 帳票認識方法
US6674919B1 (en) * 1999-09-21 2004-01-06 Matsushita Electric Industrial Co., Ltd. Method for determining the skew angle of a two-dimensional barcode
JP4401560B2 (ja) * 1999-12-10 2010-01-20 キヤノン株式会社 画像処理装置、画像処理方法、及び記憶媒体
US6718059B1 (en) * 1999-12-10 2004-04-06 Canon Kabushiki Kaisha Block selection-based image processing
JP2001331805A (ja) * 2000-05-19 2001-11-30 Ricoh Co Ltd 上半円画像検出方法
JP4603658B2 (ja) * 2000-07-07 2010-12-22 キヤノン株式会社 画像処理装置及び画像処理方法並びに記憶媒体
US7898695B1 (en) 2000-10-06 2011-03-01 Lexmark International, Inc. Method of compensating for electronic printhead skew and bow correction in an imaging machine to reduce print artifacts
US20030038993A1 (en) * 2001-08-24 2003-02-27 Jen-Shou Tseng Automatic document-scanning method for scanner
US6970607B2 (en) * 2001-09-05 2005-11-29 Hewlett-Packard Development Company, L.P. Methods for scanning and processing selected portions of an image
US6985640B2 (en) * 2002-01-07 2006-01-10 Xerox Corporation Parallel non-iterative method of determining and correcting image skew
JP2003259110A (ja) * 2002-02-28 2003-09-12 Fujitsu Ltd 画像結合装置、その方法、プログラム
US7362480B2 (en) * 2002-04-24 2008-04-22 Transpacific Ip, Ltd. Method and system for changing a scanning resolution
US7068855B2 (en) * 2002-07-16 2006-06-27 Hewlett-Packard Development Company, L.P. System and method for manipulating a skewed digital image
US7027666B2 (en) * 2002-10-01 2006-04-11 Eastman Kodak Company Method for determining skew angle and location of a document in an over-scanned image
US7142727B2 (en) * 2002-12-17 2006-11-28 Xerox Corporation Non-iterative method of calculating image skew
JP3903932B2 (ja) * 2003-03-06 2007-04-11 セイコーエプソン株式会社 画像読み取り制御装置およびプログラム
US7305612B2 (en) * 2003-03-31 2007-12-04 Siemens Corporate Research, Inc. Systems and methods for automatic form segmentation for raster-based passive electronic documents
TWI267800B (en) * 2003-06-13 2006-12-01 Lite On Technology Corp Automatic correction method of tilted image
KR100580183B1 (ko) * 2004-01-09 2006-05-15 삼성전자주식회사 스캔영역의 좌우 위치 보정 방법 및 장치
TWI238645B (en) * 2004-06-08 2005-08-21 Benq Corp Titled angle detection for document image deskew
US20060098243A1 (en) * 2004-11-08 2006-05-11 Lexmark International, Inc. Determining a gray background value and/or skew of a scanned document
US8555154B2 (en) * 2005-07-07 2013-10-08 Shutterfly, Inc. Flexible methods for creating photobooks
US20080311551A1 (en) * 2005-08-23 2008-12-18 Mazer Corporation, The Testing Scoring System and Method
JP4615462B2 (ja) * 2006-03-15 2011-01-19 株式会社リコー 画像処理装置、画像形成装置、プログラムおよび画像処理方法
US8213687B2 (en) * 2006-04-28 2012-07-03 Hewlett-Packard Development Company, L.P. Image processing methods, image processing systems, and articles of manufacture
US7840071B2 (en) * 2006-12-12 2010-11-23 Seiko Epson Corporation Method and apparatus for identifying regions of different content in an image
DE102006059659B4 (de) * 2006-12-18 2009-12-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung, Verfahren und Computerprogramm zur Erkennung von Schriftzeichen in einem Bild
US7903876B2 (en) * 2007-02-27 2011-03-08 Seiko Epson Corporation Distortion correction of a captured image
US7873216B2 (en) * 2007-02-27 2011-01-18 Seiko Epson Corporation Distortion correction of a scanned image
US8139897B2 (en) * 2007-03-15 2012-03-20 Ricoh Company, Limited Detecting tilt in an image having different resolutions in different directions
JP4804433B2 (ja) * 2007-08-21 2011-11-02 キヤノン株式会社 画像処理装置、画像処理方法、及び、画像処理プログラム
JP5076744B2 (ja) * 2007-08-30 2012-11-21 セイコーエプソン株式会社 画像処理装置
JP4957463B2 (ja) * 2007-08-30 2012-06-20 セイコーエプソン株式会社 画像処理装置
US8548267B1 (en) 2007-09-28 2013-10-01 Amazon Technologies, Inc. Processing a digital image of content using content aware despeckling
US20090086275A1 (en) * 2007-09-28 2009-04-02 Jian Liang Processing a digital image of content
US8731297B1 (en) 2007-09-28 2014-05-20 Amazon Technologies, Inc. Processing a digital image of content to remove border artifacts
US8108764B2 (en) * 2007-10-03 2012-01-31 Esker, Inc. Document recognition using static and variable strings to create a document signature
US8121441B2 (en) * 2007-10-26 2012-02-21 Murata Machinery, Ltd. Image processing apparatus, image scanning apparatus, image processing method, and image processing program
US8838489B2 (en) 2007-12-27 2014-09-16 Amazon Technologies, Inc. On-demand generating E-book content with advertising
TW200928999A (en) * 2007-12-28 2009-07-01 Altek Corp Automatic validation method of business card imaging angle
US20090208055A1 (en) * 2008-02-20 2009-08-20 Lockheed Martin Corporation Efficient detection of broken line segments in a scanned image
US9547799B2 (en) * 2008-07-17 2017-01-17 Sharp Laboratories Of America, Inc. Methods and systems for content-boundary detection
US8160393B2 (en) * 2008-09-18 2012-04-17 Certifi Media Inc. Method for image skew detection
US8620080B2 (en) * 2008-09-26 2013-12-31 Sharp Laboratories Of America, Inc. Methods and systems for locating text in a digital image
US8249343B2 (en) * 2008-10-15 2012-08-21 Xerox Corporation Representing documents with runlength histograms
US9626603B2 (en) * 2008-12-18 2017-04-18 Xerox Corporation Method and system for utilizing transformation matrices to process rasterized image data
US9626602B2 (en) * 2008-12-18 2017-04-18 Xerox Corporation Method and system for utilizing transformation matrices to process rasterized image data
US9508168B2 (en) * 2008-12-18 2016-11-29 Xerox Corporation Method and system for utilizing transformation matrices to process rasterized image data
KR101621848B1 (ko) * 2009-12-14 2016-06-01 삼성전자주식회사 화상처리장치 및 방법
US8873864B2 (en) * 2009-12-16 2014-10-28 Sharp Laboratories Of America, Inc. Methods and systems for automatic content-boundary detection
US9898776B2 (en) 2010-09-24 2018-02-20 Amazon Technologies, Inc. Providing services related to item delivery via 3D manufacturing on demand
US9684919B2 (en) 2010-09-24 2017-06-20 Amazon Technologies, Inc. Item delivery using 3D manufacturing on demand
US9672550B2 (en) 2010-09-24 2017-06-06 Amazon Technologies, Inc. Fulfillment of orders for items using 3D manufacturing on demand
US8412588B1 (en) 2010-09-24 2013-04-02 Amazon Technologies, Inc. Systems and methods for fabricating products on demand
US9858604B2 (en) 2010-09-24 2018-01-02 Amazon Technologies, Inc. Vendor interface for item delivery via 3D manufacturing on demand
CN103310212A (zh) * 2012-03-14 2013-09-18 鸿富锦精密工业(深圳)有限公司 图像文件处理***及方法
US20150139559A1 (en) * 2012-09-14 2015-05-21 Google Inc. System and method for shape clustering using hierarchical character classifiers
KR102058267B1 (ko) * 2013-11-14 2019-12-20 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 생산성 애플리케이션의 이미지 처리 기법
US9659230B2 (en) * 2015-08-20 2017-05-23 Xerox Corporation Methods and systems for estimating skew angle of an image
US9894227B2 (en) * 2015-12-09 2018-02-13 Ricoh Company, Ltd. Information processing apparatus, information processing system, information processing method, and computer program product
CN105704374B (zh) * 2016-01-29 2019-04-05 努比亚技术有限公司 一种图像转换装置、方法和终端
US10308430B1 (en) 2016-12-23 2019-06-04 Amazon Technologies, Inc. Distribution and retrieval of inventory and materials using autonomous vehicles
US10310499B1 (en) 2016-12-23 2019-06-04 Amazon Technologies, Inc. Distributed production of items from locally sourced materials using autonomous vehicles
US10310500B1 (en) 2016-12-23 2019-06-04 Amazon Technologies, Inc. Automated access to secure facilities using autonomous vehicles
CN110198842B (zh) 2017-01-31 2021-01-12 惠普发展公司,有限责任合伙企业 基于直接存储器访问的硬件偏斜校正
US10147249B1 (en) 2017-03-22 2018-12-04 Amazon Technologies, Inc. Personal intermediary communication device
US10573106B1 (en) 2017-03-22 2020-02-25 Amazon Technologies, Inc. Personal intermediary access device
US11392130B1 (en) 2018-12-12 2022-07-19 Amazon Technologies, Inc. Selecting delivery modes and delivery areas using autonomous ground vehicles
US11260970B2 (en) 2019-09-26 2022-03-01 Amazon Technologies, Inc. Autonomous home security devices
US10796562B1 (en) 2019-09-26 2020-10-06 Amazon Technologies, Inc. Autonomous home security devices
JP2021054538A (ja) * 2019-09-26 2021-04-08 京セラドキュメントソリューションズ株式会社 原稿検査装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4736437A (en) * 1982-11-22 1988-04-05 View Engineering, Inc. High speed pattern recognizer
US4558461A (en) * 1983-06-17 1985-12-10 Litton Systems, Inc. Text line bounding system
US4829452A (en) * 1984-07-05 1989-05-09 Xerox Corporation Small angle image rotation using block transfers
US5191642A (en) * 1987-04-09 1993-03-02 General Electric Company Method for efficiently allocating computer resource for real time image generation
JPS63268081A (ja) * 1987-04-17 1988-11-04 インタ−ナショナル・ビジネス・マシ−ンズ・コ−ポレ−ション 文書の文字を認識する方法及び装置
US5131053A (en) * 1988-08-10 1992-07-14 Caere Corporation Optical character recognition method and apparatus
US5054098A (en) * 1990-05-21 1991-10-01 Eastman Kodak Company Method of detecting the skew angle of a printed business form
JPH04248687A (ja) * 1991-01-23 1992-09-04 Internatl Business Mach Corp <Ibm> 文書画像のレイアウト解析方法及びシステム
US5285504A (en) * 1991-09-27 1994-02-08 Research Foundation Of The State University Of New York Page segmentation with tilt compensation
US5321770A (en) * 1991-11-19 1994-06-14 Xerox Corporation Method for determining boundaries of words in text

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5563403A (en) * 1993-12-27 1996-10-08 Ricoh Co., Ltd. Method and apparatus for detection of a skew angle of a document image using a regression coefficient
JPH0846761A (ja) * 1994-07-28 1996-02-16 Kyushu Nippon Denki Software Kk 画像入力方法とその装置
JP2002541598A (ja) * 1999-04-08 2002-12-03 リットン・システムズ・インコーポレーテッド フーリエ変換の相関による回転の修正および重複イメージの識別
US7729536B2 (en) 2004-03-30 2010-06-01 Fujitsu Limited Boundary extracting method, program, and device using the same
US8064729B2 (en) 2008-04-03 2011-11-22 Seiko Epson Corporation Image skew detection apparatus and methods
JP2009252115A (ja) * 2008-04-09 2009-10-29 Fuji Xerox Co Ltd 画像抽出装置、及び画像抽出プログラム
JP4525787B2 (ja) * 2008-04-09 2010-08-18 富士ゼロックス株式会社 画像抽出装置、及び画像抽出プログラム
US11835833B2 (en) 2017-04-27 2023-12-05 Lg Chem, Ltd. Electrochromic device

Also Published As

Publication number Publication date
US5452374A (en) 1995-09-19
DE4311172A1 (de) 1993-10-14
JP3308032B2 (ja) 2002-07-29
US5854854A (en) 1998-12-29
DE4311172C2 (de) 1996-03-28

Similar Documents

Publication Publication Date Title
JP3308032B2 (ja) スキュー補正方法およびスキュー角検出方法およびスキュー補正装置およびスキュー角検出装置
US5335290A (en) Segmentation of text, picture and lines of a document image
CN111814722B (zh) 一种图像中的表格识别方法、装置、电子设备及存储介质
US5410611A (en) Method for identifying word bounding boxes in text
KR100390264B1 (ko) 폼처리중자동페이지등록및자동영역검출을위한시스템및방법
US5539841A (en) Method for comparing image sections to determine similarity therebetween
US6574375B1 (en) Method for detecting inverted text images on a digital scanning device
US6173073B1 (en) System for analyzing table images
US5033104A (en) Method for detecting character strings
US6009196A (en) Method for classifying non-running text in an image
JP3278471B2 (ja) 領域分割方法
US6006240A (en) Cell identification in table analysis
JP2001297303A (ja) 文書画像認識方法、装置及びコンピュータ読み取り可能な記録媒体
US9430703B2 (en) Method for segmenting text words in document images using vertical projections of center zones of characters
JPH08305803A (ja) 文字テンプレートセット学習マシン動作方法
JPH03260787A (ja) テキスト又は線図形を識別する方法及びデジタル処理システム
US10423851B2 (en) Method, apparatus, and computer-readable medium for processing an image with horizontal and vertical text
EP1017011A2 (en) Block selection of table features
JPH11345339A (ja) 画像セグメンテ―ション方法及び装置及びシステム及びコンピュ―タ可読メモリ
US5923782A (en) System for detecting and identifying substantially linear horizontal and vertical lines of engineering drawings
JP3187895B2 (ja) 文字領域抽出方法
JP3406942B2 (ja) 画像処理装置及び方法
JPH0830725A (ja) 画像処理装置及び方法
JPH06259597A (ja) ドキュメントイメージ処理方法並びに文字認識システムおよびドキュメントイメージ処理装置
JP2024096597A (ja) 画像処理装置、画像処理方法、及びプログラム

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080517

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090517

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100517

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110517

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120517

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120517

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130517

Year of fee payment: 11