JPH0652354A

JPH0652354A - スキュー補正方法並びにスキュー角検出方法並びにドキュメントセグメンテーションシステムおよびスキュー角検出装置

Info

Publication number: JPH0652354A
Application number: JP5100424A
Authority: JP
Inventors: Koichi Ejiri; 公一江尻; Efu Karen Jiyon; エフ．カレンジョン
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1992-04-06
Filing date: 1993-04-02
Publication date: 1994-02-25
Anticipated expiration: 2017-07-29
Also published as: US5452374A; DE4311172A1; JP3308032B2; US5854854A; DE4311172C2

Abstract

(57)【要約】【目的】スキュー角の検出並びに補正を、精度良
く、かつ、装置資源を効率良く使用して行なうことが可
能である。【構成】本発明におけるスキュー角検出は、一般に
ドキュメントイメージを表現している関連した一組の矩
形領域を与える工程と、該一組の矩形領域と関連したコ
ラムエッジを検出する工程と、上記関連した一組の矩形
領域から、同じコラムにあって、適当に離れている矩形
領域を検出して比較する工程と、検出された矩形領域間
の正接（タンジェント）角を計算し、最も共通した正接
角をスキュー角として検出する工程とを有している。ま
た、上記スキュー角を使用する本発明のスキュー補正
は、一般に、抽出された矩形領域から、これと対応した
実際のスキュー矩形領域を形成し、実際のスキュー矩形
領域のそれぞれを上記スキュー角に基づき原点の周りに
回転させる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、文字認識システムの分
野に関し、特に、ドキュメントセグメンテ−ションに関
連して使われるスキュ−角を識別し、修正する方法に関
する。

【０００２】

【従来の技術】印刷ドキュメントペ−ジからコンピュ−
タシステム上の文書ファイルを作成するのに光学的文字
認識技術を用いることができて、作成された文書ファイ
ルをコンピュ−タシステム上で文書編集したり、ワ−ド
処理したりすることができる。新聞や雑誌の記事のよう
に、ドキュメントペ−ジが文書と画像によって構成され
ていたり、あるいは、文書がコラム（欄）をなしている
ときに、文字認識に先立つ重要なステップが、ドキュメ
ントセグメンテ−ションである。ドキュメントセグメン
テ−ションとは、ドキュメントイメ−ジの様々な文書や
画像や線分の部分を識別することである。文書ファイル
に変換できるのは、ドキュメントイメ−ジの文書の部分
だけであるので、文字認識を文書のあるドキュメントの
領域のみに制限し、文書の各部分を文書ファイルに挿入
するための順序付けをするのが望ましい。文書ファイル
の順序付けは、原文に論理的に対応しない文書ファイル
が作成されるのを避けるのに好ましい。

【０００３】

【発明が解決しようとする課題】全てのドキュメントセ
グメンテ−ションシステムが直面する難しい問題は、ス
キューである。スキュ−は、ドキュメントの表現が実際
のドキュメントページイメージ上の文書の水平線を正し
く表わしていないときに生じる。スキューは、ドキュメ
ントイメージの文字認識に先だって、修正されなければ
ならない。スキュー修正には、一般に、スキュー角の測
定と、スキュー角に基づいたドキュメントイメージ表現
の変更とが必要である。スキュー角測定に関して、第１
の既知の方法は、Ｈｏｕｇｈ変換に基づくものである。
Ｈｏｕｇｈ変換では、ドキュメントのビットマップイメ
ージを極座標空間に変換し、極座標における極大値を識
別することにより、そのときの極座標角度からスキュー
の角度を直接得ることができる。しかしながら、Ｈｏｕ
ｇｈ変換法は、かなり長い計算時間を要し、かつスキュ
ー角に対して感度が十分ではない。

【０００４】第２の既知の方法は、著者「H.S.Baird」
による文献「印刷ドキュメントのスキュ−,Proceeding
SPSE 40th Conference Symposium Hybrid Imaging Syst
ems,Rochester, New York, 1987年5月,第２１−２４
頁）」に示されている。この第２の方法においては、原
ドキュメントイメージを２次元フーリエ変換した後、極
座標に投射し、投射した値の最大値をスキュー角として
求める。この方法は、２分（角度１度の２／６０）まで
の高い精度を出すことが知られているが、この方法もま
た、非常に長い処理時間を要する。

【０００５】本発明は、スキュー角の検出並びに補正
を、精度良く、かつ、装置資源を効率良く使用して行な
うことの可能な装置および方法を提供することを目的と
している。

【０００６】

【課題を解決するための手段および作用】本発明は、ド
キュメントイメージにおけるスキューの検出方法および
装置と、スキューの補正の方法および装置とに関するも
のである。スキューの補正には、スキュー角を計算する
ことが必要であり、本発明においては、実際の画素デー
タではなく、ドキュメントイメージのデータ表現すなわ
ち矩形領域に基づいてスキュー角を決定することによ
り、スキュー角をより短い計算時間で正確に決定するこ
とができる。さらに、間隔の短かい矩形領域を無視する
ことで、スキュー角を急峻なピークと高い精度で検出す
ることができる。

【０００７】本発明におけるスキュー角検出は、一般に
ドキュメントイメージを表現している関連した一組の矩
形領域を与える工程と、該一組の矩形領域と関連したコ
ラムエッジを検出する工程と、上記関連した一組の矩形
領域から、同じコラムにあって、適当に離れている矩形
領域を検出して比較する工程と、検出された矩形領域間
の正接（タンジェント）角を計算し、最も共通した正接
角をスキュー角として検出する工程とを有している。

【０００８】また、上記スキュー角を使用する本発明の
スキュー補正は、一般に、抽出された矩形領域から、こ
れと対応した実際のスキュー矩形領域を形成し、実際の
スキュー矩形領域のそれぞれを上記スキュー角に基づき
原点の周りに回転させる。

【０００９】

【実施例】本発明は、ドキュメントセグメンテーション
システムの一部に適用されるものであり、ドキュメント
イメ−ジにおけるスキューを補正するための方法および
装置に関するものである。本発明全体を理解させるた
め、以下では、データ構造のような詳細な部分について
も説明がなされている。しかしながら、当業者にとっ
て、このような詳細な部分がなくても本発明を実施しう
ることは明らかであろう。また、本実施例と関連する良
く知られた技術，例えばイメージスキャニング技術や文
字認識の詳細については、本発明と直接関係しないので
省略する。

【００１０】本実施例のドキュメントセグメンテーショ
ンシステムは、光学的文字認識システムにおいて用いら
れている。このような光学的文字認識システムは、３つ
の基本的な部分，すなわち走査部とセグメント部（区分
化部）と文字認識部とに分けることができる。走査部
は、例えば光学的スキャナーであって、ドキュメントイ
メ−ジのビットマップ表現を作成する。このビットマッ
プイメ−ジは、適当な処理手段によって解釈され操作さ
れうる論理ビット値の集合としてのドキュメントの表現
である。このような走査部は市販されており、例えば３
００ＤＰＩ等、種々の走査解像度のものなどが用意され
ている。走査解像度は、後述のように、ドキュメントセ
グメンテーション法で使用されるある閾値を決定するた
めのパラメータとなる。また、文字認識部では、ビット
マップ表現を対応する文字や記号に解釈する文字認識が
なされる。ここで、文字認識の方法としては、テンプレ
ートマッチングや形状分析等の種々の方法が知られてい
る。また、文字認識は、かなりの処理時間を必要とする
ことが知られている。

【００１１】また、セグメント部では、ドキュメントイ
メ−ジにおける個々のブロックの識別と分類を行なうド
キュメントセグメンテーションがなされる。ドキュメン
トセグメンテーションは、イメ−ジのビットマップ表現
の解析に基づいてなされる。ドキュメントセグメンテー
ションは、ドキュメント上の文書の領域を画像領域（す
なわち、文書でない領域）から区別するのに重要であ
る。本実施例のドキュメントセグメンテーションシステ
ムでは、テストマップイメ−ジ中に座標アドレスを付
し、文書のブロックを識別して文字認識部に与える。こ
れによって、文字認識部は、文書でないドキュメントイ
メ−ジの部分を無視することができ、文字認識部で処理
しなければならないデータ量を減少させることができ
る。

【００１２】図１には、光学的文字認識を行なうコンピ
ュータシステムが示されている。このような光学的文字
認識システムは、スキャナー１０１と、中央演算処理装
置（ＣＰＵ）をもつホストコンピュータ１０２と、表示
装置１０３と、キーボードのような入力装置１０６とを
有している。ドキュメントのビットマップ表現は、スキ
ャナー１０１によって作成される。また、文字認識処理
が終了した後、文書ファイルが作成され、ホストコンピ
ュータ１０２に接続された文書データベース１０４にセ
ーブされる。また、表示装置１０３は、セグメンテーシ
ョンの結果を確認するのに使用される。さらに、図１に
は、画像データベース１０５が示されている。本実施例
において、着目すべきは、文書として識別された部分
は、解釈されて文書データベース１０４に格納される一
方で、画像として識別された部分は、画像データベース
１０５に格納される点である。

【００１３】図２は、図１のホストコンピュータ１０２
をより詳細に示す図である。図２のホストコンピュータ
は、情報を伝達するためのバスあるいは他の情報伝達手
段１１０と、演算処理手段１１１（例えば処理情報を伝
えるバス１１０に接続されており、情報を処理するため
の中央演算処理装置（ＣＰＵ））と、バス１１０と接続
され、ＣＰＵ１１１用の情報および命令を記憶するため
のランダムアクセスメモリ（ＲＡＭ）または他の記憶装
置１１２（一般に主メモリと呼ばれる）と、バス１１０
に接続されＣＰＵ１１１用の固定的な情報および命令を
記憶するためのリードオンリーメモリ（ＲＯＭ）または
他の固定的記憶装置１１３とを有している。ＣＰＵ１１
１は、ドキュメントのビットマップ表現に対して本実施
例のセグメンテーション機能および分類機能を作用させ
るのに用いられる。後でより詳細に述べるように、これ
らの機能には、スキャンラインの圧縮，ラン長さの抽出
および分類，矩形領域の構築および分類，スキューの検
出および補正，矩形領域のマ−ジ（併合）と文書ブロッ
クの順序付けとが含まれている。

【００１４】また、バス１１０には、データ記憶装置１
１４（例えば磁気または光学的ディスクおよびディスク
ドライブ）が接続されている。データ記憶装置１１４
は、命令，パラメーター情報，矩形領域情報および他の
データを記憶するのに使用され、デ−タ記憶装置１１４
には、本実施例のセグメンテーション方法に使用される
図１の文書データベース１０４と画像データベース１０
５とが含まれている。

【００１５】本発明の方法において、境界矩形領域は、
ドキュメントの特徴を表わすのに用いられる。境界矩形
領域は、パターン（例えば１つの語）の境界を画定す
る。図３（ａ）を参照すると、矩形領域２２０は、語
“ｈｏｕｓｅ”２２１に対する１つの空間的境界を与え
る。図３（ｂ）を参照すると、矩形領域２３０は、文
“Ｔｈｅｈｏｕｓｅｉｓｗｈｉｔｅ”２３１に対
する１つの空間的境界を与える。これらの矩形領域がど
のように処理されるかについて方法すなわち特徴を次に
説明する。

【００１６】図４には、イメージのセグメンテーション
および分類の全体的な処理方法が示されている。なお、
図４に示されている各ステップは、ここでは簡単に説明
し、後でより詳細に説明する。図４を参照すると、先
ず、ドキュメントのビットマップ表現を作成する（ステ
ップ２０１）。ここで、ビットマップ表現は、図１のス
キャナー１０１から作成されても良いし、あるいは、ド
キュメントのビットマップ表現を与える他の手段により
作成されても良い。ドキュメントのビットマップ表現の
作成方法は、当該分野で知られているので、ここでは詳
述しない。ビットマップ表現は、イメージの部分に対応
するスキャンラインからなっている。従って、全体の表
現は、所定数のスキャンラインを有しており、通常、走
査部の解像度によりビットマップ表現が定まる。次い
で、ドキュメント（イメ−ジ）の表現を圧縮する（ステ
ップ２０２）。この圧縮処理により、余分なデータをよ
り効率的に表現し、ドキュメントを表現するのに使用さ
れるデータ量を一般に低減することができる。処理され
るのに必要なデータを低減することによって必要なメモ
リーを少なくすることができ、また、処理時間をも短縮
することができる。ステップ２０２の出力は、圧縮され
たスキャンラインの集合である。

【００１７】上記のように圧縮されたスキャンラインか
らラン長さを抽出し、分類する（ステップ２０３）。こ
こで、ラン長さとは、スキャンライン上の連続した黒画
素の長さである。ビットマップ表現においては、ラン長
さは、論理値１のビットの連続した長さである。ステッ
プ２０３と一緒にまたはステップ２０３と関連させて、
矩形領域の構築と初期的分類とを行なう（ステップ２０
４）。上述したように、矩形領域は、ドキュメントの互
いに異なるブロックを識別するのに用いられる。着目す
べきは、矩形領域は、これらが作成されるときに、先
ず、初期分類がなされることである。全ての矩形領域を
作成し、初期分類すると、ある矩形領域は縦線として、
誤分類されることがわかった。従って、分類されたある
縦線については、これを再分類しなければならない（ス
テップ２０５）。ステップ２０５をステップ２０４に併
合しうることは、当業者にとって明らかであるが、この
２つのステップを分離することによって、より効率的な
処理が可能となる。

【００１８】次いで、スキュー検出とスキュー角の計算
とを行なう（ステップ２０６）。ドキュメントにおける
スキューの見積りは、語（ｗｏｒｄｓ）を表現している
対象，すなわち矩形領域を解析することによりなされ
る。また、このスキューの見積りは、マ−ジ（併合）処
理の初期の段階においてなされる。スキューの見積り
は、セグメンテーション処理に対してのみならず、イメ
ージのそのままのコピーを用いる他の処理，例えば文字
認識処理に対しても重要である。スキューが検出され、
スキュー角が計算されると、ドキュメントの特徴を表わ
している矩形領域に対してスキュー補正を行なう（ステ
ップ２０７）。ドキュメント表現のスキュー補正がなさ
れた後は、再び、誤認識された矩形領域をいくつかのデ
ータに基づいて再分類する必要がある（ステップ２０
８）。この処理は、矩形領域の特徴を所定の規則の組と
照合することによってなされる。再分類のステップを終
了すると、関連した文書の矩形領域をマ−ジ（併合）し
て文書ブロックを作成する（ステップ２０９）。なお、
ステップ２０９の処理において、関連した矩形領域は
“ＵＮＫＮＯＷＮ”型として予め識別される。これらの
文書ブロックは、ドキュメント上で画像（絵画像）と分
離することのできる文書のコラムである。次のステップ
として、イメ−ジ領域内の文書矩形領域をマ−ジする
（ステップ２１０）。最後に、この文書ブロックを論理
的に順序付ける必要がある（ステップ２１１）。文書ブ
ロックを論理的に順序付けることは、ドキュメントのレ
イアウトに対応した順序の文書の文書ファイルの作成を
容易にする上で望ましい。

【００１９】本実施例のコンピュータシステムにおいて
なされるようなこのドキュメントセグメンテーション法
は、早い処理速度を維持するのと同時に、システムメモ
リーの使用量を最小限にする。さらに、この方法は、ド
キュメントセグメンテーションと領域の分類に対して、
非常に高い精度を維持している。ドキュメントセグメン
テーションの全体的な方法には、一般に、ボトム−アッ
プ手法を使用することができる。すなわち、先ず、ドキ
ュメントのありのままの本質的な形を含んだデータ集合
にビットマップ表現を縮小する。次いで、縮小されたド
キュメントイメージから対象（ラン長さと矩形領域）を
抽出する。すなわち、隣接黒画素の集合の基礎的なレベ
ルからマ−ジ作業を開始し、文書のコラム，画像（絵画
像），線などを表現する対象までマ−ジ作業を徐々に行
なうことによって対象（ラン長さと矩形領域）を抽出す
る。対象の分類は、マ−ジ処理全体を通して行なわれ
る。

【００２０】また、本発明の方法の特定の部分，すなわ
ち矩形領域の分類処理，マ−ジ処理，ブロックの順序付
け処理には、トップ−ダウン法が使用される。規則ル−
ルには、一般のドキュメントについてのページレイアウ
トから構築されたものが使用される。例えば、英語にお
いては、複数の語を結合して行として知られる対象を形
成し、複数の行を結合してコラムとして知られる対象を
形成する。コラムにおけるブロックは、上から下へ順序
付けられ、コラムは左から右へ順序付けられる。

【００２１】本発明の方法がドキュメントの中間調の画
像やグラフィックスの部分を効率的に分類することも特
筆すべきことである。中間調の画像あるいはグラフィッ
クスは、ドキュメントの対応する部分に生成された矩形
領域のサイズに基づいて、ドキュメント上で識別され
る。高い圧縮率を用いると、精細部がマ−ジされる。ラ
ン長さのサイズ分布は、矩形領域の境界内に含まれてい
るので、矩形領域の境界サイズとそのラン長さのサイズ
の分布の特徴とに基づいて、分類を行なうことができ
る。

【００２２】セグメンテーション用にドキュメントのビ
ットマップ表現を圧縮すれば、より高速な処理が容易と
なる。本実施例における圧縮技術により、ドキュメント
を表現するのに使われる実際のデータ量は、１／４に減
少する。しかしながら、処理されるのに必要なデ−タ量
については、１／３２に減少する。この圧縮技術は、ビ
ットに論理ＯＲ演算を用いて、４本の水平スキャンライ
ンを１本の圧縮スキャンラインにまとめる処理に基づい
ている。本実施例では、１本のスキャンラインとは、イ
メ−ジの左から右に延びている画素（ピクセル）を表現
している１つのビット列を意味している。これに対し
て、圧縮スキャンラインは、１つのバイト値が１つの画
素の値を表わしている。

【００２３】圧縮されるスキャンラインの本数，すなわ
ち４本は、実験に基づいて選ばれたものである。光学的
文字認識（ＯＣＲ）を正確に行なうことの可能な最低の
解像度は、３００ｄｐｉであると判断された。従って、
４本のスキャンラインを選択するということは、最低の
解像度で、本実施例の方法が６ポイントのタイプフェ−
ス程度の低い精細度を持つドキュメントを処理すること
ができることを意味している。

【００２４】圧縮技術には、２つの要素，すなわち縦方
向の圧縮と横方向の圧縮とがある。この圧縮技術におい
て、一本のスキャンラインに関しては、１つの黒画素が
論理値“１”をもつ１つのビットを表し、１つの白画素
が論理値“０”をもつ１つのビットを表しており、ま
た、圧縮されたスキャンライン，すなわち圧縮スキャン
ラインに関しては、１つの黒画素が“０”でない１つの
論理値を表わし、白画素が“０”の値をもった１つのバ
イトを表わしていることに先ず留意すべきである。ビッ
トの縦方向の圧縮についての基本的な前提は、隣接する
４本のスキャンラインの同じ位置に、１つまたはそれ以
上の黒画素が存在する場合には、圧縮された結果の画素
を１つの黒画素として考えるというものである。しかし
ながら、同じ位置に黒画素が存在しない場合には、圧縮
された結果の画素を白画素とみなす。横方向の圧縮は、
１つの画素値を１バイトとして定義することによりなさ
れる。すなわち、先ず、縦方向の圧縮により、１／４の
圧縮を行ない、次いで、縦方向に圧縮されたデータを横
方向の圧縮により１／８に圧縮する。この結果、処理さ
れるデータに関しては、１／３２に効果的に圧縮され
る。なお、そのイメ−ジを記憶するメモリーに関して
は、実際の圧縮率は１／４である。

【００２５】図５は、本実施例におけるスキャンライン
の圧縮を示す図である。図５には、元の圧縮されていな
いビットマップ表現からの４本のスキャンライン３００
乃至３０３がそれぞれ示されている。着目すべきは、ス
キャンライン３００乃至３０３の各々に対して、それぞ
れ２バイト（３０４，３０５；３０６，３０７；３０
８，３０９；３１０，３１１）が与えられている。ま
た、縦方向の圧縮をした結果のバイト（３１２，３１
３）が示されている。各バイト３０４乃至３１１と、圧
縮の結果得られたバイト３１２，３１３は、８ビットで
構成されている。最後に、縦方向の圧縮の結果得られた
各バイト３１２，３１３を横方向に圧縮した結果が、圧
縮スキャンライン３１４においてバイト３１５，３１６
として示されている。バイト３１２を得るのに、バイト
３０４，３０６，３０８，３１０のそれぞれ対応するビ
ットについて論理ＯＲ演算がなされている。同様に、バ
イト３１２を得るのに、バイト３０５，３０７，３０
９，３１１のそれぞれ対応するビットについて論理ＯＲ
演算がなされている。この結果得られたバイト３１２
は、黒ビットを含んでいるので、すなわち、“０”でな
い論理値をもっているので、バイト３１２は圧縮スキャ
ンライン３１４において黒画素を表現するものとなる。
この黒画素は、バイト３１５として表わされている。ま
た、上記の結果得られたバイト３１３は、黒ビットを含
んでいないので、すなわち、論理値が“０”であるの
で、バイト３１３は、圧縮スキャンライン３１４におい
て白画素を表現するものとなる。これは、バイト３１６
として表されている。図示しないが、この手順は、スキ
ャンライン３００からスキャンライン３０３までの各ス
キャンラインの各ビット（および各バイト）についても
繰り返される。

【００２６】さらに、圧縮スキャンラインを得る処理に
おいて、システムメモリーは、元のビットマップ表現の
３本のスキャンラインを記憶する分だけ必要とされる。
１番目のスキャンラインメモリーは、処理されるスキャ
ンライン用のものであり、２番目のスキャンラインメモ
リーは、中間作業用のものであり、３番目のスキャンラ
インメモリーは、圧縮スキャンラインをセ−ブするため
のものである。

【００２７】この方法では、バイトに関する処理による
処理スピードの利点を得るために、バイトに対する圧縮
を必要としている。しかしながら、圧縮スキャンライン
において１つの画素値を表わすのに１つのビット値を使
用するという変形例も当業者に明らかであろう。もちろ
ん、このためには、データ表現および処理操作について
の論理構造およびデータ構造の変更が必要となる。この
ような変形例も、本発明の技術的思想および技術的範囲
から逸脱するものではない。

【００２８】本実施例では、ラン長さは、圧縮スキャン
ラインにおける一組の連続黒画素として定義される。上
述のように、圧縮スキャンラインにおいては、１つの黒
画素は、０でない値をもつ１つのバイトによって表現さ
れ、また、白画素は、０の値をもつ１つのバイトによっ
て表現される。ラン長さの定義において、最初の要素
は、白から黒への変移が生じる黒画素の位置を特定し、
次の要素は、黒から白への変移が生じる位置を特定す
る。各圧縮スキャンラインは、１またはそれ以上のラン
長さをもつことができる。各圧縮スキャンラインに対し
て、ラン長さレコードで構成される“ラン長さ”の組が
得られる。

【００２９】表１には、Ｃ言語において変数となるラン
長さレコ−ドのデータ構造が示されている。ラン長さの
構造を定義するのに、このようなプログラミング技術を
用いることは、当業者には、良く知られていることであ
る。

【００３０】

【表１】

【００３１】表１において、第１行は、“ａＲｕｎ”と
命名された構造の定義である。表１のデ−タ構造の第２
行は、型“＊ｐａｒｅｎｔＲｅｃｔ”の“ＲＥＣＴ”変
数の定義である。データ構造“＊ｐａｒｅｎｔＲｅｃ
ｔ”は、親の矩形領域と、ラン長さに対応する圧縮スキ
ャンラインとに関する情報を含んでいる。第３行はラン
長さの開始位置を規定する整数変数ｓｘである。また、
第４行はラン長さの終了位置を規定する整数変数ｅｘで
ある。また、第５行はラン長さの型を示すためのフラグ
である整数変数ｆｌである。最後に、第７行において、
変数ＲＵＮは、型“ａＲｕｎ”のものであるとして定義
されている。このデータ構造を、例えば、ラン長さの終
了位置のかわりにラン長さ中の画素の数を保持するとい
うように変更して使用することも可能であり、このよう
に変更して使用する場合にも、本発明の思想と範囲から
逸脱しないことは明らかである。

【００３２】以上のように、圧縮スキャンラインの各々
について、ラン長さの組が得られる。ラン長さの組は、
典型的には、型“ａＲｕｎ”の要素をもつ配列である
が、これのかわりに、各変数が組（リスト）の次のラン
長さの構造をポイントするリンクされたリストデータ構
造(linked-list data structure)であっても良い。

【００３３】ラン長さを抽出する基本的な処理には、圧
縮スキャンラインに沿って一連の連続黒画素をサ−チす
る処理が含まれている。この処理では、先ず、“０”で
ない論理値を求めてそのスキャンラインのバイト値を調
べる。このような処理での最初の黒画素位置がラン長さ
についての開始値としてセットされる。次いで、次の白
画素を探索する。すなわち、“０”の論理値の画素を求
めてスキャンラインの以後のバイト値を調べる。この画
素は、ラン長さの終了値としてセットされる。このよう
な仕方で、１つのスキャンラインについて全ての“ラン
長さ”が抽出される。所定のスキャンラインについて全
てのラン長さが抽出されると、これらの組は、圧縮され
たビットマップ表現の１番上からｎ番目のスキャンライ
ンに存在するラン長さの組としてラベル付けされる。

【００３４】次いで、ラン長さのサイズ（画素単位での
長さ）とドキュメントイメ−ジの解像度に基づいて分類
がなされる。ドキュメントイメ−ジの解像度は、使用さ
れる走査手段に依存する。高解像度のドキュメントイメ
−ジは、低解像度のドキュメントイメ−ジよりも多くの
画素を必ず必要とするので、解像度について次に説明す
る。なお、解像度について説明を行なっても、本実施例
は、特定の解像度をもつスキャナーに限定されるもので
はない。以下に詳細に述べるように、ラン長さの分類
は、関連して抽出された矩形領域を初期分類するのに使
用される。３００ｄｐｉの解像度で走査されたドキュメ
ントに対する分類規則は、発見的(heuristic)データに
基づいており、以下のようなものとなっている。１．ラン長さ≦２画素である場合には、ラン長さの型
にＳＨＯＲＴを割り当てる。２．ラン長さ＞６０画素である場合には、ラン長さの
型にＬＯＮＧを割り当てる。３．６０画素≧ラン長さ＞２画素である場合には、ラ
ン長さの型にＭＥＤＩＵＭを割り当てる。

【００３５】本実施例では、ラン長さの型を記述するた
めに、フラグとそれに対応する値を定義した。すなわ
ち、ＲＮＦＬ−ＭＥＤＩＵＭフラグに（０）の値をもた
せ、これにより、中程度のラン長さを定義した。また、
ＲＮＦＬ−ＳＨＯＲＴフラグに（１）の値をもたせ、こ
れにより、短いラン長さを定義した。また、ＲＮＦＬ−
ＬＯＮＧフラグに（２）の値をもたせ、これにより、長
いラン長さを定義した。上記の分類が決定されると、そ
れに対応するフラグ値がｆｌフィールド（表１の第５
行）に挿入される。

【００３６】図６は、画素のスキャンラインとラン長さ
とを示す図である。なお、図６では、１バイトをその対
応する画素値として表わし、簡略化していることに留意
すべきである。例えば、画素４０５は“０”でないバイ
ト値（すなわち、黒画素）を表わしている一方で、画素
４０６は“０”のバイト値（すなわち、白画素）を表わ
している。スキャンライン４０１には、一連の連続黒画
素で構成されている部分４０２がある。画素４０３のア
ドレスは、そのラン長さの始めを示しており、また、画
素４０４のアドレスは、そのラン長さの終端を示してい
る。ここで、画素４０３がアドレス３１２のところにあ
り、また、画素４０４がアドレス４１４のところにある
とし、長いラン長さに対する閾値が“１００”であると
すると、結果として得られるラン長さレコ−ドは、“３
１２”の始端値ｓｘと、“４１４”の終端値ｅｘと、
“２”（長いラン長さ）のラン長さフラグｆｌとをも
つ。

【００３７】処理のどの時点においても、２つの圧縮ス
キャンラインのラン長さを記述する２組のレコ−ドだけ
が使用され、メモリーに記憶される。第１の組のレコ−
ドは、現在のスキャンラインのラン長さを記述してお
り、第２の組のレコ−ドは、過去のスキャンラインのラ
ン長さを記述している。後で詳細に説明するように、過
去のスキャンライン情報は、矩形領域の抽出に使用され
る。圧縮スキャンラインレコ−ドの新たな組を読み取る
に先立って、現在のレコ−ドの組は、過去のスキャンラ
インのレコ−ドとして保持するためメモリー位置に複写
される。次いで、新しいスキャンラインを記述するレコ
−ドが、現在のスキャンラインを記述するレコ−ドを保
持しているメモリー位置に読み込まれて、適宜処理され
る。この処理は、すべての圧縮スキャンラインが処理さ
れるまで、続けられる。

【００３８】圧縮スキャンラインに基づいてラン長さが
抽出されるときに、ドキュメントの特徴を表わす矩形領
域が構築される。これらの矩形領域は、ドキュメントイ
メ−ジの横方向と縦方向の両方向における連続黒画素の
境界を表わしている。ラン長さは、一次元であるが、こ
れに対し、矩形領域は二次元である。上述したように、
現在および過去の圧縮スキャンラインのラン長さの情報
は、矩形領域を抽出する工程において必要となる。

【００３９】現在の圧縮スキャンラインと過去の圧縮ス
キャンラインとの間の関係によって、現在の圧縮スキャ
ンラインのラン長さを、既存の矩形領域に割り当てる
か、新しい矩形領域を作るかが決定される。最初の圧縮
スキャンラインを処理しているとき、各ラン長さは、新
しい矩形領域を生成する。新しい圧縮スキャンラインを
次々に処理していくとき、あるスキャンラインにおいて
ラン長さと関連した矩形領域は、適宜拡張される。ラン
長さが矩形領域の境界内に存在する場合には、そのラン
長さはその矩形領域と関連付けられる。現在の圧縮スキ
ャンラインにおいて矩形領域と隣接している全ての画素
が白であるとき、１つの矩形領域は完成し、それ以上に
は拡張されない。換言すると、現在の圧縮スキャンライ
ンのラン長さが矩形領域境界内に存在しなくなるとき、
１つの矩形領域が完結する。１つのラン長さが矩形領域
境界内に一部存在するとき、新しい矩形領域が作り出さ
れる。このような方式では、重なり合う矩形領域が生成
されることがある。このような重なり合った矩形領域
は、この方法の次の工程において扱う。

【００４０】図７には、現在の圧縮スキャンラインのラ
ン長さと過去の圧縮スキャンラインのラン長さとから、
矩形領域を構築する様子が示されている。図７におい
て、過去の圧縮スキャンライン５０１と現在の圧縮スキ
ャンライン５０２とは、それぞれ、複数のラン長さを含
んでいる。過去の圧縮スキャンライン５０１は、ラン長
さ５０３乃至５０９を有している。一方、現在の圧縮ス
キャンライン５０２は、ラン長さ５１０乃至５１７を有
している。なお、ここで注意すべきは、図７では、スキ
ャンライン５０１とスキャンライン５０２が、ビットに
関し整列していることである。すなわち、スキャンライ
ン５０１の左端ビットが、スキャンライン５０２の左端
ビットに対応している。また図７には、矩形領域５２０
乃至５２５が示されている。現在の圧縮スキャンライン
内のラン長さと過去の圧縮スキャンライン内のラン長さ
との間に、所定の関係が存在する場合には、現在の圧縮
スキャンライン内のラン長さは、既存の矩形領域に加え
られる。このような関係が存在しない場合には、新たな
矩形領域が作り出される。

【００４１】過去の圧縮スキャンラインのラン長さと現
在の圧縮スキャンラインのラン長さとの間の所定の関係
が、上述した矩形領域構築規則となる。１つのラン長さ
を１つの既存の矩形領域に加えるのに必要な関係は、現
在のスキャンライン内の１つのラン長さの始点が、過去
のスキャンライン内のラン長さと連続性を有していなけ
ればならないということである。例えば、図７を参照す
ると、ラン長さ５１０は、圧縮スキャンライン５０１の
ラン長さ５０３，５０４と連続性をもっている。

【００４２】ラン長さ５１５に関しては、過去のスキャ
ンライン５０１内のラン長さと連続性がない。従って、
新たな矩形領域５２２が作り出される。また、過去のス
キャンライン５０１内のラン長さ５０８については、現
在のスキャンライン内のラン長さと連続性がなく、従っ
て、矩形領域５２４が完成し、この矩形領域には最早、
ラン長さは付け加わらない。

【００４３】図７において、スキャンライン５０１のラ
ン長さは、既存の矩形領域に次のように加えられる。す
なわち、ラン長さ５０３乃至５０４は矩形領域５２０に
加えられ、また、ラン長さ５０５は矩形領域５２１に加
えられ、また、ラン長さ５０６乃至５０７は、矩形領域
５２３に加えられ、また、ラン長さ５０９は、矩形領域
５２５に加えられる。また、ラン長さ５０８によって、
矩形領域５２４が作り出される。スキャンライン５０２
に関しては、ラン長さ５１０，５１１が矩形領域５２０
に加えられ、ラン長さ５１２乃至５１４が矩形領域５２
１に加えられ、ラン長さ５１６が矩形領域５２３に加え
られ、ラン長さ５１７が矩形領域５２５に加えられる。
また、上述したように、ラン長さ５１５によって矩形領
域５２２が作り出される。

【００４４】矩形領域が構築されているとき、各矩形領
域に含まれている互いに異なる型のラン長さについての
計数が続けられている。１つの矩形領域が完成される
と、矩形領域の初期分類が行なわれる。ラン長さの特性
と矩形領域の大きさとに基づいて、４つの型、すなわ
ち、縦線“ＶＬ”，横線“ＨＬ”，画像（絵画像）“Ｉ
ＭＧ”，不明“ＵＮＫＮＯＷＮ”の１つへの初期分類が
なされる。以下の一般的な規則が、矩形領域の分類に使
用される。規則１．「ラン長さが全て型ＬＯＮＧであり」、かつ、
「矩形領域の高さがラン長さの型ＳＨＯＲＴの閾値より
も小さいかまたは等しい」ならば、ＨＬの型として矩形
領域を分類する。規則２．「ラン長さが全て型ＳＨＯＲＴであり」、か
つ、「矩形領域の高さがラン長さの型ＳＨＯＲＴの閾値
より大きい」）ならば、ＶＬ型として矩形領域を分類す
る。規則３．「ラン長さが型ＬＯＮＧか」、または、「矩形
領域の幅がラン長さの型ＬＯＮＧの閾値よりも小さいか
または等しく」かつ「矩形領域の高さが画像高さ矩形領
域閾値よりも大きい」ならば、矩形領域をＩＭＧ型とし
て分類する。規則４．その他の残りの矩形領域を全てＵＮＫＮＯＷＮ
として分類する。

【００４５】規則１は、横線を識別し、規則２は縦線を
識別し、規則３は画像矩形領域を識別し、規則４は“不
明”のデフォルト分類を与える。

【００４６】３００ｄｐｉのドキュメントイメ−ジに対
して、ラン長さの型ＳＨＯＲＴの閾値を２画素と定め、
また、画像高さ矩形領域の閾値を８２画素と定めた。

【００４７】上記分類規則は、典型的なドキュメントが
含んでいる既知のパラメータから得たものである。これ
らのパラメータを、ドキュメントのビットマップ表現の
解像度に応じて変更しても良いし、および／または、矩
形領域の大きさの分布を解析することにより、ドキュメ
ントに合わせても良い。

【００４８】圧縮されたドキュメント表現の処理の最後
に、ドキュメントイメージの全ての基本的な対象を記述
している矩形領域のリストを作成した。後述のように、
ＵＮＫＮＯＷＮ型の矩形領域は通常、文書を含んでい
る。

【００４９】本実施例では、文字のフォントサイズは、
６ポイント乃至４８ポイントのものが可能である。前述
の規則は、この仮定に一部基づいている。しかしなが
ら、基本的な分類を行なうのに用いられる閾値を変更す
ることによって、より小さいサイズのフォント，より大
きいサイズのフォントにも適用できることは、当業者に
とって明らかである。

【００５０】ＶＬ型の矩形領域に対する最終的な分類
は、矩形領域の抽出時になされる。上述のようになされ
た初期分類結果を試験し、これをより正確なものにする
のに次の規則が使用される。規則１’：誤分類された文書，すなわち縦線として分類
された１（いち），ｌ（エル），またはＩ（アイ）を修
正する。「矩形領域の型がＶＬで」かつ「矩形領域の高
さが“不明”矩形領域の高さの閾値よりも小さい」なら
ば、矩形領域をＵＮＫＮＯＷＮ型として分類する。規則２’：フォントサイズに基づいて矩形領域を再割り
当てする。最大のフォントサイズより大きい矩形領域に
ついては、これらを画像とする。（矩形領域の高さの２
倍）が（画像の高さに対する閾値）よりも大きいなら
ば、矩形領域をＩＭＧ型として分類する。規則３’：「単語」は高くなるというよりも長くなると
いう傾向にあるとの前提に基づいて、画像領域を割り当
てる。（（矩形領域の高さの４倍）＋（矩形領域の
幅））が（画像の高さの閾値の４倍）よりも大きいなら
ば、矩形領域をＩＭＧ型として分類する。規則４’：この規則４’は、横線を定義するための基準
を与えるものであって、長い横線が文書ブロックまたは
コラムを分割する短かい横線よりも太い傾向があるとの
前提に基づいている。（矩形領域の高さの４倍）の比と
しての（矩形領域の幅）が（横線の幅に対する閾値）よ
りも大きいならば、矩形領域をＨＬ型として分類する。規則５’：規則５’は、横線を小さな（例えば６ポイン
トの）フォントテキストの長い行と区別するための基準
を与えるものである。（（矩形領域の高さ）の比として
の（矩形領域の幅））が（横線の幅と高さとの比に対す
る閾値）よりも大きいならば、矩形領域をＨＬ型として
分類する。

【００５１】３００ｄｐｉのイメ−ジに対し、上記の各
閾値は次のとおりである。すなわち、“不明”矩形領域
に対する高さ閾値は“５”であり、画像高さ閾値は“８
２”であり、横線の幅閾値は“７７”であって、横線の
幅高さ比の閾値は“１５”である。ラン長さとともに、
矩形領域情報を記憶するためのデータ構造が設けられて
いる。このようなデータ構造は、次表に示されている。

【００５２】

【表２】

【００５３】第２行と第３行のデータ構造は、次に処理
される矩形領域へのポインタと、前に処理された矩形領
域へのポインタとを与えている。後述のように、このデ
−タ構造によって、次の工程での矩形領域の処理が容易
になる。矩形領域の空間的位置を示す座標点は、第４行
乃至第７行で与えられている。また、第４行乃至第５行
は、矩形領域の左上端のＸＹ座標を与え、第６行乃至第
７行は、矩形領域の右下端のＸＹ座標を与えている。第
８行は、矩形領域のフラグ値を与えている。このフラグ
値は、レコ−ドの型を示している。第９行乃至第１０行
は、文書ブロック順序変数“ＴＡＵ”と“ＭＵ”であ
る。これらの文書ブロック順序値の計算と割り当ては、
後で詳述する。第１１行は、次の文書矩形領域に対する
ポインタを与えている。このようなポインタによって、
文書ブロックを作成するためのＵＮＫＮＯＷＮ型の矩形
領域のマ−ジ（併合）を含む処理工程が容易となる。最
後に、第１３行は、矩形領域変数の定義を示している。

【００５４】矩形領域パラメータ情報は、セグメンテー
ション処理中、継続的に使用されるので、システムメモ
リーの所定位置に記憶される。次表には、パラメータ情
報を含むこのようなデータ構造が示されている。

【００５５】

【表３】

【００５６】パラメータによるデータ構造は、ドキュメ
ントセグメンテーション中および対象の分類処理中に使
用される情報を記憶するための型定義の一例である。こ
のパラメータデータは、使用されるスキャン装置の解像
力に関係している。各情報フィールドの記述は、情報が
どこで使用されたかを示している部分に見出される。パ
ラメータデータを中央位置に記憶することによって、ド
キュメントセグメンテーションの閾値の変更が容易にな
される。

【００５７】この時点までの処理過程では、文書の多く
の部分が縦線分ＶＬ（例えば、１（いち）と，ｌ（エ
ル）と，Ｉ（アイ））として誤分類されてしまう。従っ
て、より短い縦線分を、上述した規則１’を使ってＵＮ
ＫＮＯＷＮとして再分類する。後述のように、これらの
矩形領域は、文書矩形領域として再び再分類される。

【００５８】この時点で、画像領域と、縦線と、横線と
に対する正確な分類がなされる。残っているのは、ＵＮ
ＫＮＯＷＮ型として分類された矩形領域である。

【００５９】スキューは当該分野において良く知られた
問題であり、文書のラインが水平線上にないドキュメン
トイメージを指す。スキュー検出方法には、スキュー角
の決定処理が設けられている。イメージを表現している
抽出された矩形領域のリストからドキュメントのスキュ
ー角を決定することができる。スキューを決定する方法
は、抽出された矩形領域がどのようにして導き出された
かに依らない。従って、矩形領域に関してドキュメント
表現を正確に行なうことができる方法であれば、これを
スキューの検出および補正方法に用いることができる。

【００６０】本発明の方法は、文字列が矩形領域によっ
て近似されているとの前提の下でなされる。このような
矩形領域を本実施例の矩形領域構築方法を用いて得るの
が好ましい。しかしながら、矩形領域を得るのに他の方
法を用いても本発明の思想および範囲からは逸脱しな
い。いずれの場合においても、各矩形領域は、１つの
語，または１つの文字を形成する１組の連結パターン
（画素）の境界である。図８には、スキュー方法の基本
的な処理流れが示されている。Ｘ−Ｙ平面上での座標点
として矩形領域をアドレスすることができることが先ず
理解されるべきである。最初、所定数の関連した矩形領
域のアドレス情報を矩形領域バッファに格納する（ステ
ップ６０１）。スキュー角を検出するために、正確には
８０個の矩形領域を用いることとした。さらに、格納さ
れるアドレス情報は、矩形領域の左上隅の座標である。
全ての矩形領域アドレスについて一貫性をもたせれば、
これのかわりに、矩形領域の右下隅の座標をアドレス情
報として用いることもできる。

【００６１】次いで、各々のアドレスのＸ座標をＸ座標
アドレスのヒストグラム上に投射し、コラムエッジを検
出する（ステップ６０２）。図９には、このようなヒス
トグラムが示されている。このヒストグラムは、最も共
通した（頻度の高い）Ｘ座標値を示している。この最も
共通したＸ座標値により、文書のコラムのエッジを検出
することができる。すなわち、矩形領域をこれらの左上
隅点により検出する場合には、左側のコラムエッジが検
出される。これとは逆に、右下隅点が用いられる場合に
は、右側のコラムエッジが検出される。図９を参照する
と、符号７０１の部分は、Ｘ座標を示しており、符号７
０２の部分は頻度を示しており、符号７０３の部分は、
各Ｘ座標のカウント値の関係をグラフィックに示したも
のである。符号７０４で示すＸ座標値は、最も頻度が高
く、このＸ座標値がコラムエッジとして定められる。コ
ラムの検出は、スキュー角を決定するときに比較対象と
なる矩形領域をコラム検出結果を用いて制限することが
できる点で重要である。なお、この制限とは、同じコラ
ム内の矩形領域のみを比較することである。

【００６２】図８を再び参照すると、矩形領域バッファ
に格納されている全てのあるいは限られた一部の関連し
た矩形領域間の正接角（タンジェント角）を決定し、ヒ
ストグラム上に投射してスキュー角を検出する（ステッ
プＳ６０３）。図１０には、２つの矩形領域間の正接角
が示されている。第１の矩形領域８０１と第２の矩形領
域８０２とは、対角線８０４と水平線８０３とによって
定まるスキュー角をもつ。対角線８０４は、矩形領域８
０１の右下隅８０６から矩形領域８０２の右下隅８０７
まで延びている。水平線８０３は、矩形領域８０１の隅
８０６から延びている。スキュー角８０５は、良く知ら
れた三角法の計算により、次のようにして計算される。

【００６３】

【数１】 ΔＸ＝｜（点８０６のＸ座標）−（点８０７のＸ座標）｜ ΔＹ＝｜（点８０６のＹ座標）−（点８０７のＹ座標）｜スキュー角＝（１８０×ΔＹ）／（π×ΔＸ）

【００６４】すなわち、対角線８０４を形成する座標点
間の絶対値を計算し、スキュー角の式に挿入すること
で、スキュー角を計算できる。

【００６５】上述のように、関連した矩形領域だけが比
較される。関連した矩形領域は、同じコラムにあり、適
当に離れているものとして定義される。同じコラムにあ
り、適当に離れていない矩形領域，例えば隣接した矩形
領域は、これをヒストグラムにプロットするときに、誤
まった結果を生じさせる可能性がある。特に、スキュー
角が“０”であるような誤まったプロットを生じさせ
る。さらに、不必要な計算が行なわれることになる。

【００６６】図１１には、本実施例において生成されう
るヒストグラムが示されている。このヒストグラムは、
比較された矩形領域についての正接角の分布を示してお
り、符号８２０はスキュー角を示し、符号８２１は各正
接角についての頻度を示し、符号８２２は正接角の分布
をグラフィックに示している。

【００６７】再び図８を参照すると、最後の処理では、
ピークを与える角度（ピーク角度）を検出し、これをス
キュー角とする（ステップ６０４）。この処理は、スキ
ュー角ヒストグラムを作る際に得られたデータを解析す
ることによってなされる。スキュー角“Ａ_i”のヒスト
グラム上での値（頻度値）をHist(Ａ_i)として表わす
と、最大値を与える角度は、次式により与えられ、これ
がスキュー角となる。

【００６８】

【数２】 Hist(Ａ_i)＝hist slope（Ａ_i-1)＋hist slope(Ａ_i)＋hist slope(Ａ_i+1)

【００６９】この式を満たすものが、ヒストグラムのピ
ーク値である。図１１を参照すると、符号８２４の角度
が上記式を満たすピーク角度である。従って、符号８２
４の角度がスキュー角である。

【００７０】検出されたスキュー角を用いて、抽出され
た矩形領域のスキューの補正がなされる。画像をスキュ
ー補正する場合、画像を表わす矩形領域もまた補正しな
ければならない。構築された矩形領域の補正処理は、基
本的に、次の２つの工程を有している。すなわち、１）
実際のスキュ−角度の導出工程と、２）矩形領域の回転
補正によって実質的にスキューを補正する工程と、の２
つの工程を有している。図１２，図１３は、それぞれ、
正にスキューしている矩形領域，負にスキューしている
矩形領域をそれぞれ示している。上から下に走査すると
きに最初に左上隅が検出される場合には、矩形領域は正
のスキューを有しているとして定められる。これに対
し、上から下に走査するときに、最初に右上隅が検出さ
れる場合には、矩形領域は負のスキューを有していると
定められる。図１２および図１３において、点Ａ９０
１，Ｂ９０２，Ｃ９０３，Ｄ９０４によって画定される
矩形９１０が、抽出されたスキューしている矩形領域を
表わしている。通常、スキューしているイメージでは、
スキューしていないイメージよりも大きな矩形領域が構
築される。

【００７１】図１２を参照すると、抽出された矩形領域
９１０は正にスキューしている。これと対応するスキュ
ーしていない矩形領域９０５は、点Ｉ９０６，Ｊ９０
７，Ｋ９０８，Ｌ９０９によって画定されている。スキ
ュー角９１１は、この場合、点Ａ９０１，Ｌ９０９，Ｉ
９０６によって定められる角度として規定される。スキ
ューしている矩形領域とスキューしていない矩形領域と
の間の関係を記述するために次の表記を用いる。

【００７２】すなわち、抽出された矩形領域９１０を
｛（Ｘｕ，Ｙｕ），（Ｘｄ，Ｙｄ）｝により表わし、ま
た、点Ｉ９０６，Ｊ９０７，Ｋ９０８，Ｌ９０９によっ
て画定されるスキューしていない矩形領域９０５を
｛（Ｖｕ，Ｗｕ），（Ｖｄ，Ｗｄ）｝により表わす。ま
た、スキュー角を“ａ”で表わし、点Ａ９０１とＤ９０
４との間の距離をＷで表わし、点Ａ９０１とＢ９０２と
の間の距離をＨで表わす。

【００７３】かくして、スキューしている矩形領域９１
０とスキューしていない矩形領域９０５との間の関係を
次式（数３，数４）のように定めることができる。

【００７４】

【数３】Ｖｕ＝ＸｕＷｕ＝Ｙｕ＋sin|ａ|×(Ｗ cos|ａ|−Ｈ sin|ａ|)／(cos²|ａ|−sin²|ａ|)

【００７５】

【数４】Ｖｄ＝ＸｄＷｄ＝Ｙｄ−sin|ａ|×(Ｗ cos|ａ|−Ｈ sin|ａ|)／(cos²|ａ|−sin²|ａ|）

【００７６】適当な値を代入して、矩形領域９０５を表
現することができる。

【００７７】図１３を参照すると、イメージは、正のス
キューの場合と軸対称になっている。ここで、負にスキ
ューしている矩形領域を表わすのに、再び符号９１０が
用いられている。負にスキューしている矩形領域９１０
に対応するスキューしていない矩形領域９２０は、点Ｉ
９２１，Ｊ９２２，Ｋ９２３，Ｌ９２４によって定めら
れている。さらに、この場合、スキュー角９２５は、点
Ｄ９０４，Ｉ９２１，Ｌ９２４によって定められる角度
として規定される。上記表記を用いると、スキューして
いる矩形領域とスキューしていない矩形領域との間の関
係を次式のように定めることができる。

【００７８】

【数５】Ｗｕ＝ＹｕＶｕ＝Ｘｕ−sin|ａ|×(Ｗ sin|ａ|−Ｈ cos|ａ|)／(cos²|ａ|−sin²|ａ|)

【００７９】

【数６】Ｗｄ＝ＹｄＶｄ＝Ｘｄ＋sin|ａ|×(Ｗ sin|ａ|−Ｈ cos|ａ|)／(cos²|ａ|−sin²|ａ｜)

【００８０】適当な値を代入して、矩形領域９２０を得
ることができる。また、境界条件に関し、次式が数３か
ら得られる。

【００８１】

【数７】ａ≧０のとき、Ｙｕ≦Ｗｕであるので、 sin|ａ|×(Ｗ cos|ａ|−Ｈ sin|ａ|)／(cos²|ａ|−sin²|ａ｜)≧０同様に、ａ＜０のときに、Ｘｕ≦Ｖｕであるので、 −sin|ａ|×(Ｗ sin|ａ|−Ｈ cos|ａ|)／(cos²|ａ|−sin²|ａ｜)≧０

【００８２】抽出された矩形領域の各々に対して実際の
スキュー座標値が定まると、イメージを表わす矩形領域
の全ての組の座標値を原点の周りに角度“ａ”だけ回転
する。この演算は、次式のようなマトリックス変換を用
いてなされる。

【００８３】

【数８】

【００８４】ここで、“ａ”は検出されたスキュー角で
ある。また、座標Ｘｕ’，Ｙｕ’は矩形領域の修正され
た座標値を表わしている。

【００８５】処理がデータ表現のより高次のレベルに進
むにつれて、本実施例のボトム−アップ方法と一貫性を
もたせて、現時点までに分類された全ての矩形領域の正
確さをチェックすることが必要となる。また、いくつか
の矩形領域を再分類することが必要となる。この際の確
認規則および再分類規則は、前述した分類規則のものと
同じものである。

【００８６】この時点までに、矩形領域は、画像（絵画
像）（ＩＭＧ），横線（ＨＬ），縦線（ＶＬ）のいずれ
かに分類されている。他の全ての矩形領域は、“ＵＮＫ
ＮＯＷＮ”として分類されている。これらの“ＵＮＫＮ
ＯＷＮ”矩形領域は、ドキュメント中の文書，あるいは
ノイズのような文書を表わしている。次の処理は、文書
のラインとして分類することのできるブロックにマージ
（併合）することの可能な矩形領域を見出すことであ
る。このようなマージブロック（merged blocks）は、
型“ＣＨＡＲ”として分類される。

【００８７】先ず、ブロックの用語は、併合矩形領域
（merger rectangles）のグループを指すものとして用
いられる。また、マ−ジした“ＵＮＫＮＯＷＮ”矩形領
域のグループを文書ブロックと呼ぶ。さらに、型“ＩＭ
Ｇ”の矩形領域は、決してマージ（併合）されない。こ
のことは、矩形領域が型“ＩＭＧ”として分類される際
の判断基準に暗に示されている。

【００８８】第１の処理工程は、ドキュメント中の矩形
領域の平均的高さを見積ることである。平均的高さの計
算の仕方に基づいて、横方向のマージ閾値と縦方向のマ
ージ閾値とを適宜設定する。矩形領域の平均的な大きさ
を見積るための方法は、ドキュメント全体についてなさ
れても良いし、あるいは関連した矩形領域のクラスタに
ついてなされても良い。関連した矩形領域のクラスタに
ついて見積りを行なう方法では、クラスタのマージ（併
合）には、横方向および縦方向の適当なマージ閾値を決
定する際に、クラスタ平均を利用する。矩形領域のクラ
スタは、クラスタリングの既知の方法，例えば、矩形領
域の平均距離間隔に基づいて矩形領域をクラスタリング
する最隣接アルゴリズム（nearest neighbor algorith
m）を用いて検出される。

【００８９】マージ処理には、横方向のマージ処理と縦
方向のマージ処理とがある。横方向のマージ処理では、
隣接しているが異なるコラムの文書矩形領域をマージ
（併合）しないようにしなければならない。コラムエッ
ジの検出についての説明は、スキュー角の検出について
の説明と関連させて前述されている。横方向のマージ処
理中、“ＵＮＫＮＯＷＮ”として分類され、かつ、境界
長さがノイズ長さの閾値よりも小さい矩形領域は、ノイ
ズとして除去される。横方向にマージされた矩形領域の
うち残りのものは、文書（すなわち、型“ＣＨＡＲ”）
として分類される。

【００９０】縦方向のマージ処理には、文書の横線を抽
出する工程と、縦方向にマージ（併合）する工程とがあ
る。文書の矩形領域と型“ＩＭＧ”，“ＨＬ”または
“ＶＬ”の矩形領域との間に重なり合い（オーバーラッ
プ）がある場合には、これらの矩形領域に対する処理を
後の処理まで延ばす。

【００９１】本実施例において、２つの矩形領域のマー
ジ（併合）は、これらの矩形領域が同じ型のものであ
り、かつ、所定の横方向マージ閾値および縦方向マージ
閾値内にあるときになされる。このようなマージ閾値
は、イメージの解像度と矩形領域の平均的高さに応じて
定められる。次表には、３００ｄｐｉの解像度をもつド
キュメントに対するこのようなマージ閾値が示されてい
る。

【００９２】

【表４】

【００９３】マージ（併合）は、矩形領域を定める座標
を、より大きなマージ矩形領域を反映するように変更す
ることによりなされる。これにより、マージされる以前
の矩形領域の座標値を捨てることができる。

【００９４】また、画像の矩形領域の外側にある矩形領
域を、画像の矩形領域の内側にある矩形領域とマージ
（併合）することはできない。１つの矩形領域が画像の
矩形領域内にあるか、あるいは画像の矩形領域と重なり
合っている場合には、この矩形領域は、内側のものと
し、特殊なケースのものとして扱う。例えば、このよう
なケースは、図表の説明文が図表に重ね合されているド
キュメントにおいて生じる。

【００９５】画像の矩形領域の内側の矩形領域の場合、
前述したものと同じパラメータ（例えば表４に示されて
いるパラメータと同じパラメータ）を用いて、マージ
（併合）が行なわれる。図１４，図１５には、このよう
なケースが示されている。なお、図１４には、グラフィ
ック画像（自動車のサスペンションシステムの一部分の
画像）１００１とともに、このグラフィック画像１００
１を説明する文書，すなわち文書領域１００２，１００
３をもつドキュメントが示されている。また、図１５に
は、ドキュメントのデジタルイメージ表現のラン長さ抽
出工程と矩形領域抽出工程とを行なった後の結果が示さ
れている。矩形領域１０１０は、グラフィック画像１０
０１に対応している。矩形領域１０１０は、型“ＩＭ
Ｇ”のものである。さらに、矩形領域の第１のグループ
１０１１は、文書領域１００２に対応し、矩形領域の第
２のグループ１０１２は、文書領域１００３に対応して
いる。各グループ１０１１，１０１２の矩形領域は型
“ＵＮＫＮＯＷＮ”のものである。第１のグループ１０
１１の矩形領域は、“ＩＭＧ”の矩形領域１０１０と重
なり合うので、これらをマージ（併合）することはでき
ない。

【００９６】ドキュメントセグメンテーションの最後の
工程は、文書のブロックに論理的な順序を与えることで
ある。１００％の正確な順序付けは、ページを当初レイ
アウトしたときにどの規則が用いられたかによる。これ
らの規則は、ドキュメントレイアウトが異なるとかなり
変わる。従って、全てのドキュメントレイアウトに対し
て一般的なソート方法を構成することは、実質的に不可
能であると認められる。

【００９７】しかしながら、正しい順序に近づけること
は可能である。本実施例で用いられるソート方法は、検
討中のブロックの“上側”および“左側”の文書ブロッ
クの数を計数することに基づいている。なお、ここで、
“上側”，“左側”は、ドキュメントの幾何学的レイア
ウトに関するものである。

【００９８】本実施例のこのようなブロック順序付け方
法を、図１６乃至図１８を参照して説明する。なお、図
１６はドキュメントイメージの種々の文書ブロックの論
理的なの順序を決定するための処理を示すフローチャー
トである。また、図１７は、ドキュメントイメージを示
す図であり、図１８は、文書ブロックの論理的な順序を
計算するのに用いられる結果値テーブルを示す図であ
る。図１６を参照すると、先ず、ドキュメントの各文書
ブロックに“ＴＡＵ”値を割り当てる（ステップ１１０
１）。“ＴＡＵ”値は、ドキュメントイメージの上から
下に“１”から始まる順次に連続した番号で割り当てら
れる。すなわち、“ＴＡＵ”の割り当ては、文書ブロッ
クが構成される順序と同じ順序でなされる。図１７を参
照すると、文書ブロック１２０１乃至１２０７をもつド
キュメントイメージ１２００が示されている。さらに、
図１７には、画像の矩形領域１２０８が示されている。
画像の矩形領域１２０８には“ＴＡＵ値”が割り当てら
れないことに着目すべきである。ドキュメントを左から
右に、また上から下に順次に調べる場合に、最左上部の
文書ブロックがブロック１２０１であることは明らかで
あり、従って、この文書ブロックには、“１”の“ＴＡ
Ｕ”値が割り当てられる。また、次の文書ブロックはブ
ロック１２０２である。従って、この文書ブロック１２
０２には、“２”の“ＴＡＵ”値が割り当てられる。こ
のような処理は、文書ブロック１２０７に“７”の“Ｔ
ＡＵ”値が割り当てられるまで続けられる。図１８の結
果値テーブル１２２０には、文書ブロック１２０１乃至
１２０７の各々に対する“ＴＡＵ”値が示されている。
すなわち、“ＴＡＵ”の行１２１０には、各文書ブロッ
クに対する全ての“ＴＡＵ”値が示されている。ブロッ
クを順序付けする“ＴＡＵ”の値を文書ブロックの幾何
学的順序と呼ぶ。

【００９９】“ＴＡＵ”の値が設定されると、次のステ
ップでは、各文書ブロックについて“ＭＵ”の値を生成
する（ステップ１１０２）。“ＭＵ”の値は、文書ブロ
ックの論理的順序を決定する際に先ず用いられる。各文
書ブロックについて“ＭＵ”値を決定する際に、所定の
ブロックの上側または左側にあるブロックの全体の数に
は、該所定のブロックも含まれている。図１８を参照す
ると、結果値テーブル１２２０の行１２１１には、ドキ
ュメントイメージ１２００の文書ブロックについて得ら
れた“ＭＵ”値が示されている。例えば、文書ブロック
１２０４に対する“ＭＵ”値は、“４”である。文書ブ
ロック１２０４に対する“ＭＵ”値が“４”であるの
は、文書ブロック１２０３，１２０１，１２０２が文書
ブロック１２０４の上側または左側であることによる。
文書ブロックの“ＭＵ”値は、左から右に、また上から
下に順序付けする場合の論理的順序を与える。

【０１００】一般に、上から下への幾何学的順序を、ペ
ージの左位置から右位置までを考慮して“ＭＵ”の値に
より重み付けする。この結果、上／左から下／右の順序
を与える値が得られる。しかしながら、文書ブロックが
ドキュメントにおいて上から下に整列されている場合に
は、右への次の文書ブロックに進む前に、文書コラムの
下に優先的に到達させる。このような優先処理は、各文
書ブロックについて値“ＰＳＩ”を計算することによっ
て可能となる。

【０１０１】図１６を参照すると、ドキュメントイメ−
ジの文書ブロックの各々について、所定のブロックの左
側にある文書ブロック数を合計することによって、“Ｐ
ＳＩ”値が計算される（ステップ１１０３）。上述のよ
うに、“ＰＳＩ”値は、文書ブロックがコラムのフォ−
マットとなっているときに、文書を順序付ける手段を提
供する。図１８を参照すると、結果値テ−ブル１２２０
の行１２１２には、得られた“ＰＳＩ”値が示されてい
る。例えば、文書ブロック１２０５は、“５”の“ＰＳ
Ｉ”値をもつ。文書ブロック１２０５が“５”の“ＰＳ
Ｉ”値をもつのは、ブロック１２０１，１２０３，１２
０４，１２０６，１２０７が文書ブロック１２０５の左
側にあることによる。

【０１０２】図１６を再び参照すると、次のステップで
は、元の“ＰＳＩ”値に文書ブロック数を乗算して、
“ＰＳＩ”値に重み付けをする（ステップ１１０４）。
この重み付けは、文書ブロックの論理的な順序付けをよ
り正確に行なうのに望ましい。結果値テ−ブル１２２０
の行１２１３には、重み付けされた“ＰＳＩ”値が示さ
れている。

【０１０３】最終的な論理的順序を決定するために、各
文書ブロックについて、重み付けされた“ＰＳＩ”値を
“ＭＵ”値に加算する（ステップ１１０５）。加算した
結果の値は、ドキュメント上の文書ブロックの論理的順
序を非常に良好に近似したものとなっている。図１６を
参照すると、次いで、重み付けされた“ＰＳＩ”値と
“ＭＵ”値とのうち同じものがあるか否かを判断する
（ステップ１１０６）。同じ値のものがある場合には、
複数の文書ブロックが同じ論理的順序値をもつので、こ
のブロック順序は有用な情報を与えない。“ＭＵ”値に
同じものがない場合には、文書ブロックの順序付け処理
を終了する。同じ“ＭＵ”値がある場合には、文書ブロ
ックの幾何学的順序を考慮する（ステップ１１０７）。
なお、前述したように、幾何学的順序は、最初に計算さ
れた“ＴＡＵ”値である。

【０１０４】図１８を再び参照すると、同じ“ＭＵ”値
をもつ文書ブロックがないことは明らかである。従っ
て、ドキュメントイメ−ジ１２００の文書ブロックに対
する順序付けの結果は、１２０３，１２０１，１２０
４，１２０６，１２０７，１２０２，１２０５となる。
この結果は、新聞や雑誌において見られるような、コラ
ムタイプのフォ−マットである。ブロックの順序付けを
完了すると、これらの文書ブロックを文字認識プログラ
ムに用い、ドキュメントペ−ジ上の文字を論理的に順序
付けすることができる。

【０１０５】最後に、文書ブロックを“上側，左側”と
して検出する上記基準を適用するためには、文書ブロッ
クがいま問題としている文書ブロックのどの位置よりも
明確に上側，左側の位置でなければならない。しかしな
がら、“左側”の基準は、水平方向において、１つの文
書ブロックの１／２以上が問題としている文書ブロック
の左側に位置していれば良い。

【０１０６】ブロックの順序付けを完了すると、区分さ
れた文書ブロック情報を文字認識用に、すなわち利用可
能な形に作成する必要がある。イメ−ジの表現を圧縮し
たときに、ブロックに対応する実際の座標アドレスを作
成する必要がある。この処理は、イメ−ジ表現を元の圧
縮されていないドキュメントイメ−ジの寸法に再び尺度
付けすることによってなされる。

【０１０７】図１９乃至図２３には本実施例のドキュメ
ントセグメンテ−ション方法の種々の処理が示されてい
る。なお、図２０乃至図２３はドキュメントセグメンテ
−ション処理中には実際に作成される必要がなく、ここ
では本実施例の方法を例示するために示されている。図
１９はスキャニング装置に与える印刷ペ−ジのフォ−マ
ットを示す図である。図１９は実際に出版された単一ペ
−ジの雑誌記事に対応している。図２０乃至図２３は単
一ペ−ジの雑誌記事から本実施例のシステムを用いて作
られたイメ−ジを示す図である。

【０１０８】図１９を参照すると、ドキュメントイメ−
ジは、タイトル領域１３０１，サブタイトル領域１３０
２，著者領域１３０３，画像の見出し領域１３０７，ペ
−ジ番号領域１３０９，出版／日付領域１３１１，コラ
ム文書領域１３０５，１３０８，１３１０，１３１２，
１３１３に、文書を含んでいる。また、このドキュメン
トペ−ジには、画像（絵画像）領域１３０４，１３０６
も含まれている。

【０１０９】図２０には、イメ−ジ表現が、抽出された
一組の矩形領域として示されている。各矩形領域は、
語，語の列，または画像（絵画像）に対応している。図
２０では、イメ−ジがスキュ−している。しかしなが
ら、ドキュメントレイアウトの主な特徴については、こ
れを確認することができる。領域１４０１乃至１４１３
の各々は、図１９の領域１３０１乃至１３１３と直接関
係付けられる（すなわち、例えば、タイトル領域１３０
１は領域１４０１に対応し、サブタイトル領域１３０２
は領域１４０２に対応している）。

【０１１０】図２１には、スキュ−を補正した後の矩形
領域が示されている。ここで、元のドキュメントの重要
な特徴は、図１９のドキュメントイメ−ジとより密接に
対応している。図２１においても、領域１５０１乃至１
５１３の各々は、図１９の領域１３０１乃至１３１３と
直接関係付けられる（すなわち、例えば、タイトル領域
１３０１は領域１５０１に対応し、サブタイトル領域１
３０２は領域１５０２に対応している）。

【０１１１】図２２を参照すると、文書ラインをマ−ジ
（併合）した結果の矩形領域の分類が示されている。図
２２においても、領域１６０１乃至１６１３の各々は、
図１９の領域１３０１乃至１３１３と直接関係付けられ
る（すなわち、例えば、タイトル領域１３０１は領域１
６０１に対応し、サブタイトル領域１３０２は領域１６
０２に対応している）。

【０１１２】最後に、図２３を参照すると、型“ＵＮＫ
ＮＯＷＮ”の矩形領域がマ−ジ（併合）されて、文書ブ
ロックが形成されている。さらに、文書ブロックは、順
序付けされている。この順序は、文書ブロックの左上部
分に記されている整数値によって示されている。かくし
て、文字認識において、ドキュメントイメ−ジを文書フ
ァイルに圧縮すると、文書ファイルには、文書が指示さ
れた順序で現われる。

【０１１３】以上、ドキュメントイメ−ジを区分するた
めの方法について説明した。ドキュメントイメ−ジの特
徴の圧縮表現を矩形領域として得ることによって、文書
イメ−ジと文書でないイメ−ジとを正確にかつ効率良く
識別することができる。

【０１１４】

【発明の効果】以上に説明したように、本発明によれ
ば、スキュ−角の検出並びに補正を精度良く、かつ、装
置資源を効率良く使用して行なうことができる。

【図面の簡単な説明】

【図１】本発明の一実施例における文字認識装置におい
て使用されるコンピュータシステムを示す図である。

【図２】図１のコンピュータシステムに用いられている
ホストコンピュータを示す図である。

【図３】（ａ）は１つの語に対する矩形領域を示す図、
（ｂ）は１つの文に対する矩形領域を示す図である。

【図４】ドキュメントセグメンテーションおよび分類の
全体的な処理を示すフロ−チャ−トである。

【図５】スキャンラインの圧縮の一例を示す図である。

【図６】圧縮スキャンラインからラン長さを抽出する仕
方を説明するための図である。

【図７】過去の圧縮スキャンラインと現在の圧縮スキャ
ンラインとから矩形領域を形成する仕方を説明するため
の図である。

【図８】スキュー角検出処理を概略的に示すフローチャ
ートである。

【図９】コラムエッジを検出するためのヒストグラムを
示す図である。

【図１０】２つの矩形領域間の正接角を説明するための
図である。

【図１１】検出された正接角のヒストグラムの一例を示
す図である。

【図１２】正側に実際にスキュ−している矩形領域と、
抽出されたスキュ−していない矩形領域との間の関係を
示す図である。

【図１３】負側に実際にスキュ−している矩形領域と、
抽出されたスキュ−していない矩形領域との間の関係を
示す図である。

【図１４】画像の矩形領域内に含まれている文書ブロッ
クのマ−ジ（併合）を説明するための図である。

【図１５】画像の矩形領域内に含まれている文書ブロッ
クのマ−ジ（併合）を説明するための図である。

【図１６】文書ブロックの論理的な順序を決定するため
の処理を示すフローチャートである。

【図１７】ドキュメントイメージの一例を示す図であ
る。

【図１８】ブロックの論理的な順序を計算するのに用い
られる結果値テ−ブルを示す図である。

【図１９】ドキュメントイメ−ジの一例を示す図であ
る。

【図２０】抽出された一連の矩形領域を示す図である。

【図２１】スキュ−を補正した後の矩形領域を示す図で
ある。

【図２２】文書ラインをマ−ジした結果の矩形領域の分
類を示す図である。

【図２３】順序付けされた文書ブロックを示す図であ
る。

【符号の説明】

１０１スキャナ− １０２ホストコンピュ−タ１０３表示装置１０４文書デ−タベ−ス１０５画像デ−タベ−ス１０６入力装置１１０バス１１１演算処理手段１１２ＲＡＭ１１３ＲＯＭ

Claims

【特許請求の範囲】

【請求項１】ドキュメントイメ−ジのスキュ−を補正
するためのスキュ−補正方法であって、前記ドキュメン
トイメ−ジの部分が矩形領域により表現されるようにな
っている場合に、ａ）ドキュメントイメ−ジの一部分を表わしている一組
の矩形領域をスキュ−検出手段に与える工程と、ｂ）前記一組の矩形領域に対応するコラムおよびコラム
エッジを検出する工程と、ｃ）同じコラム内にある矩形領域の組からスキュ−角を
検出する工程と、ｄ）前記スキュ−角および矩形領域とから、該矩形領域
に対応した実際のスキュ−矩形領域を構成する工程と、ｅ）実際のスキュ−矩形領域を前記スキュ−角に基づい
て回転して、前記矩形領域に対するスキュ−を補正する
工程とを有していることを特徴とするスキュ−補正方法。
【請求項２】請求項１記載のスキュ−補正方法におい
て、スキュ−角を検出する前記工程は、さらに、ａ）前記一組の矩形領域から第１の矩形領域と第２の矩
形領域とを受け取る工程と、ｂ）前記第１の矩形領域と前記第２の矩形領域として、
同じコラムにあって所定の距離を隔てているものを検出
する工程と、ｃ）前記第１の矩形領域と前記第２の矩形領域との間の
正接角を計算する工程と、ｄ）前記正接角を正接角値カウンタに入力する工程と、ｅ）最も頻度の高い正接角を検出し、これをスキュ−角
とする工程とを有していることを特徴とするスキュ−補正方法。
【請求項３】請求項１記載のスキュ−補正方法におい
て、コラムエッジを検出する前記工程は、さらに、ａ）前記一組の矩形領域から１つの矩形領域を受け取る
工程と、ｂ）矩形領域の所定位置のＸ座標値をＸ座標値カウンタ
に入力する工程と、ｃ）最も頻度の高いＸ座標値を検出し、これをコラムエ
ッジとする工程とを有していることを特徴とするスキュ−補正方法。
【請求項４】請求項３記載のスキュ−補正方法におい
て、矩形領域の前記所定位置は、前記矩形領域の最左上
端点であり、前記コラムエッジは、コラムの左側エッジ
であることを特徴とするスキュ−補正方法。
【請求項５】請求項３記載のスキュ−補正方法におい
て、矩形領域の前記所定位置は、矩形領域の最下右端点
であり、前記コラムエッジは、コラムの右側エッジであ
ることを特徴とするスキュ−補正方法。
【請求項６】ドキュメントのスキュ−角を検出するた
めのスキュ−角検出方法であって、前記ドキュメントが
少なくとも１つの対象として表現されている場合に、ａ）前記少なくとも１つの対象（Ｎ個の対象）をもつ組
の位置情報をコラムエッジ検出手段に与える工程と、ｂ）前記少なくとも１つの対象の組についてのコラムエ
ッジを計算する工程と、ｃ）前記少なくとも１つの対象の組の位置情報を正接角
計算手段に与える工程と、ｄ）前記少なくとも１つの対象の組の内の全ての対象に
ついて、所定の関係をもつ第１の対象と第２の対象との
間の正接角を計算する工程と、ｅ）最も共通した正接角を前記ドキュメントのスキュ−
角として検出する工程とを有していることを特徴とするスキュ−角検出方法。
【請求項７】請求項６記載のスキュ−角検出方法にお
いて、前記少なくとも１つの対象の組についてコラムエ
ッジを計算する前記工程は、さらに、ａ）前記少なくとも１つの対象の前記組の各対象の所定
位置のＸ座標値をＸ座標カウント手段に与える工程と、ｂ）前記Ｘ座標カウント手段から最も共通したＸ座標を
検出し、これをコラムエッジとする工程とを有していることを特徴とするスキュ−角検出方法。
【請求項８】請求項６記載のスキュ−角検出方法にお
いて、前記所定の関係とは、前記第１の対象と前記第２
の対象とが同じコラムにあって、所定距離を隔てている
ことであることを特徴とするスキュ−角検出方法。
【請求項９】請求項６記載のスキュ−角検出方法にお
いて、Ｎは“８０”であることを特徴とするスキュ−角
検出方法。
【請求項１０】ドキュメントイメ−ジの文書部分と文
書でない部分とを判断するためのドキュメントセグメン
テ−ションシステムであって、該ドキュメントセグメン
テ−ションシステムがスキュ−補正手段を有しており、
該スキュ−補正手段が、ａ）前記ドキュメントイメ−ジを受け入れて、ドキュメ
ントイメ−ジの一部分をそれぞれ表現する複数の矩形領
域を矩形領域記憶手段に出力として与えるための矩形領
域抽出手段と、ｂ）前記矩形領域記憶手段に記憶されている矩形領域の
うち、２つ以上の矩形領域の間のスキュ−角を検出する
ためのスキュ−角検出手段と、ｃ）前記スキュ−角検出手段および前記矩形領域記憶手
段に接続されており、前記複数の矩形領域全てのスキュ
−を補正するための矩形領域補正手段とを有していることを特徴とするドキュメントセグメンテ
−ションシステム。
【請求項１１】請求項１０記載のドキュメントセグメ
ンテ−ションシステムにおいて、前記スキュ−角検出手
段は、さらに、ａ）前記矩形領域記憶手段から所定数の矩形領域を受け
取って記憶するための矩形領域バッファ手段と、ｂ）前記矩形領域バッファ手段に接続されており、前記
矩形領域バッファ手段に記憶されている矩形領域と関連
したコラムエッジを検出するコラムエッジ検出手段と、ｃ）前記コラムエッジ検出手段および前記矩形領域バッ
ファ手段に接続されており、第１の矩形領域と第２の矩
形領域とが共通のコラムにあって、所定の距離を隔てて
いることを検出する矩形領域検出手段と、ｄ）前記矩形領域検出手段に接続されており、前記第１
の矩形領域と前記第２の矩形領域との間の正接角を計算
するための正接角処理手段と、ｅ）前記正接角処理手段に接続されており、最も共通し
た正接角を検出し、該正接角をスキュ−角として出力す
るためのピ−ク角検出手段とを有していることを特徴とするドキュメントセグメンテ
−ションシステム。
【請求項１２】請求項１０記載のドキュメントセグメ
ンテ−ションシステムにおいて、前記矩形領域補正手段
は、ａ）前記矩形領域記憶手段および前記ピ−ク角検出手段
に接続されており、前記矩形領域記憶手段内の対応する
矩形領域から実際にスキュ−している矩形領域を構築す
るためのスキュ−矩形領域構築手段と、ｂ）前記スキュ−矩形領域構築手段に接続されており、
前記スキュ−矩形領域構築手段によって構築された実際
にスキュ−している矩形領域を前記スキュ−角に対応し
た仕方で回転させ、スキュ−補正された矩形領域を出力
するための変換手段とを有していることを特徴とするドキュメントセグメンテ
−ションシステム。
【請求項１３】ドキュメントのスキュ−角を検出する
スキュ−角検出装置において、前記ドキュメントが少な
くとも１つの対象として表現されている場合に、ａ）前記少なくとも１つの対象の組を記憶するための対
象バッファ手段と、ｂ）前記対象バッファ手段に接続されており、前記対象
バッファ手段内の前記対象のコラムエッジを計算するた
めのコラムエッジ計算手段と、ｃ）前記コラムエッジ検出手段および前記対象バッファ
手段に接続されており、前記対象バッファ手段に記憶さ
れている対象のうち、同じコラムにあって、所定の距離
を隔てている対象を検出し、出力として与えるための対
象検出手段と、ｄ）前記対象検出手段に接続されており、第１の対象と
第２の対象との間の正接角を計算し、出力として与える
ための正接角計算手段と、ｅ）前記正接角計算手段に接続されており、正接角を計
数し、最も共通した正接角をスキュ−角として検出する
正接角計数手段とを有していることを特徴とするスキュ−角検出装置。