JP4077904B2

JP4077904B2 - 情報処理装置およびその方法

Info

Publication number: JP4077904B2
Application number: JP16020597A
Authority: JP
Inventors: ヤンワングシン
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1996-06-17
Filing date: 1997-06-17
Publication date: 2008-04-23
Anticipated expiration: 2017-06-17
Also published as: US6157738A; DE69718243T2; DE69718243D1; JPH1083431A; EP0814422A3; EP0814422A2; EP0814422B1

Description

【０００１】
【発明の属する技術分野】
本発明は、ブロックセレクション技法を利用するドキュメントページの画像データを解析する為のシステムに関する発明である。そして、特にドキュメントページの中の枠に付着したテキスト成分の抽出と識別を可能にするブロックセレクションシステムである。
【０００２】
【従来の技術】
特願平６−３２０９５５（米国出願番号０８／５９６，７１６）および特願平８−２２１８３４（米国出願番号０８／５１４，２５２）に記述されているようなブロックセレクション技法は、ドキュメントページ中の異なるタイプの画像データを解析し識別するページ解析システムに使用される。更に、識別および解析結果は画像データに施されるべき光学式文字認識（ＯＣＲ）、データ圧縮、データルーチン（ｄａｔａｒｏｕｔｉｎｇ）、その他のようなタイプを決定するために使われる。例えば、テキストデータであることが示された画像データはＯＣＲ処理されるのに対し、ピクチャデータであることが示された画像データはＯＣＲ処理されない。結果として、異なるタイプの画像データをオペレーターの介入なしに自動入力し正確に処理することができる。
【０００３】
ブロックセレクション技法の動作は、図１−図３のように一般的に記述される。図１は、代表的なドキュメントのページ１０１を示す。ページ１０１には、２カラムフォーマットであり、タイトル１０２を含み、水平線１０４、テキストデータ行を含むいくつかのテキストエリア１０５、１０６、１０７、テキストではないグラフィックイメージを含むハーフトーンのピクチャデータ１０８、テキスト情報を含むテーブル１１０、枠エリア１１６、見出しデータ１２６を付属したハーフトーンのピクチャエリア１２１、見出しデータ１３７が付着するピクチャエリア１３２、１３５が配置されている。ブロックセレクション技法は、画像データのタイプに従ってページ１０１のそれぞれのエリアの定義を試みる。図２のように、ブロックセレクション技法はそれぞれのエリアを定義し、階層的ツリー構造が生成される。
【０００４】
図２の階層的ツリー（木）構造２００は、画像データのそれぞれの識別されたエリアまたはブロックをそれぞれ表す複数のノードを含む。ツリーのそれぞれのノードは、対応する画像データのブロックの特徴を定義する特徴データを含む。例えば、特徴データは、ブロック位置データ、属性データ（テキスト、ピクチャ、テーブル、その他のようなを特定する）、サブ属性データ、子ノードまたは親ノードのポインターを含んでいる。子または「子孫」ノードは、画像データの大きなブロックの中にその全体が存在する画像データを表す。子ノードは、親ノードから枝別れしているノードのような階層的ツリー構造２００として描かれる。例えば、枠１１６の中のテキストブロックは、枠１１６を表す親ノード２１２からの直接的な枝別れとして、ノード２１４，２１６のような階層的ツリー構造として描かれる。上述した特徴データに加えて、テキストブロックを表すノードは、そのブロックの読取り方向及び読取り順を定義する特徴データを含んでいる。それらのデータは、ページのテキストブロックをＯＣＲする処理場合に有用である。
【０００５】
【発明が解決しようとする課題】
一般的なブロックテキストセレクション技法では、テキストデータ行が他のデータと隣接または重なり合っている場合、テキストブロックはしばしば誤って識別されることがある。この問題は、ドキュメント画像に含まれるテーブル画像を処理する際にしばしば遭遇する。テーブルセルの枠サイズが小さい為、しばしば、それらの枠の一つによって周りを囲まれたテキスト枠に付着されることになる。従って、このテキストは、ピクチャ画像として、または、枠の一部として識別されるか、あるいは、ノイズとして識別されてブロックセレクション技法によって、必要のないデータとして無視される。このテキストは、テキストブロックとして識別されない為、このテキストブロックは、ＯＣＲ処理されず、従って、そのブロックの中のテキスト文字に、テキストエディターはアクセスできない。更に、残るテキストブロックのドキュメントの読取り順は、誤った識別をされたテキストブロックを考慮せずに、割り当てられる。従って、読取り順が誤っている為に、正しく識別されたテキストブロックでさえ、誤って処理される。
【０００６】
従って、本発明は、テーブルセルの枠に付着したテキストデータを識別し抽出することが可能な情報処理装置およびその方法を提供することを目的とする。
【０００７】
【課題を解決するための手段】
本発明は、前記の目的を達成する一手段として、以下の構成を備える。
【０００８】
本発明のある面によれば、本発明は、テーブルセルの枠からテキストデータを識別し、抽出する方法であり、ドキュメントの中の連結成分をトレース、連結成分の内側の白い輪郭をトレースし、トレースした白い輪郭を基に枠の輪郭を定義し、枠の輪郭の内側の独立した連結成分を識別し、そして、枠の輪郭の内側に初期の矩形エリアを定義するステップを含む。
【０００９】
初期の矩形エリアは、独立した連結成分が識別された場合、独立連結成分をもとに定義され、独立連結成分が識別されない場合、白い輪郭をもとに定義され、小さい独立連結成分が識別された場合、独立した連結成分、輪郭および独立連結成分から枠の輪郭の縁までの距離を基に定義される。この方法は、その上、拡張された文字エリアを生成する為に、水平または垂直方向において初期の矩形エリアからの黒画素を検出し、それぞれの白い輪郭に対する拡張された文字エリアの内側にある境界画素を定め、拡張された文字エリアの内側にある境界画素間に置かれた黒画素を識別し、少なくとも一つの連結成分を形成するために拡張された文字エリアの内側にある境界画素間に置かれた黒画素を結合し、以下の条件を満たせば、すくなくとも一つの連結成分をテキスト成分として認識する。つまり、（１）前記少なくとも１つの連結成分の高さは、第三のあらかじめ決められた閾値よりも小さくはない。また、前記少なくとも１つの連結成分の縦横の比は、第四のあらかじめ決められた閾値より大きくはない。（２）前記少なくとも１つの連結成分の幅は、第五のあらかじめ決められた閾値より小さくはない。また、前記少なくとも１つの連結成分の縦横の比は、第六のあらかじめ決められた閾値より大きくはない。（３）前記少なくとも１つの連結した成分の幅または高さは、第七のあらかじめ決められた閾値より大きい。
また、前記少なくとも１つのテキスト成分は独立し連結成分と別の独立し連結成分との間にある。そして、（４）連結成分のグループは、前記少なくとも１つの連結成分を含み、別の連結成分は、同列または同行において上記（１）、（２）を満たす。そして、前記拡張された文字エリアに対応する階層的ツリー構造の文字ノードを定義し、前記少なくとも一つの連結成分といくつかの識別された独立した連結成分の両方を含んでいる。
【００１０】
別の面によれば、本発明は、テーブル画像の中の枠に付着する連結成分がテキスト成分かどうか決定するための方法であり、枠の輪郭の内側に初期の矩形エリアを定義し抽出された文字エリアを生成する為に水平または垂直方向において初期の矩形エリアから黒画素を検出し、拡張された文字エリアの内部にある境界画素を定め、拡張された文字エリアの内側にある境界画素間に置かれた黒画素を識別し、少なくとも１つの連結成分を形成する為に拡張された文字エリアの内部にある境界画素間に置かれた黒画素を結合し、そして、あらかじめ決められた閾値の大きさに基づきテキスト成分として前記少なくとも一つの連結成分を認識するステップを含む。
【００１１】
【発明の実施の形態】
以下、本発明にかかる一実施形態の枠に付着したテキストを抽出するシステムについて図を参照して詳細に説明する。なお、本発明は、特願平６−３２０９５５（米国出願番号０８／５９６，７１６）および特願平８−２２１８３４（米国出願番号０８／５１４，２５２）に鑑みてなされたものである。
【００１２】
図３は、本発明の実施の形態の一例を表す装置の外観を示す図である。
【００１３】
図３に示されるコンピュータシステム３１０は、例えば、Ｍａｃｉｎｔｏｓｈ（登録商標）またはＩＢＭＰＣ、ＰＣ互換機である。このシステムは、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（登録商標）のようなウィンドウズ環境をもつ。コンピュータシステム３１０は、カラーモニタのようなディスプレイ画面３１２、ユーザコマンドを入力する為のキーボード３１３、ディスプレイ画面上３１２に表示されたオブジェクトを操作し、ポインティングするためのマウスのようなポインティングデバイスを備える。
【００１４】
コンピュータシステム３１０は、圧縮または非圧縮の何らかのドキュメント画像ファイルも含むデータファイルを記憶する為、そして、本発明を具体化するブロックセレクションアプリケーションプログラムを含むアプリケーションプログラムファイルを記憶する為のコンピュータディスク３１１のような大容量の記憶装置を含む。また、ブロックセレクション技法に従って処理されたドキュメントページに対応する様々な階層的ツリー（木）構造データもディスク３１１に保存されている。
【００１５】
本発明の実行においては、ドキュメントのそれぞれのページをスキャンするスキャナ３１６によって複数のページドキュメント（原稿）の画像が入力され、それらのページのビットマップ画像データがコンピュータシステム３１０に供給される。
画像データはまた、ネットワークインタフェース３２４を通ってネットワークから入力、あるいは、ファクシミリ／モデムインタフェース３２６を通ってＷＷＷ（ＷｏｒｌｄＷｉｄｅＷｅｂ）から入力等のようにスキャナに限らず様々な他のソースからコンピュータシステム３１０に入力される。プリンタ３１８は、処理されたドキュメント画像を出力する為に提供される。
【００１６】
なお、図3に示されるプログラム可能な汎用のコンピュータシステムでも、専用またはスタンドアローンコンピュータあるいは他のタイプのデータ処理装置でも、本発明の実行に利用することができる。
【００１７】
図４は、コンピュータシステム３１０の内部構成例を示す詳細なブロック図である。図４に示されるように、コンピュータシステム３１０は、コンピュータバス４２１とインタフェースする中央演算処理装置（ＣＰＵ）を含む。スキャナインタフェース４２２、プリンタインタフェース４２３、ネットワークインタフェース４２４、ＦＡＸ／ＭＯＤＥＭインタフェース４２６、ディスプレイインタフェース４２７、キーボードインタフェース４２８、マウスインタフェース４２９、メインランダムアクセスメモリー（ＲＡＭ）４３０、ディスク装置３１１もまた、コンピュータバス４２１にインタフェースされる。
【００１８】
メインメモリー４３０は、本発明によるブロックセレクション技法の処理ステップのような記憶された処理ステップを実行するＣＰＵ４２０にＲＡＭ記憶を提供するため、コンピュータバス４２１にインタフェースする。特に、ＣＰＵ４２０は、ディスク３１１からメインメモリー４３０へ処理ステップをロードして、ドキュメント画像の中のテーブルセルの枠に付着したテキストデータを識別し抽出するために、メインメモリー４３０から処理ステップを実行する。
【００１９】
キーボード４１３またはマウス４１４のどちらかを用いて入力されたユーザの指示に従って、他の記憶されたアプリケーションプログラムは画像処理とデータ操作を提供する。例えば、Ｗｉｎｄｏｗｓ用のＷｏｒｄＰｅｒｆｅｃｔ（登録商標）デスクトップワードプロセッシングプログラムは、ドキュメントにブロックセレクション技法を適用する前後にドキュメントを生成し、操作し、見る為に、オペレータによって起動される。同様に、ページ解析プログラムは、ドキュメントページにブロックセレクション技法を施すため、そして、ウィンドウズ環境を介しオペレータにブロックセレクション技法の結果を表示するために実行される。図５Ａ、図５Ｂ、図６にドキュメントの中のテーブルを識別する本発明によるブロックセレクション技法のやり方については、その概略を説明する。
【００２０】
ドキュメントを解析する処理を始めるために、解析されるドキュメントがスキャナ３１６に挿入される。順番に、スキャナ３１６は、ドキュメントを表すビットマップ画像を生成する。その画像データは、さらに処理する為にコンピュータバス４２１を経てディスク３１１を記憶される。ディスク３１１に記憶されたブロックセレクションプログラムは、ドキュメント画像データのブロックセレクション技法を実行する為の処理ステップを含む。
【００２１】
その処理ステップは、メインメモリー４３０に記憶され、ＣＰＵ４２０によって実行される。
【００２２】
上述したように、ブロックセレクション技法の処理ステップは、ドキュメント画像の中の画像データの異なったタイプを識別する。
【００２３】
この説明において、ドキュメントページが図５Ａのドキュメントページ５０１のようなテーブルを含んでいると仮定する。
【００２４】
第一に、本発明によるブロックセレクション技法は、ページの中の連結成分をトレースすることによってドキュメントページの中の画像データを識別することを試みる。連結成分は、白画素によって完全に囲まれた黒画素のグループである。例えば、図５Ａは、それぞれの連結成分であるテーブル５００、５０２、５０４を含んでいるドキュメントページ５０１を示す。連結成分をトレースする為のある技法は、特願平６−３２０９５５（米国出願番号０８／５９６，７１６）に開示されている。
【００２５】
トレースは、選択された部分の右下部から左まで、画像データのその選択部分をスキャンすることによって実行され、縁に達する度に、または、所望するセクションの走査位置に出会う前に方向を変える。もし、黒画素に出会ったならば、いくつかの隣接画素もまた、黒かどうか決定する為に隣接した画素が検査される。一つの隣接黒画素が見つかったら、その隣接黒画素から画像の外側がトレースされるまで、検査を進める。本発明に従えば、ピクチャ５０４のような連結成分の内側の部分をトレースする必要はない。
【００２６】
ピクチャ５０４がトレースされた後、スキャンは新しい黒画素に出会うまで進み、テーブル５００のトレースに着手する。上記の処理は、画像の中の全ての連結成分がトレースされるまで続けられる。
【００２７】
一旦、連結成分がトレースされると、それぞれの連結成分は、矩形化される。例えば、図５Ｂに示されるように矩形化は、トレースされた連結成分を完全に包みこみできる限り小さい矩形エリアを定義することからなる。このように、矩形５０７、５０９、５１０は、テーブル５００とピクチャ５０２、５０４の周りに描かれる。これらの矩形のそれぞれのサイズは、外接連結成分がテーブルかどうか決定するために閾値のサイズと比較される。従って、矩形５０７のサイズは閾値のサイズよりも大きい為、テーブル５００は、それがテーブルかどうか決定する為の処理を更に受ける。
【００２８】
テーブル５００の詳細図は、図６に示される。テーブル５００は、テーブルセル６０１と６０２のようないくつかの独特のセルを含む。テーブルセル６０１は、セル枠に付着していないテキスト（以下「独立テキスト」と呼ぶ）６０４を含む。テーブルセル６０２は、独立テキスト６０５と、セル枠に付着したテキスト（以下「付着テキスト」と呼ぶ）６０６およびセル枠に付着したデータ（以下「付着データ」と呼ぶ）６０７を含む。
【００２９】
テーブル５００がテーブルかどうか決定する為に、テーブルの中の白い輪郭がトレースされる。繰り返すが、この技法は、上述した特願平６−３２０９５５（米国出願番号０８／５９６，７１６）に開示されているので、以下は一般的なことのみを記述する。
【００３０】
白い輪郭は、連結成分に関する上述と同様な方法でトレースされるが、しかし、白画素は、黒画素よりも詳しく調べられる。従って、テーブル５００の内部は右下部から左上部へ白画素についてスキャンされる。最初の白画素に出会ったとき、いくつかの隣接画素もまた白がどうかを決定する為隣接画素が検査される。全ての白い輪郭が、トレースされた黒画素によって囲まれるまでトレースを続ける。例えば、テーブル５００の白い輪郭は、図６に符号６１０で示される。
【００３１】
その内部の白い輪郭に基づくテーブルの識別法の詳細は、特願平８−２２１８３４（米国出願番号０８／５１４，２５２）に開示されている。簡単に説明すると、一旦、テーブル５００内部の白い輪郭がトレースされると、白い輪郭の数はあらかじめ決められた別の閾値と比較される。テーブル５００の場合、白い輪郭の数は、この閾値よりも大きい。従って、テーブル５００は、それがテーブルかどうか決定する為にさらに解析される。
【００３２】
特に、テーブル５００のあるセルに属する白い輪郭６１０は、まとめてグループ化される。例えば、テーブルセル６０２の中の白い輪郭は、矩形エリアを形成するように見えるので、閾値と一まとめにグループ化される。これらの白い輪郭を一まとめにグループ化する為の方法の詳細もまた、前述の特願平８−２２１８３４（米国出願番号０８／５１４，２５２）に開示されている。
【００３３】
これらのグルーブ化された白い輪郭は、連結成分に関して上述したように矩形化される。しかしながら、上述した矩形化とは違って、これらの白い輪郭の矩形化は、グループの中のトレースされた全ての白い輪郭を完全に包み込むもっとも小さい矩形である枠の輪郭を生成する。白い輪郭のグループが矩形化された後、グループレートとして知られる、輪郭がグループ化された頻度が調べられる。
【００３４】
テーブル５００のグループレートが低いため、テーブル５００はテーブルに決定される。このようにして、階層的ツリー構造のテーブルノードは、テーブル５００のそれぞれのセルに対応する子ノードを持つように生成される。それぞれのセルは、セルの中の白い輪郭の矩形化によって生成された枠の輪郭によって外接エリアに等しいエリアをもっていると定義される。同様に、テーブル５００のそれぞれのセルを表すノードは、セルの中の白い輪郭を表す子ノードを持っている。図７Ａおよび７Ｂは、テーブルセルの例を示し、それらは、白い輪郭と枠の輪郭に対応する。
【００３５】
例えば、図７Ａは白い輪郭のトレースが実行された後の「空」のテーブルセル６０３の内部を示す。図７Ａに示されるように、テーブルセル６０３の中に単一の白い輪郭６１０が存在する。なお、白い輪郭６１０はテーブルセル６０３のそれぞれの縁に直接隣接する、または、連結成分が、セルの中に存在する場合、白い輪郭６１０は連結成分に隣接する。同様に図７Ｂは、独立した連結成分６０４を含むテーブルセル６０１の中のトレースされた白い輪郭６１０を示す。
【００３６】
図７Ｃは、トレースされた白い輪郭６１０を示し、テーブルセル６０２の中の７０４、７０６は付着した連結成分６０６および６０７と、独立した連結成分６０５の両方を含んでいる。また、図７Ｃは、排他的なエリアに周囲を囲まれた白い輪郭の中の上述した方法のトレース結果を示す。結果として、トレース後、別の白い輪郭の中に白い輪郭は存在しない。
【００３７】
テーブル５００に戻って、それぞれの白い輪郭の中の連結成分は、矩形化およびそれぞれのセルの中の独立した連結成分を識別とする為に上述したようにトレースされる。この動作が実行された後、階層的ツリー構造は独立した連結成分を表すノードについて更新される。
【００３８】
しかしながら、それぞれの白い輪郭の中の連結成分をトレースしている時、本発明は、図７Ｃに示されるテーブルセル６０２の構成要素６０６のような付着した連結成分をトレースし識別することはできない。特に、上述した輪郭のトレース方法は、テーブルセル６０２に付着した連結成分６０６の辺をトレースすることはできない。付着した連結成分６０６は適切にトレースできないので、矩形化できず、識別もできず、ノードによって表すこともできない。
【００３９】
したがって、テーブルセルの中に付着したテキストデータが存在するかどうか識別する為に、初期の矩形エリアが定義される。例えば、テーブルセル６０３の中に独立した連結成分が無いときは、初期の矩形エリアは図８Ａに示されるように定義される。特に、矩形エリアとして定義される矩形エリア８０１は、枠の輪郭７０８の水平方向の中間点に対して左右に面を置かれ、枠の輪郭７０８の天の１画素下から枠の輪郭７０８の底の１画素上まで伸ばされる。
【００４０】
独立した連結成分がテーブルセルの中に存在する場合、識別された連結成分は、枠の輪郭７０８に関して上述したように矩形化され、それによって、全ての独立した連結成分に外接する矩形が生成される。
【００４１】
図８Ｂに例を示す、テーブルセル６０２の中の文字列「ＡＢＣｈｉｊ」のそれぞれが、テーブルセル６０２に接すると仮定する。この場合、外接矩形エリア８０２の面積は、閾値Ｘ２と比較される。エリアの面積が閾値Ｘ２よりも小さい場合、外接矩形８０２のそれぞれの辺は、黒画素を含んでいる行または列に達するまで拡張される。それらの辺は、一つずつまたは同時に拡張することができる。図８Ｂに示されるように、枠の輪郭７０８から指定の距離において、黒画素に出会った辺は、その最初の位置にとどまる。初期の矩形エリアは、結果矩形８０４として定義される。
【００４２】
テーブルセル６０２に戻り、外接矩形エリアの面積が、あらかじめ決められた閾値Ｘ２よりも大きい場合、初期の矩形エリアは、図８Ｃに示されるような外接矩形エリア８０５として定義される。
【００４３】
一旦、初期の矩形エリアが定義されると、そのエリアは、テーブルセル６０２の中に位置する付着した連結成分を含むように拡張される。
【００４４】
初期の矩形を拡張する為に行または列方向の全体が初期の矩形エリアのある辺に直接隣接する探索エリアが定義される。例えば、図９に示されるように、探索エリア９０１は、初期の矩形エリア８０５に隣接していると定義される。
【００４５】
一旦、探索エリアが定義されると探索エリアの画素はそれぞれ検査される。いくつかの黒画素が探索エリアに存在する場合、初期の矩形エリア８０５は、探索エリアを含むように拡張される。図９Ｂに示されるように、付着した連結成分６０６の為に、初期の矩形エリア８０５の左側の辺が、探索エリア９０１を含むように拡張される。
【００４６】
黒画素が探索エリアで検出されず、かつ、探索エリアと初期の矩形エリア８０５に対向する枠の輪郭７０８の境界９７８との間の距離があらかじめ決められた距離Ｘ３よりも大きい場合、探索エリアは再定義される。
【００４７】
探索エリアは、前の探索エリアに隣接する画素グループとして、前述した枠の輪郭７０８に向かって再定義される。それから処理は上述のようにつづけられる。
【００４８】
黒画素が探索エリアの中で検出されず、かつ、境界９２８までの距離が距離Ｘ３に等しいかまたは小さい場合、連結成分はテーブルセル６０２のこちら側には付着していないと仮定される。拡張された矩形の全ての辺が検査されていないのであれば、新しい探索エリアは、画素の行または列方向が初期の矩形エリア８０５の別の辺に直接隣接する新たな探索エリアが定義され、上記の処理が繰り返される。なお、本発明の別の面によれば、それぞれの辺は同時に拡張される。図９Ｄは、テーブルセル６０２および上記の拡張プロセスが完了した後の拡張された文字エリア９１０を示す。
【００４９】
さらに、上記の拡張処理が完了した後、初期の矩形エリアは今、枠の輪郭７０８の境界上にある黒画素を含む枠の輪郭７０８の中にある黒画素を含む。さらに、この処理の作用によって、拡張された矩形エリア９１０は、テーブルセル６０２の中にある付着した連結成分と独立した連結成分のすべてを含んでいるもっとも小さい矩形になる。
【００５０】
拡張された矩形エリア９１０およびテーブルセル６０２の中の白い輪郭は、拡張されたテキストエリア９１０の中の黒画素のグループを結合するために使われる。黒画素は付着した連結成分を抽出するために結合される。
【００５１】
黒画素を結合するために、拡張された文字エリア９１０の最初の行１００１が選択される。選択された行１００１のなかにある境界画素が識別される。境界画素は選択された白い輪郭の境界上にある特定の行のすべての画素である。例えば、行１００２の画素ｗ１、ｗ２、ｗ３、ｗ４は境界画素である。
【００５２】
識別された境界画素は、テーブルセル６０２の左端から連続的に番号が付けられる。それぞれの白い輪郭が現在選択された行について解析されると、次の行が解析される。そうでなければ、他の白い輪郭が選択される。一つ以上の白い輪郭の境界画素が単一の行にある場合、それらの境界画素には、その行の境界画素に割り当てられた最後の番号から連続的に番号が付けられる。例えば、行１００２の場合、境界画素ｗ１、ｗ２、ｗ３とｗ４が白い輪郭７０４の解析の間に識別される。その後、２つの境界画素が白い輪郭７０４に対応すると識別される。これらの境界画素はそれぞれ番号を付けられたｗ５とｗ６である。なお、このナンバリング体系は単一の行にある境界画素にだけ適用され、そして境界線画素のナンバリングは新しい行が分析されるたびにｗ１にリセットされる。
【００５３】
新しい行が解析される前に、黒い境界画素が識別される。黒い画素は、拡張された矩形エリア９１０の上にある選択された行の黒画素である。例えば、行１００１が選択されると、黒画素Ｐが識別される。
【００５４】
一旦、セル６０２の中の境界画素と黒い境界画素とが識別されると、偶数番号と奇数番号の境界画素間にある黒画素が検出される。例えば、図１０Ｂに示されるように、黒画素は行１００２の境界画素ｗ２とｗ５間、境界画素ｗ６とｗ３の間で検出される。加えて、行１００８の中では、境界画素ｗ２とｗ３間で黒画素が、検出される。このようにして拡張された文字エリア９１０の各行について黒画素が検出される。
【００５５】
本発明は、それから、偶数番号の境界画素と黒い境界画素間にある黒画素を検出する。例えば、行１００１の画素ｗ２と黒い境界画素Ｐの間にある黒画素が検出される。同様に、黒い境界画素と奇数番号の境界画素間にある黒画素が検出される。
【００５６】
検出された黒画素それぞれは、付着した連結成分を形成するために一まとめにグループ化される。例えば、図１０Ｂで、隣接した黒画素は、付着した連結成分「Ａ」を形成するために一まとめにグループ化される。
【００５７】
形成された付着した連結成分は、それが水平線であるかどうか決定するために調べられる。従って、構成要素の高さがあらかじめ決められた閾値Ｘ４よりも小さく、かつ、その構成要素の縦横の比があらかじめ決められた閾値Ｘ５より大きい場合、その構成要素は水平線であると指定される。
【００５８】
同様に、構成要素の幅があらかじめ決められた閾値Ｘ６よりも小さく、かつ、その構成要素の縦横の比があらかじめ決められた閾値Ｘ７よりも大きいとき、その構成要素は垂直線であると指定される。
【００５９】
構成要素の高さまたは幅があらかじめ決められた閾値Ｘ８より小さく、かつ、すべてのテキスト連結成分の天、底または左右のいずれかの辺に、その構成要素が一致する場合、その構成要素はテーブルセル６０２の一部に指定される。
【００６０】
最終的に、構成要素は、その行または列に他の構成要素が置かれているかどうかを決定するために解析される。構成要素の行または列は、水平および垂直線ついて上述したように検査される。構成要素の列または行が垂直または水平線のどちらかの基準を満たすなら、その構成要素は破線で示される。
【００６１】
上記の４つの基準が満たされない場合、付着した連結成分はテキスト成分であると仮定される。したがって、付着したテキスト６０６を表すノードが生成される。
【００６２】
このようにして、テーブルセル６０２の中のテキストはＯＣＲシステムで自動的に処理することができるようになる。その後、キーボード３１３とマウス３１４を利用して、ディスク３１１に記憶されたワードプロセッシングアプリケーションにより、そのテキストはさらに処理することができるようになり、そして完全なドキュメント画像をプリンタ３１８を使って出力することができる。付着したテキスト／文字データを識別し、抽出する操作を図１１Ａ、１１Ｂ、１１Ｃ、１１Ｄのフローチャートと図５から図１０に基づき詳細に説明する。
【００６３】
ステップＳ１１０１で、ドキュメント画像の連結成分がトレースされる。上述したように、そして図５Ａに示されるように、テーブル５００を識別するために、テーブル５００の外側の黒画素がトレースされる。テーブル５００のトレース後、トレース結果は、トレースされた構成要素の大きさが、トレースした成分がテーブルであることを表すあらかじめ決められた閾値の大きさに等しいかまたは大きいかどうかを決定する為のステップＳ１１０２で用いられる。テーブル５００の大きさはそのあらかじめ決められた閾値より大きいと決定された場合、そして画像の識別のステップＳ１１０３に進み、ここで、テーブル５００の中の白い輪郭６１０がトレースされる。
【００６４】
ステップＳ１１０４で、トレースされた連結成分の中の白い輪郭の数が、あらかじめ決められた数より小さいならば、その連結成分はテーブルではない。しかし、テーブル５００の中の白い輪郭６１０の数があらかじめ決められた数より大きければ、フローは、テーブル５００がテーブルであるかどうか決定する為にステップＳ１１０４からステップＳ１１０５に進む。
【００６５】
ステップＳ１１０５で、図７に示され、符号７０８で示される枠の輪郭を形成するために、白い輪郭はグループ化され矩形化される。ステップＳ１１０６で、白い輪郭がグループ化される頻度が、あらかじめ決められたレートより小さい場合、その白い輪郭を含んでいる連結成分はテーブルであると決定される。テーブル５００の場合、その白い輪郭６１０のグループ化レートが小さい為、テーブル５００はテーブルであると決定される。フローは、それからステップＳ１１０７に進む。
【００６６】
ステップＳ１１０７で、テーブル５００の各セルの白い輪郭の中の独立した連結成分が、トレースされる。一旦、これらの成分がトレースされると、それらの成分を表すノードが生成され、階層的ツリー構造の中の独立した連結成分を含む白い輪郭を表すノードから下った位置にそれらのノードが配置される。この時点で、階層的ツリー構造はテーブル５００の中の付着した連結成分を表すノードを含んでいない。
【００６７】
従って、ステップＳ１１０９で、独立した連結成分が存在しないと判定されるならば、フローはステップＳ１１１０に進み、図８Ａに示されるように、初期の矩形エリアが、定義される。
【００６８】
しかし、ステップＳ１１０９で独立した連結成分が存在すると判定される場合、フローは、ステップＳ１１０９からステップＳ１１１１に進む。ステップＳ１１１１で、独立した連結成分は、図８Ｂと８Ｃの矩形８０２と８０５のような外接矩形を形成する為に矩形化される。その後、外接矩形の面積は、ステップＳ１１１２において閾値Ｘ２と比較される。
【００６９】
図８Ｂの矩形８０２の場合のように外接矩形の面積がＸ２より小さい場合、外接矩形８０２の各辺は黒い画素を含んでいる行または列に届くまで拡張される。フローはステップＳ１１１４に進み、そこで、枠の輪郭７０８から指定された距離までに黒画素に出会わなかった辺は、その最初の位置にとどまり、そして初期の矩形のエリアは結果として矩形８０４が定義される。
【００７０】
矩形８０５の場合のように、外接矩形の面積があらかじめ決められた閾値の値Ｘ２より大きい場合、フローはステップＳ１１１５へ進み、そこで、初期の矩形エリアは外接矩形８０５が定義される。
【００７１】
上記ステップに従って定義された初期の矩形エリアは、枠の中で独立した連結成分および付着した連結成分の周りを囲む拡張された矩形エリアを生成する為に使われる。
【００７２】
従って、ステップＳ１１１６で、探索エリアは、初期の矩形エリアのある辺に行または列の全体が直接隣接するように定義される。例えば、図９Ａは、探索エリア９０１が初期の矩形エリア８０５に隣接していることを示す。
【００７３】
探索エリア９０１の中の画素は、ステップＳ１１１７で検査される。黒画素が探索エリアに存在するならば、フローはステップＳ１１１９へ進み、そこで、初期の矩形エリア８０５は探索エリア９０１を含むように拡張される。例えば、付着した連結成分６０６の為に、初期の矩形エリア８０５の左辺は、探索エリア９０１を含む為に図９Ｂのように拡張される。
【００７４】
フローは、ステップＳ１１２０へ進み、そこで、探索エリア９０１は、その中の画素が初期の矩形エリア８０５に対向する枠の輪郭７０８の境界９７８の上にあるかが検査される。そうであるならば、フローはステップＳ１１２４へ進む。そうでなければ、フローはステップＳ１１２１へ進み、そこで、図９Ｃに示されるように、探索エリアは前の探索エリアから枠の輪郭７０８の境界９７８に向かって、前の検出エリアに隣接する画素９０２のグループになるように再定義される。フローは、それからステップＳ１１１７に進み、上述の処理を継続する。
【００７５】
他方、黒画素がステップＳ１１１７で検出されないならば、フローはステップＳ１１２２に進み、そこで、探索エリアと初期の矩形エリア８０５に対向する枠の輪郭７０８の境界９７０との間の距離が、あらかじめ決められた距離Ｘ３と比較される。その距離がＸ３より大きいなら、フローはステップＳ１１２３に進む。ステップＳ１１２３で、探索エリアは、ステップＳ１１２１に関して上述したように再定義される。フローはステップＳ１１１７に戻って、そして上述の処理を継続する。
【００７６】
ステップＳ１１２２において、その距離が距離Ｘ３より小さいかまたは等しいならば、連結成分はテーブルセル５０２のこの辺に付着していないと仮定され、フローはステップＳ１１２４に進む。初期の矩形エリア８０５の４つの辺のそれぞれに隣接している画素が検査されていない場合、フローはステップＳ１１１６に戻り、そこで新しい探索エリアに、オリジナルの初期の矩形エリア８０５の別の辺に直接隣接する画素の行あるいは列として定義される。そうでなければ、フローはそれからステップＳ１１２４からステップＳ１１２５へ進む。ここで、図９Ｄに示されるように、初期の矩形エリア８０５が、テーブルセル５０２の中のすべての付着した連結成分を含むように拡張される。
【００７７】
拡張された文字エリア９１０の最初の行１００１がステップＳ１１２６で解析のために選択される。それから、ステップＳ１１２７で、枠の輪郭７０８の中の白い輪郭が解析のために選択される。ステップＳ１１２９で、選択された行１００１にある境界画素が識別される。境界画素は、選択された白い輪郭の境界の上にある特定の行の全ての画素である。例えば図１０Ａにおいて、行１００２の画素ｗ１、ｗ２、ｗ３およびｗ４は境界画素である。
【００７８】
次に、ステップＳ１１３０で、識別された境界画素はテーブルセル５０２の左を端から連続的に番号を付けられる。ステップＳ１１３１で、それぞれの白い輪郭が、現在の選択行について解析されたと判断されると、フローはステップＳ１１３４に進む。そうでなければ、フローはステップＳ１１３２に進み、そこで、の中で別の白い輪郭が選択される。フローはそれからステップＳ１１２９に戻り、上述した処理を行う。
【００７９】
ステップＳ１１３０で単一の行の解析が繰り返されている場合、識別された境界画素には、その行の境界画素に割り当てられた最後の番号に続く番号が連続的につけられる。例えば図１０Ａにおいて、行１００２の場合、境界画素ｗ１，ｗ２，ｗ３，ｗ４は、白い輪郭６１０を解析している間に識別される。その後、二つの境界画素は、白い輪郭７０４に対応して識別される。これらの境界画素には、それぞれｗ５，ｗ６の番号がつけられる。
【００８０】
上述したように、ステップＳ１１３４は、すべての白い輪郭が単一の行に関して解析されたならば実行される。ステップＳ１１３４は、拡張された矩形エリア９１０にある選択行の黒画素を含む黒い境界画素が識別される。例えば、行１００６が選択されたとき、黒画素Ｐが識別される。
【００８１】
拡張された矩形エリア９１０のすべての行が解析されていないならば、フローはステップＳ１１３５からＳ１１３６へ進み、そこで、拡張された矩形エリア９１０の次の行が選択され、フローはステップＳ１１２７へ戻る。他方、ステップＳ１１３５において、解析された最後の行が拡張された矩形エリア９１０の一番下の行１００４であったならば、フローはステップＳ１１３７へ進み、各行の境界画素が解析される。特に、単一の行の偶数番号と奇数番号の境界画素間にある黒画素が検出される。図１０Ｂに示すように、行１００２の境界画素ｗ２とｗ５間および境界画素ｗ６とｗ３間で黒画素が検出される。さらに、行１００６において境界画素ｗ２とｗ３間の黒画素が検出される。このようにして、拡張された矩形エリア９１０の各行の黒画素が検出される。
【００８２】
ステップＳ１１３８で、偶数番号の境界画素と黒い境界画素間にある黒画素が検出される。例えば、行１００１の画素ｗ２と黒い境界画素Ｐの間にある黒画素が検出される。同様に、ステップＳ１１３８で、黒い境界画素と奇数番号の境界画素間にあるいくつかの黒画素が検出される。
【００８３】
ステップＳ１１３７とステップＳ１１３８で検出された全ての隣接する黒画素は、ステップＳ１１３９で付着した連結成分を形成するために一まとめにグループ化される。例えば、図１０Ｂにおいては、隣接する黒画素は、付着した連結成分「Ａ」を形成するために一まとめにグループ化される。一旦、各付着した連結成分の各黒画素がグループ化され、ステップＳ１１３９で形成された付着した連続した成分は、それらがテキスト成分かどうか決定する為に検査される。
【００８４】
ステップＳ１１４０において、付着した連結成分は、それが水平線かどうか決定する為に検査される。従って、その構成要素の高さがあらかじめ決められた閾値Ｘ４よりも小さく、かつ、その構成要素の縦横の比があらかじめ決められた閾値Ｘ５よりも大きい場合は、フローはステップＳ１１４１に進み、そこで、その構成要素が水平線として指定される。フローはステップＳ１１５０に進む。
【００８５】
付着した連結成分が、ステップＳ１１４０の基準を満たさないならば、フローはステップＳ１１４２に進み、そこで、その付着した連結成分が、垂直線かどうか決定する為に検査される。従って、その構成要素の幅があらかじめ決められた閾値Ｘ６よりも小さく、かつ、その構成要素の縦横の比があらかじめ決められた閾値Ｘ７よりも大きい場合は、フローはステップＳ１１４４に進む。ステップＳ１１４４は、その構成要素は、垂直線として指定され、フローはステップＳ１１５０に進む。
【００８６】
ステップＳ１１４５は、その成分がテーブルセル５０２の一部かどうかを決定する。従って、ステップＳ１１４５で、その成分の高さまたは幅があらかじめ決められた閾値Ｘ８よりも小さく、かつ、その成分が天、底、または枠の中の全てのテキスト連結成分の左右どちらかの辺と同じ場合、フローはステップＳ１１４６に進み、そこで、その成分は、テーブルセル５０２の一部として指定され、フローはステップＳ１１５０に進む。
【００８７】
ステップＳ１１４７で、ほかの成分がその行または列に位置するかどうか決定するためにその成分は解析される。他の成分が位置するならば、成分の行または列が、水平および垂直線について、上述したように検査される。その成分の行または列が、水平または垂直線のいずれかの基準を満たすならば、その成分は、ステップＳ１１４８の中で破線の一部として指定される。フローはそれから、ステップＳ１１２０に進む。
【００８８】
ステップＳ１１４０、Ｓ１１４２、Ｓ１１４５またはＳ１１４７で示した必要条件が満たされないならば、ステップＳ１１４９で、付着した連結成分はテキスト成分であると仮定される。従って、独立テキスト６０６を表すノードが生成される。
【００８９】
フローは、それから、ステップＳ１１５０に進み、テーブルセル５０２の中に未解析の付着した連結成分があるならば、フローはステップＳ１１４０に戻る。全ての付着した連結成分が解析されたならば、本発明のフローは終了する。
【００９０】
なお、本発明は、いくつかのページ解析システムを一まとめにしてもよく、上記したブロックセレクション技法に制限されない。さらに、本発明は、装飾用の境界線などのように、枠がテーブルのセルを表すかどうかにかかわらず、外接する枠に付着したテキストデータを識別し、抽出するために利用することができる。
【００９１】
本発明に関して、現状を考慮した好ましい実施形態を上述したが、本発明は、上記の実施形態に制限されるものではない。
【００９２】
反対に、本発明は様々な変形をカバーするように意図され、それと等しい構成が特許請求の範囲およびその精神に含まれている。
【００９３】
【他の実施形態】
なお、本発明は、複数の機器（例えばホストコンピュータ，インタフェイス機器，リーダ，プリンタなど）から構成されるシステムに適用しても、一つの機器からなる装置（例えば、複写機，ファクシミリ装置など）に適用してもよい。
【００９４】
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはCPUやMPU）が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。プログラムコードを供給するための記憶媒体としては、例えば、フロッピディスク，ハードディスク，光ディスク，光磁気ディスク，CD-ROM，CD-R，CD-R/W，DVD-ROM，DVD-RAM，磁気テープ，不揮発性のメモリカード，ROMなどを用いることができる。
【００９５】
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS（オペレーティングシステム）などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【００９６】
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【００９７】
【発明の効果】
以上説明したように、本発明によれば、テーブルセルの枠に付着したテキストデータを識別し抽出する為の情報処理装置およびその方法を提供することができる。
【００９８】
【図面の簡単な説明】
【図１】ドキュメントページの概要を示す図、
【図２】ブロックセレクション技法によって作られた階層的ツリー構造の概要を示す図、
【図３】本発明にかかる一実施形態の情報処理システムの構成例を示す図、
【図４】本発明にかかる一実施形態の情報処理装置の構成例を示すブロック図、
【図５Ａ】連結成分の輪郭トレースを説明するための図、
【図５Ｂ】連結成分の輪郭トレースを説明するための図、
【図６】解析されるドキュメントの中のテーブルの概要を示す図、
【図７Ａ】白い輪郭のトレースを説明するための図、
【図７Ｂ】白い輪郭のトレースを説明するための図、
【図７Ｃ】白い輪郭のトレースを説明するための図、
【図８Ａ】初期の矩形エリアを定義する方法を説明するための図、
【図８Ｂ】初期の矩形エリアを定義する方法を説明するための図、
【図８Ｃ】初期の矩形エリアを定義する方法を説明するための図、
【図９Ａ】初期の矩形エリアを拡張する方法を説明するための図、
【図９Ｂ】初期の矩形エリアを拡張する方法を説明するための図、
【図９Ｃ】初期の矩形エリアを拡張する方法を説明するための図、
【図９Ｄ】初期の矩形エリアを拡張する方法を説明するための図、
【図１０Ａ】付着した連結成分を形成するための黒画素をグループ化する方法を説明するための図、
【図１０Ｂ】付着した連結成分を形成するための黒画素をグループ化する方法を説明するための図、
【図１１Ａ】連結成分に付着したテキストを識別し抽出するための方法を示すフローチャート、
【図１１Ｂ】連結成分に付着したテキストを識別し抽出するための方法を示すフローチャート、
【図１１Ｃ】連結成分に付着したテキストを識別し抽出するための方法を示すフローチャート、
【図１１Ｄ】連結成分に付着したテキストを識別し抽出するための方法を示すフローチャートである。

Claims

ドキュメント画像データを解析してテーブルの枠に付着するテキスト成分を識別する情報処理装置における情報処理方法であって、
第一トレーシング手段が、ドキュメント画像データに含まれる黒画素の連結成分をトレースする第一トレーシングステップと、
第二トレーシング手段が、前記第一トレーシングステップで得た連結成分内において、白画素の輪郭をトレースする第二トレーシングステップと、
第一定義手段が、前記第二トレーシングステップでトレースされた白画素の輪郭に基づいて、テーブルの枠の輪郭を定義する第一定義ステップと、
第二定義手段が、前記枠の輪郭内に初期エリアを定義する第二定義ステップと、
生成手段が、拡張処理として、前記枠の輪郭内において探索エリアを定義し、該定義した探索エリアに黒画素が存在すると判断した場合は該探索エリアを含むように前記初期エリアを拡張する処理を実行し、該拡張処理後の初期エリアを文字エリアとして生成する生成ステップと、
識別手段が、前記文字エリア内における前記白画素の輪郭の境界に基づいて黒画素を検出し、当該検出した黒画素のうち隣接する黒画素をグループ化した結果に基づいて前記テーブルの枠に付着するテキスト成分を識別する識別ステップと、
を有することを特徴とする情報処理方法。
前記第二定義ステップでは、前記白画素の輪郭内において枠に付着していない黒画素の連結成分が検出され、当該検出された枠に付着していない黒画素連結成分に基づいて、前記初期エリアが定義されることを特徴とする請求項１に記載の情報処理方法。
前記第二定義ステップでは、前記枠の輪郭内における予め定められた位置に前記初期エリアが定義されることを特徴とする請求項１に記載の情報処理方法。
前記第二定義ステップでは、前記白画素の輪郭において枠に付着していない黒画素の連結成分が検出されたかどうかが判断され、
前記枠に付着していない黒画素連結成分が検出されたと判断された場合は、前記枠に付着していない黒画素連結成分に基づいて前記初期エリアが定義され、
前記枠に付着していない黒画素連結成分が検出されなかったと判断された場合は、前記枠の輪郭内における予め定められた位置に前記初期エリアが定義されることを特徴とする請求項１に記載の情報処理方法。
前記識別ステップでは、前記文字エリア内の連結成分の高さと幅と縦横比とに基づいて、テキスト成分が識別されることを特徴とする請求項１に記載の情報処理方法。
前記生成ステップでは、前記拡張処理を行った後に、前記探索エリアを再定義して該拡張処理を繰り返し実行することで、前記文字エリアを生成することを特徴とする請求項１に記載の情報処理方法。
前記生成ステップでは、前記定義した探索エリアに黒画素が存在しないと判断した場合は、前記探索エリアが前記枠の輪郭から予め定められた距離内にあるか否かを更に判断し、該距離内でないと判断した場合は前記探索エリアを再定義して前記拡張処理を行い、該距離内であると判断した場合は、当該黒画素が存在しないと判断された探索エリアによる拡張を行わずに前記初期エリアの対応する辺についての拡張処理を終了することを特徴とする請求項１乃至６のいずれか１項に記載の情報処理方法。
第三定義手段が、前記識別ステップで識別されたテキスト成分をノードとして有する階層ツリー構造を定義する第三定義ステップを、更に有することを特徴とする請求項１に記載の情報処理方法。
前記第一定義ステップでは、前記トレースされた白画素の輪郭がグループ化され矩形化されることにより、前記枠の輪郭が定義されることを特徴とする請求項１に記載の情報処理方法。
ドキュメント画像データを解析してテーブルの枠に付着するテキスト成分を識別する情報処理装置であって、
ドキュメント画像データに含まれる黒画素の連結成分をトレースする第一トレーシング手段と、
前記第一トレーシング手段で得た連結成分内において、白画素の輪郭をトレースする第二トレーシング手段と、
前記第二トレーシング手段でトレースされた白画素の輪郭に基づいて、テーブルの枠の輪郭を定義する第一定義手段と、
前記枠の輪郭内に初期エリアを定義する第二定義手段と、
拡張処理として、前記枠の輪郭内において探索エリアを定義し、該定義した探索エリアに黒画素が存在すると判断した場合は該探索エリアを含むように前記初期エリアを拡張する処理を実行し、該拡張処理後の初期エリアを文字エリアとして生成する生成手段と、
前記文字エリア内における前記白画素の輪郭の境界に基づいて黒画素を検出し、当該検出した黒画素のうち隣接する黒画素をグループ化した結果に基づいて前記テーブルの枠に付着するテキスト成分を識別する識別手段と、
を有することを特徴とする情報処理装置。
ドキュメント画像データを解析してテーブルの枠に付着するテキスト成分を識別する情報処理方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読取可能な記録媒体であって、前記方法は、
ドキュメント画像データに含まれる黒画素の連結成分をトレースする第一トレーシングステップと、
前記第一トレーシングステップで得た連結成分内において、白画素の輪郭をトレースする第二トレーシングステップと、
前記第二トレーシングステップでトレースされた白画素の輪郭に基づいて、テーブルの枠の輪郭を定義する第一定義ステップと、
前記枠の輪郭内に初期エリアを定義する第二定義ステップと、
拡張処理として、前記枠の輪郭内において探索エリアを定義し、該定義した探索エリアに黒画素が存在すると判断した場合は該探索エリアを含むように前記初期エリアを拡張する処理を実行し、該拡張処理後の初期エリアを文字エリアとして生成する生成ステップと、
前記文字エリア内における前記白画素の輪郭の境界に基づいて黒画素を検出し、当該検出した黒画素のうち隣接する黒画素をグループ化した結果に基づいて前記テーブルの枠に付着するテキスト成分を識別する識別ステップと、
を備えることを特徴とする記録媒体。