JPH05500874A

JPH05500874A - ディジタル化書類における選択本文の自動抽出のための多角形準拠式方法

Info

Publication number: JPH05500874A
Application number: JP3510219A
Authority: JP
Inventors: リー，ヨンチュン
Original assignee: イーストマン・コダック・カンパニー
Priority date: 1990-05-21
Filing date: 1991-05-20
Publication date: 1993-02-18
Also published as: US5048099A; WO1991018368A1; EP0483343A1

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】菫寸（□１頓□ ■ム及の多方！］奥式方抹創肪野この発明は一般に画像処理技法に、更に詳細には、紙準拠式書類において任意の大きさ及び形状の手書きの閉した曲線で囲まれた関心のある本文領域の抽出をその書類のディジタル化画像における本文の自動抽出により可能にする本文領域抽出技法に関係している。

発酉凶宵景計算機準拠弐システムが紙準拠式書類の自動化解析及び翻訳を今では与えることができるということの実現化にますます強調が置かれている。祇準拠式文書化（ドキヱメンテーシヲン）から計算機化された記憶及び検索システムへの動きは電子式書類環境から得られるはずの多くの利点によって促進されてきている。明確な利点は記憶、伝送及び検索の効率であるが、これはほとんどすべての種類の紙１！拠式情報が計算機化形式においてより効率的に処理され得るからである。計算機化形式により与えられる書類更新及び改訂能力は祇準拠式媒体に比べての最も重要な利得であろう。画像改訂及び更新をシステムが可能にするためには、ディジタル形式でデータを再生成する代わりにデータ捕獲過程を自動化することが必要である。従って、編集を容易にし且つ記憶量及び処理時間を減少させるために（ピントマツプの代わりに）書類における図形要素の記述を生成することが必要である。

自動語処理装置は成文書類を経済的な且つ時間節約的な方法で作成し、変更し、記憶するために事務所においてますます使用されている。そのような装置は、誤り訂正、新しい本文の節の挿入、異なった出所を有する二つ以上の本文の組合せ、並びに本文の節に対応するデータの任意の再現及び電子的記憶を行う能力を持っている。そのような自動語処理装置の、通常のタイプライタに比較しての利点は、そのような装置により生成され得る成文書類の作成における融通性及び時間節約、並びにこれらから生しるより高い効率である。自動語処理装置の使用と関連した特に時間を消費する段階は記憶及び／又は更なる処理のための、紙上に既に存在する情報の自動語処理装置への転送である。

大量の本文のキーボードによる手動転送は極めて時間ががかり、従って本文に含まれた情報を語処理装！へ自動的に転送するために種種の方法及び装置が開発されている。一つのそのような装置は図面などを読み取ってデータを計算機に入力するためのディジタイザなどであり、これにおいては座標のための読取り表示器が線の端点及び難儀又は曲がり点のような特徴点まで手動で移動されて、読み取られた座標が計算機において記憶されるようになっている。この場合には、線の識別も又別の装置によって手動で計算機へ入力される。この方法による線の識別は人間のパターン認識能力によって行われ、字体はディジタル化動作が完全に自動化されるのを明確に阻止する。

本文の節に含まれた存在情報の語処理装置への自動転送における問題は、そのような本文の節が生しるマスクが又図形及び／又は画像区域を含むことができることである。マスクにおけるこれらの種種の形式の情報区域を自動的に識別し、分離し且つ記憶して、これらの種種のマスク区域を表現するデータの最適符号化を達成し且つ又語処理装置（ワードプロセッサ）内でこれらの区域を表現するデータの別別の操作を可能にするようにすることが技術上の問題点である。

過去においては、ディジタル化書類において本文又は文の諸領域を除去又は切除するためには、切除されるべきである選択本文の周りの窓位置（長方形区域）を操作員が指定できるようにするために「マウス」と共に対話式ソフトウェアパッケージの援助を必要とした。しかしながら、操作員が低置類上に境界を手書きすることにより本文領域を選択し、そして書類が走査された後にディジタル領域における４ｊｉ識付き領域を計算機に自動的に抽出させることがより自然であり且つ容易である。この形式の本文抽出は手書き成分を識別してディジタル書類におけるそれの空間座標を見つけるためのアルゴリズムを必要とする。識別された手書き曲線の境界座標は次に、手書き境界の外側の外部本文から一体的本文資料を分離するために使用される。

従来技術の実施は、書類が種種の大きさ及び樺式の文字を持っているときには手書き曲線を識別することが不可能であった。面積（又は大きさ）しきい値は手書き成分の大きさが文字の若干数のものより小さいときにはその小形手書き成分を抽出しそこなう６手書き曲線は任意の形状であり得る拘束のない記号であるので、手書き記号に関する事前の情報なしで手書き記号の認識のためにパターン認識技法（統計的又は構造的解析）を使用することは不可能である。

この発明は書類における任意の大きさ又は形状の手書き閉曲線を識別するためにしきい値のない技法を用いて上に言及した諸問題を克服する。識別された曲線の境界座標は次に曲線の内側の本文を見つけるために使用される。外部本文資料を消すことによって、出力画像は選択されている所望の本文だけを含むことになる。

発皿Ω開示この発明は画像処理に向けられており、本文を抽出する方法を開示しているが、この方法においては低置類上の関心のある本文領域が任意の大きさ又は形状の手書き閉曲線で囲まれて、囲まれた本文領域が書類のディジタル化された後に（ビットマツプ画像の形式における電子式書類）自動的に抽出され得るようになっている。この方法は手書き成分を識別するために輪郭の幾何学的空間関係の技法を用い且つこれらの輪郭をこれに囲まれた所望の本文資料の抽出のために用いる。

凹面二固単広説皿図１は標識付き書類の例を示しており、図２は画素近傍及び画素捜索順序を示しており、図３ａは単一のベクトルによって置き換えられる多数の短いほとんど一致するベクトルを生じることになる多角形の線形近イ以を線図で図解しており、図３ｂは置換ベクトルからの偏差が決定される方法を図解しており、図４はパラメータ「Ｒ」が決定され且つ計算される方法を線図で図解しており、図５はブロック区分化の例を示しており、図６は幾何学的に連続された輪郭を図解するための図式例を示しており、図７ａは内部角から角度の和を計算する方法の図解例であり、図７ｂは外部角から角度の和を計算する方法を図解しており、図８は書類から標識付き本文領域を抽出するために使用される手順の流れ図であり、図９は図７に図解された輪郭連結段階の流れ図であり、スス１０は図１からの手書き曲線抽出の結果を図解している。

発ユ炎実施ｔａ方法この発明は図１に示されたように書類１０においてダークペン１２により囲まれた本文領域を自動的に抽出するための能力を与える。標識付き書［１０は低置類を電子式書類（ピントマツプ画像）に変換するために走査され又はディジタル化される。

輪郭ベクトル化は所望の本文領域の抽出を実施するために必要とされる数段階における最初のものである。輪郭ベクトル化は電子式書類を多角形の集まりへ変換する。この変換は輪郭画素追跡に続く輪郭画素の区分的線形近似を必要とする。

輪郭画素追跡動作は水平方向に画素を走査することによって始まる。０から１への遷移が検出されると、追跡動作は回転順序に輪郭を追跡して最後には開始点に戻って輪郭を完成する。捜索が行われる回転順序は図２に図解されている。画素 ρ１は書類ページを左から右へ走査することによって検出された遷移である中心画素がρ１、最初の遷移、である図２０に示された３×３格子を用いて、次の遷移が見つけられるまで図２０の指定捜索順序１〜８で捜索が行われる。この例ではρ２が３×３格子のセル番号３において見つけられた。この画素はモジュール８算術を用いて以前の方向に４の値を加算して、その結果に１を加算するという規則を用いて見つけられた。図２ｂにおけるρ２は今度は同じ捜索順序での３× ３格子における中心画素であり、従ってセル３において遷移が見つけられる。

捜索における次の画素は方向８における画素から始まる。この過程は閉した輪郭が完成されるまで繰り返される０輪郭追跡の完了後、次の遷移を見つけるために走査が再開されて、それから次の輪郭を追跡する。この過程は最後の輪郭が完成されるまで繰り返される。輪郭追跡過程は、結果として生じる輪郭の集まりがデータ記憶のためにより少ない記憶量を必要とし且つ黒区域の輪郭だけが記憶されるので、後程の手書き曲線抽出のために二つの主な利点、輪郭分離及びデータ圧縮、を与える。輪郭追跡規則に従って、外側輪郭は時計回りに行き、且つ内側輪郭は逆時計回りの方向にある。輪郭方向は輪郭画素の順序に固定されている。それは外側及び内側輪郭の識別のための有効な特徴である。

区公的線形近似法区分的線形近（以過程は共線的画素を合体させることによって一連の輪郭画素を一連のベクトルへ変換する。閉した境界を形成する一連のベクトルは図３に示されたような多角形になる０区分的線形近似過程は反復中に鋭い角の検出を可能にする内積制約を課することによって幾分変更される０輪郭画素を順次走査して、同じ直線上にある連続した画素をベクトルへと合体させる。これは図３に示されたように一連の短いベクトルで構成された多角形を形成する。多角形の頂点は（Ｖｉ　、Ｖｔ　、Ｖｓ　・・・Ｖｉ　・・・Ｖｎ）によって示されている。任意の二つの連続したベクトル（例えば、Ｖｉ及びＷｉｌｌ）の正規化内積の計算は且つ＝ｌ≦Ｉｉ≦１任意の三つの連続した点ｖｉ−１、ｖｉ　、Ｗｉｌｌを考えることにより、■、 −２、■４．．は三角形ｖｉ−１％　ｖｉ　、Ｗｉｌｌの辺を形成する。線分Ｖｌ−１、ＷｉｌｌはΔ−ｖ＋−１　ｓ　ｖｉ　、Ｗｉｌｌの底辺である。Δｖｉ −１＋　ｖｉ　、ｖｉｏｌの高さは、Ｖｉ−１、ｖｉ及びＶｌ　％　ｖｉ−１の系列をｖｉ−１、Ｗｉｌｌに近似させるための偏差として役立つ、この偏差が所定のしきい値（ε）より小さく且つＩｉが所定の負の値より大きければ、上に記述された近僚子が適用される。そうでない場合には、部分Ｖ、は保持され且つ次の二つの連続した線分が線形返信にさらされる。

図３ｂにおいてはベクトルＶｌ−Ｉ　Ｖｉ及びＶｉ　Ｖ１＊１が示されており、置換ベクトルｖｉ−１ｖｉ。１からの偏差であるｄに対する値が所与の値より下であるならば、！喚が行われる。しかしながら、ｄが所定の値より上にある場合には、原初ベクトルは保存される。ｄの値は、ｄ−ｘ　ｉ　Ｃｘｒ−＋　）’ｔ−＋　）　）’＋　（ｘｔ−＋　Ｘｌ−１）　＋　（ｙ＋−＋　ｘｒ、＋　ｘｌ−＋　）’１．＋　）によって与えられる。従って、鋭い角の保存は、反復中に二つの連続したベクトルのそれぞれの正規化内積値をめて、この値が負のしきい値より小さいときには線分合体演算子を飛び越すことによって実施される。鋭い角における辺線分の内積は負の値でなければならないので、負のしきい値が選択される。それゆえ、正規化値が小さいほど、それが示す角は鋭い、この特定の応用に対しては、しきい値はラジアン単位で−１と０との間にある負の値に設定される。この制約を区分的線形近似法に組み込むことによって、この方法は鋭く曲がる鋭角の角を保存すると共に変化の多い短い線分を平滑化することが判明した。注目されるべきことであるが、この能力は線形近位法が線状対象物に適用されるときには特に重大である。注目されるべきことであるが、区分的線形近似法アルゴリズムの動作中に、平滑化しきい値は１で始まって所定値まで増分され、且つ線形近位法において得られるひずんだ結果を最小化するために反復が進行する。

完成されると、輪郭ベクトル化過程はビノトマンプ画像を単純な多角形の集まりへ変換する。この多角形表現は手書き曲線及びこれらの曲線により囲まれた情報の抽出が、より少ない記憶量を必要とする、より小形の多角形領域において行われることを可能にする。

び外　の書類の輪郭ベクトル化の結果として生成された未相関多角形の群は更なる処理のために類別化されなければならない。従って、多角形は二つの群、すなわち内側多角形及び外側多角形、に分離され、そしてこれらは次に、対称物復元の速度を上げ且つ手書き曲線の識別を容易にするために使用されることができる。

輪郭方向識別パラメータ（Ｒ）は次のように定義される。すなわち、ここで、Ｘ、及びｙ、は多角形頂点の座標であり、又ｎは頂点の数である。

それゆえ、正のＲを持った多角形は外側輪郭（時計回りの方向）を意味する。

内側輪郭多角形（逆時計回り）は負のＲによって表示される。そこで多角形のリストを走査し且つＲの値を検査することによって、多角形の集まりは二つの群− 内側及び外側−へ分類される。

ズ旦ヱ又区光化この過程は外側多角形集合及び内側多角形集合を図４に図解されたようにそれぞれ幾何学的により相関のある下位群へと区分化される。それは対象物復元のための連結過程を外側輪郭及び内側輪郭の各下位群に対してより効率的にする。

群分けはまず多角形成分を分類してこれを幾何学的最高−最低順序のリストにおくことにより行われる。クインクソート（ＱｕｉｃｋｓｏｒＬ）のような欅準ソータアルゴリズムは権利が存在していないが、これにおいては多角形境界決定箱形の角座標のｙ値が分類用基本値としてとられる。次に、分類された成分は区分化点を検出するために走査される。区分化点は上方座標（ＵＹｉＪから下方座標（ＬＹ、）を減算したものが正の値を生しることになるときに見つけられる（図４）、ここで、ｉ及びｉ＋１は分類リストにおける二つの連続した成分を示しており、又ＵＹ、及びＬＹ、はそれぞれ垂直方向における多角形の境界決定箱形の上方及び下方座標である。正の値は分類リストにおける連続した多角形間の水平射影における物理層内ギャップ（非電なり合い）を意味する。それゆえ、内空間が検出されたときには、新しいブロック区分が見つけられる。プロ・ンク区分化の図式例が図４に示されている。同じ区分化ブロックに割り当てられた多角形は水平方向において密接な幾何学的連結を有する傾向がある。

輸昇迷績この過程は外側及び内側多角形の座標の幾何学的関係を検査して、それが幾何学的に連結されているかどうかを見る。例えば、文字が閉曲線の境界の内側にあるときにはその文字は手書き曲線に幾何学的に連結している。幾何学的連結多角形は群分けされて構成要素（エンティティ）として取り扱われる。図５は連結多角形の例を示している。内側輪郭＃１はそれぞれ外側輪郭＃１、＃２、＃３、＃４と幾何学的に連結されている。

連結過程に対する流れ図は次の表記法により図７に示されている。

０ｉｊ−ｉ番目の外側多角形ブロックにおける３番目の要素、Ｉｉ鋼−１番目の内側多角形ブロックにおけるｍ番目の要素、Ｍｉ＝ｉ番目の外側多角形ブロックにおける要素の数、Ｎ１＝ｉ番目の内側多角形ブロックにおける要素の数、Ｓ　＝区分化ブロックの数、この過程は各外側輪郭（Ｏｉｊ）を走査して、幾何学的に外側輪郭を取り囲む又は外側輪郭の内側に入る内側輪郭（Ｉ　ｉｓ）を連結する。この幾何学的連結は図６に示されたように角度の和（Ａ）の計算によって表示される。例えば、内側多角形の頂点に関する外側輪郭の中心点の角度和（Ａ）が０であるならば、外側輪郭は内側輪郭の内部に存在しなければならなず、幾何学的連結が確立されている。従って、連結過程はことごとくの内側及び外側成分間で進行し、対象物構成要素のリストを生成する。各構成要素における主要素は外側多角形であり、内側輪郭の二つの集合を上槽する。第１集合は主要素を取り囲んでいる「外部内側多角形」と呼ばれ、又第２集合は主要素の境界の内側に配置されている「内部内側多角形」と呼ばれる。図５は外側及び内側輪郭の連続結果を示している。例えば、外側輪郭（主要素）＃３は内側輪郭＃１（外部内側多角形）及び内側輪郭＃２（内部内側多角形）を指摘する。

本文硬堰迫聞手書き曲線識別は、対象物構成要素のリストを走査して、「外部内側多角形」が存在しているかどうか検査することによって達成されるが、これは外側輪郭を取り囲む任意の内側輪郭部を検出する。それが見つけられたならば、「外部内側多角形」は手書き閉曲線の内側輪郭でなければならない。これは又外側多角形の位置が選択本文領域の一部分でなければならないことを意味する０図９は、同し外部内側多角形を指摘している走査リストにおける外側多角形の境界座標を集めることによる図１に示された書類画像からの手書き閉曲線の抽出内側輪郭を示しており、境界決定区域の和は手書き曲線の境界により制限された所望の本文領域を形成するように集められている。この過程が何らのしきい値決定過程を含んでいないことに注目することは重要であり、この過程は本文の全ページを有する書類から任意の大きさ及び形状の手書き閉曲線を抽出するために適用可能である。

段階４０は低置類をディジタル画像へ変換する走査器を用いて標識付き低置類をディジタル化する。ディジタル画像は二次元配列のセルによって表現されている。

各セルにおける値は「１」又は「０」である。黒い点（ドツト）は「１」によつて表示され且つｒ　Ｑ　、、Ｉは白い点に対するものである。このディジタル化は段階４２において言及したビ、トマノブ（二進値）画像を生成する。段階４４において、輪郭ベクトル化は任意の県パターンの輪郭を抽出し、抽出された輪郭は多角形−一連のへクトルーにおいて表現される。輪部ベクトル化は二つの過程 −輪郭画素追跡及び輪郭画素の線形近似−で構成されるでいる。これらの過程は両方弁上で詳細に記述されている。

ベクトル化過程の結果として、多角形の集まりが段階４６において生成された。

段階４日は多角形の集まりを多角形の順次のベクトルの回転方向に基づいて二つの群へと分離する。この方向は上に説明されたＲの値によって表示される。段階５０及び５２において、近接した多角形はそれぞれ内側輪郭又は外側輪郭として群分けされ、これによって連結動作が後程より効率的に実施されるようになることを可能にする。段階５４及び５６においては多角形の二つの集合が分離されてこれらはそれぞれ内側輪郭及び外側輪郭と関連するようになる。段階５８及び６゜において多角形はその空間座標に基づいて分類されて、すべての内側多角形及びすべての外側多角形が幾何学的最高−最低順序におかれる。段階６２及び６４はブロックの区分化点を検出する。前に説明されたような区分化点は二つの連続した多角形間の水平射影における物理層内空間が検出されたときに形成される。

段階６６及び６８においては多角形の二つの集合が形成されて各ブロックが水平方向に近接した多角形の集まりを含んでいる。図８に示されたように輪郭連結は段階７０において行われる。段階７２においては、任意の他の内側輪郭により取り囲まれた外側輪郭によって定義された外部内側輪郭が識別される。段階７４において、外部内側輪郭は手書き閉曲線の内側輪郭として定義される。同し外部内側多角形を指摘している走査リストにおける外側多角形の境界決定座標を集めることによって、集められている境界決定区域の和は手書き曲線の境界により制限された所望の試験領域を形成する。

図８は外側輪郭及び内側輪郭を輪郭連結することに関係した手順に対する流れ図を図解している。段階８０において指数１、ｊ及びｍはプログラム開始させるために１に設定される。段階８２において、プログラムは、１番目の外側多角形ブロックにおシする３番目の多角形要素の読取りを要求する。多角形素子は０１」　と名づけられている。Ｉｉｍ多角形要素の読取りは段階８４においてＪｉｍ内側多角形ブロックにおいて行われる。多角形要素はＩｉｍと名づけられている。

段階８６は多角形（Ｏｉｊ）の境界箱形の中心座標Ｃｏｕｔを計算する。同様に段階８８は多角形（Ｉｉｊ）の境界決定箱形の中心座標（Ｃｉｎ）を計算する。

段階９ｏは図６に示されたパラメータＡを用いてＯｉｊ　とＩｉ−との間の幾何学的空間関係を検査する。Ｃｏｕ　ｔが角測度のための内部固定点として取られたならば、内側多角形（Ｉｉｍ）が多角形を取り囲むために使用される。又は、点Ｃｉｎが取られたならば外側多角形（Ｏｉｊ）が使用される６次に、パラメータＡの値が２πの段階９２におＧ゛ては、外側多角形（Ｏｉｊ）及び内側多角形（ｌ　１１１）は同し対象物として考察される。実施中に二つの多角形を連結するためにポインタが設定される。段階９４は１番目の内側多角形ブロックから次の内側多角形を読み取るために指数ｍを増大する。段階９６において、（ｉ（Ａ）が０であるならば、内側多角形指数ｍを１だけ増分することによって次の内側輪郭を読み取る。段階９８においては、ｍが１番目の内側多角形プロ、りにおける多角形の数（Ｎｉ）より小さければ次の多角形を処理することが決定される。

段階１００において、指数ｍがＮｉより大きければ、内側多角形指数ｍ（＝１）をリセットし、そして外側多角形指数を１だけ増分することによって次の外側多角形を読み取る。段階１０２は、ｉ番目の外側多角形プロ、りにおいて最後の多角形が読み取られるまで処理段階８２ないし１００を継続する。段階１０４においては、次の多角形の処理がブロック指数の増分により継続され、そして外側多角形指数Ｊをリセットする。段階１０６はデータが空になるまで上の過程が継続されることを要求する。

１占　び　上のこの発明は全ページの本文を有する書類において標識付き本文６ｉ域の自動化抽出を与える計算機準拠式システムにおいて有効である。この発明は輪郭の幾何学的空間関係を用いて手書き成分を識別しそしてこれの座標を所望の本文資料の抽出のために利用する。この発明の利点は何らのしきい値又はパターン認識方法を用いることなく任意の大きさ及び形状の手書き曲線を識別し且つ見つける際のそれの強固さにある。

ＦＩＧ、　／ＦＩＧ、３ｂ？）側（邦婢１１Ｆ看吹Ａす！Ｋｌ涜＾ＦＩＧ、８Ｃ＝＝＝：＝：＝＝ＤＦＩＧ、　１０ディジタル化書類における選択本文の自動抽出のための多角形準拠式方法斐−１灯−」閉曲線を構成する任意の大きさの任意の手書き形状で包囲された領域における本文を抽出するためにしきい値のないアルゴリズムが使用される。この技法の使用は操作員が祇準拠式書類における本文資料の強度領域を選択し且つ書類のディジタル化画像における包囲本文の抽出を自動化することを可能にする。

国際調査報告

Claims

【特許請求の範囲】

１．紙書類をラスタ走査する段階、書類が走査されるにつれて書類のビットマップ表現を生成して、遷移が検出されるたびに輪郭ベクトル化を使用してビットマップ表現を一連のベクトルにより形成された閉多角形の集まりへ変換するようにする段階、多角形の集まりを内側及び外側群の輪郭へ分類する段階、内側及び外側輪郭のすべてをそれらのそれぞれの群における位置に従って分類する段階、重なり合う輪郭が互いに幾何学的に関係づけられるように各群の分類輪郭における区分化点を決定する段階、水平方向における幾何学的関係を有するすべての多角形について多角形ブロックを確立する段階、輪郭連結を用いて多角形の外側及び内側の両輪郭の座標の幾何学的関係を検査し、それらが幾何学的に重なり合っているかどうかを決定する段階、連結多角形のリストを走査して多角形の外部内側輪郭を見つける段階、並びに前記のビットマップ表現書類から手書き閉曲線の多角形の内側輪郭を抽出する段階、によって特徴づけられた、紙書類における標識付き本文領域を抽出する方法。
２．前記の輪郭ベクトル化が輪郭画素追跡及び区分的線形近似の両段階によって特徴づけられている、請求項１に記載の方法。
３．内側及び外側群の輪郭のための分離基準が方程式▲数式、化学式、表等があります▼ により与えられたクロス乗積の和によって作られ、ここで正のＲが外側輪郭を表示し且つ負のＲが内側輪郭を表示している、請求項１に記載の方法。
４．上方座標（ＵＹｉ−１）から下方座標（ＬＹｉ）を減算した結果が正の値であるときに区分化点が決定される、請求項１に記載の方法。
５．幾何学的連結を示す外側輪郭の中心点の角度和が、多角形の内側の成分に対してはＡ＝Σθｉ＝２π多角形の外側の成分に対してはＡ＝Σθｉ＝０である、請求項１に記載の方法。
６．更なる段階が外部内側輪郭の外側に配置された画素に対して画素値を０に設定する、請求項１に記載の方法。
７．ａ）紙書類の画像をディジタル化して書類のビットマップ表現を形成する段階、ｂ）ビットマップ画像から輪郭ベクトルの集合を抽出する段階、及びｃ）書類における包囲本文領域を抽出する段階、によって特徴づけられた、紙書頬における包囲本文領域を抽出する方法。
８．紙書類上の選択データ領域をマーカを使用して閉曲線で包囲する段階、前記の紙書類をディジタル化する段階、輪郭の幾何学的空間関係の技法を用いて手書き成分を識別する段階、識別された手書き成分をこれに包囲された選択データの抽出のために使用する段階、によって特徴づけられた、紙書類上の選択データ領域を抽出する方法。