JP3302147B2

JP3302147B2 - 文書画像処理方法

Info

Publication number: JP3302147B2
Application number: JP32701593A
Authority: JP
Inventors: 高志齋藤
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1993-05-12
Filing date: 1993-12-24
Publication date: 2002-07-15
Anticipated expiration: 2017-07-15
Also published as: JPH07192084A; US5907631A; US5774580A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、縦書きまたは横書き何
れか一方の書式で書かれた文書画像から抽出された文章
領域を構造化して、読み順を得るようにした文書画像処
理方法に関する。

【０００２】

【従来の技術】ＯＣＲ装置の前処理あるいは文書データ
ベース構築の前処理においては、文書画像から抽出した
文章領域の読み順を求める必要がある。従来、文章領域
の読み順を求める方法としては、例えば、文章領域を点
座標などによって並べて初期状態を得て、この状態から
隣合う並びの領域同志について、判定手段を用いて入れ
替えを行っていくことによって、最終的に読み順に領域
が並び合うようにし、また読み取り順序の初期状態を得
る際に、罫線などの非文字領域を追加することにより、
読み取り順序の指定を容易した文書読み取り装置が提案
されている（特開平３−２６９６８９号公報を参照）。

【０００３】他の方法として、文書の領域分割を行った
後に、同一段組にある文章領域をノードとする木グラフ
を作成し、このグラフから論理的構造を得て、文章画像
中の記事を読み順に従って抽出する文章画像処理装置が
提案されている（特開平１−１８３７８４号公報を参
照）。

【０００４】

【発明が解決しようとする課題】上記した第１の技術
は、文章領域およびそれ以外の領域を座標などを用いて
並べて初期状態を得て、この状態から並び合う領域同志
を比較し、読み順が逆になっていると判断したとき、並
び替えるものである。この方法では、初期状態に依存
し、しかも隣合う領域同志を比較しているので、タイト
ル部位のように本文と離れている場合には初期状態で隣
合わない上に、２つの領域だけを比較した場合に、どち
らが読み順が先になるかが局所的には定まらないときに
は、最終的にタイトル部位と本文との比較が行われない
状態に陥る。また、非文字領域について、文字領域と同
様に扱う場合のみしか考慮していないので、文字列方向
と垂直方向の罫線情報や図があった場合の影響などが考
慮されていない。

【０００５】また、上記した第２の技術は、前提として
段組を考慮しているので、明確な段組がない場合や、頁
の上部が２段、下部が３段の如く、変則的な段組がなさ
れていた場合に、「同一段組の文字領域を一つのノード
に相当させる」ということが難しい。この方式もまた、
文字方向と垂直方向の罫線があった場合や図表の影響が
考慮されていない。

【０００６】また、第１の技術は、行方向縦を前提とし
て、読み順は隣合うブロックの場合に右から左へ進み、
第２の技術では文字方向横を前提として上下に並ぶ領域
を上から下へと並ぶようにノード内の順番を決めてい
る。つまり、両者共にどちらか一方の行方向のみに対処
している。また、何れも図表、表の見出しやヘッダ、フ
ッタといった本文領域とは異なる性質を持った文字領域
の影響を全く考慮したものではない。

【０００７】本発明の目的は、縦書きまたは横書き文書
の文章領域を高精度に構造化して、正しい読み順を抽出
する文書画像処理方法を提供することにある。

【０００８】本発明の他の目的は、本文領域の構造化に
失敗した場合に、読み順の再設定を行い、利用者による
修正負担を少なくした文書画像処理方法を提供すること
にある。

【０００９】本発明の更に他の目的は、正しく設定され
た読み順に従って文書情報を抽出して利用する文書画像
処理方法を提供することにある。

【００１０】

【課題を解決するための手段】前記目的を達成するため
に、請求項１記載の発明では、入力された文書画像から
文章領域を抽出し、該抽出された文章領域の配置構造を
木グラフで表現し、該木グラフから前記文章領域の読み
順を求める文書画像処理方法であって、前記各文章領域
を木グラフの各ノードに割り当てる際に、前記各文章領
域毎に、ノード間の親子関係を決定するための各ノード
の勢力範囲と、ノード間の親子関係を探索するための各
ノードの探索範囲を設定することを特徴としている。

【００１１】請求項２記載の発明では、前記各ノードの
勢力範囲を設定するとき、子ノードの勢力範囲は親ノー
ドの勢力範囲を継承することを特徴としている。

【００１２】請求項３記載の発明では、一つの親ノード
に対して複数の子ノードが存在する場合は、各子ノード
の勢力範囲が重ならないように分割することを特徴とし
ている。

【００１３】請求項４記載の発明では、前記各文章領域
を木グラフの各ノードに割り当てる際に、親ノードを決
定することができない文章領域は、木グラフのルートの
子ノードとすることを特徴としている。

【００１４】請求項５記載の発明では、前記各文章領域
を木グラフの各ノードに割り当てる際に、各ノードがタ
イトル部位であるか否かを判定し、該判定結果によって
ノードの割り当てを制御することを特徴としている。

【００１５】請求項６記載の発明では、前記各文章領域
を木グラフのノードに割り当てる際に、囲み枠内の文章
領域を除いた木グラフを先に作成し、その後、囲み枠毎
に、囲み枠を代表するノードの子として、囲み枠内の文
章領域の木グラフを作成することを特徴としている。

【００１６】請求項７記載の発明では、木グラフの作成
前に、図題、表の見出しである文章領域を判別してこれ
を木グラフの作成対象から除き、木グラフ作成後に、図
題、表の見出しである文章領域の判別を再度行ってこれ
を木グラフから除くことを特徴としている。

【００１７】請求項８記載の発明では、前記抽出された
文章領域から、本文領域と、該本文以外の領域としてヘ
ッダまたはフッタを分類する際に、本文領域における文
字列方向が縦か横かによってヘッダまたはフッタの存在
を調べる位置を変更することを特徴としている。

【００１８】請求項９記載の発明では、前記抽出された
文章領域から、本文領域と、該本文以外の領域としてヘ
ッダまたはフッタを分類する際に、文書画像中に罫線が
存在する場合には該罫線を利用し、罫線が存在しない場
合には架空の罫線を生成し該架空の罫線を利用すること
を特徴としている。

【００１９】

【作用】実施例１では、まず文書のイメージより抽出さ
れた文章（文字）領域を本文領域とそれ以外の領域とに
分別する。ここで、本文領域とは読み順が設定されるべ
き文章領域のことで、それ以外の文章領域とは図題、表
の見出し、ヘッダ、フッタ等の本文領域とは異なった性
質を持つ領域のことである。

【００２０】そして、本文領域の配置構造を木グラフで
表現する。この木グラフの構築にあたって、文字行方向
に相対する座標系を採用するとともに文章領域を各ノー
ドに対応させ、また、各ノードの勢力範囲というものを
垂直罫線等を利用しながら規定し、この勢力範囲に従っ
てノード間の親子関係の探索を行なう。さらに、囲み枠
内の文章領域については、囲み枠毎に同様の木グラフを
求め、これを全体の木グラフに結合する。このようにし
て構築した本文領域の配置構造の木グラフ上で、本文領
域の先行順探索を行なうことにより、本文領域の読み順
を設定する。

【００２１】文章領域を本文領域とそれ以外の領域とに
分別することによって、図題等の本文領域以外の文章領
域の影響を取り除いた本文領域の木グラフ表現を得られ
る。したがって、この木グラフに従って、本文領域とは
異なる読み順を持つ文章領域に影響させることなく、本
文領域の正しい読み順を設定できる。

【００２２】文字行方向に相対する座標系を採用するこ
とにより、文字行方向が縦でも横でも木グラフを共通に
扱うことができるようになるため、縦書き書式の文書も
横書き書式も同様に処理可能になる。

【００２３】本文領域を木グラフのノードに対応させる
ことによって、段組に依存しない、本文領域の大局的な
構造化が可能である。しかも、各ノードの勢力範囲を規
定し、これを利用してノードの親子関係探索を行なうた
め、単に上下に並んでいるか否かといった単純な処理方
法では対処不可能であった、タイトル部位や図等の存在
に対処して本文領域の正確な構造化が可能であり、した
がって、より正確な本文領域の読み順設定が可能であ
る。

【００２４】実施例２では、読み順評価手段を設け、該
手段はグラフ化の結果から求めた読み順の線分が交わる
とき、偽と判定し、読み順再設定手段は、読み順の再設
定を行う。再設定は、各本文領域の外接矩形がより左上
にある順にソートする。これにより複雑な配置の文書に
おいても正しい読み順が得られる。さらに、実施例３で
は、実施例１の方法によって抽出された読み順に従って
文字認識を行って文書情報を得る。

【００２５】

【実施例】以下、本発明の一実施例について図面を用い
て説明する。〈実施例１〉図１は、本発明の実施例１のブロック構成図を示す。図
１において、画像入力手段１０１は文書を２値画像とし
て入力するためのスキャナ等である。領域抽出手段１０
２は、入力画像から文章領域、図領域、罫線領域等の領
域を抽出する手段である。文章領域分別手段１０３は、
領域抽出手段１０２により抽出された文章（文字）領域
を、読み順設定の対象である本文領域と、それ以外の領
域（図題、表の見出し、ヘッダ、フッタ等）に分別する
手段である。罫線情報生成手段１０４は、領域抽出手段
１０２により抽出された罫線領域や、白領域の架空罫
線、図領域の端部の架空罫線などを生成する手段であ
る。文章領域配置構造化手段１０５は、本文相当領域
（囲み枠内も含む）を木グラフとして構造化する手段で
ある。読み順抽出手段１０６は、木グラフから文章領域
の読み順を抽出する手段である。１０８は以上の各手段
を制御する制御部、１０７は入力画像や抽出した領域、
作成した構造の情報等の各種データを記憶するためのデ
ータ記憶部である。１０９はデータ通信路である。

【００２６】なお、１０２乃至１０６の各手段は、それ
ぞれ個別のハードウエア手段または個別のソフトウエア
手段として実現されてもよいし、共通のハードウエア上
でソフトウエアにより実現されてもよい。

【００２７】以下、実施例１の動作及び処理内容につい
て、図２の処理フローチャートに従って、図３乃至図１
０を適宜参照しつつ説明する。

【００２８】処理ステップ２０１；画像入力手段１０１によって、処理すべき文書を２値画
像として入力する。この入力画像のデータはデータ記憶
部１０７に記憶される。

【００２９】処理ステップ２０２；領域抽出手段１０２によって、入力画像の文章（文字）
領域、図領域等を抽出する。抽出された領域の情報はデ
ータ記憶部１０７に記憶される。

【００３０】処理ステップ２０３；文章領域分別手段１０３による処理ステップであり、抽
出された文章領域を図題、表の見出し、ヘッダ、フッタ
の領域と、それ以外の領域である本文領域とに分類す
る。この本文領域とは、読み順の設定されるべき文章領
域である（枠で囲まれた領域も本文領域として扱うが、
枠で囲まれていない本文領域より読み順が後に来るもの
とする）。以下、この分類の処理について詳細に説明す
る。

【００３１】まず図題、表の見出しを分類する。この処
理において、処理ステップ２０２で抽出された領域の表
現が外接矩形のみであった場合には、各領域の図や絵等
の実体（イメージそのもの）と、その外接矩形との相違
が大きいことがある。このような場合には、図領域と他
の文章（文字）領域との重なり等により図の外接矩形を
分解して、いくつかの外接矩形の集合によって図の実際
に存在する範囲と、その外接矩形による表現との相違を
少なくする。

【００３２】図題、表の見出しは、図・表の近傍に存在
する行数の少ない文章領域である。そこで図と文章領域
との距離を計算する。図の輪郭形状が判明しているなら
ば、その図と文章領域との距離を計算し、図が外接矩形
で表現されているときは、その外接矩形と文章領域との
距離を計算する。そして、この距離が小さく、かつ行数
の少ない文章領域を図題・表の見出しの候補とする。

【００３３】次に、図題・表の見出しの候補で、当該文
章領域にとって図・表領域の反対側に存在する文章領域
との位置関係を調べる。これを図３によって説明する。
図３において、３０１は図領域、３０２は図領域３０１
の近傍にある図題候補、３０３は図題候補の文章領域で
ある。この例のように、図題候補３０２の反対側に文章
領域３０３があり、両領域３０２，３０３の左右位置が
揃っている場合には、両領域３０２，３０３を連続した
本文領域と判断し、図題候補３０２を図題とは分類しな
い。左右いずれかでも位置が揃っていないときには図題
候補３０２を図題に分類する。ただし、左右の一方の位
置が揃っている場合にも図題としない、という方法も採
用可能である。

【００３４】以上の図題、表の見出しの分類処理に続い
て、ヘッダの分類を行なう。ここで、本文領域が縦書き
であるか横書きであるかが判定している場合には、その
いずれであってもヘッダは原稿の上部に存在する。縦書
き原稿でも、ヘッダは横書きで原稿上部に存在するのが
普通である。また、行（文字列）方向が判明していて
も、文字の方向が縦か横かが分かっていない場合につい
ては、行方向が横であっても原稿は縦書きであることが
ある。原稿を９０゜回転して入力した時に、そうなる。
このような場合でも、画像の上の方が文章の先頭にくる
ものとすると、画像左側が原稿の上部にあたる。

【００３５】このような考察に基づき、行方向が横の場
合には画像の上部及び左部についてヘッダの存在を調
べ、行方向が縦の場合には画像の上部及び右部について
ヘッダの存在を調べる。

【００３６】より具体的に述べる。調べる部位に対し
て、まず罫線の存在を調べる。罫線が存在する場合、こ
の罫線の長さが画像の幅または高さに対して十分に大き
く、かつ、この罫線より外側に大きな文章領域（数行を
含む文章領域）が存在しないならば、この罫線を本文と
ヘッダ部とを分ける罫線であると判断する。そして、そ
の外側に小さな文章領域があれば、それをヘッダとして
分類する。

【００３７】図４に示す例で説明すると、４０１は入力
画像、４０２は罫線、４０３〜４０５は文章領域であ
る。行方向が横であることのみ判明しているとすれば、
ヘッダは上部または左部に存在する筈であるから、この
位置で十分に長い罫線を探す。図４の例においては、罫
線４０２が存在するので、その上側に大きな文章領域が
存在するか調べる。文章領域４０３は数行を含むような
大きな領域ではないので、罫線４０２は本文とヘッダを
分ける罫線であるあると判断する。したがって、この罫
線４０２より上側にある小さな文章領域４０３をヘッダ
として分類することになる。

【００３８】該当する罫線が存在しない場合、文章領域
の存在する範囲の最上部及び最左部から、ある距離だけ
内側にはいった位置に架空の罫線を生成し、同様の方法
でヘッダの分類を行なう。

【００３９】図５に示す例で説明すると、５０１は入力
画像、５０２は文章領域の存在範囲、５０３〜５０６は
文章領域である。この例では、画像の上部と左部に架空
の罫線５０７，５０８を生成することになる。この例で
は、上部の架空罫線５０７の上側には大きな文章領域は
存在しないので、この架空罫線５０７は、本文とヘッダ
とを分ける罫線として有効である。そして、この架空罫
線５０７の上側に小さな文章領域５０３があるので、こ
れをヘッダとして分類する。架空罫線５０８の左側には
大きな文章領域は存在しないが、大きな文章領域５０４
と架空罫線５０８が重なっている。

【００４０】ヘッダの抽出率を上げたい場合には、この
架空罫線５０８のような文章領域と重なった罫線も有効
な罫線として扱ってよい。しかし、架空罫線と重なった
文章領域がヘッダとして誤抽出されるのを防ぎたい場合
には、そのような罫線を無効とすればよい。なお、この
例では画像の傾き（スキュー）がないが、傾きがある場
合には、その傾き角度にあわせて罫線を傾けて生成す
る。

【００４１】行方向が縦の場合も同様に、ヘッダと本文
を分ける罫線を探索し、罫線がないときの架空罫線を生
成して、ヘッダの分類判定を行なう。

【００４２】以上のヘッダの分類と同様にしてフッタの
分類を行なう。文字方向が判明している場合には、原稿
の下部に相当する位置についてフッタを調べる。行方向
のみ判明している場合には、行方向が横であれば画像の
下部と右部について調べ、行方向が縦であれば画像の下
部と左部について調べる。

【００４３】以上のようにして分類されたヘッダ、フッ
タ、図題・表の見出しを除く領域が本文領域となる。た
だし、囲み枠が存在する場合には、枠内の文章領域を、
その枠毎に分類し、枠外の本文領域とは区別しておく。

【００４４】処理ステップ２０４；罫線情報生成手段１０４により架空罫線の生成を行なう
処理ステップである。ここでいう架空罫線とは、処理ス
テップ２０３におけるヘッダ、フッタの分類のための架
空罫線を除くもので、文章領域の配置構造を表わす木グ
ラフを構築するために図や白領域から新たに生成される
ものである。

【００４５】まず、図、表等の領域について説明する。
なお、行方向を横として座標系をとったとして以下の説
明を行なう。ここでは、図及び表領域の左右の端に垂直
架空罫線を生成する。図の存在範囲を外接矩形で表現し
ている場合には、図題の分類時に外接矩形の分割を行な
っているので、この分解された図領域について架空罫線
の生成を行なう。

【００４６】図６を例に説明すれば、６０１は表領域、
６０２は図領域（の外接矩形）、６０５は図領域６０２
と重なった文章領域、６０３と６０４は図領域６０２を
分解した領域である。この例では、領域６０１，６０
３，６０４の左右端に架空罫線６０６〜６１１をそれぞ
れ生成することになる。

【００４７】次に白領域から生成する架空罫線について
説明する。この罫線は文字列（行）方向のものであり、
ここでは行方向を横としているので水平罫線となる。こ
の罫線の生成（抽出）は、縦軸への射影をとる方法によ
って、あるいは、画像の行方向へのランレングス符号化
をして、ある閾値以上の長さを持つ白ランの連結成分を
抽出し、この白連結成分の中から水平罫線を十分に構成
し得るものを、その幅と高さによって選択し、選んだ白
連結成分の中心付近に水平架空罫線を生成する方法によ
って行なうことができる。

【００４８】また、座標系の一番上部に、画像の幅（行
方向が縦の場合は座標系を９０゜回転しているので画像
の高さ）に等しい長さを持つ水平架空罫線を生成する。

【００４９】なお、囲み枠線の４辺の線分のうち、上部
の線分は水平罫線として扱い、左右の線分は垂直罫線と
して扱う。

【００５０】処理ステップ２０５；文章領域配置構造化手段１０５により、囲み枠外の本文
領域の配置構造グラフを作成する処理ステップである。
配置構造は木グラフで表わされるので、あるノードが、
どのノードの子に相当するかを順次決定していくことに
よって木グラフを作成することになる。

【００５１】まず、ノードとして、囲み枠外の本文領
域、水平罫線（架空罫線を含む）を登録する。そして、
このノードを上部にあるものから順次処理する。

【００５２】今、あるノードに着目しているとすると、
この着目ノードより処理順番が後になるノードは着目ノ
ードの子候補となる。ここで、子候補が子ノードに相当
するかどうかの判別処理を行ない、子ノードに相当する
場合は着目ノードとの間に親子のリンクを張る。ただ
し、この子に相当すると判別されたノードが既に他のノ
ードの子ノードとしてリンクされていた場合には、どち
らが親ノードとしてふさわしいか判別処理を行ない、ふ
さわしいと判断された方の親ノードと親子関係のリンク
を張り、どちらとも判別がつかない場合には木グラフの
ルートに直接つなぐようにする。また、着目ノードは、
それより前に処理したノードの子候補となっている筈
で、前のノードの処理が完了しているにも拘らず、どの
ノードの子としても未だリンクされていない場合には、
着目ノードを木グラフのルートの子ノードとする。ただ
し、囲み枠の上部の水平罫線は直接に木グラフのルート
の子ノードとする。

【００５３】図７の例によって、より具体的に処理を説
明する。図７において、７０１は最上部に生成された架
空罫線、７０２〜７０５は文章領域、７０６〜７１０は
各ノードの勢力範囲（後述）、７１１と７１２はそれぞ
れ架空罫線７０１と文章領域７０２の子ノードの探索範
囲、７１３は図領域、７１４と７１５は架空垂直罫線、
７１６は文章領域７０４の一時的な勢力範囲、７１７は
文章領域である。なお、以下の説明において、領域を示
す符号を、それに対応するノードを示すためにも便宜用
いる。

【００５４】まず、最上部のノード（７０１）が最初の
処理ノードとなる。このノードは親ノードが未定である
ので、木グラフのルートの子ノードとする。ここで、各
ノードは勢力範囲と探索範囲を持つ。勢力範囲は親から
継承するもので、探索範囲は勢力範囲と最初は等しい
が、順次更新されて狭まっていく。

【００５５】さて、最初の処理ノード（７０１）は、親
がルートであるので、それ自体の幅に等しい勢力範囲７
０６を持つとする。そして、この勢力範囲と等しい幅を
探索範囲として以下のノードの探索を行なう。

【００５６】ノード（７０１）の探索範囲７１１内にノ
ード（７０２）が見つかるので、このノード（７０２）
はノード（７０１）の子ノード候補となる。そこで、ノ
ード（７０１）の探索範囲７１１のノード（７０２）の
範囲（７１１の黒部分）を探索済みとして、以下の探索
の範囲から除く。ノード（７０２）はノード（７０１）
の子であるので、ノード（７０１）と同じ幅の勢力範囲
７０７を継承する。

【００５７】ノード（７０１）の残りの探索範囲で探索
すると、ノード（７０４）が見つかる。しかし、ノード
（７０４）はノード（７０２）との間でも親子関係がな
りたつので、ノード（７０１）との間で親子関係のリン
クは張らない。また、ノード（７０３）もノード（７０
１）の探索範囲下にあるが、ノード（７０４）と同様に
ノード（７０２）の勢力範囲下にありノード（７０２）
と親子関係がなりたつので、ノード（７０１）とノード
（７０３）は親子ではない。ノード（７０５）は僅かな
がらノード（７０１）の勢力範囲下にあるが、探索範囲
は連続したある程度の幅のみ有効とするので、探索外と
なる。

【００５８】次にノード（７０２）が処理ノードとな
る。まず、ノード（７０４）がノード（７０２）の子ノ
ードとなる。ここで、勢力範囲は垂直罫線を越えないも
のとする。したがって、ノード（７０４）の勢力範囲は
垂直罫線７１５を越えない７１６の範囲となる。次にノ
ード（７０５）がノード（７０４）の勢力範囲下にあ
り、探索範囲７１２にも含まれるが、ノード（７０４）
とノード（７０５）は親子的位置関係にないので、ノー
ド（７０５）はノード（７０２）の子ノードとなる。複
数の子ノードがある場合には、その勢力範囲を適当な位
置で分割する。ここでは勢力範囲を中点で分割するもの
とすると、ノード（７０４）とノード（７０５）の勢力
範囲は、７０９の範囲と７１０の範囲に分割される。ま
た、次にノード（７０３）もノード（７０２）の探索範
囲下にあり、子ノードとなって勢力範囲を継承する。

【００５９】なお、この例ではみられないが、親ノード
の勢力範囲を子ノードの領域が越える場合には、子ノー
ドの勢力範囲を継承した範囲から、その越えた分だけ拡
張する。また、囲み枠の上部の線分を水平罫線としてノ
ードにしているが、このノードの勢力範囲は親から継承
するのではなく、それ自体の幅に等しい範囲とする。次
にノード（７０４）が処理ノードとなる。ノード（７０
４）の探索範囲７０９）内にノード（７１７）が存在す
る。したがって、ノード（７１７）はノード（７０４）
の子ノードとなり、探索範囲は全て満たされるので、次
にノード（７０５）の処理に移る。

【００６０】ノード（７０５）の探索範囲７１０内にも
やはりノード（７１７）があるが、このノード（７１
７）は既にノード（７０４）の子ノードとなっているの
で、ここで親ノードの選択を行なうことになる。ところ
が、ノード（７０４）とノード（７０５）は同じような
幅を持ち、ノード（７１７）は両方の勢力範囲に十分に
はいっているため、どちらが親であるが一意に定まらな
い。そこで、ノード（７１７）をノード（７０４）の子
から外し、あらためてルートの子ノードとする。なお、
子ノードが複数ある場合、木グラフでの左右の並びは、
例えばノード（７０３）、ノード（７０４）、ノード
（７０５）のように普通のノードに接続する場合は、そ
の位置通りにノード（７０３）を一番左側、ノード（７
０５）を一番右側にする。ルートの子ノードの場合は、
新しく子ノードを接続する度にとりあえず一番右側へと
接続しておき、最終的にソートする。

【００６１】続いてタイトル部位の処理について、図７
及び図８に示した例によって説明する。タイトル部位の
処理は、図７に関連して説明した処理の中で行なわれ
る。各ノードには、タイトル部位であるか否かを示すタ
イトルフラグを付ける。図７の例でいえば最初のノード
（７０１）のタイトルフラグは必ず立て（オンし）、タ
イトル部位であるとする。次にノード（７０２）がノー
ド（７０１）の子ノードとなるわけであるが、この時
に、ノード（７０２）の左右に文章領域が存在するか調
べる。左右に文章領域が存在しなければ、ノード（７０
２）のタイトルフラグも立てる。ただし、後にノード
（７０１）の他の子ノードがリンクされた場合には、ノ
ード（７０２）はノード（７０１）の唯一の子ノードで
なくなるので、ノード（７０２）のタイトルフラグを下
ろす（オフする）。

【００６２】ノードのタイトルフラグが立っている場合
には、左側の勢力範囲を架空垂直罫線で抑えられている
ときに、その架空罫線を１回だけ無視する形で、それを
越えて拡大する。図８の例で説明する。図８において、
８０１は最上部の架空水平罫線、８０２は文章領域、８
０３は図領域、８０４と８０５は図領域８０３の両端に
生成された架空垂直罫線、８０６は架空水平罫線８０１
の勢力範囲、８０７は文章領域８０２の勢力範囲であ
る。この勢力範囲８０７は、架空垂直罫線８０５に遮ら
れず、次の架空垂直罫線８０４まで延ばされる。ノード
７０２の勢力範囲７０７は、もともと遮るような垂直罫
線が存在しないので関係はない。

【００６３】さて、ノード（７０２）の子ノードの探索
に移ると、まずノード（７０４）が探索されることは前
述のとおりであるが、ノード（７０４）の左右には文章
領域７０３，７０５が存在する。したがって、これ以降
の文章領域はタイトル部位とはならないので、ノード
（７０２）のタイトルフラグを下ろす。親のノードのタ
イトルフラグが立っていない場合には、その子ノードが
タイトル部位であるか否かを調べるために、左右に文章
領域が存在するか探索する必要もなくなり、以下の処理
時間が短縮される。

【００６４】以上の処理をノードに相当する文章領域
（囲み枠外のもの）について、上から下まで全てについ
て行なう。

【００６５】処理ステップ２０６；文章領域配置構造化手段１０５により、囲み枠内の文章
領域をグラフ化する処理ステップである。

【００６６】基本的には先の囲み枠外の本文領域のグラ
フ化処理と同様に、処理ノードの勢力範囲下にあるノー
ドを、処理ノードの子ノードとしてリンクしていく。先
の囲み枠外本文領域のグラフ化処理でリンクが張られた
ノードは木グラフを構成している。この中には囲み枠線
の上部の水平線分もノードとして登録されている。した
がって、そのノード毎に、その囲み枠内の文章領域を対
象に木グラフを構成する。

【００６７】図９の例で説明する。図９において、９１
０〜９１６は文章領域、９１７と９１８は囲み枠であ
る。９０１はルート、９０２〜９０７は当該処理ステッ
プ２０６の前に登録されたノードである。９０２は最上
部架空罫線に相当するノード、９０３は文章領域９１０
に相当するノード、９０４は文章領域９１１に相当する
ノード、９０５は文章領域９１２に相当するノード、９
０６は囲み枠９１８の上部水平罫線９２０に相当するノ
ード、９０７は囲み枠９１７の上部水平罫線９１９に相
当するノードである。

【００６８】囲み枠の上部水平罫線９１９，９２０は、
先の処理ステップ２０５における最上部罫線（９０２）
に対応し、それと同様の処理を行なうことになる。ただ
し、水平罫線９１９，９２０のタイトルフラグは常にオ
フにしておく。したがって、囲み枠内では、タイトル部
位の処理は行なわれない。

【００６９】図９の例では、ノード９０６（つまり水平
罫線９２０）の下には文章領域９１３があるので、文章
領域９１３を子ノードとしてノード９０６に接続する。
また、ノード９０７（つまり水平罫線９１９）の下に文
章領域９１４があるので、これを子ノードとしてノード
９０７に接続し、また文章領域９１４の下には文章領域
９１５，９１６があるので、これら二つの領域も文章領
域９１４に子として接続する。ここでも、先の処理ステ
ップ２０５での処理と同様に勢力範囲及び探索範囲を用
いて子ノードの探索、及び子ノードであるか否かの判別
を行なう。ただし、ルート９０１に直接接続されたノー
ド９０６，９０７の勢力範囲は、それ自体の幅に等し
い。

【００７０】以上のようにして木グラフを作成したなら
ば、次にルートの子ノードのソートを行なう。ルートの
子ノードになっているのは、最上部の架空水平罫線、親
ノードが一意に定まらなかった領域、あるいは囲み枠の
上部罫線である。このようなノードのうち、囲み枠の上
部罫線は、他のノードよりも木グラフ上で右側に来るよ
うにソートする。また、囲み枠のノード同士、及び、囲
み枠の罫線同士については、より上に位置するもの、よ
り左側にあるものを、グラフ上でより左側にするように
順番を入れ替える。この際、各ルートの子ノードの勢力
範囲を使用することによって、どちらが上位にあるかを
判別することができる。

【００７１】処理ステップ２０７；文章領域配置構造化手段１０５により、図題・表の見出
しの分別を再度行なう。ここでは、グラフの葉にあたる
ノード（子を持たないノード）が罫線ではなく、文章領
域であって、その行数が少なく（この行数の閾値は、先
の処理ステップ２０３における図題・表の見出しの分別
に使用したものと同様の値でよい）、かつ、その親ノー
ドの実体との間に、ある程度大きな図が存在する場合に
は、当該文章領域を図題または表の見出しと分別し、こ
れを本文配置の木グラフから取り除く。

【００７２】図１０の例によって説明する。図１０にお
いて、１００１と１００２はノード、１００３と１００
４はそれぞれノード１００１，１００２の実体である文
字領域である。１００５は図領域である。この例のノー
ド１００２は葉に相当するもので、その実体たる文章領
域１００４の行数が少ない。また、その親ノードたるノ
ード１００１との間に、比較的大きな図領域１００５が
存在する。したがって、ノード１００２は本文配置の木
グラフから取り除かれる。

【００７３】処理ステップ２０８；読み順抽出手段１０６において、以上の処理で得られた
本文配置を示す木グラフ上で先行順探索を行ない、罫線
やルートを除いた文章領域の順番を、本文領域の読み順
として抽出する。

【００７４】実施例１の一態様を示すと以下のようにな
る。配置構造を表す木グラフを構築する際に、文章領域
を木グラフのノードに割り当て、各ノード毎に他のノー
ドへの配置関係を表わす勢力範囲を求め、各ノードの親
子関係の探索を勢力範囲に従って行ない、子ノードに親
ノードの勢力範囲を継承させることによって勢力範囲の
更新を行ない、親子ノードの探索を繰り返すことによっ
て木グラフを構築する。このように、勢力範囲を用いて
親子ノード探索を制御することにより、タイトル部位や
図等に適切に対処して本文領域を適切に構造化し、本文
領域の読み順を正しく設定できる。

【００７５】文章領域以外の特定の領域も木グラフのノ
ードに割り当てる。例えば、文字列方向と同方向の罫線
を抽出し、これを木グラフのノードに割り当てる。ま
た、白画素の領域で、ある値より文字列方向に長い白画
素領域を抽出し、これを木グラフのノードに割り当て
る。このように、文書上の文章領域以外の罫線等の様々
な要素、例えば文字列方向と同方向または垂直方向の罫
線や、空白部分、図・表領域等による文章領域の配置へ
の影響を適切に扱うことにより、そのような要素が存在
する文書の本文領域の読み順を正しく設定できる。

【００７６】文字列方向と垂直の方向の罫線によって、
ノードの勢力範囲を制限する。また、図・表領域の文字
列方向についての両端に文字列方向と垂直の架空罫線を
生成し、この架空罫線によってノードの勢力範囲を制限
し、架空罫線による勢力範囲の制限をタイトル部位にお
いて変更する。このように、図・表領域の文字列方向の
両端に垂直の架空罫線を生成し、この架空罫線によって
ノードの制御範囲を制限することにより、文字列方向と
垂直方向の罫線による配置への影響を適切に処理するこ
とが可能になり、また、図・表領域による本文領域の配
置への影響を適切に処理して、本文領域の読み順を正し
く設定できる。タイトル部位において架空罫線による勢
力範囲の制限を変更することによって、タイトル部位の
配置を適切に処理することができる。

【００７７】文章領域の配置構造を木グラフとして構築
し、構築された木グラフと文章領域以外の図等の領域の
位置情報とに基づいて誤って本文領域と分類された領域
を判別し、それを木グラフから取り除き、この処理の後
の木グラフに従って文章領域の読み順を設定する。この
ように、本文領域の木グラフを作成した後に、本文領域
とそれ以外の領域との細分別を行なうことによって、本
文と図題・表の見出しを高精度に分別し、より正確な文
章領域の構造化と読み順設定が可能となる。

【００７８】〈実施例２〉上記した実施例１は、構造化に失敗したり、もともと木
グラフで表現することに適さない構造をもつ文書である
場合に、構造化できない部分のみならず、全体的に読み
順が変更されてしまう可能性がある。そこで、本実施例
２では、文章領域の配置構造を求めて読み順を求めた
後、該読み順の評価を行うようにした。

【００７９】図１１は、本発明の実施例２のブロック構
成図である。図において、１１０１は、画像の入力手
段、１１０２は、入力画像から領域を抽出する領域抽出
手段、１１０３は、抽出された文字領域を、本文領域と
それ以外の図題、表の見出し、ヘッダ、フッタ等に分別
する文章領域分別手段、１１０４は、本文相当領域を木
グラフとして構造化する文章領域配置構造化手段、１１
０５は、木グラフから読み順を抽出する読み順抽出手
段、１１０６は、読み順抽出手段１１０５で抽出した読
み順を評価する読み順評価手段、１１０７は、評価結果
が偽であるときの読み順を再設定する読み順再設定手段
である。１１０８は、入力画像や抽出した領域、作成し
た構造の情報などの各種データを記憶するデータ記憶
部、１１０９は、上記した各手段を制御する制御部、１
１１０は、データ通信路である。

【００８０】図１２は、実施例２の処理フローチャート
である。以下、実施例２の動作を説明すると、まず、ス
キャナなどの画像入力手段１１０１によって文書を２値
画像として入力する（ステップ１２０１）。次いで、こ
の２値画像から文字領域、図領域などの領域を抽出する
（ステップ１２０２）。この抽出方法としては、例えば
特開平５−８１４７５号公報に記載された文字領域抽出
方法などを用いればよい。

【００８１】文章領域分別手段１１０３は、抽出した領
域を、図題、表の見出し、ヘッダ、フッタと、それ以外
の本文領域に分類する（ステップ１２０３）。ここで、
本文領域とは、読み順の設定される領域で、後述するよ
うに枠で囲まれた領域についても、枠で囲まれていない
領域より読み順が後にくる本文領域として処理される。

【００８２】文章領域配置構造化手段１１０４は、本文
領域の配置を構造化し、木グラフで表現する（ステップ
１２０４）。そして、読み順抽出手段１１０５は、この
グラフ表現から先行順探索で読み順を決定する（ステッ
プ１２０５）。なお、ステップ１２０３〜１２０５の処
理については、前述した実施例１に記載の方法を用い
る。

【００８３】その後、読み順評価手段１１０６は、読み
順の評価を行う（ステップ１２０６）。図１３は、本実
施例に係る読み順の評価を説明する図である。図におい
て、１３０１から１３０７は、抽出された本文領域の外
接矩形である。まず、この各外接矩形の中心点を求め
る。１３０８から１３１４は、求められた中心点であ
る。そして、この点を読み順に従って線分で結ぶ。

【００８４】いま、グラフ化の結果から求めた読み順が
図１３に示すものであったとすると、中心点１３１２と
中心点１３１３との間の線分１３１２−１３１３と、中
心点１３１０と中心点１３１４との間の線分１３１０−
１３１４とが交わるため、この結果の評価は偽と判定さ
れる。

【００８５】従って、読み順再設定手段１１０７は、読
み順の再設定を行う（ステップ１２０７）。再設定は、
各外接矩形の位置に着目し、より左上にある順にソート
する。例えば、外接矩形１３０１の下部は外接矩形１３
０２や１３０５の上部よりも上にある。このような場
合、外接矩形１３０１は外接矩形１３０２、１３０５よ
りも”上”と判断する（外接矩形１３０１＞外接矩形１
３０２、外接矩形１３０１＞外接矩形１３０５）。

【００８６】また、外接矩形１３０２の右部は外接矩形
１３０５の左部よりも左にあるので、”左”と判断する
（外接矩形１３０２＞外接矩形１３０５）。なお、この
ときの判断には余裕を持たせるようにしてもよい。外接
矩形１３０１と１３０２の左右の位置を比べた場合には
どちらが左とも右とも判定できない。そこで、３つの外
接矩形１３０１、１３０２、１３０５を比較すると、上
記した関係から外接矩形１３０１＞外接矩形１３０２＞
外接矩形１３０５となる。

【００８７】このような判定方法を全ての領域に適用す
ることにより読み順を決定する。外接矩形１３０５と１
３０３を比べた場合には、上下では外接矩形１３０５＞
１３０３であり、左右では外接矩形１３０３＞１３０５
となる。このような場合には左右の関係を優先する。従
って、外接矩形１３０３＞外接矩形１３０５となる。

【００８８】上記した判定処理の結果、最終的には図１
４に示すような読み順が得られる。図１４において、１
４０１から１４０７は外接矩形、１４０８から１４１４
は中心点、線分１４０８−１４０９−．．．−１４１４
は読み順を示す。

【００８９】なお、本実施例の読み順の評価および再設
定は、囲み枠内のものについては、その枠内の領域に対
してのみ行い、枠外および他の枠内のものとは区別して
処理する。図１５は、囲み枠線を有する本文領域の例を
示す。図において、１５０１から１５０６は本文領域、
１５０７は本文領域１５０４と１５０５を囲む囲み枠
線、１５０８は本文領域１５０６の囲み枠線、１５０９
から１５１４は各領域の中心である。

【００９０】図１５の本文領域に対して、図１２のステ
ップ１２０１からステップ１２０６の処理の結果、線分
１５１３−１５１４が他の線分と交わっていると評価さ
れる。しかし、この場合、線分１５１３−１５１４は異
なる枠内領域１５０７と１５０８を結ぶ線分であること
から、評価対象外となり、再設定を行わない。評価対象
となる線分は、線分１５０９−１５１０−１５１１、線
分１５１２−１５１３の線分である。

【００９１】〈実施例３〉本実施例は、実施例１の方法によって抽出された読み順
に従って本文領域について、例えば文字認識を行って文
書情報を得るようにしたものであり、実施例１によって
抽出された文書情報の利用形態に係る。

【００９２】図１６は、実施例３のブロック構成図であ
る。画像データは、スキャナなどの入力手段１６０１あ
るいは、回線に接続されたファクシミリなどの信号受信
手段１６０２から入力される。情報抽出処理手段１６０
３は、実施例１で説明した文章領域の抽出、文章領域の
判別、文章領域の配置構造化、読み順の抽出の他に、更
に文字認識を行って、文書情報を得る機能などを備えて
いる。

【００９３】表示手段１６０４は、文章領域を表示する
例えばＣＲＴディスプレイであり、修正指示手段１６０
５は、表示された抽出情報などに誤りがあった場合に修
正する例えばマウスなどのポイティングデバイスであ
り、結果出力手段１６０６は、紙などに出力するプリン
タ、あるいは電子情報として媒体に格納する蓄積手段、
通信回線を介して伝送する伝送手段である。

【００９４】図１７は、情報抽出処理手段１６０３の構
成を示す。ここで、領域抽出手段１７０２、文章領域分
別手段１７０３、罫線情報生成手段１７０４、文章領域
配置構造化手段１７０５、読み順抽出手段１７０６、デ
ータ記憶部１７０８、制御部１７０９、データ通信路１
７１０は、それぞれ実施例１で説明したものと同一の機
能、構成を有している。本実施例では、これら手段に加
えて、入出力データが格納され、バッファとして機能す
るデータ入出力手段１７０１と、文字認識手段１７０７
と、文字以外の領域処理手段１７１１が設けられてい
る。

【００９５】実施例１で説明したように、領域抽出手段
１７０２は入力画像から文章領域とそれ以外の表領域、
図の領域などを抽出し、文章領域分別手段１７０３は本
文とそれ以外とを分別し、本文領域について、罫線情報
生成手段１７０４、文章領域配置構造化手段１７０５、
読み順抽出手段１７０６は、その配置構造と読み順を抽
出する。

【００９６】文字認識手段１７０７は、上記した本文領
域の読み順に従って文字認識を行って、文書情報を出力
する。また、本文以外の文字領域についても文字認識を
行って、文書情報を出力する。文字以外の領域処理手段
１７１１は、表などの文章領域以外について、適応処理
を行う。具体的には、表であれば罫線情報を抽出し、表
内文字を文字認識手段１７０７で文字認識する。写真で
あれば、例えば２次元ＤＣＴ変換によって適応符号化を
行い、図であれば、例えば線画を抽出してベクトル化を
行う。これら文章以外の領域についての処理は、文章領
域の処理とは別に独自に行ってもよい。このように、抽
出した文章領域以外については領域の特性に合った処理
をしているので、表や写真、図などの情報を最適な形で
利用することができる。また、実施例１で説明したよう
に、本文以外のヘッダ、フッタなどの情報を抽出するこ
とにより、本文以外の文章情報を書誌的情報として取り
出して利用することができる。

【００９７】上記したようにして抽出された文字情報
は、表示手段１６０４に表示される。図１８は、文章領
域の表示例を示し、文章領域は矩形で表示され、各領域
には読み順に従った番号が同時に表示される。すなわ
ち、図１８において、表示された文書画像１８０１に
は、ヘッダ領域１８０２、本文領域１８０３〜１８０
５、図の領域１８０６が表示される。そして、各本文領
域１８０３〜１８０５には読み順１８０７（番号は
１）、１８０８（番号は３）、１８０９（番号は２）も
表示されている。なお、読み順の表示方法としては、こ
の他に各本文領域を読み順通りに矢印で結ぶ表示形式を
採ってもよい。

【００９８】表示された抽出情報、読み順などに誤りが
あった場合、修正指示手段１６０５を用いて修正する。
例えば、マウスなどで領域の大きさ、位置を変更した
り、あるいは指定した領域の読み順をキーボードなどか
ら入力などして修正する。抽出した文字情報は修正、確
認した後、文書情報が確定し、結果出力手段１６０６に
出力される。このように、文書情報抽出処理において誤
った処理が行われても、その結果を確認、修正している
ので、最終的に文書情報をより迅速に得ることができ
る。

【００９９】

【発明の効果】以上、説明したように、本発明によれ
ば、以下のような効果が得られる。（１）文章領域を本文領域とそれ以外の領域とに分別し
て本文領域の配置構造を求めているので、本文領域とは
異なる読み順を持つ文章領域の影響を排除して、本文領
域の読み順を適切に抽出することができる。

【０１００】（２）本文領域を木グラフの各ノードに割
り当てることによって本文領域の配置構造を求めている
ので、本文領域の配置の大局的な構造が表現され、これ
によって段落の有無や段落の形態に依存しない本文領域
の読み順を抽出することができる。

【０１０１】（３）囲み枠の内部の文章領域を、囲み枠
の外部の文章領域から区別し、別個に読み順を抽出して
いるので、文章領域の囲み枠の存在する文書の場合に
も、囲み枠の内部の文章領域も含めて文章領域の読み順
を正しく抽出することができる。

【０１０２】（４）文章領域の配置構造を求めて読み順
を求めた後、該読み順の評価を行い、この評価が偽の判
定であった場合には、読み順の再設定を行うようにして
いるので、複雑な配置の文書であっても、正しい読み順
が得られると共に、仮りに、最初に誤った読み順が抽出
されたとしても利用者による修正負担を少なくすること
が可能となる。

【０１０３】（５）読み順の評価方法として、各領域に
基準点を設けて、この基準点間を読み順に線分で結んだ
ときに、線分に交わりが生じた場合に判定を偽としてい
るので、配置構造を木グラフで表現した結果が不自然な
読み順を与えていることを判別することができる。その
判別結果から読み順の再設定を行うことによって、利用
者による修正負担を少なくすることが可能となる。

【０１０４】（６）囲み枠内の本文領域は、それぞれの
枠内の領域について読み順の評価および再設定を行って
いるので、異なる枠内領域を結ぶ読み順の線分が枠外本
文領域間を結ぶ読み順の線分と交差することに無関係
に、線分の交差という基準に基づいて、読み順が正しい
か否かを判別することが可能となる。

【０１０５】（７）複雑なレイアウトの文書が入力され
ても、入力された文書画像から正しい読み順で文字認識
を行っているので、正確な文書情報を抽出し、利用する
ことができる。

【図面の簡単な説明】

【図１】本発明の実施例１のブロック構成図である。

【図２】実施例１の処理フローチャートである。

【図３】図題・表の見出しの分別の説明図である。

【図４】ヘッダの分別の説明図である。

【図５】ヘッダ分別のための架空罫線の生成の説明図で
ある。

【図６】木グラフ構築のための架空罫線の生成の説明図
である。

【図７】囲み枠外の本文領域の構造化の説明図である。

【図８】架空罫線と勢力範囲との関係の説明図である。

【図９】囲み枠外の本文領域の木グラフと囲み枠内の文
章領域のグラフ化の説明図である。

【図１０】図題・表の見出しと本文との再分別の説明図
である。

【図１１】本発明の実施例２のブロック構成図である。

【図１２】実施例２の処理フローチャートである。

【図１３】実施例２に係る読み順の評価を説明する図で
ある。

【図１４】読み順評価の結果、再設定された読み順を示
す。

【図１５】囲み枠線を有する本文領域の例を示す。

【図１６】実施例３のブロック構成図である。

【図１７】情報抽出処理手段の構成を示す。

【図１８】文章領域の表示例を示す。

【符号の説明】

１０１画像入力手段１０２領域抽出手段１０３文章領域分別手段１０４罫線情報生成手段１０５文章領域配置構造化手段１０６読み順抽出手段１０７データ記憶部１０８制御部１０９データ通信路

Claims

(57)【特許請求の範囲】

【請求項１】入力された文書画像から文章領域を抽出
し、該抽出された文章領域の配置構造を木グラフで表現
し、該木グラフから前記文章領域の読み順を求める文書
画像処理方法であって、前記各文章領域を木グラフの各
ノードに割り当てる際に、前記各文章領域毎に、ノード
間の親子関係を決定するための各ノードの勢力範囲と、
ノード間の親子関係を探索するための各ノードの探索範
囲を設定することを特徴とする文書画像処理方法。
【請求項２】前記各ノードの勢力範囲を設定すると
き、子ノードの勢力範囲は親ノードの勢力範囲を継承す
ることを特徴とする請求項１記載の文書画像処理方法。
【請求項３】一つの親ノードに対して複数の子ノード
が存在する場合は、各子ノードの勢力範囲が重ならない
ように分割することを特徴とする請求項２記載の文書画
像処理方法。
【請求項４】前記各文章領域を木グラフの各ノードに
割り当てる際に、親ノードを決定することができない文
章領域は、木グラフのルートの子ノードとすることを特
徴とする請求項１記載の文書画像処理方法。
【請求項５】前記各文章領域を木グラフの各ノードに
割り当てる際に、各ノードがタイトル部位であるか否か
を判定し、該判定結果によってノードの割り当てを制御
することを特徴とする請求項１記載の文書画像処理方
法。
【請求項６】前記各文章領域を木グラフのノードに割
り当てる際に、囲み枠内の文章領域を除いた木グラフを
先に作成し、その後、囲み枠毎に、囲み枠を代表するノ
ードの子として、囲み枠内の文章領域の木グラフを作成
することを特徴とする請求項１記載の文書画像処理方
法。
【請求項７】木グラフの作成前に、図題、表の見出し
である文章領域を判別してこれを木グラフの作成対象か
ら除き、木グラフ作成後に、図題、表の見出しである文
章領域の判別を再度行ってこれを木グラフから除くこと
を特徴とする請求項１記載の文書画像処理方法。
【請求項８】前記抽出された文章領域から、本文領域
と、該本文以外の領域としてヘッダまたはフッタを分類
する際に、本文領域における文字列方向が縦か横かによ
ってヘッダまたはフッタの存在を調べる位置を変更する
ことを特徴とする請求項１記載の文書画像処理方法。
【請求項９】前記抽出された文章領域から、本文領域
と、該本文以外の領域としてヘッダまたはフッタを分類
する際に、文書画像中に罫線が存在する場合には該罫線
を利用し、罫線が存在しない場合には架空の罫線を生成
し該架空の罫線を利用することを特徴とする請求項１記
載の文書画像処理方法。