JPH09297765A

JPH09297765A - 文書画像処理方法

Info

Publication number: JPH09297765A
Application number: JP8110808A
Authority: JP
Inventors: Takashi Saito; 高志齋藤
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1996-05-01
Filing date: 1996-05-01
Publication date: 1997-11-18

Abstract

(57)【要約】【課題】文書画像中から内容把握に役立つ部分（キー
領域）を自動的に抽出する。【解決手段】領域分割手段１０２は、入力された文書
画像を文字領域などの要素に分割する。行抽出手段１０
３は、各文字領域から行を抽出する。キー領域判別手段
１０４は、分割された要素から文字サイズ特徴、フォン
ト特徴などを検出して、これらを内容把握に役立つキー
領域とする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文書画像中から内
容把握に役立つ領域を自動的に抽出する文書画像処理方
法に関する。

【０００２】

【従来の技術】近年、計算機、デジタル機器の能力向上
やハードディスク等のデータ蓄積装置の能力向上によっ
て文書画像の流通機会が飛躍的に増大した。しかし文書
画像はデータ量が多く、このため処理速度が要求される
場合やネットワークを通じて画像データを交換する場合
などにネックとなってきた。

【０００３】一般に、大量に蓄積された文書画像を閲覧
する場合には、その全ての画像について、蓄積された高
画質な画像状態で見る必要はなく、取敢えず内容の確認
が可能であれば十分な場合が多い。もちろん、キーワー
ド検索等が行える方が画像を扱うより、はるかに高速に
処理できる。しかし適切なキーワードを入力することは
難しい。蓄積された画像内容を一度も見たことがないよ
うな場合は、より一層困難である。

【０００４】そこで、光ファイリング装置等において
は、縮小した画像をインデックス画像として原画像とは
別に保持し、まずそのインデックス画像を利用者に提示
することによって、処理するデータ量の軽減化を図って
いる。しかし、単に画像全体を縮小した場合には、全体
の感じはつかめても画像中の文字を読むことは難しく、
特に、似たようなレイアウトの文書が多い場合には、所
望の文書を選択することは難しい。

【０００５】このような問題を解決するものとして、特
開平５−３４２３２６号公報に記載された文書処理装置
がある。この装置では、文書画像を領域分割し、分割さ
れた要素に対して、論理モデルに従って論理識別子を付
与し、必要とする論理要素だけを識別子をキーにして抽
出し、それを見やすく再配置する。また、部分的にＯＣ
Ｒを使用することによって、抽出した情報のソ−ティン
グなども行う。

【０００６】

【発明が解決しようとする課題】しかし、上記した文書
処理方法では、予め入力される文書画像のレイアウト構
成および論理構成を把握して、該当するモデルを作成す
る必要がある。モデルに従って文書が構成されていて、
領域分割部が完璧であれば精度よく処理できるが、実際
にはそうでない場合が多く、モデルの適用範囲が限定さ
れてしまう。また、論理モデルの作成には相当の熟達が
必要であることから、上記した処理方法では、新規文書
群の内容把握のために部分画像（キー領域）の抽出を行
うことが非常に難しい。

【０００７】本発明は上記した事情を考慮してなされた
もので、本発明の目的は、文書画像中から内容把握に役
立つ部分（キー領域）を自動的に抽出することができる
文書画像処理方法を提供することにある。

【０００８】

【課題を解決するための手段】前記目的を達成するため
に、請求項１記載の発明では、文書画像を複数の要素に
分割し、分割された各要素のレイアウト上の特徴を基に
該要素が前記文書画像の内容を端的に表わす領域である
か否かを判定し、該領域を部分画像として抽出すること
を特徴としている。

【０００９】請求項２記載の発明では、前記レイアウト
上の特徴として、前記文書画像の本文と異なる強調処理
された部分を用いることを特徴としている。

【００１０】請求項３記載の発明では、前記強調処理さ
れた部分は、頁全体の基本文字サイズと異なる文字サイ
ズであることを特徴としている。

【００１１】請求項４記載の発明では、前記強調処理さ
れた部分は、頁全体のフォント特徴と異なるフォント特
徴であることを特徴としている。

【００１２】請求項５記載の発明では、前記強調処理さ
れた部分は、タイトル相当位置であることを特徴として
いる。

【００１３】請求項６記載の発明では、前記強調処理さ
れた部分は、小見出し相当位置であることを特徴として
いる。

【００１４】請求項７記載の発明では、前記強調処理さ
れた部分は、頁上下の書誌事項であることを特徴として
いる。

【００１５】請求項８記載の発明では、前記強調処理さ
れた部分は、囲み枠内文字列であることを特徴としてい
る。

【００１６】

【発明の実施の形態】以下、本発明の一実施例を図面を
用いて具体的に説明する。図１は、本発明の実施例の構
成を示す。図において、１０１は画像の入力手段、１０
２は文書画像を要素に分割する領域分割手段、１０３は
各文字領域において行を抽出する行抽出手段、１０４は
領域分割手段１０２および行抽出手段１０３で抽出した
情報からキー領域を判別するキー領域判別手段、１０５
は入力された画像や処理中の各種情報を蓄積するデータ
記憶部、１０６は全体を制御する制御部、１０７はデー
タ通信路である。

【００１７】図２は、本発明の処理フローチャートを示
す。以下、図２に従って本発明を説明する。まず、画像
入力手段１０１によって文書画像を得る（ステップ２０
１）。この画像入力手段は、スキャナやファックスであ
り、あるいはネットワーク経由で別の機器から画像を得
る手段でもよい。

【００１８】次に、領域分割手段１０２は、入力された
文書画像を文字領域と、図や表や罫線等の要素に分割す
る（ステップ２０２）。このような領域分割方法として
は、例えば特開平６−２００９２号公報に記載された公
知技術を用いればよい。抽出した領域は、属性として要
素の種類（文字領域、表など）と、その位置（領域の外
接矩形）などを持つ。

【００１９】行抽出手段１０３は、抽出した文字領域か
ら行を抽出する（ステップ２０３）。この行抽出方法と
しては、例えば、電子通信学会論文「周辺分布、綿密
度、外接矩形特徴を利用した文書画像の領域分割」（秋
山他、１９８６年８月、Ｖｏｌ．Ｊ６９−ＤＮｏ．８）
に記載された技術を用いればよい。

【００２０】領域が分割され、行情報が抽出されると、
キー領域判別手段１０４はキー領域の判定を行う（ステ
ップ２０４）。ここで、キー領域とは文書の内容を把握
するのに役立つ部分である。一般的に、そのような部分
は何らかの方法で強調が施されている。例えば、大きな
文字や強調系のフォントを使用したり、あるいは他の部
分とは独立させたり、枠で囲むなどの処理が施されてい
る。本発明ではこのような文書のレイアウト表現上の特
徴を利用してキー領域を判別する。

【００２１】図３は、キー領域判別処理の詳細な処理フ
ローチャートである。まず、各行の文字サイズ特徴を検
出する（ステップ３０１）。図４は、ステップ３０１
（文字サイズ特徴検出処理）の詳細フローチャートであ
る。最初に頁全体の基本文字サイズを検出する（ステッ
プ４０１）。これは、抽出した行内の矩形高さのヒスト
グラムを用いて、その最頻度を基本文字サイズとする。
このとき、各行内の文字の最大文字サイズを当該行の文
字サイズとする（ステップ４０２）。図８は、行文字サ
イズの例を示す。

【００２２】そして、その行文字サイズを基本文字サイ
ズと比較し、「大文字行」、「中文字行」、「普通文字
行」の何れかに分類する。この分類には閾値を利用す
る。すなわち、基本文字サイズよりＴｈ１（例えば１．
８）倍以上大きい文字サイズの行を「大文字行」とし
（ステップ４０５でＹｅｓ）、ステップ４０５でＮｏと
なった文字列がＴｈ２（例えば１．３）倍より大きいサ
イズの行を「中文字行」とする（ステップ４０６でＹｅ
ｓ）。ステップ４０６でＮｏとなるものを「普通文字
行」とする。

【００２３】図３に戻り、次いでフォント特徴を調べる
（ステップ３０２）。この特徴としては、黒画素密度や
ランレングスの分布などを使用すればよい。あるいは、
特開平６−２０８６４９号公報に記載された方法を使用
してもよい。求めたフォント特徴から各行のフォントを
推定する。ここでフォントを正確に識別することは一般
的に難しい。そこで基本系／強調系の判別をするだけで
もよい。

【００２４】次に、タイトル部の検出を行う（ステップ
３０３）。基本的にはタイトル部は基本文字サイズより
も大きな文字部である。また本文とは文字サイズや行ピ
ッチが異なり、また位置も離れているので通常は独立し
た領域として切り分けられる。そこで、図５に示すよう
に、各領域に対して一定行数（Ｔｈ３）未満で（ステッ
プ５０３）、大文字行である場合（ステップ５０４）に
タイトル領域であると判定する。

【００２５】続いて、小見出し部を検出する（ステップ
３０４）。小見出しは、本文と文字サイズがあまり違わ
ない場合も多く、また本文に近接するため本文と同一領
域になることも多い。図６は、小見出し部検出処理の詳
細の処理フローチャートである。

【００２６】そこで、まず独立した領域になる場合を検
出し、次に本文と同一領域となる場合に行単位で切り分
けを行う。行数がＴｈ４未満の領域において（ステップ
６０３）、領域内の行が中文字行である場合に（ステッ
プ６０４）、この領域内の行を小見出し行とする。また
該当しない領域においては、領域内小見出し検出（ステ
ップ６０５）を行う。

【００２７】領域内の小見出し検出は次のように行う。
すなわち、領域の先頭行のサイズまたはフォントが、領
域の中ほどにある行のサイズまたはフォントと異なる場
合には、先頭行を小見出し行と検出する。このとき、先
頭行から続くいくつかの行についても同様に小見出し判
定を行ってもよい。図９は、小見出し検出を説明する図
である。

【００２８】次に、書誌事項検出処理（ステップ３０
５）を行う。書誌事項は、通常、頁の上部および脚部に
存在する。また、本文と異なり行数は少ない。そこで、
頁の上下にある孤立した書誌事項領域を検出する。図７
を例に説明すると、７０１は文字領域の存在する範囲、
７０２および７０３は書誌事項の存在する範囲、７０
４，７０５，７０６は抽出した文字領域である。

【００２９】いま、文字領域７０４および７０５は、そ
れぞれ上下の書誌事項存在範囲７０２、７０３に入って
いるので書誌事項領域として抽出される。文字領域７０
６は下部の存在範囲７０３に一部入っているものの、そ
こに含まれてはいないので書誌事項領域として抽出しな
い。

【００３０】最後に、囲み枠が存在する場合の処理を行
う（ステップ３０６）。頁内に本文とは別に囲み枠が存
在する場合には、囲み枠内の文章は別記事である場合が
多い。従って、この部分の内容を示す部分領域を抽出す
ることは内容把握に役立つ。そこで、囲み枠内を、図６
のステップ６０５と同様の処理を行う。ただし、囲み枠
内の記事は、明確なサイズやフォントの差異を持つ小見
出しがない場合がある。そこで、枠内の行を先頭から一
律数行抽出することによって、小見出しの代わりとする
ことも可能である。

【００３１】以上の処理によって求められた「タイトル
領域」、「小見出し領域および行」、「書誌事項」、
「囲み枠先頭行」をキー領域とする。

【００３２】なお、本発明は上記した実施例に限定され
るものではなく、ステップ３０１および３０２で求める
頁全体の文字サイズ情報やフォント特徴は、領域分割や
行抽出の段階で求めるようにしてもよい。従って、それ
らの情報はステップ２０３までに求めるような構成に変
更してもよい。すなわち、領域分割手段１０２および行
抽出手段１０３が、上記した情報を抽出するように構成
される。また、画像入力手段１０１〜キー領域判別手段
１０４および制御部１０６を一つのプロセッサ上のソフ
トウェアで処理を実現してもよい。

【００３３】

【発明の効果】以上、説明したように、請求項１記載の
発明によれば、文書画像の内容把握に役立つ領域を、特
別なモデルを必要とすることなく得ることができる。

【００３４】請求項２記載の発明によれば、文書画像の
内容把握に役立つ領域を、簡単な処理によって抽出する
ことができる。

【００３５】請求項３記載の発明によれば、文書間の文
字サイズの変動に左右されずに、様々な文書において精
度よく必要とする部分領域を抽出することができる。

【００３６】請求項４記載の発明によれば、使用される
フォントは文書毎に変動が激しいが、本発明では頁内の
基本フォントと強調系フォントを識別しているので、フ
ォントの変動があっても精度よく必要とする部分領域を
抽出することができる。

【００３７】請求項５〜８記載の発明によれば、抽出さ
れる領域が通常の文書において内容把握に役立つ領域で
あり、加えて、これらの領域が通常レイアウトに頻繁に
現われるものであるので、精度よく必要とする部分領域
を抽出することができる。

【図面の簡単な説明】

【図１】本発明の実施例の構成を示す。

【図２】本発明の処理フローチャートを示す。

【図３】キー領域判別処理の詳細な処理フローチャート
である。

【図４】ステップ３０１（文字サイズ特徴検出処理）の
詳細フローチャートである。

【図５】ステップ３０３（タイトル部検出処理）の詳細
フローチャートである。

【図６】ステップ３０４（小見出し部検出処理）の詳細
の処理フローチャートである。

【図７】書誌事項検出処理を説明する図である。

【図８】行文字サイズの例を示す。

【図９】小見出し検出を説明する図である。

【符号の説明】

１０１画像入力手段１０２領域分割手段１０３行抽出手段１０４キー領域判別手段１０５データ記憶部１０６制御部１０７データ通信路

Claims

【特許請求の範囲】

【請求項１】文書画像を複数の要素に分割し、分割さ
れた各要素のレイアウト上の特徴を基に該要素が前記文
書画像の内容を端的に表わす領域であるか否かを判定
し、該領域を部分画像として抽出することを特徴とする
文書画像処理方法。
【請求項２】前記レイアウト上の特徴として、前記文
書画像の本文と異なる強調処理された部分を用いること
を特徴とする請求項１記載の文書画像処理方法。
【請求項３】前記強調処理された部分は、頁全体の基
本文字サイズと異なる文字サイズであることを特徴とす
る請求項２記載の文書画像処理方法。
【請求項４】前記強調処理された部分は、頁全体のフ
ォント特徴と異なるフォント特徴であることを特徴とす
る請求項２記載の文書画像処理方法。
【請求項５】前記強調処理された部分は、タイトル相
当位置であることを特徴とする請求項２記載の文書画像
処理方法。
【請求項６】前記強調処理された部分は、小見出し相
当位置であることを特徴とする請求項２記載の文書画像
処理方法。
【請求項７】前記強調処理された部分は、頁上下の書
誌事項であることを特徴とする請求項２記載の文書画像
処理方法。
【請求項８】前記強調処理された部分は、囲み枠内文
字列であることを特徴とする請求項２記載の文書画像処
理方法。