JPH09297765A - 文書画像処理方法 - Google Patents

文書画像処理方法

Info

Publication number
JPH09297765A
JPH09297765A JP8110808A JP11080896A JPH09297765A JP H09297765 A JPH09297765 A JP H09297765A JP 8110808 A JP8110808 A JP 8110808A JP 11080896 A JP11080896 A JP 11080896A JP H09297765 A JPH09297765 A JP H09297765A
Authority
JP
Japan
Prior art keywords
document image
area
processing method
document
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8110808A
Other languages
English (en)
Inventor
Takashi Saito
高志 齋藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP8110808A priority Critical patent/JPH09297765A/ja
Publication of JPH09297765A publication Critical patent/JPH09297765A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文書画像中から内容把握に役立つ部分(キー
領域)を自動的に抽出する。 【解決手段】 領域分割手段102は、入力された文書
画像を文字領域などの要素に分割する。行抽出手段10
3は、各文字領域から行を抽出する。キー領域判別手段
104は、分割された要素から文字サイズ特徴、フォン
ト特徴などを検出して、これらを内容把握に役立つキー
領域とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書画像中から内
容把握に役立つ領域を自動的に抽出する文書画像処理方
法に関する。
【0002】
【従来の技術】近年、計算機、デジタル機器の能力向上
やハードディスク等のデータ蓄積装置の能力向上によっ
て文書画像の流通機会が飛躍的に増大した。しかし文書
画像はデータ量が多く、このため処理速度が要求される
場合やネットワークを通じて画像データを交換する場合
などにネックとなってきた。
【0003】一般に、大量に蓄積された文書画像を閲覧
する場合には、その全ての画像について、蓄積された高
画質な画像状態で見る必要はなく、取敢えず内容の確認
が可能であれば十分な場合が多い。もちろん、キーワー
ド検索等が行える方が画像を扱うより、はるかに高速に
処理できる。しかし適切なキーワードを入力することは
難しい。蓄積された画像内容を一度も見たことがないよ
うな場合は、より一層困難である。
【0004】そこで、光ファイリング装置等において
は、縮小した画像をインデックス画像として原画像とは
別に保持し、まずそのインデックス画像を利用者に提示
することによって、処理するデータ量の軽減化を図って
いる。しかし、単に画像全体を縮小した場合には、全体
の感じはつかめても画像中の文字を読むことは難しく、
特に、似たようなレイアウトの文書が多い場合には、所
望の文書を選択することは難しい。
【0005】このような問題を解決するものとして、特
開平5−342326号公報に記載された文書処理装置
がある。この装置では、文書画像を領域分割し、分割さ
れた要素に対して、論理モデルに従って論理識別子を付
与し、必要とする論理要素だけを識別子をキーにして抽
出し、それを見やすく再配置する。また、部分的にOC
Rを使用することによって、抽出した情報のソ−ティン
グなども行う。
【0006】
【発明が解決しようとする課題】しかし、上記した文書
処理方法では、予め入力される文書画像のレイアウト構
成および論理構成を把握して、該当するモデルを作成す
る必要がある。モデルに従って文書が構成されていて、
領域分割部が完璧であれば精度よく処理できるが、実際
にはそうでない場合が多く、モデルの適用範囲が限定さ
れてしまう。また、論理モデルの作成には相当の熟達が
必要であることから、上記した処理方法では、新規文書
群の内容把握のために部分画像(キー領域)の抽出を行
うことが非常に難しい。
【0007】本発明は上記した事情を考慮してなされた
もので、本発明の目的は、文書画像中から内容把握に役
立つ部分(キー領域)を自動的に抽出することができる
文書画像処理方法を提供することにある。
【0008】
【課題を解決するための手段】前記目的を達成するため
に、請求項1記載の発明では、文書画像を複数の要素に
分割し、分割された各要素のレイアウト上の特徴を基に
該要素が前記文書画像の内容を端的に表わす領域である
か否かを判定し、該領域を部分画像として抽出すること
を特徴としている。
【0009】請求項2記載の発明では、前記レイアウト
上の特徴として、前記文書画像の本文と異なる強調処理
された部分を用いることを特徴としている。
【0010】請求項3記載の発明では、前記強調処理さ
れた部分は、頁全体の基本文字サイズと異なる文字サイ
ズであることを特徴としている。
【0011】請求項4記載の発明では、前記強調処理さ
れた部分は、頁全体のフォント特徴と異なるフォント特
徴であることを特徴としている。
【0012】請求項5記載の発明では、前記強調処理さ
れた部分は、タイトル相当位置であることを特徴として
いる。
【0013】請求項6記載の発明では、前記強調処理さ
れた部分は、小見出し相当位置であることを特徴として
いる。
【0014】請求項7記載の発明では、前記強調処理さ
れた部分は、頁上下の書誌事項であることを特徴として
いる。
【0015】請求項8記載の発明では、前記強調処理さ
れた部分は、囲み枠内文字列であることを特徴としてい
る。
【0016】
【発明の実施の形態】以下、本発明の一実施例を図面を
用いて具体的に説明する。図1は、本発明の実施例の構
成を示す。図において、101は画像の入力手段、10
2は文書画像を要素に分割する領域分割手段、103は
各文字領域において行を抽出する行抽出手段、104は
領域分割手段102および行抽出手段103で抽出した
情報からキー領域を判別するキー領域判別手段、105
は入力された画像や処理中の各種情報を蓄積するデータ
記憶部、106は全体を制御する制御部、107はデー
タ通信路である。
【0017】図2は、本発明の処理フローチャートを示
す。以下、図2に従って本発明を説明する。まず、画像
入力手段101によって文書画像を得る(ステップ20
1)。この画像入力手段は、スキャナやファックスであ
り、あるいはネットワーク経由で別の機器から画像を得
る手段でもよい。
【0018】次に、領域分割手段102は、入力された
文書画像を文字領域と、図や表や罫線等の要素に分割す
る(ステップ202)。このような領域分割方法として
は、例えば特開平6−20092号公報に記載された公
知技術を用いればよい。抽出した領域は、属性として要
素の種類(文字領域、表など)と、その位置(領域の外
接矩形)などを持つ。
【0019】行抽出手段103は、抽出した文字領域か
ら行を抽出する(ステップ203)。この行抽出方法と
しては、例えば、電子通信学会論文「周辺分布、綿密
度、外接矩形特徴を利用した文書画像の領域分割」(秋
山他、1986年8月、Vol.J69−DNo.8)
に記載された技術を用いればよい。
【0020】領域が分割され、行情報が抽出されると、
キー領域判別手段104はキー領域の判定を行う(ステ
ップ204)。ここで、キー領域とは文書の内容を把握
するのに役立つ部分である。一般的に、そのような部分
は何らかの方法で強調が施されている。例えば、大きな
文字や強調系のフォントを使用したり、あるいは他の部
分とは独立させたり、枠で囲むなどの処理が施されてい
る。本発明ではこのような文書のレイアウト表現上の特
徴を利用してキー領域を判別する。
【0021】図3は、キー領域判別処理の詳細な処理フ
ローチャートである。まず、各行の文字サイズ特徴を検
出する(ステップ301)。図4は、ステップ301
(文字サイズ特徴検出処理)の詳細フローチャートであ
る。最初に頁全体の基本文字サイズを検出する(ステッ
プ401)。これは、抽出した行内の矩形高さのヒスト
グラムを用いて、その最頻度を基本文字サイズとする。
このとき、各行内の文字の最大文字サイズを当該行の文
字サイズとする(ステップ402)。図8は、行文字サ
イズの例を示す。
【0022】そして、その行文字サイズを基本文字サイ
ズと比較し、「大文字行」、「中文字行」、「普通文字
行」の何れかに分類する。この分類には閾値を利用す
る。すなわち、基本文字サイズよりTh1(例えば1.
8)倍以上大きい文字サイズの行を「大文字行」とし
(ステップ405でYes)、ステップ405でNoと
なった文字列がTh2(例えば1.3)倍より大きいサ
イズの行を「中文字行」とする(ステップ406でYe
s)。ステップ406でNoとなるものを「普通文字
行」とする。
【0023】図3に戻り、次いでフォント特徴を調べる
(ステップ302)。この特徴としては、黒画素密度や
ランレングスの分布などを使用すればよい。あるいは、
特開平6−208649号公報に記載された方法を使用
してもよい。求めたフォント特徴から各行のフォントを
推定する。ここでフォントを正確に識別することは一般
的に難しい。そこで基本系/強調系の判別をするだけで
もよい。
【0024】次に、タイトル部の検出を行う(ステップ
303)。基本的にはタイトル部は基本文字サイズより
も大きな文字部である。また本文とは文字サイズや行ピ
ッチが異なり、また位置も離れているので通常は独立し
た領域として切り分けられる。そこで、図5に示すよう
に、各領域に対して一定行数(Th3)未満で(ステッ
プ503)、大文字行である場合(ステップ504)に
タイトル領域であると判定する。
【0025】続いて、小見出し部を検出する(ステップ
304)。小見出しは、本文と文字サイズがあまり違わ
ない場合も多く、また本文に近接するため本文と同一領
域になることも多い。図6は、小見出し部検出処理の詳
細の処理フローチャートである。
【0026】そこで、まず独立した領域になる場合を検
出し、次に本文と同一領域となる場合に行単位で切り分
けを行う。行数がTh4未満の領域において(ステップ
603)、領域内の行が中文字行である場合に(ステッ
プ604)、この領域内の行を小見出し行とする。また
該当しない領域においては、領域内小見出し検出(ステ
ップ605)を行う。
【0027】領域内の小見出し検出は次のように行う。
すなわち、領域の先頭行のサイズまたはフォントが、領
域の中ほどにある行のサイズまたはフォントと異なる場
合には、先頭行を小見出し行と検出する。このとき、先
頭行から続くいくつかの行についても同様に小見出し判
定を行ってもよい。図9は、小見出し検出を説明する図
である。
【0028】次に、書誌事項検出処理(ステップ30
5)を行う。書誌事項は、通常、頁の上部および脚部に
存在する。また、本文と異なり行数は少ない。そこで、
頁の上下にある孤立した書誌事項領域を検出する。図7
を例に説明すると、701は文字領域の存在する範囲、
702および703は書誌事項の存在する範囲、70
4,705,706は抽出した文字領域である。
【0029】いま、文字領域704および705は、そ
れぞれ上下の書誌事項存在範囲702、703に入って
いるので書誌事項領域として抽出される。文字領域70
6は下部の存在範囲703に一部入っているものの、そ
こに含まれてはいないので書誌事項領域として抽出しな
い。
【0030】最後に、囲み枠が存在する場合の処理を行
う(ステップ306)。頁内に本文とは別に囲み枠が存
在する場合には、囲み枠内の文章は別記事である場合が
多い。従って、この部分の内容を示す部分領域を抽出す
ることは内容把握に役立つ。そこで、囲み枠内を、図6
のステップ605と同様の処理を行う。ただし、囲み枠
内の記事は、明確なサイズやフォントの差異を持つ小見
出しがない場合がある。そこで、枠内の行を先頭から一
律数行抽出することによって、小見出しの代わりとする
ことも可能である。
【0031】以上の処理によって求められた「タイトル
領域」、「小見出し領域および行」、「書誌事項」、
「囲み枠先頭行」をキー領域とする。
【0032】なお、本発明は上記した実施例に限定され
るものではなく、ステップ301および302で求める
頁全体の文字サイズ情報やフォント特徴は、領域分割や
行抽出の段階で求めるようにしてもよい。従って、それ
らの情報はステップ203までに求めるような構成に変
更してもよい。すなわち、領域分割手段102および行
抽出手段103が、上記した情報を抽出するように構成
される。また、画像入力手段101〜キー領域判別手段
104および制御部106を一つのプロセッサ上のソフ
トウェアで処理を実現してもよい。
【0033】
【発明の効果】以上、説明したように、請求項1記載の
発明によれば、文書画像の内容把握に役立つ領域を、特
別なモデルを必要とすることなく得ることができる。
【0034】請求項2記載の発明によれば、文書画像の
内容把握に役立つ領域を、簡単な処理によって抽出する
ことができる。
【0035】請求項3記載の発明によれば、文書間の文
字サイズの変動に左右されずに、様々な文書において精
度よく必要とする部分領域を抽出することができる。
【0036】請求項4記載の発明によれば、使用される
フォントは文書毎に変動が激しいが、本発明では頁内の
基本フォントと強調系フォントを識別しているので、フ
ォントの変動があっても精度よく必要とする部分領域を
抽出することができる。
【0037】請求項5〜8記載の発明によれば、抽出さ
れる領域が通常の文書において内容把握に役立つ領域で
あり、加えて、これらの領域が通常レイアウトに頻繁に
現われるものであるので、精度よく必要とする部分領域
を抽出することができる。
【図面の簡単な説明】
【図1】本発明の実施例の構成を示す。
【図2】本発明の処理フローチャートを示す。
【図3】キー領域判別処理の詳細な処理フローチャート
である。
【図4】ステップ301(文字サイズ特徴検出処理)の
詳細フローチャートである。
【図5】ステップ303(タイトル部検出処理)の詳細
フローチャートである。
【図6】ステップ304(小見出し部検出処理)の詳細
の処理フローチャートである。
【図7】書誌事項検出処理を説明する図である。
【図8】行文字サイズの例を示す。
【図9】小見出し検出を説明する図である。
【符号の説明】
101 画像入力手段 102 領域分割手段 103 行抽出手段 104 キー領域判別手段 105 データ記憶部 106 制御部 107 データ通信路

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 文書画像を複数の要素に分割し、分割さ
    れた各要素のレイアウト上の特徴を基に該要素が前記文
    書画像の内容を端的に表わす領域であるか否かを判定
    し、該領域を部分画像として抽出することを特徴とする
    文書画像処理方法。
  2. 【請求項2】 前記レイアウト上の特徴として、前記文
    書画像の本文と異なる強調処理された部分を用いること
    を特徴とする請求項1記載の文書画像処理方法。
  3. 【請求項3】 前記強調処理された部分は、頁全体の基
    本文字サイズと異なる文字サイズであることを特徴とす
    る請求項2記載の文書画像処理方法。
  4. 【請求項4】 前記強調処理された部分は、頁全体のフ
    ォント特徴と異なるフォント特徴であることを特徴とす
    る請求項2記載の文書画像処理方法。
  5. 【請求項5】 前記強調処理された部分は、タイトル相
    当位置であることを特徴とする請求項2記載の文書画像
    処理方法。
  6. 【請求項6】 前記強調処理された部分は、小見出し相
    当位置であることを特徴とする請求項2記載の文書画像
    処理方法。
  7. 【請求項7】 前記強調処理された部分は、頁上下の書
    誌事項であることを特徴とする請求項2記載の文書画像
    処理方法。
  8. 【請求項8】 前記強調処理された部分は、囲み枠内文
    字列であることを特徴とする請求項2記載の文書画像処
    理方法。
JP8110808A 1996-05-01 1996-05-01 文書画像処理方法 Pending JPH09297765A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8110808A JPH09297765A (ja) 1996-05-01 1996-05-01 文書画像処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8110808A JPH09297765A (ja) 1996-05-01 1996-05-01 文書画像処理方法

Publications (1)

Publication Number Publication Date
JPH09297765A true JPH09297765A (ja) 1997-11-18

Family

ID=14545191

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8110808A Pending JPH09297765A (ja) 1996-05-01 1996-05-01 文書画像処理方法

Country Status (1)

Country Link
JP (1) JPH09297765A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000137728A (ja) * 1998-11-02 2000-05-16 Fujitsu Ltd 文書解析装置及びプログラム記録媒体
JP2003058556A (ja) * 2001-08-16 2003-02-28 Ricoh Co Ltd 文書画像のタイトル抽出方法、抽出プログラム、及びタイトル抽出装置
JP2009145963A (ja) * 2007-12-11 2009-07-02 Konica Minolta Business Technologies Inc 文書処理装置および文書処理方法
JP2010231637A (ja) * 2009-03-27 2010-10-14 Konica Minolta Business Technologies Inc 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
JP2019016350A (ja) * 2017-06-30 2019-01-31 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド 電子文書における強調テキストの識別

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57199066A (en) * 1981-06-02 1982-12-06 Toshiyuki Sakai File forming system for cutting of newspaper and magazine
JPS6446873A (en) * 1987-08-18 1989-02-21 Fuji Photo Film Co Ltd Method and device for recording/retrieving image information
JPH0233686A (ja) * 1988-07-25 1990-02-02 Fuji Electric Co Ltd 文字列抽出方法
JPH02206873A (ja) * 1989-02-07 1990-08-16 Ricoh Co Ltd 画像検索方式
JPH05282487A (ja) * 1992-04-01 1993-10-29 Matsushita Electric Ind Co Ltd 文字認識装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57199066A (en) * 1981-06-02 1982-12-06 Toshiyuki Sakai File forming system for cutting of newspaper and magazine
JPS6446873A (en) * 1987-08-18 1989-02-21 Fuji Photo Film Co Ltd Method and device for recording/retrieving image information
JPH0233686A (ja) * 1988-07-25 1990-02-02 Fuji Electric Co Ltd 文字列抽出方法
JPH02206873A (ja) * 1989-02-07 1990-08-16 Ricoh Co Ltd 画像検索方式
JPH05282487A (ja) * 1992-04-01 1993-10-29 Matsushita Electric Ind Co Ltd 文字認識装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000137728A (ja) * 1998-11-02 2000-05-16 Fujitsu Ltd 文書解析装置及びプログラム記録媒体
JP2003058556A (ja) * 2001-08-16 2003-02-28 Ricoh Co Ltd 文書画像のタイトル抽出方法、抽出プログラム、及びタイトル抽出装置
JP2009145963A (ja) * 2007-12-11 2009-07-02 Konica Minolta Business Technologies Inc 文書処理装置および文書処理方法
JP2010231637A (ja) * 2009-03-27 2010-10-14 Konica Minolta Business Technologies Inc 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
US8611666B2 (en) 2009-03-27 2013-12-17 Konica Minolta Business Technologies, Inc. Document image processing apparatus, document image processing method, and computer-readable recording medium having recorded document image processing program
JP2019016350A (ja) * 2017-06-30 2019-01-31 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド 電子文書における強調テキストの識別

Similar Documents

Publication Publication Date Title
EP0854433B1 (en) Caption and photo extraction from scanned document images
US5369742A (en) Image file and retrieving apparatus and method
EP1146478B1 (en) A method for extracting titles from digital images
JP3292388B2 (ja) 文書画像の復号なしに文書を要約するための方法と装置
JP2973944B2 (ja) 文書処理装置および文書処理方法
US7627176B2 (en) Apparatus, method, and computer program for analyzing document layout
US6351559B1 (en) User-enclosed region extraction from scanned document images
EP1124189A1 (en) Document sorting method, document sorter, and recorded medium on which document sorting program is recorded
JPH05250408A (ja) 取り込んだ情報で文書画像を復号することなく選択した文書の重要な部分を補完するための方法
JP3516269B2 (ja) 文書イメージの処理装置
JP4408495B2 (ja) 画像処理方法及び画像処理装置
JPH09297765A (ja) 文書画像処理方法
JPH09319747A (ja) 文書画像の構造化方法
JP3912463B2 (ja) 論理構造抽出装置及び論理構造抽出方法
JP3544324B2 (ja) 文字列情報抽出装置及び方法及びその方法を記録した記録媒体
JPH11203305A (ja) 文書画像処理方法および記録媒体
Qin et al. Laba: Logical layout analysis of book page images in arabic using multiple support vector machines
JP4055976B2 (ja) 文書画像処理方法、文書画像処理装置及び記録媒体
Bhowmik et al. A two-stage approach for text and non-text separation from handwritten scientific document images
EP1229497B1 (en) Run length based connected components and contour following for enhancing the performance of circled region extraction algorithm
JP3091278B2 (ja) 文書認識方式
JP2005032280A (ja) キー領域抽出処理方法
JPH0743718B2 (ja) マルチメディア文書構造化方式
Chao Graphics extraction in a PDF document
KR20240065946A (ko) 문자인식 및 지식그래프 기반의 오토레이블링 장치 및 방법

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040615

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040809

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040907