JPH07192083A - 文書画像レイアウト解析装置 - Google Patents

文書画像レイアウト解析装置

Info

Publication number
JPH07192083A
JPH07192083A JP5330555A JP33055593A JPH07192083A JP H07192083 A JPH07192083 A JP H07192083A JP 5330555 A JP5330555 A JP 5330555A JP 33055593 A JP33055593 A JP 33055593A JP H07192083 A JPH07192083 A JP H07192083A
Authority
JP
Japan
Prior art keywords
layout
layout information
information
document
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5330555A
Other languages
English (en)
Other versions
JP2768249B2 (ja
Inventor
Noboru Nakajima
昇 中島
Takeshi Kamimura
健 上村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP5330555A priority Critical patent/JP2768249B2/ja
Publication of JPH07192083A publication Critical patent/JPH07192083A/ja
Application granted granted Critical
Publication of JP2768249B2 publication Critical patent/JP2768249B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【目的】異なるポイント数の文字が混在する文書に対し
て構成度なレイアウト解析を実現する。 【構成】文書画像入力手段から入力された文書画像の連
結成分を連結成分の抽出手段11で抽出し、連結成分の
分類手段12により大きさ情報に応じて分類し、分類し
て得られたクラスに属する連結成分のみを含んだ画像プ
レーンを部分画像生成手段13により各々生成し、各分
割画像プレーンに対してレイアウト解析をレイアウト解
析手段14〜15により行い、各画像プレーンから抽出
したレイアウト情報をレイアウト情報合成手段16で合
成し、文書画像全体にわたってのレイアウト解析結果を
得、レイアウト情報を合成する最に矛盾が生じた場合、
連結成分を多く含み、文字にふさわしい大きさの連結成
分を含むプレーンのレイアウト情報を優先して合成を行
い、最終的なレイアウト解析結果を得る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は文書画像のレイアウト解
析装置に関する。
【0002】
【従来の技術】文書画像認識装置においては、文書をイ
メージスキャン等より入力して得られるディジタル画像
に対してレイアウト解析処理を行い、抽出された個々の
文字画像に対して文字認識処理を行い、文字コードへ変
換するという処理の流れがとられる。ここでレイアウト
解析とは入力画像から文字行を抽出し、文字切り出しを
行うまでの処理を指すものとする。
【0003】これまで提案されてきたレイアウト解析方
法に関する文献として、「文字構造情報に基づく高精度
な文字切り出し処理を用いた文書認識システム」(孫
他、情報処理学会論文誌,Vol.33,No.99、
1992)がある。これは日本語文書を対象とした方法
であり、以下その概要について説明する。この方法で
は、入力された文書画像は2値化、傾き補正処理を施し
た後、レイアウト解析される。領域分割を行い、文字領
域のみを取り出し、文字領域に対してラベリング処理に
より黒画素連結成分を抽出する。得られた黒画素の塊を
候補図形と呼ぶ。文字には、「北」「ハ」の用な分離文
字(複数の連結成分より構成される文字)や、接触して
一つの連結成分を構成する接触文字が多く存在するた
め、候補図形から文字図形を生成する処理が必要とな
る。補正図形のサイズで最も頻度の高いものを文字の平
均サイズとする。候補図形を横軸に射影し、その分布か
ら例の抽出を行う。列内で候補図形の統合を行い、分離
文字に対処する。平均サイズに近いサイズを持つ候補図
形を優先的に切り出し、残った図形は、分離文字に対し
ては強制統合、接触文字に対しては分離処理及び句読点
の抽出を行い、最終的な文字切り出し結果を得る。
【0004】また、もう1つのレイアウト解析方法で、
英文の文書を対象とした例として、TSUJIMOTO
らによって”Major Components of
aComplete Text Reading S
ystem”(TUJIMOTO他,Proceedi
ngs of the IEEE,Vol.80,N
o.7,1992)に記載された方法について説明す
る。文書画像をランレングスで表現し、(1)黒画素の
連結成分を抽出し、1mm程度の比較的近い距離にある
近接する連結成分を統合してセグメントする。(2)各
セグメントをテキスト行、図、絵等に分類する。(3)
テキスト行に分類されたセグメントに対して近接するも
の同士を統合する。これによりテキストのブロックを抽
出する。ここで、単語は(1)(2)の処理、テキスト
行は(3)の処理で抽出できるとしている。
【0005】これらの方法では同一文書内に異なるポイ
ント数の文字行が近接して存在する場合、これらを正し
く抽出できない。レイアウト解析処理は段組間のスペー
スは行間のスペースよりも、行間スペースは文字間スペ
ースより、文字間スペースは文字内のスペースより、大
きいという文書の組み版規則が、入力された文書画像に
成立していることを前提として、文書画像のレイアウト
解析を行っている。このとき、例えば図10の様にポイ
ント数の異なる文字間隔より近接して存在すると、ポイ
ント数の大きな文字の文字間隔よりポイント数の小さな
テキスト行の行間隔が小さくなり、近接するポイント数
の大きな文字がポイント数の小さなテキスト行に統合さ
れてしまい、正しい行及び文字の抽出が行えなくなる。
【0006】この様に、異なるポイント数の文字が同一
文書内に混在する場合、レイアウト解析が困難であっ
た。
【0007】
【発明が解決しようとする課題】従来のレイアウト解析
処理は段組間のスペースは行間のスペースよりも、行間
スペースは文字間スペースより、文字間スペースは文字
内のスペースより、大きいというような文書の組み版規
則が、入力された文書画像に成立している場合に限り、
文書画像のレイアウト解析が正常に動作するものであっ
た。ポイント数の異なる文字が混在するような文書にお
いて、このような規則は必ずしも成り立っているとは限
らない。
【0008】本発明の目的は、従来手法で困難であった
異なるポイント数の文字が同一文書内に混在するような
文書に対して高精度なレイアウト解析性能を実現するこ
とである。
【0009】
【課題を解決するための手段】本発明は、文書画像入力
手段、前記文書画像から連結成分を抽出する手段と、前
記連結成分を大きさ情報に応じて分類する手段と、分類
して得られたクラスに属する連結成分のみを含んだ部分
画像を各々生成する手段と、前記各部分画像に対して、
レイアウト解析を行い、レイアウト情報を抽出するレイ
アウト解析手段と、前記各レイアウト情報を合成する手
段、を含んで構成されることを特徴とする。
【0010】
【作用】連結成分を大きさ情報に応じて分類し、得られ
たクラスに属する連結成分のみを含んだ部分画像を各々
生成することにより、ポイント数の異なる文字を各部分
画像に振り分ける。各部分画像においては従来手法によ
るレイアウト解析を行う。さらに各部分画像のレイアウ
ト解析の結果より得られたレイアウト解析を行う。さら
に各部分画像のレイアウト解析の結果より得られたレイ
アウト情報を合成することで、最終的なレイアウト解析
結果を得る。レイアウト情報の合成の際に、各レイアウ
ト情報間で矛盾が生じた場合、各部分画像に含まれる連
結成分数が多く、かつ文字らしい大きさを持つ連結成分
を含むクラスのレイアウト解析結果を優先して合成を行
う。
【0011】
【実施例】異化に、図面を用いて本発明の実施例につい
て説明する。
【0012】図1は同実施例を示すブロック図である。
画像入力処断より入力された文書画像は2値化処理を施
され画像の走査信号に変換される。図3は入力文書画像
を走査した後、2値化処理を施した画像の例である。こ
の入力文書は表題となる書面の大部分を占める本分に相
当する文字に加え、表題部分に相当する大きな文字、ル
ビの小さな文字、粒状のノイズ、の大きさの異なる4つ
の成分を含んでいるものである。
【0013】連結成分の抽出手段11により各黒画素連
結成分が抽出され、連結成分の外接矩形情報101を得
る。ここで、黒画素は文字、図形等、文書を構成する要
素部分、白画素は背景部分に相当するものである。次
に、2つの外接矩形が包含関係にある場合、もしくは外
接矩形の重複度がある程度より大きい場合、両矩形を統
合する。ここで重複度は例えば重複している2つの矩形
の面積の合計にしめる重複部分の面積の割合で表すもの
とする。図4は連結成分の外接矩形に対して、包含関係
にある矩形の統合、及び重複度を用いた統合を行った結
果を示すものである。
【0014】連結成分の分類手段12では連結成分の抽
出手段11において抽出、統合された連結成分の外接矩
形の大きさで、各連結成分をクラスに分類し、連結成分
のクラスへの分類情報を出力する。ここで、クラスとは
大きさの近い連結成分の集合であり、例えば、見出し文
字に相当するクラスC3 、本分文字に相当するクラスC
2 、ルビや文字のへん、つくり、句読点に相当するクラ
スC1 、小さなノイズに相当するクラスC0 の計4種類
が考えられる。分類する基準としては、外接矩形の高
さ、幅、面積、輪郭長等が考えられるが、ここでは一例
としてクラスへの分類を矩形の面積を用いて行うことと
する。具体的には、各矩形の面積を求め、例えばK−m
eans法(例えばK=4)を用いたクラスタリングに
よりクラスC0 、C1 、C2 、C3 、…に各矩形を分類
する。
【0015】部分画像生成手段13はこれに基づき連結
成分を各クラスに属する連結成分を部分画像ごとに割り
振り、クラスごとの部分画像103〜104を生成す
る。例えばクラスCi に属する連結成分のみを含む部分
画像をPi (i=1,2,3)とする。図5(a)〜
(d)は、外接矩形のクラスへの分類情報に従い、各部
分画像に連結成分を割り当てた結果である。この例で
は、部分画像P0 はノイズ、部分画像P1 はルビと文字
内に分離を含む文字が矩形統合の際に統合処理されず分
離したまま残った文字の一部分、部分画像P2 は本分部
分の文字、部分画像P3 は表題部分の文字に相当してい
る。
【0016】前記化部分画像はそれぞれ対応するレイア
ウト解析手段14〜15でレイアウト解析処理される。
ここでの部分画像のレイアウト解析手段は、既に矩形面
積のほぼ等しい矩形が各部分画像に振り分けられている
ので、従来の技術で述べた孫らの方法、Tujimot
oらの方法等を用いて行うことが可能である。ここでは
一例として、辻によって「スプリット検出法に基づく頁
画像の構造解析」と題して1985年に電子通信学界技
術研究報告パターン認識と学習PRL85−17に提案
された方法を各クラスの部分画像に共通して適用するこ
ととする。この方法を用いたレイアウト解析方法は各部
分画像内において、水平、垂直方向に投影パターンを求
め、行の配置の周期性を考慮して行を切り出し、文字が
ほぼ正方形をなすことを仮定して、行の幅から文字ピッ
チを推定する。推定文字ピッチを用いて、文字行から多
少の変動を考慮してほぼ等間隔に文字を切り出す。この
様な従来技術を用いることで点在する文字を位置関係、
文字の並びの周期性を考慮して、文字、行の抽出が行え
る。図6(a)〜(d)は同入力画像例入力時に、各ク
ラスの部分画像に対して文字行及び文字を切り出した結
果である。
【0017】部分画像毎のレイアウト情報105〜10
6はレイアウト情報合成手段16において合成され、最
終的な全文書にわたるレイアウト解析結果を出力する。
レイアウト情報合成手段16に関わる一実施例を図2を
用いて説明する。
【0018】まず、連結成分数ヒストグラム生成手段2
0により各クラスに属する矩形数のヒストグラムである
連結成分数ヒストグラム200を求め、各クラスに含ま
れる連結成分数を記憶しておく。図7は図3の入力画像
例を入力した際の連結成分数ヒストグラムである。
【0019】レイアウト情報選択手段22において、レ
イアウト情報の合成を行うときに、各部分画像のレイア
ウト情報の単純な重量を行った結果、一つの連結成分が
複数のレイアウト情報において矛盾を起こす場合、優先
度決定手段21に対して優先度要求信号202を出す。
【0020】レイアウト情報選択手段22において各レ
イアウト情報の合成を行う。このとき、レイアウト情報
の矛盾している部分が発見された場合、優先度要求信号
202を発生し優先度決定手段21に送る。次に、優先
度決定手段21から得られた優先度信号201に従っ
て、優先度の高いクラスのレイアウト情報を選択する。
これを全てのレイアウト情報に関する矛盾点について行
い、レイアウト情報合成結果107を出力する。
【0021】優先度決定手段21は優先度要求信号20
2を受信すると前記連結成分数ヒストグラム200を参
照し、レイアウト情報における矛盾を生じている部分に
対応している複数のクラス内の各頻度を比較し、最大の
頻度を持つクラスにレイアウト情報合成の際の優先度が
与えられる。また、このときクラスに含まれる連結成分
の外接矩形の大きさが小さく部分画像に含まれる連結成
分の多くがノイズとみなされる場合、もしくは外接矩形
の大きさが大きく部分画像に含まれる連結成分の多くが
図、表等とみなされる場合には優先度は与えられない。
この結果の優先度信号201をレイアウト情報選択手段
22に返す。
【0022】図8が各クラスの部分画像のレイアウト情
報を単純に重畳した結果である。同図では文字「行」の
横ストローク、「か」の右側、「能」の各連結成分、に
おいて、レイアウト情報に関して矛盾が生じているが、
この矛盾に関与する部分画像P1 、P2 に属する文字数
頻度を参照すると、部分画像P2 に属する文字数の頻度
が高くなっており、この部分においては部分画像P2 の
レイアウト解析結果に優先度が与えられ、レイアウト情
報合成の際に優先される。また、部分画像P0に属する
連結成分は矩形サイズが小さくノイズ成分を多く含んで
いるとみなされるため優先度は与えられない。このた
め、レイアウト情報合成時に他の部分画像のレイアウト
情報と重複のあるもの以外の連結成分は削除される。図
9はレイアウト情報を合成した結果であり、ポイント数
の異なる文字が混在している文書であるに拘らず正しい
レイアウト解析結果が得られている。
【0023】以上の方法で、文字の大きさに捕らわれず
に文書全体にわたるレイアウト解析結果を得ることがで
きる。
【0024】
【発明の効果】例えば図10のように異なるポイント数
の文字から構成される行が近接する文書において、連結
成分の大きさ毎に部分画像を生成し、各クラスの部分画
像毎にレイアウト解析処理を行うことで、正しい解析結
果が得られる。
【図面の簡単な説明】
【図1】本発明の一実施例に係わるレイアウト解析方式
の構成を示すブロック図である。
【図2】図1におけるレイアウト情報合成手段の1実施
例に係わるブロック図である。
【図3】入力される文書画像の例である。
【図4】図2の文書画像を入力した際に、連結成分の抽
出手段により、抽出した連結成分の外接矩形抽出結果で
ある。
【図5】同入力画像に対して、部分画像生成手段により
各クラスに分類された連結成分を各部分画像に振り分
け、部分画像を生成した結果である。(a)部分画像P
0、(b)部分画像P1 、(c)部分画像P2 、(d)
部分画像P3
【図6】同入力画像に対して、各部分画像ごとのレイア
ウト解析結果(a)部分画像P0 のレイアウト解析結
果、(b)部分画像P1 のレイアウト解析結果、(c)
部分画像P2 のレイアウト解析結果、(d)部分画像P
3 のレイアウト解析結果。
【図7】図2の文書画像を入力した際に、連結成分の分
類手段により、クラスに分類された連結成分の数をクラ
スごとに計数した結果の連結成分ヒストグラムである。
【図8】同入力画像に対して、レイアウト情報合成手段
で、各クラスの部分画像のレイアウト解析結果情報を重
畳した結果である。
【図9】同入力画像に対して、図7のレイアウト情報重
畳結果を優先度の高いクラスのレイアウト情報を優先さ
せてレイアウト情報を統合した結果である。
【図10】異なるポイント数の文字を同一行内に含む文
書画像例に本手法を適用した場合の効果に関する概念図
である。(a)原画像、(b)ポイント数の大きな文字
を抽出したクラスの部分画像、(c)ポイント数の小さ
な文字を抽出したクラスの部分画像。
【符号の説明】
11 連結成分の抽出手段 12 連結成分の分類手段 13 部分画像生成手段 14〜15 レイアウト解析手段 16 レイアウト情報合成手段 20 連結成分数ヒストグラム生成手段 21 優先度決定手段 22 レイアウト情報選択手段 101 外接矩形情報 102 連結成分のクラスへの分類情報 103〜104 画像プレーン 105〜106 画像プレーンのレイアウト情報 107 レイアウト情報合成結果

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 文書画像を二値画像信号として入力し、
    連結成分を抽出する連結成分の抽出手段と、前記連結成
    分を大きさ情報に応じて分類する連結成分の分類手段
    と、大きさ情報に応じた分類を行い得られたクラスに属
    する連結成分のみを含んだ部分画像を各々生成し、記憶
    する部分画像生成手段と、前記各部分画像に対して、レ
    イアウト解析を行い、レイアウト情報を抽出するレイア
    ウト解析手段と、前記各レイアウト情報を合成するレイ
    アウト情報合成手段と、から構成される文書画像レイア
    ウト解析装置。
  2. 【請求項2】 請求項1記載の文書画像レイアウト解析
    装置において、前記レイアウト情報合成手段は、前記各
    レイアウト解析手段の出力するレイアウト情報から前記
    各クラスに対する連結成分の頻度分布を計測し、連結成
    分数ヒストグラムとして記憶する連結成分数ヒストグラ
    ム生成手段と、前記各レイアウト解析手段の出力するレ
    イアウト情報間で矛盾が生じる場合、前記連結成分数ヒ
    ストグラムを参照してレイアウト情報の合成を行う際の
    優先度を決定する優先度決定手段と、前記優先度に従っ
    てレイアウト情報を優先してレイアウト情報を合成し、
    最終的なレイアウト情報を出力する、レイアウト情報選
    択手段とを含んで構成されることを特徴とする文書画像
    レイアウト解析装置。
JP5330555A 1993-12-27 1993-12-27 文書画像レイアウト解析装置 Expired - Fee Related JP2768249B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5330555A JP2768249B2 (ja) 1993-12-27 1993-12-27 文書画像レイアウト解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5330555A JP2768249B2 (ja) 1993-12-27 1993-12-27 文書画像レイアウト解析装置

Publications (2)

Publication Number Publication Date
JPH07192083A true JPH07192083A (ja) 1995-07-28
JP2768249B2 JP2768249B2 (ja) 1998-06-25

Family

ID=18233964

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5330555A Expired - Fee Related JP2768249B2 (ja) 1993-12-27 1993-12-27 文書画像レイアウト解析装置

Country Status (1)

Country Link
JP (1) JP2768249B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7257253B2 (en) 2002-06-28 2007-08-14 Fujitsu Limited Apparatus and method of analyzing layout of document, and computer product
JP2012194705A (ja) * 2011-03-15 2012-10-11 Omron Corp 画像処理装置、画像処理方法および画像処理プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7257253B2 (en) 2002-06-28 2007-08-14 Fujitsu Limited Apparatus and method of analyzing layout of document, and computer product
JP2012194705A (ja) * 2011-03-15 2012-10-11 Omron Corp 画像処理装置、画像処理方法および画像処理プログラム

Also Published As

Publication number Publication date
JP2768249B2 (ja) 1998-06-25

Similar Documents

Publication Publication Date Title
US6574375B1 (en) Method for detecting inverted text images on a digital scanning device
US8041113B2 (en) Image processing device, image processing method, and computer program product
JP3308032B2 (ja) スキュー補正方法およびスキュー角検出方法およびスキュー補正装置およびスキュー角検出装置
US8077976B2 (en) Image search apparatus and image search method
US5856877A (en) Apparatus and method for processing and reproducing image information
US6327384B1 (en) Character recognition apparatus and method for recognizing characters
US7298900B2 (en) Image processing method, image processing apparatus and image processing program
US7321688B2 (en) Image processor for character recognition
US6532302B2 (en) Multiple size reductions for image segmentation
US20090097765A1 (en) Image processing apparatus, image processing method, computer-readable medium and computer data signal
JP2001060247A (ja) 画像処理装置および画像処理方法
US6785420B2 (en) Method and apparatus for table recognition, apparatus for character recognition, and computer product
JP2000207489A (ja) 文字抽出方法、装置および記録媒体
JPH0256708B2 (ja)
JP2768249B2 (ja) 文書画像レイアウト解析装置
JP3187895B2 (ja) 文字領域抽出方法
KR100334624B1 (ko) 클러스터링기반문서영상분할방법
JPH09114923A (ja) 領域分割装置
JP2001143076A (ja) 画像処理装置
JPH0660220A (ja) 文書画像の領域抽出方法
Hori et al. Table-form structure analysis based on box-driven reasoning
US20110091111A1 (en) Multilevel bit-mapped image analysis method
JPH0535914A (ja) 画像傾き検出方法
JPH06259597A (ja) ドキュメントイメージ処理方法並びに文字認識システムおよびドキュメントイメージ処理装置
JP2974167B2 (ja) 文字の大分類認識方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19980310

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080410

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090410

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100410

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110410

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120410

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120410

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130410

Year of fee payment: 15

LAPS Cancellation because of no payment of annual fees