JP4395188B2

JP4395188B2 - 文書画像認識装置および文書画像認識プログラムの記憶媒体

Info

Publication number: JP4395188B2
Application number: JP2008156213A
Authority: JP
Inventors: 克仁藤本; 洋鎌田; 浩司黒川
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1997-11-28
Filing date: 2008-06-16
Publication date: 2010-01-06
Anticipated expiration: 2018-05-28
Also published as: JP2008217833A

Description

本発明は，例えばイメージスキャナで読み取った文書やファクシミリ装置で受信した文書などの文書画像中の文字行および段を抽出して文書画像を認識するための文書画像認識装置および文書画像認識プログラムの記憶媒体に関する。

文書光学式読取り（ＯＣＲ）エンジンの対象文書の拡大のためには，新聞等に見られるような縦行横行混在文書のレイアウト解析機能の搭載が必須である。本発明は，この縦行横行混在文書のレイアウト解析のために必要な要素技術として，文書画像認識のための行抽出処理および段抽出処理の新たな技術を提供するものである。

（１）文書画像傾き検出
一般の印刷文書を読み取るためには，まず，イメージスキャナなどの画像入力装置を用いて文書画像として取り込む必要があるが，通常は原稿設置の際に多少傾きが生じる。電子ファイリングあるいは文書認識の使用に供するためには，その文書画像の傾き量を検出し，補正する必要がある。

従来の傾き検出技術においては，文書画像中の主要な構成要素であるテキスト領域では文字が規則正しく並んでいることを利用している。

例えば，中野らは「文書画像の傾き補正のための一方式」と題して電子情報通信学会論文誌Ｄ，vol.J69-Ｄ，No.1, pp.1833-1834（非特許文献１）に記載されているように，文字列の基準線がほぼ一定に存在することに着目し，文字ブロックの下端座標値をハフ変換し，ハフ空間上でのピーク値を検出することによって文字列の傾きを推定する第１の方式を提案している。

また，水野らは「文書画像傾き検出装置」と題して特開平７−１９２０８５号公報（特許文献１）に記載されているように，文字を構成する連結成分を抽出し，近接する連結成分同士を結合し仮の文字行を生成し，仮の文字行に接する直線を求めることによって文字列の傾きを推定する第２の方式を提案している。

また，斎藤らは「文書傾き補正装置」と題して特開平２−１７０２８０号公報（特許文献２）に記載されているように，傾き角度θを順次変更しながら文書画像を仮に補正し，補正画像中の全黒画素を含む外接矩形の面積が最小となる角度θを傾き角度として求める第３の方式を提案している。

（２）レイアウト解析（行・段の抽出）
従来，ＯＣＲ装置などにおいて，横行縦行の混在した文書画像中の文字行および段を抽出する方法としては以下のような方法が提案されている。

例えば，辻本らは，「文書画像処理装置」と題して特開平１−１８３７８３号公報（特許文献３）に記載されているように，入力文書の文字行をある方向に射影し，その周辺分布を作成することにより，入力文書から自動的にその段組を決定する第４の方式を提案している。

また，水谷らは，「文書画像処理装置」と題して特開平５−１７４１７９号公報（特許文献４）に記載されているように，入力文書の構成要素の空白領域を用いて段抽出を行う第５の方式を提案している。

また，平本らは，「文字行抽出方法および装置」と題して特開平１０−３１７１６号公報（特許文献５）に記載されているように，文字行方向が混在しており，文字の大きさやピッチの異なる領域が混在する文書からの文字行抽出を行う第６の方式を提案している。
特開平７−１９２０８５号公報特開平２−１７０２８０号公報特開平１−１８３７８３号公報特開平５−１７４１７９号公報特開平１０−３１７１６号公報中野他，「文書画像の傾き補正のための一方式」，電子情報通信学会論文誌Ｄ，vol.J69-Ｄ，No.1，pp.1833-1834

一般の印刷文書には縦書き，横書きが混在した文書も多く，文書認識する際には，文字行および段落を適切に抽出する必要がある。

しかしながら，上記の従来の方式では，以下のような問題がある。

（１）文書画像傾き検出に関する問題
上記第１の方式では，行方向一定を前提としているため，新聞のように横行と縦行の混在する文書に適用することができない。また，行方向一定の文書に対しても，すべての文字の下端が基準線上に存在するとは限らないため，誤差が含まれることが避けられない。さらに，ハフ変換処理には膨大な計算量を要するという問題がある。

また，上記第２の方式では，新聞のように横行と縦行の混在する文書の場合に，縦行の段組から誤って横の仮行を抽出する場合が発生するために，傾き推定の大きな誤差を生じてしまう可能性がある。

また，上記第３の方式では，横行縦行混在文書の傾き検出を目的として設計されてはいるが，文書画像の黒画素を含む外接矩形の面積という少量の情報をもとに角度検出を行っているため，検出した傾きの精度が不安定であるという問題点がある。また，画像自体を回転させて矩形領域を抽出する処理を何度も繰り返す必要があるため，膨大な計算量となる。

（２）レイアウト解析に関する問題
文字行と段を抽出するための上記第４の方式では，文字行をあらかじめ抽出しておき，それをもとに段抽出を行うため，段中の文字行が細分化されている不定形の段が細分化されてしまうという問題がある。

また，第５の方式では，空白領域を用いて段を抽出するために，行間より段間が狭い箇所がある文書の場合には誤った段抽出がされてしまうおそれがある。

この問題は，縦行横行の文章が密に混在するような文書画像では大きな問題となる。例えば図２６に示す新聞紙面の左上側の写真領域の下に矩形の枠で示すように，縦書の記事本文と横書の写真のキャプションの間が狭い文書画像の場合には，これらを一つの段落として，横書キャプションの各行の文字を縦書記事本文の先頭２文字と認識してしまうという問題が起こる。

また，第６の方式では，高精度な行抽出を行う前処理として段領域の抽出を行っているため，段中の文字行が細分化されている不定形の段が細分化されてしまい，結果として誤った行抽出をしてしまうという問題がある。

すなわち，従来技術では，〔１〕（基礎要素集合）→行抽出処理→段抽出処理→（レイアウト解析結果），または〔２〕（基礎要素集合）→段抽出処理→行抽出処理→（レイアウト解析結果）のいずれかの手順をとり，ボトムアップ処理あるいはトップダウン処理を基本としている。これらの従来技術は，どれも行抽出処理，段抽出処理を独立したものと捉え，逐次的に両者を実行することにより，行および段抽出を達成しようとしているところが共通しており，ここに問題点発生の主要な原因が存在する。

このような技術的背景を踏まえて，本発明は，横行縦行が混在した複雑な文書構造を持つ文書画像を認識するような場合にも，行および段の抽出を高精度に行うことができる文書画像認識装置を提供することを目的とする。

図１は，本発明の基本構成例を示す。

縦行横行が混在することがある認識対象の文書画像２が，文書画像認識装置１００に入力されると，まず，文書画像傾き検出部１は，傾き補正のための傾き角度３を検出する。レイアウト解析部５は，この傾き角度３によって補正した補正後の文書画像から抽出した基礎要素の集合４について，基本行を抽出し，行および段抽出を相互に繰り返し行うことで，横行縦行が混在する文書画像２の段構造を認識し，レイアウト解析結果６を出力する。

（１）文書画像傾き検出
文書画像傾き検出部１は，文書画像２を参照し文字を構成する成分の集合を抽出する文字成分抽出手段と，文字成分の集合を参照し横および縦の行候補を抽出する行候補抽出手段と，各々の行候補に対して信頼度を推定する行信頼度推定手段と，行信頼度に基づいて確度の高い行の集合を抽出する行抽出手段と，確度の高い行の集合の文字成分の配置を用いて傾きを推定する傾き推定手段とを備える。

文字成分抽出手段で抽出した文字成分の集合を用いて後段の処理を行い，文書画像の回転など画像を直接操作しないため，計算量を大幅に削減できる。行候補抽出手段によって横方向および縦方向の行の候補を抽出し，行信頼度推定手段および行抽出手段により確度の高い横および縦方向の行の集合を抽出するため，横行縦行混在文書に対しても傾き検出を行うことができる。さらに，傾き推定手段では，確度の高い行を構成する文字成分のみを用いて傾きを推定するために，ノイズに対して強く高精度の傾き推定を実現することができる。

このような本発明に関連する技術を用いると，従来技術では難しかった横行縦行混在文書の傾き検出を，高速かつ高精度に行うことができるようになる。

（２）レイアウト解析（行・段の抽出）
レイアウト解析部５は，文書を構成する基礎要素の集合４から方向の確定した行集合を抽出する基本行抽出手段と，行同士の関連付けによる段抽出および段を制約とした行抽出を相互に実行して行と段とを抽出する行・段相互抽出手段とを備える。ここで入力となる基礎要素の集合４としては，文書画像中の黒画素連結成分，あるいは文書画像中の黒画素の連結成分の外接矩形の重なり矩形を用いる。また，前記基本行抽出手段は，前記基礎要素集合の関連付けをもとに，横方向および縦方向の行方向を持つ行要素を生成する行要素生成手段と，各々の行要素に対して信頼度を推定し，信頼度に基づいて行要素を淘汰する行要素淘汰手段と，整合性のとれた行および文字集合を得るための行要素整合手段とを備える。前記行要素淘汰手段は，各々の行要素に対して行信頼度を定量的に計算し，それぞれの文字要素の属する横方向行要素および縦方向行要素の行信頼度の高い方向を文字要素の方向として，それぞれの行要素に対してその行候補に属する文字要素のうち，その行要素の行方向と一致する文字方向を持つものの比率をその行要素の信頼度とする。また，前記行・段相互抽出手段は，前記基本行抽出手段の出力である行要素の集合から，各行要素を唯一含む段要素を生成する手段と，前記段要素を互いに関連付け，関連付けられた段要素を統合する行要素統合手段と，前記統合された段要素に対する段要素集合の整合処理によって，段要素が満足すべき所定の条件を満たす段要素およびその段要素に含まれる行要素の集合を得る段要素整合手段と，前記段要素に含まれる行要素に対する行要素集合の整合処理によって，行要素が満足すべき所定の条件を満たす整合性のとれた行要素およびその行要素に含まれる文字要素の集合を得る行要素整合手段とを備え，前記行要素統合手段，前記段要素整合手段および前記行要素整合手段による処理を，前記段要素の新たな関連付けが発生しなくなるまで繰り返すことにより，前記段要素整合手段による処理の結果で前記行要素整合手段による処理の結果を変化させ，前記行要素整合手段による処理の結果でその後の前記段要素整合手段による処理の結果を変化させて最終的に行と段を抽出する。

従来技術との大きな違いは，従来技術では行抽出処理後に段抽出処理，または段抽出処理後に行抽出処理というように，行抽出処理と段抽出処理とを独立に行っていたのに対し，本発明では，行の抽出と段の抽出とを関連付けて，行の抽出結果を段の抽出処理に反映させ，また段の抽出結果を行の抽出に反映させる手段を持つことである。

本発明を用いると，行方向の確定した行を基本としつつ，行抽出と段抽出の相互作用によりお互いの結果を高めあうことによって，従来技術ではなし得なかった横行縦行が混在し，さらに段中の文字行が細分化されている不定形の段や行間よりも段間が狭い部分が存在するような複雑に入り組んだ文書構造を持つ文書画像に対しても，行および段の抽出を高精度に行うことができる。

以上の各処理手段を計算機によって実現するためのプログラムは，計算機が読み取り可能な可搬媒体メモリ，半導体メモリ，ハードディスクなどの適当な記憶媒体に格納することができる。

本発明に関連する技術によれば，従来技術では困難であった横書き（横行），縦書き（縦行）が混在した文書画像の傾きを高速かつ高精度に検出することができ，さらに本発明によれば，段中の文字行が細分化されている不定形の段や，行間よりも段間が狭い部分が存在する複雑に入り組んだ文書構造を持つ文書画像中の文字行および段の抽出を高精度に行うことができるようになる。

以下，図面を参照して本発明の実施の形態を詳しく説明する。

［１］ハードウェア構成
図２は，本発明を適用するハードウェア構成例を示す。図１に示す文書画像認識装置１００は，ハードウェアとしては，例えば図２に示すようなＣＰＵ２０，メモリ２１，キーボードその他の入力装置２２，ディスプレイその他の出力装置２３，ハードディスクその他の外部記憶装置２４，画像を読み取るイメージスキャナ２５およびこれらを接続するバス２６等から構成される。図１に示す各処理手段の機能は，図２に示すメモリ２１に格納されたプログラムをＣＰＵ２０が実行することにより実現される。

［２］文書画像傾き検出部
図３は，文書画像傾き検出部１の基本構成例を示す。文書画像傾き検出部１では，文書画像２を入力し，傾きを検出して傾き角度３を出力する。文書画像傾き検出部１は，文字成分抽出手段１１，行候補抽出手段１２，行信頼度推定手段１３，行抽出手段１４，傾き推定手段１５を持つ。

図４は文書画像傾き検出部１の処理フローチャート，図５は文字成分の抽出を説明する図，図６および図７は行候補の抽出を説明する図，図８は行信頼度の推定を説明する図である。

図４に示すフローチャートに従って，文書画像傾き検出部１の処理を詳しく説明する。まず，図４に示すステップＳ１で文書画像２を入力すると，文字成分抽出手段１１は，文書画像２を参照し，文字を構成する成分の集合を抽出する。文字成分の抽出では，文書画像２中の黒画素の連結成分の集合をラベリングなどの手法により抽出する（ステップＳ２）。このときに，各連結成分の外接矩形を求め保持しておき，以下の処理では外接矩形の座標値のみを用いることにし，計算量の削減を図る。

次に，連結成分の外接矩形で互いに重なっているものを統合する。この処理を重なり矩形統合と呼ぶ。重なり矩形統合の結果，重なり矩形の集合が得られる。次に，重なり矩形の大きさのヒストグラムを取るなどして，図，表などの領域に対応した極端に大きな重なり矩形を除去することにより，文字成分に対応した文字成分外接矩形の集合を出力する。

図５（Ａ）に示すように，例えば「日」という文字は，黒画素の一つの連結成分４０が一つの文字成分として抽出される。図５（Ｂ）に示すように，「旧」という文字は，二つの黒画素の連結成分４１，４２から構成されるため，二つの文字成分として抽出される。図５（Ｃ）に示すように「お」という文字は，二つの黒画素の連結成分４３ａ，４３ｂから構成されるが，これらの外接矩形４４ａ，４４ｂをそれぞれ求めると，これらは互いに重なっている矩形であることが分かる。そこで，重なり矩形統合を行うことにより，二つの連結成分４３ａ，４３ｂが一つの文字成分として抽出される。

行候補抽出手段１２は，図６に示す文書イメージ中の文字成分の配置５０の例のような文字成分の集合を参照し，横および縦の行候補の集合を抽出する（ステップＳ３，Ｓ４）。なお，文字成分５１のように，一つの文字成分が横行および縦行の二つの行候補に属することもある。

行候補抽出手段１２は，具体的には，文字成分外接矩形同士の隣接関係から横行および縦行の候補集合を出力する。横行の場合について説明すると，横行に含まれている文字成分の一部は，下辺が行の基準線にほぼ沿っていることを考慮し，文字成分の外接矩形の下辺が横方向の一定の範囲内に存在するかを順次探索することにより，横行候補を抽出する。

今，図７（Ａ）に示す文字成分の外接矩形６０に隣接する横方向の文字成分を探索する場合を考える。文字成分の外接矩形６０の下辺６２に着目して，この下辺６２の右端から右方向へ所定の角度（例えば±５度）の範囲内で，かつ，ある距離ｋ・Ｘ_Wの範囲内（ただし，ｋは所定値，Ｘ_Wは外接矩形のＸ方向の幅）に，隣接する文字成分の外接矩形６１の下辺６３が存在するかどうかを調べる。もし，この範囲内に文字成分の外接矩形６１の下辺６３が存在すれば，外接矩形６０から外接矩形６１へ右リンクを張る。この探索を各外接矩形に対して繰り返す。なお，各外接矩形からの右リンクは，０本か１本のいずれかとし，右リンクが一つの外接矩形から枝分かれしないようにする。この結果，例えば図７（Ｂ）に示すように，横方向への右リンクが張られた外接矩形群が求まるので，右リンクを辿ることにより，横行候補の集合を抽出する。

縦行候補についても同様に，それぞれの文字成分外接矩形に対して右辺が下隣にある文字成分に下リンクを張り，下リンクを辿ることにより求める。

行信頼度推定手段１３は，各々の行候補に対して信頼度を推定する（ステップＳ５）。まず，各々の行候補に対して行らしさを定量的に計算する。例えば，その行候補に含まれている文字成分の数が一定数以上あるという行の長さによる量，文字成分同士が比較的密に配置されているという近接性による量，文字成分の大きさがほぼ同じくらいであるなどの同質性による量などから行らしさを定量化できる。

次に，それぞれの文字成分外接矩形に対して，属する横行候補および縦行候補が一つずつ存在する可能性があるが，横行の行らしさと縦行の行らしさを比較してより行らしい方向の行に属する可能性が高いとして，その文字成分の方向フラグを横または縦にセットする。この結果から，それぞれの行候補に対して，その行候補に属する文字成分のうち，その行候補の行方向と一致する方向フラグを持つものの比率を求め，その行候補の信頼度とする。

例えば，図８（Ａ）〜（Ｄ）に示すように，各文字成分には，行候補抽出手段１２の処理において，隣接する文字成分が見つからなかった文字成分７０，縦行候補にのみ含まれる文字成分７１，横行候補にのみ含まれる文字成分７２，横行の縦行のいずれにも含まれる文字成分７３等が存在する。これらの各文字成分に対して，前述した行らしさの尺度を利用して，行らしさを定量的に計算し，「横」または「縦」の方向フラグをセットする。なお，単なるフラグではなく，不明のものについて，縦０．５，横０．５というように確率的な数値を付与してもよい。この結果から，方向一致の比率を計算し，それを行信頼度とする。例えば，横行としての行信頼度は，図８（Ｅ）に示すように，着目している横行候補に対して，「横」の方向フラグがセットされている文字成分の比率を計算することにより求められる。

行抽出手段１４は，行信頼度に基づいて確度の高い行の集合を抽出する（ステップＳ６）。ここでは，一定の信頼度以上の行信頼度を持つ行候補を確度の高い行として出力する。

傾き推定手段１５は，確度の高い行の集合の文字成分の配置を用いて傾きを推定する（ステップＳ７）。確度の高い行の集合に属する文字成分外接矩形の基準辺（横行の場合は下辺，縦行の場合は右辺）の座標値から，複数直線の当てはめによる最小自乗法を用いて傾きの推定を行う。

以上のような文書画像傾き検出部１を用いると，横行と縦行とが混在する文書に対しても高速かつ高精度に傾きを検出することができる。検出した傾き角度３によって，文書画像２の傾き補正を行い，次のレイアウト解析処理に進む。

［３］レイアウト解析部
図９は，本発明に係るレイアウト解析部５の基本構成例を示す。本実施の形態による文書画像認識装置１００におけるレイアウト解析部５では，補正後の文書画像の基礎要素の集合４を入力とし，行抽出および段抽出をしてレイアウト解析結果６を出力する。このため，レイアウト解析部５は，基本行抽出手段８と行・段相互抽出手段９とを持つ。

さらに，基本行抽出手段８は，基礎要素集合の関連付けをもとに，横方向および縦方向の行方向を持つ行要素を生成する行要素生成手段８１と，各々の行要素に対して信頼度を推定し，信頼度に基づいて行要素を淘汰する行要素淘汰手段８２と，整合性のとれた行および文字集合を得るための行要素整合手段８３とを持つ。また，行・段相互抽出手段９は，互いに関連付けられた段同士の統合を行う段要素統合手段９１と，整合性のとれた段および行集合を得るための段要素整合手段９２と，整合性のとれた行および文字集合を得るための行要素整合手段９３とを持つ。

（１）基本行抽出手段
図１０は，基本行抽出手段の処理概要を示す。

基本行抽出手段８の入力は，例えば文書画像中の黒画素連結成分，あるいは文書画像中の黒画素の連結成分の外接矩形の重なり矩形というような，文書を構成する基礎要素の集合４であり，出力は，行要素，文字要素，基礎要素が互いに包含関係により関連付けられた木構造の集合である。

まず，ステップＳ１０で，基礎要素の集合４を入力すると（ステップＳ１０），行要素生成手段８１は，各基礎要素を唯一含む文字要素を生成し（ステップＳ１１），さらに文字要素の関連付けによる行要素を生成する（ステップＳ１２）。具体的には，行要素生成手段８１は，基礎要素の集合同士の関連付けをもとに，横方向および縦方向の行方向を持つ行要素を生成する。この基礎要素集合同士の関連付けは，近接性あるいは同質性に基づいて行う。

続いて，行要素淘汰手段８２は，各々の行要素に対して信頼度を推定し，この信頼度に基づいて行要素を淘汰する（ステップＳ１３）。

さらに，行要素整合手段８３は，整合性のとれた行集合と文字集合を得るための行要素集合の整合処理を行い（ステップＳ１４），行要素，文字要素，基礎要素（重なり矩形要素）が互いに包含関係により関連付けられた木構造の集合を出力する。具体的には，以下のような条件を満たす行要素集合および行要素の内部構造を得る。

１）すべての文字成分は唯一の行要素に属する。

２）各々の行要素の行領域は互いに重ならない。ここで，行領域は各々の行要素に属する文字成分の外接矩形で定義される領域である。

３）行方向の確定した行要素に属する文字要素は，行方向順に順序付けされ，行と垂直方向に重なる文字要素が存在しないように互いに統合されている。

以下，具体例に従って基本行抽出手段８による行抽出についてさらに詳しく説明する。

図１１に示すような文書画像の行・段抽出を行うものとする。図１１に示す文書画像について，ラベリングによる黒画素連結成分の抽出処理および重なり矩形統合処理により，重なり矩形集合を基礎要素の集合として抽出したものを入力する（図１０のステップＳ１０）。入力した重なり矩形集合のそれぞれ一つを子として持つ文字要素の集合を生成し，これを基本文字要素の集合とする（ステップＳ１１）。

図１２は，このようにして生成された文書画像の基本文字要素の集合の例を示している。図１２中に示す各矩形が文字要素を表している。

次に，文字要素の関連付け（例えば近接性）による行要素の生成を行う（ステップＳ１２）。ここでは，入力された基本文字要素の集合のそれぞれの文字要素に対して，横方向および縦方向に文字要素自身の大きさのしきい値倍以下の距離にあり，かつ，最も近接している文字要素を探索してリンクを張り，横方向および縦方向に近接した文字要素の列を，行要素として生成する。行要素には，横の行方向を持つもの（横行要素）と，縦の行方向を持つもの（縦行要素）の両方が存在する。多くの文字要素は，横行要素と縦行要素の両方の子となって，要素同士の干渉が多く発生する。

図１３は，文字要素の近接性により生成した横行要素の外接矩形を表示した文書画像の例を示す。また，図１４は，文字要素の近接性により生成した縦行要素の外接矩形を表示した文書画像の例を示す。

前処理として行われる文書画像傾き検出部１による傾き補正のために，傾きがほぼ０である文書画像を前提にできるため，近接条件に傾きによる広がりを持たせないことにする。また，近接条件の距離のしきい値は，異なる段に属するであろう行が統合されてしまわないために，傾き検出による傾き補正の場合より厳しく小さな値を採用する。

次に，行信頼度を用いた行要素の淘汰を行う（ステップＳ１３）。文書画像傾き検出部１による処理と同様の手法を用いる。まず，生成した行要素の行信頼度を，属する文字要素の平均間隔，属する文字要素の数，属する文字要素のすべてを含む外接矩形による行領域の縦横比率をもとに算出する。次に，それぞれの文字要素に対して，関連する行要素の方向を文字要素の方向とする。関連する行要素が，横行要素と縦行要素の２種類存在する場合には，行信頼度の大きな行要素の方向を文字要素の方向とする。さらに，生成した行要素の強度を，その行要素に含まれる文字要素のうち，行要素の行方向と同一の方向を持つ文字要素の比率とし，強度がしきい値未満の行要素を淘汰し，しきい値以上のものを信頼度の高い基本行要素として残す。

図１５は，淘汰により生き残った信頼度の高い基本行要素を，外接矩形でもって表示した文書画像の例を示す。図１５では，本来の横行および縦行の一部が，それぞれ正しい行方向を持つ行要素として生き残っており，かつ，異なる段に属する行の誤った統合が存在しないことがわかる。

次に，行要素整合手段８３による行要素集合の整合処理（ステップＳ１４）を行う。この行要素整合手段８３の処理フローチャートを図１６に示す。

まず，行要素同士の領域干渉を解消する（ステップＳ３１）。行要素同士の外接矩形は互いに接触している可能性がある。ここで，行要素の外接矩形とは，その行要素に含まれている文字要素の外接矩形を含む最小の矩形を意味する。行要素同士の外接矩形が接触している場合には，行要素間の干渉とみなされるので，それを解消する。

次に，行要素と領域干渉している文字要素の吸収仮説を生成する（ステップＳ３２）。行要素の外接矩形と接触しているが，行要素の子として属していない文字要素が存在する可能性がある。そこで，それぞれの行要素に対してこのような文字要素を探索して，子として吸収する。ここでは，文字要素を子として吸収した行要素を，吸収仮説と呼んでいる。

続いて，文字要素の吸収仮説の要素干渉を検証することにより淘汰を行う（ステップＳ３３）。上記のステップＳ３２の処理の場合に，複数の行要素に接触している文字要素はノイズである可能性が高いので，行要素の子とせずに削除するのが望ましい場合もあるため，この検証を行う。

次に，行要素同士の領域干渉を解決する（ステップＳ３４）。上記ステップＳ３２およびＳ３３の処理により，結果的にある行要素の新たな子となった文字要素が存在する場合には，行要素の外接矩形が膨張する可能性がある。したがって，この場合には，行要素に対し，ステップＳ３１〜Ｓ３３の処理を再度繰り返す。

さらに，行要素に属する文字要素の整頓を行う（ステップＳ３５）。それぞれの行要素の外接矩形に含まれる文字要素がすべて子となった状態を構成できたならば，次に行方向と垂直方向に重なっている文字要素は一つにまとめ，テキスト認識実行時の文字切り出し候補の可能性を限定するのが望ましい。このときに，まとめられた複数の文字要素の子となっている重なり矩形要素の基礎要素集合を一つに統合して，新たな統合された文字要素の子とする。

以上の行要素の整合処理を，図１７に示す画像例の１行のイメージに注目して説明する。

図１７の画像Ａ中の矩形は，行要素淘汰後に得られた信頼度の高い基本縦行要素である。図１７の画像Ｂ中の矩形列は，画像Ａの縦行要素の子となっている文字要素である。行要素の外形矩形に含まれていない文字要素が二つ存在することが分かる。画像中の「や」と「し」の文字要素である。

その後，画像の行要素同士の領域干渉の解消・行要素と領域干渉している文字要素の吸収仮説を生成／淘汰し，図１７の画像Ｃのように，行要素の外形矩形と接触している文字要素をすべて子として取り込む。さらに行要素同士の領域干渉の解決を経て，行要素に属する文字要素の整頓を行った結果が，図１７の画像Ｄである。画像Ｄにより，行方向に垂直な方向（この場合には横方向）に射影した場合に重なっている文字要素が統合されて，まとめられたことが分かる。

次に，行要素と近接した文字要素の行要素への統合処理を行った結果が，図１７の画像Ｅである。この場合，全体が一つの行として統合されている。ここで，図１７の画像Ｆは，統合後の行要素の子となっている文字要素集合を示している。

以上の処理を行った結果を図１８に示す。この段階で，すべての文字要素がある行要素の子となり，行要素，文字要素，基礎要素が互いに包含関係により関連付けられた木構造の集合が，中間的文書構造として構築できたことになる。

以上の行抽出技術を用いた結果得られた行要素の集合には，図１８の例からも明らかなように，段を構成した場合に行方向に近接している複数の行要素が含まれている。この意味で，この段階で得られた行要素は，段の構成要素としての完全な行には対応していない。完全な行を構成するためには，段抽出との連携を経て，同一の段に属する行要素をさらに統合するという，行抽出と段抽出との連携した処理を行うことが必要である。

（２）行・段相互抽出手段
行・段相互抽出手段９は，互いに関連付けられた段同士の統合と，整合性のとれた段および行集合を得るための段要素集合の整合と，整合性のとれた行および文字集合を得るための行要素集合の整合処理を実行する。さらに，行・段相互抽出手段９が，段同士の統合を繰り返し実行することにより，行抽出結果と段抽出結果が互いに影響を与えあい，徐々に高精度な行・段抽出処理が行われるようにする。

図１９は，行・段相互抽出手段９の処理の流れの概要を示す。

行・段相互抽出手段９の入力は，基本行抽出手段８により得られた行要素を頂点とする木構造の集合（行要素，文字要素，基礎要素が互いに包含関係により関連付けられた木構造の集合）であり，出力は，段要素を頂点とする木構造の集合（段要素，行要素，文字要素，基礎要素が互いに包含関係により関連付けられた木構造の集合）である。

行要素を頂点とする木構造の集合を入力すると（ステップＳ４０），まず各行要素を唯一含む段要素の生成を行う（ステップＳ４１）。この段要素について，以下のステップＳ４２〜Ｓ４６を繰り返し実行することにより，段要素を統合していく。段要素間の関連付け（ステップＳ４２），関連付けられた段要素の統合（ステップＳ４３）は，基本的には，基本行抽出手段８において，行要素の生成のため文字要素と行要素の集合を対象に行っていた処理と同様であり，この処理を，行要素と段要素の集合を対象にして行う。

次に，段要素集合の整合処理を行う（ステップＳ４４）。この段要素集合の整合処理は，以下の条件を満たす段要素集合および段要素の内部構造を得ることを目的とした処理である。

１）すべての行成分は唯一の段要素に属する。

２）各々の段要素の段領域は互いに重ならない。ここで，段領域は各々の段要素に属する行成分の外接矩形で定義される領域である。

３）段方向の確定した段要素に属する行要素は，段方向順に順序付けされ，段方向と垂直方向に重なる行要素が存在しないように互いに統合されている。

この段要素集合の整合処理を行った後に，再度，基本行抽出手段８において説明した行要素集合の整合処理を行う（Ｓ４５）。これにより，段抽出結果が行抽出結果にフィードバックされ，行および段の抽出の精度が高められる。以上のステップＳ４２〜Ｓ４５の処理を，新たな関連付けが発生しなくなるまで繰り返す（ステップＳ４６）。

以上の処理において，段要素間の関連付けを，行方向，行垂直方向とそれぞれ変化させて繰り返し実行することにより，２次元方向の関連付けを回避し，整合などの計算量を削減することもできる。また，段要素間の関連付けを，関連付けの対象となる段要素の内部構造により動的に決定することもでき，これにより文書構造に応じた高精度な行・段抽出を促進できる。例えば，大きな段が少数存在する整頓された段を持つ文書構造の場合には，パラメータを固定しても十分である。しかし，少数の行からなる小さな段が多数存在する不定形の段を持つ文書構造，あるいは空白がセパレータの役割を果たす表形式の文書構造の場合には，状況に応じた仮説生成を行う手法が有効である。状況に応じた段要素同士の関連付けとして，以下の３種類が考えられる。

１）関連付け対象となる段の大きさ（含む行の数）により，近接性判定距離の標準サイズとの比較を変化させる。これにより，大きな安定した段同士の過統合を防止しつつ，細分化された小さな段同士あるいは大きな段と小さな段との適切な統合を促進できる。

２）関連付け対象となる段に含まれている行のサイズに比例して，近接性判定距離を設定する。これにより，含む文字要素の大きさに応じて適切な統合を行えるため，行サイズの大きい段同士の未統合，行サイズの小さい段同士の過統合，行サイズの大きく異なる段同士の過統合を大幅に削減することができる。

３）段の拡張処理の段階に応じて，近接性判定距離の標準サイズとの比率を変化させる。行方向の段の拡張処理は２回繰り返されるが，１回目は段が未だ細分化されており統合を促進する必要がある一方，２回目はある程度安定した段が生成できているため，むしろ過統合を抑制する必要がある。そこで，１回目は標準サイズとの比率を高く設定して統合しやすくし，２回目は標準サイズとの比率を小さく設定して統合しにくくした。

具体的には，近接性判定距離Ｄは，ｋＳで与えられる。ここで，Ｓは，上記２）の処理で適応的に決定される標準サイズ，ｋは，上記１）および３）の処理で決定される係数である。

上記１）および３）の処理を実現するために，例えば，段の統合を行垂直方向，行方向，行垂直方向，行方向と，計４回繰り返し，行方向の段統合において，図２０に示すような係数ｋを用いると，高精度な段抽出が可能となり，段集合の整合処理の結果として高精度な行抽出も行うことができる。なお，図２０では，「小さい段」は，それに含む行が１行のみの段，「中くらいの段」は，それに含む行が２行で，含む文字総数が１００文字以内の段，「大きい段」は，それに含む行が２行で，含む文字総数が１０１文字以上，あるいは３行以上の段と，定義している。

また，段要素集合同士の関連付けは，近接性あるいは同質性に基づいて行うことができる。同質性を用いることにより，段間の方が行間よりも狭い場合でも精度よく段を分離することが可能となる。

さらに，段要素集合同士の関連付けに用いる要素関連付けパラメータを，処理回数に応じて変化させることにより，行・段の統合を進め，後半においては段の過統合を抑制するといった柔軟な処理を行い，行・段抽出の一層の高精度化を進めることができる。

文書画像例の段抽出結果を図２１に示す。図２２は，行・段相互抽出手段９により得られた段中の行要素を示している。これにより，同じ段に属する行は，行方向の射影に対して互いに重なりのない完全な行要素が抽出できていることが分かる。

以下に，図２３ないし図２５を用いて，本発明の実施例を説明する。

横行縦行が混在する文書である新聞文書の文書画像を対象事例として，図２３に示すような，新聞紙面から４００ｄｐｉで画像取り込みを行った二値化文書画像を対象とする。なお，図２３の文書画像は縮小表示している。また，左上部分には，写真が印刷されているが，ここでは認識対象にはならないので空白で置き換えている。

図２４は，図２３の文書画像についての行抽出処理の結果の例を示す。この文書画像についての行抽出処理の抽出精度は１００％であった。図２５は，最終的な段抽出処理の結果の例を示す。この文書画像についての段抽出処理の抽出精度も１００％であった。

本発明の基本構成例を示す図である。本発明を適用するハードウェア構成例を示す図である。文書画像傾き検出部の基本構成例を示す図である。文書画像傾き検出部の処理フローチャートである。文字成分の抽出を説明する図である。行候補の抽出を説明する図である。行候補の抽出を説明する図である。行信頼度の推定を説明する図である。本発明に係るレイアウト解析部の基本構成例を示す図である。基本行抽出手段の処理概要を示す図である。処理対象の文書画像の例を示す図である。基本文字要素の集合の例を示す図である。横行要素の外接矩形を表示した文書画像の例を示す図である。縦行要素の外接矩形を表示した文書画像の例を示す図である。淘汰により生き残った信頼度の高い行要素を外接矩形表示した文書画像の例を示す図である。行要素整合手段の処理フローチャートである。行要素の整合処理により処理した画像の例を説明する図である。基本行抽出手段により抽出した結果の例を示す図である。行・段相互抽出手段の処理の流れの概要を示す図である。近接性判定距離の標準サイズとの比率を変化させる係数ｋの例を示す図である。行・段相互抽出手段により抽出した結果の段要素の例を示す図である。行・段相互抽出手段により抽出した結果の行要素の例を示す図である。本発明の実施例の評価を説明するための図である。本発明の実施例の評価を説明するための図である。本発明の実施例の評価を説明するための図である。従来技術の問題を説明するための図である。

符号の説明

１００文書画像認識装置
１文書画像傾き検出部
１１文字成分抽出手段
１２行候補抽出手段
１３行信頼度推定手段
１４行抽出手段
１５傾き推定手段
２文書画像
３傾き角度
４基礎要素の集合
５レイアウト解析部
６レイアウト解析結果
８基本行抽出手段
８１行要素生成手段
８２行要素淘汰手段
８３行要素整合手段
９行・段相互抽出手段
９１段要素統合手段
９２段要素整合手段
９３行要素整合手段

Claims

電子化された文書画像の認識にあたって，文書画像のレイアウトを解析する文書画像認識装置において，
文書画像中の黒画素連結成分または文書画像中の黒画素の連結成分の外接矩形の重なり矩形を文書を構成する基礎要素として，基礎要素から文字要素を生成し，文字要素の関連付けをもとにして横方向および縦方向の行要素を生成する行要素生成手段と，
生成された各行要素に対して行信頼度を定量的に計算し，それぞれの文字要素の属する横方向行要素および縦方向行要素の行信頼度の高い方向を文字要素の方向として，それぞれの行要素に対してその行候補に属する文字要素のうち，その行要素の行方向と一致する文字方向を持つものの比率をその行要素の信頼度とし，信頼度の低い行要素を淘汰する行要素淘汰手段と，
淘汰後に残った行要素に対する行要素集合の整合処理によって，行要素が満足すべき所定の条件を満たす整合性のとれた行要素およびその行要素に含まれる文字要素の集合を得る第１の行要素整合手段と，
前記基本行抽出手段の出力である行要素の集合から，各行要素を唯一含む段要素を生成する手段と，
前記段要素を互いに関連付け，関連付けられた段要素を統合する行要素統合手段と，
前記統合された段要素に対する段要素集合の整合処理によって，段要素が満足すべき所定の条件を満たす段要素およびその段要素に含まれる行要素の集合を得る段要素整合手段と，
前記段要素に含まれる行要素に対する行要素集合の整合処理によって，行要素が満足すべき所定の条件を満たす整合性のとれた行要素およびその行要素に含まれる文字要素の集合を得る第２の行要素整合手段とを備え，
前記行要素統合手段，前記段要素整合手段および前記第２の行要素整合手段による処理を，前記段要素の新たな関連付けが発生しなくなるまで繰り返すことにより，前記段要素整合手段による処理の結果で前記第２の行要素整合手段による処理の結果を変化させ，前記第２の行要素整合手段による処理の結果でその後の前記段要素整合手段による処理の結果を変化させて最終的に行と段を抽出する
ことを特徴とする文書画像認識装置。
前記第１の行要素整合手段および前記第２の行要素整合手段における行要素が満足すべき所定の条件は，すべての文字要素は唯一の行要素に属するという条件，および各々の行要素は互いに重ならないという条件，および文字要素は行と垂直方向には重ならず，行方向に順序付けられるという条件である
ことを特徴とする請求項１記載の文書画像認識装置。
前記段要素整合手段における段要素が満足すべき所定の条件は，すべての行要素は唯一の段要素に属するという条件，および各々の段要素は互いに重ならないという条件，および行要素は段と垂直方向には重ならず，段方向に順序付けられるという条件である
ことを特徴とする請求項１または請求項２記載の文書画像認識装置。
前記行要素生成手段における文字要素の関連付けを，文字要素間の距離の近接性に基づいて行う
ことを特徴とする請求項１から請求項３までのいずれか１項に記載の文書画像認識装置。
前記行要素淘汰手段における行要素の信頼度が，その行要素に含まれている文字要素の数が一定数以上あるという行の長さによる量，文字要素同士が密に配置されているという近接性による量，または文字要素の大きさもしくは間隔がほぼ同じくらいであるなどの同質性による量を用いて定量化される
ことを特徴とする請求項１から請求項４までのいずれか１項に記載の文書画像認識装置。
前記行要素統合手段における段要素の関連付けを，行方向，行垂直方向とそれぞれ変化させて繰り返し実行する
ことを特徴とする請求項１から請求項５までのいずれか１項に記載の文書画像認識装置。
前記行要素統合手段における段要素の関連付けの条件を，関連付けの対象となる段要素の内部構造により動的に変化させる
ことを特徴とする請求項１から請求項６までのいずれか１項に記載の文書画像認識装置。
前記行要素統合手段における段要素の関連付けを，段要素間の距離の近接性，または段要素の大きさもしくは段要素間隔がほぼ均等であるという同質性に基づいて行う
ことを特徴とする請求項１から請求項７までのいずれか１項に記載の文書画像認識装置。
前記行要素統合手段における段要素の関連付けに用いるパラメータを，処理回数に応じて変化させる
ことを特徴とする請求項１から請求項８までのいずれか１項に記載の文書画像認識装置。
前記行要素統合手段における関連付けの対象となる段要素の内部構造として，段の外接矩形の大きさ，段に含まれる行数もしくは文字数，または段の外接矩形の位置を用いる
ことを特徴とする請求項１から請求項９までのいずれか１項に記載の文書画像認識装置。
前記第１の行要素整合手段または前記第２の行要素整合手段は，行要素に属する文字要素の集合から，その行の標準の文字の幅，高さ，間隔などの行の属性となる情報を計算して保持しておき，要素間の関連付けのために活用する
ことを特徴とする請求項１から請求項１０までのいずれか１項に記載の文書画像認識装置。
前記段要素整合手段は，
段要素に属する行要素の集合から，その段の標準の行の幅，高さ，間隔などの段の属性となる情報を計算して保持しておき，要素間の関連付けのために活用する
ことを特徴とする請求項１から請求項１１までのいずれか１項に記載の文書画像認識装置。
電子化された文書画像の認識にあたって，文書画像のレイアウトを解析する文書画像認識装置に用いるプログラムを格納した計算機読み取り可能な記憶媒体であって，
文書画像中の黒画素連結成分または文書画像中の黒画素の連結成分の外接矩形の重なり矩形を文書を構成する基礎要素として，基礎要素から文字要素を生成し，文字要素の関連付けをもとにして横方向および縦方向の行要素を生成する行要素生成処理と，
生成された各行要素に対して行信頼度を定量的に計算し，それぞれの文字要素の属する横方向行要素および縦方向行要素の行信頼度の高い方向を文字要素の方向として，それぞれの行要素に対してその行候補に属する文字要素のうち，その行要素の行方向と一致する文字方向を持つものの比率をその行要素の信頼度とし，信頼度の低い行要素を淘汰する行要素淘汰処理と，
淘汰後に残った行要素に対する行要素集合の整合処理によって，行要素が満足すべき所定の条件を満たす整合性のとれた行要素およびその行要素に含まれる文字要素の集合を得る第１の行要素整合処理と，
前記基本行抽出処理の出力である行要素の集合から，各行要素を唯一含む段要素を生成する処理と，
前記段要素を互いに関連付け，関連付けられた段要素を統合する行要素統合処理と，
前記統合された段要素に対する段要素集合の整合処理によって，段要素が満足すべき所定の条件を満たす段要素およびその段要素に含まれる行要素の集合を得る段要素整合処理と，
前記段要素に含まれる行要素に対する行要素集合の整合処理によって，行要素が満足すべき所定の条件を満たす整合性のとれた行要素およびその行要素に含まれる文字要素の集合を得る第２の行要素整合処理とを計算機に実行させるとともに，
前記行要素統合処理，前記段要素整合処理および前記第２の行要素整合処理を，前記段要素の新たな関連付けが発生しなくなるまで繰り返すことにより，前記段要素整合処理の処理結果で前記第２の行要素整合処理の処理結果を変化させ，前記第２の行要素整合処理の処理結果でその後の前記段要素整合処理の処理結果を変化させて最終的に行と段を抽出する処理を，前記計算機に実行させるためのプログラムを格納した
ことを特徴とする文書画像認識プログラムの記憶媒体。