JP2003208568A - 画像処理装置、画像処理方法、及び同方法に用いるプログラム - Google Patents

画像処理装置、画像処理方法、及び同方法に用いるプログラム

Info

Publication number
JP2003208568A
JP2003208568A JP2002003627A JP2002003627A JP2003208568A JP 2003208568 A JP2003208568 A JP 2003208568A JP 2002003627 A JP2002003627 A JP 2002003627A JP 2002003627 A JP2002003627 A JP 2002003627A JP 2003208568 A JP2003208568 A JP 2003208568A
Authority
JP
Japan
Prior art keywords
character
integration
rectangle
rectangles
integrated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002003627A
Other languages
English (en)
Inventor
Fumihiro Hasegawa
史裕 長谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2002003627A priority Critical patent/JP2003208568A/ja
Publication of JP2003208568A publication Critical patent/JP2003208568A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【課題】 多値カラー画像を基にした文字行領域情報の
取得結果に生じる文字以外の領域(雑音成分)の重な
り、句読点等による意図しない文字行の分断、罫線が内
在する連結成分の統合という不具合を解消する。 【解決手段】 入力カラー画像から求めたラン(水平連
続画素列)を対象として、垂直方向に接する同色のラン
を連結成分として統合し、文字候補を生成する。罫線抽
出手段106は入力原画像を基に得た連結成分から罫線
の特徴による抽出を行う。外接矩形統合手段107は句
読点を認識して文字行の分断を防ぎ、又抽出した罫線を
跨いで文字行の領域統合を禁止する。重複領域排除手段
109は文字特徴量に従い文字行領域以外を排除し、又
領域再統合手段110は句読点等による分断文字行の統
合を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、カラー画像対応の
文書画像認識システム等に利用される、入力カラー画像
に含まれる文字・文書画像を認識する処理に関し、より
詳細には、対象画像の一部に存在する文字・文書画像が
占める文字領域を表す情報を取得するための画像処理装
置、画像処理方法、及び該方法をコンピューターに実行
させるプログラムに関する。
【0002】
【従来の技術】画像処理では、文字・文書画像の認識処
理が従来より行われている。この認識処理を行う際に、
処理対象画像の一部に存在する文字・文書画像が占める
文字領域の正しい位置情報を取得することは、高い認識
精度を得るために不可欠である。仮に、文書画像のどこ
に文字があるのか不明な状態で文字認識処理を行った場
合、文字認識の必要のない写真、図などの領域に文字認
識処理を行ってしまうことになるため、不要な処理で時
間がかかるだけでなく、文字の存在しない領域に無理に
文字認識を実行した結果として、大量にエラーが出力さ
れることになり、認識結果を利用する際に、大きな困難
を伴うことになる。このため、文字領域の正しい位置情
報を取得する文字領域認識処理方法として、二値画像の
黒画素の連結成分を用いた方法の提案がなされた(特開
2000-67158号公報)。この方法では、入力された画像を
縮小して黒画素の連結成分の外接矩形を得、得た外接矩
形から、文字、表、図、その他、に基本要素を分類し、
その中から文字要素を取り出し統合して行を生成し、生
成した行を統合して文字領域を取得する。さらにこの例
では、文字領域から段組情報を抽出し、抽出段の位置を
参照して過剰に統合された文字領域を修正するようにし
ている。
【0003】ところで、近年カラープリンタなどの普及
に伴い、急速にカラー原稿が文字認識の対象として処理
されるケースが増えてきている。カラー原稿を処理する
際、上記した黒画素の連結成分を用いた方法の例に示さ
れる文字領域認識処理方法を適用する場合には、カラー
情報をどこかで欠落させて二値画像に変換する必要があ
る。しかし、二値化には決定的な方法があるわけではな
く、処理対象画像によっては文字がつぶれてしまった
り、背景の色が細かいノイズ状になって二値画像に表現
されてしまうなどの問題がしばしば発生する。このよう
な状態では、縮小画像の黒画素の連結成分抽出が思うよ
うにできず、精度が低下してしまう。また、カラー画像
に適用する文字領域認識処理技術については、特開2000
-132689号公報、特開平11-213160号公報の提案がある。
これらは文字認識のための二値画像の質を向上させるこ
とを目標にし、前者は同一とみなせる色の、後者は同一
とみなせる明度の背景を持つ領域を分割抽出し、各領域
を文字領域とみなし、各領域ごとに二値化を行うもので
ある。
【0004】
【発明が解決しようとする課題】しかしながら、カラー
画像への適用を考慮した、特開2000-132689号公報、特
開平11-213160号公報に提案された文字領域認識処理技
術は、背景色が連続的に変化している場合には適用でき
ない。また、抽出された領域は背景が同一色というだけ
で、実際に文字領域かどうかの判定は行っておらず、文
字領域かどうかの判定は生成された二値画像を用いて別
に行うこととなる。例示したカラー画像へ適用を考慮し
た従来の文字領域認識処理技術における問題点を解消す
るために、本願出願人による先の出願(特願2001- 8648
4号)では、カラー画像からカラー情報を抽出し、この
情報を二値化によらず直接用いることによって文字抽出
精度の向上を図るとしている。この先行例の文字領域認
識処理方法は、原画像から圧縮画像を生成し、同色とみ
なせる画素をランとして抽出し、それらの連結成分を色
ごとに求め、得た連結成分を文字候補とみなして近接す
る連結成分同士を統合して文字行を生成し、その後抽出
された文字行から、過抽出部分を排除して文字行を出力
するもので、背景という概念を入れることなく文字領域
の情報を取得可能としたものである。従って、この先行
例では、直接カラー画像の画素情報を用いることで、上
記した従来例によっては困難であったカラー文書から、
より精度のよい文字領域抽出を行うことを可能とし、背
景色が連続的に変化している場合でも対処可能にした。
【0005】ところがこの先行例の手法は、背景という
概念がなく、行方向に近接する連結成分(文字)同士を
統合するという手法であるから、文字だけでなく文字に
似た並びをもつ文字以外の画素の塊が、背景であっても
文字と重なって抽出されることがある。この抽出状態を
例示する図12を参照すると、同図(a)では「まは語
る」などの文字ストロークが閉じている部分の内部の背
景色の塊が行方向に連続して存在するため、図中に実線
で示すように、この背景色の塊の外接矩形を本来の文字
と重なって抽出してしまう。また、同図(b)でも、イラ
ストを構成する同色の画素の塊も、図中に実線で示すよ
うに、文字らしい並びになる場合があり、文字の領域と
一部重なった状態で抽出してしまう。どちらも文字では
ない雑音成分であり、このような雑音はなるべく少ない
ほうが良いことは言うまでもない。この手法による統合
では、文字間隔が比較的広い場合、文字行が途中で途切
れて抽出される場合がある。図15は、この状態を説明
するもので、図示のように、句読点を挟んだ文字列に対
し本来行われるべき統合が実行されず、文字行が途中で
途切れてしまうことがあり、正確な文字抽出という点で
言えば不十分な結果となる。また、逆に、距離だけに応
じて矩形の統合を行い、文字行を生成するので、統合に
より意図しない結果が生じる場合がある。例えば図19
に示すように、文字同士が罫線で区切られていても、そ
の距離が近ければ統合を行ってしまう(図示の文字列を
囲む破線が、統合後の矩形を示す)。この場合、このま
まの領域で、そこにある文字列を対象として文字認識を
行うと文字列全体としての文脈がおかしくなってしまう
(図中の〈認識結果〉に示される)。本発明は、画像読
み取り手段等により入力されるカラー画像を対象とし、
そこに含まれる文字・文書画像が占める文字領域を表す
情報を取得する、文字領域認識処理における上記した従
来技術及び先行例の問題点に鑑みてなされたものであ
り、その目的は、先行例の文字領域認識処理技術を採用
した場合に生じる、文字領域抽出処理結果に生じる文字
領域への文字以外の領域(雑音成分)の重なり、句読点
等による意図しない文字行の途切れ、罫線が内在する連
結成分の統合という不具合を解消し、対象画像の一部に
存在する文字・文書画像が占める文字領域を表す適切な
情報の取得を可能とする処理を行うための画像処理装
置、画像処理方法、及び該方法をコンピューターに実行
させるプログラムを提供することにある。
【0006】
【課題を解決するための手段】請求項1の発明は、処理
対象として入力された多値画像、或いはその圧縮画像か
ら同色とみなせる画素をランとして抽出する手段と、隣
接するランを統合して連結成分を生成する手段と、連結
成分のうち文字とみなせない不要成分を排除する手段
と、連結成分の外接矩形を統合する手段と、統合された
外接矩形から文字連結成分によるとみなせるものを判定
する手段と、文字連結成分によるとみなされた統合済み
の外接矩形を再統合する手段と、再統合された文字連結
成分による外接矩形を文字領域を表す情報として出力す
る手段とを備えることを特徴とする画像処理装置であ
る。
【0007】請求項2の発明は、請求項1に記載された
画像処理装置において、前記多値画像から罫線を抽出す
る手段をさらに備え、前記連結成分の外接矩形を統合す
る手段が、抽出した罫線が内在しないように統合を行う
手段であることを特徴とするものである。
【0008】請求項3の発明は、請求項1又は2に記載
された画像処理装置において、前記文字連結成分の外接
矩形を再統合する手段が、選択された2つの統合対象の
再統合の適否を決定するために、統合対象の外接矩形の
近接度を判定する手段と、統合対象の外接矩形の高さの
近似度を判定する手段と、統合対象の外接矩形を構成す
る連結成分の色の近似度を判定する手段を備えたことを
特徴とするものである。
【0009】請求項4の発明は、処理対象として入力さ
れた多値画像、或いはその圧縮画像から同色とみなせる
画素をランとして抽出する手段と、隣接するランを統合
して連結成分を生成する手段と、連結成分のうち文字と
みなせない不要成分を排除する手段と、連結成分の外接
矩形を統合する手段と、統合された外接矩形から文字連
結成分によるとみなせるものを判定する手段と、文字連
結成分によるとみなされた統合済みの外接矩形を文字領
域を表す情報として出力する手段とを備えた画像処理装
置であって、前記統合された外接矩形から文字連結成分
によるとみなせるものを判定する手段が、統合された外
接矩形の複数の特徴量を算出する手段と、複数の特徴量
から文字連結成分による外接矩形であることを表すスコ
アを算出する手段と、前記スコアに基づいて文字連結成
分による外接矩形らしさを判定する手段を備えたことを
特徴とする画像処理装置である。
【0010】請求項5の発明は、処理対象として入力さ
れた多値画像、或いはその圧縮画像から同色とみなせる
画素をランとして抽出する手段と、隣接するランを統合
して連結成分を生成する手段と、連結成分のうち文字と
みなせない不要成分を排除する手段と、連結成分の外接
矩形を統合する手段と、統合された外接矩形から文字連
結成分によるとみなせるものを判定する手段と、文字連
結成分によるとみなされた統合済みの複数の外接矩形が
互いに重なっているか否かを判断し、互いに重なってい
る複数の外接矩形領域のうち1つのみを残して残りを削
除する手段と、削除した後の外接矩形を文字領域を表す
情報として出力する手段とを備えることを特徴とする画
像処理装置である。
【0011】請求項6の発明は、処理対象として入力さ
れた多値画像、或いはその圧縮画像から同色とみなせる
画素をランとして抽出する手段と、隣接するランを統合
して連結成分を生成する手段と、連結成分のうち文字と
みなせない不要成分を排除する手段と、連結成分の外接
矩形を統合する手段と、統合された外接矩形から文字連
結成分によるとみなせるものを判定する手段と、文字連
結成分によるとみなされた統合済みの外接矩形を文字領
域を表す情報として出力する手段とを備えた画像処理装
置であって、前記連結成分の外接矩形を統合する手段
が、選択された2つの統合対象の統合の適否を決定する
ために、統合対象の外接矩形の近接度を判定する手段
と、統合対象の外接矩形のサイズ差を吟味する手段と、
統合対象の外接矩形を構成する連結成分の色の近似度を
判定する手段と、統合対象の外接矩形のサイズ差を追加
抽出した隣接外接矩形との関係を考慮して再吟味する手
段を備えたことを特徴とする画像処理装置である。
【0012】請求項7の発明は、請求項6に記載された
画像処理装置において、前記多値画像から罫線を抽出す
る手段をさらに備え、前記連結成分の外接矩形を統合す
る手段が、抽出した罫線が内在しないように統合を行う
手段であることを特徴とするものである。
【0013】請求項8の発明は、処理対象として入力さ
れた多値画像、或いはその圧縮画像から同色とみなせる
画素をランとして抽出するステップと、隣接するランを
統合して連結成分を生成するステップと、連結成分のう
ち文字とみなせない不要成分を排除するステップと、連
結成分の外接矩形を統合するステップと、統合された外
接矩形から文字連結成分によるとみなせるものを判定す
るステップと、文字連結成分によるとみなされた統合済
みの外接矩形を再統合するステップと、再統合された文
字連結成分による外接矩形を文字領域を表す情報として
出力するステップの各ステップを実行することを特徴と
する画像処理方法である。
【0014】請求項9の発明は、請求項8に記載された
画像処理方法の各ステップをコンピュータに実行させる
ためのプログラムである。
【0015】
【発明の実施の形態】本発明を添付する図面とともに示
す以下の実施形態に基づき説明する。なお、本願では、
本発明の「画像処理装置」を本発明の「画像処理方法」
の手順を実現するための手段(装置)として位置付けて
いるので、下記の「実施形態1」において、本願に係わ
る方法発明と装置発明の実施形態を併せて説明する。 「実施形態1」本実施形態は、先行例(特願2001- 8648
4号)の文字領域認識処理手順中に罫線抽出処理手順、
重複領域排除処理手順、領域再統合処理手順を付加する
とともに、外接矩形統合処理手順では抽出された罫線情
報を用いて罫線が内在する領域の統合を回避し、さらに
句読点等の準文字の統合適否を判定するための追加矩形
抽出を行い、又文字行判定処理手順では文字行の特徴量
を用いることにより、目的とする適切な文字領域認識処
理の実現を図るものである。なお、以下に例示する本実
施形態の構成に限らず、実施にあたって、発明の目的を
逸脱しない範囲でその一部の構成要素に係わる手段或い
は手順を省略することが可能である。図1は、本実施形
態に係る画像処理方法の処理手順のフローを示すチャー
トであり、図2は、本実施形態に係る画像処理装置の構
成を示すブロック図である。
【0016】本実施形態に係る画像処理装置を図2を参
照して説明すると、画像入力手段101は、処理対象の
原画像を取得し、格納しておく手段(例えば、原稿から
読み取ったカラー画像データを出力するスキャナ、撮像
装置などにより実施し得る)であり、画像入力手段10
1で取得した原画像データを圧縮画像生成手段102
と、罫線抽出手段106と、文字行判定手段108に送
出する。圧縮画像生成手段102は、圧縮画像を生成
し、格納するとともに、ラン生成手段103、連結成分
生成手段104、連結成分選別手段105、罫線抽出手
段106、外接矩形統合手段107、文字行判定手段1
08に圧縮画像をそれぞれ出力する。なお、本実施形態
で行う圧縮処理を省略することが可能で、その実施形態
による場合には、画像入力手段101の出力画像を圧縮
画像生成手段102を介さずに各手段に出力するように
構成する。ラン生成手段103は、入力画像からランを
生成する手段であり、生成したランを連結成分生成手段
104に送出する。連結成分生成手段104は、ランか
ら連結成分を生成する手段であり、生成した連結成分は
連結成分選別手段105に送出する。連結成分選別手段
105は、連結成分生成手段104で得られた連結成分
を選別して外接矩形統合手段107に送出する。罫線抽
出手段106は、画像入力手段101から入力された画
像に基づいて罫線を抽出し(罫線抽出処理については後
記で詳述)、外接矩形統合手段107に送出する。外接
矩形統合手段107は、連結成分選別手段105で得ら
れた連結成分の外接矩形を統合して、文字行判定手段1
08に送出する。統合の際に、追加矩形抽出による準文
字(句読点等)統合適否の判定を行い(追加矩形抽出・
準文字統合処理については後記で詳述)、罫線抽出結果
を用い罫線が内在する領域統合を回避する(罫線情報を
用いた外接矩形統合処理については後記で詳述)。文字
行判定手段108は、外接矩形統合手段106で統合さ
れた外接矩形から文字行を判定して、重複領域排除手段
109に送出する。重複領域排除手段109は、文字行
領域に重複して抽出された文字行以外の領域を排除し、
領域再統合手段110に送出する。領域再統合手段11
0は、文字行判定手段108及び重複領域排除手段10
9により最終的に絞り込まれた文字行領域を再統合し
て、その結果を文字領域出力手段111に送出する。文
字領域出力手段111は、文字行と判定された座標を出
力する手段である。
【0017】次に、本実施形態に係る画像処理方法を図
1のフローチャートを参照して説明する。なお、以下の
説明は、図2に示した画像処理装置の動作説明を兼ね
る。図1のフローによると、まず、処理したい原稿を画
像入力手段101により原画像(カラー画像)として取
得する(S1)。ここで取得されるカラー画像は、通常の
ラスタ方式による連続画素データの形式をとる。続け
て、圧縮画像生成手段102により原画像から圧縮画像
を生成する(S2)。圧縮画像は、処理の高速化のため
と、ある色が細かい点(各色成分ドット)の集合で表現
されている場合の悪影響を防ぐために生成するものであ
る。圧縮画像の生成方法には様々なものが考えられる
が、ここでは原画像の(2×2)画素を圧縮画像の1画素に
まとめるものとする。圧縮画像の画素値は、原画像の(2
×2)画素内で最も明度の低い画素値を用いることとす
る。次に、ラン生成手段103により圧縮画像からラン
生成を行う(S3)。ここでは、水平方向に隣接する画
素の色が互いに近い場合にそれらを処理単位としてまと
める方法によりランを生成する。なお、「ラン」は、連
続画素データが同一値をとる場合に、この連続画素のか
たまりを指す概念で、符号化の単位として扱われる(フ
アクシミリなどで扱う2値の文書画像において、一次元
方向に連続する白画素、あるいは黒画素のかたまりを
「ラン」として符号化の単位とする例は周知)。ここ
で、色が近いことを判定する方法には様々な手法を採用
することができるが、例えば画素値の各色成分(RGBな
ど)の差の2乗和などを計算し、これを画素間の色相違
度とみなして、この値が実験値等を基に予め定めておい
た値よりも小さい場合に近いと判断する、という方法を
用いることが可能である。また、このときに、抽出した
各ランの色を定義しておく。ランを構成する画素が持つ
色データの平均値やメジアンなどにより定義することが
できるが、本例ではメジアンを用いることとする。ラン
を圧縮画像の各行ごとに求め、このステップを終了す
る。
【0018】次に、連結成分生成手段104によりラン
の連結成分を生成する(S4)。この処理では、前ステ
ップで水平方向の連続画素について求めたランを対象と
して、垂直方向に接するもの同士の色を比較し、色が近
ければ連結成分として統合する。このようにすれば、文
字候補となる一かたまりの画素が一つの連結成分として
抽出できることになる。図3は、連結成分の生成状態を
示す。同図示のように、色が近い同士を連結成分として
統合し、色が遠い隣接ランは連結せずに非統合にする
と、入力した文字画像「すり」に対する連結成分を生成
することができる。次に連結成分選別手段105により
連結成分の選別を行う(S5)。前ステップで求めた連
結成分は、その中には文字でないものが多数含まれてい
る、いわば文字候補である。例えば、非常に小さな連結
成分はノイズである可能性が高く、これをそのまま後段
の処理に渡すと精度の低下や処理速度の低下を招く可能
性がある。そこで、ある一定以下の大きさの連結成分は
削除する作業を行う。もちろん、連結成分の大きさ以外
の条件、例えば周囲との明るさの関係等で選別を行って
も良い。
【0019】次に、罫線抽出手段106により罫線の抽
出を行う(S6)。罫線抽出は、本発明を特徴付ける要
素の一つであり、後段の外接矩形統合処理において統合
するか否かを判定するために使用される。図4は、本実
施形態に係る罫線抽出処理(S6)のより詳細なフロー
を示すチャートであり、図5は、本実施形態に係る罫線
抽出手段106のより詳細な構成を示すブロック図であ
る。本例の罫線抽出手段106を図5を参照して説明す
ると、ラン生成手段106−01は、画像入力手段10
1からの処理対象の原入力画像からランを生成する手段
であり、生成したランを長ラン選別手段106−02に
送出する。なお、ここでは、原入力画像を元にして罫線
抽出処理を行っているが、原入力画像に圧縮を掛けた画
像を元にして実施することも可能である。長ラン選別手
段106−02は、ノイズ成分となるランを除去し、連
結成分抽出手段106−03に送出する。連結成分抽出
手段106−03は、ランから連結成分を抽出する手段
であり、要素として外接矩形縦横比算出手段106−0
4、形状吟味手段106−05、色相違度計算手段10
6−06、色相違度判定手段106−07を有し、抽出
した連結成分を相対短ラン除外手段106−08に送出
する。相対短ラン除外手段106−08は、連結成分抽
出手段106−03で得られた連結成分の短ランを構成
する部分を削除する処理をし、残ラン統合手段106−
09に送出する。残ラン統合手段106−09は、相対
短ラン除外手段106−08で処理された連結成分を統
合する処理を行い、罫線出力手段106−10に送出す
る。罫線出力手段106−10は、抽出した罫線を罫線
を利用する外接矩形統合手段107に出力する。なお、
罫線抽出を行う手段として示した形状吟味手段106−
05、色相違度判定手段106−07、相対短ラン除外
手段106−08全てを要素とした、例示した本実施形
態の構成に限らず、実施にあたって、発明の目的を逸脱
しない範囲でその一部の抽出要素に係わる手段を省略し
ても良い。
【0020】次に、罫線抽出処理手順を図4のフローチ
ャートを参照して説明する。なお、以下の説明は、上記
罫線抽出手段の動作説明を兼ねる。図4のフローによる
と、先ず入力された原カラー画像を基にしてラン生成手
段106−01によりランを生成する(S6−01)。
ランの生成方法は、先のステップS3と同様でよい。こ
こで、ランの抽出対象を原カラー画像にすると圧縮画像
から抽出する場合(先のステップS3)に比べてより正
確な罫線抽出が可能となる。また、圧縮画像から抽出す
れば処理時間が短くて済むので必要に応じて使い分けれ
るようにするとよい。また、罫線は垂直と水平方向があ
り、いずれも抽出の対象となる。両方向を対象にする場
合、生成したランをもとに、文字行と垂直方向に抽出す
れば、文字行と垂直方向の罫線が抽出できるし、水平方
向に抽出すれば罫線も水平方向のものが抽出できるが、
ここでは文字行と垂直方向のランを抽出する場合につい
て説明をするが、水平方向も基本的には同様に処理可能
である。続いて、長ラン選別手段106−02により、
行方向の各ライン毎に生成されたランから罫線を構成し
ないノイズ成分を除去し、必要な長いランだけ選別して
残す作業を行う(S6−02)。これは、罫線がある程
度以上の長さ(幅)を持っていることから、罫線を構成
するランだけを選び出すことを目的としている。
【0021】その後、選別されたランをもとに連結成分
抽出手段106−03によりランの連結成分を抽出し
(S6−03)、同時に抽出した連結成分をもとに罫線
候補を求める。ここで、罫線候補を求める手順をより詳
細に示すと、ここでは、連結成分の形状と色による2段
階のチェックを行う。前者については、外接矩形縦横比
算出手段106−04により連結成分の外接矩形を生成
し、その外接矩形1つ1つについてその長さの縦横比を
求め(S6−04)、得た結果を形状吟味手段106−
05により吟味する。即ち、外接矩形が細長い形状であ
るか否かを判断し(S6−05)、外接矩形が縦長であ
るものだけを罫線候補として選択し(S6−05−Ye
s)、縦長でないもの(S6−05−NO)は罫線でな
いので、罫線候補から外す。なお、水平方向の罫線を抽
出する場合は横長であることが罫線であるために必要な
条件となる。また、後者については、色相違度計算手段
106−06により隣接画素との色の相違度を計算し
(S6−06)、計算結果をもとに罫線候補とするかを
判断する。即ち、色相違度判定手段106−07により
相違度が大であるか否かを判定し(S6−07)、相違
度が大であるものだけを罫線候補として選択し(S6−
07−Yes)、相違度大でないもの(S6−07−N
o)は罫線でないので、罫線候補から外す。
【0022】この色の相違度による処理の有意性を説明
すると、ここまでのステップ(S6−05の形状による
判定ステップ)の処理だけでは、色を判定の要素として
いなかったので、文字と文字との間が罫線として抽出さ
れることがあり得る。この状態を説明する図6を参照す
ると、図中の(I)、(II)いずれの場合も、縦に細長
い外接矩形が抽出されるので、罫線候補としての条件に
合うが、図中の(II)の場合は、外接矩形(連結成分)
が本当に罫線である場合に比べて隣接する画素に外接矩
形(連結成分)と同色のものが多くなる傾向がある。そ
こで、外接矩形(連結成分)を構成するランとこれに隣
接する画素との間の色相違度を計算し、ある程度以上色
が異なる画素数の、隣接画素の総数に対する割合を連結
成分と隣接画素の色相違度と定義し、これが実験値をも
とに予め定めた基準値に比べて小さい場合には罫線でな
いとみなすという処理により、罫線候補をさらに絞るこ
とができる。連結成分の画素値は、連結成分を構成する
画素の代表画素値を用いる。代表値を得るために、様々
な手法をとることができるが、構成全画素の平均画素値
やメジアンを用いることが可能である。また、連結成分
と隣接画素の色相違度の定義としては、隣接画素の代表
画素値(これも平均値やメジアンとすることが可能であ
る)と連結成分の代表画素値の色相違度(画素値各成分
の差の2乗和など)を用いることが可能である。
【0023】次に、上記のようにして得た罫線候補の連
結成分から相対短ラン除外手段106−08により、連
結成分の外接矩形の長さに対して相対的に短いランを排
除し(S6−08)、残ラン統合手段106−09によ
り残ったランに対して再度連結成分抽出を行って(S6
−09)、罫線候補から最終目的とする罫線を得る。こ
の処理過程を説明する図7を参照すると、同図示のよう
に、非常に長い罫線に大きな図などが重なった場合に
(図中(I)参照)、上記のフローにおけるように、連
結成分抽出(ステップS6−03)、或いは連結成分の
形状と色による2段階のチェック(ステップS6−04
〜S6−07)を行った結果、罫線を含む連結成分とし
て連結成分の外接矩形の全長に比べて相対的に短い長さ
部分を構成するラン部分を持つものが抽出された場合に
(図中(II)参照)、このまま統合処理を行うと、罫線
の外接矩形が不当に太くなってしまう。そこで、これを
防止するために、連結成分の外接矩形の全長に比べて相
対的に短い長さ部分を構成するラン部分を除外する処理
を行い適切な罫線の抽出を行う(図中(III)参照)。
なお、罫線の抽出を行う手順として示した上記ステップ
S6−04〜09は、例示した本実施形態の構成に限ら
ず、実施にあたって、発明の目的を逸脱しない範囲でそ
の一部の抽出要素に係わる手順を省略しても良い。この
ようにして、残ラン統合手段106−09により残ラン
を統合し、全外接矩形を吟味済みか、即ち画像全体の罫
線抽出が済んだかを確認したら(S6−10−Ye
s)、統合した外接矩形を罫線の抽出結果として罫線出
力手段106−10により、次の処理であるステップS
7へ渡すために出力する。
【0024】次に、外接矩形統合手段107により連結
成分の外接矩形の統合を行う(S7)。この外接矩形統
合処理は、選択した2外接矩形の統合を行うか否かを判
定するために設けたステップであり、本発明を特徴付け
る要素として、選択した2外接矩形の大きさが異なる場
合に、隣接する連結成分を追加矩形として抽出し、追加
矩形の大きさを統合条件として吟味することにより、句
読点等の準文字の統合適否を判定し、又、前段で抽出し
た罫線を用い、罫線と統合対象の2外接矩形の関係か
ら、罫線が内在する領域の統合を回避するための手順を
備える。図7は、本実施形態に係る外接矩形統合処理
(S7)のより詳細なフローを示すチャートであり、図
8は、本実施形態に係る外接矩形統合手段107のより
詳細な構成を示すブロック図である。本例の外接矩形統
合手段107を図8を参照して説明すると、2矩形選択
・統合手段107−1は、選択した2外接矩形データを
隣接判定手段107−2、サイズ吟味手段107−3、
矩形間色差異吟味手段107−4、矩形間罫線有無判定
手段107−5、罫線長吟味手段107−6、矩形−罫
線間色差異判定手段107−7、サイズ再吟味手段10
7−8、追加矩形抽出・準文字判定手段107−9に送
出し、又、上記各手段107−2〜9による統合の判定
結果を受けて2矩形の統合を行う。なお、統合の判定を
行う上記各手段107−2〜9は、例示した本実施形態
の構成に限らず、実施にあたって、発明の目的を逸脱し
ない範囲でその一部の判定要素を省略しても良い。
【0025】隣接判定手段107−2は、2外接矩形間
の距離により統合を判定する。サイズ吟味手段107−
3は、2外接矩形間のサイズの近似性により統合を判定
する。矩形間色差異吟味手段107−4は、2外接矩形
間の色の差異により統合を判定する。矩形間罫線有無判
定手段107−5は、罫線に対する2外接矩形の相互位
置関係、即ち罫線を境界として互いに反対側にあるか否
かにより統合を判定する。罫線長吟味手段107−6
は、罫線に対する2外接矩形の相互長さ関係により真に
罫線であるか否かを吟味することにより、統合を判定す
る。矩形−罫線間色差異判定手段107−7は、罫線に
対する2外接矩形の色の関係により真に罫線であるか否
かを吟味することにより、統合を判定する。サイズ再吟
味手段107−8は、普通の文字と大きさが異なる句読
点等の準文字の認識をするために、サイズ吟味手段10
7−3の後段でサイズを再吟味する。追加矩形抽出・準
文字判定手段107−9は、サイズ再吟味の結果を受け
て、外接矩形の追加抽出を行い、句読点等の準文字の統
合の適否を判定する。
【0026】次に、外接矩形統合処理手順を図7のフロ
ーチャートを参照して説明する。なお、以下の説明は、
上記外接矩形統合手段107の動作説明を兼ねる。図7
のフロー(同図中(I))によると、先ず、2矩形選択・
統合手段107−1により、統合処理の対象とする2つ
の連結成分の外接矩形を選択する(S7−01)。この
後、選択した2外接矩形を統合するか否かを以下の各観
点により判定し、判定結果を受けて2矩形選択・統合手
段107−1は、統合を実行する。統合するか否かの判
定は、順次選択される2外接矩形を対象にして全ての外
接矩形について行う。統合するか否かの判定ステップと
して、先ず、隣接判定手段107−2により対象とする
2矩形が隣接しているかどうか判定する(S7−0
2)。隣接しているかどうかの判定は、水平方向の文字
行を抽出している場合には、左右方向の2矩形間の距離
が所定の基準値以内であるか否か、を条件とした判断に
よることが可能である。この判定により、隣接していな
ければ(S7−02−No)、2外接矩形は同一の行を
構成する矩形ではないと判断し、統合を行わない。本例
のフローによると、図7の(II)に示す2矩形選択・統合
手段107−1が実行する統合の非実行/実行フローに
従う。統合しない場合、ステップS7−11を経て全て
の矩形について統合するか否かの判定を行ったかをチェ
ックして(S7−13)、完了した場合は(S7−13
−Yes)この処理を抜け、完了しない場合(S7−1
3−No)は次の2矩形に対する処理を行うために、選
択ステップ(S7−01)に戻す。
【0027】2矩形が隣接していれば(S7−02−Y
es)、次に、サイズ吟味手段107−3により2矩形
の大きさが似ているかどうかを判定する(S7−0
3)。ここでは、サイズとして高さの差異により、それ
が所定範囲内にあるか否かを判断する、即ち閾値をαと
し、大きさ(高さ)の差がα以上ある場合には矩形同士
の大きさの違いが大きいと判断する閾値処理を行う。こ
の閾値処理の結果を受けて、あまりにも違う大きさ(高
さ)の矩形同士は、同一の行を構成する文字(この中に
は句読点等の準文字を含む)列の外接矩形ではないと判
断し(S7−03−No)、上記隣接度によるときと同
様に、統合を行わないようにする図8の(II)に示すフロ
ーにおけるステップS7−11を経る手順を行う。2矩
形の大きさ、例えば高さの差異が所定範囲内であれば
(S7−03−Yes)、次に、矩形間色差異吟味手段
107−4により2矩形の色差異の吟味を行い、色が近
いかどうかを判定する(S7−04)。ここでは、矩形
同士の色が遠い場合、違う色の矩形であり、矩形同士
は、同一の行を構成する文字列の外接矩形ではないと判
断し(S7−04−No)、上記した隣接度によるとき
と同様に、図8の(II)におけるステップS7−11の統
合を行わないようにする手順を実行する。
【0028】2矩形の色が近ければ(S7−04−Ye
s)、次いで、サイズ再吟味手段107−8により2矩
形の大きさ(高さ)の差がある程度以上あるかどうか再
吟味し、大きさが似ているかどうかを判定する(S7−
05)。ここでは、文字候補と準文字(句読点等)候補
を分離するために行うので、先のステップS7−03で
矩形の高さの差異を吟味した場合の閾値αよりも小さな
閾値βを用いて、2矩形間の大きさ(高さ)の差を吟味
し、その結果により処理を分岐する。2矩形間の高さの
違いが閾値βより大きければ(S7−05−No)、準
文字候補として扱われ、追加矩形抽出・準文字判定手段
107−9によりこの準文字候補が本当に統合対象に相
応しいかその適否を判定するために処理される。この処
理は、外接矩形の追加抽出と、追加抽出された外接矩形
の大きさの判断とからなる。この処理を説明する図9を
参照すると、同図中(a)に示すように、追加抽出される
外接矩形は、統合対象とした2矩形の小さいほうの矩形
(句読点候補に相当)に隣り合って、該矩形高の数倍程
度とする抽出範囲(図中破線にて示す)を設定し、大き
さ(高さ)の差が閾値α以内の矩形だけを抽出対象とす
る。抽出結果を図9中の(b)、(c)に示す。統合対象とし
ての適否は、追加抽出された外接矩形の大きさを吟味す
ることにより判断され、矩形がひとつも存在しない場合
或いは大きいほうの矩形に近い大きさを持つ矩形が存在
する場合は(図9(b))、小さい矩形は句読点である可
能性が高いので、この準文字候補を統合処理を行う対象
として扱う。逆に、小さいほうの矩形に近い大きさを持
つ矩形ばかりが存在する場合は(図9(c))、小さな文
字から構成される別の文字領域に区分される矩形である
と判断し、選択した2矩形は統合対象として扱わない。
この準文字候補に対する統合対象の適否判定処理は、本
例のフローによると、追加矩形抽出(S7−09)を行
った後、追加抽出された外接矩形の大きさが小さい矩形
ばかりか否かを判断し(S7−10)、小さい矩形ばか
りの場合(S7−10−Yes)、統合対象の矩形は、
異なる文字領域の矩形であり、対象2矩形は、同一の行
を構成する文字列の外接矩形ではないと判断し、上記し
た隣接度によるときと同様に、図8の(II)におけるステ
ップS7−11の統合を行わないようにする手順を実行
する。他方、小さい矩形ばかりではない場合(S7−1
0−No)、同一文字領域の句読点等の準文字である可
能性が高いので、統合処理の次のステップS7−06へ
進める。
【0029】上記のチェック(ステップS7−05,S
7−10)をパスし同一文字領域の矩形である可能性が
高い2矩形に対して、次に先に抽出した罫線に係わるチ
ェックを掛ける。先ず、矩形間罫線有無判定手段107
−5により、罫線が2矩形の間に存在するかどうかを判
定する(S7−06)。この判定は、水平方向の文字行
の途中に、縦罫線がこれを分断する形である場合は、罫
線の左右の文字行同士は、罫線をまたがって統合すべき
ものではないと考えることが適当であり、統合を中止す
るための条件の一つとして、このチェックを掛ける。こ
こでは、罫線が2矩形を分断する形である場合に(S7
−06−Yes)、さらに統合を中止するための次の必
要条件についてチェックを掛ける。他方、2矩形を分断
する形で罫線が存在しなければ(S7−06−No)、
統合し新たな矩形を生成することが適当と考えられるの
で、2つの矩形を統合して新たな1矩形とする統合を実
行する。本例のフローによると、図8の(II)に示す2矩
形選択・統合手段107−1が実行する統合の非実行/
実行フローに従う。統合する場合、ステップS7−12
を経て全ての矩形について統合するか否かの判定を行っ
たかをチェックして(S7−13)、完了した場合は
(S7−13−Yes)この処理を抜け、完了しない場
合(S7−13−No)は次の2矩形に対する処理を行
うために、選択ステップ(S7−01)に戻す。
【0030】罫線が2矩形を分断する形で存在すると判
断された場合は(S7−06−Yes)、統合実行を止
める次の必要条件である罫線長について罫線長吟味手段
107−6でその吟味を行う(S7−07)。ここまで
にみなし罫線として扱ってきた外接矩形が、統合対象の
2矩形の高さに比べて十分に長くない場合は(S7−0
7−No)、罫線でなく文字の一部である可能性が高い
ので、このような場合は罫線とはみなさず対象2矩形は
統合対象とし、みなし罫線を含め統合する。統合ステッ
プは、上記の場合と同様に、図8の(II)に示すフローに
おけるステップS7−12を経る手順を行う。罫線長吟
味の結果、罫線がその性質を持つに十分な長さを持つ場
合(S7−07−Yes)、矩形−罫線間色差異判定手
段107−7により統合対象の2矩形と罫線の色の差異
を吟味する(S7−08)。ここでは、矩形と罫線の色
の差異が大きく、色が違うと判断される場合は(S7−
08−No)、図6に示したように、罫線は文字間のス
ペース(背景)がたまたま罫線のような形状になったも
のである可能性が高いので、このときには罫線とはみな
さず、対象2矩形は統合対象として統合する。統合ステ
ップは、上記の場合と同様に、図8の(II)に示すフロー
におけるステップS7−12を経る手順を行う。矩形と
罫線の色を判定した結果、色の差異が小さく罫線がその
性質を持つに十分であった場合、真の罫線と判断して、
統合の対象とした矩形同士は統合せず、分断したままに
しておくべきと判断し(S7−08−Yes)、上記と
同様に、統合を行わないようにする手順(図8の(II))
におけるステップS7−11を経る手順を行う。このよ
うにして、これらの処理をすべての矩形に対して繰り返
し、対象の全ての外接矩形について統合条件を吟味した
ことを確認して(S7−13−Yes)、統合処理を抜
ける。なお、統合の判定を行う手順として示した上記各
ステップS7−02〜10は、例示した本実施形態の構
成に限らず、実施にあたって、発明の目的を逸脱しない
範囲でその一部の抽出要素に係わる手順を省略しても良
い。例示した本実施形態の構成に限らず、実施にあたっ
て、発明の目的を逸脱しない範囲でその一部の判定要素
に係わる手順を省略しても良い。
【0031】次に、文字行判定手段108により、文字
行であるかを判定する(S8)。この文字行判定処理
は、前段の外接矩形統合手段107で統合された連結成
分の外接矩形を対象にして、それが文字行である可能性
が高いか否かの判定を行い、可能性の低いものを文字行
から除外する。ここまでに文字行を抽出するために絞り
込んできた連結成分には文字行が含まれているが、図や
写真の一部などを誤って統合するなどした、文字行でな
いものが含まれている可能性もあり、その意味では文字
行候補である。そこで、このステップではさらに絞り込
みを行うために文字行の吟味を行う。この文字行判定
は、上記した外接矩形統合手順により統合された外接矩
形を対象にして、外接矩形の複数の特徴量を算出し、複
数の特徴量から文字連結成分による外接矩形であること
を表すスコアを算出し、得たスコアに基づいて文字連結
成分による外接矩形らしさを判定するという手順によ
る。図10は、本実施形態に係る文字行判定処理(S
8)のより詳細なフローを示すチャートであり、図11
は、本実施形態に係る文字行判定手段108のより詳細
な構成を示すブロック図である。本例の文字行判定手段
108を図11を参照して説明すると、特徴量算出手段
108−1は、文字行候補に係わる連結成分データをも
とに各種の特徴量を算出し、算出値を典型値との差異算
出手段108−2へ送出する。典型値との差異算出手段
108−2は、典型値と特徴量算出手段108−1より
受け取った特徴量との差異を算出し、スコア算出手段1
08−3へ送出する。スコア算出手段108−3は、差
異算出手段108−2より受け取った差異をもとに文字
行らしさを表すスコアを算出し、文字行領域判定手段1
08−4へ送出する。文字行領域判定手段108−4
は、スコア算出手段108−3から受け取ったスコアに
対し、所定の閾値処理を行い文字行であるか否かを判定
し、その結果を次の重複領域排除手段109に送出す
る。
【0032】次に、文字行判定処理手順を図10のフロ
ーチャートを参照して説明する。なお、以下の説明は、
上記文字行判定手段108の動作説明を兼ねる。図10
のフローによると、先ず、特徴量算出手段108−1に
より文字(文字行)候補に係わる連結成分データをもと
に文字(文字行)らしさを表す特徴量を算出する(S8
−01)。特徴量を算出するための具体的な手法は、先
行例(特願2001- 86484号)にも記述があるような既知
の手法を適用することができる。例えば、領域内のエッ
ジ強度や、領域内を通過する罫線の数、領域内の連結成
分の外接矩形のうち、文字らしい大きさのものの割合、
などが採用し得る。次に、上記のステップで算出した判
定対象の特徴量を評価するための手順として、典型値と
の差異算出手段108−2により、文字領域における文
字が示す各特徴量の典型値(実際に文字を対象にして予
め求められた基準の特徴量)と算出された判定対象の特
徴量との差異を計算する(S8−02)。ここで、差異
の計算に用いる典型値は、多数の文字サンプルから求め
た特徴量の平均値を用いることなど既知の手法を適宜採
用し得る。また、典型値と現在判定対象から算出した特
徴量から両者の差異を数値で表現する方法として、各特
徴量のシティブロック距離、重みつきシティブロック距
離、ユークリッド距離、重みつきユークリッド距離、マ
ハラノビス距離などの公知の表現方法から採用すること
が可能である。例えば、シティブロック距離を用いる場
合は、特徴量iの典型値と判定対象の算出値をそれぞれt
i,miとおき、各種特徴量の判定に対する重要度(寄与
度)をあらわす重みをwiとおく。合計n種の特徴量が存在
するとすると、差異Sは、
【0033】
【数1】
【0034】と計算できる。なお、重みwiは判定がなる
べく正確になるよう、予め実験的に確認された値に定め
るようにする。
【0035】次いで、スコア算出手段108−3によ
り、前ステップで算出された典型値との差異を表す数値
Sをもとに文字(文字行)らしさを表すスコアを算出す
る(S108−3)。求めた差値Sを利用してスコアを
算出するが、ここでは、差値Sをそのままスコアとして
用いることにするので、差値Sが小さいほど文字らしい
ということになる。こうして得られた文字(文字行)ら
しさを表すスコアを予め文字(文字行)であるか否かを
判定するために定めておいた閾値と比較し、閾値以下で
あるか否かをチェックする(S8−04)。チェック結
果が閾値以下である場合(S8−04−Yes)、文字
行である可能性が高いので、文字行と判定し、前ステッ
プの外接矩形統合処理で統合した文字行候補の領域デー
タを保持しておく(S8−05)。他方、チェック結果
が閾値以下ではない場合(S8−04−No)、文字行
である可能性が低いので、文字行ではないと判定し、文
字らしくない値をもつ前ステップの外接矩形統合処理で
統合した文字行候補の領域データを削除する(S8−0
6)。以上の文字行判定を対象となる全ての文字行候補
(前ステップの外接矩形統合処理で統合した文字行)に
ついて繰り返し(S8−07)、全ての候補の判定を行
ったことを確認して(S8−07−Yes)、このフロ
ーを抜ける。
【0036】次に、重複領域排除手段109により、文
字行の可能性が高いとして残された統合領域が互いに重
複する場合に、一つを残して、他の重複領域を排除する
処理を行う(S9)。前段までの接矩形統合処理(S
7)で統合され、文字行判定処理(S8)で文字行であ
る可能性が高いと判定され、残された連結成分の外接矩
形は、エラーがかなり排除されているが、一部排除しき
れない場合がある。特に、複数の領域同士が重複してい
る場合はどちらかがエラーである可能性が高い。図12
は、その例を示すもので、同図(a)では「まは語る」な
どの文字ストロークが閉じている部分の内部の背景色の
塊が行方向に連続して存在するため、図中に実線で示す
ように、この背景色の塊の外接矩形を本来の文字と重な
って抽出してしまう。また、同図(b)でも、イラストを
構成する同色の画素の塊も、図中に実線で示すように、
文字らしい並びになる場合があり、文字の領域と一部重
なった状態で抽出してしまう。どちらも文字ではないエ
ラー成分である。そこで、この重複領域排除処理は、残
っている連結成分の外接矩形を対象にして、領域に重複
部分がある場合に、文字行である可能性が高い一つの領
域を残して他の重複領域を排除する。具体的には、重複
領域排除手段109により、次に示す手順により重複領
域の削除を行う。まず、得られた文字領域候補として残
っている連結成分の外接矩形の中で重複しているものを
探索する。図10に示すように、重複には一方が他方に
完全に包含されている場合(図10(a))や、一部が重
なっている場合(図10(b))があるが、いずれも候補
領域の座標値だけで検出することができる。重複してい
る領域が見つかったら、重複領域を持つ外接矩形のいず
れか一つ有効なものを残して、それ以外を削除する。そ
の際、どの候補が最も有効かを判定するためにいろいろ
な手法を採用することが可能であるが、例えば、領域の
最も面積が大きいもの、最も行長が長いものを選ぶな
ど、領域の幾何学的な情報を用いる手法、あるいは各文
字領域候補ごとに算出されている文字らしさを表すスコ
アを用いる手法などが適当である。なお、最も有効な候
補を判定する手法は、一つの手法に限らず、複数の手法
を用いても良い。ここで、先の文字行判定処理(S8)
において各文字領域候補ごとに算出した文字らしさを表
すスコアSを最も有効な候補を判定するために用いると
すると、重複した候補領域のうち、文字行である可能性
が高いものは、最もスコアSの小さいものであるから、
それを適正な文字行領域として残すようにする。
【0037】次に、領域再統合手段110により、これ
までの処理を経た後、最終的に残されている文字行領域
を表す連結成分の外接矩形(即ち、領域の重なりも排除
されている)について、再統合を行う(S7)。この文
字行領域再統合処理は、各領域毎に行う処理で、統合の
対象として選択した別の文字行領域との関係が相互に統
合条件に適うかその適否を別の文字行領域全てに対して
判定し、その判定結果により統合を実行する。なお、判
定の対象となる2外接矩形の統合を行うか否かを判定す
るために、先に行った外接矩形統合処理(S7)とほぼ
同様の複数の適合条件によりチェックし、又対象となる
全ての文字行領域に対するチェックの結果として統合候
補が複数存在する場合があるが、こうした場合にここで
は、統合を行わないようにする点を特徴とする。図13
は、本実施形態に係る文字行領域再統合処理(S10)
のより詳細なフローを示すチャートであり、図14は、
本実施形態に係る領域再統合手段110のより詳細な構
成を示すブロック図である。本例の領域再統合手段11
0を図14を参照して説明すると、2矩形選択手段11
0−1は、選択した文字行領域を表す連結成分の2外接
矩形データを外接矩形位置関係吟味手段110−2、矩
形高吟味手段110−3、矩形色吟味手段110−4、
罫線位置吟味手段110−5、矩形再統合手段110−
7に送出する。なお、統合の判定を行う上記各手段11
0−2〜5は、例示した本実施形態の構成に限らず、実
施にあたって、発明の目的を逸脱しない範囲でその一部
の判定要素を省略しても良い。
【0038】外接矩形位置関係吟味手段110−2は、
2外接矩形間の行・列方向の位置関係により表される近
接度により、統合の適否を吟味し、その結果を候補矩形
数計数手段110−6に送る。矩形高吟味手段110−
3は、2外接矩形間の高さの近似性による統合の適否を
吟味し、その結果を候補矩形数計数手段110−6に送
る。矩形色吟味手段110−4は、2外接矩形間の色の
近似性による統合の適否を吟味し、その結果を候補矩形
数計数手段110−6に送る。罫線位置吟味手段110
−5は、罫線に対する2外接矩形の相互位置関係、即ち
罫線が間にないか否かによる統合の適否を吟味し、その
結果を候補矩形数計数手段110−6に送る。候補矩形
数計数手段110−6は、統合適否を吟味する各手段1
10−2〜5からの結果を受け、統合適とした候補矩形
が何個あるかを計数し、計数結果を矩形再統合手段11
0−7に送出する。矩形再統合手段110−7は、統合
適とした候補矩形が一つである場合にのみ、文字行領域
の統合を実行する。
【0039】次に、文字行領域再統合処理手順を図13
のフローチャートを参照して説明する。なお、以下の説
明は、上記領域再統合手段110の動作説明を兼ねる。
図13のフローによると、先ず、2矩形選択手段110
−1により、統合処理の対象とする一つの文字行領域
(注目領域)を選択する(S10−01)。続いて、統
合の対象として統合の適否を吟味する別の文字行領域を
選択する(S10−02)。この後、選択した注目領域
に対する全ての別の文字行領域についてその2領域を統
合するか否かを以下の各観点により吟味し、その結果を
受けて候補矩形数計数手段110−6は、注目領域に対
して統合適とした候補矩形が何個あるかを計数し、計数
結果に従って矩形再統合手段110−7は統合を実行す
る。統合するか否かを吟味するステップとして、先ず、
外接矩形位置関係吟味手段110−2により対象とする
2矩形領域が近いか否かを吟味する(S10−03)。
この処理ステップは、図15に例示されるように、文字
間の間隔が広い文書の場合、ここまで行ってきた統合処
理でも処理残しが起きる可能性があり、行の途中で文字
行が途切れてしまう場合がある。そこで、抽出された文
字行領域同士を比較し、互いに近接するものを所定の条
件のもとで統合し、不当に分割された行を減らす処理を
行うことを可能にする。ここで用いる統合適否を吟味す
る条件としては、図16に示すように、ある注目してい
る文字行領域の行方向に距離X以内にあり、行と垂直方
向に距離Y以内の距離に文字行領域があるときに近いと
判断し、統合適とする。この距離X,Yは実験的に適正な
基準値を予め定めておく。なお、ここでは2矩形領域間
の距離を、行方向或いは行と垂直方向の対向端部間の距
離としているので、図16の例では、実線で示した矩形
領域が再統合の候補として判定され、破線で示した矩形
領域が再統合の候補外として判定されることになる。ス
テップS10−03で上記した距離条件を満足しない場
合(S10−03−No)、再統合の候補外として判定
されるので、その結果を候補矩形数計数手段110−6
に送った後、吟味すべき対象文字列領域の存在の有無を
確認して(S10−08)、有る場合に次の対象領域の
吟味を行うためにステップS10−02に戻し、無い場
合に次の領域再統合処理ステップに進める。
【0040】2矩形領域が上記した距離条件を満足する
場合(S10−03−Yes)、次に、矩形高吟味手段
110−3により2矩形領域の高さが似ているかどうか
を吟味する(S10−04)。ここでは、高さを比較
し、例えば、高さの差が所定範囲内にあるか閾値処理を
し、高さの差が閾値以上ある場合には2矩形領域の高さ
の違いが大きいと判断する。この閾値処理の結果を受け
て、吟味すべき対象文字列領域があまりにも違う高さで
ある場合(S10−04−No)、上記隣接度によると
きと同様に、再統合候補から外すようにする。2矩形領
域の高さの違いがなければ(S10−04−Yes)、
次に、矩形色吟味手段110−4により2矩形領域の色
差異を検出し、色が近いかどうかを吟味する(S10−
05)。ここでは、2矩形領域の色が違うときは、同一
の文字行領域を構成しないと判断し(S10−05−N
o)、上記したと同様に、再統合候補から外すようにす
る。次いで、2矩形領域の色が近ければ(S10−05
−Yes)、次いで、罫線位置吟味手段110−5によ
り、先に抽出した罫線に係わるチェックを行う。ここで
は、罫線が2矩形領域の間に存在するかどうかを吟味す
る(S10−06)。この吟味は、水平方向の文字行領
域間に、縦罫線がこれを分断する形である場合は、罫線
をまたがって統合すべきものではないと考えることが適
当であり(図19、参照)、罫線が2矩形領域を分断す
る形である場合に(S10−06−No)、上記したと
同様に、再統合候補から外すようにする。
【0041】他方、2矩形領域を分断する形で罫線が存
在しなければ(S10−06−Yes)、上記したとこ
ろの統合に適合する条件を全てクリアすることになるの
で、この段階で、再統合候補として残し、その結果を候
補矩形数計数手段110−6に送った後、吟味すべき対
象文字列領域の存在の有無を確認して(S10−0
8)、有る場合に次の対象領域の吟味を行うためにステ
ップS10−02に戻し、無い場合に次の領域再統合処
理ステップに進める。注目領域に対する全ての別の文字
行領域についてその2領域を統合するか否かを吟味した
後、矩形再統合手段110−7により領域再統合処理を
行う。この処理の始めに、候補矩形数計数手段110−
6が保持している再統合候補数が無い(0である)か或
いは複数の候補があるかをチェックする(S10−0
9)。このチェックの結果、一つの統合候補があるとき
のみ(S10−09−No)、矩形再統合手段110−
7により対象2矩形領域を一つながりの行とする再統合
を実行する(S10−10)。従って、統合候補が無い
とき或いは複数の統合候補があるときには再統合を実行
しない(S10−11)。このように候補矩形数により
統合の適否を判断するときの具体例を図17に示す。同
図において、(a)は、一つのみの統合候補(実線で囲ん
だ領域)があるときを示し、文字行領域同士を再統合す
る例で、(b)は、複数の統合候補(左側の実線で囲んだ
領域を注目領域とした場合の右側の実線で囲んだ三つの
領域)があるときを示し、異なるコラムに属する文字行
領域であると判断して、再統合を行わない例を示す。こ
の後、全ての文字行領域を注目領域として本再統合処理
を実行したか否かをチェックして(S10−12)、完
了している場合には本フローを抜け、他方、未完了の場
合には本再統合処理の始めのステップ(S10−01)
に戻し、次の文字行領域を注目領域として本処理を繰り
返す。
【0042】「実施形態2」本実施形態は、上記した実
施形態1に示した文字領域認識処理フローの各ステップ
を実行する手段として、汎用の処理装置(コンピュー
タ)を利用した実施形態を示すものである。図18は、
本実施形態の処理装置の構成を示す。図18に示すよう
に、本実施形態は、汎用の処理装置(コンピュータ)に
より実施する例を示すものであり、構成要素としてCP
U201、メモリ202、ハードディスクドライブ20
3、入力装置204、CD−ROMドライブ205、デ
ィスプレイ206、マウスなどを用意する。また、CD
−ROMドライブ205が用いるCD−ROMなどの記
録媒体207には、本発明の文字領域認識・抽出の上記
した処理機能や処理手順を実現させるためのプログラム
(ソフトウェア)が記録されている。処理対象の原稿画
像は、スキャナー等の入力装置204により入力され、
例えばハードディスク203などに格納されているもの
である。CPU201は、記録媒体207から上記した
処理機能、手順を実現するプログラムを読み出し、プロ
グラムに従う文字領域認識・抽出処理を対象画像に実行
し、その結果をディスプレイ206などに出力する。
【0043】
【発明の効果】(1) 請求項1の発明に対応する効果 多値のカラー画像を基に文字候補として生成された連結
成分の外接矩形を統合する際に、一次統合により得られ
た外接矩形を吟味し文字連結成分によるとみなせるもの
を選び、その結果を対象にして厳密な条件による再統合
を行うようにしたので、対象画像の文字領域を表す適切
な情報の取得が可能になる。 (2) 請求項2の発明に対応する効果 上記(1)の効果に加え、入力多値画像を基に罫線を抽
出し、得た罫線が内在しないように連結成分の外接矩形
を統合するので、罫線で区切られた領域を誤って統合す
るといった不適切な統合を回避できる。 (3) 請求項3の発明に対応する効果 上記(1)、(2)の効果に加え、再統合の際に、統合
対象の外接矩形の近接度、高さの近似度及び連結成分の
色の近似度を吟味することにより、厳密に統合の適否を
判断することを可能にする。
【0044】(4) 請求項4の発明に対応する効果 多値のカラー画像を基に文字候補として生成された連結
成分の外接矩形を統合し、統合された外接矩形を吟味し
文字連結成分によるとみなせるものを選ぶ際に、統合さ
れた外接矩形の複数の特徴量を求め、得た特徴量から文
字連結成分による外接矩形らしさを表すスコアを算出
し、そのスコアを判断の根拠にしたので、対象画像の文
字領域を表す適切な情報の取得が可能になる。 (5) 請求項5の発明に対応する効果 多値のカラー画像を基に文字候補として生成された連結
成分の外接矩形を統合し、統合された外接矩形を吟味し
文字連結成分によるとみなせるものを選び、さらに、文
字連結成分によるとみなされた複数の外接矩形領域が互
いに重なっているときに、その領域のうち最も文字領域
らしい1つのみを残して残りを削除するにしたので、対
象画像の文字領域を表す適切な情報の取得が可能にな
る。
【0045】(6) 請求項6の発明に対応する効果 多値のカラー画像を基に文字候補として生成された連結
成分の外接矩形を統合し、統合された外接矩形を吟味し
文字連結成分によるとみなせるものを選ぶ際の外接矩形
の統合を、選択された2つの統合対象の外接矩形の近接
度、サイズ差及び連結成分の色の近似度を吟味し、さら
に該サイズ差については追加抽出した隣接外接矩形との
関係を考慮して再吟味することにより、句読点等の準文
字の統合もれをなくし、対象画像の文字領域を表す適切
な情報の取得を可能にする。 (7) 請求項7の発明に対応する効果 上記(6)の効果に加え、入力多値画像を基に罫線を抽
出し、得た罫線が内在しないように連結成分の外接矩形
を統合するので、罫線で区切られた領域を誤って統合す
るといった不適切な統合を回避できる。
【0046】(8) 請求項8の発明に対応する効果 多値のカラー画像を基に文字候補として生成された連結
成分の外接矩形を統合する際に、一次統合(同色とみな
せる画素の隣接するランを統合し連結成分を得る)によ
り得られた外接矩形を吟味して文字連結成分によるとみ
なせるものを選び、その結果得られた外接矩形を対象に
して厳密な条件による再統合を行うようにしたので、対
象画像の文字領域を表す適切な情報の取得が可能にな
る。 (9) 請求項9の発明に対応する効果 請求項8に記載された画像処理方法の各ステップを実行
するためのプログラムを汎用の処理装置(コンピュー
タ)に搭載することにより、上記(8)の効果を容易に
具現化することが可能になる。
【図面の簡単な説明】
【図1】 文字領域認識処理を行う本発明の実施形態に
係る画像処理方法の処理フローを示すチャートである。
【図2】 文字領域認識処理を行う本発明の実施形態に
係る画像処理装置の構成を示すブロック図である。
【図3】 ランの統合による連結成分の生成状態を示す
図である。
【図4】 図1における罫線抽出処理(S6)の詳細フ
ローを示すチャートである。
【図5】 図2における罫線抽出手段のより詳細な構成
を示すブロック図である。
【図6】 文字間の間隙と罫線の違いを説明する図であ
る。
【図7】 図1における外接矩形統合処理(S7)の詳
細フローを示すチャートである。
【図8】 図2における外接矩形統合手段のより詳細な
構成を示すブロック図である。
【図9】 外接矩形の追加抽出による準文字候補の統合
対象の適否判定処理の説明図である。
【図10】 図1における文字行判定処理(S8)の詳
細フローを示すチャートである。
【図11】 図2における文字行判定手段のより詳細な
構成を示すブロック図である。
【図12】 文字行領域の重複例の説明図である。
【図13】 図1における文字行領域再統合処理(S1
0)の詳細フローを示すチャートである。
【図14】 図2における領域再統合手段のより詳細な
構成を示すブロック図である。
【図15】 文字行領域が分断される例を説明する図で
ある。
【図16】 文字行領域の位置関係により再統合候補と
するか否かを判断する基準を説明する図である。
【図17】 再統合候補として残った文字行領域の状態
から再統合を実行する例と実行をしない例を示す。
【図18】 汎用のコンピュータを利用した実施形態の
画像処理装置の構成を示すブロック図である。
【図19】 文字が罫線で区切られていても、距離が近
ければ統合を行ってしまう文字行の生成状態を説明する
図である。
【符号の説明】
101…処理対象画像入力手段、 102…圧縮画像
生成手段、103…ラン生成手段、 104
…連結成分生成手段、105…連結成分選別手段、
106…罫線抽出手段、107…外接矩形統合手
段、 108…文字行判定手段、109…重複領
域排除手段、 110…領域再統合手段、111
…文字領域出力手段、106−02…長ラン選別手段、
106−03…連結成分抽出手段、106−04…外
接矩形縦横比算出手段、106−05…形状吟味手段、
106−06…色相違度計算手段、106−07…
色相違度吟味手段、106−08…相対短ラン除外手
段、106−09…残ラン統合手段、 106−10…
罫線出力手段、107−1…2矩形選択・統合手段、1
07−2…隣接判定手段、107−3…サイズ吟味手
段、107−4…矩形間色差異吟味手段、107−5…
矩形間罫線有無吟味手段、107−6…罫線長吟味手
段、107−7…矩形−罫線間色差異吟味手段、107
−8…サイズ再吟味手段、107−9…追加矩形抽出・
準文字判定手段、108−1…特徴量算出手段、 1
08−2…典型値との差異算出手段、108−3…スコ
ア算出手段、 108−4…文字行領域判定手段、1
10−1…2矩形選択手段、 110−2…外接矩形
位置関係吟味手段、110−3…矩形高吟味手段、
110−4…矩形色吟味手段、110−5…罫線位置吟
味手段、 110−6…候補矩形数計数手段、110−
7…矩形再統合手段、201…CPU、
202…メモリ、203…ハードディスクドライブ、
204…入力装置、205…CD−ROMドライブ、
206…ディスプレイ、207…CD−ROM。

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 処理対象として入力された多値画像、或
    いはその圧縮画像から同色とみなせる画素をランとして
    抽出する手段と、隣接するランを統合して連結成分を生
    成する手段と、連結成分のうち文字とみなせない不要成
    分を排除する手段と、連結成分の外接矩形を統合する手
    段と、統合された外接矩形から文字連結成分によるとみ
    なせるものを判定する手段と、文字連結成分によるとみ
    なされた統合済みの外接矩形を再統合する手段と、再統
    合された文字連結成分による外接矩形を文字領域を表す
    情報として出力する手段とを備えることを特徴とする画
    像処理装置。
  2. 【請求項2】 請求項1に記載された画像処理装置にお
    いて、前記多値画像から罫線を抽出する手段をさらに備
    え、前記連結成分の外接矩形を統合する手段が、抽出し
    た罫線が内在しないように統合を行う手段であることを
    特徴とする画像処理装置。
  3. 【請求項3】 請求項1又は2に記載された画像処理装
    置において、前記文字連結成分の外接矩形を再統合する
    手段が、選択された2つの統合対象の再統合の適否を決
    定するために、統合対象の外接矩形の近接度を判定する
    手段と、統合対象の外接矩形の高さの近似度を判定する
    手段と、統合対象の外接矩形を構成する連結成分の色の
    近似度を判定する手段を備えたことを特徴とする画像処
    理装置。
  4. 【請求項4】 処理対象として入力された多値画像、或
    いはその圧縮画像から同色とみなせる画素をランとして
    抽出する手段と、隣接するランを統合して連結成分を生
    成する手段と、連結成分のうち文字とみなせない不要成
    分を排除する手段と、連結成分の外接矩形を統合する手
    段と、統合された外接矩形から文字連結成分によるとみ
    なせるものを判定する手段と、文字連結成分によるとみ
    なされた統合済みの外接矩形を文字領域を表す情報とし
    て出力する手段とを備えた画像処理装置であって、前記
    統合された外接矩形から文字連結成分によるとみなせる
    ものを判定する手段が、統合された外接矩形の複数の特
    徴量を算出する手段と、複数の特徴量から文字連結成分
    による外接矩形であることを表すスコアを算出する手段
    と、前記スコアに基づいて文字連結成分による外接矩形
    らしさを判定する手段を備えたことを特徴とする画像処
    理装置。
  5. 【請求項5】 処理対象として入力された多値画像、或
    いはその圧縮画像から同色とみなせる画素をランとして
    抽出する手段と、隣接するランを統合して連結成分を生
    成する手段と、連結成分のうち文字とみなせない不要成
    分を排除する手段と、連結成分の外接矩形を統合する手
    段と、統合された外接矩形から文字連結成分によるとみ
    なせるものを判定する手段と、文字連結成分によるとみ
    なされた統合済みの複数の外接矩形が互いに重なってい
    るか否かを判断し、互いに重なっている複数の外接矩形
    領域のうち1つのみを残して残りを削除する手段と、削
    除した後の外接矩形を文字領域を表す情報として出力す
    る手段とを備えることを特徴とする画像処理装置。
  6. 【請求項6】 処理対象として入力された多値画像、或
    いはその圧縮画像から同色とみなせる画素をランとして
    抽出する手段と、隣接するランを統合して連結成分を生
    成する手段と、連結成分のうち文字とみなせない不要成
    分を排除する手段と、連結成分の外接矩形を統合する手
    段と、統合された外接矩形から文字連結成分によるとみ
    なせるものを判定する手段と、文字連結成分によるとみ
    なされた統合済みの外接矩形を文字領域を表す情報とし
    て出力する手段とを備えた画像処理装置であって、前記
    連結成分の外接矩形を統合する手段が、選択された2つ
    の統合対象の統合の適否を決定するために、統合対象の
    外接矩形の近接度を判定する手段と、統合対象の外接矩
    形のサイズ差を吟味する手段と、統合対象の外接矩形を
    構成する連結成分の色の近似度を判定する手段と、統合
    対象の外接矩形のサイズ差を追加抽出した隣接外接矩形
    との関係を考慮して再吟味する手段を備えたことを特徴
    とする画像処理装置。
  7. 【請求項7】 請求項6に記載された画像処理装置にお
    いて、前記多値画像から罫線を抽出する手段をさらに備
    え、前記連結成分の外接矩形を統合する手段が、抽出し
    た罫線が内在しないように統合を行う手段であることを
    特徴とする画像処理装置。
  8. 【請求項8】 処理対象として入力された多値画像、或
    いはその圧縮画像から同色とみなせる画素をランとして
    抽出するステップと、隣接するランを統合して連結成分
    を生成するステップと、連結成分のうち文字とみなせな
    い不要成分を排除するステップと、連結成分の外接矩形
    を統合するステップと、統合された外接矩形から文字連
    結成分によるとみなせるものを判定するステップと、文
    字連結成分によるとみなされた統合済みの外接矩形を再
    統合するステップと、再統合された文字連結成分による
    外接矩形を文字領域を表す情報として出力するステップ
    の各ステップを実行することを特徴とする画像処理方
    法。
  9. 【請求項9】 請求項8に記載された画像処理方法の各
    ステップをコンピュータに実行させるためのプログラ
    ム。
JP2002003627A 2002-01-10 2002-01-10 画像処理装置、画像処理方法、及び同方法に用いるプログラム Pending JP2003208568A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002003627A JP2003208568A (ja) 2002-01-10 2002-01-10 画像処理装置、画像処理方法、及び同方法に用いるプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002003627A JP2003208568A (ja) 2002-01-10 2002-01-10 画像処理装置、画像処理方法、及び同方法に用いるプログラム

Publications (1)

Publication Number Publication Date
JP2003208568A true JP2003208568A (ja) 2003-07-25

Family

ID=27643174

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002003627A Pending JP2003208568A (ja) 2002-01-10 2002-01-10 画像処理装置、画像処理方法、及び同方法に用いるプログラム

Country Status (1)

Country Link
JP (1) JP2003208568A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005076250A1 (en) * 2004-02-03 2005-08-18 O & K Co., Ltd. The apparatus and method for displaying an image using a large balloon
JP2008269502A (ja) * 2007-04-25 2008-11-06 Fuji Xerox Co Ltd 画像処理システム及び画像処理プログラム
US8340434B2 (en) 2008-06-25 2012-12-25 Fuji Xerox Co., Ltd. Image processing apparatus, image processing system and computer readable medium
JP2020513133A (ja) * 2017-09-20 2020-04-30 ジョンアン インフォメーション テクノロジー サービシズ カンパニー リミテッド 画像品質の評価方法及び装置
JP2021149136A (ja) * 2020-03-16 2021-09-27 株式会社アイエスピー シリアルナンバー等文字列抽出サーバ、方法及びプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005076250A1 (en) * 2004-02-03 2005-08-18 O & K Co., Ltd. The apparatus and method for displaying an image using a large balloon
JP2008269502A (ja) * 2007-04-25 2008-11-06 Fuji Xerox Co Ltd 画像処理システム及び画像処理プログラム
US8340434B2 (en) 2008-06-25 2012-12-25 Fuji Xerox Co., Ltd. Image processing apparatus, image processing system and computer readable medium
JP2020513133A (ja) * 2017-09-20 2020-04-30 ジョンアン インフォメーション テクノロジー サービシズ カンパニー リミテッド 画像品質の評価方法及び装置
JP2021149136A (ja) * 2020-03-16 2021-09-27 株式会社アイエスピー シリアルナンバー等文字列抽出サーバ、方法及びプログラム

Similar Documents

Publication Publication Date Title
JP4976608B2 (ja) 画像をイベントに自動的に分類する方法
CN102982330B (zh) 文字图像中字符识别方法和识别装置
JP4952625B2 (ja) 透視変換歪み発生文書画像補正装置および方法
JP3950777B2 (ja) 画像処理方法、画像処理装置および画像処理プログラム
TW201437925A (zh) 物體識別裝置、方法及電腦程式產品
WO2009114967A1 (zh) 基于移动扫描的图像处理方法及装置
CN114863492B (zh) 一种低质量指纹图像的修复方法及修复装置
JP2002288589A (ja) 画像処理方法、画像処理装置および画像処理方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
US8452095B2 (en) Image processing for post-processing rate of character rectangle extraction and character recognition accuracy
JP4391704B2 (ja) 多値画像から二値画像を生成する画像処理装置および方法
JP2000207489A (ja) 文字抽出方法、装置および記録媒体
JP2008011484A (ja) 文字図形列抽出装置,文字図形列抽出方法,その方法を実行するプログラム,そのプログラムを記録した記録媒体
US20050271260A1 (en) Device, method and program for removing pores
JP5171421B2 (ja) 画像処理装置、画像処理方法、コンピュータプログラム
JP2001043313A (ja) 文字切出し方法
JP2003208568A (ja) 画像処理装置、画像処理方法、及び同方法に用いるプログラム
JP2003115031A (ja) 画像処理装置および方法
CN114581467A (zh) 一种基于残差膨胀空间金字塔网络算法的图像分割方法
US20030123730A1 (en) Document recognition system and method using vertical line adjacency graphs
JP4587698B2 (ja) 文字成分抽出装置
JP2005250786A (ja) 画像認識方法
JP4471202B2 (ja) 画像処理装置、画像処理方法及び同方法に用いるプログラム
JP2004046528A (ja) 文書方向推定方法および文書方向推定プログラム
JP2004334461A (ja) 文字認識装置及び文字認識プログラム
JPH09305707A (ja) 画像抽出方式

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040927

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070517

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070522

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070720

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070907