JP4616522B2 - 文書認識装置、文書画像の領域識別方法、プログラム及び記憶媒体 - Google Patents
文書認識装置、文書画像の領域識別方法、プログラム及び記憶媒体 Download PDFInfo
- Publication number
- JP4616522B2 JP4616522B2 JP2001211476A JP2001211476A JP4616522B2 JP 4616522 B2 JP4616522 B2 JP 4616522B2 JP 2001211476 A JP2001211476 A JP 2001211476A JP 2001211476 A JP2001211476 A JP 2001211476A JP 4616522 B2 JP4616522 B2 JP 4616522B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- line
- area
- region
- identified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Image Analysis (AREA)
- Character Input (AREA)
- Facsimile Image Signal Circuits (AREA)
Description
【発明の属する技術分野】
本発明は、文書画像データ中に混在する文字領域と文字以外の領域とを識別分類する文書認識装置、文書画像の領域識別方法、プログラム及び記憶媒体に関する。
【0002】
【従来の技術】
従来、文書画像中の文字列や文字領域(コラム)の識別方法としては、各種の方式が知られている。
【0003】
例えば、特開平06-020092号公報には、文書画像中から空白部を抽出し、この空白部の繋がりからなる空白セパレータを領域分割線として扱って領域を分割することにより、文書画像中の文字列や文字領域(コラム)を抽出する方法が提案されている。
【0004】
また、黒画素の射影ヒストグラムを利用し、黒画素の分布の高い部分を文字列の範囲とする方法も知られている(秋山、増田「周辺分布、線密度、外接矩形特徴を併用した文書画像の領域識別」電子通信学会論文誌 86/8 Vol J69−D))。
【0005】
【発明が解決しようとする課題】
ところで、従来の文書画像中の文字列や文字領域(コラム)を抽出する方法によれば、領域識別処理の後に行われる文字認識のための行切り出し処理において、文字領域には印鑑や図領域などは混在していないものとして処理を行っている。
【0006】
しかしながら、現実には、印鑑や図など文字以外の領域が、領域分割の結果として文字と判定された領域に入り込むことがある。このような場合には、従来の方法では、文書画像中の文字列や文字領域(コラム)から文字行を切り出す行切りだし処理を行うことができず、文字抽出精度が低下するという問題があった。
【0007】
本発明の目的は、文字抽出精度を向上させることである。
【0008】
【課題を解決するための手段】
本発明は、文書画像データ中に混在する文字領域と文字以外の領域とを識別分類する文書認識装置において、文字領域属性と識別された領域内に含まれる黒画素の連結成分に外接する矩形を前記文書画像データより抽出する外接矩形抽出手段と、前記外接矩形抽出手段により抽出された前記矩形の座標の最小値を1画素ライン毎に求め、求めた前記矩形の座標の最小値が、前記文字領域属性と識別された領域の始点に連続して寄っているところを文字行として判定し、前記文字領域属性と識別された領域の終点に連続して寄っているところを行間として判定し、「行−行間−行」の組み合わせが検出された場合に、前記文字領域属性と識別された領域内に、前記文字以外の領域が存在すると判定する非文字領域判定手段とを備える。
また、本発明は、文書画像データ中に混在する文字領域と文字以外の領域とを識別分類する文書認識装置において、文字領域属性と識別された領域内に含まれる黒画素の連結成分に外接する矩形を前記文書画像データより抽出する外接矩形抽出手段と、前記外接矩形抽出手段により抽出された前記矩形の座標の最大値を1画素ライン毎に求め、求めた前記矩形の座標の最大値が、前記文字領域属性と識別された領域の終点に連続して寄っているところを文字行として判定し、前記文字領域属性と識別された領域の始点に連続して寄っているところを行間として判定し、「行−行間−行」の組み合わせが検出された場合に、前記文字領域属性と識別された領域内に、前記文字以外の領域が存在すると判定する非文字領域判定手段とを備える。
また、本発明において、前記外接矩形抽出手段は、入力画像のオリジナル画像から、前記矩形の抽出を行う。
また、本発明において、前記文字領域属性と識別された領域を、前記行間部分で再分割する再分割手段を備える。
【0009】
したがって、文字領域属性と識別された領域内に文字以外の領域が存在するか否かが判定され、文字領域属性と識別された領域内に文字以外の領域が存在すると判定された場合、当該文字領域属性と識別された領域が再分割される。これにより、印鑑や図など文字以外の領域が領域分割の結果として文字と判定された領域に入り込んだ場合であっても、当該文字領域属性と識別された領域を再度分割することで文字以外の領域を排除することが可能になるので、文字抽出精度を向上させることが可能になる。
【0011】
また、文字領域属性と識別された領域内に文字以外の領域が存在するか否かの判定が容易になる。
【0013】
また、再分割が容易になる。
【0014】
また、本発明は、前記再分割手段により再分割された前記文字領域属性と識別された領域において、前記行間と判定された領域に存在する前記矩形に実線が存在するか否かにより、前記文字以外の領域が存在するか否かを判定する。
【0015】
したがって、行間と判定された領域には文字は存在しないことから、文字以外の領域が存在するか否かの判定が容易になる。
【0018】
また、本発明は、文書画像データ中に混在する文字領域と文字以外の領域とを識別分類する文書画像の領域識別方法であって、文字領域属性と識別された領域内に含まれる黒画素の連結成分に外接する矩形を前記文書画像データより抽出する外接矩形抽出工程と、前記外接矩形抽出工程により抽出された前記矩形の座標の最小値を1画素ライン毎に求め、求めた前記矩形の座標の最小値が、前記文字領域属性と識別された領域の始点に連続して寄っているところを文字行として判定し、前記文字領域属性と識別された領域の終点に連続して寄っているところを行間として判定し、「行−行間−行」の組み合わせが検出された場合に、前記文字領域属性と識別された領域内に、前記文字以外の領域が存在すると判定する非文字領域判定工程とを含む。
また、本発明は、文書画像データ中に混在する文字領域と文字以外の領域とを識別分類する文書画像の領域識別方法であって、文字領域属性と識別された領域内に含まれる黒画素の連結成分に外接する矩形を前記文書画像データより抽出する外接矩形抽出工程と、前記外接矩形抽出工程により抽出された前記矩形の座標の最大値を1画素ライン毎に求め、求めた前記矩形の座標の最大値が、前記文字領域属性と識別された領域の終点に連続して寄っているところを文字行として判定し、前記文字領域属性と識別された領域の始点に連続して寄っているところを行間として判定し、「行−行間−行」の組み合わせが検出された場合に、前記文字領域属性と識別された領域内に、前記文字以外の領域が存在すると判定する非文字領域判定工程とを含む。
また、本発明において、前記外接矩形抽出工程は、入力画像のオリジナル画像から、前記矩形の抽出を行う。
また、本発明において、前記文字領域属性と識別された領域を、前記行間部分で再分割する再分割工程を備える。
【0019】
したがって、文字領域属性と識別された領域内に文字以外の領域が存在するか否かが判定され、文字領域属性と識別された領域内に文字以外の領域が存在すると判定された場合、当該文字領域属性と識別された領域が再分割される。これにより、印鑑や図など文字以外の領域が領域分割の結果として文字と判定された領域に入り込んだ場合であっても、当該文字領域属性と識別された領域を再度分割することで文字以外の領域を排除することが可能になるので、文字抽出精度を向上させることが可能になる。
【0021】
また、文字領域属性と識別された領域内に文字以外の領域が存在するか否かの判定が容易になる。
【0023】
また、再分割が容易になる。
【0024】
また、本発明は、前記再分割工程により再分割された前記文字領域属性と識別された領域において、前記行間と判定された領域に存在する前記矩形に実線が存在するか否かにより、前記文字以外の領域が存在するか否かを判定する。
【0025】
したがって、行間と判定された領域には文字は存在しないことから、文字以外の領域が存在するか否かの判定が容易になる。
【0028】
また、本発明は、文書画像データ中に混在する文字領域と文字以外の領域との識別分類をコンピュータに実行させるためのプログラムであって、前記コンピュータに、文字領域属性と識別された領域内に含まれる黒画素の連結成分に外接する矩形を前記文書画像データより抽出する外接矩形抽出機能と、前記外接矩形抽出機能により抽出された前記矩形の座標の最小値を1画素ライン毎に求め、求めた前記矩形の座標の最小値が、前記文字領域属性と識別された領域の始点に連続して寄っているところを文字行として判定し、前記文字領域属性と識別された領域の終点に連続して寄っているところを行間として判定し、「行−行間−行」の組み合わせが検出された場合に、前記文字領域属性と識別された領域内に、前記文字以外の領域が存在すると判定する非文字領域判定機能とを実行させる。
また、本発明は、文書画像データ中に混在する文字領域と文字以外の領域との識別分類をコンピュータに実行させるためのプログラムであって、前記コンピュータに、文字領域属性と識別された領域内に含まれる黒画素の連結成分に外接する矩形を前記文書画像データより抽出する外接矩形抽出機能と、前記外接矩形抽出機能により抽出された前記矩形の座標の最大値を1画素ライン毎に求め、求めた前記矩形の座標の最大値が、前記文字領域属性と識別された領域の終点に連続して寄っているところを文字行として判定し、前記文字領域属性と識別された領域の始点に連続して寄っているところを行間として判定し、「行−行間−行」の組み合わせが検出された場合に、前記文字領域属性と識別された領域内に、前記文字以外の領域が存在すると判定する非文字領域判定機能とを実行させる。
また、本発明において、前記外接矩形抽出機能は、入力画像のオリジナル画像から、前記矩形の抽出を行う。
また、本発明において、前記文字領域属性と識別された領域を、前記行間部分で再分割する再分割機能を備える。
【0029】
したがって、文字領域属性と識別された領域内に文字以外の領域が存在するか否かが判定され、文字領域属性と識別された領域内に文字以外の領域が存在すると判定された場合、当該文字領域属性と識別された領域が再分割される。これにより、印鑑や図など文字以外の領域が領域分割の結果として文字と判定された領域に入り込んだ場合であっても、当該文字領域属性と識別された領域を再度分割することで文字以外の領域を排除することが可能になるので、文字抽出精度を向上させることが可能になる。
【0031】
また、文字領域属性と識別された領域内に文字以外の領域が存在するか否かの判定が容易になる。
【0033】
また、再分割が容易になる。
【0034】
また、本発明において、前記再分割機能により再分割された前記文字領域属性と識別された領域において、前記行間と判定された領域に存在する前記矩形に実線が存在するか否かにより、前記文字以外の領域が存在するか否かを判定する。
【0035】
したがって、行間と判定された領域には文字は存在しないことから、文字以外の領域が存在するか否かの判定が容易になる。
【0038】
また、本発明のコンピュータに読み取り可能な記憶媒体は、請求項11ないし15のいずれか一記載のプログラムを記憶している。
【0039】
したがって、この記憶媒体をコンピュータにインストールすることにより、請求項11ないし15のいずれか一記載のプログラムと同様の作用を得ることが可能になる。
【0040】
【発明の実施の形態】
本発明の実施の一形態を図1ないし図6に基づいて説明する。
【0041】
図1は、文書認識装置1のハードウェア構成を概略的に示すブロック図である。図1に示すように、文書認識装置1は、この文書認識装置1の各部を集中的に制御するCPU(Central Processing Unit)2を備えており、このCPU2には、BIOSなどを記憶した読出し専用メモリであるROM(Read Only Memory)3と、各種データを書換え可能に記憶するRAM(Random Access Memory)4とがバス5で接続されている。さらにバス5には、外部記憶となるHDD(Hard Disk Drive)6と、CD(Compact Disc)−ROM7を読み取るCD−ROMドライブ8と、文書認識装置1とネットワーク9との通信を司る通信制御装置10と、入力部として機能するキーボードやマウスなどの入力装置11と、CRT(Cathode Ray Tube)、LCD(Liquid Crystal Display)などの出力装置12と、画像入力部として機能するスキャナなどの画像入力装置13とが、図示しないI/Oを介して接続されている。
【0042】
RAM4は、各種データを書換え可能に記憶する性質を有していることから、CPU2の作業エリアとして機能する。
【0043】
また、HDD6には、各種のプログラムを格納するプログラムファイルが格納されている。
【0044】
図1に示すCD−ROM7は、この発明の記憶媒体を実施するものであり、所定のプログラムが記憶されている。CPU2は、CD−ROM7に記憶されているプログラムをCD−ROMドライブ8で読み取り、HDD6にインストールする。これにより、文書認識装置1は、後述するような各種の処理を行なうことが可能な状態となる。
【0045】
なお、記憶媒体としては、CD−ROM7のみならず、DVDなどの各種の光ディスク、各種光磁気ディスク、フロッピーディスクなどの各種磁気ディスク等、半導体メモリ等の各種方式のメディアを用いることができる。また、通信制御装置10を介してインターネットなどのネットワーク9からプログラムをダウンロードし、HDD6にインストールするようにしてもよい。この場合に、送信側のサーバでプログラムを記憶している記憶装置も、この発明の記憶媒体である。なお、プログラムは、所定のOS(Operating System)上で動作するものであってもよいし、その場合に後述の各種処理の一部の実行をOSに肩代わりさせるものであってもよいし、ワープロソフトなど所定のアプリケーションソフトやOSなどを構成する一群のプログラムファイルの一部として含まれているものであってもよい。
【0046】
次に、文書認識装置1のCPU2がプログラムに基づいて制御されることにより実現される各種機能について説明する。図2は、文書認識装置1の機能ブロック図である。
【0047】
領域識別部14は、例えば画像入力装置13から入力されてメモリ(RAM4等)に記憶された文書画像を領域識別し、文字領域、表領域、図領域、写真領域などに分類する。なお、文書の領域属性は、黒ランの密度を用いて判断する等の手法により求めることが可能であるが、この手法は従来より公知であるため、その説明は省略する。
【0048】
図領域抽出部15は、領域識別部14において文字領域として分類された領域内に、実線(印鑑や図等)が混入しているか否かを判定する。実線(印鑑や図等)が混入しているか否かの判定手法は従来より公知であるため、その説明は省略する。
【0049】
領域分割部16は、図領域抽出部15において文字領域として分類された領域内に実線(印鑑や図等)が混入していると判断された場合、対象文字領域を再分割し、文字認識部17に渡す。
【0050】
文字認識部17は、行切り出し処理及び文字切り出し処理によって1文字の文字を切り出すとともに、切り出した文字に対する文字認識処理のマッチング処理により、文字候補を選択する。
【0051】
なお、図領域抽出部15において文字領域として分類された領域内に実線(印鑑や図等)が混入していないと判断された場合は、図領域抽出部15において文字領域として分類された領域はそのまま文字認識部17に渡される。
【0052】
ここで、本実施の形態の特長的な機能を発揮する図領域抽出部15及び領域分割部16における処理の流れについて図3を参照しつつ詳細に説明する。まず、ステップS1においては、領域識別部14において文字領域として分類された領域について、領域座標データ(入力画像を1/4に圧縮した1/4圧縮画像で抽出された始点、終点のX,Y座標)を用いて該当領域が縦長領域であるか否かを判断し、該当領域が縦長領域である場合には、該当領域を排除する(以降の処理を行わない)。
【0053】
加えて、ステップS2においては、該当領域の行方向が「縦」であるか否かを判断し、該当領域の行方向が「縦」である場合には、該当領域を排除する(以降の処理を行わない)。
【0054】
次いで、ステップS3において、候補領域の検出を行う。より詳細には、まず、上記の処理で検出された文字領域のオリジナル画像に対して矩形抽出処理を行い、矩形座標データを得る。ここに、外接矩形抽出手段の機能が実行される。ここで、1/4圧縮画像を用いないのは、圧縮画像を用いると矩形同士が接触して大きな矩形となってしまうからである。この後の処理で矩形座標情報から強制分割位置を推定するため、矩形同士が接触して大きな矩形となってしまった場合には、推定精度があがらないという問題が発生するためである。そして、このような矩形抽出処理の結果求まった文字領域内の矩形がすべて黒画素であると仮定し、各ラインごと(Y座標ごと)に文字領域内で最も小さいX座標(図4に示す太実線:minXs(y))と、最も大きいX座標(図4に示す太破線:maxXe(y))とを求める。
【0055】
minXs(y)とmaxXe(y)とのyの値は、該当領域座標の始点(area.Ys)から終点(area.Ye)の値を取るが、ここで上記の範囲を0〜99の100個のデータに正規化する。
minXs(y),maxXs(y) →(正規化)→ minXs(Y),maxXe(Y)
但しY=(y−area.Ys)/(area.Ye−area.Ys)×100
以上により、領域内矩形のX座標の最大値、最小値が各画素行ごとに求められる。
【0056】
次いで、この領域内矩形のX座標の最大値、最小値の値から、複数行が接触しているか否かを判断する。複数行の左側が接触している例(図4(a)参照)では、X座標の最小値に注目し、最小値が領域の始点Xsに連続して寄っているところを行とする。また、行間は、X座標の最小値が領域の終点Xeに近くなることから、連続してXeに寄っているところを行間とする。そして、「行−行間−行」の組み合わせが検出された領域を複数行が接触している(つまり、印鑑や図等が混入している)と判定し、図5に示すように、行間の中心で領域を強制分割する。なお、複数行の右側が接触している例(図4(b)参照)では、X座標の最大値に注目し同様の処理を行うことになる。これにより、文字領域が再分割され、候補領域の検出処理(ステップS3)が終了する。ここに、非文字領域判定手段の機能及び再分割手段の機能が実行される。
【0057】
最後に、ステップS4に進み、最終判定処理を実行する。最終判定は、再分割された文字領域内に実線(印鑑や図等)が混入しているか否かを判定するものであって、行間と判定された領域に存在する矩形に実線(印鑑や図等)が存在するか否かを判定し、矩形に実線(印鑑や図等)が存在する場合にはその矩形を図領域とするものである。
【0058】
なお、上記では座標の凹凸情報から行を横に分割する例を説明したが、凹凸情報を用いて、図6に示すように凸部で図や写真と思われる図領域部分を縦方向に分割するようにしても良い。
【0059】
また、これらの分割の後、文字認識を行った結果の確からしさを示す指標(確信度)を算出し、確信度が低い(確からしさが低い)部分は、図領域とすることで、より分割精度を向上させることも可能である。
【0060】
なお、本実施の形態においては、行方向横向きである横書き文書に関して説明をしたが、これに限るものではなく、行方向縦向きである縦書き文書に適用することも可能である。
【0061】
ここに、文字領域属性と識別された領域内に文字以外の領域が存在するか否かが判定され、文字領域属性と識別された領域内に文字以外の領域が存在すると判定された場合、当該文字領域属性と識別された領域が再分割される。これにより、印鑑や図など文字以外の領域が領域分割の結果として文字と判定された領域に入り込んだ場合であっても、当該文字領域属性と識別された領域を再度分割することで文字以外の領域を排除することが可能になるので、文字抽出精度を向上させることが可能になる。
【0062】
【発明の効果】
本発明によれば、文書画像データ中に混在する文字領域と文字以外の領域とを識別分類する文書認識装置において、文字領域属性と識別された領域内に含まれる黒画素の連結成分に外接する矩形を前記文書画像データより抽出する外接矩形抽出手段と、前記外接矩形抽出手段により抽出された前記矩形の座標の最小値を1画素ライン毎に求め、求めた前記矩形の座標の最小値が、前記文字領域属性と識別された領域の始点に連続して寄っているところを文字行として判定し、前記文字領域属性と識別された領域の終点に連続して寄っているところを行間として判定し、「行−行間−行」の組み合わせが検出された場合に、前記文字領域属性と識別された領域内に、前記文字以外の領域が存在すると判定する非文字領域判定手段とを備える。また、本発明によれば、文書画像データ中に混在する文字領域と文字以外の領域とを識別分類する文書認識装置において、文字領域属性と識別された領域内に含まれる黒画素の連結成分に外接する矩形を前記文書画像データより抽出する外接矩形抽出手段と、前記外接矩形抽出手段により抽出された前記矩形の座標の最大値を1画素ライン毎に求め、求めた前記矩形の座標の最大値が、前記文字領域属性と識別された領域の終点に連続して寄っているところを文字行として判定し、前記文字領域属性と識別された領域の始点に連続して寄っているところを行間として判定し、「行−行間−行」の組み合わせが検出された場合に、前記文字領域属性と識別された領域内に、前記文字以外の領域が存在すると判定する非文字領域判定手段とを備える。また、前記外接矩形抽出手段は、入力画像のオリジナル画像から、前記矩形の抽出を行う。また、前記文字領域属性と識別された領域を、前記行間部分で再分割する再分割手段を備える。これにより、文字領域属性と識別された領域内に文字以外の領域が存在するか否かを判定し、文字領域属性と識別された領域内に文字以外の領域が存在すると判定した場合、当該文字領域属性と識別された領域を再分割することにより、印鑑や図など文字以外の領域が領域分割の結果として文字と判定された領域に入り込んだ場合であっても、当該文字領域属性と識別された領域を再度分割することで文字以外の領域を排除することができるので、文字抽出精度を向上させることができる。
【0063】
また、本発明によれば、文字領域属性と識別された領域内に文字以外の領域が存在するか否かの判定を容易に行うことができる。
【0064】
また、本発明によれば、再分割を容易に行うことができる。
【0065】
また、本発明によれば、前記再分割手段により再分割された前記文字領域属性と識別された領域において、前記行間と判定された領域に存在する前記矩形に実線が存在するか否かにより、前記文字以外の領域が存在するか否かを判定することにより、行間と判定された領域には文字は存在しないことから、文字以外の領域が存在するか否かの判定を容易に行うことができる。
【0067】
また、本発明によれば、文書画像データ中に混在する文字領域と文字以外の領域とを識別分類する文書画像の領域識別方法であって、文字領域属性と識別された領域内に含まれる黒画素の連結成分に外接する矩形を前記文書画像データより抽出する外接矩形抽出工程と、前記外接矩形抽出工程により抽出された前記矩形の座標の最小値を1画素ライン毎に求め、求めた前記矩形の座標の最小値が、前記文字領域属性と識別された領域の始点に連続して寄っているところを文字行として判定し、前記文字領域属性と識別された領域の終点に連続して寄っているところを行間として判定し、「行−行間−行」の組み合わせが検出された場合に、前記文字領域属性と識別された領域内に、前記文字以外の領域が存在すると判定する非文字領域判定工程とを含む。また、本発明によれば、文書画像データ中に混在する文字領域と文字以外の領域とを識別分類する文書画像の領域識別方法であって、文字領域属性と識別された領域内に含まれる黒画素の連結成分に外接する矩形を前記文書画像データより抽出する外接矩形抽出工程と、前記外接矩形抽出工程により抽出された前記矩形の座標の最大値を1画素ライン毎に求め、求めた前記矩形の座標の最大値が、前記文字領域属性と識別された領域の終点に連続して寄っているところを文字行として判定し、前記文字領域属性と識別された領域の始点に連続して寄っているところを行間として判定し、「行−行間−行」の組み合わせが検出された場合に、前記文字領域属性と識別された領域内に、前記文字以外の領域が存在すると判定する非文字領域判定工程とを含む。また、前記外接矩形抽出工程は、入力画像のオリジナル画像から、前記矩形の抽出を行う。また、前記文字領域属性と識別された領域を、前記行間部分で再分割する再分割工程を備える。これにより、文字領域属性と識別された領域内に文字以外の領域が存在するか否かを判定し、文字領域属性と識別された領域内に文字以外の領域が存在すると判定した場合、当該文字領域属性と識別された領域を再分割することにより、印鑑や図など文字以外の領域が領域分割の結果として文字と判定された領域に入り込んだ場合であっても、当該文字領域属性と識別された領域を再度分割することで文字以外の領域を排除することができるので、文字抽出精度を向上させることができる。
【0068】
また、本発明によれば、文字領域属性と識別された領域内に文字以外の領域が存在するか否かの判定を容易に行うことができる。
【0069】
また、本発明によれば、再分割を容易に行うことができる。
【0070】
また、本発明によれば、前記再分割工程により再分割された前記文字領域属性と識別された領域において、前記行間と判定された領域に存在する前記矩形に実線が存在するか否かにより、前記文字以外の領域が存在するか否かを判定することにより、行間と判定された領域には文字は存在しないことから、文字以外の領域が存在するか否かの判定を容易に行うことができる。
【0072】
また、本発明によれば、文書画像データ中に混在する文字領域と文字以外の領域との識別分類をコンピュータに実行させるためのプログラムであって、前記コンピュータに、文字領域属性と識別された領域内に含まれる黒画素の連結成分に外接する矩形を前記文書画像データより抽出する外接矩形抽出機能と、前記外接矩形抽出機能により抽出された前記矩形の座標の最小値を1画素ライン毎に求め、求めた前記矩形の座標の最小値が、前記文字領域属性と識別された領域の始点に連続して寄っているところを文字行として判定し、前記文字領域属性と識別された領域の終点に連続して寄っているところを行間として判定し、「行−行間−行」の組み合わせが検出された場合に、前記文字領域属性と識別された領域内に、前記文字以外の領域が存在すると判定する非文字領域判定機能とを実行させる。また、本発明によれば、文書画像データ中に混在する文字領域と文字以外の領域との識別分類をコンピュータに実行させるためのプログラムであって、前記コンピュータに、文字領域属性と識別された領域内に含まれる黒画素の連結成分に外接する矩形を前記文書画像データより抽出する外接矩形抽出機能と、前記外接矩形抽出機能により抽出された前記矩形の座標の最大値を1画素ライン毎に求め、求めた前記矩形の座標の最大値が、前記文字領域属性と識別された領域の終点に連続して寄っているところを文字行として判定し、前記文字領域属性と識別された領域の始点に連続して寄っているところを行間として判定し、「行−行間−行」の組み合わせが検出された場合に、前記文字領域属性と識別された領域内に、前記文字以外の領域が存在すると判定する非文字領域判定機能とを実行させる。また、前記外接矩形抽出機能は、入力画像のオリジナル画像から、前記矩形の抽出を行う。また、前記文字領域属性と識別された領域を、前記行間部分で再分割する再分割機能を備える。これにより、文字領域属性と識別された領域内に文字以外の領域が存在するか否かを判定し、文字領域属性と識別された領域内に文字以外の領域が存在すると判定した場合、当該文字領域属性と識別された領域を再分割することにより、印鑑や図など文字以外の領域が領域分割の結果として文字と判定された領域に入り込んだ場合であっても、当該文字領域属性と識別された領域を再度分割することで文字以外の領域を排除することができるので、文字抽出精度を向上させることができる。
【0073】
また、本発明によれば、文字領域属性と識別された領域内に文字以外の領域が存在するか否かの判定を容易に行うことができる。
【0074】
また、本発明によれば、再分割を容易に行うことができる。
【0075】
また、本発明によれば、前記再分割機能により再分割された前記文字領域属性と識別された領域において、前記行間と判定された領域に存在する前記矩形に実線が存在するか否かにより、前記文字以外の領域が存在するか否かを判定することにより、行間と判定された領域には文字は存在しないことから、文字以外の領域が存在するか否かの判定を容易に行うことができる。
【0077】
また、本発明のコンピュータに読み取り可能な記憶媒体によれば、上述したプログラムを記憶したことにより、この記憶媒体をコンピュータにインストールすることで、上述したプログラムと同様の作用・効果を得ることができる。
【図面の簡単な説明】
【図1】本発明の実施の一形態の文書認識装置のハードウェア構成を概略的に示すブロック図である。
【図2】文書認識装置の機能ブロック図である。
【図3】図領域抽出部及び領域分割部における処理の流れを示すフローチャートである。
【図4】領域内矩形抽出結果に基づいて領域内矩形のX座標の最大値、最小値を求めた例を示す説明図である。
【図5】強制分割位置の一例を示す説明図である。
【図6】強制分割位置の他の一例を示す説明図である。
【符号の説明】
1 文書認識装置
7 記憶媒体
Claims (16)
- 文書画像データ中に混在する文字領域と文字以外の領域とを識別分類する文書認識装置において、
文字領域属性と識別された領域内に含まれる黒画素の連結成分に外接する矩形を前記文書画像データより抽出する外接矩形抽出手段と、
前記外接矩形抽出手段により抽出された前記矩形の座標の最小値を1画素ライン毎に求め、求めた前記矩形の座標の最小値が、前記文字領域属性と識別された領域の始点に連続して寄っているところを文字行として判定し、前記文字領域属性と識別された領域の終点に連続して寄っているところを行間として判定し、「行−行間−行」の組み合わせが検出された場合に、前記文字領域属性と識別された領域内に、前記文字以外の領域が存在すると判定する非文字領域判定手段とを備えることを特徴とする文書認識装置。 - 文書画像データ中に混在する文字領域と文字以外の領域とを識別分類する文書認識装置において、
文字領域属性と識別された領域内に含まれる黒画素の連結成分に外接する矩形を前記文書画像データより抽出する外接矩形抽出手段と、
前記外接矩形抽出手段により抽出された前記矩形の座標の最大値を1画素ライン毎に求め、求めた前記矩形の座標の最大値が、前記文字領域属性と識別された領域の終点に連続して寄っているところを文字行として判定し、前記文字領域属性と識別された領域の始点に連続して寄っているところを行間として判定し、「行−行間−行」の組み合わせが検出された場合に、前記文字領域属性と識別された領域内に、前記文字以外の領域が存在すると判定する非文字領域判定手段とを備えることを特徴とする文書認識装置。 - 前記外接矩形抽出手段は、入力画像のオリジナル画像から、前記矩形の抽出を行うことを特徴とする請求項1又は2記載の文書認識装置。
- 前記文字領域属性と識別された領域を、前記行間部分で再分割する再分割手段を備えることを特徴とする請求項1ないし3のいずれか一記載の文書認識装置。
- 前記再分割手段により再分割された前記文字領域属性と識別された領域において、前記行間と判定された領域に存在する前記矩形に実線が存在するか否かにより、前記文字以外の領域が存在するか否かを判定することを特徴とする請求項4記載の文書認識装置。
- 文書画像データ中に混在する文字領域と文字以外の領域とを識別分類する文書画像の領域識別方法であって、
文字領域属性と識別された領域内に含まれる黒画素の連結成分に外接する矩形を前記文書画像データより抽出する外接矩形抽出工程と、
前記外接矩形抽出工程により抽出された前記矩形の座標の最小値を1画素ライン毎に求め、求めた前記矩形の座標の最小値が、前記文字領域属性と識別された領域の始点に連続して寄っているところを文字行として判定し、前記文字領域属性と識別された領域の終点に連続して寄っているところを行間として判定し、「行−行間−行」の組み合わせが検出された場合に、前記文字領域属性と識別された領域内に、前記文字以外の領域が存在すると判定する非文字領域判定工程とを含むことを特徴とする文書画像の領域識別方法。 - 文書画像データ中に混在する文字領域と文字以外の領域とを識別分類する文書画像の領域識別方法であって、
文字領域属性と識別された領域内に含まれる黒画素の連結成分に外接する矩形を前記文書画像データより抽出する外接矩形抽出工程と、
前記外接矩形抽出工程により抽出された前記矩形の座標の最大値を1画素ライン毎に求め、求めた前記矩形の座標の最大値が、前記文字領域属性と識別された領域の終点に連続して寄っているところを文字行として判定し、前記文字領域属性と識別された領域の始点に連続して寄っているところを行間として判定し、「行−行間−行」の組み合わせが検出された場合に、前記文字領域属性と識別された領域内に、前記文字以外の領域が存在すると判定する非文字領域判定工程とを含むことを特徴とする文書画像の領域識別方法。 - 前記外接矩形抽出工程は、入力画像のオリジナル画像から、前記矩形の抽出を行うことを特徴とする請求項6又は7記載の文書画像の領域識別方法。
- 前記文字領域属性と識別された領域を、前記行間部分で再分割する再分割工程を備えることを特徴とする請求項6ないし8のいずれか一記載の文書画像の領域識別方法。
- 前記再分割工程により再分割された前記文字領域属性と識別された領域において、前記行間と判定された領域に存在する前記矩形に実線が存在するか否かにより、前記文字以外の領域が存在するか否かを判定することを特徴とする請求項9記載の文書画像の領域識別方法。
- 文書画像データ中に混在する文字領域と文字以外の領域との識別分類をコンピュータに実行させるためのプログラムであって、
前記コンピュータに、
文字領域属性と識別された領域内に含まれる黒画素の連結成分に外接する矩形を前記文書画像データより抽出する外接矩形抽出機能と、
前記外接矩形抽出機能により抽出された前記矩形の座標の最小値を1画素ライン毎に求め、求めた前記矩形の座標の最小値が、前記文字領域属性と識別された領域の始点に連続して寄っているところを文字行として判定し、前記文字領域属性と識別された領域の終点に連続して寄っているところを行間として判定し、「行−行間−行」の組み合わせが検出された場合に、前記文字領域属性と識別された領域内に、前記文字以外の領域が存在すると判定する非文字領域判定機能とを実行させることを特徴とするプログラム。 - 文書画像データ中に混在する文字領域と文字以外の領域との識別分類をコンピュータに実行させるためのプログラムであって、
前記コンピュータに、
文字領域属性と識別された領域内に含まれる黒画素の連結成分に外接する矩形を前記文書画像データより抽出する外接矩形抽出機能と、
前記外接矩形抽出機能により抽出された前記矩形の座標の最大値を1画素ライン毎に求め、求めた前記矩形の座標の最大値が、前記文字領域属性と識別された領域の終点に連続して寄っているところを文字行として判定し、前記文字領域属性と識別された領域の始点に連続して寄っているところを行間として判定し、「行−行間−行」の組み合わせが検出された場合に、前記文字領域属性と識別された領域内に、前記文字以外の領域が存在すると判定する非文字領域判定機能とを実行させることを特徴とするプログラム。 - 前記外接矩形抽出機能は、入力画像のオリジナル画像から、前記矩形の抽出を行うことを特徴とする請求項11又は12記載のプログラム。
- 前記文字領域属性と識別された領域を、前記行間部分で再分割する再分割機能を備えることを特徴とする請求項11ないし13のいずれか一記載のプログラム。
- 前記再分割機能により再分割された前記文字領域属性と識別された領域において、前記行間と判定された領域に存在する前記矩形に実線が存在するか否かにより、前記文字以外の領域が存在するか否かを判定することを特徴とする請求項14記載のプログラム。
- 請求項11ないし15のいずれか一記載のプログラムを記憶したことを特徴とするコンピュータに読み取り可能な記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001211476A JP4616522B2 (ja) | 2001-07-12 | 2001-07-12 | 文書認識装置、文書画像の領域識別方法、プログラム及び記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001211476A JP4616522B2 (ja) | 2001-07-12 | 2001-07-12 | 文書認識装置、文書画像の領域識別方法、プログラム及び記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003030584A JP2003030584A (ja) | 2003-01-31 |
JP4616522B2 true JP4616522B2 (ja) | 2011-01-19 |
Family
ID=19046783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001211476A Expired - Fee Related JP4616522B2 (ja) | 2001-07-12 | 2001-07-12 | 文書認識装置、文書画像の領域識別方法、プログラム及び記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4616522B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4856925B2 (ja) * | 2005-10-07 | 2012-01-18 | 株式会社リコー | 画像処理装置、画像処理方法及び画像処理プログラム |
JP4135752B2 (ja) | 2006-06-12 | 2008-08-20 | コニカミノルタビジネステクノロジーズ株式会社 | 画像処理装置、画像処理方法及び画像処理プログラム |
CN117495950B (zh) * | 2023-12-29 | 2024-03-26 | 山东五思信息科技有限公司 | 一种基于密度聚类的试卷密封线定位方法及*** |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58201182A (ja) * | 1982-05-20 | 1983-11-22 | Nippon Telegr & Teleph Corp <Ntt> | 文字・図形切り分け方法 |
JPH04270483A (ja) * | 1990-11-16 | 1992-09-25 | Seiko Epson Corp | 文字情報検出装置 |
JPH04303278A (ja) * | 1990-12-29 | 1992-10-27 | Gold Star Co Ltd | 圧縮映像の文字列分離方式 |
JPH06150055A (ja) * | 1992-11-06 | 1994-05-31 | Matsushita Electric Ind Co Ltd | 文字認識装置 |
JPH08115380A (ja) * | 1994-10-18 | 1996-05-07 | Canon Inc | 画像処理装置及び方法 |
JP2001134712A (ja) * | 1999-11-02 | 2001-05-18 | Canon Inc | 画像処理装置及び画像処理方法 |
-
2001
- 2001-07-12 JP JP2001211476A patent/JP4616522B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58201182A (ja) * | 1982-05-20 | 1983-11-22 | Nippon Telegr & Teleph Corp <Ntt> | 文字・図形切り分け方法 |
JPH04270483A (ja) * | 1990-11-16 | 1992-09-25 | Seiko Epson Corp | 文字情報検出装置 |
JPH04303278A (ja) * | 1990-12-29 | 1992-10-27 | Gold Star Co Ltd | 圧縮映像の文字列分離方式 |
JPH06150055A (ja) * | 1992-11-06 | 1994-05-31 | Matsushita Electric Ind Co Ltd | 文字認識装置 |
JPH08115380A (ja) * | 1994-10-18 | 1996-05-07 | Canon Inc | 画像処理装置及び方法 |
JP2001134712A (ja) * | 1999-11-02 | 2001-05-18 | Canon Inc | 画像処理装置及び画像処理方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2003030584A (ja) | 2003-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10803338B2 (en) | Method and device for recognizing the character area in a image | |
WO2018103608A1 (zh) | 一种文字检测方法、装置及存储介质 | |
US10748023B2 (en) | Region-of-interest detection apparatus, region-of-interest detection method, and recording medium | |
JP3995185B2 (ja) | 枠認識装置及び記録媒体 | |
JP2000207489A (ja) | 文字抽出方法、装置および記録媒体 | |
KR102285269B1 (ko) | 빅데이터 기반 Geo AI를 활용한 이미지 분석 장치 및 방법 | |
JP4616522B2 (ja) | 文書認識装置、文書画像の領域識別方法、プログラム及び記憶媒体 | |
US9684844B1 (en) | Method and apparatus for normalizing character included in an image | |
JP3215163B2 (ja) | 罫線識別方法及び領域識別方法 | |
JPH10285399A (ja) | 画像の二値化方法 | |
JP4409713B2 (ja) | 文書画像認識装置及び記録媒体 | |
WO2023152809A1 (ja) | 画像処理装置、画像処理方法およびプログラム | |
JPH10232926A (ja) | 画像処理装置及びその方法 | |
JPH1153539A (ja) | 円形パターン判定方法および記録媒体 | |
CN112418218B (zh) | 目标区域检测方法、装置、设备及存储介质 | |
JPH0573718A (ja) | 領域属性識別方式 | |
JP3220226B2 (ja) | 文字列方向判別方法 | |
JP4738645B2 (ja) | 網掛け領域検出装置、網掛け領域検出方法、プログラムおよび記憶媒体 | |
JP3086277B2 (ja) | 文書画像処理装置 | |
JP2004094292A (ja) | 文字認識装置、文字認識方法及び該方法の実行に用いるプログラム | |
JP2023051732A (ja) | 方法、コンピュータ可読プログラムおよびシステム | |
CN117670868A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
JPH06215139A (ja) | 図形認識方法 | |
CN112801090A (zh) | 文字区域检测方法及装置 | |
JPH10254994A (ja) | サイズ識別方法および記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20041004 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20051021 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20080111 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080620 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100708 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100713 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100913 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101005 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101022 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4616522 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131029 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |