JP2003030584A - 文書認識装置、文書画像の領域識別方法、プログラム及び記憶媒体 - Google Patents

文書認識装置、文書画像の領域識別方法、プログラム及び記憶媒体

Info

Publication number
JP2003030584A
JP2003030584A JP2001211476A JP2001211476A JP2003030584A JP 2003030584 A JP2003030584 A JP 2003030584A JP 2001211476 A JP2001211476 A JP 2001211476A JP 2001211476 A JP2001211476 A JP 2001211476A JP 2003030584 A JP2003030584 A JP 2003030584A
Authority
JP
Japan
Prior art keywords
character
area
rectangle
region
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001211476A
Other languages
English (en)
Other versions
JP4616522B2 (ja
Inventor
Toshio Miyazawa
利夫 宮澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2001211476A priority Critical patent/JP4616522B2/ja
Publication of JP2003030584A publication Critical patent/JP2003030584A/ja
Application granted granted Critical
Publication of JP4616522B2 publication Critical patent/JP4616522B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)
  • Character Input (AREA)
  • Facsimile Image Signal Circuits (AREA)

Abstract

(57)【要約】 【課題】 文字抽出精度を向上させることである。 【解決手段】 文字領域属性と識別された領域内に文字
以外の領域が存在するか否かを判定し、文字領域属性と
識別された領域内に文字以外の領域が存在すると判定し
た場合、当該文字領域属性と識別された領域を再分割す
る。これにより、印鑑や図など文字以外の領域が領域分
割の結果として文字と判定された領域に入り込んだ場合
であっても、当該文字領域属性と識別された領域を再度
分割することで文字以外の領域を排除することができる
ので、文字抽出精度を向上させることができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書画像データ中
に混在する文字領域と文字以外の領域とを識別分類する
文書認識装置、文書画像の領域識別方法、プログラム及
び記憶媒体に関する。
【0002】
【従来の技術】従来、文書画像中の文字列や文字領域
(コラム)の識別方法としては、各種の方式が知られて
いる。
【0003】例えば、特開平06-020092号公報には、文
書画像中から空白部を抽出し、この空白部の繋がりから
なる空白セパレータを領域分割線として扱って領域を分
割することにより、文書画像中の文字列や文字領域(コ
ラム)を抽出する方法が提案されている。
【0004】また、黒画素の射影ヒストグラムを利用
し、黒画素の分布の高い部分を文字列の範囲とする方法
も知られている(秋山、増田「周辺分布、線密度、外接
矩形特徴を併用した文書画像の領域識別」電子通信学会
論文誌 86/8 Vol J69−D))。
【0005】
【発明が解決しようとする課題】ところで、従来の文書
画像中の文字列や文字領域(コラム)を抽出する方法に
よれば、領域識別処理の後に行われる文字認識のための
行切り出し処理において、文字領域には印鑑や図領域な
どは混在していないものとして処理を行っている。
【0006】しかしながら、現実には、印鑑や図など文
字以外の領域が、領域分割の結果として文字と判定され
た領域に入り込むことがある。このような場合には、従
来の方法では、文書画像中の文字列や文字領域(コラ
ム)から文字行を切り出す行切りだし処理を行うことが
できず、文字抽出精度が低下するという問題があった。
【0007】本発明の目的は、文字抽出精度を向上させ
ることである。
【0008】
【課題を解決するための手段】請求項1記載の発明の文
書認識装置は、文書画像データ中に混在する文字領域と
文字以外の領域とを識別分類する文書認識装置におい
て、文字領域属性と識別された領域内に含まれる黒画素
の連結成分に外接する矩形を前記文書画像データより抽
出する外接矩形抽出手段と、文字領域属性と識別された
領域内に文字以外の領域が存在するか否かを前記外接矩
形抽出手段により抽出された前記矩形に係る情報に基づ
き判定する非文字領域判定手段と、この非文字領域判定
手段により文字領域属性と識別された領域内に文字以外
の領域が存在すると判定された場合、当該文字領域属性
と識別された領域を再分割する再分割手段と、を備え
る。
【0009】したがって、文字領域属性と識別された領
域内に文字以外の領域が存在するか否かが判定され、文
字領域属性と識別された領域内に文字以外の領域が存在
すると判定された場合、当該文字領域属性と識別された
領域が再分割される。これにより、印鑑や図など文字以
外の領域が領域分割の結果として文字と判定された領域
に入り込んだ場合であっても、当該文字領域属性と識別
された領域を再度分割することで文字以外の領域を排除
することが可能になるので、文字抽出精度を向上させる
ことが可能になる。
【0010】請求項2記載の発明は、請求項1記載の文
書認識装置において、前記非文字領域判定手段における
前記矩形に係る情報は、前記矩形内部をすべて黒画素と
仮定し、1画素ライン毎の黒画素の座標の最大値及び最
小値である。
【0011】したがって、文字領域属性と識別された領
域内に文字以外の領域が存在するか否かの判定が容易に
なる。
【0012】請求項3記載の発明は、請求項2記載の文
書認識装置において、前記再分割手段は、1画素ライン
毎の黒画素の座標の最大値及び最小値に応じて文字行及
び行間を判定し、この行間部分で文字領域属性と識別さ
れた領域を再分割する。
【0013】したがって、再分割が容易になる。
【0014】請求項4記載の発明は、請求項3記載の文
書認識装置において、前記行間と判定された領域の前記
矩形に係る情報を用いて、文字以外の領域が存在するか
否かを判定する。
【0015】したがって、行間と判定された領域には文
字は存在しないことから、文字以外の領域が存在するか
否かの判定が容易になる。
【0016】請求項5記載の発明は、請求項1ないし4
のいずれか一記載の文書認識装置において、再分割後、
文字認識を行った結果の確からしさを示す指標(確信
度)を算出し、この確信度が低い部分は、文字以外の領
域とする。
【0017】したがって、より分割精度を向上させるこ
とが可能になる。
【0018】請求項6記載の発明の文書画像の領域識別
方法は、文書画像データ中に混在する文字領域と文字以
外の領域とを識別分類する文書画像の領域識別方法であ
って、文字領域属性と識別された領域内に含まれる黒画
素の連結成分に外接する矩形を前記文書画像データより
抽出する外接矩形抽出工程と、文字領域属性と識別され
た領域内に文字以外の領域が存在するか否かを前記外接
矩形抽出工程により抽出された前記矩形に係る情報に基
づき判定する非文字領域判定工程と、この非文字領域判
定工程により文字領域属性と識別された領域内に文字以
外の領域が存在すると判定された場合、当該文字領域属
性と識別された領域を再分割する再分割工程と、を含
む。
【0019】したがって、文字領域属性と識別された領
域内に文字以外の領域が存在するか否かが判定され、文
字領域属性と識別された領域内に文字以外の領域が存在
すると判定された場合、当該文字領域属性と識別された
領域が再分割される。これにより、印鑑や図など文字以
外の領域が領域分割の結果として文字と判定された領域
に入り込んだ場合であっても、当該文字領域属性と識別
された領域を再度分割することで文字以外の領域を排除
することが可能になるので、文字抽出精度を向上させる
ことが可能になる。
【0020】請求項7記載の発明は、請求項6記載の文
書画像の領域識別方法において、前記非文字領域判定工
程における前記矩形に係る情報は、前記矩形内部をすべ
て黒画素と仮定し、1画素ライン毎の黒画素の座標の最
大値及び最小値である。
【0021】したがって、文字領域属性と識別された領
域内に文字以外の領域が存在するか否かの判定が容易に
なる。
【0022】請求項8記載の発明は、請求項7記載の文
書画像の領域識別方法において、前記再分割工程は、1
画素ライン毎の黒画素の座標の最大値及び最小値に応じ
て文字行及び行間を判定し、この行間部分で文字領域属
性と識別された領域を再分割する。
【0023】したがって、再分割が容易になる。
【0024】請求項9記載の発明は、請求項8記載の文
書画像の領域識別方法において、前記行間と判定された
領域の前記矩形に係る情報を用いて、文字以外の領域が
存在するか否かを判定する。
【0025】したがって、行間と判定された領域には文
字は存在しないことから、文字以外の領域が存在するか
否かの判定が容易になる。
【0026】請求項10記載の発明は、請求項6ないし
9のいずれか一記載の文書画像の領域識別方法におい
て、再分割後、文字認識を行った結果の確からしさを示
す指標(確信度)を算出し、この確信度が低い部分は、
文字以外の領域とする。
【0027】したがって、より分割精度を向上させるこ
とが可能になる。
【0028】請求項11記載の発明のプログラムは、文
書画像データ中に混在する文字領域と文字以外の領域と
の識別分類をコンピュータに実行させるためのプログラ
ムであって、前記コンピュータに、文字領域属性と識別
された領域内に含まれる黒画素の連結成分に外接する矩
形を前記文書画像データより抽出する外接矩形抽出機能
と、文字領域属性と識別された領域内に文字以外の領域
が存在するか否かを前記外接矩形抽出機能により抽出さ
れた前記矩形に係る情報に基づき判定する非文字領域判
定機能と、この非文字領域判定機能により文字領域属性
と識別された領域内に文字以外の領域が存在すると判定
された場合、当該文字領域属性と識別された領域を再分
割する再分割機能と、を実行させる。
【0029】したがって、文字領域属性と識別された領
域内に文字以外の領域が存在するか否かが判定され、文
字領域属性と識別された領域内に文字以外の領域が存在
すると判定された場合、当該文字領域属性と識別された
領域が再分割される。これにより、印鑑や図など文字以
外の領域が領域分割の結果として文字と判定された領域
に入り込んだ場合であっても、当該文字領域属性と識別
された領域を再度分割することで文字以外の領域を排除
することが可能になるので、文字抽出精度を向上させる
ことが可能になる。
【0030】請求項12記載の発明は、請求項11記載
のプログラムにおいて、前記非文字領域判定機能におけ
る前記矩形に係る情報は、前記矩形内部をすべて黒画素
と仮定し、1画素ライン毎の黒画素の座標の最大値及び
最小値である。
【0031】したがって、文字領域属性と識別された領
域内に文字以外の領域が存在するか否かの判定が容易に
なる。
【0032】請求項13記載の発明は、請求項12記載
のプログラムにおいて、前記再分割機能は、1画素ライ
ン毎の黒画素の座標の最大値及び最小値に応じて文字行
及び行間を判定し、この行間部分で文字領域属性と識別
された領域を再分割する。
【0033】したがって、再分割が容易になる。
【0034】請求項14記載の発明は、請求項13記載
のプログラムにおいて、前記行間と判定された領域の前
記矩形に係る情報を用いて、文字以外の領域が存在する
か否かを判定する。
【0035】したがって、行間と判定された領域には文
字は存在しないことから、文字以外の領域が存在するか
否かの判定が容易になる。
【0036】請求項15記載の発明は、請求項11ない
し14のいずれか一記載のプログラムにおいて、再分割
後、文字認識を行った結果の確からしさを示す指標(確
信度)を算出し、この確信度が低い部分は、文字以外の
領域とする。
【0037】したがって、より分割精度を向上させるこ
とが可能になる。
【0038】請求項16記載の発明のコンピュータに読
み取り可能な記憶媒体は、請求項11ないし15のいず
れか一記載のプログラムを記憶した。
【0039】したがって、この記憶媒体をコンピュータ
にインストールすることにより、請求項11ないし15
のいずれか一記載のプログラムと同様の作用を得ること
が可能になる。
【0040】
【発明の実施の形態】本発明の実施の一形態を図1ない
し図6に基づいて説明する。
【0041】図1は、文書認識装置1のハードウェア構
成を概略的に示すブロック図である。図1に示すよう
に、文書認識装置1は、この文書認識装置1の各部を集
中的に制御するCPU(Central Processing Unit)2
を備えており、このCPU2には、BIOSなどを記憶
した読出し専用メモリであるROM(Read Only Memor
y)3と、各種データを書換え可能に記憶するRAM(R
andom Access Memory)4とがバス5で接続されてい
る。さらにバス5には、外部記憶となるHDD(HardDi
sk Drive)6と、CD(Compact Disc)−ROM7を読
み取るCD−ROMドライブ8と、文書認識装置1とネ
ットワーク9との通信を司る通信制御装置10と、入力
部として機能するキーボードやマウスなどの入力装置1
1と、CRT(Cathode Ray Tube)、LCD(Liquid C
rystal Display)などの出力装置12と、画像入力部と
して機能するスキャナなどの画像入力装置13とが、図
示しないI/Oを介して接続されている。
【0042】RAM4は、各種データを書換え可能に記
憶する性質を有していることから、CPU2の作業エリ
アとして機能する。
【0043】また、HDD6には、各種のプログラムを
格納するプログラムファイルが格納されている。
【0044】図1に示すCD−ROM7は、この発明の
記憶媒体を実施するものであり、所定のプログラムが記
憶されている。CPU2は、CD−ROM7に記憶され
ているプログラムをCD−ROMドライブ8で読み取
り、HDD6にインストールする。これにより、文書認
識装置1は、後述するような各種の処理を行なうことが
可能な状態となる。
【0045】なお、記憶媒体としては、CD−ROM7
のみならず、DVDなどの各種の光ディスク、各種光磁
気ディスク、フロッピー(登録商標)ディスクなどの各
種磁気ディスク等、半導体メモリ等の各種方式のメディ
アを用いることができる。また、通信制御装置10を介
してインターネットなどのネットワーク9からプログラ
ムをダウンロードし、HDD6にインストールするよう
にしてもよい。この場合に、送信側のサーバでプログラ
ムを記憶している記憶装置も、この発明の記憶媒体であ
る。なお、プログラムは、所定のOS(Operating Syst
em)上で動作するものであってもよいし、その場合に後
述の各種処理の一部の実行をOSに肩代わりさせるもの
であってもよいし、ワープロソフトなど所定のアプリケ
ーションソフトやOSなどを構成する一群のプログラム
ファイルの一部として含まれているものであってもよ
い。
【0046】次に、文書認識装置1のCPU2がプログ
ラムに基づいて制御されることにより実現される各種機
能について説明する。図2は、文書認識装置1の機能ブ
ロック図である。
【0047】領域識別部14は、例えば画像入力装置1
3から入力されてメモリ(RAM4等)に記憶された文
書画像を領域識別し、文字領域、表領域、図領域、写真
領域などに分類する。なお、文書の領域属性は、黒ラン
の密度を用いて判断する等の手法により求めることが可
能であるが、この手法は従来より公知であるため、その
説明は省略する。
【0048】図領域抽出部15は、領域識別部14にお
いて文字領域として分類された領域内に、実線(印鑑や
図等)が混入しているか否かを判定する。実線(印鑑や
図等)が混入しているか否かの判定手法は従来より公知
であるため、その説明は省略する。
【0049】領域分割部16は、図領域抽出部15にお
いて文字領域として分類された領域内に実線(印鑑や図
等)が混入していると判断された場合、対象文字領域を
再分割し、文字認識部17に渡す。
【0050】文字認識部17は、行切り出し処理及び文
字切り出し処理によって1文字の文字を切り出すととも
に、切り出した文字に対する文字認識処理のマッチング
処理により、文字候補を選択する。
【0051】なお、図領域抽出部15において文字領域
として分類された領域内に実線(印鑑や図等)が混入し
ていないと判断された場合は、図領域抽出部15におい
て文字領域として分類された領域はそのまま文字認識部
17に渡される。
【0052】ここで、本実施の形態の特長的な機能を発
揮する図領域抽出部15及び領域分割部16における処
理の流れについて図3を参照しつつ詳細に説明する。ま
ず、ステップS1においては、領域識別部14において
文字領域として分類された領域について、領域座標デー
タ(入力画像を1/4に圧縮した1/4圧縮画像で抽出
された始点、終点のX,Y座標)を用いて該当領域が縦
長領域であるか否かを判断し、該当領域が縦長領域であ
る場合には、該当領域を排除する(以降の処理を行わな
い)。
【0053】加えて、ステップS2においては、該当領
域の行方向が「縦」であるか否かを判断し、該当領域の
行方向が「縦」である場合には、該当領域を排除する
(以降の処理を行わない)。
【0054】次いで、ステップS3において、候補領域
の検出を行う。より詳細には、まず、上記の処理で検出
された文字領域のオリジナル画像に対して矩形抽出処理
を行い、矩形座標データを得る。ここに、外接矩形抽出
手段の機能が実行される。ここで、1/4圧縮画像を用
いないのは、圧縮画像を用いると矩形同士が接触して大
きな矩形となってしまうからである。この後の処理で矩
形座標情報から強制分割位置を推定するため、矩形同士
が接触して大きな矩形となってしまった場合には、推定
精度があがらないという問題が発生するためである。そ
して、このような矩形抽出処理の結果求まった文字領域
内の矩形がすべて黒画素であると仮定し、各ラインごと
(Y座標ごと)に文字領域内で最も小さいX座標(図4
に示す太実線:minXs(y))と、最も大きいX座標(図
4に示す太破線:maxXe(y))とを求める。
【0055】minXs(y)とmaxXe(y)とのyの値は、該当
領域座標の始点(area.Ys)から終点(area.Ye)の値を取
るが、ここで上記の範囲を0〜99の100個のデータ
に正規化する。 minXs(y),maxXs(y) →(正規化)→ minXs
(Y),maxXe(Y) 但しY=(y−area.Ys)/(area.Ye−area.Ys)×10
0 以上により、領域内矩形のX座標の最大値、最小値が各
画素行ごとに求められる。
【0056】次いで、この領域内矩形のX座標の最大
値、最小値の値から、複数行が接触しているか否かを判
断する。複数行の左側が接触している例(図4(a)参
照)では、X座標の最小値に注目し、最小値が領域の始
点Xsに連続して寄っているところを行とする。また、
行間は、X座標の最小値が領域の終点Xeに近くなるこ
とから、連続してXeに寄っているところを行間とす
る。そして、「行−行間−行」の組み合わせが検出され
た領域を複数行が接触している(つまり、印鑑や図等が
混入している)と判定し、図5に示すように、行間の中
心で領域を強制分割する。なお、複数行の右側が接触し
ている例(図4(b)参照)では、X座標の最大値に注
目し同様の処理を行うことになる。これにより、文字領
域が再分割され、候補領域の検出処理(ステップS3)
が終了する。ここに、非文字領域判定手段の機能及び再
分割手段の機能が実行される。
【0057】最後に、ステップS4に進み、最終判定処
理を実行する。最終判定は、再分割された文字領域内に
実線(印鑑や図等)が混入しているか否かを判定するも
のであって、行間と判定された領域に存在する矩形に実
線(印鑑や図等)が存在するか否かを判定し、矩形に実
線(印鑑や図等)が存在する場合にはその矩形を図領域
とするものである。
【0058】なお、上記では座標の凹凸情報から行を横
に分割する例を説明したが、凹凸情報を用いて、図6に
示すように凸部で図や写真と思われる図領域部分を縦方
向に分割するようにしても良い。
【0059】また、これらの分割の後、文字認識を行っ
た結果の確からしさを示す指標(確信度)を算出し、確
信度が低い(確からしさが低い)部分は、図領域とする
ことで、より分割精度を向上させることも可能である。
【0060】なお、本実施の形態においては、行方向横
向きである横書き文書に関して説明をしたが、これに限
るものではなく、行方向縦向きである縦書き文書に適用
することも可能である。
【0061】ここに、文字領域属性と識別された領域内
に文字以外の領域が存在するか否かが判定され、文字領
域属性と識別された領域内に文字以外の領域が存在する
と判定された場合、当該文字領域属性と識別された領域
が再分割される。これにより、印鑑や図など文字以外の
領域が領域分割の結果として文字と判定された領域に入
り込んだ場合であっても、当該文字領域属性と識別され
た領域を再度分割することで文字以外の領域を排除する
ことが可能になるので、文字抽出精度を向上させること
が可能になる。
【0062】
【発明の効果】請求項1記載の発明の文書認識装置によ
れば、文書画像データ中に混在する文字領域と文字以外
の領域とを識別分類する文書認識装置において、文字領
域属性と識別された領域内に含まれる黒画素の連結成分
に外接する矩形を前記文書画像データより抽出する外接
矩形抽出手段と、文字領域属性と識別された領域内に文
字以外の領域が存在するか否かを前記外接矩形抽出手段
により抽出された前記矩形に係る情報に基づき判定する
非文字領域判定手段と、この非文字領域判定手段により
文字領域属性と識別された領域内に文字以外の領域が存
在すると判定された場合、当該文字領域属性と識別され
た領域を再分割する再分割手段と、を備え、文字領域属
性と識別された領域内に文字以外の領域が存在するか否
かを判定し、文字領域属性と識別された領域内に文字以
外の領域が存在すると判定した場合、当該文字領域属性
と識別された領域を再分割することにより、印鑑や図な
ど文字以外の領域が領域分割の結果として文字と判定さ
れた領域に入り込んだ場合であっても、当該文字領域属
性と識別された領域を再度分割することで文字以外の領
域を排除することができるので、文字抽出精度を向上さ
せることができる。
【0063】請求項2記載の発明によれば、請求項1記
載の文書認識装置において、前記非文字領域判定手段に
おける前記矩形に係る情報は、前記矩形内部をすべて黒
画素と仮定し、1画素ライン毎の黒画素の座標の最大値
及び最小値であることにより、文字領域属性と識別され
た領域内に文字以外の領域が存在するか否かの判定を容
易に行うことができる。
【0064】請求項3記載の発明によれば、請求項2記
載の文書認識装置において、前記再分割手段は、1画素
ライン毎の黒画素の座標の最大値及び最小値に応じて文
字行及び行間を判定し、この行間部分で文字領域属性と
識別された領域を再分割することにより、再分割を容易
に行うことができる。
【0065】請求項4記載の発明によれば、請求項3記
載の文書認識装置において、前記行間と判定された領域
の前記矩形に係る情報を用いて、文字以外の領域が存在
するか否かを判定することにより、行間と判定された領
域には文字は存在しないことから、文字以外の領域が存
在するか否かの判定を容易に行うことができる。
【0066】請求項5記載の発明によれば、請求項1な
いし4のいずれか一記載の文書認識装置において、再分
割後、文字認識を行った結果の確からしさを示す指標
(確信度)を算出し、この確信度が低い部分は、文字以
外の領域とすることにより、より分割精度を向上させる
ことができる。
【0067】請求項6記載の発明の文書画像の領域識別
方法によれば、文書画像データ中に混在する文字領域と
文字以外の領域とを識別分類する文書画像の領域識別方
法であって、文字領域属性と識別された領域内に含まれ
る黒画素の連結成分に外接する矩形を前記文書画像デー
タより抽出する外接矩形抽出工程と、文字領域属性と識
別された領域内に文字以外の領域が存在するか否かを前
記外接矩形抽出工程により抽出された前記矩形に係る情
報に基づき判定する非文字領域判定工程と、この非文字
領域判定工程により文字領域属性と識別された領域内に
文字以外の領域が存在すると判定された場合、当該文字
領域属性と識別された領域を再分割する再分割工程と、
を含み、文字領域属性と識別された領域内に文字以外の
領域が存在するか否かを判定し、文字領域属性と識別さ
れた領域内に文字以外の領域が存在すると判定した場
合、当該文字領域属性と識別された領域を再分割するこ
とにより、印鑑や図など文字以外の領域が領域分割の結
果として文字と判定された領域に入り込んだ場合であっ
ても、当該文字領域属性と識別された領域を再度分割す
ることで文字以外の領域を排除することができるので、
文字抽出精度を向上させることができる。
【0068】請求項7記載の発明によれば、請求項6記
載の文書画像の領域識別方法において、前記非文字領域
判定工程における前記矩形に係る情報は、前記矩形内部
をすべて黒画素と仮定し、1画素ライン毎の黒画素の座
標の最大値及び最小値であることにより、文字領域属性
と識別された領域内に文字以外の領域が存在するか否か
の判定を容易に行うことができる。
【0069】請求項8記載の発明によれば、請求項7記
載の文書画像の領域識別方法において、前記再分割工程
は、1画素ライン毎の黒画素の座標の最大値及び最小値
に応じて文字行及び行間を判定し、この行間部分で文字
領域属性と識別された領域を再分割することにより、再
分割を容易に行うことができる。
【0070】請求項9記載の発明によれば、請求項8記
載の文書画像の領域識別方法において、前記行間と判定
された領域の前記矩形に係る情報を用いて、文字以外の
領域が存在するか否かを判定することにより、行間と判
定された領域には文字は存在しないことから、文字以外
の領域が存在するか否かの判定を容易に行うことができ
る。
【0071】請求項10記載の発明によれば、請求項6
ないし9のいずれか一記載の文書画像の領域識別方法に
おいて、再分割後、文字認識を行った結果の確からしさ
を示す指標(確信度)を算出し、この確信度が低い部分
は、文字以外の領域とすることにより、より分割精度を
向上させることができる。
【0072】請求項11記載の発明のプログラムによれ
ば、文書画像データ中に混在する文字領域と文字以外の
領域との識別分類をコンピュータに実行させるためのプ
ログラムであって、前記コンピュータに、文字領域属性
と識別された領域内に含まれる黒画素の連結成分に外接
する矩形を前記文書画像データより抽出する外接矩形抽
出機能と、文字領域属性と識別された領域内に文字以外
の領域が存在するか否かを前記外接矩形抽出機能により
抽出された前記矩形に係る情報に基づき判定する非文字
領域判定機能と、この非文字領域判定機能により文字領
域属性と識別された領域内に文字以外の領域が存在する
と判定された場合、当該文字領域属性と識別された領域
を再分割する再分割機能と、を実行させ、文字領域属性
と識別された領域内に文字以外の領域が存在するか否か
を判定し、文字領域属性と識別された領域内に文字以外
の領域が存在すると判定した場合、当該文字領域属性と
識別された領域を再分割することにより、印鑑や図など
文字以外の領域が領域分割の結果として文字と判定され
た領域に入り込んだ場合であっても、当該文字領域属性
と識別された領域を再度分割することで文字以外の領域
を排除することができるので、文字抽出精度を向上させ
ることができる。
【0073】請求項12記載の発明によれば、請求項1
1記載のプログラムにおいて、前記非文字領域判定機能
における前記矩形に係る情報は、前記矩形内部をすべて
黒画素と仮定し、1画素ライン毎の黒画素の座標の最大
値及び最小値であることにより、文字領域属性と識別さ
れた領域内に文字以外の領域が存在するか否かの判定を
容易に行うことができる。
【0074】請求項13記載の発明によれば、請求項1
2記載のプログラムにおいて、前記再分割機能は、1画
素ライン毎の黒画素の座標の最大値及び最小値に応じて
文字行及び行間を判定し、この行間部分で文字領域属性
と識別された領域を再分割することにより、再分割を容
易に行うことができる。
【0075】請求項14記載の発明によれば、請求項1
3記載のプログラムにおいて、前記行間と判定された領
域の前記矩形に係る情報を用いて、文字以外の領域が存
在するか否かを判定することにより、行間と判定された
領域には文字は存在しないことから、文字以外の領域が
存在するか否かの判定を容易に行うことができる。
【0076】請求項15記載の発明によれば、請求項1
1ないし14のいずれか一記載のプログラムにおいて、
再分割後、文字認識を行った結果の確からしさを示す指
標(確信度)を算出し、この確信度が低い部分は、文字
以外の領域とすることにより、より分割精度を向上させ
ることができる。
【0077】請求項16記載の発明のコンピュータに読
み取り可能な記憶媒体によれば、請求項11ないし15
のいずれか一記載のプログラムを記憶したことにより、
この記憶媒体をコンピュータにインストールすること
で、請求項11ないし15のいずれか一記載のプログラ
ムと同様の作用・効果を得ることができる。
【図面の簡単な説明】
【図1】本発明の実施の一形態の文書認識装置のハード
ウェア構成を概略的に示すブロック図である。
【図2】文書認識装置の機能ブロック図である。
【図3】図領域抽出部及び領域分割部における処理の流
れを示すフローチャートである。
【図4】領域内矩形抽出結果に基づいて領域内矩形のX
座標の最大値、最小値を求めた例を示す説明図である。
【図5】強制分割位置の一例を示す説明図である。
【図6】強制分割位置の他の一例を示す説明図である。
【符号の説明】
1 文書認識装置 7 記憶媒体

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】 文書画像データ中に混在する文字領域と
    文字以外の領域とを識別分類する文書認識装置におい
    て、 文字領域属性と識別された領域内に含まれる黒画素の連
    結成分に外接する矩形を前記文書画像データより抽出す
    る外接矩形抽出手段と、 文字領域属性と識別された領域内に文字以外の領域が存
    在するか否かを前記外接矩形抽出手段により抽出された
    前記矩形に係る情報に基づき判定する非文字領域判定手
    段と、 この非文字領域判定手段により文字領域属性と識別され
    た領域内に文字以外の領域が存在すると判定された場
    合、当該文字領域属性と識別された領域を再分割する再
    分割手段と、を備えることを特徴とする文書認識装置。
  2. 【請求項2】 前記非文字領域判定手段における前記矩
    形に係る情報は、前記矩形内部をすべて黒画素と仮定
    し、1画素ライン毎の黒画素の座標の最大値及び最小値
    であることを特徴とする請求項1記載の文書認識装置。
  3. 【請求項3】 前記再分割手段は、1画素ライン毎の黒
    画素の座標の最大値及び最小値に応じて文字行及び行間
    を判定し、この行間部分で文字領域属性と識別された領
    域を再分割することを特徴とする請求項2記載の文書認
    識装置。
  4. 【請求項4】 前記行間と判定された領域の前記矩形に
    係る情報を用いて、文字以外の領域が存在するか否かを
    判定することを特徴とする請求項3記載の文書認識装
    置。
  5. 【請求項5】 再分割後、文字認識を行った結果の確か
    らしさを示す指標(確信度)を算出し、この確信度が低
    い部分は、文字以外の領域とすることを特徴とする請求
    項1ないし4のいずれか一記載の文書認識装置。
  6. 【請求項6】 文書画像データ中に混在する文字領域と
    文字以外の領域とを識別分類する文書画像の領域識別方
    法であって、 文字領域属性と識別された領域内に含まれる黒画素の連
    結成分に外接する矩形を前記文書画像データより抽出す
    る外接矩形抽出工程と、 文字領域属性と識別された領域内に文字以外の領域が存
    在するか否かを前記外接矩形抽出工程により抽出された
    前記矩形に係る情報に基づき判定する非文字領域判定工
    程と、 この非文字領域判定工程により文字領域属性と識別され
    た領域内に文字以外の領域が存在すると判定された場
    合、当該文字領域属性と識別された領域を再分割する再
    分割工程と、を含むことを特徴とする文書画像の領域識
    別方法。
  7. 【請求項7】 前記非文字領域判定工程における前記矩
    形に係る情報は、前記矩形内部をすべて黒画素と仮定
    し、1画素ライン毎の黒画素の座標の最大値及び最小値
    であることを特徴とする請求項6記載の文書画像の領域
    識別方法。
  8. 【請求項8】 前記再分割工程は、1画素ライン毎の黒
    画素の座標の最大値及び最小値に応じて文字行及び行間
    を判定し、この行間部分で文字領域属性と識別された領
    域を再分割することを特徴とする請求項7記載の文書画
    像の領域識別方法。
  9. 【請求項9】 前記行間と判定された領域の前記矩形に
    係る情報を用いて、文字以外の領域が存在するか否かを
    判定することを特徴とする請求項8記載の文書画像の領
    域識別方法。
  10. 【請求項10】 再分割後、文字認識を行った結果の確
    からしさを示す指標(確信度)を算出し、この確信度が
    低い部分は、文字以外の領域とすることを特徴とする請
    求項6ないし9のいずれか一記載の文書画像の領域識別
    方法。
  11. 【請求項11】 文書画像データ中に混在する文字領域
    と文字以外の領域との識別分類をコンピュータに実行さ
    せるためのプログラムであって、前記コンピュータに、 文字領域属性と識別された領域内に含まれる黒画素の連
    結成分に外接する矩形を前記文書画像データより抽出す
    る外接矩形抽出機能と、 文字領域属性と識別された領域内に文字以外の領域が存
    在するか否かを前記外接矩形抽出機能により抽出された
    前記矩形に係る情報に基づき判定する非文字領域判定機
    能と、 この非文字領域判定機能により文字領域属性と識別され
    た領域内に文字以外の領域が存在すると判定された場
    合、当該文字領域属性と識別された領域を再分割する再
    分割機能と、を実行させることを特徴とするプログラ
    ム。
  12. 【請求項12】 前記非文字領域判定機能における前記
    矩形に係る情報は、前記矩形内部をすべて黒画素と仮定
    し、1画素ライン毎の黒画素の座標の最大値及び最小値
    であることを特徴とする請求項11記載のプログラム。
  13. 【請求項13】 前記再分割機能は、1画素ライン毎の
    黒画素の座標の最大値及び最小値に応じて文字行及び行
    間を判定し、この行間部分で文字領域属性と識別された
    領域を再分割することを特徴とする請求項12記載のプ
    ログラム。
  14. 【請求項14】 前記行間と判定された領域の前記矩形
    に係る情報を用いて、文字以外の領域が存在するか否か
    を判定することを特徴とする請求項13記載のプログラ
    ム。
  15. 【請求項15】 再分割後、文字認識を行った結果の確
    からしさを示す指標(確信度)を算出し、この確信度が
    低い部分は、文字以外の領域とすることを特徴とする請
    求項11ないし14のいずれか一記載のプログラム。
  16. 【請求項16】 請求項11ないし15のいずれか一記
    載のプログラムを記憶したことを特徴とするコンピュー
    タに読み取り可能な記憶媒体。
JP2001211476A 2001-07-12 2001-07-12 文書認識装置、文書画像の領域識別方法、プログラム及び記憶媒体 Expired - Fee Related JP4616522B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001211476A JP4616522B2 (ja) 2001-07-12 2001-07-12 文書認識装置、文書画像の領域識別方法、プログラム及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001211476A JP4616522B2 (ja) 2001-07-12 2001-07-12 文書認識装置、文書画像の領域識別方法、プログラム及び記憶媒体

Publications (2)

Publication Number Publication Date
JP2003030584A true JP2003030584A (ja) 2003-01-31
JP4616522B2 JP4616522B2 (ja) 2011-01-19

Family

ID=19046783

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001211476A Expired - Fee Related JP4616522B2 (ja) 2001-07-12 2001-07-12 文書認識装置、文書画像の領域識別方法、プログラム及び記憶媒体

Country Status (1)

Country Link
JP (1) JP4616522B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100424716C (zh) * 2005-10-07 2008-10-08 株式会社理光 图像处理装置,图像处理方法
US7747089B2 (en) 2006-06-12 2010-06-29 Konica Minolta Business Technologies, Inc. Image processing apparatus, image processing method, and image processing program
CN117495950A (zh) * 2023-12-29 2024-02-02 山东五思信息科技有限公司 一种基于密度聚类的试卷密封线定位方法及***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58201182A (ja) * 1982-05-20 1983-11-22 Nippon Telegr & Teleph Corp <Ntt> 文字・図形切り分け方法
JPH04270483A (ja) * 1990-11-16 1992-09-25 Seiko Epson Corp 文字情報検出装置
JPH04303278A (ja) * 1990-12-29 1992-10-27 Gold Star Co Ltd 圧縮映像の文字列分離方式
JPH06150055A (ja) * 1992-11-06 1994-05-31 Matsushita Electric Ind Co Ltd 文字認識装置
JPH08115380A (ja) * 1994-10-18 1996-05-07 Canon Inc 画像処理装置及び方法
JP2001134712A (ja) * 1999-11-02 2001-05-18 Canon Inc 画像処理装置及び画像処理方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58201182A (ja) * 1982-05-20 1983-11-22 Nippon Telegr & Teleph Corp <Ntt> 文字・図形切り分け方法
JPH04270483A (ja) * 1990-11-16 1992-09-25 Seiko Epson Corp 文字情報検出装置
JPH04303278A (ja) * 1990-12-29 1992-10-27 Gold Star Co Ltd 圧縮映像の文字列分離方式
JPH06150055A (ja) * 1992-11-06 1994-05-31 Matsushita Electric Ind Co Ltd 文字認識装置
JPH08115380A (ja) * 1994-10-18 1996-05-07 Canon Inc 画像処理装置及び方法
JP2001134712A (ja) * 1999-11-02 2001-05-18 Canon Inc 画像処理装置及び画像処理方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100424716C (zh) * 2005-10-07 2008-10-08 株式会社理光 图像处理装置,图像处理方法
US7747089B2 (en) 2006-06-12 2010-06-29 Konica Minolta Business Technologies, Inc. Image processing apparatus, image processing method, and image processing program
CN117495950A (zh) * 2023-12-29 2024-02-02 山东五思信息科技有限公司 一种基于密度聚类的试卷密封线定位方法及***
CN117495950B (zh) * 2023-12-29 2024-03-26 山东五思信息科技有限公司 一种基于密度聚类的试卷密封线定位方法及***

Also Published As

Publication number Publication date
JP4616522B2 (ja) 2011-01-19

Similar Documents

Publication Publication Date Title
US10803338B2 (en) Method and device for recognizing the character area in a image
CN113139445A (zh) 表格识别方法、设备及计算机可读存储介质
CN112069991A (zh) 一种pdf的表格信息提取方法及相关装置
JP2003030584A (ja) 文書認識装置、文書画像の領域識別方法、プログラム及び記憶媒体
US9373193B2 (en) Method and apparatus for detecting and avoiding conflicts of space entity element annotations
JP3215163B2 (ja) 罫線識別方法及び領域識別方法
JP4162195B2 (ja) 画像処理装置、及び画像処理プログラム
WO2023152809A1 (ja) 画像処理装置、画像処理方法およびプログラム
KR102395599B1 (ko) 딥러닝 기반 이미지 도면 내 선 객체 인식 시스템 및 그 방법
JPH10187887A (ja) 書体識別装置および書体識別方法および情報記録媒体
JPH11143990A (ja) 文字認識方法及び装置及びその方法を記録した記録媒体
JPH1166230A (ja) 文書認識装置、文書認識方法及び媒体
JPH0573718A (ja) 領域属性識別方式
JPH0816719A (ja) 文字切り出し方法とこれを用いた文字認識方法及び装置
JP2002074264A (ja) 画像処理装置、画像処理方法および記録媒体
JP3220226B2 (ja) 文字列方向判別方法
JPH1049676A (ja) 罫線認識方法
JPH11242716A (ja) 画像処理方法および記録媒体
JPH1166225A (ja) 表情報抽出装置及び方法並びに記録媒体
CN115272801A (zh) 训练样本的获得方法及其装置、模型训练方法及其装置
JP2001266070A (ja) 文字認識装置、文字認識方法および記憶媒体
JP2000172783A (ja) 文字列認識方法及び記録媒体
JPH06150062A (ja) 文字認識装置
JPH1021332A (ja) 非線形正規化方法
JP2001143020A (ja) 文字認識装置、文字認識方法、および記録媒体

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20041004

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20051021

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20080111

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080620

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100708

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100713

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100913

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101005

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101022

R150 Certificate of patent or registration of utility model

Ref document number: 4616522

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131029

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees