JP4587698B2

JP4587698B2 - 文字成分抽出装置

Info

Publication number: JP4587698B2
Application number: JP2004125907A
Authority: JP
Inventors: 修志久
Original assignee: Omron Corp
Current assignee: Omron Corp
Priority date: 2004-04-21
Filing date: 2004-04-21
Publication date: 2010-11-24
Anticipated expiration: 2024-04-21
Also published as: JP2005309772A

Description

本発明は、画像中から文字の全部又は文字の一部を構成する文字成分を抽出する装置に適用されて有効な技術に関する。

近年、携帯電話機やＰＤＡ（Personal Digital Assistance）等の携帯機器に搭載され
ることにより、携帯性の高いデジタルカメラが普及している。このような普及に伴い、その携帯性を生かしたデジタルカメラの新たなニーズが要求され始めている。例えば、デジタルカメラで撮像した写真から文字領域を抽出し、抽出された文字を認識することや、抽出された文字を他装置への入力に用いることや、抽出された文字を翻訳するなどの用途が検討されている。しかし、デジタルカメラ等の撮像装置によって撮像された画像（以下、「情景画像」と呼ぶ）には、抽出すべき文字の画像（以下、「文字画像」と呼ぶ）の他に煩雑な背景の画像（以下、「背景画像」と呼ぶ）も含まれてしまう可能性がある。このため、情景画像を文字画像と背景画像とに分離する、言い換えれば情景画像から文字画像を抽出する必要がある。

このような技術の例として、画像をブロック単位に分割し、ブロックごとに文字らしさを判定し、文字らしくないブロックを消去する方法がある（特許文献１，２参照）。しかし、このような方法では、精度よく抽出可能な文字の条件は、分割に用いるブロックのサイズに依存してしまう。このため、多種多様な文字が存在する情景画像に対してこの方法を適用すると、ある特定のサイズの文字しか的確な抽出を行うことができないという問題があった。また、この方法では、各ブロックに対して文字らしさの判定を実施するため、非常に多くの計算を必要としてしまうという問題もあった。従って、携帯機器など、ＣＰＵの処理能力が制限される機器においてこの方法を適用すると、実用的な速度で動作させることが困難であった。

このような問題に対し、ＬｏＧ（Laplacian of Gaussian：ラプラシアン・ガウシアン
）フィルタを用いて文字を構成する線を抽出する方法が提案されている（非特許文献１，２，３参照）。このような方法では、ブロックを用いずに処理が行われるため、上記のブロックを用いることにまつわる問題が解消される。
特許第３１０８１３３号公報特許第３４１６０５８号公報澤和弘，若林哲史，鶴岡信治，木村文隆，三宅康二"FAにおける低品質文字列の認識"，信学技報，PRMU97-214,Jan 1998．宮本一正，玉川光明，藤田一郎，葉山安信，英保茂 "相関手法による文字列領域検出方法"，信学論(D-II),vol.J81-D-II,no.9,pp.2052-2060,Sep 1998. 金旭▲げん▼，平井有三，古川卓，有田秀昶 "空間フィルタによる地図画像からの道路セグメントの抽出"，信学論(D-II),vol.J76-D-II,no.3,pp.566-574,Mar 1993.

しかし、ＬｏＧフィルタを用いる方法では、抽出できる線の太さはＬｏＧフィルタに依存してしまい、一定の太さの線で構成された文字しか精度良く抽出することができなかった。図２５は、ＬｏＧフィルタを用いた場合の問題の例を示す図である。図２５（ａ）は原画像を示す。原画像には、細い線によって構成された文字列（画面上段）と、太い線によって構成された文字列（画面中段）とが含まれる。図２５（ｂ）は一つのＬｏＧフィル
タを原画像全体にかけた場合の出力例を示す。この場合、細い線によって構成された文字列は、使用されたＬｏＧフィルタの特性に合っていたため、一本の線によって文字が構成されているように出力される。一方、太い線によって構成された文字列は、使用されたＬｏＧフィルタの特性に合っていなかったため、二重の線によって文字が構成されているように出力されてしまう。このように二重の線によって文字が構成されているように出力されてしまった場合、文字を正しく抽出・認識等することが困難となってしまう。

従って、情景画像中に複数種の太さの線により構成された文字が存在する場合、その線の太さに応じた複数種のＬｏＧフィルタをかける必要があった。また、フォントによっては、一つの文字にも、はねやはらい等の場所によって線の太さが異なるものもある。このような場合には、ＬｏＧフィルタに応じていない太さの部分が抽出されず、結果として一つの文字が分断されて抽出されてしまうこともあった。

そこで本発明はこれらの問題を解決し、複数種のＬｏＧフィルタを用いることを要せず、様々な太さの線によって構成された文字の画像を正確に抽出することを可能とする装置を提供することを目的とする。

上記問題を解決するため、本発明は以下のような構成をとる。本発明の文字成分抽出装置は、フィルタ手段，連結成分抽出手段，判断手段，及び文字成分抽出手段を含む。フィルタ手段は、濃淡画像に対し二次微分フィルタ処理を実行する。このような二次微分フィルタの例として、ＬｏＧフィルタ等がある。連結成分抽出手段は、二次微分フィルタ処理の結果から、ゼロ以上の値を有する複数の画素が隣接することにより構成される連結成分、又はゼロ以下の値を有する複数の画素が隣接することにより構成される連結成分を抽出する。判断手段は、各連結成分について、その連結成分を構成する画素のうち二次微分フィルタ処理によって算出された値が所定の範囲の値である画素が占める割合に応じて、当該連結成分が文字を構成する連結成分であるか否か判断する。文字成分抽出手段は、判断手段によって文字を構成する連結成分として判断された連結成分を文字成分として抽出する。

本発明の文字成分抽出装置によれば、従来とは異なり、二次微分フィルタ処理の結果からゼロの値を有する画素を含む連結成分が抽出される。このため、二次微分フィルタの大きさに関わらず、様々な太さの線を一つの連結成分として抽出することが可能となる。

また、本発明の文字成分抽出装置によれば、このようにして抽出された様々な太さの線を構成する連結成分の中から、二次微分フィルタ処理によって得られた値が所定の範囲の値である画素の割合に応じて、文字成分を構成する連結成分が判断・抽出される。ここで、所定の範囲とは、その画素の周囲の濃度変化が激しいことを示す範囲を示す。そして、例えばこのような所定の範囲内の画素が連結成分全体に占める割合が高い場合（閾値よりも高い場合）に、当該連結成分が文字を構成する連結成分と判断される。

このように、本発明の文字成分抽出装置では、用いられる二次微分フィルタの大きさ等に関わらず複数種の太さの線により構成される文字を抽出することが可能となる。従って、抽出する文字を構成する線の太さ等に応じて複数種の二次微分フィルタを用いる必要がない。

また、本発明による文字成分抽出装置の判断手段は、連結成分を構成する画素の数と、連結成分を構成する画素のうち二次微分フィルタ処理によって算出された値が所定の範囲の値である画素の数との比を全体比として算出し、連結成分の輪郭部分を構成する画素の数と、輪郭部分を構成する画素のうち二次微分フィルタ処理によって算出された値が所定
の範囲の値である画素の数との比を輪郭比として算出し、全体比及び輪郭比の値に基づいて、当該連結成分が文字を構成する連結成分であるか否か判断するように構成されても良い。

このように構成された文字成分抽出装置では、文字を構成する連結成分か否かの判断において全体比のみならず輪郭比も考慮される。このため、判断手段における処理が、全体比のみによって実施される場合に比べてより正確に実施される。

また、本発明による文字成分抽出装置の判断手段は、全体比の値が閾値ＴＳ以上である場合、且つ、輪郭比の値が閾値ＴＬ以上である場合に、当該連結成分が文字を構成する連結成分であると判断するように構成されても良い。ただし、ＴＳの値は０．４程度（０．３≦ＴＳ＜０．５）、ＴＬの値は０．８程度（０．７≦ＴＬ＜０．９）である。このように構成されることにより、判断手段における処理がより正確に実施される。

また、本発明による文字成分抽出装置の判断手段は、二次微分フィルタ処理によって算出された各画素の値から統計的に取得される値に基づいて、所定の範囲を決定するように構成されても良い。統計的に取得される値は、例えば各画素の値の絶対値の平均値として取得されても良いし、各画素の値のうち正の値の平均値と負の値の絶対値の平均値（負の値の平均値の絶対値でも良い）とのうち大きい方又は小さい方の値として取得されても良い。このように構成されることにより、予め定められた値に基づいて所定の範囲を決定する場合に比べて、各画像の状況に応じた処理を行うことが可能となる。

また、本発明による文字成分抽出装置の連結成分抽出手段は、二次微分フィルタ処理の結果において、ゼロ以上の値を有する画素と他の画素とを区別することにより、又はゼロ以下の値を有する画素と他の画素とを区別することにより、二値画像を生成し、この二値画像から連結成分を抽出するように構成されても良い。

また、本発明による文字成分抽出装置の連結成分抽出手段は、二次微分フィルタ処理の結果における各画素の値において、その絶対値が閾値よりも低い値をゼロに置き換え、その結果に基づいて連結成分を抽出するように構成されても良い。このように構成されることにより、実質ゼロに等しい値についてもゼロとして処理を行うことが可能となり、連結成分を抽出する際の処理の精度を向上させることが可能となる。

また、本発明による文字成分抽出装置の文字成分抽出手段は、文字を構成する連結成分として判断された連結成分について、その連結成分に外接する最小の矩形を生成し、この矩形の高さ及び幅が所定の範囲内にあるもののみを文字成分として抽出するように構成されても良い。このように構成されることにより、その外接矩形の形状から明らかに文字ではないと判断される連結成分が文字を構成する連結成分として誤って判断されることを防止することが可能となる。また、その外接矩形の形状から明らかに文字ではないと判断可能な連結成分について、外接矩形の形状の比較という容易な処理によって高速に判断を行うことが可能となる。

また、本発明による文字成分抽出装置の文字成分抽出手段は、文字を構成する連結成分として判断された連結成分について、その連結成分を構成する画素と、その連結成分の周囲に位置する画素との濃度値の差が閾値以上である連結成分のみを文字成分として抽出するように構成されても良い。このように構成されることにより、濃度の平均値の算出と比較という容易な処理によって、連結成分が文字を構成するものであるか否かについて高速に判断を行うことが可能となる。

また、本発明による文字成分抽出装置は、濃淡画像において、周囲にほとんど濃淡勾配が無いと判断される画素及び周囲に正方向の濃淡勾配が有ると判断される画素により構成される連結成分、又は周囲にほとんど濃淡勾配が無いと判断される画素及び周囲に負方向の濃淡勾配が有ると判断される画素により構成される連結成分を抽出する連結成分抽出手段と、各連結成分について、その連結成分を構成する各画素のうち、各画素の周囲の濃淡勾配が所定の範囲である画素が占める割合に応じて、当該連結成分が文字を構成する連結成分であるか否か判断する判断手段と、文字であると判断された連結成分を文字成分として抽出する文字成分抽出手段とを含むように構成されても良い。このように構成されることにより、連結成分抽出手段は、正方向又は負方向の濃淡勾配が有ると判断される画素のみではなく、周囲にほとんど濃淡勾配が無いと判断される画素も含んだ連結成分を抽出する。このため、例えば二次微分フィルタによってこのような連結成分を抽出する場合には、用いる二次微分フィルタの特性に関わらず、様々な太さの線を一つの連結成分として抽出することが可能となる。さらに、このように構成された文字成分抽出装置では、判断手段により、各連結成分について文字を構成する連結成分であるか否か判断される。このため、様々な太さの線により構成される連結成分による文字を抽出し判断することが可能となる。

また、本発明は、プログラムが情報処理装置によって実行されることによって実現されても良い。即ち、本発明は、上記した各手段が実行する処理を、情報処理装置に対して実行させるためのプログラム、或いは当該プログラムを記録した記録媒体として特定することができる。また、本発明は、上記した各手段が実行する処理を情報処理装置が実行する方法をもって特定されても良い。

本発明によれば、用いられる二次微分フィルタの大きさ等に関わらず複数種の太さの線により構成される文字を抽出することが可能となるため、抽出する文字を構成する線の太さ等に応じて複数種の二次微分フィルタを用いることなく、様々な太さの線により構成される文字を画像から精度良く抽出することが可能となる。

［システム構成］
まず、文字列抽出装置１のシステム構成について説明する。文字列抽出装置１は、ハードウェア的には、バスを介して接続されたＣＰＵ（中央演算処理装置），主記憶装置（ＲＡＭ），補助記憶装置などを備える。補助記憶装置は、不揮発性記憶装置を用いて構成される。ここで言う不揮発性記憶装置とは、いわゆるＲＯＭ（Read-Only Memory：ＥＰＲＯＭ（Erasable Programmable Read-Only Memory），ＥＥＰＲＯＭ（Electrically Erasable Programmable Read-Only Memory），マスクＲＯＭ等を含む），ＦＲＡＭ（Ferroelectric RAM），ハードディスク等を指す。

図１は、文字列抽出装置１の機能ブロックの例を示す図である。文字列抽出装置１は、補助記憶装置に記憶された各種のプログラム（ＯＳ，アプリケーション等）が主記憶装置にロードされＣＰＵにより実行されることによって、画像入力部２，文字情報抽出装置３，文字線抽出部４，文字列判定装置５，及び文字列出力部６等を含む装置として機能する。文字情報抽出装置３，文字線抽出部４，及び文字列判定装置５は、プログラムがＣＰＵによって実行されることにより実現される。また、文字情報抽出装置３，文字線抽出部４，及び文字列判定装置５は専用のチップとして構成されても良い。次に、文字列抽出装置１が含む各機能部や各装置について説明する。

〔画像入力部〕
画像入力部２は、情景画像の原画像のデータ（以下、「原画像のデータ」と呼ぶ）を文字列抽出装置１へ入力するためのインタフェースとして機能する。画像入力部２によって
、文字列抽出装置１の外部から、原画像のデータが文字列抽出装置１へ入力される。画像入力部２は、文字列抽出装置１へ原画像のデータを入力するためのどのような既存技術を用いて構成されても良い。

例えば、ネットワーク（例えばローカル・エリア・ネットワークやインターネット）を介して原画像のデータが文字列抽出装置１へ入力されても良い。この場合、画像入力部２はネットワークインタフェースを用いて構成される。また、デジタルカメラやスキャナやパーソナルコンピュータや記録装置（例えばハードディスクドライブ）等から原画像のデータが文字列抽出装置１へ入力されても良い。この場合、画像入力部２は、デジタルカメラやパーソナルコンピュータや記録装置などと文字列抽出装置１とをデータ通信可能に接続する規格（例えばＵＳＢ（Universal Serial Bus）やＳＣＳＩ（Small Computer System Interface）等の有線接続やｂｌｕｅｔｏｏｔｈ等の無線接続の規格）に応じて構成さ
れる。また、記録媒体（例えば各種フラッシュメモリやフロッピー（登録商標）ディスクやＣＤ（Compact Disk）やＤＶＤ（Digital Versatile Disc、Digital Video Disc））に記録された原画像のデータが文字列抽出装置１へ入力されても良い。この場合、画像入力部２は、記録媒体からデータを読み出す装置（例えばフラッシュメモリリーダやフロッピーディスクドライブやＣＤドライブやＤＶＤドライブ）を用いて構成される。

また、文字列抽出装置１がデジタルカメラ等の撮像装置又はデジタルカメラ等の撮像装置を備える各種装置（例えばＰＤＡ（Personal Digital Assistant）や携帯電話機）の内部に含まれ、撮像された情景画像が原画像のデータとして文字列抽出装置１へ入力されても良い。この場合、画像入力部２は、ＣＣＤ（Charge-Coupled Devices）やＣＭＯＳ（Complementary Metal-Oxide Semiconductor）センサ等を用いて構成されても良いし、ＣＣ
ＤやＣＭＯＳセンサなどによって撮像された原画像のデータを文字情報抽出装置３に入力させるためのインタフェースとして構成されても良い。また、文字列抽出装置１が、プリンタやディスプレイ等の画像出力装置の内部に含まれ、出力データとしてこの画像出力装置に入力された情景画像が原画像のデータとして文字列抽出装置１へ入力されても良い。この場合、画像入力部２は、これらの画像出力装置に入力された原画像のデータを文字列抽出装置１において取り扱い可能なデータに変換する装置などを用いて構成される。

また、画像入力部２は上記された複数の場合に応じることが可能となるように構成されても良い。

〔文字情報抽出装置〕
文字情報抽出装置３は、入力された情景画像から、文字と推測される画像（文字成分）の位置や大きさ等を取得する。例えば、文字情報抽出装置３は、文字と推測される画像を内包する最小の矩形（外接矩形）の大きさやその位置などを含む情報を文字情報として取得する。

上記のような作用を実現するため、文字情報抽出装置３は、画像変換部７，文字候補判定部８，及び文字成分抽出部９を含む装置として構成される。文字情報抽出装置３は、文字列抽出装置１から独立してＣＰＵ及び／又はＲＡＭ等を備える装置として構成されても良いし、文字列抽出装置１に備えられたＣＰＵ及び／又はＲＡＭ等を用いて処理を行う装置として構成されても良い。また、文字情報抽出装置３は、文字列抽出装置１のＣＰＵやＲＡＭ等によって実行されるプログラムによって実現される仮想的な装置として構成されても良い。以下、文字情報抽出装置３に含まれる各機能部について説明する。

〈画像変換部〉
画像変換部７は、文字候補判定部８及び文字成分抽出部９において用いられる二値画像を生成する。図２は、画像変換部７によって実行される各処理により生成される画像の例
を示す図である。以下、図２を用いて画像変換部７の具体的な処理例について説明する。

まず、画像変換部７は、原画像を８ビット（ｂｉｔ）のグレースケールの画像（以下、この画像を「濃淡画像」と呼ぶ）に変換する（図２（ａ）に相当）。当然、原画像が８ビットのグレースケールの画像である場合にはこの変換処理は実行されない。

次に、画像変換部７は、濃淡画像からエッジを抽出する。画像中のエッジは、画像をいったんぼかした後に二次微分フィルタをかけることによって得ることができる。ここでは、このようなフィルタの一例としてＬｏＧフィルタを適用する。即ち、画像変換部７は、濃淡画像に対しＬｏＧフィルタをかけ、ＬｏＧ画像を生成する（図２（ｂ）に相当）。図３は、画像変換部７によって用いられるＬｏＧフィルタの例を示す図である。ＬｏＧフィルタは、画像をぼかし、その後画像のエッジを強調する効果を有するフィルタである。ＬｏＧフィルタを適用することにより、濃淡画像をぼかしてからエッジを抽出することが可能となり、ノイズの影響を軽減しながら濃淡画像中のエッジを抽出することが可能となる。このようなＬｏＧフィルタを濃淡画像中の全ての画素（ただし、濃淡画像の周囲２画素を除く）に対してかけることによりＬｏＧ画像が生成される。なお、図３に示されるＬｏＧフィルタは例であり、ＬｏＧフィルタの大きさや各格子の値はこの図に示された大きさ（５×５）や各格子の値に制限されない。

次に、画像変換部７は、ＬｏＧ画像中の絶対値が小さいものを“０”に置き換えることにより、変更後ＬｏＧ画像を作成する。このとき、画像変換部７は、所定の閾値をもって、各値の絶対値が小さいか否か、即ち“０”に置き換えるべきか否か判断する。所定の閾値には、例えばＬｏＧ画像中の正の値の平均値と負の値の絶対値の平均値とのうち大きい方又は小さい方が適用されても良いし、ＬｏＧ画像中の全画素における値の絶対値の平均値が適用されても良いし、予め定められた値が適用されても良いし、ＬｏＧ画像から他の統計的手法によって得られた値が閾値として適用されても良い。

次に、画像変換部７は、変更後ＬｏＧ画像から二値画像を作成する。具体的には、画像変換部７は、変更後ＬｏＧ画像中の正又は“０”の値を有する画素を文字候補と判断し、これらの画素を例えば“０”に置き換える。以下、このようにして生じる“０”を有する画素を「黒画素」と呼ぶ。また、画像変換部７は、変更後ＬｏＧ画像中の負の値を有する画素を背景候補と判断し、これらの画素を例えば“１”に置き換える。以下、このようにして生じる“１”を有する画素を「白画素」と呼ぶ。このような処理によって、画像変換部７は二値画像を生成する（図２（ｃ）に相当）。また、画像変換部７は、変更後ＬｏＧ画像中の負又は“０”の値を文字候補と判断しこれらの画素を例えば“０”（即ち黒画素）に置き換え、変更後ＬｏＧ画像中の正の値を背景候補と判断しこれらの画素を例えば“１”（即ち白画素）に置き換えることによっても二値画像を生成する。以下、前者の二値画像を「正二値画像」と呼び、後者の二値画像を「負二値画像」と呼ぶ。画像変換部７は、この二つの二値画像（正二値画像と負二値画像）を生成する。

〈文字候補判定部〉
文字候補判定部８は、画像変換部７によって生成された二値画像（正二値画像，負二値画像）から連結成分を抽出し文字候補となる連結成分を判断する。ここで、連結成分とは、二値画像中において、黒画素又は白画素のいずれかに注目した場合に（注目された方の画素を「注目画素」と呼ぶ）、縦，横，斜めに隣接する注目画素のかたまりのことを示す。図４は、連結成分の例を示す図である。図４（ａ）のような二値画像には、黒画素に注目した場合、図４（ｂ）と図４（ｃ）に示される二つの連結成分が存在する。

連結成分の抽出方法について説明する。文字候補判定部８は、ラベリングを行うことにより連結成分の抽出を実行する。ラベリングとは、二値画像の連結成分ごとに異なったラ
ベル（番号）を付す処理のことである。ラベリングにより作成された画像をラベル画像と呼ぶ。図５は、図４（ａ）に示される二値画像におけるラベル画像の例を示す図である。図５では、背景候補の画素には“０”が与えられ、各連結成分の画素には“１”以上の値で連結成分ごとに異なる値が与えられている。

次に、文字候補判定部８の具体的な処理例について、正二値画像に対する処理を例として説明する。文字候補判定部８は、正二値画像において、黒画素に注目し連結成分を抽出する。また、文字候補判定部８は、抽出された連結成分を内包する最小の矩形を外接矩形として取得する。図６は、外接矩形の例を示す図である。図６において、破線によって示される矩形が、“あ”という文字を構成する連結成分（黒画素の連結成分）を内包する外接矩形となる。

次に、文字候補判定部８は、抽出された各連結成分について、連結成分全体の画素数Ｓと、連結成分の輪郭線を構成する画素数Ｌとを取得する。ここで、輪郭線とは、連結成分と背景（連結成分以外の画素）との境界に位置する連結成分の画素を示す。図７は輪郭線の例を示す図である。図７（ａ）に示される連結成分においては、図７（ｂ）に示される斜線部分が輪郭線として判断される。

次に、文字候補判定部８は、抽出された各連結成分について、連結成分全体の画素のうち、変更後ＬｏＧ画像における画素の値の絶対値（以下、「ＬｏＧ値」と呼ぶ）が閾値以上である画素の数をＳ’として取得する。また、文字候補判定部８は、抽出された各連結成分について、輪郭線を構成する画素のうち、ＬｏＧ値が閾値以上である画素の数をＬ’として取得する。所定の閾値には、例えばＬｏＧ画像中の正の値の平均値と負の値の絶対値の平均値とのうち大きい方又は小さい方が適用されても良いし、ＬｏＧ画像中の全画素における値の絶対値の平均値が適用されても良いし、予め定められた値が適用されても良いし、ＬｏＧ画像や変更後ＬｏＧ画像から他の統計的手法によって得られた値が閾値として適用されても良い。このとき、ＬｏＧ画像中の絶対値が小さいものを“０”に置き換える際に使用される閾値と、Ｓ’やＬ’の値を得る際に使用される閾値とが同じ閾値である場合、Ｓ’やＬ’の値を得る際には連結成分を構成する各画素のうち単にＬｏＧ値として“０”以外の値を有する画素を数えればよい。

次に、文字候補判定部８は、各連結成分について、Ｓ’／Ｓ及びＬ’／Ｌを算出する。そして、文字候補判定部８は、各連結成分についてＳ’／ＳとＬ’／Ｌとがそれぞれ閾値ＴＳとＴＬとよりも大きいか否か判定し、この二つの値がそれぞれの閾値よりも大きい連結成分を文字候補として判断する。一般的に、文字画像と背景画像との境界では濃淡勾配が大きくなるため、領域の輪郭部分に大きなＬｏＧ値を有する画素が現れる。従って、文字画像の連結成分における輪郭線は、全体的にＬｏＧ値が大きくなり、Ｌ’／Ｌの値が大きくなる。また、文字画像は一般的に幅の細い線によって構成されるため、その連結成分中の輪郭線が占める割合は大きくなる。従って、文字画像の連結成分におけるＳ’／Ｓの値は大きくなる。

なお、デジタルカメラ画像の場合、ＴＳの値は０．４程度（０．３≦ＴＳ≦０．５，０．３≦ＴＳ＜０．５など）、ＴＬの値は０．８程度（０．７≦ＴＬ≦０．９，０．７≦ＴＬ＜０．９など）が適切である。また、低品質な画像（例えば携帯電話機やＰＤＡに付随するデジタルカメラにより撮像された画像）の場合、ＴＳとＴＬとの値は上記より少し低め、例えばそれぞれ０．３程度、０．７程度が適切である。

〈文字成分抽出部〉
文字成分抽出部９は、文字候補判定部８によって文字候補と判断された各連結成分の中から文字と推測される連結成分（以下、「文字成分」と呼ぶ）を選択し、各文字成分に係
る文字情報を取得する。ここで選択される各文字成分が、文字情報抽出装置３によって文字であると最終的に判断された連結成分となる。また、文字成分抽出部９は、文字候補と判断された連結成分のみによって構成される画像（以下、「文字候補画像」と呼ぶ）からノイズ（文字と推測されない連結成分）を除去することにより、文字成分のみによって構成される画像（以下、「文字成分画像」と呼ぶ）を生成する。以下、文字成分抽出部９の具体的な処理例について説明する。

文字成分抽出部９は、文字候補と判断された連結成分のみによって構成される文字候補画像を取得する。次に、文字成分抽出部９は、以下に示す全ての条件を満たす連結成分を文字成分と判断する。
（条件１）外接矩形の高さと幅とがそれぞれ一定の範囲の大きさである。
（条件２）画像（原画像，濃淡画像，ＬｏＧ画像，変更後ＬｏＧ画像，文字候補画像のいずれか。いずれであるかは設計者によって適宜設定されて良い）の端に接していない。
（条件３）濃淡画像において、背景画素との濃度差が大きい。

なお、背景画素とは、連結成分の周囲の画素を示し、例えば連結成分の各画素から数ピクセル以内の距離にある全画素を示す。図８は、連結成分の各画素から３ピクセル以内の距離にある画素を背景画素とした場合の例を示す図である。図８において、黒い画素は連結成分を構成する画素を示し、縦縞の画素は背景画素を示す。条件３において、濃淡画像における背景画素の平均濃度と連結成分の画素の平均濃度との差が閾値（例えば“２０”：この値は設計者によって適宜決定されて良い）よりも大きい場合に、この連結成分（文字候補）は条件を満たすと判断される。図９は、文字候補画像と文字成分画像の例を示す図である。図９（ａ）は、文字候補画像の例を示す。図９（ｂ）は、文字成分画像の例を示す。文字成分抽出部９の処理により、上記三つの条件を満たさなかった連結成分（例えば左上に存する複数の直線）が、文字成分画像において削除されている。文字成分抽出部９は、正二値画像と負二値画像とのそれぞれについて、このような文字成分画像を取得する。このとき、文字成分抽出部９は、それぞれの文字成分画像における各文字成分に係る外接矩形の大きさやその位置などを文字情報として取得しておく。この他、文字成分抽出部９は、各外接矩形の中心点の座標や連結成分の太さ（即ち文字線の太さ）などをさらに文字情報として取得しても良い。

ここでは、上記三つの条件を全て満たす連結成分のみが文字成分として判断されているが、この条件は適宜増減されても良い。例えば、条件２を省き、条件１及び条件３を満たす連結成分が文字成分として判断されるように構成されても良いし、上記三つの条件に加えてさらに他の条件を満たす場合に文字成分として判断されるように構成されても良い。

文字成分抽出部９は、正二値画像と負二値画像とについて文字成分画像やそれぞれの画像における各文字成分の文字情報を取得すると、これらのデータを文字情報抽出装置３の外部へ出力する。この場合、文字情報抽出装置３は文字列抽出装置１に含まれているため、文字線抽出部４に対しこれらのデータを出力する。

〔文字線抽出部〕
文字線抽出部４は、各文字成分の輪郭線を折線近似することにより、文字輪郭線を取得する。文字線抽出部４は、既存のどのような手法を適用することにより折線近似を実施しても良い。以下に折線近似の手法の例について説明する。

図１０は、折線近似の処理例を示す図である。まず、文字線抽出部４は、各文字成分の輪郭線に対して細線化を実施することにより、各輪郭線を１ドットの太さに細める。図１０（ａ）は、ある輪郭線が細線化された場合の例を示す図である。次に、文字線抽出部４は、細線化された輪郭線（以下の文字線抽出部４の説明において、「輪郭線」は「細線化
された輪郭線」を指すものとする）の端点（二つの端点のうちいずれが選択されても良い。ここでは、例えば左上方向に位置する端点）を近似開始点として設定する。なお、輪郭線が円のように周回しているために端点が存在しない場合、文字線抽出部４は輪郭線上の適当な点を近似開始点としても良い。図１０（ａ）において、白抜きの矩形が近似開始点の例である。

次に、文字線抽出部４は、近似開始点から順に一つずつ輪郭線の画素を探索し、各画素において近似開始点と現在探索している画素とを結ぶ直線を作成する。次に、文字線抽出部４は、この直線と、これまで探索してきた各画素との距離を算出し、その距離の中で最大のものを選択する。そして、文字線抽出部４は、選択された最大の距離と閾値とを比較し、この距離が閾値を超えるまで次の画素の探索を続ける。この閾値は、設計者によって適宜決定されて良い。この閾値が小さいほど正確な近似が実施され、この閾値が大きいほど大雑把な近似が実施される。

算出された距離の最大値が閾値を超えた場合、文字線抽出部４は、その時点で探索している画素と近似開始点とを結ぶ直線を生成し、この直線をもって、これまで探索してきた画素の近似を行う。この場合、文字線抽出部４は、この時点で探索している画素を新たな近似開始点として設定し、同様の処理を行うことでそれ以後の画素の近似を行う。そして、輪郭線全てが直線に近似された時点で処理を終了する。例えば、輪郭線を構成する全ての画素について探索が完了した時点で、例えその時点における直線と各画素との距離の最大値が閾値を超えていなくとも近似を行い、処理を終了する。

文字線抽出部４は、折線近似を、文字情報抽出装置３によって抽出された全ての文字成分の輪郭線に対して実行し、各文字成分の文字輪郭線を取得する。そして、文字線抽出部４は、取得された文字輪郭線により構成される画像（以下、「文字輪郭線画像」と呼ぶ）を文字列判定装置５へ出力する。図１１は、文字輪郭線画像の例を示す図である。図１１（ａ）は文字成分画像の例であり、図１１（ｂ）は図１１（ａ）に示される文字成分画像から作成される文字輪郭線画像の例である。

〔文字列判定装置〕
文字列判定装置５は、入力された文字輪郭線画像（例えば図１１（ｂ））から、文字情報を用いることにより、ほぼ同じ大きさの文字成分のみで構成された文字列領域を抽出する。文字列判定装置５は、文字線抽出部４によって折線近似された輪郭線に対して線分Ｈｏｕｇｈ変換（以下、「ハフ変換」と呼ぶ）を実行することで、文字列の上下辺をなす平行線を求め、文字列の傾きを決定し、抽出すべき文字列領域を特定する。

上記のような作用を実現するため、文字列判定装置５は、基点文字パターン抽出部１０，文字列判定部１１，及び重複情報除去部１２を含む装置として構成される。文字列判定装置５は、文字列抽出装置１から独立してＣＰＵ及び／又はＲＡＭ等を備える装置として構成されても良いし、文字列抽出装置１に備えられたＣＰＵ及び／又はＲＡＭ等を用いて処理を行う装置として構成されても良い。また、文字列判定装置５は、文字列抽出装置１のＣＰＵやＲＡＭ等によって実行されるプログラムによって実現される仮想的な装置として構成されても良い。以下、文字列判定装置５に含まれる各機能部について説明する。

〈基点文字パターン抽出部〉
基点文字パターン抽出部１０は、文字情報抽出装置３によって判断された文字成分の中から、文字である可能性が高い文字成分を基点文字パターンとして抽出する。基点文字パターン抽出部１０は、以下に示す両条件を満たす文字成分を基点文字パターンとして抽出する。
（条件１）外接矩形の縦横比が所定の範囲内（例えば、１／２〜２の範囲内）にある。
（条件２）濃淡画像において、文字成分を構成する画素と背景画素との濃度ヒストグラムを生成した場合に、その分離度が閾値（この閾値は設計者によって適宜設定されて良い）以上である。

まず、条件１について説明する。文字をなす連結成分の外接矩形は、「一」などの特殊な例外を除いてほぼ正方形かそれに近い縦横比の長方形をなす。このため、基点文字パターン抽出部１０は、条件１を満たす文字成分を抽出することにより、文字である可能性が高い文字成分を抽出することが可能となる。

次に条件２について説明する。まず、分離度について説明する。分離度とは、画像の濃度ヒストグラムをある閾値で二つのクラス（Ｃ１，Ｃ２）に分けたときの画素の分離の度合いを示す値である。分離度が高いほど二つのクラス間でヒストグラムがはっきり分離されることとなり、その閾値は有効な（良い）閾値であるといえる。閾値をＴとしたときの分離度η（Ｔ）は、数１によって得られる。

ここで、σＢ^２（Ｔ）はクラス間分散、σＷ^２（Ｔ）はクラス内分散を示す。また、ここで、μ１，μ２，μＴはそれぞれＣ１，Ｃ２，全体に属する画素の濃度の平均値を示し、ｉは画素の濃度を示し、ｎｉは濃度ｉを持つ画素の個数（度数）を示す。なお、ここで示した分離度の算出法は例であり、その他の方法によって同様の趣旨の値が分離度として算出されるように構成されても良い。

文字は一般的に背景に対して目立つ色で描かれるため、一般的には、文字成分を構成する画素と背景画素との間には明確な明度の差が生じる。このため、条件２を満たす文字成分を抽出することにより、文字である可能性が高い文字成分を抽出することが可能となる。

ここでは、上記二つの条件を全て満たす文字成分のみが基点文字パターンとして判断されるが、この条件は適宜増減されても良い。例えば、条件１又は条件２のいずれかを満たす文字成分が基点文字パターンとして抽出されるように構成されても良いし、上記二つの条件に加えてさらに他の条件を満たす場合に文字成分が基点文字パターンとして抽出されるように構成されても良い。

〈文字列判定部〉
文字列判定部１１は、各基点文字パターンについて、その基点文字パターンを含む文字列を判定する。具体的には、文字列判定部１１は、各基点文字パターンについて以下の処理を実行する。

まず、文字列判定部１１は、文字成分の中から、処理の対象としている基点文字パターンと外接矩形の大きさや線幅（文字としての線幅）などが似ている文字成分を選択する。
以下、このように選択された文字成分を「文字列候補成分」と呼ぶ。

次に、文字列判定部１１は、文字列を探索するための領域を設定する。この領域は、例えば処理の対象となっている基点文字パターンの外接矩形の幅と高さのうち長い方の数倍の長さの幅及び高さを有する正方形領域として設定される。図１２は、「甬」という基点文字パターンが処理の対象となっている場合に設定された領域の例を示す図である。図１２において示される領域は、「甬」という基点文字パターンの外接矩形の幅と高さのうち長い方の６倍の長さを一辺の長さとして有する正方形によって表される領域であり、この外接矩形の中心点（図中の黒丸）を中心として位置する領域である。そして、文字列判定部１１は、文字列候補成分の中から、設定された領域の中にその外接矩形の中心が含まれる文字成分を選択する。以下、このように選択された文字成分を「変換対象文字成分」と呼ぶ。

次に、文字列判定部１１は、変換対象文字成分の文字輪郭線に対し、ハフ変換を行う。なお、文字列判定部１１は、ハフ変換を行う前に、ハフ変換の対象となる線分に対し座標変換を行う。具体的には、文字列判定部１１は、ハフ変換の対象となる線分の座標を、それまで使用されていた座標系（例えば画像の左上を原点（０，０）とする座標系）から、処理の対象となっている基点文字パターンの外接矩形の中心座標を原点（０，０）とする座標系に変換する。このような座標変換を行うことにより、ハフ変換された文字成分は、ハフ平面内にρ＝０を中心に存在することとなる。

図１３は、図１２に例示された変換対象文字成分に対して実施されたハフ変換の結果の例を示す図である。図１３（ａ）はハフ平面の例を示す図である。文字列判定部１１は、ハフ平面の各θにおけるρ方向のヒストグラムを解析し、以下の条件１〜条件３の全てを満たす尾根（以下、「文字列尾根候補」と呼ぶ）の情報、即ち（ρ１，ρ２，θ０）を検出する。ここで、尾根とは、あるθにおけるヒストグラムに表される一つの山を示す。例えば、図１３（ｂ）において丸に囲まれている黒い部分が一つの尾根として判断される。また、θ０は、該当する尾根が検出されたヒストグラムのハフ平面における角度（図１３（ａ）における横軸の値）を示す。また、ρ１，ρ２は、該当する尾根の両端のエッジの位置（図１３（ｂ）の各ヒストグラムにおいて二本の破線によって示されるρの値）を示す。
（条件１）注目している尾根を含むヒストグラムの分離度が非常に大きい（即ち、ヒストグラムの分離度が、設定されている閾値よりも大きい）。
（条件２）尾根がρ＝０をはさんで存在する。
（条件３）尾根のρ方向の長さが、処理対象となっている基点文字パターンの外接矩形の長さと似ている（即ち、尾根のρ方向の長さ（ρ１とρ２との差の絶対値）と、処理対象となっている基点文字パターンの外接矩形の長さとの差が閾値よりも小さい）。

画像中に含まれる文字列を、その文字列の方向（即ちその文字列を構成する各文字が並ぶ方向・角度）へ投影すると、各文字が重なる。従って、文字列の方向を示すθ０におけるヒストグラムでは、その分離度は高くなる。このため、条件１を満たす角度θ０の尾根を検出することにより、基点文字パターンを含む文字列による尾根を検出することが可能となる。

また、文字列判定部１１により実施されるハフ変換は、処理対象となっている基点文字パターンの外接矩形の中心を原点として実施されるため、この基点文字パターンを含む文字列による尾根は、ρ＝０をほぼ中心にはさんで存在する。このため、条件２を満たす尾根を検出することで、処理対象となっている基点文字パターンを含む文字列による尾根を検出することが可能となる。

また、尾根のρ方向の長さは、尾根に対応する文字列の高さを示している。このため、条件３を満たす尾根を検出することにより、基点文字パターンを含む文字列による尾根を検出することが可能となる。

このような三つの条件を全て満たす全ての尾根が検出されても良い。図１３（ｂ）は、図１３（ａ）に示されるハフ平面から検出された文字列尾根候補を含むヒストグラムの形状の例であり、それぞれθ０．１，θ０．２，θ０．３における尾根を示す図である。

ここでは、上記三つの条件を全て満たす尾根のみが文字列尾根候補として検出されているが、この条件は適宜増減されても良い。例えば、条件１を省き、条件２及び条件３を満たす尾根が検出されるように構成されても良いし、上記三つの条件に加えてさらに他の条件を満たす尾根のみが検出されるように構成されても良い。

次に、文字列判定部１１は、検出された各文字列尾根候補に対応する文字列の傾き及び文字列領域の上下辺をなす直線を、文字列候補情報として取得する。ここで、文字列領域とは、一つの文字列を内包する四角形であり、各頂点（四頂点）の座標によって表される。また、文字列の傾きは、検出されたθ０を９０度ずらしたものに相当する。また、文字列領域の上下辺をなす直線は、それぞれθ０とρ１，ρ２を用いて数２のように求められる。

文字列判定部１１は、検出された全ての文字列候補情報について、以下の処理を実施する。まず、文字列判定部１１は、文字列候補成分のうち、その外接矩形の中心点が、文字列候補情報によって表される二本の直線の間に存在する文字列候補成分を抽出する。次に、文字列判定部１１は、抽出された文字列候補成分を、文字列の傾き（文字列候補情報に含まれる値）分だけ回転させることにより、各文字列候補成分が水平方向に並ぶようにする。次に、文字列判定部１１は、回転後の文字列候補成分の外接矩形を垂直方向に投影し、それらが重なるものもしくは内包される文字列候補成分を一つに統合する。図１４は、このような統合の例を示す図である。図１４には各文字列候補成分の外接矩形が示されている。図１４（ａ）は実際の文字列の画像を示す図であり、図１４（ｂ）は統合前の外接矩形の状態を示す図であり、図１４（ｃ）は統合後の外接矩形の状態を示す図である。この処理により、それまで複数の部位に分かれた文字列候補成分として保持されていた「橋」や「通」の文字が、一つの文字列候補成分として統合される。このような統合を行うことにより、各文字列候補成分の外接矩形の中心点をより正確に取得することが可能となる。文字列候補情報によって表される二本の直線の間に存在する文字列候補成分がこのように統合された後の各文字列候補成分を「文字列成分」と呼ぶ。

次に、文字列判定部１１は、各文字列候補情報に含まれる上下辺をなす二直線の中心線を取得する。文字列判定部１１は、この中心線と、文字列成分の外接矩形の中心点との距離を算出する。そして、文字列判定部１１は、算出された距離に基づいて、一つの文字列候補情報を最終的に選択する。例えば、文字列判定部１１は、算出された距離の合計値や平均値が最小の文字列候補情報を選択する。図１５は、三つの文字列候補情報における文字列の傾きの例を示す図である。図１５において、点線は各文字列候補情報における中心線を示し、各黒点は各文字列成分の外接矩形の中心点を示す。図１５の例では、（ｂ）に示される文字列候補情報が選択される。

次に、文字列判定部１１は、この文字列候補情報に従って、処理の対象となっている基点文字パターンを含む文字列の文字列情報を取得する。具体的には、文字列判定部１１は、文字列成分の外接矩形全てを内包する矩形のうち最小の外接矩形を取得する。このとき、文字列判定部１１は、この外接矩形を構成する四点の頂点座標を取得する。図１６は、このような矩形の例を示す図である。そして、文字列判定部１１は、このようにして得られた矩形に対し回転処理や並進処理を実施することにより、この矩形を原画像における座標系に戻し、原画像の座標系におけるこの矩形の四頂点の座標を文字列情報として取得する。

上記したように、文字列判定部１１は、このような処理を全ての基点文字パターンについて実施する。従って、文字列判定部１１は、基点文字パターン抽出部１０によって抽出された基点文字パターンの数だけ、文字列情報を取得する。図１７は、このような処理によって取得された文字列情報により表される文字列領域の例を示す図である。

〈重複情報除去部〉
重複情報除去部１２は、文字列判定部１１によって取得された複数の文字列情報の中から、重複している情報を削除し、残ったものを最終的な文字列情報として取得する。具体的には、各文字列情報における四頂点の座標や文字列の傾き等の値から文字列情報同士の類似度を判断し、類似である文字列情報を重複した文字列情報として削除する。例えば、四頂点の距離の平均や合計などが閾値よりも小さい場合や文字列の傾きの差が閾値よりも小さい場合などに、類似した文字列情報として判断される。図１８は、重複情報の除去の例を示す図である。図１８（ａ）は重複情報が除去される前の文字列情報の例を示す図であり、図１８（ｂ）は重複情報が除去された後の文字列情報の例を示す図である。

〔文字列出力部〕
文字列出力部６は、文字列判定装置５によって判定された結果を、文字列抽出装置１の外部に対して出力するためのインタフェースとして機能する。文字列出力部６は、文字列判定装置１から上記判定結果を出力するためのどのような既存技術を用いて構成されても良い。

［動作例］
図１９〜図２３は、文字列判定装置１の動作例を示すフローチャートである。以下、図１９〜図２３を用いて、文字判定装置１の動作例について説明する。

まず、画像入力部２を介して画像が入力されると、画像変換部７は、この画像を８ｂｉｔのグレースケールに変換することにより、濃淡画像を生成する（Ｓ０１）。次に、画像変換部７は、濃淡画像に対してＬｏＧフィルタをかけることにより、ＬｏＧ画像を生成する（Ｓ０２）。次に、画像変換部７は、ＬｏＧ画像を元に変更後ＬｏＧ画像を生成し（Ｓ０３）、さらに変更後ＬｏＧ画像を元に二値画像を生成する（Ｓ０４）。なお、この動作例の説明では、Ｓ０４の処理において正二値画像と負二値画像のいずれか片方が生成され、後に説明するＳ１７の処理終了後に他方がさらに生成されるが、Ｓ０４の処理において双方が一度に生成されるように構成されても良い。

Ｓ０４の処理の後、文字候補判定部８は、生成された二値画像から連結成分を抽出し（Ｓ０５）、各連結成分の外接矩形を取得する（Ｓ０６）。次に、文字候補判定部８は、各連結成分について、Ｓ’／ＳとＬ’／Ｌとの値を算出する（Ｓ０７）。文字候補判定部８は、Ｓ’／Ｓの値が閾値ＴＳ以上でありかつＬ’／Ｌの値がＴＬ以上である場合に（Ｓ０８−Ｙｅｓ）、この連結成分を文字候補として判断する（Ｓ０９）。一方、Ｓ’／Ｓの値が閾値ＴＳ未満またはＬ’／Ｌの値がＴＬ未満である場合（Ｓ０８−Ｎｏ）、文字候補判定部８は、この連結成分を文字候補とは判断しない。文字候補判定部８は、Ｓ０７〜Ｓ０
９に渡る処理を全ての連結成分について行う（Ｓ１０）。

次に、図２０を用いてＳ１１以降の処理について説明する。全ての連結成分について文字候補に係る判断が終了すると（Ｓ１０−Ｙｅｓ）、文字候補判定部８は、ある文字候補について、その外接矩形の高さと幅とが一定の範囲内の大きさであるか否か判断する。外接矩形の高さと幅とが一定の範囲内の大きさである場合（Ｓ１１−Ｙｅｓ）、文字候補判定部８は、この文字候補としての連結成分が画像の端に接しているか否か判断する。連結成分が画像の端に接していない場合（Ｓ１２−Ｙｅｓ）、さらに文字候補判定部８は、濃淡画像においてこの文字候補の画素と背景画像との濃度差が閾値を超えているか否か判断する。濃度差が閾値を超えている場合（Ｓ１３−Ｙｅｓ）、文字候補判定部８は、この文字候補を文字成分と判断する（Ｓ１４）。一方、文字候補判定部８は、Ｓ１１〜Ｓ１３の条件を満たさない文字候補については、文字成分とは判断しない（Ｓ１１−Ｎｏ，Ｓ１２−Ｎｏ，Ｓ１３−Ｎｏ）。

文字候補判定部８は、Ｓ１１〜Ｓ１４に渡る処理を全ての文字候補について実行する（Ｓ１５）。文字候補判定部８は、全ての文字候補について文字成分に係る判断を終了すると（Ｓ１５−Ｙｅｓ）、各文字成分についての文字情報を取得する（Ｓ１６）。そして、文字候補判定部８は、Ｓ０５〜Ｓ１６に渡る処理を、正二値画像と負二値画像との双方に実行する（Ｓ１７）。ここに示す動作例においては、Ｓ１６の処理の後、文字候補判定部８は正二値画像と負二値画像との双方についての処理が終了したか否か判断する。終了していない場合（Ｓ１７−Ｎｏ）、画像変換部７は、他方の二値画像（即ちＳ０４において生成されていない方の二値画像）を生成し、この二値画像について文字候補判定部８はＳ０５〜Ｓ１６の処理を実行する。

次に、図２１を用いてＳ１８以降の処理について説明する。双方の二値画像について文字成分を抽出するための処理が終了すると（Ｓ１７−Ｙｅｓ）、文字線抽出部４は、全ての文字成分の輪郭線を折線近似する（Ｓ１８，Ｓ１９）。全ての文字成分について折線近似が終了すると（Ｓ１９−Ｙｅｓ）、基点文字パターン抽出部１０は、各文字成分の外接矩形の縦横比を取得し、その比が所定の範囲内の値であるか否か判断する。取得された比が所定の範囲内の値である場合（Ｓ２０−Ｙｅｓ）、基点文字パターン抽出部１０は、さらにこの文字成分の画素と背景画素との分離度を算出し、その分離度が閾値以上であるか否か判断する。算出された分離度が閾値以上である場合（Ｓ２１−Ｙｅｓ）、基点文字パターン抽出部１０は、この文字成分を基点文字パターンとして抽出する（Ｓ２２）。一方、基点文字パターン抽出部１０は、Ｓ２０又はＳ２１の条件を満たさない文字成分については、基点文字パターンとは判断しない（Ｓ２０−Ｎｏ，Ｓ２１−Ｎｏ）。

基点文字パターン抽出部１０は、Ｓ２０〜Ｓ２２に渡る処理を全ての文字成分について実行する（Ｓ２３）。基点文字パターン抽出部１０が全ての文字成分について基点文字パターンに係る判断を終了すると（Ｓ２３−Ｙｅｓ）、文字列判定部１１は、各基点文字パターンに基づいて文字列を判定する処理を開始する。Ｓ２４以降の処理例について、図２２を用いて説明する。まず、文字列判定部１１は、処理の対象としている（注目している）基点文字パターンに基づいて、文字列候補成分を選択する（Ｓ２４）。次に、文字列判定部１１は、処理の対象としている基点文字パターンに基づいて変換対象文字成分を選択し（Ｓ２５）、変換対象文字成分に対しハフ変換を実行し（Ｓ２６）、ハフ平面を取得する。

文字列判定部１１は、ハフ平面の各θにおける各尾根について文字列尾根候補となるか否か判断する。具体的には、文字列判定部１１は、その尾根を含むヒストグラムについて、その分離度が閾値よりも大きいか否か判断する。この分離度が閾値よりも大きい場合（Ｓ２７−Ｙｅｓ）、文字列判定部１１は、そのヒストグラムにおける尾根がρ＝０をはさ
んで存在するか否か判断する。尾根がρ＝０をはさんで存在する場合（Ｓ２８−Ｙｅｓ）、その尾根のρ方向の長さが基点文字パターンの外接矩形の長さ（高さ）と似ているか否か判断する。尾根のρ方向の長さと外接矩形の長さとが似ている場合（Ｓ２９−Ｙｅｓ）、文字列判定部１１は、この尾根を文字列尾根候補と判断する（Ｓ３０）。一方、文字列判定部１１は、Ｓ２７〜Ｓ２９の条件を満たさない尾根については、文字列尾根候補とは判断しない。

文字列判定部１１は、Ｓ２７〜Ｓ３０に渡る処理を全ての尾根について実行する（Ｓ３１）。文字列判定部１１は、全ての尾根について文字列尾根候補に係る判断を終了すると（Ｓ３１−Ｙｅｓ）、各文字列尾根候補に基づいて文字列領域の上下辺を成す二本の直線を、文字列の傾きとともに文字列候補情報として取得する（Ｓ３２）。Ｓ３２以降の処理例について、図２３を用いて説明する。次に、文字列判定部１１は、この二本の直線の間にある文字列候補成分を抽出する（Ｓ３３）。次に、文字列判定部１１は、抽出された文字列候補成分を統合する（Ｓ３４）。そして、文字列判定部１１は、各文字列候補情報によって示される二本の直線の中心線を取得し（Ｓ３５）、この中心線とＳ３３の処理で抽出された各文字列候補成分の中心点との距離の和を算出し（Ｓ３６）、この距離の和が最小となった中心線に係る文字列候補情報を選択する。そして、文字列判定部１１は、この文字列候補情報に基づいて、文字列情報を取得する（Ｓ３７）。

文字列判定部１１は、Ｓ２４〜Ｓ３７に渡る処理を全ての基点文字パターンに基づいて実行する（Ｓ３８）。文字列判定部１１が全ての基点文字パターンに基づいた処理を終了すると（Ｓ３８−Ｙｅｓ）、重複情報除去部１２は、重複した文字列情報を削除する（Ｓ３９）。そして、文字列出力部６は、重複情報除去部１２によって重複部分が削除された結果残った文字列情報を出力する（Ｓ４０）。

上記動作例の中で、Ｓ０１〜Ｓ１７の処理が文字情報抽出装置３によって実行される処理である。このため、文字情報抽出装置３が単体として動作する場合には、Ｓ０１〜Ｓ１７までの処理が実行され、文字情報や文字成分画像などが出力されても良い。また、上記動作例の中で、Ｓ２０〜Ｓ３９の処理が文字列判定装置５によって実行される処理である。このため、文字列判定装置５が単体として動作する場合には、Ｓ２０〜Ｓ３９までの処理が実行され、文字列情報などが出力されるように構成されても良い。

［作用／効果］
ＬｏＧフィルタを用いた文字検出において、従来は、変更後ＬｏＧ画像から正の値又は負の値を持つ画素が文字を構成する画素の候補として判断され、“０”の値を持つ画素はこのような候補として判断されていなかった。なぜならば、変更後ＬｏＧ画像において“０”の値を有する画素は、その周囲がほとんど同じ画素値を有することを示しており、「面の内部」と考慮され、文字を構成する「線」としては考慮されなかったためである。そして、変更後ＬｏＧ画像において、ある画素が“０”の値を有するか否か、即ち各太さの線が「線」として考慮されるか否かは、適用されるＬｏＧフィルタの大きさに従うものであった。

一方、文字列抽出装置１に備えられた文字情報抽出装置３では、変更後ＬｏＧ画像から“０”の値を持つ画素が正の値を持つ画素とともに文字を構成する画素の候補として判断される。つまり、適用されるＬｏＧフィルタによっては「線」としてではなく「面の内部」と判断されてしまっていた“０”を有する画素も、「太い線の内部」かもしれないと判断基準の元、文字情報抽出装置３ではこのような候補として判断される。このため、文字情報抽出装置３によれば、従来の技術とは異なり、ＬｏＧフィルタの大きさ等に依存することなく、様々な太さの線により構成される文字の成分を一つのＬｏＧフィルタによって文字を構成する画素の候補として判断することが可能となる。

また、文字情報抽出装置３では、上記のように判断された画素の中から連結成分が抽出され、各連結成分について、文字を構成する連結成分であるか否かＬｏＧ値を用いることにより判断される。具体的には、文字情報抽出装置３は、各連結成分における全画素と各連結成分の輪郭線における画素とについてＬｏＧ値が閾値を超える画素の割合を算出し、その割合が閾値を超える連結成分を、文字を構成する連結成分として判断する。

図２４は、文字情報抽出装置３に備えられる文字候補判定部８の作用を説明するための図である。図２４において、各矩形は一つの画素を示し、斜線によって示される画素はＬｏＧ値が高い画素を示し、白抜きによって示される画素はＬｏＧ値が低い画素を示す。図２４（ａ）は、いわゆる面により構成される画像（例えば、コントラストのはっきりした文字以外の要素）の例を示す図である。図２４（ｂ）は、従来の技術によっては文字の線とは判断されなかった文字の線、即ち適用されたＬｏＧフィルタに合わなかった太い文字の線の例を示す図である。図２４（ｃ）は、いわゆるノイズ（例えば電線などのコントラストが低く幅の細い線）の例を示す図である。文字候補判定部８の処理において、例えばＴＳとＴＬとの値がそれぞれ“０．４”，“０．８”である場合を想定して文字候補判定部８による処理の作用について説明する。この場合、図２４（ａ）ではＳ＝１００，Ｓ’＝３６，Ｌ＝３６，Ｌ’＝３６となり、Ｓ’／Ｓ＝０．３６，Ｌ’／Ｌ＝１となる。従って、図２４（ａ）の連結成分は抽出されず、ノイズとして除去される。図２４（ｂ）ではＳ＝７４，Ｓ’＝４６，Ｌ＝４６，Ｌ’＝４６となり、Ｓ’／Ｓ＝０．６２，Ｌ’／Ｌ＝１となる。従って、図２４（ｂ）の連結成分は文字候補として抽出される。図２４（ｃ）ではＳ＝１４，Ｓ’＝８，Ｌ＝１４，Ｌ’＝８となり、Ｓ’／Ｓ＝０．５７，Ｌ’／Ｌ＝０．５７となる。従って、図２４（ｃ）の連結成分は抽出されず、ノイズとして除去される。このように、従来の技術では文字の線として判断されなかった図２４（ｂ）のような、太い線によって構成される文字の画像も、ＬｏＧフィルタの大きさに依存することなく的確に抽出することが可能となる。また、図２４（ａ）や図２４（ｃ）のような面やノイズを的確に除去することも可能となる。

このように、文字候補判定部８は、連結成分単位の線幅に応じて文字候補の判断を行うこととなる。このため、文字の線幅に関わらず、様々な線幅を有する文字成分を情景画像から抽出することが可能となる。

［変形例］
上記画像変換部７と文字候補判定部８とは、以下のように一体として構成されても良い。即ち、一体として構成された機能部は、画像変換部７と同様の処理によって変更後ＬｏＧ画像を生成し、二値画像を生成することなく、変更後ＬｏＧ画像から連結成分を抽出し、文字候補となる連結成分を判断する。このとき、一体として構成された機能部は、変更後ＬｏＧ画像の画素のうち、正又は“０”の値を有する画素から構成される連結成分を抽出する。又は、この機能部は、変更後ＬｏＧ画像の画素のうち、負又は“０”の値を有する画素から構成される連結成分を抽出する。そして、この機能部は、抽出されたこれらの連結成分に対し、文字候補判定部８と同様の処理を行うことで文字候補とすべきか否かの判断を行う。

文字列抽出装置の機能ブロック例を示す図である。画像変換部によって実行される各処理により生成される画像の例を示す図である。画像変換部によって用いられるＬｏＧフィルタの例を示す図である。連結成分の例を示す図である。ラベル画像の例を示す図である。外接矩形の例を示す図である。輪郭線の例を示す図である。背景画素の例を示す図である。文字候補画像と文字成分画像の例を示す図である。折線近似の処理例を示す図である。文字輪郭線画像の例を示す図である。基点文字パターンに基づいた正方形領域の例を示す図である。ハフ変換の結果の例を示す図である。文字列候補成分の統合処理の例を示す図である。文字列の傾きの例を示す図である。文字列成分の外接矩形全てを内包する矩形の例を示す図である。文字列領域の例を示す図である。重複情報の除去の例を示す図である。文字列抽出装置の動作例を示すフローチャートである。文字列抽出装置の動作例を示すフローチャートである。文字列抽出装置の動作例を示すフローチャートである。文字列抽出装置の動作例を示すフローチャートである。文字列抽出装置の動作例を示すフローチャートである。文字候補判定部における処理の作用を説明するための図である。従来技術の問題点を示す図である。

符号の説明

１文字列抽出装置
２画像入力部
３文字情報抽出装置
４文字線抽出部
５文字列判定装置
６文字列出力部
７画像変換部
８文字候補判定部
９文字成分抽出部
１０基点文字パターン抽出部
１１文字列判定部
１２重複情報除去部

Claims

濃淡画像に対し二次微分フィルタ処理を実行するフィルタ手段と、
二次微分フィルタ処理の結果から、ゼロ以上の値を有する複数の画素が隣接することにより構成される連結成分、又はゼロ以下の値を有する複数の画素が隣接することにより構成される連結成分を抽出する連結成分抽出手段と、
各連結成分について、その連結成分を構成する画素のうち前記二次微分フィルタ処理によって算出された値が所定の範囲の値である画素が占める割合に応じて、当該連結成分が文字を構成する連結成分であるか否か判断する判断手段と、
前記判断手段によって文字を構成する連結成分として判断された連結成分を文字成分として抽出する文字成分抽出手段と
を含み、
前記判断手段は、
二次微分フィルタ処理によって算出された各画素の値から統計的に取得される値に基づいて、前記所定の範囲を決定し、
前記連結成分を構成する画素の数と、前記連結成分を構成する画素のうち前記二次微分フィルタ処理によって算出された値が前記所定の範囲の値である画素の数との比を全体比として算出し、前記連結成分の輪郭部分を構成する画素の数と、前記輪郭部分を構成する画素のうち前記二次微分フィルタ処理によって算出された値が前記所定の範囲の値である画素の数との比を輪郭比として算出し、
閾値ＴＳの値を０．３≦ＴＳ＜０．５とし、閾値ＴＬの値を０．７≦ＴＬ＜０．９として、前記全体比の値が閾値ＴＳ以上である場合、且つ、前記輪郭比の値が閾値ＴＬ以上である場合に、当該連結成分が文字を構成する連結成分であると判断する
文字成分抽出装置。
前記連結成分抽出手段は、二次微分フィルタ処理の結果において、ゼロ以上の値を有する画素と他の画素とを区別することにより、又はゼロ以下の値を有する画素と他の画素とを区別することにより、二値画像を生成し、この二値画像から前記連結成分を抽出する請
求項１に記載の文字成分抽出装置。
前記連結成分抽出手段は、二次微分フィルタ処理の結果における各画素の値において、その絶対値が閾値よりも低い値をゼロに置き換え、その結果に基づいて前記連結成分を抽出する請求項１または２に記載の文字成分抽出装置。
前記文字成分抽出手段は、前記文字を構成する連結成分として判断された連結成分について、その連結成分に外接する最小の矩形を生成し、この矩形の高さ及び幅が所定の範囲内にあるもののみを文字成分として抽出する請求項１〜３のいずれかに記載の文字成分抽出装置。
前記文字成分抽出手段は、前記文字を構成する連結成分として判断された連結成分について、その連結成分を構成する画素と、その連結成分の周囲に位置する画素との濃度値の差が閾値以上である連結成分のみを文字成分として抽出する請求項１〜４のいずれかに記載の文字成分抽出装置。
濃淡画像において、周囲にほとんど濃淡勾配が無いと判断される画素及び周囲に正方向の濃淡勾配が有ると判断される画素により構成される連結成分、又は周囲にほとんど濃淡勾配が無いと判断される画素及び周囲に負方向の濃淡勾配が有ると判断される画素により構成される連結成分を抽出する連結成分抽出手段と、
前記各連結成分について、その連結成分を構成する各画素のうち、各画素の周囲の前記濃淡勾配が所定の範囲である画素が占める割合に応じて、当該連結成分が文字を構成する連結成分であるか否か判断する判断手段と、
文字であると判断された連結成分を文字成分として抽出する文字成分抽出手段と
を含み、
前記判断手段は、
各画素の周囲の前記濃淡勾配から統計的に取得される値に基づいて、前記所定の範囲を決定し、
前記連結成分を構成する画素の数と、前記連結成分を構成する画素のうち前記濃淡勾配が前記所定の範囲の値である画素の数との比を全体比として算出し、前記連結成分の輪郭部分を構成する画素の数と、前記輪郭部分を構成する画素のうち前記濃淡勾配が前記所定の範囲の値である画素の数との比を輪郭比として算出し、
閾値ＴＳの値を０．３≦ＴＳ＜０．５とし、閾値ＴＬの値を０．７≦ＴＬ＜０．９として、前記全体比の値が閾値ＴＳ以上である場合、且つ、前記輪郭比の値が閾値ＴＬ以上である場合に、当該連結成分が文字を構成する連結成分であると判断する
文字成分抽出装置。
濃淡画像に対し二次微分フィルタ処理を実行するステップと、
二次微分フィルタ処理の結果から、ゼロ以上の値を有する複数の画素が隣接することにより構成される連結成分、又はゼロ以下の値を有する複数の画素が隣接することにより構成される連結成分を抽出するステップと、
各連結成分について、その連結成分を構成する画素のうち前記二次微分フィルタ処理によって算出された値が所定の範囲の値である画素が占める割合に応じて、当該連結成分が文字を構成する連結成分であるか否か判断するステップと、
文字を構成する連結成分として判断された連結成分を文字成分として抽出するステップと
を情報処理装置に実行させるためのプログラムであって、
前記判断するステップでは、
二次微分フィルタ処理によって算出された各画素の値から統計的に取得される値に基づいて、前記所定の範囲を決定し、
前記連結成分を構成する画素の数と、前記連結成分を構成する画素のうち前記二次微分フィルタ処理によって算出された値が前記所定の範囲の値である画素の数との比を全体比として算出し、前記連結成分の輪郭部分を構成する画素の数と、前記輪郭部分を構成する画素のうち前記二次微分フィルタ処理によって算出された値が前記所定の範囲の値である画素の数との比を輪郭比として算出し、
閾値ＴＳの値を０．３≦ＴＳ＜０．５とし、閾値ＴＬの値を０．７≦ＴＬ＜０．９として、前記全体比の値が閾値ＴＳ以上である場合、且つ、前記輪郭比の値が閾値ＴＬ以上である場合に、当該連結成分が文字を構成する連結成分であると判断する
プログラム。
濃淡画像において、周囲にほとんど濃淡勾配が無いと判断される画素及び周囲に正方向の濃淡勾配が有ると判断される画素により構成される連結成分、又は周囲にほとんど濃淡勾配が無いと判断される画素及び周囲に負方向の濃淡勾配が有ると判断される画素により構成される連結成分を抽出するステップと、
前記各連結成分について、その連結成分を構成する各画素のうち、各画素の周囲の前記濃淡勾配が所定の範囲である画素が占める割合に応じて、当該連結成分が文字を構成する連結成分であるか否か判断するステップと、
文字であると判断された連結成分を文字成分として抽出するステップと
を情報処理装置に実行させるためのプログラムであって、
前記判断するステップでは、
各画素の周囲の前記濃淡勾配から統計的に取得される値に基づいて、前記所定の範囲を決定し、
前記連結成分を構成する画素の数と、前記連結成分を構成する画素のうち前記濃淡勾配が前記所定の範囲の値である画素の数との比を全体比として算出し、前記連結成分の輪郭部分を構成する画素の数と、前記輪郭部分を構成する画素のうち前記濃淡勾配が前記所定の範囲の値である画素の数との比を輪郭比として算出し、
閾値ＴＳの値を０．３≦ＴＳ＜０．５とし、閾値ＴＬの値を０．７≦ＴＬ＜０．９として、前記全体比の値が閾値ＴＳ以上である場合、且つ、前記輪郭比の値が閾値ＴＬ以上である場合に、当該連結成分が文字を構成する連結成分であると判断する
プログラム。
情報処理装置が、濃淡画像に対し二次微分フィルタ処理を実行するステップと、
情報処理装置が、二次微分フィルタ処理の結果から、ゼロ以上の値を有する複数の画素が隣接することにより構成される連結成分、又はゼロ以下の値を有する複数の画素が隣接することにより構成される連結成分を抽出するステップと、
情報処理装置が、各連結成分について、その連結成分を構成する画素のうち前記二次微分フィルタ処理によって算出された値が所定の範囲の値である画素が占める割合に応じて、当該連結成分が文字を構成する連結成分であるか否か判断するステップと、
情報処理装置が、文字を構成する連結成分として判断された連結成分を文字成分として抽出するステップと
を含む文字成分抽出方法であって、
前記判断するステップでは、
二次微分フィルタ処理によって算出された各画素の値から統計的に取得される値に基づいて、前記所定の範囲を決定し、
前記連結成分を構成する画素の数と、前記連結成分を構成する画素のうち前記二次微分フィルタ処理によって算出された値が前記所定の範囲の値である画素の数との比を全体比として算出し、前記連結成分の輪郭部分を構成する画素の数と、前記輪郭部分を構成する画素のうち前記二次微分フィルタ処理によって算出された値が前記所定の範囲の値である画素の数との比を輪郭比として算出し、
閾値ＴＳの値を０．３≦ＴＳ＜０．５とし、閾値ＴＬの値を０．７≦ＴＬ＜０．９とし
て、前記全体比の値が閾値ＴＳ以上である場合、且つ、前記輪郭比の値が閾値ＴＬ以上である場合に、当該連結成分が文字を構成する連結成分であると判断する
文字成分抽出方法。
情報処理装置が、濃淡画像において、周囲にほとんど濃淡勾配が無いと判断される画素及び周囲に正方向の濃淡勾配が有ると判断される画素により構成される連結成分、又は周囲にほとんど濃淡勾配が無いと判断される画素及び周囲に負方向の濃淡勾配が有ると判断される画素により構成される連結成分を抽出するステップと、
情報処理装置が、前記各連結成分について、その連結成分を構成する各画素のうち、各画素の周囲の前記濃淡勾配が所定の範囲である画素が占める割合に応じて、当該連結成分が文字を構成する連結成分であるか否か判断するステップと、
情報処理装置が、文字であると判断された連結成分を文字成分として抽出するステップと
を含む文字成分抽出方法であって、
前記判断するステップでは、
各画素の周囲の前記濃淡勾配から統計的に取得される値に基づいて、前記所定の範囲を決定し、
前記連結成分を構成する画素の数と、前記連結成分を構成する画素のうち前記濃淡勾配が前記所定の範囲の値である画素の数との比を全体比として算出し、前記連結成分の輪郭部分を構成する画素の数と、前記輪郭部分を構成する画素のうち前記濃淡勾配が前記所定の範囲の値である画素の数との比を輪郭比として算出し、
閾値ＴＳの値を０．３≦ＴＳ＜０．５とし、閾値ＴＬの値を０．７≦ＴＬ＜０．９として、前記全体比の値が閾値ＴＳ以上である場合、且つ、前記輪郭比の値が閾値ＴＬ以上である場合に、当該連結成分が文字を構成する連結成分であると判断する
文字成分抽出方法。