JP3972546B2 - Image processing apparatus and image processing method - Google Patents
Image processing apparatus and image processing method Download PDFInfo
- Publication number
- JP3972546B2 JP3972546B2 JP2000006396A JP2000006396A JP3972546B2 JP 3972546 B2 JP3972546 B2 JP 3972546B2 JP 2000006396 A JP2000006396 A JP 2000006396A JP 2000006396 A JP2000006396 A JP 2000006396A JP 3972546 B2 JP3972546 B2 JP 3972546B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- candidate
- character string
- character candidate
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Character Input (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、入力画像中から文字列を抽出するための画像処理装置および画像処理方法に関するものである。
【0002】
【従来の技術】
一般に、入力画像中からの文字列の抽出は、画像出力の高画質化のための領域別(テキスト/イメージ別)適応処理、画像圧縮時の容量削減のための領域別(テキスト/イメージ別)圧縮処理、OCR(Optical Character Reader)の前処理等において行われている。例えば、近年のデジタル複写機においては、文字列を含有する原画や原稿等から画像情報を読み取ると、その画像情報について文字列の抽出を行った後に、文字列に相当する部分と他の部分とに対し別個に処理パラメータを切り替えたり圧縮処理等を行ったりすることで、それぞれの処理の好適化を図っている。
【0003】
このような文字列の抽出は、従来、以下のようにして行われている。その1つとしては、入力画像に関する特徴量、例えば文字列を構成する画素(黒画素等)の分布をその画像周辺に投影し、その投影された特徴量に基づき投影軸方向(例えば入力画像の副走査方向)に沿った分布の切れ目を探し出し、その切れ目によって入力画像を分割することで、その入力画像から文字列を抽出する方法がある。また、他の1つとして、入力画像中に含まれるエッジ等を認識することで、局所的に文字候補となる塊を抽出し、その塊を所定のスレッショルド(閾値)を基に統合することで、入力画像中からの文字または文字列の抽出を行う方法がある。
【0004】
【発明が解決しようとする課題】
しかしながら、上述した従来の文字列抽出技術では、入力画像中に文字の大きさや形状、文字間隔等が一定でない文字列や、文字の並ぶ方向が様々であったり曲線上に並んでいたりする文字列が混在していると、文字列の抽出を的確に行えないおそれがある。
【0005】
例えば、上述した画像を分割する抽出方法では、画像周辺に特徴量を投影することにより一方向のみの情報になってしまうため、抽出すべき文字列の並ぶ方向、その文字列を構成する文字の大きさや行間等が略一定であれば有効であるが、文字列の方向、文字の大きさや行間等が異なっている文字列(例えば投影方向に対して斜めに並んでいる文字列)が混在していると、特徴量の分布の切れ目を探し出すことができず、結果として文字列を正しく抽出することができなくなってしまう。また、他の1つの方法である文字塊を統合する抽出方法では、文字列が局所的に一方向に並ぶことを利用して文字列を抽出するため、様々な方向に並ぶ文字列が混在していても文字列抽出が可能となるが、所定のスレッショルドに基づいて文字塊の統合を行うことから、統合時の条件が文字の大きさや形状、文字間隔等に大きく依存してしまう。したがって、文字の大きさ等や文字間隔が異なっている文字列が混在していると、文字列統合時の判定が困難になってしまい、文字列抽出を高精度に行えなくなるのに加え、その文字列抽出を複数回に分けて行う必要が生じてしまう可能性もある。さらには、上述したいずれの抽出方法も、曲線上に並んでいる文字列については全く考慮していないため、当該文字列が入力画像中に混在していても、これを文字列として抽出することができない。
【0006】
そこで、本発明は、これらの問題点を鑑み、入力画像中に文字の大きさや形状、文字間隔等が一定でない文字列や、文字の並ぶ方向が様々であったり曲線上に並んでいたりする文字列が混在していても、これらの文字列を的確に、かつ、精度良く抽出することのできる画像処理装置および画像処理方法を提供することを目的とする。
【0012】
本発明は上記目的を達成するために案出された画像処理装置で、入力画像から当該入力画像に含まれる文字候補を抽出する文字候補抽出手段と、前記文字候補抽出手段が抽出した文字候補に関する特徴量を抽出するとともに当該抽出を複数種類の特徴量について行う特徴抽出手段と、前記文字候補抽出手段が抽出した各文字候補に個別に付された識別番号である文字候補番号と、抽出すべき文字列候補の識別番号である文字列番号との関係が、入力Uの値によって出力Vの値が遷移するニューロンの状態によって特定され、当該ニューロンの出力Vの値によって各文字候補がどの文字列番号の文字列候補に属するか分かるように構成された処理テーブルと、前記特徴抽出手段が抽出した複数種類の特徴量を所定の演算式に代入して前記処理テーブルにおける各ニューロンの入力Uの値を変化させ、当該変化によって前記処理テーブル上に存在する全てのニューロンの出力Vの値を初期設定状態から最適状態に収束するように遷移させ、その遷移結果を基にしつつ前記文字候補抽出手段が抽出した複数の文字候補の中から同一の文字列番号に属する文字候補群を文字列を構成する文字候補群として抽出する文字列抽出手段とを備えることを特徴とするものである。
【0013】
さらに、本発明は上記目的を達成するために案出された画像処理方法で、入力画像から当該入力画像に含まれる文字候補を抽出する文字候補抽出ステップと、前記文字候補抽出ステップで抽出した文字候補に関する特徴量を抽出するとともに当該抽出を複数種類の特徴量について行う特徴抽出ステップと、前記文字候補抽出ステップで抽出した各文字候補に個別に付された識別番号である文字候補番号と、抽出すべき文字列候補の識別番号である文字列番号との関係が、入力Uの値によって出力Vの値が遷移するニューロンの状態によって特定され、当該ニューロンの出力Vの値によって各文字候補がどの文字列番号の文字列候補に属するか分かるように構成された処理テーブルを用い、前記特徴抽出ステップで抽出した複数種類の特徴量を所定の演算式に代入して前記処理テーブルにおける各ニューロンの入力Uの値を変化させ、当該変化によって前記処理テーブル上に存在する全てのニューロンの出力Vの値を初期設定状態から最適状態に収束するように遷移させ、その遷移結果を基にしつつ前記文字候補抽出手段が抽出した複数の文字候補の中から同一の文字列番号に属する文字候補群を文字列を構成する文字候補群として抽出する文字列抽出ステップとを備えることを特徴とする。
【0014】
上記構成の画像処理装置または上記手順の画像処理方法によれば、入力画像に含まれる文字候補を抽出すると、抽出した文字候補について、複数種類の特徴量抽出する。ここで抽出する特徴量としては、例えば、他の文字候補との間を結ぶ直線または曲線との距離関係、文字候補の大きさや形状、他の文字候補との間隔等が挙げられる。そして、複数種類の特徴量を抽出すると、それぞれの特徴量を参照しながらニューロンの状態によって表されるニューラル表現の処理テーブルにおける各ニューロンの値を遷移させ、その遷移結果を基にしつつ入力画像中から抽出した文字候補の中から文字列を構成する文字候補群を抽出する。これにより、入力画像中に存在する文字列は、その文字列を構成する文字の大きさや並ぶ方向等に依存することなく、文字列として抽出されることになる。
【0015】
【発明の実施の形態】
以下、図面に基づき本発明に係る画像処理装置および画像処理方法について説明する。
【0016】
先ず、本発明に係る画像処理装置の概略構成について説明する。図1は、本発明に係る画像処理装置の一例の概略構成を示すブロック図である。
【0017】
図例のように、本実施形態における画像処理装置は、画像入力手段10と、文字候補抽出手段20と、文字列抽出手段30と、画像出力手段40と、から構成されている。
【0018】
画像入力手段10は、入力画像を光学的読み取りによって取得するためのもので、具体的にはスキャナやデジタルカメラ等からなるものである。この画像入力手段10では、文字列を含有する原画または原稿、特にオフィス文書、メモ書き、手書き文書、カタログ、マニュアル、雑誌、チラシ、地図、標識や看板や車体番号等の文字列を含有する写真から、入力画像を取得するようになっている。ただし、画像入力手段10は、LAN(Local Area Network)やいわゆるインターネット等に繋がる通信回線を介して入力画像を取得するものであってもよい。
【0019】
文字候補抽出手段20は、画像入力手段10が入力画像を取得すると、後述するようにして、その入力画像から当該入力画像に含まれる文字候補を抽出するものであり、具体的にはCPU(Central Processing Unit)とこれに実行される所定プログラムとの組み合わせ等によって実現されるものである。
【0020】
文字列抽出手段30は、文字候補抽出手段20が文字候補を抽出すると、その抽出結果を基にしつつ、後述するようにして、入力画像中に存在する文字列を抽出するものであり、具体的にはCPUとこれに実行される所定プログラムとの組み合わせ等によって実現されるものである。
【0021】
画像出力手段40は、文字列抽出手段30による文字列抽出結果を外部へ出力するためのもので、具体的には外部装置とのインターフェース等からなるものである。この画像出力手段40による出力先としては、例えば、画像入力手段10が取得した入力画像に対して階調補正や画像圧縮等の処理を行う他の画像処理装置や、その入力画像中に存在する文字を認識するOCRが挙げられる。
【0022】
ここで、このように構成された画像処理装置における文字候補抽出手段20の詳細について説明する。図2は、文字候補抽出手段の構成例を示すブロック図である。
【0023】
図例のように、本実施形態における文字候補抽出手段20は、エッジ抽出手段21と、2値化手段22と、1文字候補抽出手段23と、から構成されている。
【0024】
エッジ抽出手段21は、画像入力手段10が取得した入力画像に対し、その複数方向(例えば主走査方向および副走査方向)について、エッジの抽出を行うものである。具体的には、例えば図3に示すように、並列に動作する複数のデジタルフィルタ1〜4を備えており、入力画像を構成する各画素値に対し並列にデジタルフィルタリングを行って、その結果と当該画素値との差を算出し、当該差の絶対値の最も大きい値を出力することで、入力画像中に存在するエッジを抽出するようになっている。ただし、エッジ抽出手段21は、他の周知技術を用いてエッジ抽出処理を行うようにしてもよい。
【0025】
また図2において、2値化手段22は、エッジ抽出手段21が抽出したエッジに対し2値化を行うものである。2値化処理に関しては、単純2値化や浮動2値化などといった周知技術を利用して行うことが考えられる。
【0026】
1文字候補抽出手段23は、2値化手段22による2値化処理後の画像に対して、当該画像中に存在する点や線分等の画像要素毎に外接矩形を仮設するとともに、互いに関連する外接矩形同士は1つの塊であると認識し、当該塊を1つの文字候補として抽出するものである。詳しくは、例えば図4(a)に示すように1つの外接矩形1内に他の外接矩形2が位置する場合、図4(b)に示すように1つの外接矩形1と他の外接矩形2とが重なり合って共有領域を持つ場合、図4(c)に示すように1つの外接矩形1と他の外接矩形2との大きさ比、距離間隔、それぞれの形状等が所定の関係にある場合に、いずれも双方の外接矩形1,2同士は1つの塊であると認識し、当該外接矩形1,2同士を統合するようになっている。つまり、1文字候補抽出手段23は、1つの文字を構成するであろう1個以上の画像要素を、1つの文字候補として抽出するものである。なお、1文字候補抽出手段23は、文字候補の抽出にあたって、外接矩形の代わりに外接多角形を用いるようにしてもよい。
【0027】
このように、文字候補抽出手段20では、エッジ抽出手段21、2値化手段22および1文字候補抽出手段23を備えることによって、画像入力手段10が取得した入力画像から、1つの文字を構成すると判定される1個以上の画像要素を1つの文字候補として抽出するようになっている。ただし、入力画像中に存在する文字候補を1文字分毎に抽出できれば、文字候補抽出手段20は、上述した以外の構成によるもの、すなわち上述した以外の周知技術を利用したものであっても構わない。また、例えば画像入力手段10が取得した入力画像が当初から2値画像である場合には、エッジ抽出手段21および2値化手段22を省略することも考えられる。
【0028】
次いで、本実施形態の画像処理装置において最も特徴的な部分である文字列抽出手段30の詳細について説明する。図5は、文字列抽出手段の構成例を示すブロック図である。
【0029】
図例のように、本実施形態における文字列抽出手段30は、特徴抽出手段31と、文字列候補抽出手段32と、文字列評価手段33と、から構成されている。
【0030】
特徴抽出手段31は、文字候補抽出手段20が抽出したそれぞれの文字候補に対して、その特徴量の抽出を行うものである。この特徴抽出手段31が抽出する特徴量としては、例えば、文字候補を構成する点や線分等といった画像要素の面積、文字候補の外接矩形の面積、外接多角形の面積、外接矩形または外接多角形の辺の長さ、外接矩形の縦横比、外接多角形の最長幅と最短幅の比、外接矩形または外接多角形の重心位置の座標、などが挙げられる。すなわち、特徴抽出手段31は、文字候補抽出手段20が抽出した文字候補に関する特徴量を抽出するとともに、その抽出を複数種類の特徴量について行うものである。なお、特徴量の抽出処理は、周知技術を利用した所定の演算等によって行えばよい。
【0031】
文字列候補抽出手段32は、特徴抽出手段31が抽出した文字候補に関する特徴量を参照しながら、文字候補抽出手段20が抽出した複数の文字候補の中から文字列を構成する文字候補群の候補、すなわち文字列候補を抽出するものである。
【0032】
ところで、この文字列候補抽出手段32は、全連結型のニューラルネットワークによって構成されており、そのニューラルネットワークによる最適化手法を利用して文字列候補を抽出する点に特徴がある。なお、ニューラルネットワークとは、生物の脳の神経細胞(ニューロン)を手本に構成された人口神経回路網をいう。
【0033】
ここで、ニューラルネットワーク構成の文字列候補抽出手段32について、さらに詳しく説明する。図6はニューロンモデルを示す説明図であり、図7はそのニューロンモデルの入出力関係の一例であるマッカロック・ピッツモデルを示す説明図であり、図8はニューラル表現の一例を示す説明図である。これらの図中において、Vjは他ニューロンの出力、Wjは重み係数、UはニューロンAの入力、VはニューロンAの出力を示しているものとする。なお、以下の説明を簡単にするため、Wjは均等(=1)であるものとする。
【0034】
図6および図7では、ニューロンAの入力Uの状態が他ニューロンの出力Vjに応じて変化するとともに、その入力UによってニューロンAの出力Vの値が遷移することを示している。具体的には、図7に示すマッカロック・ピッツモデルであれば、ニューロンAの入力Uが「0」を境に、それよりも大きければ出力Vの値が「1」となり、それよりも小さければ出力Vの値が「0」となる。なお、ここでは、ニューロンモデルの一例としてマッカロック・ピッツモデルを示しているが、その他にはシグモイド関数モデルやヒステリシス・マッカロック・ピッツモデルなどがある。
【0035】
図8のニューラル表現は、文字列候補抽出手段32が有する処理テーブルの状態の一例を示している。この処理テーブルの横軸方向は、文字候補抽出手段20が抽出した各文字候補に個別に付された識別番号(以下「文字候補番号」という)jを表している。したがって、文字候補抽出手段20で抽出された文字候補がm個であれば、処理テーブルの横軸方向には、j=1〜mの文字候補番号が存在することになる。一方、処理テーブルの縦軸方向は、文字列候補抽出手段32が抽出すべき文字列候補の識別番号(以下「文字列番号」という)iを表している。
【0036】
これら文字候補番号と文字列番号とによって特定される領域、すなわち図中の点線枠内の領域内は、ニューロンの状態を表している。つまり、図中の点線枠内の「0」および「1」は、それぞれがニューロンの出力Vの値を表している。これらの値により、この処理テーブルからは、以下のことが分かる。例えば、文字候補番号j=3で文字列番号i=2に相当するニューロンが「1」だった場合には、その文字候補番号が3である文字候補は、文字列番号が2である文字列に属する、ということが分かる。
【0037】
この処理テーブルにおける各ニューロンの出力Vの値は、初期状態においては乱数発生によって設定されるが、その後、文字列候補抽出手段32が文字列候補の抽出を完了するまでの間に、それぞれが最適な状態となるように遷移する。この遷移のために、文字列候補抽出手段32は、以下の(1)式のような動作式を用意し、さらに後述する(6)式のような更新式を用いて、該当するニューロンの入力Uを変化させるようになっている。
【0038】
【数1】
【0039】
この動作式(1)において、A,B,C,D,Eは、それぞれ予め設定されている係数である。
【0040】
また、AREAは、注目対象の外接矩形における他の外接矩形に対する面積比に該当するもので、以下の(2)式によって表される。
【0041】
【数2】
【0042】
この(2)式において、LXk、LYkは、それぞれ外接矩形kの直交する辺の長さであり、LXj、LYjはそれぞれ外接矩形jの直交する辺の長さを示している。ただし、AREAは、文字候補を構成する画像要素の面積や外接矩形の面積等を基に、外接矩形同士の面積比を特定するものであってもよい。
【0043】
また、動作式(1)において、NEARは、同一の文字列番号iに属する文字候補の外接矩形についての回帰直線と、注目対象の外接矩形kの重心座標との間の距離に該当するもので、以下の(3)式によって表される。
【0044】
【数3】
【0045】
この(3)式において、Xk、Ykは、それぞれ外接矩形kの重心座標であり、ai,bi,ciは文字列iの回帰直線aixk+biyk+ci=0の係数である。
【0046】
ただし、上述した(3)式ではなく、例えば以下の(4)式のように、y軸方向とx軸方向に関する回帰直線との距離のうちの小さいほうをNEARとしてもよい。
【0047】
【数4】
【0048】
なお、この(4)式において、min(Q,R)は、QとRのうち小さいほうのいずれかの値を示し、さらにQまたはRの値が存在しない場合はRまたはQの値を出力することを意味している。
【0049】
また、このとき、回帰直線の代わって回帰曲線(2次曲線、3次曲線…、等)を用いれば、曲線状に並んだ文字候補から文字列候補を抽出することができるようになる。例えば、2次曲線を回帰曲線aixk 2+bixk+ciyk+di=0とすれば、その回帰曲線と外接矩形kの重心座標のy軸方向の距離は、以下の(5)式のようになる。
【0050】
【数5】
【0051】
さらには、上述したようなNEARの代わりに、NEARを文字列iに属する文字候補の外接矩形の面積の平方根で割った値を使用することも考えられる。
【0052】
また、動作式(1)において、INTERは、注目対象の外接矩形の重心と他外接矩形の重心との距離に該当するものである。また、動作式(1)中におけるmin≡k,k=1〜m(Qk)の項は、k=1〜mに対応するQkのうち正数で最も小さい値を表している。よって、min≡k,k=1〜m(INTER Vik)の項は、文字候補jと、その文字候補jが属する文字列iを構成する他の文字候補の中で当該文字候補jの最も近傍にある他の文字候補との間の距離に該当する。ただし、このとき、文字候補jが属する文字列iを構成する他の文字候補の中で当該文字候補jに対し2番目に近傍にある文字候補との距離を考慮に入れてもよい。さらには、上述したようなINTERの代わりに、INTERを文字列iに属する文字候補の外接矩形の面積の平方根で割った値を使用することも考えられる。
【0053】
また、動作式(1)において、h(t) は、周知のヒルクライム項に相当するものであり、局所最適解から脱出する働きを持っている。
【0054】
以上のような動作式(1)によりdUijを算出すると、文字列候補抽出手段32は、そのdUijを以下の(6)式のような更新式に代入して、各ニューロンの入力Uの値を変化させる。
【0055】
【数6】
【0056】
このとき、文字列候補抽出手段32では、適切な収束条件を与えることで、動作式(1)および更新式(6)による各ニューロンの入力Uの更新を終了することができる。その結果、文字列候補抽出手段32では、ニューラル表現の処理テーブルにおける各ニューロンの出力Vの値が最適な状態となるように遷移するので、その遷移後の各ニューロンの出力Vの値から各文字候補の属する文字列を判定でき、その文字列の特性を算出することができるようになる。
【0057】
つまり、文字列候補抽出手段32は、特徴抽出手段31が抽出した文字候補に関する特徴量を参照しながら、動作式(1)および更新式(6)を用いてニューラル表現の処理テーブルにおける各ニューロンの出力Vの値を最適な状態に遷移させ、その遷移結果を基にしつつ文字列候補を抽出するようになっている。
【0058】
このような文字列候補抽出手段32に抽出された文字列候補は、文字列抽出手段30の文字列評価手段33によって、文字列であるか否かの評価判定が行われる。すなわち、文字列評価手段33は、文字列候補抽出手段32によって抽出された文字列候補に対して、文字列であるか否かの最終的な判断を行うものである。かかる判断は、例えば、直線性に関する評価関数、外接矩形の面積比に関する評価関数、外接矩形の間隔に関する評価関数等を用いて行うことが考えられる。
【0059】
直線性に関する評価関数は、文字列iに属する文字候補の回帰直線または回帰曲線との平均距離を評価するためのものであり、具体的にはそれぞれは以下の(7)、(8)式によって表されるものである。
【0060】
【数7】
【0061】
【数8】
【0062】
外接矩形の面積比に関する評価関数は、文字列iに属する文字候補の外接矩形の面積に関する分散を評価するためのものであり、具体的には以下の(9)式によって表されるものである。
【0063】
【数9】
【0064】
外接矩形の間隔に関する評価関数は、文字列iに属する文字候補の外接矩形の重心座標に関して、最近傍の重心座標との平均距離を評価するためのものであり、具体的には以下の(10)式によって表されるものである。ただし、この外接矩形の間隔に関する評価関数は、2番目に近傍である重心座標との距離を考慮するようにしてもよい。
【0065】
【数10】
【0066】
文字列評価手段33は、これら(7)〜(10)式のそれぞれに対応した閾値T1,T2,T3,T4を予め用意しており、各式の算出結果をそれぞれに対応する閾値T1,T2,T3,T4と比較することで、文字列候補抽出手段32に抽出された文字列候補が文字列であるか否かを判断するようになっている。例えば、(7)式の算出結果が閾値T1の範囲内になければ、文字列評価手段33は、抽出された文字列候補が文字列ではないと判断する。また、(9)式の算出結果が閾値T3の範囲内に収まっていなければ、文字列評価手段33は、抽出された文字列候補が文字列ではないと判断する。また、(10)式の算出結果が閾値T4の範囲内になければ、文字列評価手段33は、抽出された文字列候補が文字列ではないと判断する。
【0067】
つまり、文字列評価手段33は、文字列候補抽出手段32によって抽出された文字列候補に対して、文字列であるか否かの最終的な判断を行うことによって、文字列抽出手段30における文字列の抽出精度を向上させるためのものである。
【0068】
次に、以上のように構成された画像処理装置における文字列抽出の処理手順、すなわち本実施形態における画像処理方法について説明する。
【0069】
本実施形態の画像処理装置では、画像入力手段10が入力画像を取得すると、文字候補抽出手段20がその入力画像から当該入力画像に含まれる全ての文字候補を抽出する。そして、全ての文字候補が抽出されると、文字列抽出手段30の特徴抽出手段31は、各文字候補に関する複数種類の特徴量を抽出する。また、これと同時に、各文字候補には、文字候補番号jが付される。
【0070】
その後、文字列抽出手段30の文字列候補抽出手段32は、ニューラル表現の処理テーブルにおける各ニューロンの出力Vの値を最適な状態に遷移させ、その遷移結果から文字列候補を抽出する。そのために、文字列候補抽出手段32は、先ず、処理テーブルにおける各ニューロンの出力Vの値を、乱数発生によって設定する。これにより、処理テーブルにおいては、例えば図8に示すように、文字候補番号jの数に対応し、かつ、2次元のマップ状に構成された各ニューロンの出力Vの値(「0」または「1」)が設定されることになる。
【0071】
各ニューロンの出力Vの値を乱数発生によって設定すると、続いて、文字列候補抽出手段32は、次いで、処理テーブル上における1つのニューロンを注目対象とし、その注目対象の値を動作式(1)および更新式(6)を用いて最適な状態に遷移させる。
【0072】
例えば、文字候補番号j=1で文字列番号i=1に相当するニューロンを注目対象とした場合であれば、各文字候補に関する複数種類の特徴量を参照しつつ、文字候補番号j=1に該当する文字候補の外接矩形と文字列番号i=1に属する他の外接矩形との面積比、文字候補番号j=1に該当する文字候補の外接矩形の重心座標と文字列番号i=1に属する文字候補の外接矩形についての回帰直線との間の距離、文字候補番号j=1に該当する文字候補の外接矩形の重心と文字列番号i=1に属する他の外接矩形の重心との距離、等を動作式(1)に代入してdUijを算出するとともに、そのdUijを更新式(6)に代入して各ニューロンの入力Uの値を変化させる。そのため、文字候補番号j=1で文字列番号i=1に相当するニューロンの出力Vの値は、図7に示すように入力Uの値の変化に応じて、文字候補番号j=1に該当する文字候補が文字列番号i=1に属するのに適していれば「1」に、そうでなければ「0」に遷移するようになる。この遷移の結果、文字候補番号j=1で文字列番号i=1に相当するニューロンの出力Vの値が「1」だった場合には、その文字候補番号が1である文字候補は、文字列番号が1である文字列候補に属することになる。
【0073】
文字列候補抽出手段32は、このような出力Vの値の遷移を、処理テーブル上に存在する全てのニューロンについて、順次繰り返して行う。これにより、処理テーブル上における各ニューロンの出力Vの値は、最適な状態となるように遷移して、当該最適な状態に収束することになる。
【0074】
その後、文字列抽出手段30では、文字列候補抽出手段32に抽出された文字列候補に対して、文字列評価手段33が文字列であるか否かを判断する。この判断の結果、文字列と判断された文字列候補のみが、画像出力手段40から文字列の抽出結果として出力されることになる。
【0075】
なお、ニューラル表現の処理テーブルを構成する文字候補番号jと文字列番号iとの数は、文字列候補抽出手段32における処理容量(処理能力)等を考慮して適宜決定すればよいが、例えば文字列候補抽出手段32と文字列評価手段において、文字列評価手段33で文字列として判断された当該文字列を削除した結果を再び文字列候補抽出手段32に入力するという手順を踏み、文字列候補抽出手段32と文字列評価手段33とによる処理を繰り返すようにすれば、処理テーブルにおける文字候補番号jと文字列番号iとの数に限定されずに、より多数の文字列を入力画像から抽出することも可能となる。
【0076】
以上のように、本実施形態の画像処理装置および画像処理方法によれば、入力画像に含まれる文字候補を抽出した後に、文字候補同士を結ぶ直線または曲線と各文字候補との距離関係、すなわち入力画像中における文字候補の位置を考慮しつつ、ニューラル表現の処理テーブルを利用して文字列に沿うであろう直線または曲線を特定する。このとき、入力画像中に複数の文字列が混在していれば、その入力画像中における文字候補の位置を考慮するので、複数の直線または曲線を特定することになる。そして、直線または曲線を特定すると、その直線または曲線上に並ぶ文字候補群については、各文字候補の大きさ等に拘らず文字列を構成するものとして抽出する。
【0077】
また、本実施形態の画像処理装置および画像処理方法によれば、入力画像に含まれる文字候補を抽出すると、抽出した文字候補について複数種類の特徴量抽出し、それぞれの特徴量を考慮しつつ、それぞれの特徴量に基づいてニューラル表現の処理テーブルを利用しながら、入力画像中から抽出した文字候補の中から文字列を構成する文字候補群を抽出する。
【0078】
これらのことより、本実施形態の画像処理装置および画像処理方法では、入力画像中に文字の大きさや形状、文字間隔等が一定でない文字列や、文字の並ぶ方向が様々であったり曲線上に並んでいたりする文字列が混在している場合であっても、その文字の大きさや並ぶ方向等に依存することなく、精度の高い文字列抽出を行うことが可能となる。また、入力画像中において曲線上に並ぶ文字により構成される文字列が存在しても、その文字列を的確に抽出することができる。しかも、その際に、各文字候補についての複数種類の特徴量を総合的に考慮するので、文字列統合時の判定が困難になったり、文字列抽出を複数回に分けて行ったりする必要がない。
【0079】
特に、本実施形態では、文字列候補抽出手段32が動作式(1)において、文字候補の特徴量として、複数の文字候補を結ぶ回帰直線または回帰曲線と注目対象である文字候補の重心座標との距離関係を考慮するようになっている。したがって、例えば入力画像中に互いに異なる方向を向いた文字列が混在していたり、曲線上に並ぶ文字列が存在していても、これらを的確に抽出することができる。
【0080】
また、本実施形態における文字列候補抽出手段32は、文字候補の特徴量として、各文字候補の大きさをも考慮するようになっている。具体的には、動作式(1)において、文字候補を構成する画像要素の面積、文字候補に外接する矩形の面積、あるいは文字候補に外接する矩形の辺の長さ等を考慮するようになっている。したがって、例えば入力画像中にフォントの大きさが互いに異なる文字列が混在していても、これらを的確に抽出することができる。
【0081】
さらに、このとき、各文字候補の形状、例えば文字候補に外接する矩形の縦横比をも考慮すれば、フォントの大きさのみならず、フォントの種類等が互いに異なる文字列が混在していても、これらを的確に抽出し得るようになる。
【0082】
また、本実施形態における文字列候補抽出手段32は、文字候補の特徴量として、各文字候補同士の間隔をも考慮するようになっている。具体的には、動作式(1)において、注目対象の外接矩形の重心と他外接矩形の重心との距離を考慮するようになっている。したがって、例えば入力画像中に文字間隔が互いに異なる文字列が混在していても、これらを的確に抽出することができるようになる。
【0083】
その上、本実施形態の画像処理装置および画像処理方法では、文字列評価手段33による評価判定を経た後に、文字列の抽出結果を出力するようになっているので、より一層の文字列抽出の高精度化が図れるようになる。
【0084】
なお、本実施形態では、文字列候補抽出手段32が上述した(1)〜(6)式を用いて文字列候補の抽出を行う場合を例に挙げて説明したが、本発明はこれに限定されるものではなく、例えば他のニューロンモデルや他のニューラルネットワークによる最適化手法を利用したものであっても構わない。また、他の最適化手法を利用したものであっても構わない。
【0085】
【発明の効果】
以上に説明したように、本発明に係る画像処理装置および画像処理方法は、入力画像中に文字の大きさや形状、文字間隔等が一定でない文字列や、文字の並ぶ方向が様々な文字列が混在していたり、曲線上に並ぶ文字により構成される文字列が存在していても、その文字列を構成する文字の大きさや並ぶ方向等に依存することなく、精度の高い文字列抽出を行うことができる。しかも、その際に、各文字候補についての特徴量を総合的に考慮すれば、従来のように文字列統合時の判定が困難になったり文字列抽出を複数回に分けて行ったりすることなく、文字列抽出の高精度化が図れるようになる。
【図面の簡単な説明】
【図1】 本発明に係る画像処理装置の一例の概略構成を示すブロック図である。
【図2】 図1の画像処理装置が備える文字候補抽出手段の構成例を示すブロック図である。
【図3】 図2の文字候補抽出手段における要部の構成例を示すブロック図である。
【図4】 図2の文字候補抽出手段による1文字抽出処理の概要を示す説明図であり、(a)〜(c)はそれぞれ1文字抽出処理の一態様を示す図である。
【図5】 図1の画像処理装置が備える文字列抽出手段の構成例を示すブロック図である。
【図6】 ニューロンモデルを示す説明図である。
【図7】 ニューロンモデルの入出力関係の一例であるマッカロック・ピッツモデルを示す説明図である。
【図8】 ニューラル表現の一例を示す説明図である。
【符号の説明】
10…画像入力手段、20…文字候補抽出手段、30…文字列抽出手段、31…特徴抽出手段、32…文字列候補抽出手段、33…文字列評価手段[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an image processing apparatus and an image processing method for extracting a character string from an input image.
[0002]
[Prior art]
In general, character strings are extracted from input images by adaptive processing for each region (by text / image) for improving the image quality of the image output, and by region (by text / image) for capacity reduction during image compression. It is performed in compression processing, pre-processing of OCR (Optical Character Reader), and the like. For example, in a recent digital copying machine, when image information is read from an original image or a manuscript containing a character string, a character string is extracted from the image information, and then a portion corresponding to the character string and other portions On the other hand, each processing is optimized by individually switching processing parameters or performing compression processing.
[0003]
Such extraction of character strings is conventionally performed as follows. For example, a feature amount relating to an input image, for example, a distribution of pixels (black pixels or the like) constituting a character string is projected on the periphery of the image, and a projection axis direction (for example, an input image) is projected based on the projected feature amount. There is a method of searching for a break in the distribution along the sub-scanning direction) and extracting a character string from the input image by dividing the input image by the break. Also, as another one, by recognizing an edge or the like included in the input image, a chunk that is a candidate for a character is extracted locally, and the chunk is integrated based on a predetermined threshold (threshold). There is a method of extracting characters or character strings from an input image.
[0004]
[Problems to be solved by the invention]
However, in the above-described conventional character string extraction technology, a character string in which the size, shape, character spacing, etc. of the characters are not constant in the input image, or a character string in which characters are arranged in various directions or on a curved line If there is a mixture of characters, there is a possibility that the character string cannot be extracted accurately.
[0005]
For example, in the above-described extraction method for dividing an image, information in only one direction is obtained by projecting a feature amount around the image. Therefore, the direction in which the character strings to be extracted are arranged and the characters constituting the character string It is effective if the size, line spacing, etc. are approximately constant, but character strings with different character direction, character size, line spacing, etc. (for example, character strings that are arranged obliquely with respect to the projection direction) are mixed. If this is the case, it will not be possible to find a break in the distribution of the feature amount, and as a result, the character string cannot be correctly extracted. In addition, in the extraction method that integrates character blocks, which is another method, character strings are extracted by utilizing the fact that character strings are locally arranged in one direction, so that character strings arranged in various directions are mixed. Character strings can be extracted, however, since character blocks are integrated on the basis of a predetermined threshold, the conditions at the time of integration greatly depend on the size and shape of characters, character spacing, and the like. Therefore, if character strings with different character sizes or character spacings are mixed, it will be difficult to determine when integrating the character strings, and it will not be possible to perform character string extraction with high accuracy. There is a possibility that character string extraction needs to be performed in multiple times. Furthermore, since none of the extraction methods described above considers character strings arranged on a curve, even if the character strings are mixed in the input image, they are extracted as character strings. I can't.
[0006]
Therefore, in view of these problems, the present invention provides a character string in which the size, shape, character spacing, etc. of characters are not constant in the input image, and characters that are arranged in various directions or on a curved line. An object of the present invention is to provide an image processing apparatus and an image processing method capable of accurately and accurately extracting these character strings even when columns are mixed.
[0012]
The present invention relates to a character candidate extraction unit that extracts a character candidate included in an input image from an input image, and a character candidate extracted by the character candidate extraction unit. Feature extraction means for extracting feature quantities and performing the extraction for a plurality of types of feature quantities;The relationship between the character candidate number, which is the identification number individually assigned to each character candidate extracted by the character candidate extraction means, and the character string number, which is the identification number of the character string candidate to be extracted, depends on the value of the input U A processing table that is specified by the state of the neuron to which the value of the output V transitions, and that can be identified by the value of the output V of the neuron to which character candidate each character candidate belongs, and the feature extraction By substituting a plurality of types of feature values extracted by the means into a predetermined arithmetic expression, the value of the input U of each neuron in the processing table is changed, and the output V of all neurons existing on the processing table is changed by the change. Transition the value to converge from the initial setting state to the optimal state,Among the plurality of character candidates extracted by the character candidate extraction means based on the transition resultCharacter candidate groups belonging to the same character string number as character candidate groups constituting the character stringAnd a character string extracting means for extracting.
[0013]
Furthermore, the present invention is an image processing method devised to achieve the above object, and extracts character candidates included in the input image from the input image.Character candidate extracting step and the character candidate extracting stepExtract feature values for extracted character candidates and perform extraction for multiple types of feature valuesAnd a character candidate number that is an identification number assigned to each character candidate extracted in the character candidate extraction step and a character string number that is an identification number of the character string candidate to be extracted. , A process that is specified by the state of the neuron in which the value of the output V transitions according to the value of the input U, and that the character candidate belongs to the character string candidate of which character string number belongs to the value of the output V of the neuron A table is used to substitute a plurality of types of feature amounts extracted in the feature extraction step into a predetermined arithmetic expression to change the value of the input U of each neuron in the processing table, and the change is present on the processing table. Transition the values of the outputs V of all neurons so that they converge from the initial setting state to the optimal state,SoA character string extracting step of extracting a character candidate group belonging to the same character string number as a character candidate group constituting the character string from a plurality of character candidates extracted by the character candidate extracting means based on the transition result of PrepareIt is characterized by that.
[0014]
According to the image processing apparatus having the above configuration or the image processing method according to the above procedure, when character candidates included in the input image are extracted, a plurality of types of feature amounts are extracted from the extracted character candidates. The feature amount extracted here includes, for example, a distance relationship with a straight line or a curve connecting with other character candidates, a size and shape of the character candidate, an interval with another character candidate, and the like. When multiple types of feature quantities are extracted, each feature quantity isWhile transitioning the value of each neuron in the processing table of the neural expression represented by the state of the neuron while referring to it, based on the transition resultA character candidate group constituting a character string is extracted from character candidates extracted from the input image. As a result, the character string existing in the input image is extracted as a character string without depending on the size of the characters constituting the character string or the direction in which the characters are arranged.
[0015]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, an image processing apparatus and an image processing method according to the present invention will be described with reference to the drawings.
[0016]
First, a schematic configuration of an image processing apparatus according to the present invention will be described. FIG. 1 is a block diagram showing a schematic configuration of an example of an image processing apparatus according to the present invention.
[0017]
As shown in the figure, the image processing apparatus according to this embodiment includes an
[0018]
The image input means 10 is for acquiring an input image by optical reading, and specifically comprises a scanner, a digital camera, or the like. In this image input means 10, an original picture or manuscript containing character strings, particularly office documents, memos, handwritten documents, catalogs, manuals, magazines, flyers, maps, photographs containing character strings such as signs, signs, and body numbers. From, the input image is acquired. However, the image input means 10 may acquire an input image via a communication line connected to a LAN (Local Area Network) or a so-called Internet.
[0019]
When the image input means 10 acquires the input image, the character candidate extraction means 20 extracts character candidates included in the input image from the input image as described later. Processing Unit) and a predetermined program executed on the processing unit).
[0020]
When the character
[0021]
The image output means 40 is for outputting the character string extraction result by the character string extraction means 30 to the outside, and specifically comprises an interface with an external device or the like. The output destination by the image output unit 40 is, for example, another image processing apparatus that performs processing such as gradation correction and image compression on the input image acquired by the
[0022]
Here, the details of the character candidate extraction means 20 in the image processing apparatus configured as described above will be described. FIG. 2 is a block diagram illustrating a configuration example of the character candidate extraction unit.
[0023]
As shown in the figure, the character
[0024]
The edge extraction unit 21 performs edge extraction on the input image acquired by the
[0025]
In FIG. 2, the binarization means 22 binarizes the edges extracted by the edge extraction means 21. As for the binarization processing, it is conceivable to use a known technique such as simple binarization or floating binarization.
[0026]
The one-character candidate extraction unit 23 temporarily sets a circumscribed rectangle for each image element such as a point or a line segment existing in the image after the binarization processing by the
[0027]
As described above, the character
[0028]
Next, details of the character string extraction means 30 which is the most characteristic part in the image processing apparatus of the present embodiment will be described. FIG. 5 is a block diagram illustrating a configuration example of the character string extraction unit.
[0029]
As shown in the figure, the character
[0030]
The feature extraction unit 31 extracts the feature amount of each character candidate extracted by the character
[0031]
The character string
[0032]
By the way, the character string candidate extracting means 32 is constituted by a fully connected neural network, and is characterized in that character string candidates are extracted using an optimization method based on the neural network. A neural network refers to an artificial neural network that is modeled on nerve cells (neurons) in a biological brain.
[0033]
Here, the character string candidate extracting means 32 having the neural network configuration will be described in more detail. FIG. 6 is an explanatory diagram showing a neuron model, FIG. 7 is an explanatory diagram showing a McCarlock Pitz model which is an example of the input / output relationship of the neuron model, and FIG. 8 is an explanatory diagram showing an example of a neural expression. is there. In these figures, Vj represents the output of another neuron, Wj represents a weighting factor, U represents the input of neuron A, and V represents the output of neuron A. In order to simplify the following description, it is assumed that Wj is equal (= 1).
[0034]
6 and 7 show that the state of the input U of the neuron A changes in accordance with the output Vj of another neuron, and the value of the output V of the neuron A changes with the input U. Specifically, in the case of the McCurlock-Pitz model shown in FIG. 7, the value of the output V becomes “1” if the input U of the neuron A is greater than “0” as a boundary, and smaller than that. In this case, the value of the output V becomes “0”. Here, the McCarlock-Pitz model is shown as an example of the neuron model, but other examples include a sigmoid function model and a hysteresis-Maccarlock-Pitz model.
[0035]
The neural expression of FIG. 8 shows an example of the state of the processing table that the character string
[0036]
An area specified by the character candidate number and the character string number, that is, an area within a dotted frame in the figure represents the state of the neuron. That is, “0” and “1” in the dotted line frame in the figure each represent the value of the output V of the neuron. From these values, the following can be understood from this processing table. For example, when the neuron corresponding to the character candidate number j = 3 and the character string number i = 2 is “1”, the character candidate whose character candidate number is 3 is the character string whose character string number is 2. It is understood that it belongs to.
[0037]
The value of the output V of each neuron in this processing table is set by random number generation in the initial state, but each is optimal until the character string
[0038]
[Expression 1]
[0039]
In this operational equation (1), A, B, C, D, and E are preset coefficients, respectively.
[0040]
AREA corresponds to the area ratio of the circumscribed rectangle of interest to other circumscribed rectangles, and is represented by the following equation (2).
[0041]
[Expression 2]
[0042]
In this equation (2), LXk and LYk are the lengths of the sides that are orthogonal to the circumscribed rectangle k, and LXj and LYj are the lengths of the sides that are orthogonal to the circumscribed rectangle j. However, AREA may specify the area ratio of circumscribed rectangles based on the area of image elements constituting the character candidates, the area of circumscribed rectangles, and the like.
[0043]
In the operation formula (1), NEAR corresponds to the distance between the regression line for the circumscribed rectangle of the character candidate belonging to the same character string number i and the barycentric coordinate of the circumscribed rectangle k of interest. It is expressed by the following equation (3).
[0044]
[Equation 3]
[0045]
In this equation (3), Xk and Yk are the barycentric coordinates of the circumscribed rectangle k, and ai, bi, and ci are the regression lines a of the character string i.ixk+ Biyk+ Ci= 0 coefficient.
[0046]
However, instead of the above-described equation (3), for example, as in the following equation (4), the smaller of the distances between the y-axis direction and the regression line in the x-axis direction may be NEAR.
[0047]
[Expression 4]
[0048]
In this equation (4), min (Q, R) indicates one of the smaller values of Q and R, and if the value of Q or R does not exist, the value of R or Q is output. Is meant to do.
[0049]
At this time, if a regression curve (secondary curve, cubic curve, etc.) is used instead of the regression line, character string candidates can be extracted from character candidates arranged in a curved line. For example, a quadratic curve is represented by a regression curve aixk 2+ Bixk+ Ciyk+ DiIf = 0, the distance in the y-axis direction between the regression curve and the centroid coordinates of the circumscribed rectangle k is expressed by the following equation (5).
[0050]
[Equation 5]
[0051]
Furthermore, instead of NEAR as described above, a value obtained by dividing NEAR by the square root of the area of the circumscribed rectangle of the character candidate belonging to the character string i may be used.
[0052]
In the operation formula (1), INTER corresponds to the distance between the center of gravity of the circumscribed rectangle of interest and the center of gravity of the other circumscribed rectangle. In addition, the term min≡k, k = 1 to m (Qk) in the equation (1) represents the smallest positive positive value among Qk corresponding to k = 1 to m. Therefore, min≡k, k = 1 ~ m (INTER Vik) Corresponds to the distance between the character candidate j and another character candidate closest to the character candidate j among the other character candidates constituting the character string i to which the character candidate j belongs. . However, at this time, a distance from a character candidate second closest to the character candidate j among other character candidates constituting the character string i to which the character candidate j belongs may be taken into consideration. Further, instead of INTER as described above, a value obtained by dividing INTER by the square root of the circumscribed rectangle area of the character candidate belonging to the character string i may be used.
[0053]
In the operation formula (1), h (t) corresponds to a well-known hill climb term and has a function of escaping from the local optimum solution.
[0054]
DU by the above equation (1)ijThen, the character string
[0055]
[Formula 6]
[0056]
At this time, the character string
[0057]
That is, the character string
[0058]
The character string candidate extracted by the character string
[0059]
The evaluation function related to linearity is for evaluating the average distance between the regression line or the regression curve of the character candidates belonging to the character string i. Specifically, the evaluation functions are expressed by the following equations (7) and (8), respectively. It is expressed.
[0060]
[Expression 7]
[0061]
[Equation 8]
[0062]
The evaluation function relating to the area ratio of the circumscribed rectangle is for evaluating the variance relating to the area of the circumscribed rectangle of the character candidate belonging to the character string i, and is specifically expressed by the following equation (9). .
[0063]
[Equation 9]
[0064]
The evaluation function related to the interval between circumscribed rectangles is for evaluating the average distance between the centroid coordinates of the circumscribed rectangles of the character candidates belonging to the character string i and the nearest centroid coordinates. ) Expression. However, the evaluation function related to the interval between the circumscribed rectangles may consider the distance from the barycentric coordinate that is the second nearest neighbor.
[0065]
[Expression 10]
[0066]
The character string evaluation means 33 uses a threshold value T corresponding to each of the expressions (7) to (10).1, T2, TThree, TFourAre prepared in advance, and the calculation result of each expression is a threshold T corresponding to each1, T2, TThree, TFourIs compared to determine whether or not the character string candidate extracted by the character string
[0067]
That is, the character string evaluation unit 33 performs a final determination as to whether or not the character string candidate extracted by the character string
[0068]
Next, a character string extraction processing procedure in the image processing apparatus configured as described above, that is, an image processing method in this embodiment will be described.
[0069]
In the image processing apparatus of the present embodiment, when the
[0070]
Thereafter, the character string
[0071]
When the value of the output V of each neuron is set by random number generation, the character string
[0072]
For example, if a neuron corresponding to a character candidate number j = 1 and a character string number i = 1 is targeted, the character candidate number j = 1 is set while referring to a plurality of types of feature amounts related to each character candidate. The area ratio between the circumscribed rectangle of the corresponding character candidate and the other circumscribed rectangle belonging to the character string number i = 1, the barycentric coordinates of the circumscribed rectangle of the character candidate corresponding to the character candidate number j = 1, and the character string number i = 1. The distance between the circumscribing rectangle of the circumscribed rectangle of the character candidate to which it belongs, the distance between the centroid of the circumscribed rectangle of the character candidate corresponding to the character candidate number j = 1 and the centroid of the other circumscribed rectangle belonging to the character string number i = 1 , Etc. are substituted into the equation (1) to obtain dUijAnd the dUijIs substituted into the update equation (6) to change the value of the input U of each neuron. Therefore, the value of the neuron output V corresponding to the character candidate number j = 1 and the character string number i = 1 corresponds to the character candidate number j = 1 in accordance with the change in the value of the input U as shown in FIG. If it is suitable for the character candidate to belong to the character string number i = 1, transition to “1”, otherwise transition to “0”. As a result of this transition, if the value of the neuron output V corresponding to the character string number i = 1 and the character candidate number j = 1 is “1”, the character candidate whose character candidate number is 1 is the character candidate It belongs to a character string candidate whose column number is 1.
[0073]
The character string
[0074]
Thereafter, the character
[0075]
The number of character candidate numbers j and character string numbers i constituting the neural expression processing table may be appropriately determined in consideration of the processing capacity (processing capacity) in the character string
[0076]
As described above, according to the image processing apparatus and the image processing method of the present embodiment, after extracting the character candidates included in the input image, the distance relationship between the straight line or curve connecting the character candidates and each character candidate, that is, Considering the position of the character candidate in the input image, a straight line or curve that will be along the character string is specified using a processing table of neural expression. At this time, if a plurality of character strings are mixed in the input image, the positions of the character candidates in the input image are taken into consideration, so that a plurality of straight lines or curves are specified. Then, when a straight line or a curve is specified, a character candidate group arranged on the straight line or curve is extracted as constituting a character string regardless of the size of each character candidate.
[0077]
Further, according to the image processing apparatus and the image processing method of the present embodiment, when character candidates included in the input image are extracted, a plurality of types of feature amounts are extracted from the extracted character candidates, and each feature amount is taken into consideration. A character candidate group constituting a character string is extracted from character candidates extracted from the input image using a processing table of neural expression based on each feature amount.
[0078]
For these reasons, in the image processing apparatus and the image processing method according to the present embodiment, the character size, shape, character spacing, etc. in the input image are not constant, the direction in which characters are arranged, Even when character strings arranged side by side are mixed, it is possible to perform highly accurate character string extraction without depending on the size of the characters, the direction in which the characters are arranged, or the like. Even if there is a character string composed of characters arranged on a curve in the input image, the character string can be accurately extracted. In addition, since multiple types of feature quantities for each character candidate are comprehensively considered at that time, it is difficult to determine when integrating the character strings, and it is necessary to perform character string extraction in multiple times. Absent.
[0079]
In particular, in the present embodiment, the character string
[0080]
In addition, the character string
[0081]
Furthermore, at this time, if the shape of each character candidate, for example, the aspect ratio of the rectangle circumscribing the character candidate is also taken into account, not only the size of the font but also character strings having different font types may be mixed. These can be extracted accurately.
[0082]
In addition, the character string
[0083]
In addition, in the image processing apparatus and the image processing method of the present embodiment, after the evaluation determination by the character string evaluation means 33, the extraction result of the character string is output, so that further character string extraction can be performed. High accuracy can be achieved.
[0084]
In the present embodiment, the case where the character string
[0085]
【The invention's effect】
As described above, the image processing apparatus and the image processing method according to the present invention include character strings in which the character size, shape, character spacing, and the like are not constant in the input image, and character strings with various character alignment directions. Even if there is a character string composed of characters that are mixed or lined up on a curved line, highly accurate character string extraction is performed without depending on the size or direction of the characters that make up the character string. be able to. In addition, if the feature values for each character candidate are comprehensively considered at that time, it is not difficult to make a determination at the time of character string integration and the character string extraction is not performed multiple times as in the past. Thus, the accuracy of character string extraction can be improved.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a schematic configuration of an example of an image processing apparatus according to the present invention.
FIG. 2 is a block diagram illustrating a configuration example of a character candidate extraction unit included in the image processing apparatus of FIG.
FIG. 3 is a block diagram showing a configuration example of a main part in the character candidate extraction unit of FIG. 2;
FIGS. 4A and 4B are explanatory diagrams showing an outline of a single character extraction process by the character candidate extraction unit of FIG. 2, and FIGS.
5 is a block diagram illustrating a configuration example of character string extraction means included in the image processing apparatus of FIG. 1;
FIG. 6 is an explanatory diagram showing a neuron model.
FIG. 7 is an explanatory diagram showing a McCarlock Pitz model which is an example of an input / output relationship of a neuron model.
FIG. 8 is an explanatory diagram showing an example of a neural expression.
[Explanation of symbols]
DESCRIPTION OF
Claims (10)
前記文字候補抽出手段が抽出した文字候補に関する特徴量を抽出するとともに当該抽出を複数種類の特徴量について行う特徴抽出手段と、
前記文字候補抽出手段が抽出した各文字候補に個別に付された識別番号である文字候補番号と、抽出すべき文字列候補の識別番号である文字列番号との関係が、入力Uの値によって出力Vの値が遷移するニューロンの状態によって特定され、当該ニューロンの出力Vの値によって各文字候補がどの文字列番号の文字列候補に属するか分かるように構成された処理テーブルと、
前記特徴抽出手段が抽出した複数種類の特徴量を所定の演算式に代入して前記処理テーブルにおける各ニューロンの入力Uの値を変化させ、当該変化によって前記処理テーブル上に存在する全てのニューロンの出力Vの値を初期設定状態から最適状態に収束するように遷移させ、その遷移結果を基にしつつ前記文字候補抽出手段が抽出した複数の文字候補の中から同一の文字列番号に属する文字候補群を文字列を構成する文字候補群として抽出する文字列抽出手段と
を備えることを特徴とする画像処理装置。Character candidate extraction means for extracting character candidates included in the input image from the input image;
A feature extraction unit that extracts a feature amount related to a character candidate extracted by the character candidate extraction unit and performs the extraction on a plurality of types of feature amounts;
The relationship between the character candidate number, which is the identification number individually assigned to each character candidate extracted by the character candidate extraction means, and the character string number, which is the identification number of the character string candidate to be extracted, depends on the value of the input U A processing table that is specified by the state of the neuron to which the value of the output V transitions, and is configured so that each character candidate belongs to the character string candidate of which character string number by the value of the output V of the neuron;
By substituting a plurality of types of feature values extracted by the feature extraction means into a predetermined arithmetic expression, the value of the input U of each neuron in the processing table is changed, and by this change, all the neurons existing on the processing table are changed. Character candidates belonging to the same character string number from among a plurality of character candidates extracted by the character candidate extraction means based on the transition result while causing the value of the output V to transition so as to converge from the initial setting state to the optimal state An image processing apparatus comprising: character string extraction means for extracting a group as a character candidate group constituting a character string.
ことを特徴とする請求項1記載の画像処理装置。One of the plurality of types of feature amounts is a distance between each regression line or each regression curve connecting the circumscribed rectangles of the character candidates belonging to the same character string number and the barycentric coordinates of the target character candidate. The image processing apparatus according to claim 1.
前記文字候補抽出ステップで抽出した文字候補に関する特徴量を抽出するとともに当該抽出を複数種類の特徴量について行う特徴抽出ステップと、
前記文字候補抽出ステップで抽出した各文字候補に個別に付された識別番号である文字候補番号と、抽出すべき文字列候補の識別番号である文字列番号との関係が、入力Uの値によって出力Vの値が遷移するニューロンの状態によって特定され、当該ニューロンの出力Vの値によって各文字候補がどの文字列番号の文字列候補に属するか分かるように構成された処理テーブルを用い、前記特徴抽出ステップで抽出した複数種類の特徴量を所定の演算式に代入して前記処理テーブルにおける各ニューロンの入力Uの値を変化させ、当該変化によって前記処理テーブル上に存在する全てのニューロンの出力Vの値を初期設定状態から最適状態に収束するように遷移させ、その遷移結果を基にしつつ前記文字候補抽出手段が抽出した複数の文字候補の中から同一の文字列番号に属する文字候補群を文字列を構成する文字候補群として抽出する文字列抽出ステップと
を備えることを特徴とする画像処理方法。 A character candidate extraction step of extracting character candidates included in the input image from the input image ;
And line Cormorant feature extraction step for a plurality types of features the extraction extracts the feature quantity related to the character candidates extracted by the character candidate extraction step,
The relationship between the character candidate number, which is the identification number individually assigned to each character candidate extracted in the character candidate extraction step, and the character string number, which is the identification number of the character string candidate to be extracted, depends on the value of the input U Using the processing table configured such that the value of the output V is specified by the state of the transitioning neuron and each character candidate belongs to the character string candidate of which character string number by the value of the output V of the neuron. A plurality of types of feature values extracted in the extraction step are substituted into a predetermined arithmetic expression to change the value of the input U of each neuron in the processing table, and the output V of all neurons existing on the processing table due to the change. shifts the value to converge from the initial setting state to the optimum state, a plurality of while based on transition results of its said character candidate extraction unit and extracted character candidates A character string extraction step of extracting a character candidate group belonging to the same string number as a character candidate group constituting a string from being
Image processing method, characterized in that it comprises a.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000006396A JP3972546B2 (en) | 2000-01-14 | 2000-01-14 | Image processing apparatus and image processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000006396A JP3972546B2 (en) | 2000-01-14 | 2000-01-14 | Image processing apparatus and image processing method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001195542A JP2001195542A (en) | 2001-07-19 |
JP3972546B2 true JP3972546B2 (en) | 2007-09-05 |
Family
ID=18534932
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000006396A Expired - Fee Related JP3972546B2 (en) | 2000-01-14 | 2000-01-14 | Image processing apparatus and image processing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3972546B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6116531B2 (en) * | 2014-08-08 | 2017-04-19 | 京セラドキュメントソリューションズ株式会社 | Image processing device |
JP7373367B2 (en) * | 2019-11-20 | 2023-11-02 | 日本放送協会 | Character region detection model learning device and its program, and character region detection device and its program |
-
2000
- 2000-01-14 JP JP2000006396A patent/JP3972546B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001195542A (en) | 2001-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110866871A (en) | Text image correction method and device, computer equipment and storage medium | |
US6347156B1 (en) | Device, method and storage medium for recognizing a document image | |
JP3748172B2 (en) | Image processing device | |
JP3950777B2 (en) | Image processing method, image processing apparatus, and image processing program | |
CN105528614B (en) | A kind of recognition methods of the cartoon image space of a whole page and automatic recognition system | |
CN111353961B (en) | Document curved surface correction method and device | |
CN110298353B (en) | Character recognition method and system | |
CN110180186A (en) | A kind of topographic map conversion method and system | |
CN110598566A (en) | Image processing method, device, terminal and computer readable storage medium | |
JP4275866B2 (en) | Apparatus and method for extracting character string pattern from color image | |
CN110363196B (en) | Method for accurately recognizing characters of inclined text | |
CN113792659B (en) | Document identification method and device and electronic equipment | |
JP2005317042A (en) | Image processor | |
CN113065404B (en) | Method and system for detecting train ticket content based on equal-width character segments | |
JP3972546B2 (en) | Image processing apparatus and image processing method | |
CN111126273A (en) | Image processing method, image processing apparatus, electronic device, and storage medium | |
JP2008084109A (en) | Eye opening/closing determination device and eye opening/closing determination method | |
JP2872768B2 (en) | Character extraction device | |
JP3058489B2 (en) | String extraction method | |
JP2005063055A (en) | Image generating device, image generation program, and recording medium with the program stored therein | |
WO2000049569A1 (en) | Method for extracting feature of binary image | |
Ye et al. | Document image matching and annotation lifting | |
JP4259950B2 (en) | Image recognition apparatus, image recognition program, and recording medium | |
JPH09305707A (en) | Image extracting system | |
JP2003208568A (en) | Image processor, image processing method and program used in the method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040617 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20061027 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061031 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070416 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070522 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070604 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100622 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110622 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110622 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120622 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130622 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130622 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140622 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |