JP6513311B2 - 文字認識装置および文字認識方法 - Google Patents

文字認識装置および文字認識方法 Download PDF

Info

Publication number
JP6513311B2
JP6513311B2 JP2018557267A JP2018557267A JP6513311B2 JP 6513311 B2 JP6513311 B2 JP 6513311B2 JP 2018557267 A JP2018557267 A JP 2018557267A JP 2018557267 A JP2018557267 A JP 2018557267A JP 6513311 B2 JP6513311 B2 JP 6513311B2
Authority
JP
Japan
Prior art keywords
image
character recognition
labels
binarized
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2018557267A
Other languages
English (en)
Other versions
JPWO2018116374A1 (ja
Inventor
裕介 伊谷
裕介 伊谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2018116374A1 publication Critical patent/JPWO2018116374A1/ja
Application granted granted Critical
Publication of JP6513311B2 publication Critical patent/JP6513311B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Description

この発明は、画像から文字を認識する文字認識装置および文字認識方法に関する。
例えば、特許文献1には、撮像装置により得られた情景画像あるいは文書画像から文字を認識し、文字認識結果をテキスト情報として出力する文字認識方法が記載されている。
この文字認識方法では、グレースケール画像からそれぞれ異なる閾値に対応する二値化画像を生成して、複数の二値化画像からそれぞれ抽出した連結成分についての包含関係を示す成分ツリーを生成する。
複数の連結成分のそれぞれについて、対象の連結成分からの距離が所定値以下であり、かつ成分ツリーによって包含関係を持たないことが示された連結成分を検出して、対象の連結成分と検出した連結成分との並び順をそれぞれ設定する。これにより、複数の連結成分のそれぞれに対応する候補文字の並び順を網羅的に示す認識ラティスを生成する。
次に、認識ラティスにより接続が示された連結成分ごとに文字認識を行い、各連結成分の認識結果に基づいて、各候補文字列が入力画像に含まれる文字列である可能性の高さをそれぞれ評価する。
特開2013−175084号公報
従来の文字認識装置は、情景画像から実用的な処理時間で精度よく文字認識結果を得ることが難しいという課題があった。
例えば、特許文献1に記載される文字認識装置の評価部は、動的計画法の最適経路探索を用いて、認識ラティスによって示された各パスの評価値を算出している。
このような最適化処理は一般的に計算量が多く処理時間が長くなるため、文字認識結果が得られるまでに長時間を要する。
この発明は上記課題を解決するもので、文字認識の精度を保ちつつ、文字認識結果が得られるまでの時間を短縮することができる文字認識装置および文字認識方法を得ることを目的とする。
この発明に係る文字認識装置は、二値化処理部、画像生成部および文字認識部を備えている。二値化処理部は、入力画像を複数の閾値で二値化して複数の閾値のそれぞれに対応する複数の二値化画像を生成する。画像生成部は、二値化処理部により生成された複数の二値化画像に基づいて文字認識対象の画像候補を生成する。文字認識部は、画像生成部により生成された複数の画像候補のそれぞれを文字認識する。特に、画像生成部が、二値化画像で複数の黒画素が連結している領域をラベルとして抽出し、二値化画像間で対応する位置にあるラベルそれぞれの面積または数に基づいて、当該二値化画像間におけるラベルの分割または統合の関係を判定し、ラベルの分割または統合の関係を示す判定データに基づいて二値化画像でとり得るラベルの複数の組み合わせを特定し、ラベルの複数の組み合わせに基づいて複数の画像候補を生成する。
この発明によれば、入力画像を二値化した複数の二値化画像のそれぞれで複数の黒画素が連結している領域をラベルとして抽出し、二値化画像間におけるラベルの分割または統合の関係に基づいて二値化画像でとり得るラベルの複数の組み合わせを特定し、ラベルの複数の組み合わせに基づいて複数の画像候補を生成する。これにより、計算量が多い最適化処理を用いた画像候補の生成が不要となることから、文字認識の精度を保ちつつ、文字認識結果が得られるまでの時間を短縮することができる。
この発明の実施の形態1に係る文字認識装置の構成を示すブロック図である。 実施の形態1における画像生成部の構成を示すブロック図である。 図3Aは、実施の形態1に係る文字認識装置の機能を実現するハードウェア構成を示すブロック図である。図3Bは、実施の形態1に係る文字認識装置の機能を実現するソフトウェアを実行するハードウェア構成を示すブロック図である。 実施の形態1に係る文字認識装置の動作を示すフローチャートである。 原画像から二値化画像を生成する処理の概要を示す図である。 実施の形態1における画像生成部の動作を示すフローチャートである。 二値化画像からラベルを抽出する処理の概要を示す図である。 図8Aは、二値化画像間でラベルの面積が変化した場合を示す図である。図8Bは、二値化画像間でラベルの数が変化した場合を示す図である。 二値化画像間のラベルの分割または統合の様子を示す図である。 この発明の実施の形態2に係る文字認識装置の構成を示すブロック図である。 実施の形態2における画像生成部の構成を示すブロック図である。 実施の形態2における画像生成部の動作を示すフローチャートである。
以下、この発明をより詳細に説明するため、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
図1はこの発明の実施の形態1に係る文字認識装置1の構成を示すブロック図である。また、図2は、画像生成部3の構成を示すブロック図である。
文字認識装置1は、入力画像に写った文字を認識する装置であり、図1に示すように、二値化処理部2、画像生成部3および文字認識部4を備えている。画像生成部3は、図2に示すように、ラベル抽出部30、判定部31および画像候補生成部32を備えている。
二値化処理部2は、入力画像を複数の閾値で二値化して、複数の閾値のそれぞれに対応するN枚の二値化画像P1〜PNを生成して画像生成部3に出力する。
入力画像は文字認識対象の原画像であり、グレースケール画像またはカラー画像であってもよい。また、複数の閾値は、例えば、入力画像の輝度に関する閾値であってもよい。なお、Nは2以上の自然数である。
画像生成部3は、N枚の二値化画像P1〜PNに基づいて複数の画像候補を生成する。
ラベル抽出部30は、二値化画像P1〜PNのそれぞれで複数の黒画素が連結している塊領域をラベルとして抽出する。
例えば、複数の黒画素が連結している塊領域に外接する矩形が1つのラベルとして抽出される。抽出されたラベルの二値化画像上の位置および大きさを示す情報はラベルデータ21に含められてラベル抽出部30から判定部31に出力される。なお、ラベルの大きさは、例えば、二値化画像上でラベルが囲む領域の面積で表される。
判定部31は、ラベルデータ21に基づいて二値化画像間におけるラベルの分割または統合の関係を判定する。
例えば、一方の二値化画像から第1のラベルが抽出され、他方の二値化画像における、第1のラベルに対応する位置から第2のラベルと第3のラベルとが抽出された場合、第1のラベルが第2のラベルと第3のラベルとに分割されたと判定される。
また、一方の二値化画像から第4のラベルと第5のラベルとが抽出され、他方の二値化画像における、第4のラベルと第5のラベルに対応する位置から第6のラベルが抽出された場合、第4のラベルと第5のラベルとが第6のラベルに統合されたと判定される。
ラベルの分割または統合の関係を示す判定データ22は、判定部31から画像候補生成部32に出力される。
画像候補生成部32は、判定データ22に基づいて二値化画像でとり得るラベルの複数の組み合わせを特定し、特定したラベルの複数の組み合わせに基づいて複数の画像候補23を生成する。
例えば、画像候補生成部32は、第1のラベルが第2のラベルと第3のラベルとに分割された場合、第1のラベルと第2のラベルおよび第3のラベルとが二値化画像でとり得るラベルの組み合わせであると特定する。
画像候補生成部32は、このようにして特定したラベルの組み合わせに基づいて、第1のラベルを有する二値化画像を画像候補23として生成し、第1のラベルに対応する位置に第2のラベルと第3のラベルとを有する二値化画像を画像候補23として生成する。
これにより、画像上の文字である可能性が高い黒画素の連結部分が様々な組み合わせで特定され、これらの組み合わせを含んだ複数の画像候補23が生成される。
文字認識部4は、複数の画像候補23のそれぞれを文字認識する。
文字認識の方法として、例えば、下記の参考文献1に記載された方法を利用する。
この文字認識方法では、文字認識結果とともに、文字認識結果の信頼度を示すスコアが算出される。文字認識部4は、上記スコアに基づいて文字認識結果を評価し、上記スコアが最も高い文字認識結果を最終的な文字認識結果として出力する。
参考文献1;森稔、澤木美奈子、萩田紀博、村瀬洋、武川直樹,“ランレングス補正を用いた画像劣化にロバストな特徴抽出”,電子情報通信学会論文誌,Vol.J86−D2,No.7,pp.1049−1057,2003年 7月.
図3Aは、文字認識装置1の機能を実現するハードウェア構成を示すブロック図である。図3Bは、文字認識装置1の機能を実現するソフトウェアを実行するハードウェア構成を示すブロック図である。画像取り込み装置100は、文字認識装置1に入力画像データを取り込む装置であり、例えば、スキャナまたはカメラを含んで構成される。ディスプレイ101は、入力画像データが示す画像または文字認識結果を表示する。ハードディスク102は、入力画像データまたは文字認識結果を記憶する。
文字認識装置1における、二値化処理部2、画像生成部3および文字認識部4の各機能は、処理回路により実現される。すなわち、文字認識装置1は、これらの機能を実行するための処理回路を備える。処理回路は、専用のハードウェアであってもメモリに格納されるプログラムを実行するCPU(Central Processing Unit)であってもよい。
処理回路が図3Aに示す専用のハードウェアの処理回路103の場合、処理回路103は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field−Programmable Gate Array)またはこれらを組み合わせたものが該当する。
文字認識装置1における、二値化処理部2、画像生成部3および文字認識部4の各機能をそれぞれ処理回路で実現してもよいし、各機能をまとめて1つの処理回路で実現してもよい。
処理回路が図3Bに示すプロセッサ105である場合、二値化処理部2、画像生成部3および文字認識部4の各機能は、ソフトウェア、ファームウェア、またはソフトウェアとファームウェアとの組み合わせにより実現される。ソフトウェアおよびファームウェアはプログラムとして記述され、メモリ104に格納される。
プロセッサ105は、メモリ104に格納されたプログラムを読み出して実行することにより、各機能を実現する。
すなわち、文字認識装置1は、処理回路により実行されるときに、入力画像から複数の二値化画像を生成するステップ、複数の二値化画像に基づいて複数の画像候補を生成するステップ、複数の画像候補のそれぞれを文字認識するステップが結果的に実行されるプログラムを格納するためのメモリを備える。
また、これらのプログラムは、二値化処理部2、画像生成部3、および文字認識部4の手順または方法をコンピュータに実行させるものである。
ここで、メモリは、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable ROM)、EEPROM(Electrically EPROM)などの不揮発性または揮発性の半導体メモリ、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD(Digital Versatile Disk)などが該当する。
また、二値化処理部2、画像生成部3および文字認識部4の各機能について一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現してもよい。例えば、二値化処理部2は専用のハードウェアの処理回路でその機能を実現し、画像生成部3および文字認識部4については、プロセッサ105がメモリ104に格納されたプログラム実行することにより、その機能を実現する。
このように、処理回路は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの組み合わせによって前述の機能を実現することができる。
次に動作について説明する。
図4は、文字認識装置1の動作を示すフローチャートであり、文字認識対象の画像候補が生成されるまでの一連の処理を示している。
まず、二値化処理部2は、画像取り込み装置100により取り込まれた入力画像データを入力し、このデータが示す入力画像を複数の閾値で二値化して二値化画像P1〜Pnを生成する(ステップST1)。なお、入力画像が二値化されると、入力画像上の背景などの余白が白画素に変換され、文字、罫線、シンボル図形などの余白以外が黒画素に変換されるものとする。
図5は、原画像Pから二値化画像P1〜P4を生成する処理の概要を示す図である。
原画像Pは、前述した入力画像である。図5に示すように、原画像Pには、5つの文字11〜15と模様10Aおよび模様10Bとが含まれる。
模様10Aは、文字11と文字12とに重なった模様であり、模様10A中には局所的に暗い部分10A−1がある。
また、模様10Bは、文字14と文字15とに重なった模様であり、模様10B中には局所的に暗い部分10B−1がある。
二値化処理部2は、複数の閾値を用いて原画像Pを二値化して二値化画像P1〜P4を生成する(N=4)。例えば、二値化処理部2は、複数の閾値のうち二値化に用いる閾値をそれぞれ変えて輝度の異なる原画像を二値化することで、二値化画像P1〜P4を生成する。図5において、二値化画像P1画像には、文字11〜15と、模様10Aに由来する黒色領域10Cと、模様10Bに由来する黒色領域10Dとが含まれる。二値化画像P2には、文字11〜15と、模様10Aの暗い部分10A−1に由来する黒色領域10Eと、模様10Bの暗い部分10B−1に由来する黒色領域10Fとが含まれる。また、二値化画像P3には、文字11〜15と、模様10Aの暗い部分10A−1に由来する黒色領域10Gとが含まれる。二値化画像P4には、文字11〜15と、模様10Bの暗い部分10B−1に由来する黒色領域10Hとが含まれる。
図4の説明に戻る。
画像生成部3は、二値化画像P1〜P4に基づいて複数の画像候補を生成する(ステップST2)。画像候補の生成処理の詳細は、図6を用いて後述する。
文字認識部4は、画像生成部3により生成された複数の画像候補23のそれぞれを文字認識する(ステップST3)。ここで、文字認識部4は、複数の画像候補23の文字認識結果とともに、それぞれの文字認識結果の信頼度を示すスコアを算出する。そして、文字認識部4は、複数の画像候補23の文字認識結果のうち、スコアが最も高い文字認識結果を最終的な文字認識結果として出力する。
次に、画像候補の生成処理の詳細について説明する。
図6は、画像生成部3の動作を示すフローチャートであり、画像候補23が生成されるまでの一連の処理を示している。
まず、ラベル抽出部30が、二値化処理部2から二値化画像データを入力して、二値化画像データが示す二値化画像P1〜P4からラベルを抽出する(ステップST1a)。
このとき、抽出されたラベルの位置および大きさを示すラベルデータ21が、ラベル抽出部30から判定部31に出力される。
図7は二値化画像P1〜P4からラベルa〜kを抽出する処理の概要を示す図である。図7に破線で示すように、ラベル抽出部30は、二値化画像P1の黒色領域10Cと文字11および文字12の一部とを特定して、これらを横方向に区分けする矩形をラベルaとして抽出する。同様に、ラベル抽出部30は、文字12の残り構成部分を横方向に区分けする矩形をラベルbとして抽出し、文字13を横方向に区分けする矩形をラベルcとして抽出し、文字14と黒色領域10Dと文字15の一部とを横方向に区分けする矩形をラベルdとして抽出する。さらに、ラベル抽出部30は、二値化画像P2〜P4からラベルe〜kを抽出する。
図6の説明に戻る。
判定部31は、ラベルデータ21に基づいて、二値化画像P1〜P4のそれぞれの二値化画像間におけるラベル位置を比較する(ステップST2a)。この比較により、異なる二値化画像間で対応する位置にあるラベルが特定される。
例えば、図7に示すように、二値化画像P1のラベルaに対応する二値化画像P2上の位置にはラベルeがあるので、ラベルaとラベルeが、二値化画像P1と二値化画像P2との間で互いに対応する位置にあると特定される。また、二値化画像P1のラベルdに対応する二値化画像P2上の位置にはラベルfとラベルgとがあるので、ラベルdとラベルfおよびラベルgとが、二値化画像P1と二値化画像P2との間で互いに対応する位置にあると特定される。
続いて、判定部31は、二値化画像P1〜P4のうちの二値化画像間におけるラベルの分割または統合の関係を判定する(ステップST3a)。例えば、上記判定には、図8Aと図8Bとに示す判定基準を用いる。また、下記式(1)〜(3)は、これらの判定基準を数式化したものである。ただし、Sは、二値化画像Pnでラベルが囲む領域の面積であり、Sn+1は、二値化画像Pnの上記ラベルに対応する二値化画像Pn+1上の位置にあるラベルが囲む領域の面積である。また、THlowは、これらの面積比の下限閾値であり、THhighは、これらの面積比の上限閾値である。Lは、二値化画像Pn上の対象位置にあるラベルの数であり、Ln+1は、この対象位置に対応する二値化画像Pn+1上の位置にあるラベルの数である。
/Sn+1<THlow ・・・(1)
/Sn+1>THhigh ・・・(2)
≠Ln+1 ・・・(3)
図8Aに示す判定基準は、同一の入力画像から得られた二値化画像間の互いに対応するラベル位置にあるラベル同士が異なる面積であると、これらのラベルは、異なるラベルであると判定するものである。
例えば、ラベル16とラベル17とが互いに対応する位置にある場合に、ラベル16が囲む領域の面積Sに対するラベル17が囲む領域の面積Sn+1の比が閾値THhighよりも大きければ、ラベル16とラベル17は異なるラベルであると判定される。
ここで、“ラベル16とラベル17とが異なる”とは、ラベル16に囲まれた領域内の黒画素の連結部分と、ラベル17に囲まれた領域内の黒画素の連結部分とが異なることを意味する。
図8Bに示す判定基準は、同一の入力画像から得られた二値化画像間の互いに対応するラベル位置にあるラベルの数が異なると、ラベルが分割または統合されたと判定するものである。例えば、二値化画像Pn上の対象位置にあるラベル16の数が1(L=1)であり、この対象位置に対応する二値化画像Pn+1上の位置にラベル18とラベル19とがある場合、Ln+1=2である。この場合、判定部31は、ラベル16が二値化画像Pn+1においてラベル18とラベル19とに分割されたと判定する。
図9は、二値化画像P1〜P4のうちの二値化画像間のラベルの分割または統合の様子を示す図である。図9において、二値化画像P1上でラベルaが囲む領域の面積は、ラベルaに対応するラベルeが二値化画像P2上で囲む領域の面積よりも大きい。この場合、判定部31は、上記式(2)に基づいてラベルaとラベルeが互いに異なると判定する。
なお、二値化画像P1上でラベルb,cが囲む領域の面積と、ラベルb、cに対応する二値化画像P2上の対応する位置にあるラベルが囲む領域の面積とは、いずれも上記式(1)および上記式(2)に合致しない関係にある。この場合、判定部31は、二値化画像P2上にもラベルb,cがあると判定する。
一方、二値化画像P1上のラベルdに対応する二値化画像P2上の位置にはラベルfとラベルgとがある。この場合、判定部31は、上記式(3)に基づいてラベルdが二値化画像P2上でラベルfとラベルgとに分割されたと判定する。
二値化画像P2上でラベルgが囲む領域の面積は、ラベルgに対応するラベルhが二値化画像P3上で囲む領域の面積よりも大きい。この場合、判定部31は、上記式(2)に基づいてラベルgとラベルhとが互いに異なると判定する。
また、二値化画像P3上のラベルeに対応する二値化画像P4上の位置には、ラベルiとラベルjとがある。この場合、判定部31は、上記式(3)に基づいてラベルiが二値化画像P4上でラベルiとラベルjとに分割されたと判定する。
さらに、二値化画像P3上でラベルhが囲む領域の面積は、ラベルhに対応するラベルkが二値化画像P4上で囲む領域の面積よりも小さい。この場合、判定部31は、上記式(1)に基づいてラベルhとラベルkとが互いに異なると判定する。
このように判定されたラベルの分割または統合の関係を示す判定データ22は、判定部31から画像候補生成部32に出力される。
図6の説明に戻る。
画像候補生成部32は、判定データ22に基づいて二値化画像でとり得るラベルの組み合わせを特定し、ラベルの組み合わせごとに識別情報を付与する(ステップST4a)。
例えば、二値化画像P1には、左側から順にラベルa、ラベルb、ラベルc、ラベルdがある。画像候補生成部32は、上記判定データ22に基づいて、ラベルa〜dのうち、ラベルdがラベルfとラベルgとに分割されることを認識すると、分割元のラベルと分割先のラベルとが別の組み合わせになるようにラベルの組み合わせを特定する。
この場合、画像候補生成部32は、二値化画像で左から順に、ラベルa、ラベルb、ラベルc、ラベルdが並ぶ組み合わせと、ラベルa、ラベルb、ラベルc、ラベルf、ラベルgが並ぶ組み合わせとを、二値化画像でとり得るラベルの組み合わせとして特定する。
画像候補生成部32は、このように特定したラベルの組み合わせのそれぞれに識別情報を付与する。
同様に、画像候補生成部32が、二値化画像P1〜P4におけるラベルの複数の組み合わせを特定することにより、下記の12個の組み合わせが得られる。
ここで、識別情報は、ラベルの組み合わせのそれぞれに割り当てた通し番号(1)〜(12)である。
組み合わせ(1);(a,b,c,d)
組み合わせ(2);(a,b,c,f,g)
組み合わせ(3);(a,b,c,f,h)
組み合わせ(4);(a,b,c,f,k)
組み合わせ(5);(e,b,c,d)
組み合わせ(6);(e,b,c,f,g)
組み合わせ(7);(e,b,c,f,h)
組み合わせ(8);(e,b,c,f,k)
組み合わせ(9);(i,j,b,c,f,h)
組み合わせ(10);(i,j,b,c,f,g)
組み合わせ(11);(i,j,b,c,f,k)
組み合わせ(12);(i,j,b,c,d)
続いて、画像候補生成部32は、識別情報からラベルの組み合わせを特定し、特定したラベルの組み合わせに基づいて複数の画像候補23を生成する(ステップST5a)。
例えば、画像候補生成部32は、二値化画像P1〜P4から、ラベルa〜dのそれぞれに囲まれた領域内の黒画素の連結部分を特定し、これらの黒画素の連結部分を含む二値化画像を、組み合わせ(1)に対応する画像候補23として生成する。
また、画像候補生成部32は、二値化画像P1〜P4から、ラベルa〜cのそれぞれに囲まれた領域内の黒画素の連結部分とラベルf,gのそれぞれに囲まれた領域内の黒画素の連結部分とを特定する。そして、画像候補生成部32は、これらの黒画素の連結部分を含む二値化画像を、組み合わせ(2)に対応する画像候補23として生成する。
同様にして、画像候補生成部32は、組み合わせ(3)から組み合わせ(12)までのそれぞれに対応する画像候補23を生成する。
このようにして生成された12個の画像候補23は、画像候補生成部32から文字認識部4に出力される。文字認識部4は、12個の画像候補23のそれぞれを文字認識する。ここで、文字認識部4は、12個の画像候補23の文字認識結果と、それぞれの文字認識結果の信頼度を示すスコアを算出する。そして、文字認識部4は、12個の画像候補23の文字認識結果のうち、スコアが最も高い文字認識結果を最終的な文字認識結果として出力する。
以上のように、実施の形態1に係る文字認識装置1において、ラベル抽出部30は、二値化画像において複数の黒画素が連結している領域をラベルとして抽出する。判定部31は、二値化画像間におけるラベルの分割または統合の関係を判定する。画像候補生成部32は、ラベルの分割または統合の関係を示す判定データ22に基づいて二値化画像でとり得るラベルの複数の組み合わせを特定して、ラベルの複数の組み合わせに基づいて複数の画像候補23を生成する。
一般的に、文字認識の精度は、画像上での文字の状態に大きく影響を受ける。例えば、画像上で、文字が部分的に分割されているか、本来ならば分かれている文字の構成部分が塊になっていると、文字認識の精度が劣化する。
そこで、実施の形態1に係る文字認識装置1では、ラベルの分割または統合の関係から二値化画像でとり得るラベルの複数の組み合わせを特定し、ラベルの複数の組み合わせに基づいて複数の画像候補を生成している。これにより、前述したような画像上での文字の状態に応じた文字認識対象の画像候補が得られるので、入力画像を画一的に二値化した場合よりも文字認識の精度を高めることができる。
また、実施の形態1に係る文字認識装置1は、成分ツリーの作成および動的計画法の最適化処理といった計算量が多い処理が不要であり、特許文献1に記載された文字認識装置に比べて、文字認識結果が得られるまでの処理時間を格段に短縮することができる。
実施の形態2.
実施の形態1では、入力画像が複雑であるか否かによらず、ラベルの分割または統合の関係を判定したが、実施の形態2では、入力画像の複雑度に基づいて上記判定の可否を決定する。一般的に入力画像が複雑であるほど、二値化画像上の文字の精度が劣化する傾向にある。これは、複雑度が高い入力画像に基づく二値化画像には、文字が部分的に分割した箇所または本来ならば分かれている文字の構成部分が塊になった箇所が多数存在することを意味する。そこで、実施の形態2では、入力画像の複雑度に基づいて上記判定の可否を決定することにより、実用的な処理時間の範囲内で文字認識結果を得ることができる。
図10は、この発明の実施の形態2に係る文字認識装置1Aの構成を示すブロック図である。図10において、図1と同一の構成要素には同一の符号を付して説明を省略する。また、図11は、画像生成部3Aの構成を示すブロック図である。図11において、図2と同一の構成要素には同一の符号を付して説明を省略する。
文字認識装置1Aは、入力画像に写った文字を認識する装置であり、図10に示すように、二値化処理部2、画像生成部3Aおよび文字認識部4を備える。
画像生成部3Aは、図11に示すように、ラベル抽出部30、判定部31A、画像候補生成部32および複雑度算出部33を備えている。
判定部31Aは、ラベルデータ21に基づいて二値化画像間におけるラベルの分割または統合の関係を判定する。また、判定部31Aは、入力画像の複雑度に基づいて判定の可否を決定する。例えば、入力画像の複雑度が閾値よりも高いと上記判定を行わず、複雑度が上記閾値以下であれば上記判定を行う。
複雑度算出部33は、多値画像データ24に基づいて入力画像の複雑度を算出する。
多値画像データ24は、例えば、二値化処理前の入力画像データである。
複雑度算出部33は、多値画像データ24が示す入力画像上のエッジを抽出し、下記式(4)に従って入力画像上の全画素数に対するエッジの数の割合である複雑度Cを算出する。下記式(4)において、E(x,y)は、入力画像上の座標(x,y)におけるエッジの有無を示す関数であり、エッジがある場合はE(x,y)=1、エッジがない場合にはE(x,y)=0となる。
C=(ΣE(x,y))/全画素数 ・・・(4)
文字認識装置1Aの二値化処理部2、画像生成部3Aおよび文字認識部4の各機能は、処理回路により実現される。すなわち、文字認識装置1Aは、これらの機能を実行するための処理回路を備える。処理回路は、専用のハードウェアであってもメモリに格納されるプログラムを実行するCPUであってもよい。
処理回路が図3Aに示した専用のハードウェアの処理回路103の場合、処理回路103は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC、FPGA、またはこれらを組み合わせたものが該当する。
文字認識装置1Aにおける、二値化処理部2、画像生成部3A、および文字認識部4の各機能をそれぞれ処理回路で実現してもよいし、各機能をまとめて1つの処理回路で実現してもよい。
処理回路が図3Bに示したプロセッサ105の場合、二値化処理部2、画像生成部3Aおよび文字認識部4の各機能は、ソフトウェア、ファームウェア、またはソフトウェアとファームウェアとの組み合わせにより実現される。ソフトウェアおよびファームウェアはプログラムとして記述され、メモリ104に格納される。
プロセッサ105は、メモリ104に格納されたプログラムを読み出して実行することにより、各機能を実現する。
すなわち、文字認識装置1Aは、処理回路により実行されるときに、入力画像から複数の二値化画像を生成するステップ、複数の二値化画像に基づいて複数の画像候補を生成するステップ、複数の画像候補のそれぞれを文字認識するステップが結果的に実行されるプログラムを格納するためのメモリを備える。
また、これらのプログラムは、二値化処理部2、画像生成部3A、および文字認識部4の手順または方法をコンピュータに実行させるものである。
また、二値化処理部2、画像生成部3Aおよび文字認識部4の各機能について、一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現してもよい。例えば、二値化処理部2は専用のハードウェアの処理回路でその機能を実現し、画像生成部3Aおよび文字認識部4については、プロセッサ105がメモリ104に格納されたプログラム実行することにより、その機能を実現する。
このように、処理回路は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの組み合わせによって前述の機能を実現することができる。
次に動作について説明する。
図12は画像生成部3Aの動作を示すフローチャートであり、文字認識対象の画像候補が生成されるまでの一連の処理を示している。
複雑度算出部33が、二値化画像データ20と多値画像データ24とを二値化処理部2から入力し、多値画像データ24に基づいて入力画像の複雑度を算出する(ステップST1b)。例えば、上記式(4)に従って入力画像の複雑度Cが算出される。
複雑度算出部33は、入力画像の複雑度Cを閾値と比較し、複雑度Cが閾値よりも高い場合に、フラグデータ25に対して判定不可を示す値を設定する。また、複雑度算出部33は、複雑度Cが閾値以下である場合、フラグデータ25に対して判定可を示す値を設定する。なお、判定不可を示す値は、例えば“0”、判定可を示す値は、例えば“1”とする。複雑度算出部33は、二値化画像データ20をラベル抽出部30に出力するとともに、フラグデータ25を判定部31Aに出力する。
次に、判定部31Aは、フラグデータ25が判定を許可する値であるか否かを確認する(ステップST2b)。フラグデータ25に判定を許可する値(例えば“1”)が設定された二値化画像がある場合(ステップST3b;YES)、判定部31Aは、ステップST3bに移行して、二値化画像間におけるラベルの分割または統合の関係を判定する。
ステップST3bからステップST6bまでの処理は、図6に示したステップST1aからステップST4aまでと同じ処理が実行される。
一方、判定部31Aは、フラグデータ25に判定を許可しない値(例えば“0”)である場合(ステップST2b;NO)、入力画像の二値化画像の中から文字認識対象の画像候補となる二値化画像を選択する(ステップST7b)。
例えば、判定部31Aは、入力画像の平均輝度に最も近い閾値を用いて二値化された画像を選択する。これにより、画像上の文字の精度が最も高いと推測される二値化画像が画像候補として選択される。
ステップST8bにおいて、画像候補生成部32は、識別情報からラベルの組み合わせを特定し、特定したラベルの組み合わせに基づいて複数の画像候補23を生成する。この処理は、図6に示したステップST5aと同じ処理である。
一方、画像候補生成部32は、ステップST7bで選択された二値化画像については、そのまま画像候補23とする。
このようにして生成された複数の画像候補23は、画像候補生成部32から文字認識部4に出力される。文字認識部4は、複数の画像候補23のそれぞれを文字認識する。
ここで、文字認識部4は、複数の画像候補23の文字認識結果と、それぞれの文字認識結果の信頼度を示すスコアを算出する。そして、文字認識部4は、複数の画像候補23の文字認識結果のうち、スコアが最も高い文字認識結果を最終的な文字認識結果として出力する。
以上のように、実施の形態2に係る文字認識装置1Aにおいて、画像生成部3Aが、入力画像の複雑度に基づいてラベルの分割または統合の関係の判定の可否を決定する。
このように構成することで、ラベルの分割または統合の関係に応じた画像候補23が過剰に生成されなくなり、実用的な処理時間の範囲内で文字認識結果を得ることができる。
なお、実施の形態1および実施の形態2では、二値化画像P1〜Pnの画像全体を対象として処理を行ったが、個々の二値化画像を複数の分割領域に分割し、複数の分割領域のそれぞれを対象として処理を行ってもよい。
例えば、二値化画像間の分割領域におけるラベルの分割または統合の関係を判定してもよい。これにより、分割領域ごとに画像候補を生成することができるので、文字認識の精度を高めることができる。さらに、分割領域ごとの画像候補を文字認識すればよいので、文字認識結果が得られるまでの処理時間を短縮できる。
また、二値化画像を分割する方法としては、例えば、下記参考文献2に記載された方法を用いることができる。
参考文献2;永橋知行、伊原有仁、藤吉弘亘、“前景と背景情報の共起表現を用いたBag−of−featuresによる画像分類”、画像の認識・理解シンポジウム、2010年7月.
なお、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせあるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
この発明に係る文字認識装置は、文字認識の精度を保ちつつ、文字認識結果が得られるまでの時間を短縮することができるので、例えば、車両の走行路にある標識の内容を認識して運転支援を行う運転支援装置に好適である。
1,1A 文字認識装置、2 二値化処理部、3,3A 画像生成部、4 文字認識部、10A,10B 模様、10A−1,10B−1 暗い部分、10C〜10H 黒色領域、11〜15 文字、16〜19 ラベル、20 二値化画像データ、21 ラベルデータ、22 判定データ、23 画像候補、24 多値画像データ、25 フラグデータ、30 ラベル抽出部、31,31A 判定部、32 画像候補生成部、33 複雑度算出部、100 画像取り込み装置、101 ディスプレイ、102 ハードディスク、103 処理回路、104 メモリ、105 プロセッサ。

Claims (4)

  1. 入力画像を複数の閾値で二値化して前記複数の閾値のそれぞれに対応する複数の二値化画像を生成する二値化処理部と、
    前記二値化処理部により生成された複数の二値化画像に基づいて文字認識対象の複数の画像候補を生成する画像生成部と、
    前記画像生成部により生成された複数の画像候補のそれぞれを文字認識する文字認識部とを備え、
    前記画像生成部は、
    二値化画像で複数の黒画素が連結している領域をラベルとして抽出し、
    二値化画像間で対応する位置にあるラベルそれぞれの面積または数に基づいて、当該二値化画像間における前記ラベルの分割または統合の関係を判定し、
    前記ラベルの分割または統合の関係を示す判定データに基づいて二値化画像でとり得る前記ラベルの複数の組み合わせを特定し、
    前記特定した前記ラベルの複数の組み合わせに基づいて前記複数の画像候補を生成すること
    を特徴とする文字認識装置。
  2. 入力画像を複数の閾値で二値化して前記複数の閾値のそれぞれに対応する複数の二値化画像を生成する二値化処理部と、
    前記二値化処理部により生成された複数の二値化画像に基づいて文字認識対象の複数の画像候補を生成する画像生成部と、
    前記画像生成部により生成された複数の画像候補のそれぞれを文字認識する文字認識部とを備え、
    前記画像生成部は、
    二値化画像で複数の黒画素が連結している領域をラベルとして抽出し、
    二値化画像間における前記ラベルの分割または統合の関係を判定し、
    前記ラベルの分割または統合の関係を示す判定データに基づいて二値化画像でとり得る前記ラベルの複数の組み合わせを特定し、
    前記特定した前記ラベルの複数の組み合わせに基づいて前記複数の画像候補を生成し、
    さらに、前記画像生成部は、
    前記入力画像の複雑度を算出し、
    前記算出した複雑度に基づいて前記ラベルの分割または統合の関係の判定の可否を決定すること
    を特徴とする文字認識装置。
  3. 二値化処理部が、入力画像を複数の閾値で二値化して前記複数の閾値のそれぞれに対応する複数の二値化画像を生成するステップと、
    画像生成部が、前記二値化処理部により生成された複数の二値化画像に基づいて文字認識対象の複数の画像候補を生成するステップと、
    文字認識部が、前記画像生成部により生成された複数の画像候補のそれぞれを文字認識するステップとを備え、
    前記画像生成部は、
    二値化画像で複数の黒画素が連結している領域をラベルとして抽出し、
    二値化画像間で対応する位置にあるラベルそれぞれの面積または数に基づいて、当該二値化画像間における前記ラベルの分割または統合の関係を判定し、
    前記ラベルの分割または統合の関係を示す判定データに基づいて二値化画像でとり得る前記ラベルの複数の組み合わせを特定し、
    前記特定した前記ラベルの複数の組み合わせに基づいて前記複数の画像候補を生成すること
    を特徴とする文字認識方法。
  4. 二値化処理部が、入力画像を複数の閾値で二値化して前記複数の閾値のそれぞれに対応する複数の二値化画像を生成するステップと、
    画像生成部が、前記二値化処理部により生成された複数の二値化画像に基づいて文字認識対象の複数の画像候補を生成するステップと、
    文字認識部が、前記画像生成部により生成された複数の画像候補のそれぞれを文字認識するステップとを備え、
    前記画像生成部は、
    二値化画像で複数の黒画素が連結している領域をラベルとして抽出し、
    二値化画像間における前記ラベルの分割または統合の関係を判定し、
    前記ラベルの分割または統合の関係を示す判定データに基づいて二値化画像でとり得る前記ラベルの複数の組み合わせを特定し、
    前記特定した前記ラベルの複数の組み合わせに基づいて前記複数の画像候補を生成し、
    さらに、前記画像生成部が、
    前記入力画像の複雑度を算出し、
    前記算出した複雑度に基づいて前記ラベルの分割または統合の関係の判定の可否を決定すること
    を特徴とする文字認識方法。
JP2018557267A 2016-12-20 2016-12-20 文字認識装置および文字認識方法 Expired - Fee Related JP6513311B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/087934 WO2018116374A1 (ja) 2016-12-20 2016-12-20 文字認識装置および文字認識方法

Publications (2)

Publication Number Publication Date
JPWO2018116374A1 JPWO2018116374A1 (ja) 2019-03-07
JP6513311B2 true JP6513311B2 (ja) 2019-05-15

Family

ID=62626083

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018557267A Expired - Fee Related JP6513311B2 (ja) 2016-12-20 2016-12-20 文字認識装置および文字認識方法

Country Status (2)

Country Link
JP (1) JP6513311B2 (ja)
WO (1) WO2018116374A1 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2894111B2 (ja) * 1992-10-15 1999-05-24 日本電気株式会社 光学式活字文字認識装置における認識結果の総合判定方式
JP2013175084A (ja) * 2012-02-27 2013-09-05 Fujitsu Ltd 文字認識装置および文字認識方法並びに文字認識プログラム

Also Published As

Publication number Publication date
JPWO2018116374A1 (ja) 2019-03-07
WO2018116374A1 (ja) 2018-06-28

Similar Documents

Publication Publication Date Title
JP5775225B2 (ja) マルチレイヤ連結成分をヒストグラムと共に用いるテキスト検出
US9552536B2 (en) Image processing device, information storage device, and image processing method
EP3617938B1 (en) Lane line processing method and device
US9158987B2 (en) Image processing device that separates image into plural regions
US9171224B2 (en) Method of improving contrast for text extraction and recognition applications
US8254690B2 (en) Information processing apparatus, information processing method, and program
US20220036108A1 (en) Automatically detecting and isolating objects in images
CN108960247B (zh) 图像显著性检测方法、装置以及电子设备
JP2007200246A (ja) 画像処理アルゴリズムの評価方法、生成方法、装置、プログラムおよび記録媒体
JP6513311B2 (ja) 文字認識装置および文字認識方法
Rampurkar et al. An approach towards text detection from complex images using morphological techniques
JP5979008B2 (ja) 画像処理装置、画像処理方法及びプログラム
CN115862044A (zh) 用于从图像中提取目标文档部分的方法、设备和介质
CN114022856A (zh) 一种非结构化道路可行驶区域识别方法、电子设备及介质
Pandey et al. Review of different binarization techniques used in different areas of image analysis
EP3067859A1 (en) Method and apparatus for generating a superpixel cluster
JP4890351B2 (ja) 画像処理装置、画像処理プログラムおよび該画像処理プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに画像処理方法
CN113743413B (zh) 一种结合图像语义信息的视觉slam方法及***
US20220253637A1 (en) Patch generation in region of interest
JP6701773B2 (ja) 罫線削除装置、罫線削除方法、および罫線削除プログラム
JP3634248B2 (ja) 文字領域抽出方法、文字領域抽出装置及び記録媒体
Ultre et al. Multispectral edge detection by relaxation algorithm
CN111767769A (zh) 一种文本提取方法、装置、电子设备及存储介质
CN117593581A (zh) 一种图像分类数据增广方法及***
CN116342980A (zh) 一种拼接图像识别方法、计算机可读存储介质及电子设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181206

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181206

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20181206

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20181227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190409

R150 Certificate of patent or registration of utility model

Ref document number: 6513311

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees