JP2011090578A - 画像処理装置、画像処理方法及びプログラム - Google Patents

画像処理装置、画像処理方法及びプログラム Download PDF

Info

Publication number
JP2011090578A
JP2011090578A JP2009244728A JP2009244728A JP2011090578A JP 2011090578 A JP2011090578 A JP 2011090578A JP 2009244728 A JP2009244728 A JP 2009244728A JP 2009244728 A JP2009244728 A JP 2009244728A JP 2011090578 A JP2011090578 A JP 2011090578A
Authority
JP
Japan
Prior art keywords
layout
character
character recognition
result
layout information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009244728A
Other languages
English (en)
Other versions
JP5538812B2 (ja
Inventor
Taisuke Ishiguro
泰輔 石黒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2009244728A priority Critical patent/JP5538812B2/ja
Priority to US12/907,336 priority patent/US8600175B2/en
Publication of JP2011090578A publication Critical patent/JP2011090578A/ja
Application granted granted Critical
Publication of JP5538812B2 publication Critical patent/JP5538812B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】様々なレイアウトの文書に対しても、レイアウト情報を用いた処理を可能とすることを目的とする。
【解決手段】画像データに含まれる文字列を示す領域に対して文字認識処理を行う文字認識手段と、領域に基づき文字列のレイアウトのためのレイアウト情報を生成するレイアウト情報生成手段と、レイアウト情報生成手段で生成されたレイアウト情報に基づき、文字認識手段における文字認識処理の結果をレイアウトするレイアウト手段と、を有することによって課題を解決する。
【選択図】図4

Description

本発明は、画像処理装置、画像処理方法及びプログラムに関する。
文書をスキャンして文書画像を生成し、文書画像に対して様々な処理を行うことで、紙文書に記載されているデータを再利用する技術が知られている。例えば、文書画像に対する文字認識処理の技術等が存在する。一方で、文書画像化されることで失われてしまう情報もある。例えば、文書内の文字のレイアウト情報であるフォントやフォントサイズ、字詰め等の情報は文書画像化される際に失われてしまう可能性がある。このような失われた情報を用いることで、文書画像に対する処理を効率化できることが考えられるため、失われた情報の代替となる情報を予め定義しておいて問題の解消を試みる技術が知られている。例えば、特許文献1では、文字レイアウトのルールとして文字間隔を予め定義しておき、文字認識の結果における文字間隔と比較することで認識精度を向上させている。
特開平4−188288号公報
しかしながら、特許文献1で提案される手法では、予め設定されているルールに基づく判断しかできない問題がある。即ち、設定されていないルールを使って作成された文書に対する補正等は実施できない問題がある。この問題は、文書のレイアウト情報が分からないために、生じている。先行技術では、レイアウト情報が分からないため、予めレイアウト情報を保持しておくことで対応している。しかしながら、このような対応方法の場合、様々なレイアウトが存在する文書に対して前記先行技術を適用することが困難となる。
本発明はこのような問題点に鑑みなされたもので、様々なレイアウトの文書に対しても、レイアウト情報を用いた処理を可能とすることを目的とする。
そこで、本発明は、画像データに含まれる文字列を示す領域に対して文字認識処理を行う文字認識手段と、前記領域に基づき文字列のレイアウトのためのレイアウト情報を生成するレイアウト情報生成手段と、前記レイアウト情報生成手段で生成されたレイアウト情報に基づき、前記文字認識手段における文字認識処理の結果をレイアウトするレイアウト手段と、を有する。
本発明によれば、様々なレイアウトの文書に対しても、レイアウト情報を用いた処理を可能とすることができる。
画像処理装置の一例である文字認識処理装置のハードウェア構成の一例を示す図である。 認識処理全体の動作を説明する概念図である。 文字認識処理装置の機能構成の一例を示す図である。 認識処理の一例を示すフローチャートである。 文書画像解析処理の一例を示す概念図である。 文書画像解析結果の一例を示す図である。 文字認識処理の一例を示すフローチャートである。 文字認識処理結果の一例を示した図である。 レイアウト情報生成処理の一例を示すフローチャートである。 候補文字選択処理の一例を示すフローチャートである。 スコア補正の結果の一例を示す図である。 レイアウト処理の一例を示すフローチャートである。 評価処理の一例を示すフローチャートである。 パススコア算出を説明するための概念図である。 認識処理の動作を説明する概念図である。 電子フォーマット変換処理の一例を示すフローチャートである。
以下、本発明の実施形態について図面に基づいて説明する。
<実施形態1>
図1は、画像処理装置の一例である文字認識処理装置のハードウェア構成の一例を示す図である。CPU11は、ROM12に格納されている制御プログラムに従って本装置全体の制御を行う。ROM12は、制御プログラム等を格納する。RAM13は、画像データ等を記憶する。外部記憶装置14は、磁気ディスク等の外部記憶装置である。ディスプレイ15は、例えば、文字の認識結果等を表示する。キーボード16は、オペレータの操作に応じて情報を入力する。ポインティングデバイス17は、例えばマウス等である。スキャナ102は、画像を読み取る。
なお、文字認識処理装置は、汎用的なコンピュータでも実施可能である。この場合、媒体等で提供される制御プログラムは、外部記憶装置14に記憶され、オペレータの指示等によりCPU11が制御プログラムに基づき処理を実行する。また、ネットワークインターフェース19は、図示しない遠隔地に存在する装置と通信し、プログラムやデータ等を読み込んだり、書き込んだりする。
なお、スキャナ102やディスプレイ15等は、インターフェイスを介して接続された構成でもよい。
CPU11が、制御プログラムに基づき処理を実行することによって、文字認識処理装置の機能及び後述するフローチャートに係る処理が実現される。
次に、実施形態1の概要について説明する。本実施形態では、文字認識処理装置において、認識結果を用いた組版結果と入力された文書画像の状態とを比較することで、文字認識結果を補正する。図2を用いて、文字認識処理装置の処理概要を説明する。
図2は、認識処理全体の動作を説明する概念図である。図2(a)は、全体処理概要を示す。101は、認識処理対象として入力される紙媒体の文書である。102は、スキャナである。スキャナ102を介して入力された入力文書が画像データとして構成され、画像データに対して画像解析・文字認識処理が行われる。103は、文字認識の結果として出力された文字コード列を示す。
図2(b)は、入力された文書の一部を拡大した結果得られた文字列104と、文字列104の認識結果候補105の一例である。文字認識処理の過程では、ある文字列に対して複数の認識候補が生成される。文字認識処理装置が認識候補に対して補正処理を行うことで最終的な認識結果を文字コードとして出力する。本実施形態の文字認識処理装置は、従来から用いられている補正処理に加え、認識結果候補を使ったレイアウト処理結果と認識対象の画像データ(文字列)との比較処理を行っている。文字認識処理装置は、比較処理の結果に基づき、認識結果の補正を行う。以上について、簡易な例を用いて説明を行う。
図2(b)の例では、「小川さん」という(画像データ内の)文字列104の認識結果候補105は「ノ」「1」「ヽ」「I」「I」「I」「さ」「ん」である。文字認識処理装置が認識結果候補を用いてレイアウト処理を行うと「ノ1ヽIIIさん」という結果が生成される。文字認識処理装置が、生成した「ノ1ヽIIIさん」と認識対象文字列の「小川さん」とを比較すると、各文字位置や文字列の長さ等が異なることが分かる。認識結果候補が正しい場合、認識結果候補を使ったレイアウト結果と認識対象文字列の状態(文字位置や文字列長等)とは等しくなるはずである。したがって、レイアウト結果と認識対象文字列の状態とが異なれば、認識結果候補が正しくないといえる。図2(c)は、前述した方法により認識結果候補を補正した結果を示しており、正しく「小川さん」と認識できていることが分かる。
以降、図3から図14までを用いて、本実施形態の詳細について説明する。
図3は、文字認識処理装置の機能構成の一例を示す図である。201は、入力部である。入力部201では、ユーザの指示や紙媒体の文書の入力を受け付ける。入力された紙媒体の文書は画像データへ変換される。202は、画像解析部である。画像解析部202では、入力された画像データを解析して文書を構成する要素(文字列や写真、図形等)の抽出を行う。203は、文字認識部である。文字認識部203は、画像解析部202により抽出された文字列領域に対して、文字認識処理を行う。204は、レイアウト情報生成部である。レイアウト情報生成部204では、画像解析部202で抽出された文字列領域におけるレイアウト情報を抽出する。レイアウト情報とは、文字列のフォントやサイズを示す。205は、レイアウト部である。レイアウト部205では、レイアウト情報生成部204により生成されたレイアウト情報と文字認識部203により認識された文字(コード)を用いてレイアウト処理を行う。206は、文字認識補正部である。文字認識補正部206では、画像解析部202により抽出された文字列とレイアウト部205によるレイアウト結果とを比較して、認識結果を補正する。207は出力部であり、文字認識結果の表示やユーザーインターフェイス等の表示を行う。
図4は、認識処理の一例を示すフローチャートである。
ステップS3000では、画像解析部202が、文書画像解析処理を行う。文書画像解析処理では、画像解析部202は、スキャン入力により生成された文書画像を解析し、文書を構成する要素(文字列や写真、図形等)の抽出を行う。文書画像解析処理に関しては、後に説明を行う。
ステップS3010では、画像解析部202が、ステップS3000で取得した要素のうち、文字列を示す領域を取得する。取得処理では、画像解析部202は、文書画像解析結果(後述する図6参照)におけるID値が小さいものから探索し、要素属性が1(文字列)となっている領域の位置及び外接矩形サイズを取得する。文書画像解析結果の詳細については、図6を用いて後述している。
ステップS3020では、文字認識部203が、ステップS3010で取得された領域に対して文字認識処理を行う。文字認識処理では、文字認識部203は、文字切り結果の組み合わせパターンを示すパスと、個々のパス内における文字コード及びスコアと、を出力する(後述する図8参照)。文字認識処理については後に詳述するが、ここで簡単な説明を行う。文字認識処理では、文字認識部203は、画像中の文字領域から文字と思われる領域を切り出す(文字切り処理)。任意長の文字列から文字切り処理を行うと、結果として得られるパスは複数生成される可能性がある。より具体的には、「小」という文字は、「小」と切り出される場合(パス1)と「ノ」「1」「ヽ」と切り出される場合(パス2)とがある。一般に、文字列が長くなれば、切り出されるパターンも複雑になり、パスの数も増加する。本実施形態における文字認識の処理単位は、行単位である。その結果、行単位の文字列に対して複数のパスが生成される。
ステップS3030では、レイアウト情報生成部204が、ステップS3010で取得された領域からレイアウト情報を生成する。レイアウト情報とは、前述したとおり、認識対象文字列のフォントやサイズ等、文字列をレイアウトする際に必要な情報である。レイアウト情報生成処理に関しては、後述する。
ステップS3040では、レイアウト部205が、ステップS3020で取得された複数のパスから、レイアウト処理を行うパスを選択する。パス選択処理では、レイアウト部205は、不図示の選択済みフラグが付与されていないパスの中からパスIDが一番小さいものを選択し、選択したパスには、選択済みフラグを付与する。
ステップS3050では、レイアウト部205が、ステップS3040で取得したパス内の候補文字を選択する。候補文字選択処理については、後に図10を用いて詳細な説明を行う。
ステップS3060では、レイアウト部205が、ステップS3050で取得した候補文字をステップS3030で取得されたレイアウト情報を使ってレイアウトする。レイアウト処理の詳細は、図12を使って詳細に説明を行う。
ステップS3070では、文字認識補正部206が、ステップS3060におけるレイアウト結果と前記レイアウト結果に対応するステップS3010で取得された領域内の文字列とを比較、評価してパスに対するスコアを算出する。評価処理の詳細についても後に説明を行う。
ステップS3080では、レイアウト部205が、ステップS3020で得られた全てのパスに対して処理が終了したか判定する。判定処理では、レイアウト部205は、選択済みフラグ(不図示)がついていないパスがあるか否かチェックする。選択済みフラグがついていないパスがあった場合、レイアウト部205は、未処理のパスが存在すると判定し、ステップS3040へ移行する。選択済みフラグがついていないパスがない場合、レイアウト部205は、全てのパスに対する処理が完了したと判定し、ステップS3090へ移行する。
ステップS3090では、画像解析部202が、ステップS3000で取得した要素のうち、文字列を示す全ての領域に対する処理が完了したか判定する。画像解析部202は、現在処理を行っていた領域に関する情報を文書画像解析結果から削除する。削除後、画像解析部202は、文書画像解析結果内に文字列(要素属性が1)が存在するかチェックする。文字列が存在しないと判定された場合、画像解析部202は、処理を終了する。文字列が存在すると判定された場合、画像解析部202は、ステップS3010へ移行する。この処理により、入力された文書全体の文字列に対して認識処理を行うことが可能である。
ステップS3100では、出力部207が、最終的な文字認識結果として、パスに対するスコアが一番高い文字列を出力する。本実施形態では、出力部207が、入力文書の全文字列領域に対する処理が終わってから文字認識結果を出力したが、行単位等で認識結果を出力してもよい。
次に、図4のステップS3000における文書画像解析処理について説明する。文書画像解析処理では、画像解析部202が、画像から意味のあるブロックをかたまりとして認識して、ブロック毎の属性を判定する。例えば、画像解析部202が図5(a)の文書画像に対して文書画像解析処理を行うと、図5(b)のように文字、画像等のブロックに分割される。本実施形態では、既存の文書画像解析処理を用いる。以下、簡単に文書画像解析処理の一例を示す。
文書画像解析処理では、画像解析部202が、まず、入力画像を白黒画像に二値化する。そして、画像解析部202が、輪郭線追跡を行い黒画素輪郭で囲まれる画素のかたまりを抽出する。一定面積以上の黒画素の場合、画像解析部202は、内部にある白画素に対しても輪郭線追跡を行い白画素のかたまりを抽出する。抽出した白画素のかたまりが一定面積以上であれば、画像解析部202は、更に黒画素のかたまりを抽出する。抽出されたかたまりが一定面積以上であれば、画像解析部202は、抽出処理を再帰的に実行する。
画像解析部202は、上記の処理で得られた黒画素のかたまりを大きさ及び形状により様々な属性を持つブロックとして分類する。例えば、画像解析部202は、縦横比が1に近いブロックは文字相当の画素のかたまりとし、隣接する文字相当の画素のかたまりが整列されていてグループ化可能な場合は文字列ブロックとする。また、画像解析部202は、不定形の画素のかたまりが散在する場合は、写真ブロック、それ以外は図形ブロック等に分類する。
文書画像解析処理では、画像解析部202が、分類したブロックの位置情報や属性等を不図示の記憶装置に記憶する。
図6は、文書画像解析結果の一例を示す図である。文書画像解析結果は、各要素を一意に決定するためのID501、要素の属性を示す要素属性502(1:文字列、2:図面、3:写真)、要素の位置座標503、504(X、Y)、要素の外接矩形の幅W505及び高さH506で構成される。要素の位置座標503、504は、文書画像の左上を原点(0、0)とした場合の位置座標である。要素の幅W505及び高さH506は画素数で表現される。
次に図4のステップS3020における文字認識処理について説明する。図7は、文字認識処理の一例を示すフローチャートである。
ステップS6000では、文字認識部203が、行切りだし処理を行う。行切りだし処理は、文字認識部203が、射影をとることにより、行と思われる領域を特定する。特定された領域は、行として切り出される。
ステップS6010では、文字認識部203が、ステップS6000で取得した行から文字切り出し処理を行う。文字切り出し処理も行切りだし処理と同様に、文字認識部203が、射影をとり、文字と思われる領域を特定する。例えば、横書きの文章であれば、縦方向に射影をとることで、文字と思われる領域が特定できる。
ステップS6020では、文字認識部203が、ステップS6010で取得した文字領域の組み合わせパターンからパスを生成する。パスについては、前述したように、ある文字列から切り出される文字のパターンを示している。切り出される文字のパターンは、一般に複数考えられるので、結果としてパスも複数生成される。
ステップS6030では、文字認識部203が、ステップS6020で生成したパス内の各文字領域に対して、パターン認識を行う。パターン認識の結果、各文字領域の認識候補が複数生成され、類似度を示すスコアが算出される。各認識候補は、スコア降順でソートされ、一番スコアが高い文字が第一候補文字として設定される。以降、二番目にスコアが高い文字が第二候補文字、n番目にスコアが高い文字は第n候補文字として設定される。
図8は、文字認識処理結果の一例を示した図である。文字認識結果は、各パスを一意に決定するためのID701、パス内の認識文字候補を示す702、703、704から構成される。パス内の個々の文字領域は、パターン認識により複数の候補文字として認識され、各々にスコアが付与されている。例えば、パスIDが1のパスは、8つの文字領域で構成され、各文字領域における第一候補文字は、「ノ」「1」「ヽ」「I」「I」「I」「さ」「ん」である。
続いて、図4のステップS3030におけるレイアウト情報生成処理について説明を行う。図9は、レイアウト情報生成処理の一例を示すフローチャートである。
ステップS8000では、レイアウト情報生成部204が、認識対象文字列に対する認識結果の第一候補を取得する。認識対象とは、画像解析処理により抽出された文字列全体を示す。
ステップS8010では、レイアウト情報生成部204が、ステップS8000で取得した認識結果の第一候補文字列に漢字以外の文字が含まれているか判定する。判定は、文字コードをチェックすることにより行う。判定の結果、漢字以外の文字が含まれていた場合、レイアウト情報生成部204は、ステップS8020へ移行する。漢字以外の文字が含まれていなかった場合は、レイアウト情報生成部204は、ステップS8100へ移行する。
ステップS8020では、レイアウト情報生成部204が、ステップS8000で取得した文字列から、漢字以外の文字列を取得する。複数の漢字以外の文字が存在していた場合、レイアウト情報生成部204は、連続する文字を1つのグループとする。複数のグループが存在する場合、レイアウト情報生成部204は、グループ単位で候補文字のスコアの平均値を求めて、平均値が一番高いグループを取得する。例えば、「朝礼を利用した職場でのコミュニケーション」という文字列の場合、「を」「した」「でのコミュニケーション」というグループが生成される。レイアウト情報生成部204は、このグループにおいて、スコアの平均値を求めて、一番平均値が高いグループを取得する。
ステップS8030では、レイアウト情報生成部204が、ステップS8020で取得した文字列の認識結果領域を取得する。認識結果領域とは、文字列の外接矩形を示している。
ステップS8040では、レイアウト情報生成部204が、ステップS8030で取得した領域に含まれる文字列のフォントサイズを決定する。フォントサイズ決定では、レイアウト情報生成部204は、予め決められたフォント及びサイズを用いて文字列の先頭文字を描画する。レイアウト情報生成部204は、描画結果と画像内の文字(ステップS8030で取得した領域内の先頭文字)とのサイズを比較して、描画文字の方が大きければフォントサイズを小さくして再度描画処理と比較を行う。一方、レイアウト情報生成部204は、描画文字の方が小さければフォントサイズを大きくして再度、描画処理と比較を行う。このように、レイアウト情報生成部204は、比較結果に基づきフォントサイズを調整することでフォントサイズを決定する。
ステップS8050では、レイアウト情報生成部204が、ステップS8040で決定したフォントサイズと予め決めておいた固定ピッチフォントとを用いてレイアウト処理を行う。レイアウト処理の対象は、ステップS8020で取得した文字列である。
ステップS8060では、レイアウト情報生成部204が、ステップS8050におけるレイアウト処理の結果領域とステップS8030で取得した認識結果領域とを比較する。比較処理では、レイアウト情報生成部204は、領域同士の幅長を比較して、その差分が所定の閾値よりも大きいか否かをチェックする。閾値よりも大きかった場合、レイアウト情報生成部204は、レイアウト結果と認識結果領域とは等しくないと判断して、ステップS8070へ移行する。領域幅長の差分が閾値よりも小さかった場合、レイアウト情報生成部204は、レイアウト結果と認識結果とが等しいと判断して、ステップS8100へ移行する。
ステップS8070では、レイアウト情報生成部204が、ステップS8020で取得した文字列内に英数字が含まれているか判定する。レイアウト情報生成部204は、判定処理を、文字コードをチェックすることにより行う。判定の結果、英数字が含まれていた場合、レイアウト情報生成部204は、ステップS8080へ移行する。英数字が含まれていなかった場合は、レイアウト情報生成部204は、ステップS8090へ移行する。
ステップS8080では、レイアウト情報生成部204が、ステップS8060の比較処理において算出した領域同士の幅長差分をフォントに対するサイズ差分として保持する。
ステップS8090では、レイアウト情報生成部204が、レイアウト情報として可変ピッチフォントを選択して処理を終了する。ステップS8080において、サイズ差分が保持されている場合、レイアウト情報生成部204は、前記差分の情報もフォント情報と共に保持しておく。
ステップS8100では、レイアウト情報生成部204が、レイアウト情報として固定ピッチフォントを選択して処理を終了する。
以上、説明した方法により、認識対象の文字列におけるレイアウト情報が算出することができる。文字列が漢字のみの場合、どのフォントを用いてもレイアウト結果は変わらないという特性がある。言い換えると、漢字の場合は固定ピッチフォントを用いても可変ピッチフォントを用いてもレイアウト結果の領域サイズは同じである。一方、漢字以外の文字(ひらがな・カタカナ・英数字)は、フォントによりレイアウト結果の領域サイズが異なる。但し、ひらがな・カタカナの場合は、どの可変ピッチフォントを用いてもレイアウト結果の領域サイズは等しくなる。本実施形態では、このような性質を利用してフォントを決定している。フォント決定には、既存のフォント認識処理を用いることも可能だが、本実施形態で説明した方式を用いることで処理負荷を軽減させることができる。
また、本実施形態では、画像解析処理により取得された領域に含まれる文字列全体を対象にレイアウト情報生成処理を行ったが、文字列全体でなくてもよい。例えば、行単位や単語単位で実施することもできる。
次に、図4のステップS3050における候補文字選択処理について説明する。図10は、候補文字選択処理の一例を示すフローチャートの一例である。
ステップS9000では、レイアウト部205が、選択されているパスにおけるフォント情報を取得する。前記フォント情報は、図4のステップS3030において取得されている。
ステップS9010では、レイアウト部205が、選択されているパスにおけるフォントサイズ情報を取得する。前記フォントサイズ情報は、フォント情報と同様に図4のステップS3030において取得されている。
ステップS9020では、レイアウト部205が、ステップS9000及びステップS9010で取得したフォント情報及びフォントサイズ情報を用いて、認識スコアを補正する。補正処理では、レイアウト部205は、パス内の各文字について、取得したフォントを用いて描画処理を行う。そして、レイアウト部205は、描画処理結果と描画処理対象となっていた文字の画像データとを比較することによりフォントサイズによる係数を求める。レイアウト部205は、求めた係数と認識処理により算出されていたスコアとを乗算することで補正スコアを算出する。より具体的には、レイアウト部205は、以下の数式を用いて補正スコアを算出する。
Figure 2011090578
図11は、スコア補正の結果の一例を示す図である。1001は、認識結果文字である文字コードである。1002は、認識スコア1002である。1003は、フォントサイズによる係数である。スコアは数値が大きいほど、良いものとする。認識スコアとフォントサイズによる係数と、を乗算した結果が、補正スコア1004である。例えば、正解文字が「禾」の場合、レイアウト部205は、「禾」という画像データと認識結果文字1001の描画結果と、を比較して、フォントサイズによる係数を算出する。
ステップS9030では、レイアウト部205が、ステップS9020における補正スコアの結果に基づき候補文字を選択する。より具体的には、レイアウト部205は、補正スコアの一番高い文字を候補文字として選択する。図11の例の場合、「ノ」が補正スコア「341360」で一番高いため、候補文字として選択される。
以上の処理をパス内の全ての文字に対して行うことで、パスにおける候補文字を選択することができる。
次に、図4のステップS3060におけるレイアウト処理について説明する。図12は、レイアウト処理の一例を示すフローチャートである。
ステップS11000では、レイアウト部205が、レイアウト対象となる候補文字列を取得する。前記候補文字列は、図4におけるS3050において取得された文字列である。
ステップS11010では、レイアウト部205が、レイアウト対象のフォントを取得する。前記フォント情報は、図4におけるS3030で取得された情報である。
ステップS11020では、レイアウト部205が、レイアウト対象のフォントサイズを取得する。前記フォントサイズ情報は、フォント情報と同様に図4のS3030で取得された情報である。
ステップS11030では、レイアウト部205が、レイアウト対象の画像における領域を取得する。前記領域は、文字認識により切り出された文字列領域の外接矩形である。
ステップS11040では、レイアウト部205が、レイアウト処理において字詰めが起きる可能性があるか判定する。判定処理は、レイアウト部205が、レイアウト対象文字列の次行の認識結果を取得して、前記認識結果に基づき判定を行う。より具体的には、レイアウト部205は、次行の行頭の文字種を用いる。レイアウト部205は、認識結果が英数字であるかをチェックし、英数字であった場合は、字詰めが起きる可能性があると判断する。また、英数字でない場合、レイアウト部205は、次行の2文字目が禁則文字であるかチェックする。禁則文字である場合、レイアウト部205は、英数字の場合と同様に字詰めが起きる可能性ありと判断する。字詰めが起きる可能性ありと判断した場合、レイアウト部205は、ステップS11050へ移行する。字詰めが起きないと判断した場合は、レイアウト部205は、ステップS11070へ移行する。
ステップS11050では、レイアウト部205が、字詰め方式を決定する。字詰め方式決定処理では、レイアウト部205は、図4のステップS3010で取得した領域の文字列における1行当たりの平均文字数を算出する。そして、レイアウト部205は、レイアウト対象文字列の文字数と平均文字数とを比較し、平均文字数よりも多い場合は、追込み処理が行われたと判断する。少ない場合、レイアウト部205は、追出し処理が行われたと判断する。追込み処理・追出し処理とは、行をまたいで英単語が分断されるのを防いだり、句読点が行頭に配置されるのを防いだりするために行われる文字レイアウト処理の一部である。処理により文字や単語の間隔が動的に変更される場合があるため、どのような処理が行われたかを判定する必要がある。レイアウト部205は、行われた処理に応じて、字詰め方式を決定する。
ステップS11060では、レイアウト部205が、レイアウト対象を更新する。より具体的には、レイアウト部205は、決定した字詰め方式で字詰めを行い、字詰めに影響を与える次行の文字列をレイアウト対象に加える。
ステップS11070では、レイアウト部205が、レイアウト対象文字列をレイアウトする。レイアウト部205は、レイアウト処理を、既存の文字レイアウト技術を用いて行う。
続いて、図4のステップS3070における評価処理について説明する。図13は、評価処理の一例を示すフローチャートである。
ステップS12000では、文字認識補正部206が、認識対象文字列の画像における外接矩形を取得する。
ステップS12010では、文字認識補正部206が、レイアウト結果の外接矩形を取得する。
ステップS12020では、文字認識補正部206が、パススコアを算出する。パススコア算出処理では、文字認識補正部206は、ステップS12000及びステップS12010で取得した外接矩形の幅を用いて算出する。より具体的には文字認識補正部206は、以下の数式を用いてパススコアを算出する。
Figure 2011090578
図14は、パススコア算出を説明するための概念図である。文字認識補正部206は、認識対象の画像におけるレイアウト状態と認識結果を用いたレイアウト結果とを比較して、差分をスコアにより表現する。差分が少ないほど、認識が正しく行われている可能性が高いと判断し、スコアが高くなっている。
以上、本実施形態で説明した処理により、評価結果に基づき文字認識の結果を補正することができる。従来技術では、誤ったパスにおいても各文字単位のスコアが高くなる場合があったが、本実施形態によりこのような問題を解決することができる。
<実施形態2>
実施形態1では、文書画像中から生成したレイアウト情報を使ってレイアウトした結果を文字認識処理へ適用する一例について詳細に説明した。実施形態2では、スキャンした文書画像を解析して、ワープロソフトで編集可能な電子フォーマットへの変換処理を説明する。
図15は、認識処理の動作を説明する概念図である。1401は、入力される紙文書である。1402は、スキャナであり、入力された紙文書を解析して編集可能な電子フォーマットへ変換する。1403は、変換された電子フォーマット文書であり、入力された紙文書と同じレイアウトである。レイアウトを保つことで、紙文書のデザイン性が保持されており、可読性や再利用性を向上させることができる。また、文書画像中の文字列は文字単位に画像として切り出されており、切り出された画像単位(文字画像単位)でレイアウト処理を行っている。文字画像単位でレイアウト処理を行うことで、文字認識における誤認識の影響を受けることはない。したがって、レイアウト情報を抽出した結果を用いて文字画像のレイアウト処理を行うことで、紙文書と同一のレイアウトが実現できる。更に、レイアウトの単位が文字画像単位なので、文字画像列の一部に対して削除等の編集操作を行うと、削除等の操作に応じて、再レイアウト処理が可能である。例えば、ある文字画像が削除されると、削除された領域を詰めるように文字画像列が再レイアウトされる。
図16は、電子フォーマット変換処理を示すフローチャートの一例である。なお、以下では説明の簡略のため、CPU11が処理を行うものとして説明を行う。
ステップS15000からS15030までの処理は、図4におけるS3000からS3030までの処理と同様であるため、説明を割愛する。
ステップS15040では、CPU11が、認識処理における文字切り処理で取得された文字領域毎に画像として切り出して、切り出された画像をレイアウトする。レイアウト処理時には、CPU11は、レイアウト情報取得処理によって取得されたフォントサイズを用いる。レイアウト情報取得処理は、実施形態1と同様であると前述したが、本実施形態では画像をレイアウトするためフォント情報は不要である。文字認識処理では、文字を正しく認識できない可能性がある。誤認識が起きた文字列をレイアウトすると、紙文書の文字列に比べて文字の幅や文字数が変わってしまい、入力された紙文書と同様のレイアウトが生成されない。一方、前述したように、紙文書の文字データを画像として切り出し、切り出した画像データを並べることで誤認識の影響を受けないですむという効果がある。
ステップS15050では、CPU11が、ステップS15040のレイアウト結果に基づいて、編集可能な電子フォーマットを生成する。
以上、説明したように、文書画像データからレイアウト情報を取得し、取得したレイアウト情報を用いることで、紙文書から編集可能な電子フォーマットへ変換することができる。
<その他の実施形態>
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(又はCPUやMPU等)がプログラムを読み出して実行する処理である。
以上、上述した各実施形態によれば、様々なレイアウトの文書に対しても、レイアウト情報を用いた処理を可能とすることができる。
以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
例えば、上述した実施形態では、横書きの文字列を例に説明を行ったため、行情報を用いて説明を行ったが、縦書きの文字列(列画像)の場合、文字認識処理装置は、列情報を用いる。また、上述した実施形態では、横書きの文字列を例に説明を行ったため、図14に示したように認識対象文字列の画像データの幅と、認識結果を用いたレイアウト結果の幅と、を比較した。しかしながら、縦書きの文字列の場合、文字認識処理装置は、認識対象文字列の画像データの高さと、認識結果を用いたレイアウト結果の高さと、を比較するようにしてもよい。
11 CPU

Claims (5)

  1. 画像データに含まれる文字列を示す領域に対して文字認識処理を行う文字認識手段と、
    前記領域に基づき文字列のレイアウトのためのレイアウト情報を生成するレイアウト情報生成手段と、
    前記レイアウト情報生成手段で生成されたレイアウト情報に基づき、前記文字認識手段における文字認識処理の結果をレイアウトするレイアウト手段と、
    を有する画像処理装置。
  2. 前記レイアウト手段は、前記文字認識処理の結果をレイアウトする際に、レイアウト対象の前記文字認識処理の結果に対応する前記領域の文字列の次行の文字列の前記文字認識手段における文字認識処理の結果に基づいて、字詰めが起きる可能性があるか否かを判定し、字詰めが起きる可能性があると判定した場合、前記次行の文字列をレイアウト対象に加えてレイアウトする請求項1記載の画像処理装置。
  3. レイアウト対象の前記文字認識処理の結果に対応する前記領域の文字列の画像と、前記レイアウト手段における前記レイアウト対象の前記文字認識処理の結果をレイアウトしたレイアウト結果と、を比較し、比較の結果に基づき、前記文字認識手段における文字認識処理の結果を評価する評価手段を更に有する請求項1又は2記載の画像処理装置。
  4. 画像処理装置が実行する画像処理方法であって、
    画像データに含まれる文字列を示す領域に対して文字認識処理を行う文字認識ステップと、
    前記領域に基づき文字列のレイアウトのためのレイアウト情報を生成するレイアウト情報生成ステップと、
    前記レイアウト情報生成ステップで生成されたレイアウト情報に基づき、前記文字認識ステップにおける文字認識処理の結果をレイアウトするレイアウトステップと、
    を有する画像処理方法。
  5. コンピュータを、
    画像データに含まれる文字列を示す領域に対して文字認識処理を行う文字認識手段と、
    前記領域に基づき文字列のレイアウトのためのレイアウト情報を生成するレイアウト情報生成手段と、
    前記レイアウト情報生成手段で生成されたレイアウト情報に基づき、前記文字認識手段における文字認識処理の結果をレイアウトするレイアウト手段と、
    して機能させるプログラム。
JP2009244728A 2009-10-23 2009-10-23 画像処理装置、画像処理方法及びプログラム Expired - Fee Related JP5538812B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009244728A JP5538812B2 (ja) 2009-10-23 2009-10-23 画像処理装置、画像処理方法及びプログラム
US12/907,336 US8600175B2 (en) 2009-10-23 2010-10-19 Apparatus and method of processing image including character string

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009244728A JP5538812B2 (ja) 2009-10-23 2009-10-23 画像処理装置、画像処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2011090578A true JP2011090578A (ja) 2011-05-06
JP5538812B2 JP5538812B2 (ja) 2014-07-02

Family

ID=43898491

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009244728A Expired - Fee Related JP5538812B2 (ja) 2009-10-23 2009-10-23 画像処理装置、画像処理方法及びプログラム

Country Status (2)

Country Link
US (1) US8600175B2 (ja)
JP (1) JP5538812B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6286866B2 (ja) * 2013-05-20 2018-03-07 オムロン株式会社 画像処理装置および画像処理方法
JP6352695B2 (ja) * 2014-06-19 2018-07-04 株式会社東芝 文字検出装置、方法およびプログラム
JP2018088116A (ja) * 2016-11-29 2018-06-07 キヤノン株式会社 情報処理装置、プログラム、情報処理方法
JP7247472B2 (ja) 2018-04-19 2023-03-29 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
JP7225017B2 (ja) * 2019-04-19 2023-02-20 キヤノン株式会社 タッチパネルを用いた文字入力のための画像処理装置、その制御方法及びプログラム
JP7484198B2 (ja) * 2020-02-03 2024-05-16 富士フイルムビジネスイノベーション株式会社 文書処理装置およびプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002230480A (ja) * 2001-01-30 2002-08-16 Toshiba Corp 文字認識装置および文字認識結果修正方法
JP2005128842A (ja) * 2003-10-24 2005-05-19 Seiko Epson Corp 改行ルール抽出システムおよび改行ルール抽出プログラム、並びに改行ルール抽出方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04188288A (ja) 1990-11-22 1992-07-06 Fuji Facom Corp 文字読み取り方法
JP2579397B2 (ja) * 1991-12-18 1997-02-05 インターナショナル・ビジネス・マシーンズ・コーポレイション 文書画像のレイアウトモデルを作成する方法及び装置
JPH11120185A (ja) * 1997-10-09 1999-04-30 Canon Inc 情報処理装置及びその方法
JPH11272871A (ja) * 1998-03-20 1999-10-08 Toshiba Corp 文書画像処理装置、文書画像処理方法、及び記録媒体
JP4150842B2 (ja) * 2000-05-09 2008-09-17 コニカミノルタビジネステクノロジーズ株式会社 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JP5033277B2 (ja) * 2000-09-12 2012-09-26 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置および画像処理方法並びにコンピュータ読み取り可能な記録媒体
JP4599693B2 (ja) * 2000-09-12 2010-12-15 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置および画像処理方法並びにコンピュータ読み取り可能な記録媒体
JP4188288B2 (ja) 2004-07-21 2008-11-26 Ntn株式会社 動圧型多孔質含油軸受の製造方法
JP4607633B2 (ja) * 2005-03-17 2011-01-05 株式会社リコー 文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法
US7865353B2 (en) * 2005-03-22 2011-01-04 Fuji Xerox Co., Ltd. Translation device, image processing device, translation method, and recording medium
TWI265715B (en) * 2005-07-21 2006-11-01 Inventec Appliances Corp Method for collecting business card data in mobile communication apparatus
US8270718B2 (en) * 2008-09-23 2012-09-18 International Business Machines Corporation Manipulating an image by applying a de-identification process

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002230480A (ja) * 2001-01-30 2002-08-16 Toshiba Corp 文字認識装置および文字認識結果修正方法
JP2005128842A (ja) * 2003-10-24 2005-05-19 Seiko Epson Corp 改行ルール抽出システムおよび改行ルール抽出プログラム、並びに改行ルール抽出方法

Also Published As

Publication number Publication date
US20110097002A1 (en) 2011-04-28
US8600175B2 (en) 2013-12-03
JP5538812B2 (ja) 2014-07-02

Similar Documents

Publication Publication Date Title
JP2536966B2 (ja) テキスト編集システム
JP3822277B2 (ja) 文字テンプレートセット学習マシン動作方法
JP3359095B2 (ja) 画像処理方法及び装置
EP0439951B1 (en) Data processing
US8041113B2 (en) Image processing device, image processing method, and computer program product
US7747108B2 (en) Image processing apparatus and its method
US8009909B2 (en) Image processing apparatus and its method
US6208744B1 (en) Document image processor and method for setting a document format conforming to a document image
JP6878034B2 (ja) 情報処理装置、制御方法、およびプログラム
JP5538812B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP4758461B2 (ja) デジタル画像におけるテキスト方向判定方法およびシステム、ならびに、制御プログラムおよび記録媒体
US6661417B1 (en) System and method for converting an outline font into a glyph-based font
US5509092A (en) Method and apparatus for generating information on recognized characters
JP2009003937A (ja) デジタル画像におけるテキスト方向判定方法およびシステム、ならびに、制御プログラムおよび記録媒体
US11568623B2 (en) Image processing apparatus, image processing method, and storage medium
JP6000992B2 (ja) 文書ファイル生成装置及び文書ファイル生成方法
US9189459B2 (en) Document image layout apparatus
US10984277B2 (en) Image analysis apparatus, image analysis method, and non-transitory computer readable medium
JP2005303880A (ja) 画像形成装置、画像形成方法およびプログラム
JP5950700B2 (ja) 画像処理装置、画像処理方法及びプログラム
US20090316219A1 (en) Image processing apparatus, image processing method and computer-readable storage medium
JP2002015280A (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JP2022090469A (ja) 書式定義装置、書式定義方法、及びプログラム
JP2009080727A (ja) 翻訳装置及びプログラム
US8432555B2 (en) Image processing apparatus, image processing method, computer-readable medium and computer data signal

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121022

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131030

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140401

R151 Written notification of patent or utility model registration

Ref document number: 5538812

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140430

LAPS Cancellation because of no payment of annual fees