JP2023046687A - 情報処理装置、情報処理方法、およびプログラム - Google Patents
情報処理装置、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- JP2023046687A JP2023046687A JP2021155411A JP2021155411A JP2023046687A JP 2023046687 A JP2023046687 A JP 2023046687A JP 2021155411 A JP2021155411 A JP 2021155411A JP 2021155411 A JP2021155411 A JP 2021155411A JP 2023046687 A JP2023046687 A JP 2023046687A
- Authority
- JP
- Japan
- Prior art keywords
- character
- unit
- region
- candidates
- area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 39
- 238000003672 processing method Methods 0.000 title claims 2
- 238000012937 correction Methods 0.000 claims abstract description 41
- 238000012545 processing Methods 0.000 claims description 58
- 238000000034 method Methods 0.000 claims description 37
- 238000000605 extraction Methods 0.000 claims description 17
- 239000000284 extract Substances 0.000 abstract description 10
- 238000012015 optical character recognition Methods 0.000 description 47
- 238000010586 diagram Methods 0.000 description 14
- 230000001172 regenerating effect Effects 0.000 description 10
- 230000008929 regeneration Effects 0.000 description 8
- 238000011069 regeneration method Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Images
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
【課題】文字領域の特定精度を向上させること。【解決手段】情報処理装置において、文書画像データ内から文字列領域を抽出し、単位文字領域ごとにそこに含まれる文字が手書き文字であるか、活字であるかを判定する。判定結果に応じて手書き文字用の認識辞書を用いたOCR(手書き文字OCR)又は活字用の認識辞書を用いたOCR(活字OCR)を実行する。文字領域再生成の対象となる文字領域(以下、補正対象領域)を特定、および、単位文字領域の再生成で必要となる活字の単位文字領域である基準文字領域の選択を行い、選択された基準文字領域から探索のサイズを決定する。基準文字領域によって決定された探索サイズに基づいて、補正対象領域において活字の探索を行い、単位文字領域を再生成する。【選択図】図7
Description
本発明は、画像から文字を抽出する文字認識技術に関する。
従来、文字を含む原稿をスキャンして得られたスキャン画像に対して文字認識処理を行い、コンピュータが利用可能な文字コードに変換する技術である、OCR(Optical Character Recognition)処理が広く知られている。OCR処理を用いることで、一般的なオフィスで実施されている経費精算業務に代表される紙媒体の帳票をデジタルデータに変換する作業を自動化することが可能になり、データ入力業務における生産性の向上が期待されている。
経費精算業務において取り扱われる領収書においては、印字された定型のフォーマットに手書き文字が記入されることが多く、活字と手書き文字とが混在するものが多い。例えば店舗で発行される領収書は、予め印刷された金額、日付、但し書きなどの記入欄に対して手書きで文字が記入される。
一般に、活字と手書き文字とでは文字認識の処理が異なるため、活字と手書き文字とが混在する文書画像に対しては、活字と手書き文字とを正しく判別し、それぞれに対し適切な文字認識処理を実施する必要がある。
特許文献1では、まず文字の形状によって手書き活字判定を行い、活字と判定された文字については活字認識が行われ、手書き文字と判定された文字については手書き文字認識が行われる。そして、そのそれぞれの文字認識の信頼度が所定の閾値よりも高ければその結果を採用し、信頼度が所定の閾値よりも低ければ、もう一方の文字認識手段を用いて文字認識を行い、2つの文字認識結果のうち信頼度の高い方を選択する。これにより、活字と手書き文字を含む文書画像に対する文字認識処理結果の信頼度を高めている。
しかしながら、特許文献1の方法では、文字領域の特定、すなわち文字切りが失敗した場合、一文字ごとに正しく手書き活字判定ができず、文字認識精度が低下するという課題がある。例えば、図8に示す「発行日 年 月 日」の活字と、「2024」、「6」、「21」の手書き文字とが記載された文字列では、距離が近い手書き文字の「4」と活字の「年」とを一文字とする間違った文字切りがなされる場合がある。このように文字領域の特定に失敗すると、特許文献1の方法では、「4年」に対応する文字領域に対して手書き活字判定を行うことになり、手書きと判定しても、活字と判定しても、その後の文字認識処理は失敗することになる。
そこで本発明は、文字領域の特定精度を向上させることを目的とする。
本発明は、情報処理装置であって、文書を読み取って得られた読み取り画像に含まれる複数の文字からなる文字列領域から前記複数の文字のそれぞれに対応する単位文字領域の候補を抽出する抽出手段と、前記単位文字領域の候補に対して手書き文字用又は活字用の文字認識処理を行い、文字認識結果およびその信頼度を得る認識手段と、前記単位文字領域のうち、前記文字認識結果の信頼度が所定の閾値以上の単位文字領域の候補を除く単位文字領域の候補を、基準となる単位文字領域の候補を用いて補正する補正手段と、を備え、前記基準となる単位文字領域の候補は、前記認識手段が行った前記活字用の文字認識処理により得られた文字認識結果の信頼度が所定の閾値以上である単位文字領域の候補である、ことを特徴とする。
本発明によれば、文字領域の特定精度を向上させることが出来る。
以下、本発明の実施形態について図面に基づいて説明する。なお、実施形態は本発明を限定するものではなく、また、実施形態で説明されている全ての構成が本発明の課題を解決するため必須の手段であるとは限らない。
<第1の実施形態>
[システム構成]
図1は、第1の実施形態に係る情報処理システムを示す図である。情報処理システムは、読み取り装置100と、情報処理装置110とを有している。読み取り装置100は、スキャナ101と、読み取り装置側通信部102とを有している。スキャナ101は、文書の読み取りを行い、スキャンした文書画像データを生成する。読み取り装置側通信部102は、ネットワークを介して外部装置と通信を行う。
[システム構成]
図1は、第1の実施形態に係る情報処理システムを示す図である。情報処理システムは、読み取り装置100と、情報処理装置110とを有している。読み取り装置100は、スキャナ101と、読み取り装置側通信部102とを有している。スキャナ101は、文書の読み取りを行い、スキャンした文書画像データを生成する。読み取り装置側通信部102は、ネットワークを介して外部装置と通信を行う。
情報処理装置110は、システム制御部111と、ROM112と、RAM113と、HDD114と、表示部115と、入力部116と、情報処理装置側通信部117とを有している。システム制御部111は、ROM112に記憶された制御プログラムを読み出して各種処理を実行する。RAM113は、システム制御部111の主メモリ、ワークエリア等の一時記憶領域として用いられる。HDD114は、各種データや各種プログラム等を記憶する。なお、後述する情報処理装置110の機能や処理は、システム制御部111がROM112またはHDD114に格納されているプログラムを読み出し、このプログラムを実行することにより実現されるものである。
情報処理装置側通信部117は、ネットワークを介して外部装置との通信処理を行う。
表示部115は、情報処理装置110上で処理される各種情報を表示する。表示部115としては、複合機(MFP:Multi Function Peripheral)に搭載される図2に示すような操作パネル201、もしくはPCのディスプレイ等であってもよい。なお表示部115は情報処理装置110に内蔵されていなくてもよく、情報処理装置110に接続された外部ディスプレイでもよい。入力部116は、キーボードやマウスを有し、ユーザによる各種操作を受け付ける。なお、表示部115と入力部116は、タッチパネルのように一体に設けられてもよい。また、表示部115は、プロジェクタによる投影を行うものであってもよく、入力部116は、投影された画像に対する指先の位置を、カメラで認識するものであってもよい。
本実施形態においては、読み取り装置100のスキャナ101が帳票等の紙文書を読み取り、スキャン画像データを生成する。スキャン画像データは、読み取り装置側通信部102により情報処理装置110に送信される。情報処理装置110では、情報処理装置側通信部117がスキャンした文書画像データを受信し、当該画像をHDD114などの記憶装置に記憶する。なお、表示部115と入力部116の一部機能が読み取り装置100にあってもよい。
[UI]
図2は、本実施形態における情報処理装置110の表示部115に表示されるUI(User Interface)を示す図である。操作パネル201は、MFP等において表示部115を実現する構成例である。操作パネル201は、タッチパネル202及び物理キーからなるテンキー203を備える。図2では、タッチパネル202の左上にログイン中のユーザID、メインメニューなどが表示される。
図2は、本実施形態における情報処理装置110の表示部115に表示されるUI(User Interface)を示す図である。操作パネル201は、MFP等において表示部115を実現する構成例である。操作パネル201は、タッチパネル202及び物理キーからなるテンキー203を備える。図2では、タッチパネル202の左上にログイン中のユーザID、メインメニューなどが表示される。
本実施形態におけるUIは、図6に示すような処理対象の文書画像データからの情報抽出結果をユーザに提供するための一手段としても機能するものであり、タッチパネル202上で提供される。文書画像データからの情報抽出結果の表示は、タッチパネル202に限定されず、PCのディスプレイを用いて実行しても良い。
[ソフトウエア構成]
図3は、情報処理装置110上で文字認識装置300を実現するソフトウエア構成を示す図である。文字認識装置300は、処理結果提供部301の有する各手段(303)と文字認識結果生成部302の有する各手段(304~312)から構成される。
図3は、情報処理装置110上で文字認識装置300を実現するソフトウエア構成を示す図である。文字認識装置300は、処理結果提供部301の有する各手段(303)と文字認識結果生成部302の有する各手段(304~312)から構成される。
処理結果提供部301は、文字認識結果生成部302の処理結果をユーザに提示する表示制御部であって、例えば前述のタッチパネル202やPCのディスプレイに表示するユーザインターフェースを制御する。処理結果提供部301は、文字認識結果生成部302が有する項目抽出手段307によって得られた文字認識結果を表示部115に表示させる認識結果表示手段303を含む。
文字認識結果生成部302は、情報処理装置110に入力された文書画像データを対象として文字認識を実行し、文字認識結果を生成、さらには抽出対象の項目名に対応する項目値を処理対象の文書画像データから抽出する装置である。文字認識結果生成部302は、画像処理手段304、手書き文字認識手段305、活字認識手段306、項目抽出手段307、文字列領域抽出手段308、および文字領域切り出し手段309を含む。さらに文字認識結果生成部302は、文字認識の精度を向上させるための手段として、手書き活字判定手段310、基準文字選択手段311、文字領域再生手段312を含む。
画像処理手段304は、入力された文書画像データに対して文字認識処理が実行できるように前処理を行う。文字列領域抽出手段308は、文書画像データから文字列文字領域を抽出する。文字領域切り出し手段309は、抽出された文字列領域から認識対象の一文字ごとの単位文字領域を切り出す。
手書き文字認識手段305は、切り出された単位文字領域について手書き文字用の認識辞書を用いて文字コードに変換(文字認識処理)を行う。活字認識手段306は、切り出された単位文字領域について活字用の認識辞書を用いて文字コードに変換(文字認識処理)を行う。項目抽出手段307は、文字認識結果として得られた文字列からユーザが必要とする項目を特定する。
手書き活字判別手段310は、文字領域切り出し手段309によって切り出された単位文字領域ごとにその領域に存在する文字が手書き文字か活字かを判別する手段である。基準文字選択手段311は、各文字領域において、切り出された単位文字領域の中から基準文字領域を選択する手段である。この基準文字領域は、手書き活字判別手段310によって手書き文字もしくは活字と確定的に判定できなかった単位文字領域から、活字領域を特定するのに用いられる。この活字領域特定の詳細な処理のステップについては、図7~図10を用いて後述する。文字領域再生成手段312は、手書き活字判別手段310によって手書き文字もしくは活字と確定的に判定できなかった単位文字領域を対象として、基準文字領域に基づき単位文字領域を再生成する手段である。この再生成の具体的なステップについては後に図9を用いて説明する。
[処理フロー]
図4は、読み取り装置100によって文書を読み取ることで得られた文書画像データが情報処理装置110に入力され、文書画像データに対する文字認識処理の結果をユーザが確認および修正し、確定した文字列を登録する処理を示したフローチャートである。
図4は、読み取り装置100によって文書を読み取ることで得られた文書画像データが情報処理装置110に入力され、文書画像データに対する文字認識処理の結果をユーザが確認および修正し、確定した文字列を登録する処理を示したフローチャートである。
まずS400において、情報処理装置110が、読み取り装置100によって文書を読み取ることで得られた文書画像データを取得する。読み取り対象の文書は例えば、図5に示すような領収書500である。
S401において、画像処理手段304が、文書画像データに含まれる文字列の記述方向を検知することによって文字領域の傾きを補正する。
S402において、画像処理手段304が、グレースケールの文書画像データに対してある閾値を持って二値化を行う。
S403において、画像処理手段304が、文書画像データから文字認識に不要な罫線を除去する。これらS401~S403までのステップで行われる処理は、S404の文字認識を正確に実行するための前処理となる。
S404において、これらの前処理が適用された文書画像データに対して文字認識処理が行われる。ここでは、まず文字列領域抽出手段308による文字列領域の抽出、文字領域切り出し手段309による単位文字ごとの領域切り出し、手書き活字判別手段310による文字領域ごとの手書き活字判定を行う。そして、手書き文字認識手段305、活字認識手段306による文字認識処理、基準文字選択手段311による基準文字領域の選択および文字領域再生成手段312による単位文字領域の再生成を含む。最終的には文書画像データに含まれる文字領域に対する文字認識結果として文字コードが得られる。
S405において、項目抽出手段307が、ユーザが必要とする項目値を文字認識結果として得られた文字列内から抽出する。図5に示す領収書を例に取ると、項目値とは例えば「電話番号」や「金額」といった、予め設定された後のS407でシステムに登録する項目を指す。図6は、該項目抽出の際にユーザに提示されるUI画面の一例を示したものである。UI画面600は、処理対象の文書画像データのプレビュー表示領域601、抽出対象となる項目名602、プレビュー表示領域601に表示された文書画像データから抽出された項目値603である。項目値の抽出処理は、例えばユーザがプレビュー表示領域601に表示された文書画像データ601に対して、抽出対象の項目値が記載されている位置を指示することによって実現される。もしくは、項目名602に設定された項目に関連する項目値に相当する文字列を文書画像データから抽出された文字列内で検索し、予め定義された項目名と項目値の位置関係に基づき、検索された項目名に対応する位置から必要な項目値を抽出する。これによりユーザの指示なしに自動で抽出することも可能である。例えば、項目名602が「金額」の項目値“¥11,286”を抽出する場合、処理対象の文書の種別(この場合は領収書)が「領収金額」であった場合、そこに含まれる“金額”などの文字列を文書画像データにおいて検索する。その結果、文書画像データにおいて“金額”と文字認識された文字領域が見つかると、情報処理装置110において予め定義された“金額”の文字領域とそれに対応する項目値が記載された文字領域との位置関係に基づき、項目値に相当する文字列を検索する。この場合は、「“金額”文字列の右側に領収金額の項目値が存在する」というルールに基づいて、“¥11,286”の文字列が項目値として抽出される。以上に示した項目値抽出の方法はあくまで一例であり、ユーザが所望する情報が抽出される方法であれば他の方法を用いてもよい。
S405において、項目値603として抽出された文字認識結果である文字列は、認識結果表示手段303によって表示部に115に表示される。図6に示すように、項目名602のそれぞれに対し、対応する1つの文字列を項目値603として表示する。その後、ユーザは抽出された項目値603として抽出された文字列について確認および修正を行い、確認修正が完了したことを示すチェックボックス604にチェックを入れる。
S406において、認識結果表示手段303が、全ての項目にチェックが入ったことが検知されると、「次へ」ボタン605が有効化されたUI画面を表示させる。ユーザが「次へ」ボタンを押下する、つまり全ての項目の確認修正が終了すると(S406が真)、S407に移行する。
S407において、システムへのデータ登録が行われて全ての処理が終了する。
[文字認識処理]
図4のS404における文字認識処理の詳細について、図7に示す処理ステップおよび図8の具体例を参照しながら説明する。
図4のS404における文字認識処理の詳細について、図7に示す処理ステップおよび図8の具体例を参照しながら説明する。
まずS700において、文字列領域抽出手段308が、文書画像データ内から文字列領域を抽出する。文字列領域の抽出は公知の技術を用いて実現される。例えば、文字部を構成する黒画素の文字列の記載方向と垂直な方向への射影ヒストグラムを求め、その形状や変化量から分割位置を決めて文字列領域とすることができる。この結果、図5に示すような文書からは、図8に示すような「2024年6月24日」という文字列領域が得られる。
S701において、文字領域切り出し手段309が、単位文字領域の候補(以降、単に単位文字領域という)の切り出しを行う。これは公知の技術によるもので、例えば、文字部を構成する黒画素の水平方向、または垂直方法への射影ヒストグラムを求め、その形状や変化量から文字列パターンを線形に分割する。その後、切り出したパターンを矩形で囲み、その矩形の面積や縦横比から判断して切り出す方法である。また、文字同士が繋がった接触部分(Connected Components)に着目して、その形状や接続状態から分割する手法などである。以上のような手法を用いて、一文字であると判定した領域ごとに矩形で分割し、それぞれを単位文字領域とする。図8に示す破線で描かれた矩形は、単位文字領域の切り出しを行った結果の一例である。この文字列は、図5に示す領収書の右上に記載されている「発行日」に対応する項目値を示す文字列である。801では、手書き文字である「4」と活字である「年」が近接しており、S701の単位文字領域の切り出しに失敗し、2つの文字が1つの文字領域に含まれてしまった例を示している。
S702において、手書き活字判別手段310が、単位文字領域ごとにそこに含まれる文字が手書き文字であるか、活字であるかを判定する。この手書き活字判定に関しても公知の技術を使用すればよく、例えば、文字の画像特徴と幾何特徴からスコアリングを行い、S701で切り出した単位文字領域ごとに手書き文字か活字かを判定する方法がある。なお、単位文字行ごとに手書き文字で構成される文字行か活字で構成される文字行かを判定する公知技術が存在する。しかし本発明では、単位文字領域ごとに手書き文字か活字かを判定することを目的としているので、S702においてこの手法を用いることが出来ない。ただし、ここでの手書き活字判定方法は単位文字領域ごとに手書き文字か活字かを判定する手法であれば他の手法を用いても構わない。図8に示す例では、上記手書き活字判定により、文字列の左側から「2」、「0」、「2」、「6」、「2」、「1」が手書き文字と判定され、「月」、「日」が活字と判定されている。手書き文字と活字を含んだ矩形801内の「4年」については、手書き文字、活字、不明のいずれかに判定される。
S703において、手書き文字認識手段305が、S702において手書き文字と判定された文字領域に対して手書き文字用の認識辞書を用いたOCR(手書き文字OCR)を実行する。
S704において、活字認識手段306が、S702において活字と判定された文字領域に対して活字用の認識辞書を用いたOCR(活字OCR)を実行する。
S703、S704の結果、各単位文字領域の文字画像に対する認識結果として、単位文字領域ごとの文字コードおよび認識結果の信頼度を取得する。図8に示す例では、「2」、「0」、「2」、「6」、「2」、「1」に対して手書き文字OCRが実行され、「月」、「日」に対して活字OCRが実行される。「4年」を含む矩形801に対しては、S702で手書き文字と判定された場合は手書き文字OCR、活字と判定された場合は活字OCRが実行される。一方「不明」と判定された場合は、この領域に対するOCR処理をスキップする、もしくは手書き文字OCRと活字OCRの両方を実行する。
S705において、文字領域再生成手段312が、単位文字領域の再生成の対象となる文字領域(以下、補正対象領域)を特定する。ここでは、S702で手書き文字とも活字とも判定されなかった文字領域、すなわち手書き活字判定が「不明」となった文字領域、またはS703およびS704におけるOCR結果の信頼度が所定の閾値よりも低い文字領域を補正対象領域として特定する。すなわち、ここで特定される文字領域は、手書き文字らしくもなく活字らしくもない文字領域である。図8に示す例では、矩形801の文字領域がS702において「不明」と判定されるか、S703またはS704で認識結果の信頼度が所定の閾値よりも低くなるため、補正対象領域として特定される。なお、手書き文字OCRおよび活字OCRの信頼度の傾向は異なるため、それぞれ別の閾値を設定する。
S706において、文字領域再生成手段312が補正対象領域を特定しなかった場合、つまり全ての単位文字領域の認識結果の信頼度が所定の閾値以上と判定された場合は、文字切りに誤りがないと判定し、S711に移行する。
一方、S706において、文字領域再生成手段312が補正対象領域を特定した場合、その補正対象領域に対して単位文字領域の再生成処理を行うために、S707に移行する。
S707において、基準文字選択手段311が、文字領域の再生成で必要となる基準文字領域の選択を行う。ここでの基準文字領域とは、補正対象領域内で活字を探索するサイズ(以下、探索サイズ)を設定する際の基準となる文字領域であり、S704における活字OCRにおいて信頼度が高かった文字領域(以下、基準文字領域候補)の中から選択される。基準文字領域は、例えば、補正対象領域を含む同じ文字列に存在する基準文字領域候補の中から選択してもよい。図8に示す例では、基準文字領域候補は、「月」、「日」である。補正対象領域を含む文字列は、文字列領域抽出手段308によって抽出された文字列領域であり、図7におけるS700で抽出された文字列領域である。
S708において、文字領域再生成手段312が、選択された基準文字領域から探索のサイズを決定する。探索サイズは例えば、基準文字領域の幅と高さのそれぞれの最大値および最小値に基づいて決定する。活字でも文字コードによって文字の幅や高さに幅があることを考慮して、最大値と最小値の間で幅と高さを変化させた複数の探索サイズを決定する。最大値と最小値の差が大きい場合、例えば小文字のアルファベットのような文字高さのレベルが文字コードによって大きく異なる場合は、その最大値と最小値それぞれの周辺で幅と高さを変化させた複数の探索サイズを決定する。
S709において、文字領域再生成手段312が、基準文字領域によって決定された探索サイズに基づいて、補正対象領域において活字の探索を行い、単位文字領域を再生成する。この補正対象領域における活字探索処理の詳細については後述する。
S710において、手書き文字認識手段305および活字認識手段306が、S709で再生成された単位文字領域に対してOCRを行う。ただし、S709において活字領域とされた文字領域1002については、活字OCRを行うか、活字領域に対して行ったS709での活字OCR結果を再利用する。一方、補正対象領域のうち活字領域以外の文字領域1003については、手書き文字である可能性が高いとし、手書き文字OCRを実行する。S709の結果、補正対象領域において再生成された単位文字領域ごとのOCR結果である文字コードを得ることが出来る。
S711において、項目抽出手段307は、S703、S704、およびS710の手書き文字OCR結果、活字OCR結果をそれぞれの単位文字領域の座標の序列に基づいて統合し、S404の文字認識処理を終了する。このOCR結果の統合は、手書き文字OCRおよび活字OCRそれぞれの認識結果と文字領域の座標に基づいて行う。
ここでS709の補正対象領域における活字探索処理の詳細について説明する。図9に、本実施形態における活字探索処理を説明するフローチャートを示す。図10(a)に図8に示す例における活字探索処理中の様子を示し、図10(b)にその活字探索処理の結果を示す。探索範囲の初期位置は、周辺の基準文字領域と同一高さ、かつ、単位文字領域を再生成する補正対象領域の右端または左端であり、図10(a)では探索範囲1000は補正対象領域の右端を初期探索範囲とした例を示している。
まずS900において、S708で定めた探索サイズで補正対象領域内に設定した探索範囲に対して活字OCRを行い、文字コードおよび認識の信頼度を得る。
S901において、活字OCRの認識の信頼度が所定の閾値以上であるか否かを判定する。活字OCRの信頼度が所定の閾値より低い場合、その探索範囲には活字が含まれていないと判定し、S902に移行し、信頼度が所定の閾値以上の場合、S904に移行する。
S902において、補正対象領域内で探索範囲を水平方向に移動(シフト)させる余地が存在するか否かを判定する。補正対象領域内に探索範囲をシフトさせる余地が存在する場合、S903に移行し、シフトさせる余地が存在しない場合、活字探索処理を終了する。
S903において、探索範囲のシフトを行う。探索範囲のシフトは、予め定めた固定幅(例えば5ピクセル)ごとに行う。図10(a)に示す探索範囲1001は、探索範囲1000を水平方向左側に数ピクセル移動させた後の様子を示している。探索範囲の位置を移動後、S900に戻る。
このように補正対象領域内に探索範囲をシフトさせる余地がなくなる(S902でNO)、または活字OCRの信頼度が所定の閾値以上となる(S901でYES)まで、探索範囲のシフト(S903)、探索範囲に対する活字OCR(S900)を繰り返す。
またこの探索処理に時間を要するため、探索範囲のピクセル単位のシフトを行わず、探索範囲を補正対象領域の右端と左端とに限定してもよい。
S904において、活字OCRの信頼度が高いと判定した探索範囲で囲まれる文字領域を新たな活字の単位文字領域であるとし、補正対象領域をこの新たな活字の単位文字領域とそれ以外の領域とに分割する。図10(b)は、活字探索分割の結果を示したものである。活字OCRの信頼度が所定の閾値以上である探索範囲1002を活字の単位文字領域として切り出し、その領域の画素をマスクした状態で残りの文字領域1003を別の単位文字領域とする。すなわち、補正対象領域を、活字の単位文字領域とその他の残りの領域からなる別の単位文字領域に分割することで、新たな2つの単位文字領域を再生成し、活字探索処理を終了する。
なお、本実施形態では、S900~S903のサイクルにおいて、探索範囲をシフトさせて、その都度、探索範囲に対して活字OCRを行い、活字OCRの結果の信頼度が所定の閾値以上になるまで繰り返す構成としたが、この方法に限定されない。例えば、探索範囲の候補領域を補正対象領域内から一括で取得し、それら候補領域に対して活字OCRを一括で実行し、最も信頼度の高い領域を新たな活字の単位文字領域とするようにしてもよい。
以上により、本実施形態における文字認識処理が実現される。上記のように、手書き活字判定、手書き文字OCRおよび活字OCRの結果の信頼度が所定の閾値未満の単位文字領域を、新たな単位文字領域を再生成する補正対象領域として特定する。活字OCRの結果の信頼度が所定の閾値以上である活字の単位文字領域である基準文字領域からサイズを決定した探索範囲ごとに補正対象領域内に対して活字OCRを行い、その活字OCRの結果の信頼度を参照しながら新たな活字の単位文字領域を探索する。活字探索処理の結果に基づき、補正対象領域から新たな活字の単位文字領域とその他の残りの領域からなる別の単位文字領域を再生成する。これにより、文字領域の特定精度が向上し、文字認識精度も向上させることが出来る。
<第2の実施形態>
第1の実施形態では、文書画像データから抽出された文字列領域に関して単位文字ごとの切り出しを行い、切り出された単位文字領域ごとに手書き文字か活字かを判定した。一方、本実施形態では、細線部ごとに手書き活字判定を行う方法を用いる。手書き文字と活字が混在した画像から細線部を抽出し、抽出した細線部を文字ストロークに分解し、文字ストローク内の画素値のヒストグラムに基づき、その文字ストロークが手書き文字の一部か活字の一部かを判定する(特許文献2参照)。この文字ストロークごとの手書き活字判定を用いる場合は、手書き活字判定の後に文字切りを行い、手書き文字の文字ストロークを含む単位文字領域には手書き文字OCRを実行し、活字文字の文字ストロークを含む単位文字領域には活字OCRを実行する。つまり、本実施形態では実施形態1におけるS701とS702の順序が逆で、手書き活字判定の後に単位文字領域の切り出しを行うフローとなる。
第1の実施形態では、文書画像データから抽出された文字列領域に関して単位文字ごとの切り出しを行い、切り出された単位文字領域ごとに手書き文字か活字かを判定した。一方、本実施形態では、細線部ごとに手書き活字判定を行う方法を用いる。手書き文字と活字が混在した画像から細線部を抽出し、抽出した細線部を文字ストロークに分解し、文字ストローク内の画素値のヒストグラムに基づき、その文字ストロークが手書き文字の一部か活字の一部かを判定する(特許文献2参照)。この文字ストロークごとの手書き活字判定を用いる場合は、手書き活字判定の後に文字切りを行い、手書き文字の文字ストロークを含む単位文字領域には手書き文字OCRを実行し、活字文字の文字ストロークを含む単位文字領域には活字OCRを実行する。つまり、本実施形態では実施形態1におけるS701とS702の順序が逆で、手書き活字判定の後に単位文字領域の切り出しを行うフローとなる。
図11(a)は、活字の一部を手書きの一部と誤判定した際の様態を示したものであり、「年」の一部の文字ストロークが手書き文字の一部と誤判定されている。ここで、矩形1100には手書き文字の一部と判定された画素が含まれ、矩形1101には活字の一部と判定された画素が含まれている。この場合、矩形1100に対する手書き文字OCRの結果も、矩形1101に対する活字OCRの結果もともに信頼度の低いものになる。第1の実施形態ではS705において文字切り後の単位文字領域に対して手書き活字判定を行い、その判定結果が「不明」もしくは手書き文字OCRおよび活字OCRの信頼度が低い場合、その単位文字領域を補正対象領域とした。本実施形態では、手書き文字OCR結果または活字OCR結果の信頼度が低い単位文字領域の中で、単位文字領域間の距離が閾値以下または重なっている単位文字領域を特定し、それら単位文字領域に存在する画素を囲む矩形を補正対象領域とする。図11(b)に補正対象領域となる矩形1103を示す。図11(a)に示す矩形1100、1101、つまり手書き文字の一部と判定された画素を含む単位文字領域および活字の一部と判定された画素を含む単位文字領域は、ともにOCR結果の信頼度は低く、かつ、図11(b)に示すように重なっている。そのため、これら矩形1100、1101に外接する矩形1103を補正対象領域とする。
以上が本実施形態における単位文字領域を再生成する補正対象領域の特定である。その後は実施形態1と同様、基準文字領域を決定し、基準文字領域から計算された探索サイズに基づいて補正対象領域から活字を探索し、単位文字領域を再生成する。
以上の処理によって、文字ストローク単位の手書き活字判定を行う場合でも、文字領域の特定精度が向上し、文字認識精度を向上させることが出来る。
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
110 情報処理装置
300 文字認識装置
301 処理結果提供装置
302 文字認識結果生成装置
300 文字認識装置
301 処理結果提供装置
302 文字認識結果生成装置
Claims (14)
- 文書を読み取って得られた読み取り画像に含まれる複数の文字からなる文字列領域から前記複数の文字のそれぞれに対応する単位文字領域の候補を抽出する抽出手段と、
前記単位文字領域の候補に対して手書き文字用又は活字用の文字認識処理を行い、文字認識結果およびその信頼度を得る認識手段と、
前記単位文字領域のうち、前記文字認識結果の信頼度が所定の閾値以上の単位文字領域の候補を除く単位文字領域の候補を、基準となる単位文字領域の候補を用いて補正する補正手段と、
を備え、
前記基準となる単位文字領域の候補は、前記認識手段が行った前記活字用の文字認識処理により得られた文字認識結果の信頼度が所定の閾値以上である単位文字領域の候補である、
ことを特徴とする情報処理装置。 - 前記補正手段は、前記基準となる単位文字領域の候補を用いて、前記補正の対象となる単位文字領域の候補に対して前記活字用の文字認識処理を行って得られる文字認識結果の信頼度に基づき、前記補正の対象となる単位文字領域を新たな活字の単位文字領域の候補を含む新たな複数の単位文字領域の候補に補正する、
ことを特徴とする請求項1に記載の情報処理装置。 - 前記補正手段は、前記基準となる単位文字領域の候補の大きさに応じて探索範囲を設定し、前記補正の対象となる単位文字領域の候補に対して前記探索範囲ごとに前記活字用の文字認識処理を行って得られた文字認識結果の信頼度に基づき、前記新たな活字の単位文字領域の候補を決定する、
ことを特徴とする請求項2に記載の情報処理装置。 - 前記補正手段は、前記補正の対象となる単位文字領域の候補に対して、前記探索範囲を前記基準となる単位文字領域の候補と同じ高さで水平方向に移動させながら前記活字用の文字認識処理を行う、
ことを特徴とする請求項3に記載の情報処理装置。 - 前記補正手段は、前記基準となる単位文字領域の候補の幅および高さの最大値および最小値に基づき前記探索範囲を決定する、
ことを特徴とする請求項3又は4に記載の情報処理装置。 - 前記補正手段は、前記探索範囲ごとに活字用の文字認識処理を行って得られた文字認識結果の信頼度が最も高い探索範囲を前記新たな活字の単位文字領域の候補とする、
ことを特徴とする請求項3乃至5のいずれか1項に記載の情報処理装置。 - 前記補正手段は、前記探索範囲ごとに行った活字用の文字認識処理の結果の信頼度が所定の閾値以上である探索範囲を前記新たな活字の単位文字領域の候補とする、
ことを特徴とする請求項3乃至5のいずれか1項に記載の情報処理装置。 - 前記補正の対象となる単位文字領域の候補および前記基準となる単位文字領域の候補は、同じ前記文字列領域に含まれる、
ことを特徴とする請求項1乃至7のいずれか1項に記載の情報処理装置。 - 前記補正の対象となる単位文字領域の候補は、1つの単位文字領域の候補である、
ことを特徴とする請求項1乃至8のいずれか1項に記載の情報処理装置。 - 前記抽出手段は、
前記文字列領域から前記単位文字領域の候補を切り出す文字切り手段と、
前記単位文字領域の候補が表す文字が手書き文字か活字かを判定する判定手段と、
を含み、
前記認識手段は、手書き文字と判定された単位文字領域の候補に対しては前記手書き文字用の文字認識処理を行い、活字と判定された単位文字領域の候補に対しては前記活字用の文字認識処理を行う、
ことを特徴とする請求項9に記載の情報処理装置。 - 前記補正の対象となる単位文字領域の候補は、前記文字認識結果の信頼度が所定の閾値以上の単位文字領域の候補を除く単位文字領域の候補のうち、当該複数の単位文字領域の候補の間の距離が所定の閾値以下である複数の単位文字領域の候補である、
ことを特徴とする請求項1乃至8のいずれか1項に記載の情報処理装置。 - 前記抽出手段は、
前記文字列領域において文字を構成する部分ごとに手書き文字か活字かを判定する判定手段と、
前記部分の判定結果に基づき前記文字列領域から前記単位文字領域の候補を切り出す文字切り手段と、
を含み、
前記認識手段は、手書き文字と判定された単位文字領域の候補に対しては前記手書き文字用の文字認識処理を行い、活字と判定された単位文字領域の候補に対しては前記活字用の文字認識処理を行う、
ことを特徴とする請求項11に記載の情報処理装置。 - 文書を読み取って得られた読み取り画像に含まれる複数の文字からなる文字列領域から前記複数の文字のそれぞれに対応する単位文字領域の候補を抽出するステップと、
前記単位文字領域の候補に対して手書き文字用又は活字用の文字認識処理を行い、文字認識結果およびその信頼度を得るステップと、
前記単位文字領域のうち、前記文字認識結果の信頼度が所定の閾値以上の単位文字領域の候補を除く単位文字領域の候補を、基準となる単位文字領域の候補を用いて補正するステップと、
を備え、
前記基準となる単位文字領域の候補は、前記認識手段が行った前記活字用の文字認識処理により得られた文字認識結果の信頼度が所定の閾値以上である単位文字領域の候補である、
ことを特徴とする情報処理方法。 - コンピュータを請求項1乃至11のいずれか1項に記載の情報処理装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021155411A JP2023046687A (ja) | 2021-09-24 | 2021-09-24 | 情報処理装置、情報処理方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021155411A JP2023046687A (ja) | 2021-09-24 | 2021-09-24 | 情報処理装置、情報処理方法、およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023046687A true JP2023046687A (ja) | 2023-04-05 |
Family
ID=85778479
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021155411A Pending JP2023046687A (ja) | 2021-09-24 | 2021-09-24 | 情報処理装置、情報処理方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023046687A (ja) |
-
2021
- 2021-09-24 JP JP2021155411A patent/JP2023046687A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4251629B2 (ja) | 画像処理システム及び情報処理装置、並びに制御方法及びコンピュータプログラム及びコンピュータ可読記憶媒体 | |
JP4181892B2 (ja) | 画像処理方法 | |
JP2930612B2 (ja) | 画像形成装置 | |
EP0202671A2 (en) | Method of storing and retrieving image data | |
US8412705B2 (en) | Image processing apparatus, image processing method, and computer-readable storage medium | |
JP6900164B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP4785655B2 (ja) | 文書処理装置及び文書処理方法 | |
US5265171A (en) | Optical character reading apparatus for performing spelling check | |
JP2018128996A (ja) | 情報処理装置、制御方法、およびプログラム | |
JP7387363B2 (ja) | データ入力支援装置、データ入力支援方法及びプログラム | |
US11418658B2 (en) | Image processing apparatus, image processing system, image processing method, and storage medium | |
JP4232679B2 (ja) | 画像形成装置およびプログラム | |
JP5538812B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
JP2010061471A (ja) | 文字認識装置およびプログラム | |
US20230273952A1 (en) | Image processing apparatus, image processing method, and storage medium | |
JP2008028716A (ja) | 画像処理方法及び装置 | |
JP6624120B2 (ja) | 文字認識装置、文字認識方法、文字認識プログラム、及び文字認識プログラムを記録したコンピューター読み取り可能な記録媒体 | |
JP2023046687A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP4310176B2 (ja) | 画像処理装置、画像処理方法およびプログラム | |
JPS6245581B2 (ja) | ||
JP2662404B2 (ja) | 光学文字読取装置における辞書作成方法 | |
JP2006277149A (ja) | 文字画像切出装置、文字画像切出方法およびプログラム | |
JP2020047138A (ja) | 情報処理装置 | |
JPH0757040A (ja) | Ocr付きファイリング装置 | |
JP6489041B2 (ja) | 情報処理装置及びプログラム |