JP5982844B2 - 文字読取用のプログラムおよび文字読取装置 - Google Patents

文字読取用のプログラムおよび文字読取装置 Download PDF

Info

Publication number
JP5982844B2
JP5982844B2 JP2012022950A JP2012022950A JP5982844B2 JP 5982844 B2 JP5982844 B2 JP 5982844B2 JP 2012022950 A JP2012022950 A JP 2012022950A JP 2012022950 A JP2012022950 A JP 2012022950A JP 5982844 B2 JP5982844 B2 JP 5982844B2
Authority
JP
Japan
Prior art keywords
character
recognition result
recognition
characters
moving image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012022950A
Other languages
English (en)
Other versions
JP2013161277A (ja
Inventor
直紀 渋谷
直紀 渋谷
玉井 敬一
敬一 玉井
賢一 鵜飼
賢一 鵜飼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp filed Critical Omron Corp
Priority to JP2012022950A priority Critical patent/JP5982844B2/ja
Priority to CN201380006324.XA priority patent/CN104067294A/zh
Priority to KR1020147020575A priority patent/KR101633570B1/ko
Priority to US14/372,836 priority patent/US9001393B2/en
Priority to EP13747323.7A priority patent/EP2813972A4/en
Priority to PCT/JP2013/052453 priority patent/WO2013118672A1/ja
Publication of JP2013161277A publication Critical patent/JP2013161277A/ja
Application granted granted Critical
Publication of JP5982844B2 publication Critical patent/JP5982844B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • G06V30/1456Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on user interactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/268Lexical context
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00249Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a photographic apparatus, e.g. a photographic printer or a projector
    • H04N1/00251Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a photographic apparatus, e.g. a photographic printer or a projector with an apparatus for taking photographic images, e.g. a camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Character Discrimination (AREA)

Description

本発明は、文字列を撮影することにより生成された動画像を処理して、当該画像中の文字を読み取る技術に関する。
携帯電話などの動画像撮影機能を有する情報処理装置に組み込まれるOCR用のアプリケーションとして、文字列の動画像をフレーム単位で処理しながら認識処理に適したフレームを選択し、選択されたフレームの画像から読み取った文字列を出力するものが知られている。
たとえば特許文献1には、画像を取り込む毎に前回取り込んだ画像に対する変化を抽出し、抽出される変化量が所定の許容値以下になったときの画像を用いて文字認識処理を実行し、この認識処理で認識対象の文字列に対応すると判定された文字モデルに対する認識対象の画像の類似度が所定の基準値を上回っていることを条件として、認識結果を出力することが記載されている(段落0025〜0046,図4等を参照。)。
また、特許文献2には、毎時のフレーム画像が文字認識に適した画像であるか否かを判定するための評価値を求め、この評価値が閾値を超えるフレームを発見するか、あるいは最大の評価値が得られたフレームの画像を用いて文字認識処理を行うことが記載されている。また、評価値は、シャッタースピード、絞り値、コントラストなどのパラメータにより算出されるものであると記載されている(段落0027〜0042等を参照。)。
特開2008−250818号公報 特開2009−88944号公報
特許文献1の段落0042に記載されているように、一般的な文字の読取処理では、投影処理によって画像中の文字を個別に抽出した上で、各文字を複数種の文字画像のモデル(以下、「文字モデル」という。)と照合し、所定値以上の類似度が得られた文字モデルが示す文字が該当文字であると判定する。また、この判定に用いられた文字モデルに対する類似度は、認識結果の信頼度として設定される。
しかし、文字のかすれや照明のばらつきなどによって誤認識が生じる可能性があるので、文字の単位での認識結果に基づき組み立てられた文字列が単語として成立するか否かを分析し、単語として成り立たない文字列を補正する技術が開発されている。その具体例を図8に示す。
図8(1)は、認識された文字間の文字種を照合する処理による補正を例示したものである。
具体的に、この例では、片仮名文字列「カタカナ」の読取において、2文字目の「タ(た)」が漢字の「夕(ゆう)」であると誤認識されている。この場合には、他の文字が全て片仮名であることから、認識対象文字列はカタカナ文字列である可能性が高いと判定され、2文字目の「夕(ゆう)」がこれに類似する片仮名の「タ(た)」に置き換えられる。
図8(2)は、認識された文字により組み立てられた文字列により単語辞書を検索する方法による補正の例を示す。この例では、文字列を構成する文字毎に、文字モデルとの照合の際に得た信頼度が高い順にいくつかの候補の文字を抽出し、これらの文字を複数とおりに組み合わせて単語辞書と照合する。図示例では、漢字文字列「文化」の読取において、一文字目の「文」に対する第1候補が「六」であると誤認識され、正しい文字である「文」は第2候補となっている。一方、二文字目の「化」は、第1候補として正しく認識されている。第1候補同士の組み合わせによる文字列「六化」は単語辞書に存在しないのに対し、一文字目の第2候補の「文」と二文字目の第1候補の「化」とを組み合わせた文字列「文化」は単語辞書に登録されているので、後者の組み合わせによる文字列が認識結果として採用される。
このように、文字種の分析や辞書との照合処理により認識結果を補正することができる事例がある一方で、これらの方法では補正が不可能な事例もある。
たとえば、図9の例では、「オムロン」という文字列の三文字目の「ロ」が左右に分離されて抽出されているが、これらが一対のカギ括弧記号として認識されているため、文法上は瑕疵がないものと判定されて、補正されることなく出力される可能性が高い。
特許文献1,2に記載された発明は、いずれも、動画撮影機能を利用して認識に適した画像を選択することにより、認識対象の文字列にカメラが適切に位置合わせされ、認識に適した画質による画像を用いた認識処理を行うようにしている。しかし、採用される認識結果は、あくまでも1枚のフレーム画像に対する処理から得たものであって、その認識結果に誤りがある場合に対応する方法は示されていない。
本発明は上記の問題点に着目し、認識対象の文字列にカメラが位置合わせされている間に生成される動画像を活用して、読取処理の精度を大幅に高めることを課題とする。
本発明によるプログラムは、動画撮影機能を有するカメラに接続されたコンピュータを、前記カメラが文字列の撮影により生成した動画像を入力して、当該動画像中の文字を読み取る文字読取装置として機能させるものである。
この文字読取装置には、動画像の入力に並行して、直近に入力された1フレーム分の画像に含まれる文字を認識する処理を繰り返す認識処理手段と、認識処理手段による認識結果を時間軸に沿って文字の単位で照合して、連続して実施された所定回数以上の認識処理における出現率があらかじめ定めた基準値を超えた認識結果を確定する確定手段と、確定手段により確定された認識結果を出力する出力手段とが設けられる。
上記の構成によれば、認識対象の文字列にカメラが位置合わせされて撮影が行われている間に、フレーム単位の画像に対する文字認識処理が繰り返し行われると共に、毎回の認識結果が文字の単位で照合される。そして、ある回数以上の認識処理が繰り返される間に基準値を超える出現率をもって出現した認識結果が採用される。
これにより、複数回の認識処理が行われる間に、2つ以上の異なる認識結果が得られる文字があったとしても、それらの認識結果の中で十分な回数をもって反復された認識結果が採用されるので、誤認識が生じる割合を大幅に削減することができる。
さらに、本発明による第1の文字読取装置では、確定手段は、基準値を超える出現率の認識結果が得られない文字に対して最も出現率が多い認識結果を仮確定する。また出力手段は、確定された認識結果による文字と仮確定された認識結果による文字とをそれぞれ異なる態様で表示するためのデータを出力する。
本発明による第2の文字読取装置では、確定手段は、基準値を超える出現率の認識結果が得られない文字に対して信頼度が最も高い認識結果を仮確定する。出力手段は、確定された認識結果による文字と仮確定された認識結果による文字とをそれぞれ異なる態様で表示するためのデータを出力する。
本発明によれば、文字列の撮影に並列して認識処理が行われる間に、確定された文字と仮確定の文字とがそれぞれ異なる態様により表示される。また仮確定として表示されている文字でも、認識結果が確定されると、表示の態様が変化する。よって、ユーザは、表示される文字の全てが確定表示になるまで、カメラを動かさずに読取を続けることによって、精度の高い認識結果を得ることができる。
出力手段から出力されるデータは、表示以外の目的に使用することもできる。たとえば、認識された文字列のテキストデータを生成し、コンピュータが動かす他のアプリケーションにテキストデータを入力することができる。この場合のテキストデータの出力は、文字読取装置から行ってもよいが、文字読取装置が組み込まれる装置の機能により出力をしてもよい。
さらに、本発明による文字読取装置には、出力手段から出力されたデータにより表示された文字を指定する操作と指定された文字を修正する操作とを受け付けて当該文字を修正する修正手段を設けることができる。この修正手段によれば、文字列の一部に誤認識が生じた場合でも、簡単に修正をすることが可能になる。
本発明によれば、認識対象の文字列の動画撮影が実施されている間に認識処理を繰り返し実行し、文字毎に、所定回数以上の認識処理における出現率が基準値を超えた認識結果を採用するので、誤った認識結果が確定される頻度を削減することができる。これにより文字の読取の精度が大幅に高められる。
本発明が適用されたOCRアプリケーションの機能ブロック図である。 認識結果の表示画面の変遷の例を示す図である。 認識結果の変遷に、誤認識が生じた文字における認識結果の信頼度、出力結果およびその出力の判断規準を対応づけたテーブルである。 OCRアプリケーションにおける処理の概略手順を示すフローチャートである。 文字の対応付け処理の詳細な手順を示すフローチャートである。 結果判定処理の詳細な手順を示すフローチャートである。 認識結果の誤りを修正する画面の例を示す図である。 認識結果の誤りを補正する方法を例示する図である。 図8の方法では補正できない誤認識の例を示す図である。
図1は、携帯型の情報処理装置に組み込まれるOCRアプリケーション1の構成例を、機能ブロック図として表したものである。
この実施例の情報処理装置の具体的形態はスマートフォンであって、動画撮影機能を有するカメラ2と、表示部および操作部が一体化されたタッチパネル3とを具備する。OCRアプリケーション1には、カメラインタフェース13、入出力インタフェース14のほか、スマートフォンの制御部を文字読取装置として機能させるためのライブラリ10(文字読取用の機能を持つプログラム群)が含まれる。
この実施例のライブラリ10には、文字認識処理部11および解析処理部12の各機能が含まれる。
カメラインタフェース13は、OCRアプリケーション1の起動に応じてカメラ2に動画撮影を開始させると共に、毎回のフレーム画像を取り込む。取り込まれた画像は、入出力インタフェース14および文字認識処理部11に提供される。
文字認識処理部11には、複数種の文字モデルが登録された辞書(図示せず。)が含まれており、カメラインタフェース13から提供されたフレーム画像に対し、画像投影処理の手法により画像内の個々の文字を抽出する文字切り出し処理や、抽出された文字の画像を辞書内の各種文字モデルと照合する照合処理などを実行して、各文字に対応する文字コードを認識する。この認識処理は、フレーム画像の入力に並行して繰り返し実行される。
なお、以下では、文字コードを認識することを、単に「文字を認識する」という。
解析処理部12は、文字認識処理部11による毎回の認識結果を、時間軸に沿って文字の単位で照合し、後記する判定規準に従って、文字毎に認識結果(文字)を確定する。確定された認識結果は、入出力インターフェース14によって、カメラインタフェース13から提供された動画像と共にタッチパネル3に表示される。
図2は、タッチパネル3に表示される画面の例を示す。
この例は、「オムロン」という文字列を撮影して文字認識を行ったものである。図中、中央の枠100内に大きく示されているのが認識対象の文字列であり、その下に小さく表示されている文字列Sが認識結果である。この実施例では、認識処理を繰り返し実行するので、認識結果が確定されていない段階でも、画像が安定すれば、何らかの文字を仮確定して表示するようにしている。仮確定の文字と確定された文字とは異なる態様で表示される。たとえば、仮確定の文字またはその背景が輝度の高い色彩により表されるが、図2では、その色彩に代えて、仮確定の文字を網点のパターンにより表現している。
図2の例によれば、最初は、図2(1)に示すように全ての文字が仮確定状態で表示されるが、少し時間が経過すると、認識結果が確定した文字での表示の態様が変化する。図2(2)の例では、3文字目を除く各文字の表示が確定表示に変更されている。3文字目については、この段階では、正しい文字の『ロ』ではなく、カギ括弧記号の『[』と『]』として分離されて誤認識されているが、さらに時間が経過すると、図2(3)に示すように、正しい認識結果が示されている。その後の図2(4)の例では、3文字目でも、正しい認識結果である『ロ』が確定表示されている。
ユーザは、上記の表示により認識結果が確定したことを判別すると、必要に応じて、タッチパネル3に操作メニューを呼び出し、認識結果の保存や他のアプリケーションへの出力などを指定する。入出力インターフェース14は、この指定操作に応じて、認識された文字列を示すテキストデータを指定先へと出力する。
図2に示した認識結果画面の変化は、解析処理部12による処理に伴って生じるものである。
この実施例の解析処理部12では、毎回の認識結果を文字の単位で対応づけしながら、対応する関係にある認識結果を内容が一致するもの毎に計数する。また少なくとも5回の認識処理を実行することを条件として、出現率が80%を超える認識結果が得られたときにその認識結果を確定する。認識結果が確定されるまでは、最も出現回数が多い認識結果を仮確定するが、出現回数が同数の認識結果が複数認められた場合には、最も信頼度が高い認識結果を採用し、これを仮確定する。
なお、信頼度とは、文字の切り出し処理により抽出された文字画像を文字モデルと照合する際に、文字画像に該当するとして特定された文字モデルに対する抽出された文字画像の類似度である。同一の認識結果が複数ある場合には、各認識結果の信頼度の平均値や代表値(最大値または最小値)が信頼度として使用される。
図3は、図2に例示した認識対象文字列の『オムロン』を例に、文字列全体の認識結果の推移を示すと共に、誤認識が生じた3文字目の『ロ』に関して、毎回の認識結果の信頼度と、認識結果として出力された文字の態様と、その出力のための判断規準とを対応づけて示す。
なお、図3では、説明の便宜上、図2に示した表示の変遷には対応させずに、認識処理が行われた回数を6回とし、1回目と6回目とにおいて、3文字目の『ロ』を『[]』とする誤認識が生じたものとしている。
図3を参照して、3文字目に対する認識結果の出力について説明すると、まず1回目の処理では誤認識が生じているが、過去の認識結果との照合ができないので、誤認識された文字『[]』がそのまま出力される。
次に2回目の認識処理では、正しい認識結果が得られ、正認識の回数と誤認識の回数とが1回ずつとなるので、信頼度の高い方の認識結果が選択される。図3の例では、2回目の正認識の信頼度の方が高くなっているので、2回目の認識結果が採用され、『ロ』が出力される。
3回目および4回目の認識処理でも、引き続き正しい認識結果が得られている。これにより、正認識の回数が誤認識の回数より多くなるので、『ロ』が出力される。
5回目の認識処理でも、正しい認識結果が得られている。この段階で出現率の判定に必要な5回の認識処理が完了し、3文字目は『ロ』であるとする認識結果の出現率が80%に達している。よって、この認識結果が確定されて、以後は『ロ』の出力が維持される。6回目の認識処理では、再び3文字目の認識に誤りが生じているが、5回目の認識処理で認識結果が確定されているため、誤認識の結果が出力に影響を及ぼすことはない。
図4は、OCRアプリケーション1により実行される読取処理の一連の手順を示す。
この処理は、カメラ2での撮影の開始に応じてスタートする。ステップS1,S2は文字認識処理部11による処理に相当するもので、直近のフレーム画像を取得して、その画像に対する文字認識処理を実行する。
つぎに、解析処理部12による処理に移行する。ステップS3では、1段階前の認識結果との照合により認識された文字の対応づけを実行する。この対応づけに成功すると(ステップS4が「YES」)、ステップS5に進み、先に述べた判断規準に基づき、出力すべき認識結果を判定する。ステップS6では、判定した結果を入出力インタフェース14を介して出力する。
上記のステップS1,S2,S3,S4,S5,S6の流れが順当に続く間は、毎回の文字認識結果、対応づけ結果、出力されたデータなどがバッファメモリに蓄積されて、ステップS3やステップS5の処理に利用される。しかし、文字の対応づけに失敗すると、ステップS4からステップS7に進み、蓄積データがリセットされる。
以下、認識された文字列の出力を要求する操作か、アプリケーションの終了操作が行われるまで、図4に示すループが繰り返される。なお、毎回のループのステップS1で取得するフレーム画像はその時点での最新の画像であるが、ループの実行周期が動画像の生成サイクルより遅い場合には、毎時の取得画像は連続しない状態になる。
図5は、ステップS3の文字の対応づけ処理の詳細な流れを、この処理の具体例(図3の例に対応)と共に示す。なお、以下の説明では、対応づけ対象のフレームを「現フレーム」という。
まず、1回目の認識処理に対しては(ステップS11が「YES」の場合)、現フレームで認識した文字列をその後の対応づけのための基本の文字列(以下、「対応づけ文字列」という。)として登録する(ステップS20)。また、対応付けに成功したと判定して、成功回数を1に設定する(ステップS21)。
2回目以降の認識処理に対しては(ステップS11が「NO」の場合)、現フレームで認識した文字列と対応づけ文字列との文字数を比較する(ステップS12)。両者の文字数が一致している場合(ステップS12が「YES」)には、対応付けが成功したと判定し、成功回数に1を加算する(ステップS13)。
現フレームで認識した文字数と対応づけ文字列の文字数とが異なる場合(ステップS12が「NO」)には、両文字列の各構成文字を一文字ずつ順に比較する(ステップS14)。この比較処理では、先頭から末尾に向かう順序(昇順)と末尾から先頭に向かう順序(降順)の両方から各文字を比較し、各比較結果に基づき、不一致箇所が一箇所のみであるかどうかを判定する。ここで、昇順で比較した場合に整合しなくなった箇所と、降順で比較した場合に整合しなくなった箇所とが一致した場合には、不一致箇所は一箇所のみであると判定される(ステップS15が「YES」)。この判定に応じて、各文字列間での不一致箇所を対応づけし(ステップS16)、さらに現フレームで認識した文字列を対応づけ文字列とする(ステップS17)。さらに、対応付けが成功したと判定して、成功回数に1を加算する(ステップS18)。
一方、不一致箇所が2箇所以上あると判定された場合(ステップS15が「NO」)には、対応付けに失敗したと判定する(ステップS19)。
図5の(A)は、図3に示した1回目の処理で認識された文字列を示す。3文字目が2つに分離されて誤認識されたため、この文字列は5文字構成となるが、ステップS20において対応文字列に設定される。
図5の(B)は、図3に示した2回目の処理で認識された文字列と上記の対応文字列との関係を示す。ステップS14において、両文字列を昇順および降順の両方向に沿って照合すると、双方の文字列の1番目および2番目の各文字が一致し、対応付け文字列の5番目の文字と現フレームで認識された4番目の文字とが一致するが、これらの間の文字(対応付け文字列の3番目および4番目の文字と現フレームで認識された3番目の文字)が一致していないことが判明する。これにより両文字列の不一致箇所は一箇所であると判定されて、対応づけされる。また、対応づけ文字列は、現フレームでの認識文字列に更新される。
文字列間における文字の対応付けの結果は順に繋がりをもって保存される。また、対応付けに成功したと判定された場合(ステップS13,S18,S21)には、成功回数が計数される。
この後の結果判定処理(図4のステップS5)では、対応づけられた一群の文字毎に認識結果を分析して出力する文字を決定する。図6は、この結果判定処理の詳細な手順を示す。
この処理では、対応付け文字列の各文字に順に着目し、着目文字に対応づけられている過去の各認識結果を対象に、ループ記号L1,L2内の処理(ステップS31〜S39)を実行する。
実際には、着目中の文字に対する認識結果が確定していない場合(ステップS31が「NO」)のみ、実質的な処理が行われる。まず、ステップS32では、着目中の文字に対応する現フレームでの認識結果の出現回数を計数すると共に、その信頼度を記憶する。計数処理では、過去に同一の認識結果がない場合には出現回数が1回に設定され、既に同一の認識結果が得られている場合には、前回までの計数値に1が加算される。
つぎに、着目中の文字に対してこれまでに導出された認識結果とその出現回数とに基づき、出現回数が最も多い認識結果を抽出する(ステップS33)。ここで複数の認識結果が抽出された場合(ステップS34が「YES」)には、その中で信頼度が最も高いものを選択し(ステップS35)、抽出された認識結果が1つであれば(ステップS34が「NO」)、当該認識結果を選択する(ステップS36)。
なお、ステップS35では、比較対象の認識結果につき、内容が同じ結果毎に信頼度の平均値を求めて、これらの平均値の中で最も高い値に対応する認識結果を選択してもよい。
つぎに、ステップS37では、対応づけの成功回数に基づき、5回以上の認識処理が実行されているか否かをチェックする。成功回数が5回以上であれば、その成功回数分の認識処理が実行されて各結果が繋がっている、ということになるから、ステップS37は「YES」となる。これを受けて、次のステップS38において、ステップS35またはステップ36で選択された認識結果の出現率が80%以上であるか否かをチェックする。このステップS38の判定も「YES」であれば、選択した認識結果を確定する(ステップS39)。
上記の手順により認識結果が確定された文字では、次回の処理ではステップS31が「YES」となり、確定された認識結果が維持される。ステップS37またはS38が「NO」となった文字では、認識結果が確定されないので、次回もステップS32以下の手順が実行される。
なお、上記の結果判定処理では、5回以上の認識処理における出現率が80%以上となることを確定の条件としたが、この条件を既定する認識処理回数(5回)や出現率(80%)は、適宜、変更可能である。
また、この実施例では、上記の条件が成立するまでは、最も出現回数が多い認識結果を仮確定し、出現回数が最多の認識結果が複数ある場合に信頼度に基づく選択を実施しているが、仮確定の段階では、出現回数よりも信頼度を優先的に選択してもよい。また5回以上の認識処理における出現率が80%に達した認識結果でも無条件に確定するのではなく、毎回の認識結果の信頼度の平均値を求め、この平均の信頼度が所定の基準値を超えていることを条件に、当該結果を確定するようにしてもよい。
認識対象の文字列に対する撮影が開始された当初は、画像が安定しないために対応づけされない可能性が高い。しかし、カメラ2が認識対象文字列に位置決めされて画像が安定すると、文字の対応づけに成功して認識結果が表示されるようになり、毎回の認識結果が整合する頻度が高い文字から順に認識結果が確定される。文字認識に誤りが生じることが多い文字でも、一定数以上の認識処理が行われて出現率が80%を超える認識結果が認められたときに、その認識結果により確定されるので、誤った認識結果が採用される可能性をごく小さくすることができる。
また、認識結果が確定した文字とまだ確定していない文字とが異なる態様により表示されるので、仮確定表示の文字に誤りがある場合には、カメラ2を動かさずに撮影を続ける必要があることをユーザに知らしめることができる。また、ユーザは、2種類の表示によって、認識結果の推移やその正否を容易に確認することができる。
さらに、この実施例のOCRアプリケーション1には、タッチパネル3に表示された文字を選択する操作やその文字を修正する操作を受け付けて、当該文字を修正する機能を設けることができる。
図7は、この修正機能を利用して認識された文字を修正する例を示す。
この例では、認識された文字列に誤りがある場合、撮影終了後も認識結果が表示された画面を維持して、誤って認識された文字をタップする(図7の(1))。この操作により、図7(2)に示すように、画面内に手書き文字の入力欄30が表示される。ユーザがこの欄30で文字の描画を行うと、入力欄30の横手に、ユーザの描画に適合する形状の文字による候補のリスト31が表示される。ユーザは、図7(3)に示すように、描画を進めることでリスト31内の候補を絞り込み、所定の時点でリスト31内の候補を選択するかによって、正しい文字を入力する。この入力によって、選択された文字が修正される。
上記の修正機能は、誤認識結果で確定された文字を修正するほか、認識結果がなかなか確定しない文字を確定する場合にも、利用することができる。
なお、修正のための文字の入力操作は手書きに限らず、文字入力システム(IME)の機能を用いて修正すべき文字を入力してもよい。
上記の実施例のOCRアプリケーション1は、スマートフォンに組み込まれるとして説明したが、スマートフォン以外の携帯電話や通信機能を持たない情報処理装置(たとえばデジタルビデオカメラなど)や、汎用のデジタルビデオカメラに接続された情報処理装置(たとえばパーソナルコンピュータ)にも、上記と同様の機能を有するOCRアプリケーションを組み込むことができる。
また、OCRアプリケーション1により読み取られた文字は、タッチパネル3上に表示されるだけでなく、アドレス帳に登録したり、メモ帳、翻訳用アプリケーションなどの様々なアプリケーションで利用することができる。
1 OCRアプリケーション
2 カメラ
3 タッチパネル
10 ライブラリ(文字読取装置用のプログラム群)
11 文字認識処理部
12 解析処理部
13 カメラインタフェース
14 入出力インタフェース
30 入力欄
31 候補リスト
S 認識結果の文字列

Claims (5)

  1. 動画撮影機能を有するカメラに接続されたコンピュータを、前記カメラが文字列の撮影により生成した動画像を入力して、当該動画像中の文字を読み取る文字読取装置として機能させるためのプログラムであって、
    前記動画像の入力に並行して、直近に入力された1フレーム分の画像に含まれる文字を認識する処理を繰り返す認識処理手段、
    前記認識処理手段による認識結果を時間軸に沿って文字の単位で照合して、連続して実施された所定回数以上の認識処理における出現率があらかじめ定めた基準値を超えた認識結果を確定すると共に、前記基準値を超える出現率の認識結果が得られない文字に対して最も出現回数が多い認識結果を仮確定する確定手段、
    前記確定手段により確定された認識結果による文字と仮確定された認識結果による文字とをそれぞれ異なる態様で表示するためのデータを出力する出力手段、
    の各手段として、前記コンピュータを機能させることを特徴とする文字読取用のプログラム。
  2. 動画撮影機能を有するカメラに接続されたコンピュータを、前記カメラが文字列の撮影により生成した動画像を入力して、当該動画像中の文字を読み取る文字読取装置として機能させるためのプログラムであって、
    前記動画像の入力に並行して、直近に入力された1フレーム分の画像に含まれる文字を認識する処理を繰り返す認識処理手段、
    前記認識処理手段による認識結果を時間軸に沿って文字の単位で照合して、連続して実施された所定回数以上の認識処理における出現率があらかじめ定めた基準値を超えた認識結果を確定すると共に、前記基準値を超える出現率の認識結果が得られない文字に対して信頼度が最も高い認識結果を仮確定する確定手段、
    前記確定手段により確定された認識結果による文字と仮確定された認識結果による文字とをそれぞれ異なる態様で表示するためのデータを出力する出力手段、
    の各手段として、前記コンピュータを機能させることを特徴とする文字読取用のプログラム。
  3. 前記出力手段から出力されたデータにより表示された文字を指定する操作と指定された文字を修正する操作とを受け付けて当該文字を修正する修正手段として、前記コンピュータを機能させるプログラムが、さらに含まれる請求項1または2に記載された文字読取用のプログラム。
  4. 動画撮影機能を有するカメラにより生成された文字列の動画像を入力して、その動画像中の文字を読み取る装置であって、
    前記動画像の入力に並行して、直近に入力された1フレーム分の画像に含まれる文字を認識する処理を繰り返す認識処理手段と、
    前記認識処理手段による認識結果を時間軸に沿って文字の単位で照合して、連続して実施された所定回数以上の認識処理における出現率があらかじめ定めた基準値を超えた認識結果を確定すると共に、前記基準値を超える出現率の認識結果が得られない文字に対して最も出現回数が多い認識結果を仮確定する確定手段と、
    前記確定手段により確定された認識結果による文字と仮確定された認識結果による文字とをそれぞれ異なる態様で表示するためのデータを出力する出力手段とを、
    具備することを特徴とする文字読取装置。
  5. 動画撮影機能を有するカメラにより生成された文字列の動画像を入力して、その動画像中の文字を読み取る装置であって、
    前記動画像の入力に並行して、直近に入力された1フレーム分の画像に含まれる文字を認識する処理を繰り返す認識処理手段と、
    前記認識処理手段による認識結果を時間軸に沿って文字の単位で照合して、連続して実施された所定回数以上の認識処理における出現率があらかじめ定めた基準値を超えた認識結果を確定すると共に、前記基準値を超える出現率の認識結果が得られない文字に対して信頼度が最も高い認識結果を仮確定する確定手段と、
    前記確定手段により確定された認識結果による文字と仮確定された認識結果による文字とをそれぞれ異なる態様で表示するためのデータを出力する出力手段とを、
    具備することを特徴とする文字読取装置。
JP2012022950A 2012-02-06 2012-02-06 文字読取用のプログラムおよび文字読取装置 Expired - Fee Related JP5982844B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2012022950A JP5982844B2 (ja) 2012-02-06 2012-02-06 文字読取用のプログラムおよび文字読取装置
CN201380006324.XA CN104067294A (zh) 2012-02-06 2013-02-04 字符读取装置和字符读取方法
KR1020147020575A KR101633570B1 (ko) 2012-02-06 2013-02-04 문자 판독용의 프로그램 및 문자 판독 장치 및 문자 판독 방법
US14/372,836 US9001393B2 (en) 2012-02-06 2013-02-04 Program for reading characters, and character reader as well as method for reading characters
EP13747323.7A EP2813972A4 (en) 2012-02-06 2013-02-04 PROGRAM FOR READING CHARACTERS AND DRAWING DEVICE AND METHOD FOR READING CHARACTERS
PCT/JP2013/052453 WO2013118672A1 (ja) 2012-02-06 2013-02-04 文字読取用のプログラムおよび文字読取装置ならびに文字読取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012022950A JP5982844B2 (ja) 2012-02-06 2012-02-06 文字読取用のプログラムおよび文字読取装置

Publications (2)

Publication Number Publication Date
JP2013161277A JP2013161277A (ja) 2013-08-19
JP5982844B2 true JP5982844B2 (ja) 2016-08-31

Family

ID=48947436

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012022950A Expired - Fee Related JP5982844B2 (ja) 2012-02-06 2012-02-06 文字読取用のプログラムおよび文字読取装置

Country Status (6)

Country Link
US (1) US9001393B2 (ja)
EP (1) EP2813972A4 (ja)
JP (1) JP5982844B2 (ja)
KR (1) KR101633570B1 (ja)
CN (1) CN104067294A (ja)
WO (1) WO2013118672A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180285677A1 (en) * 2017-03-31 2018-10-04 Canon Kabushiki Kaisha Information processing apparatus, control method thereof, and storage medium

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150006362A1 (en) * 2013-06-28 2015-01-01 Google Inc. Extracting card data using card art
JP6679350B2 (ja) * 2016-03-09 2020-04-15 キヤノン株式会社 情報処理装置、プログラム及び情報処理方法
CN105975542A (zh) * 2016-04-29 2016-09-28 乐视控股(北京)有限公司 一种字符串的输入方法及装置
JP2018088116A (ja) * 2016-11-29 2018-06-07 キヤノン株式会社 情報処理装置、プログラム、情報処理方法
JP6804292B2 (ja) * 2016-12-28 2020-12-23 オムロンヘルスケア株式会社 端末装置
KR102026475B1 (ko) * 2017-08-20 2019-09-30 네이버 주식회사 시각적 입력의 처리
CN109165635A (zh) * 2018-09-27 2019-01-08 珠海格力电器股份有限公司 显示屏中光符标记的视觉检测***及其方法与智能终端
JP2020064374A (ja) * 2018-10-15 2020-04-23 富士通株式会社 コード情報読取装置、方法、及びプログラム
JP6505937B1 (ja) * 2018-11-26 2019-04-24 フューチャー株式会社 照合システム、照合方法及び照合プログラム
JP7338158B2 (ja) * 2019-01-24 2023-09-05 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
JP2021144307A (ja) * 2020-03-10 2021-09-24 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
JP2024036017A (ja) * 2022-09-05 2024-03-15 ダイキン工業株式会社 情報端末、文字認識方法及び文字認識プログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3917252B2 (ja) * 1997-08-25 2007-05-23 株式会社東芝 車両のナンバプレート認識装置および車両のナンバプレート認識方法
JPH11224305A (ja) * 1998-02-06 1999-08-17 Oki Electric Ind Co Ltd 文字認識装置
US7128266B2 (en) * 2003-11-13 2006-10-31 Metrologic Instruments. Inc. Hand-supportable digital imaging-based bar code symbol reader supporting narrow-area and wide-area modes of illumination and image capture
JP2003178067A (ja) * 2001-12-10 2003-06-27 Mitsubishi Electric Corp 携帯端末型画像処理システム、携帯端末およびサーバ
EP1398726B1 (en) * 2002-09-11 2008-07-30 Samsung Electronics Co., Ltd. Apparatus and method for recognizing character image from image screen
JP2004199141A (ja) * 2002-12-16 2004-07-15 Nec Saitama Ltd 記号認識装置及び記号認識方法
US7840033B2 (en) * 2004-04-02 2010-11-23 K-Nfb Reading Technology, Inc. Text stitching from multiple images
US8873890B2 (en) * 2004-04-02 2014-10-28 K-Nfb Reading Technology, Inc. Image resizing for optical character recognition in portable reading machine
US8249309B2 (en) * 2004-04-02 2012-08-21 K-Nfb Reading Technology, Inc. Image evaluation for reading mode in a reading machine
US7659915B2 (en) * 2004-04-02 2010-02-09 K-Nfb Reading Technology, Inc. Portable reading device with mode processing
US7627142B2 (en) * 2004-04-02 2009-12-01 K-Nfb Reading Technology, Inc. Gesture processing with low resolution images with high resolution processing for optical character recognition for a reading machine
JP2008250818A (ja) 2007-03-30 2008-10-16 Omron Corp 携帯端末装置用のプログラムおよび携帯端末装置
US8676273B1 (en) * 2007-08-24 2014-03-18 Iwao Fujisaki Communication device
JP2009088944A (ja) 2007-09-28 2009-04-23 Canon Inc 文字認識装置、撮像装置及び映像再生装置
CN201159903Y (zh) * 2008-03-14 2008-12-03 北京信路威科技发展有限公司 一种车牌识别装置
JP4875117B2 (ja) 2009-03-13 2012-02-15 株式会社東芝 画像処理装置
KR20140112774A (ko) * 2013-03-14 2014-09-24 삼성전자주식회사 이미지 편집 방법, 저장 매체 및 단말

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180285677A1 (en) * 2017-03-31 2018-10-04 Canon Kabushiki Kaisha Information processing apparatus, control method thereof, and storage medium
CN108694400A (zh) * 2017-03-31 2018-10-23 佳能株式会社 信息处理装置、其控制方法及存储介质
US10878268B2 (en) * 2017-03-31 2020-12-29 Canon Kabushiki Kaisha Information processing apparatus, control method thereof, and storage medium
CN108694400B (zh) * 2017-03-31 2023-04-18 佳能株式会社 信息处理装置、其控制方法及存储介质

Also Published As

Publication number Publication date
US9001393B2 (en) 2015-04-07
JP2013161277A (ja) 2013-08-19
CN104067294A (zh) 2014-09-24
US20140355076A1 (en) 2014-12-04
WO2013118672A1 (ja) 2013-08-15
EP2813972A4 (en) 2016-02-24
KR101633570B1 (ko) 2016-06-24
EP2813972A1 (en) 2014-12-17
KR20140105853A (ko) 2014-09-02

Similar Documents

Publication Publication Date Title
JP5982844B2 (ja) 文字読取用のプログラムおよび文字読取装置
CN109635772B (zh) 一种听写内容的批改方法及电子设备
CN110135411B (zh) 名片识别方法和装置
KR101199747B1 (ko) 단어 인식 방법 및 단어 인식용 프로그램의 기록매체 및 정보 처리 장치
TWI321294B (en) Method and device for determining at least one recognition candidate for a handwritten pattern
RU2651144C2 (ru) Ввод данных с изображений документов с фиксированной структурой
JP6527410B2 (ja) 文字認識装置、文字認識方法、及びプログラム
RU2634194C1 (ru) Верификация результатов оптического распознавания символов
US8855429B2 (en) Method and apparatus for recognizing characters
KR101002899B1 (ko) 문자 인식 방법 및 장치
US9286526B1 (en) Cohort-based learning from user edits
CN108846385B (zh) 基于卷积-反卷积神经网络的图像识别、校正方法和装置
JP7102103B2 (ja) 携帯型の情報処理装置及び当該情報処理装置を用いた方法及びプログラム
US10706581B2 (en) Image processing apparatus for clipping and sorting images from read image according to cards and control method therefor
CN109241907A (zh) 标注方法、装置及电子设备
CN115565179A (zh) 一种字符识别后纠错方法、***及装置
CN110795918A (zh) 确定阅读位置的方法、装置及设备
JP5835035B2 (ja) 文字認識用のプログラムおよび文字認識装置
CN111079736B (zh) 一种听写内容识别方法及电子设备
US20130330005A1 (en) Electronic device and character recognition method for recognizing sequential code
JP2010237909A (ja) 知識補正プログラム、知識補正装置および知識補正方法
US10356318B1 (en) Long document capture on mobile devices
CN111079486A (zh) 一种开启听写检测的方法及电子设备
CN110969161A (zh) 图像处理方法、电路、视障辅助设备、电子设备和介质
CN111104886A (zh) 手势识别方法、装置、设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160405

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20160603

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160705

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160718

R150 Certificate of patent or registration of utility model

Ref document number: 5982844

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees