JPH10105655A - 光学文字認識のための検証および訂正の方法およびシステム - Google Patents

光学文字認識のための検証および訂正の方法およびシステム

Info

Publication number
JPH10105655A
JPH10105655A JP9220279A JP22027997A JPH10105655A JP H10105655 A JPH10105655 A JP H10105655A JP 9220279 A JP9220279 A JP 9220279A JP 22027997 A JP22027997 A JP 22027997A JP H10105655 A JPH10105655 A JP H10105655A
Authority
JP
Japan
Prior art keywords
verifying
characters
correcting
character
context analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9220279A
Other languages
English (en)
Inventor
Amand Rowley Raymond
レイモンド・アマンド・ロリー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH10105655A publication Critical patent/JPH10105655A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/12Detection or correction of errors, e.g. by rescanning the pattern
    • G06V30/127Detection or correction of errors, e.g. by rescanning the pattern with the intervention of an operator
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/268Lexical context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 本発明の目的は、速度と精度の改善を助ける
ため、文脈情報を利用する前のOCR結果を改善するこ
とである。 【解決手段】 文書の同一のバッチに対して、文脈分析
と操作員入力を交互に組み合わせて使用する、光学文字
認識の方法およびシステムを提供する。自動文字認識の
後に、文脈アナライザによって、解を期待するのに十分
な良好さを有するフィールドを処理する。これによっ
て、操作員の介入なしにできる限り多くのフィールドを
受け入れる。いくつかの他のフィールドについて、この
処理では、操作員入力を使用して、ある比率の文字の文
字レベルのOCR結果を承認または入力し、その結果、
文脈分析で残りのフィールドのうちのいくつかが受け入
れられるようにする。文脈アナライザが、非常に近い仮
説の小さい集合の識別に成功した場合、この処理では、
操作員に1つまたは2つの文字を認証するよう求めて、
仮説の間の曖昧さを解決する。まだ解決されないフィー
ルドについては、フィールドと仮説を操作員に示して、
受け入れ、訂正または入力を求める。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、全般的には光学文
字認識(OCR)の分野に関する。具体的にいうと、本
発明は、必要に応じて自動OCR機能と人間の介入を効
率的に組み合わせる技法に関する。本発明は、印刷と手
書きの混在したフォーム用紙に現れるデータを入力する
システムへの具体的な利用性を有する。
【0002】
【従来の技術】近い将来の問題は、走査された画像に含
まれるテキスト情報の認識である。走査画像は、フォー
ムに印刷された質問に対する手書きの回答や、封筒の宛
先住所など、広範囲の素材から得られる。
【0003】フォームとは、それぞれがある単純な構文
特性または意味特性を有する一定数の小さいフィールド
に簡単に分割できる文書である。データは、機械印刷ま
たは手書きとすることができる。通常、機械印刷フォー
ムは、さまざまなフィールドの印刷された説明文または
指示を有し、フォームに書き込む人物は、諸フィールド
に手書きで情報を挿入する。したがって、機械印刷され
た説明文および指示と手書きの両方が、フォームの画像
に存在する。OCRは、手書きの情報を得るために実行
される。
【0004】OCRシステムでは、画像の小さい部分
(電話番号や郵便番号の数字のグループなど)を連結さ
れた構成要素として分離し、連結された構成要素を1つ
または複数の文字画像にセグメント化し、そのような画
像のそれぞれを特定の文字を表すものとして認識するた
めに、さまざまな戦略が使用される。
【0005】適度な精度で文字を認識するOCR認識エ
ンジンが、従来から存在する。しかし、「適度な精度」
は、通常は十分良好とは言えない。金額の1桁の誤りな
どの些細な誤りが、ユーザに重大な影響を及ぼす可能性
がある。
【0006】この作業を実行するのに必要なOCR技術
は、最近10年間にかなりの進歩を遂げたが、OCRの
生結果は、現在も、おそらくは永遠に、比較的信頼性が
低い状態である。文字レベルでの98%の認識率では、
多数のフィールドに誤りが残される。90%の認識率で
は、フォーム内の単語の半数以上に誤りが含まれる。し
かし、90%という値は、フォームが手書きの時や文字
が「ボックス」におさまっていない時には達成不能であ
る(後者の状況は、セグメント化の誤りをもたらすこと
がしばしばである)。
【0007】実際上すべての場合に、OCRの後に何ら
かの形態の誤り訂正を行う必要がある。したがって、実
用的なシステムには、文脈の利用を介する自動的なもの
か、情報の検証と訂正のための操作員の介入をサポート
することによるかのいずれかの、結果を改善するための
何らかの種類の余分な処理が含まれなければならない。
【0008】OCRシステムは、連結された構成要素の
セグメント化の複数の代替案を識別し、セグメント化代
替案の中の各文字の複数の文字選択候補を識別するよう
に設計することができる。その結果は、通常は、OCR
システムの出力から、テキスト・プロセッサやプリンタ
・ドライバなどのアプリケーション・プログラムに供給
される。
【0009】OCRと共に文脈情報を使用すると、実現
される精度の水準を向上するのに役立つことは周知であ
る。たとえば、連結された構成要素が、郵便番号(数字
文字の並びだけからなる)を構成するものとして識別さ
れたと仮定する。その場合、連結された構成要素に含ま
れる文字に対する、数字文字でない文字選択候補のすべ
てを、不正な選択候補として拒絶できることになる。郵
便番号は、既知の桁数を有するので、異なる桁数を意味
する文字選択候補も拒絶できる。最後に、数字文字の可
能な順列の部分集合だけが有効で使用されている実際の
郵便番号になるので、無効な郵便番号を意味する文字選
択候補を拒絶できる。
【0010】従来のシステムでは、OCRサブシステム
は、認識した文字選択候補があればそのすべてを単純に
アプリケーション・プログラムに提供し、文脈の利用
は、アプリケーション・プログラムによって実行され
る。アプリケーション・プログラムは、誤り訂正を自動
的に実行するか、操作員介入のためのユーザ・インター
フェースを提供するかのいずれかである。
【0011】しかし、このような手法には短所がある。
すなわち、速度と精度が理想的な値と比べて満足ではな
い。したがって、OCRシステム設計者が直面している
課題は、従来のシステムの速度と精度を超えて自動認識
システムの速度と精度を改善するために、文字の検証お
よび訂正と文脈検査を統合する方法である。
【0012】このようなOCR後の誤り訂正の技術は、
直線的なシーケンスの動作を実行する方法に限定されて
きた。たとえば、文字認識プログラムや文字認識装置な
どのリコグナイザの呼出しと、その後の、検証される制
約に関する検査という自動ステップが実行される。ある
フィールドが制約を満足しない場合、そのフィールドが
操作員に示され、操作員はそのフィールドを訂正する。
【0013】もう1つのシーケンスは、文字を認識し、
その後に、操作員の介入に頼って、認識時の信頼性が特
定の閾値未満の個々の文字を認証または再入力すること
であろう。このようなシステムは、文字レベルでのみ機
能する。フィールド検証は後程行われる。
【0014】この技法の変形に、カーペットという概念
を使用して、すべての文字を認証することが含まれる。
文書は、バッチで認識され、認識は、数百文字ないし数
千文字に対して行われる。その後、「1」と認識された
すべての文字を、画面上に一緒に表示し、「カーペッ
ト」を形成することができる。操作員は、誤認識された
文字を簡単に認識し(これをクリックし)、訂正する。
同様のことを、「2」、「3」などについて行う。この
方法は、非常に高い比率の文字が正しく認識される場合
(97%ないし98%の範囲)に限って効果的である。
この要件のため、この方法は、単独で使用される時に、
手書き文字に対してほとんど助けにならない。もちろ
ん、制約の検査は、必ずこの後に行うことができる。
【0015】もう1つの技法が、第08/325849
号明細書に記載されている。このシステムでは、構文規
則と意味論規則の両方が使用される。
【0016】
【発明が解決しようとする課題】しかし、これらの従来
技術の方法は、所定の順序での動作の実行に制限される
ことが共通している。
【0017】認識の後に、疑わしい文字が文字レベルの
検証または再入力のために操作員に提示される場合、こ
のシステムは、個々の文字を正しく識別することの重要
性を強調しすぎており、使用可能な文脈情報を効率的に
活用できていない。
【0018】その一方で、システムが即座に文脈の利用
に突入する場合、過度に貧弱な結果に基づいて文脈が利
用される可能性があり、その結果、文脈訂正処理が、誤
りによって誤った方向に導かれ、不正な文脈情報が適用
される可能性がある。その結果、不適切な文脈情報が原
因で、正しい文字が誤った値に「訂正」される可能性が
ある。
【0019】これらの要因のために、従来の文脈アナラ
イザは、性能が低く、低速である。これは、辞書のファ
ジイ探索について特にあてはまる。絶対確実な文字がな
いので、インデクシングを使用して辞書の項目の部分集
合を直接アドレッシングすることは困難である。
【0020】したがって、本発明の目的は、速度と精度
の改善を助けるため、文脈情報を利用する前にOCR結
果を改善することである。
【0021】本発明のもう1つの目的は、認識結果が比
較的高い確率を有することが既知である文字を利用する
ことである。
【0022】
【課題を解決するための手段】上記その他の目的を達成
するため、本発明によって、従来から使用されてきた、
文脈による検証および訂正と操作員による検証および訂
正の間の、はるかに密な統合を使用する技法を提供す
る。
【0023】本発明による方法では、新規な形で検証と
文脈分析を統合することによって、上で説明した短所が
除去される。
【0024】本発明の方法では、文書の同一のバッチに
対して、文脈分析と操作員入力を交互に使用する。文字
認識の後に、文脈アナライザによって、解を期待するの
に十分な良好さを有するフィールドを処理する。これに
よって、操作員の介入なしに、できる限り多くのフィー
ルドを受け入れる。
【0025】いくつかの他のフィールドについては、こ
の処理では、操作員入力を使用して、ある比率の文字の
文字レベルOCR結果を認証(または文字を入力)し、
その結果、文脈分析で残りのフィールドのうちのいくつ
かが受け入れられるようにする。
【0026】文脈アナライザが、非常に近い仮説の小さ
い集合の識別に成功した場合、この処理では、操作員に
1つまたは2つの文字を認証するよう求めて、曖昧さを
解決する。まだ解決されないフィールドについては、フ
ィールド(と仮説)を表示し、受け入れ、訂正または入
力を求めることができる。
【0027】この処理は、フィールドのタイプに従って
異なるものとすることができる。したがって、この処理
は、いくつかのユーザ指定のフィールド依存パラメータ
によって制御される。
【0028】本発明による方法では、カーペットとバッ
チ処理の組合せが使用される。これは、いくつかの数の
フォームが一緒に処理されることを意味する。バッチで
は、計算集中型の段階と操作員が支援する段階が交互に
現れる、一連の段階を経る。各段階で、作業スペース内
に情報が記憶され、更新される。処理の終りに、作業ス
ペースには、指定された信頼性レベルで認識された値が
含まれる。
【0029】本発明は、主に方法として開示されるが、
当業者であれば、CPU、メモリ、入出力、プログラム
記憶域、接続バスおよび他の適当な構成要素を含む通常
のデータ・プロセッサなどの装置をプログラムまたは設
計して、本発明の方法の実施を容易にすることができる
ことと理解するであろう。このようなプロセッサには、
本発明の方法を実行するための適当なプログラム手段が
含まれるはずである。
【0030】また、データ処理システムと共に使用する
ための、あらかじめ記録されたディスクまたは他の同様
のコンピュータ・プログラム製品などの製造品に、記憶
媒体と、それに記録された、本発明の方法の実施を容易
にするようデータ処理システムに指令するためのプログ
ラム手段とを含めることができる。そのような装置およ
び製造品も、本発明の趣旨および範囲に含まれることを
理解されたい。
【0031】
【発明の実施の形態】本発明の方法は、文字ごとに複数
の選択候補を返すリコグナイザ2と共に環境(図1)内
で実施される。あるいは、リコグナイザ2は、連結され
た構成要素の1つまたは複数の解釈を返すこともできる
(区切りなし、2文字に分割、3文字に分割など)。こ
れらの解釈に含まれる文字のそれぞれについて、リコグ
ナイザ2は、複数の文字仮説を作るが、仮説のそれぞれ
は、それぞれの信頼性レベルを有する。これらは、本発
明による検証訂正システム4に供給される。
【0032】リコグナイザ2からこれらの出力を与えら
れて、検証訂正システム4は、結果と、アプリケーショ
ン設計者によって指定される一連の制御パラメータとに
よって決定される順序で、文脈分析または対話機能を呼
び出す。
【0033】図2は、図1の検証訂正システム4の詳細
なブロック図であり、本発明を実現するための構成要素
の典型的な構成を示す図である。このシステムには、他
の構成要素を通信的に結合するためのバス6、CPU
8、プログラム記憶域10および、割り振られたディス
ク記憶空間またはランダム・アクセス・メモリ(RA
M)などの作業スペース12が含まれる。ユーザ・イン
ターフェース14は、下で説明するように、ユーザが中
間結果を調べ、文字の適当な入力または決定を行えるよ
うにするために設けられる。ユーザ・インターフェース
14には、通常、表示装置と、キーボードまたはマウス
もしくはこの両者とが含まれる。
【0034】入出力16は、図1に示された検証訂正シ
ステム4に入力される情報と、画像から読み取られ、認
識されたテキストを含む、検証訂正システム4からの出
力される結果とを表す。
【0035】図3は、文書の同一のバッチに対して文脈
分析と操作員入力を交互に使用する、本発明の方法を示
す高水準流れ図である。リコグナイザ2による文字認識
の後に、文脈分析を行う検証訂正システム4によって、
フィールドを受け取り(ステップ18)、処理して(ス
テップ20)、解を期待するのに十分な良好さを有する
かどうかを判定する。これによって、操作員の介入なし
に、できる限り多くのフィールドを受け入れる(ステッ
プ22)。
【0036】いくつかの他のフィールドについて(ステ
ップ24)、この処理では、操作員入力(ステップ2
6)を使用して、ある比率の文字の文字レベルOCR結
果を認証(または入力)し、その結果、文脈分析で残り
のフィールドのいくつかが受け入れられるようにする
(ステップ20の繰り返し)。
【0037】本発明の好ましい実施例 ここで図4を参照して、本発明の方法の好ましい実施例
すなわち、図1の検証訂正システム4の機能性の好まし
い実施例を詳細に説明する。検証訂正システム4は、段
階のシーケンスとして説明される、繰り返しのシーケン
スを実行する。まず、各段階で行われる内容の要約を、
高水準擬似コードの形で示す。 段階A(ステップ40)(計算集中型) 各フォームについて フィールドを認識する 文脈を適用する いくつかのフィールドを「受け入れ」とマークする 段階B(ステップ42)(操作員支援) 受け入れられなかったフィールドの文字について 文字を検証するか手入力する 段階C(ステップ44)(計算集中型) 各フォームについて 受け入れられなかったフィールドに文脈を適用する いくつかのより多くのフィールドを「受け入れ」とマー
クする 段階D(ステップ46)(操作員支援) 受け入れられなかった各フィールドについて フィールドを表示する 表示された値を受け入れる 複数の表示された値のうちの1つを選択する 表示された値を入力する 段階E(ステップ48)(計算集中型) 各フォームについて 受け入れられなかったフィールドに文脈を適用する より多くのフィールドを「受け入れ」とマークする 段階F(ステップ50)(操作員支援) 受け入れられなかったフィールドを有する各フォームに
ついて フォーム全体を表示し、まだ受け入れられていないフィ
ールドを入力する 最終受け入れのためにそれらに対して文脈を適用する
【0038】段階D、EおよびFを、3つの別々の段階
として実行するか、単一の操作員支援段階として実行す
るかは、任意選択であることに留意されたい。というの
は、この時点での文脈分析が非常に高速だからである。
【0039】各段階で、その中間結果が作業スペースに
記憶される。ユーザは、この処理に影響するパラメータ
を指定することができる。これらのパラメータの大半
は、信頼性閾値である。
【0040】さまざまな段階の詳細な説明を、これから
行う。
【0041】段階A(図5) すべてのフィールドについて文字リコグナイザを呼び出
す。結果は作業スペースに保存される。認識された文字
のうち良好な信頼性を有する文字の比率を計算する。こ
の例の目的のため、信頼性は、適当な手段によって、0
ないし1000の範囲に対して正規化された任意の数値
スケールに従って測定される。下で説明する閾値は、特
定の応用例との適合性のため、この範囲内から選択され
る。この分野で通常の技術を有する者に既知または本明
細書の開示に基づいて暗示される他の信頼性尺度も、本
発明に従って使用することができる。
【0042】ステップ52を参照すると、認識された文
字の信頼性値(良好な文字の数または比率など)が、閾
値t1未満の場合、そのフィールドは「不良」とマーク
される(ステップ54)。値が閾値t1とそれより大き
い閾値t2(t1<t2)の間である場合、そのフィール
ドは「平均」とマークされる(ステップ56)。値が閾
値t2を超える場合、そのフィールドは「良好」とマー
クされる。
【0043】良好フィールドの場合、検証訂正システム
4の文脈アナライザを呼び出す(ステップ58)。ステ
ップ60で、文脈アナライザが閾値t3を超える信頼性
を有する仮説を返し、第2の仮説がはるかに低い信頼性
(第1の仮説の信頼性より少なくとも差t4だけ小さ
い)を有する場合、第1の仮説を受け入れ、そのフィー
ルドを「受け入れ」とマークする(ステップ62)。
【0044】n個の仮説が、閾値t5を超える信頼性を
有し、次によい信頼性を有する仮説からt6より大きい
差だけ離れている場合、n個の仮説が、可能性として保
存され、そのフィールドは、「不確実」とマークされ
る。そうでない場合、そのフィールドは「拒否」とマー
クされる。全般的にステップ64を参照されたい。
【0045】あるフィールドが、それに関連する文脈を
有しない場合、文脈アナライザは、単にOCR信頼性に
基づいてフィールド信頼性を計算する(最大値1000
よりわずかに少ない最大値、たとえば990を用い
て)。
【0046】段階B(図6) これは、操作員が支援する段階である。この処理では、
平均(ステップ68)または拒否(ステップ66)とマ
ークされたフィールドのすべてと、不確実フィールドの
うちのいくつかを検討し、よりよい判断を行うために文
字に関するより多くの情報を構築することを試みる。
【0047】不確実フィールドの場合(ステップ7
0)、確実に既知であるならば曖昧さの解決に役立つは
ずの、ごく少数の文字があるかどうかを判定する(ステ
ップ72)。たとえば、「San Jose CA, 95120」と「Sa
n Jose CA, 95123」の間の曖昧さを解決するためには、
最後の文字だけが必要である。このように識別された文
字を、「クリティカル」とマークする。
【0048】この処理では、次に、拒否フィールドと平
均フィールドのすべてについて、OCR結果を分析し、
少数のクリティカル文字についてもOCR結果を分析す
る(ステップ74)。これらの一部は、「高信頼」とマ
ークされる(ステップ76)。これは、それらのフィー
ルドまたは文字が正しく認識された確率が非常に高いこ
とを意味する。
【0049】文字が高信頼であるかどうかは、(i)分
割から来たものでないかどうか、(ii)非常に高い信
頼性を有し、次の選択候補が低い信頼性を有するかどう
か、および(iii)あるテンプレートまでの距離が短
いかどうか、などの判断基準に基づいて判定される。
【0050】この処理では、次に、好ましくは従来のカ
ーペット方式を使用して、認証のため高信頼文字を操作
員に提示する(ステップ78)。その結果、これらの文
字の大部分が「確実」とマークされる。認証されなかっ
た文字は、「要入力」とマークされる。
【0051】あるフィールドの文字のうちのt7%未満
が「高信頼」とマークされている場合、合計t7%を得
るために、そのフィールドに沿って分散する文字のいく
つかも、「要入力」とマークされる。
【0052】あるフィールドが不確実の場合、仮説を比
較して、少数の文字を確実に認証することによって曖昧
さが解決されるかどうかを調べる。解決される場合、こ
れらの文字を、それが上の判断基準を満たす場合には
「高信頼」、満たさない場合には「要入力」とマークす
る。
【0053】すべてのフィールドを分析し終えた時に、
すべての高信頼文字を、認証のためカーペットで表示す
る。その後、すべての要入力文字を横に並べて表示し、
手入力する(ステップ80)。値を推測できない時に
は、値は入力されない。いくつかのクリティカル文字が
認証または入力された場合、曖昧さが除去され、そのフ
ィールドは「受け入れ」に変換される。
【0054】この処理の後に、最初の文脈分析に失敗し
たすべてのフィールドと、「平均」(分析を受けるほど
に良好ではない)とマークされたフィールドは、ある個
数の確実文字を有する。
【0055】段階C(図7) この処理は計算集中型である。この段階では、拒否また
は平均のすべてのフィールドに対して文脈アナライザを
呼び出す。文脈アナライザは、確実文字がわかっている
ことから大いに助けられる。
【0056】1例として、辞書82のファジイ検索すな
わち、辞書に明らかに現れてはいない所望の単語に最も
近い項目の発見を検討する。近さは、パラメータのベク
トルに基づくユークリッド距離に関して測定できること
が既知である。かなりの比率の確実文字がわかっていれ
ば、明らかに探索文字と一致しない辞書項目の除去が可
能になり、これによって、距離計算が必要な辞書項目数
が大幅に削減される。そうすることによって、計算時間
が短縮され、誤り率も低下する。
【0057】よい文脈分析技法(ステップ84)は、お
おむね正しい位置の項目に少なくともX個の確実文字が
存在しない限り、項目を拒否する。構文判断基準(ステ
ップ86)と意味論判断基準(ステップ88)を使用し
て、この判断を支援することができる。
【0058】たとえば、あるフィールドに「SAN JOSE」
が含まれ、これが「JAM JSE」と認識され、「A」、
「S」および「E」が確実として認証された場合、このシ
ステムは、おおむね*A***SEの位置に、これら3文字の
うちの少なくとも(X=1の場合)2文字を含む辞書項
目を検討する。すなわち、SAN JOSE、SEATTLE、SANTA F
EおよびSAN FRANCISCOが検討され、OAKLANDやNEW YORK
は検討されない。
【0059】「確実」という単語の使用は、その直観的
な意味に従っているが、まだ誤りの余地があることに留
意されたい。確実文字の誤り率が0.5%の場合、この
技法に基づいて正しい項目を拒否する確率は、わずかに
0.000025である。
【0060】文脈分析の後に、結果は段階Aと同様に分
析され、以前に「平均」または「拒否」であったフィー
ルドの一部が、「受け入れ」(ステップ90)、「不確
実」(ステップ92)または「拒否」(ステップ94)
とマークされる。
【0061】段階D(図8) 「不良」(ステップ96)、「拒否」(ステップ98)
または「不確実」(ステップ100)であるすべてのフ
ィールドについて、複数の選択候補と共にフィールドの
画像を操作員に示す(ステップ102)。操作員は、明
らかに正しいものとして提供された選択候補の1つを受
け入れるか(ステップ104)、提供された選択候補の
別の1つを選択するか(ステップ106)、全く新しい
選択候補を入力するか(ステップ108)のいずれかを
行うことができる。どの場合でも、状況は「良好」にセ
ットされる。操作員は、回答が「不明瞭」であることを
伝えることもできる(ステップ110)。
【0062】段階E(図9) 状況「良好」を有するフィールドについて(ステップ1
12)、文脈アナライザを呼び出す(ステップ11
4)。普通は1つの選択候補だけが返されるはずであ
る。実際にそうなった場合には、状況を「受け入れ」に
セットする(ステップ116)。アナライザが複数の選
択候補を提供する場合、そのフィールドを「不明瞭」と
マークする(ステップ118)。
【0063】段階F(図10) 少なくとも1つの「不明瞭」フィールドを含むフォーム
のすべてについて(ステップ120)、そのフォームを
表示し(ステップ122)、「不明瞭」フィールドを示
す。データが入力される(ステップ124)。やはり文
脈アナライザを呼び出す(ステップ126)。回答がな
いか複数の選択候補がある場合、そのフィールドについ
て「誤り」状況を返す。そうでない場合には、状況を
「受け入れ」にセットする(ステップ128)。ここま
でで、通常は、すべてのフィールドが「受け入れ」の状
況を有することになり、誤りがあるとしてもごく少数の
特定の困難な誤りだけになる(ステップ130)。
【0064】一般的なタイプのフィールドの扱い 数値フィールド(文脈なし) これは、頻繁に発生すると思われる事例である。この事
例には、数字(すなわち、可能な記号が比較的少数の字
母系)が、ブロックや文字列など、不確定の個数と形態
で発生する状況が全般的に含まれる。
【0065】閾値t2を非常に高く(たとえば上限の1
000に)設定する場合、段階Aでは、良好フィールド
があるとしても少数だけが検出される。不良フィールド
が、手入力のために表示される。
【0066】平均フィールドは、検証または入力のため
にその文字を表示される。文脈アナライザが呼び出され
る(段階Cまたは段階E)が、文脈アナライザは、単純
に個々の文字に基づいてフィールド信頼性を計算する。
すべての文字が検証または入力された場合に限って、そ
のフィールドの信頼性が1000になり、受け入れられ
る。そうでない場合、そのフィールドは、不良フィール
ドと共に、手動の検証または入力のために表示される。
【0067】文脈のある数値フィールド これも頻繁に発生する事例である。この事例には、上に
示した郵便番号の例など、発生すると思われる桁数が既
知であるか、あるいは有効なフィールドと無効なフィー
ルド(すなわち、数字の有効な組合せと無効な組合せ)
が既知であるといった算術的な制約を有する状況が含ま
れる。
【0068】パラメータt1を、大きい数値または上限
に近い数値に設定する必要はない。算術検査(段階A)
が強力である場合、この段階で1000を返し、受け入
れを強制することができる。そうでない場合には、低い
値が返される。t3およびt4の値に応じて、そのフィー
ルドの受け入れの可否が決まる。受け入れられない場
合、処理が継続する(段階Bなど)。
【0069】英数字(辞書文脈あり) この場合、辞書制約を利用することができる。以下に例
を示す。 市、州、郵便番号 郵便番号、通りの名前 氏名、社会保険番号 大学名、大学の住所、大学の電話番号 製品コード、製品名 社名 など または 名前 名字 職業 など
【0070】例の最初のグループ(普通名詞、有名な地
名など)の場合、有効なタプルの集合を完全に包含する
テーブル(辞書)が存在する。第2のグループ(比較的
無名の固有名詞、特定分野の専門用語など)の場合、辞
書、ディレクトリまたは他のアクセス可能なテーブルが
カバーするのは、部分的なものにすぎない可能性が高
い。解決は、事例ごとに与えられる。
【0071】英数字(完全に包含する辞書) これに含まれる事例は、最も一般的であり、また、最も
重要な事例である。本発明の教示は、これらの事例を非
常に効率的にサポートする。閾値t3、t4、t5および
6の値は、辞書に応じて変化し、使用される特定の応
用分野に適した形にカスタマイズできる。
【0072】英数字(部分的に包含する辞書) この場合、認識される情報が、辞書に含まれない可能性
がある。さらに、認識される値に非常に近い値が、辞書
に存在する可能性がある。たとえば、固有名詞に関し
て、Mendezは辞書に含まれるがMendesは含まれない、Pi
nterは辞書に含まれるがPintnerは含まれないなどであ
る。
【0073】この状況を扱うためには、t3を上限値1
000にセットする。その結果、フィールドは、文脈ア
ナライザによって受け入れられることが絶対になくな
る。すべての文字の検証または入力が必要になる。
【0074】結論 前述の仕様を使用すれば、標準的なプログラミング技法
またはエンジニアリング技法を使用し、コンピュータ・
プログラミング・ソフトウェア、ファームウェア、ハー
ドウェアまたはこれらの任意の組合せを使用して本発明
を実施できる。そのような結果の、コンピュータ可読プ
ログラム・コード手段を有するプログラムは、固定(ハ
ード)ディスク駆動装置、ディスク、ディスケット、光
ディスク、磁気テープ、読取専用メモリ(ROM)など
の半導体メモリなどの1つまたは複数のコンピュータ可
読媒体またはコンピュータ使用可能媒体内か、インター
ネットや他の通信ネットワークまたは通信リンクなどの
送受信媒体で実施または供給でき、これによって、本発
明によるコンピュータ・プログラム製品すなわち製造物
を作ることができる。このコンピュータ・プログラム・
コードを含む製造物は、ある媒体からコードを直接実行
すること、ある媒体から別の媒体にコードをコピーする
ことまたは、ネットワークを介してコードを伝送するこ
とによって、製造または使用することができる。
【0075】本発明を製造、使用または販売するための
装置は、請求の範囲に記載された発明を実施する、中央
処理装置(CPU)、メモリ、記憶装置、通信リンク、
通信装置、サーバ、入出力装置を含む(ただしこれらに
制限されない)1以上の処理システム、または、ソフト
ウェア、ファームウェア、ハードウェアもしくはその任
意の組合せを含む、1以上の処理システムの任意のサブ
コンポーネントもしくは個別部品とすることができる。
【0076】ユーザ入力は、キーボード、マウス、ペ
ン、音声、タッチ・スクリーンその他の、アプリケーシ
ョン・プログラムなどの他のプログラムを介することを
含めて、人間がデータをコンピュータに入力できる手段
から受け取ることができる。
【0077】計算機科学の当業者であれば、上の説明に
従って作成されたソフトウェアと適当な汎用コンピュー
タまたは専用コンピュータを組み合わせて、本発明を実
施するコンピュータ・システムまたはコンピュータ・サ
ブコンポーネントを作成し、本発明の方法を実行するた
めのコンピュータ・システムまたはコンピュータ・サブ
コンポーネントを作成することが簡単にできるであろ
う。
【0078】本発明の好ましい実施例を詳細に説明した
が、当業者が、請求の範囲に記載された本発明の範囲か
ら逸脱することなく、これらの実施例に対する修正およ
び適合を考案できることは明白である。
【0079】まとめとして、本発明の構成に関して以下
の事項を開示する。
【0080】(1)自動文脈分析を実行するステップ
と、さらに処理を必要とする文字を識別するため、前記
自動文脈分析の結果を評価するステップと、前記評価す
るステップで識別された文字を、ユーザによる支援のも
とに検証し訂正するステップと、所定の信頼性レベルに
達するまで、前記自動文脈分析を実行するステップ、前
記評価するステップ、および前記検証し訂正するステッ
プを繰り返すステップとを含む、光学文字認識処理の結
果を訂正し、検証するための方法。 (2)前記自動文脈分析を実行するステップが、文字が
正しく認識されたことの信頼性の第1の所定の閾値を満
足する文字を識別するステップを含むことを特徴とす
る、上記(1)に記載の方法。 (3)前記自動文脈分析を実行するステップまたは前記
検証し訂正するステップが、さらに、信頼性の第1の所
定の閾値を満足する文字に対する辞書索引を実行するス
テップを含むことを特徴とする、上記(2)に記載の方
法。 (4)前記自動文脈分析を実行するステップまたは前記
検証し訂正するステップが、さらに、信頼性の第1の所
定の閾値を満足する文字に基づくファジイ探索を実行す
るステップを含むことを特徴とする、上記(2)に記載
の方法。 (5)前記自動文脈分析を実行するステップまたは前記
検証し訂正するステップが、さらに、結果が信頼性の第
1の所定の閾値を満足するように、信頼性の第2の所定
の閾値を満足する文字を、ユーザによる支援のもとに検
証し訂正するステップを含むことを特徴とする、上記
(2)に記載の方法。 (6)前記自動文脈分析の結果を評価するステップが、
フォーム内の別個のフィールドを識別するステップと、
前記フィールドのうち信頼性閾値を満足するものを受け
入れとマークするステップとを含むことを特徴とする、
上記(1)に記載の方法。 (7)前記検証し訂正するステップが、結果が不確実で
あるフィールドを識別するステップと、識別した不確実
なフィールドにおいて曖昧さを解決する文字の部分集合
を識別するステップとを含むことを特徴とする、上記
(1)に記載の方法。 (8)前記文字の部分集合を識別するステップが、共通
の文字を有する2つの可能な有効値を識別するステップ
と、前記有効値を共通に有しない文字を前記部分集合と
して識別するステップとを含むことを特徴とする、上記
(7)に記載の方法。 (9)前記検証し訂正するステップが、フィールド内の
文字の可能な選択候補をユーザに提示するステップと、
ユーザに、(i)システムによって最適選択候補として
選択された選択候補を是認すること、(ii)システム
によって最適として選択されたもの以外の1つの選択候
補を選択すること、および(iii)前記可能な選択候
補と異なる選択候補を入力すること、からの選択を可能
にするステップとを含むことを特徴とする、上記(1)
に記載の方法。 (10)自動文脈分析を実行する手段と、さらに処理を
必要とする文字を識別するため、前記自動文脈分析の結
果を評価する手段と、前記評価する手段で識別された文
字を、ユーザによる支援のもとに検証し訂正する手段
と、所定の信頼性レベルに達するまで、前記自動文脈分
析を実行する手段、前記評価する手段、および前記検証
し訂正する手段の動作を繰り返す手段とを含む、光学文
字認識処理の結果を訂正し、検証するためのシステム。 (11)前記自動文脈分析を実行する手段が、文字が正
しく認識されたことの信頼性の第1の所定の閾値を満足
する文字を識別する手段を含むことを特徴とする、上記
(10)に記載のシステム。 (12)前記自動文脈分析を実行する手段または前記検
証し訂正する手段が、さらに、信頼性の第1の所定の閾
値を満足する文字に対する辞書索引を実行する手段を含
むことを特徴とする、上記(11)に記載のシステム。 (13)前記自動文脈分析を実行する手段または前記検
証し訂正する手段が、さらに、信頼性の第1の所定の閾
値を満足する文字に基づくファジイ探索を実行する手段
を含むことを特徴とする、上記(11)に記載のシステ
ム。 (14)前記自動文脈分析を実行する手段または前記検
証し訂正する手段が、さらに、結果が信頼性の第1の所
定の閾値を満足するように、信頼性の第2の所定の閾値
を満足する文字の、ユーザによって支援される検証およ
び訂正を実行する手段を含むことを特徴とする、上記
(11)に記載のシステム。 (15)前記自動文脈分析の結果を評価する手段が、フ
ォーム内の別個のフィールドを識別する手段と、前記フ
ィールドのうち信頼性閾値を満足するものを受け入れと
マークする手段とを含むことを特徴とする、上記(1
0)に記載のシステム。 (16)前記検証し訂正する手段が、結果が不確実であ
るフィールドを識別する手段と、識別した不確実なフィ
ールドにおいて曖昧さを解決する文字の部分集合を識別
する手段とを含むことを特徴とする、上記(10)に記
載のシステム。 (17)前記文字の部分集合を識別する手段が、共通の
文字を有するフィールドの2つの可能な有効値を識別す
る手段と、前記有効値を共通に有しない文字を前記部分
集合として識別する手段とを含むことを特徴とする、上
記(16)に記載のシステム。 (18)前記検証し訂正する手段が、フィールド内の文
字の可能な選択候補をユーザに提示する手段と、ユーザ
に、(i)システムによって最適選択候補として選択さ
れた選択候補を是認すること、(ii)システムによっ
て最適として選択されたもの以外の1つの選択候補を選
択すること、および(iii)前記可能な選択候補と異
なる選択候補を入力すること、からの選択を可能にする
手段とを含むことを特徴とする、上記(10)に記載の
システム。 (19)上記(1)ないし(9)のいずれかに記載の方
法を実行するためのプログラムを記憶したコンピュータ
可読媒体。
【図面の簡単な説明】
【図1】ある動作環境での本発明によるシステムを示す
高水準ブロック図である。
【図2】本発明によるシステムのより詳細なブロック図
である。
【図3】図1および図2のシステムによって実施され
る、本発明による方法の高水準流れ図である。
【図4】本明細書に記載の、段階のシーケンスに関する
本発明の方法の好ましい実施例の動作を示す、より詳細
な流れ図である。
【図5】図4の段階Aの詳細を示す、さらに詳細な流れ
図である。
【図6】図4の段階Bの詳細を示す、さらに詳細な流れ
図である。
【図7】図4の段階Cの詳細を示す、さらに詳細な流れ
図である。
【図8】図4の段階Dの詳細を示す、さらに詳細な流れ
図である。
【図9】図4の段階Eの詳細を示す、さらに詳細な流れ
図である。
【図10】図4の段階Fの詳細を示す、さらに詳細な流
れ図である。
【符号の説明】 2 リコグナイザ 4 検証訂正システム 6 バス 8 CPU 10 プログラム記憶域 12 作業スペース 14 ユーザ・インターフェース 16 入出力 82 辞書

Claims (19)

    【特許請求の範囲】
  1. 【請求項1】自動文脈分析を実行するステップと、 さらに処理を必要とする文字を識別するため、前記自動
    文脈分析の結果を評価するステップと、 前記評価するステップで識別された文字を、ユーザによ
    る支援のもとに検証し訂正するステップと、 所定の信頼性レベルに達するまで、前記自動文脈分析を
    実行するステップ、前記評価するステップ、および前記
    検証し訂正するステップを繰り返すステップとを含む、
    光学文字認識処理の結果を訂正し、検証するための方
    法。
  2. 【請求項2】前記自動文脈分析を実行するステップが、
    文字が正しく認識されたことの信頼性の第1の所定の閾
    値を満足する文字を識別するステップを含むことを特徴
    とする、請求項1に記載の方法。
  3. 【請求項3】前記自動文脈分析を実行するステップまた
    は前記検証し訂正するステップが、さらに、信頼性の第
    1の所定の閾値を満足する文字に対する辞書索引を実行
    するステップを含むことを特徴とする、請求項2に記載
    の方法。
  4. 【請求項4】前記自動文脈分析を実行するステップまた
    は前記検証し訂正するステップが、さらに、信頼性の第
    1の所定の閾値を満足する文字に基づくファジイ探索を
    実行するステップを含むことを特徴とする、請求項2に
    記載の方法。
  5. 【請求項5】前記自動文脈分析を実行するステップまた
    は前記検証し訂正するステップが、さらに、結果が信頼
    性の第1の所定の閾値を満足するように、信頼性の第2
    の所定の閾値を満足する文字を、ユーザによる支援のも
    とに検証し訂正するステップを含むことを特徴とする、
    請求項2に記載の方法。
  6. 【請求項6】前記自動文脈分析の結果を評価するステッ
    プが、 フォーム内の別個のフィールドを識別するステップと、 前記フィールドのうち信頼性閾値を満足するものを受け
    入れとマークするステップとを含むことを特徴とする、
    請求項1に記載の方法。
  7. 【請求項7】前記検証し訂正するステップが、 結果が不確実であるフィールドを識別するステップと、 識別した不確実なフィールドにおいて曖昧さを解決する
    文字の部分集合を識別するステップとを含むことを特徴
    とする、請求項1に記載の方法。
  8. 【請求項8】前記文字の部分集合を識別するステップ
    が、 共通の文字を有する2つの可能な有効値を識別するステ
    ップと、 前記有効値を共通に有しない文字を前記部分集合として
    識別するステップとを含むことを特徴とする、請求項7
    に記載の方法。
  9. 【請求項9】前記検証し訂正するステップが、 フィールド内の文字の可能な選択候補をユーザに提示す
    るステップと、 ユーザに、 (i)システムによって最適選択候補として選択された
    選択候補を是認すること、 (ii)システムによって最適として選択されたもの以
    外の1つの選択候補を選択すること、および (iii)前記可能な選択候補と異なる選択候補を入力
    すること、 からの選択を可能にするステップとを含むことを特徴と
    する、請求項1に記載の方法。
  10. 【請求項10】自動文脈分析を実行する手段と、 さらに処理を必要とする文字を識別するため、前記自動
    文脈分析の結果を評価する手段と、 前記評価する手段で識別された文字を、ユーザによる支
    援のもとに検証し訂正する手段と、 所定の信頼性レベルに達するまで、前記自動文脈分析を
    実行する手段、前記評価する手段、および前記検証し訂
    正する手段の動作を繰り返す手段とを含む、光学文字認
    識処理の結果を訂正し、検証するためのシステム。
  11. 【請求項11】前記自動文脈分析を実行する手段が、文
    字が正しく認識されたことの信頼性の第1の所定の閾値
    を満足する文字を識別する手段を含むことを特徴とす
    る、請求項10に記載のシステム。
  12. 【請求項12】前記自動文脈分析を実行する手段または
    前記検証し訂正する手段が、さらに、信頼性の第1の所
    定の閾値を満足する文字に対する辞書索引を実行する手
    段を含むことを特徴とする、請求項11に記載のシステ
    ム。
  13. 【請求項13】前記自動文脈分析を実行する手段または
    前記検証し訂正する手段が、さらに、信頼性の第1の所
    定の閾値を満足する文字に基づくファジイ探索を実行す
    る手段を含むことを特徴とする、請求項11に記載のシ
    ステム。
  14. 【請求項14】前記自動文脈分析を実行する手段または
    前記検証し訂正する手段が、さらに、結果が信頼性の第
    1の所定の閾値を満足するように、信頼性の第2の所定
    の閾値を満足する文字の、ユーザによって支援される検
    証および訂正を実行する手段を含むことを特徴とする、
    請求項11に記載のシステム。
  15. 【請求項15】前記自動文脈分析の結果を評価する手段
    が、 フォーム内の別個のフィールドを識別する手段と、 前記フィールドのうち信頼性閾値を満足するものを受け
    入れとマークする手段とを含むことを特徴とする、請求
    項10に記載のシステム。
  16. 【請求項16】前記検証し訂正する手段が、 結果が不確実であるフィールドを識別する手段と、 識別した不確実なフィールドにおいて曖昧さを解決する
    文字の部分集合を識別する手段とを含むことを特徴とす
    る、請求項10に記載のシステム。
  17. 【請求項17】前記文字の部分集合を識別する手段が、 共通の文字を有するフィールドの2つの可能な有効値を
    識別する手段と、 前記有効値を共通に有しない文字を前記部分集合として
    識別する手段とを含むことを特徴とする、請求項16に
    記載のシステム。
  18. 【請求項18】前記検証し訂正する手段が、 フィールド内の文字の可能な選択候補をユーザに提示す
    る手段と、 ユーザに、 (i)システムによって最適選択候補として選択された
    選択候補を是認すること、 (ii)システムによって最適として選択されたもの以
    外の1つの選択候補を選択すること、および (iii)前記可能な選択候補と異なる選択候補を入力
    すること、 からの選択を可能にする手段とを含むことを特徴とす
    る、請求項10に記載のシステム。
  19. 【請求項19】請求項1ないし9のいずれかに記載の方
    法を実行するためのプログラムを記憶したコンピュータ
    可読媒体。
JP9220279A 1996-08-23 1997-08-15 光学文字認識のための検証および訂正の方法およびシステム Pending JPH10105655A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/697,380 US5933531A (en) 1996-08-23 1996-08-23 Verification and correction method and system for optical character recognition
US08/697380 1996-08-23

Publications (1)

Publication Number Publication Date
JPH10105655A true JPH10105655A (ja) 1998-04-24

Family

ID=24800926

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9220279A Pending JPH10105655A (ja) 1996-08-23 1997-08-15 光学文字認識のための検証および訂正の方法およびシステム

Country Status (2)

Country Link
US (1) US5933531A (ja)
JP (1) JPH10105655A (ja)

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6683697B1 (en) * 1991-03-20 2004-01-27 Millenium L.P. Information processing methodology
US5258855A (en) * 1991-03-20 1993-11-02 System X, L. P. Information processing methodology
US6498921B1 (en) 1999-09-01 2002-12-24 Chi Fai Ho Method and system to answer a natural-language question
US5836771A (en) 1996-12-02 1998-11-17 Ho; Chi Fai Learning method and system based on questioning
US6154754A (en) * 1997-09-25 2000-11-28 Siemens Corporate Research, Inc. Automatic synthesis of semantic information from multimedia documents
JP4071328B2 (ja) * 1997-11-18 2008-04-02 富士通株式会社 文書画像処理装置および方法
US6782510B1 (en) * 1998-01-27 2004-08-24 John N. Gross Word checking tool for controlling the language content in documents using dictionaries with modifyable status fields
US6269188B1 (en) * 1998-03-12 2001-07-31 Canon Kabushiki Kaisha Word grouping accuracy value generation
US6243501B1 (en) 1998-05-20 2001-06-05 Canon Kabushiki Kaisha Adaptive recognition of documents using layout attributes
US7721948B1 (en) * 1999-05-25 2010-05-25 Silverbrook Research Pty Ltd Method and system for online payments
US6778683B1 (en) * 1999-12-08 2004-08-17 Federal Express Corporation Method and apparatus for reading and decoding information
US6571240B1 (en) 2000-02-02 2003-05-27 Chi Fai Ho Information processing for searching categorizing information in a document based on a categorization hierarchy and extracted phrases
US6810414B1 (en) 2000-02-04 2004-10-26 Dennis A. Brittain System and methods for easy-to-use periodic network data capture engine with automatic target data location, extraction and storage
US7917844B1 (en) * 2000-07-14 2011-03-29 International Business Machines Corporation Directory service for form processing
GB0031596D0 (en) * 2000-12-22 2001-02-07 Barbara Justin S A system and method for improving accuracy of signal interpretation
US7111255B2 (en) * 2001-06-25 2006-09-19 International Business Machines Corporation Time-based evaluation of data verification results
US6873715B2 (en) * 2002-01-31 2005-03-29 You-Ti Kuo System of central signature verifications and electronic receipt transmissions
US20030189603A1 (en) * 2002-04-09 2003-10-09 Microsoft Corporation Assignment and use of confidence levels for recognized text
US7380203B2 (en) * 2002-05-14 2008-05-27 Microsoft Corporation Natural input recognition tool
US7079713B2 (en) * 2002-06-28 2006-07-18 Microsoft Corporation Method and system for displaying and linking ink objects with recognized text and objects
US6970877B2 (en) * 2002-06-28 2005-11-29 Microsoft Corporation Reducing and controlling sizes of prototype-based recognizers
US6988107B2 (en) * 2002-06-28 2006-01-17 Microsoft Corporation Reducing and controlling sizes of model-based recognizers
US7092567B2 (en) * 2002-11-04 2006-08-15 Matsushita Electric Industrial Co., Ltd. Post-processing system and method for correcting machine recognized text
US20060045344A1 (en) * 2004-09-02 2006-03-02 Adi, Llc Handprint recognition test deck
US20060083431A1 (en) * 2004-10-20 2006-04-20 Bliss Harry M Electronic device and method for visual text interpretation
JP2006276911A (ja) * 2005-03-25 2006-10-12 Fuji Xerox Co Ltd 電子機器およびプログラム
KR100748628B1 (ko) * 2005-06-07 2007-08-10 (주) 인텍플러스 반도체 패키지의 마킹 검사 방법 및 그 검사 장치
US8471812B2 (en) * 2005-09-23 2013-06-25 Jesse C. Bunch Pointing and identification device
US20070217692A1 (en) * 2006-03-17 2007-09-20 Data Trace Information Services, Llc Property record document data verification systems and methods
US9020811B2 (en) * 2006-10-13 2015-04-28 Syscom, Inc. Method and system for converting text files searchable text and for processing the searchable text
US8055104B2 (en) 2007-03-02 2011-11-08 Adi, Llc Process performance evaluation for Enterprise data systems
US20080235263A1 (en) * 2007-03-02 2008-09-25 Adi, Llc Automating Creation of Digital Test Materials
JP5356654B2 (ja) 2007-03-15 2013-12-04 日本電気株式会社 郵便物自動区分システム
US8782516B1 (en) 2007-12-21 2014-07-15 Amazon Technologies, Inc. Content style detection
US8103132B2 (en) * 2008-03-31 2012-01-24 International Business Machines Corporation Fast key-in for machine-printed OCR-based systems
US9229911B1 (en) * 2008-09-30 2016-01-05 Amazon Technologies, Inc. Detecting continuation of flow of a page
US8625853B2 (en) 2011-08-11 2014-01-07 International Business Machines Corporation Parking lot information system using image technology for identifying available parking spaces
JP6335012B2 (ja) * 2014-04-30 2018-05-30 グローリー株式会社 文字有無判定システム及び文字有無判定方法
US9940511B2 (en) * 2014-05-30 2018-04-10 Kofax, Inc. Machine print, hand print, and signature discrimination
RU2634194C1 (ru) * 2016-09-16 2017-10-24 Общество с ограниченной ответственностью "Аби Девелопмент" Верификация результатов оптического распознавания символов
US10192127B1 (en) 2017-07-24 2019-01-29 Bank Of America Corporation System for dynamic optical character recognition tuning
US10346702B2 (en) 2017-07-24 2019-07-09 Bank Of America Corporation Image data capture and conversion
US11429890B2 (en) * 2017-10-30 2022-08-30 Bank Of America Corporation Dynamic pattern recognition and data reconciliation
GB2571530B (en) * 2018-02-28 2020-09-23 Canon Europa Nv An image processing method and an image processing system
US10528807B2 (en) * 2018-05-01 2020-01-07 Scribe Fusion, LLC System and method for processing and identifying content in form documents
US10922537B2 (en) * 2018-05-01 2021-02-16 Scribe Fusion, LLC System and method for processing and identifying content in form documents
JP7247496B2 (ja) * 2018-09-14 2023-03-29 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
CN111144391B (zh) * 2019-12-23 2023-05-09 北京爱医生智慧医疗科技有限公司 一种ocr识别结果纠错方法及装置
JP2022097138A (ja) * 2020-12-18 2022-06-30 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3969698A (en) * 1974-10-08 1976-07-13 International Business Machines Corporation Cluster storage apparatus for post processing error correction of a character recognition machine
US4674065A (en) * 1982-04-30 1987-06-16 International Business Machines Corporation System for detecting and correcting contextual errors in a text processing system
ES2030819T3 (es) * 1987-10-16 1992-11-16 Computer Gesellschaft Konstanz Mbh Procedimiento para el reconocimiento automatico de caracteres.
US5151948A (en) * 1990-03-12 1992-09-29 International Business Machines Corporation System and method for processing documents having amounts recorded thereon
US5040227A (en) * 1990-03-12 1991-08-13 International Business Machines Corporation Image balancing system and method
US5267327A (en) * 1990-03-30 1993-11-30 Sony Corporation Apparatus and method for registering the handwriting of a user so it can be translated into block characters
US5739850A (en) * 1993-11-30 1998-04-14 Canon Kabushiki Kaisha Apparatus for improving the image and sound processing capabilities of a camera

Also Published As

Publication number Publication date
US5933531A (en) 1999-08-03

Similar Documents

Publication Publication Date Title
JPH10105655A (ja) 光学文字認識のための検証および訂正の方法およびシステム
US8630856B2 (en) Relative delta computations for determining the meaning of language inputs
US20090132477A1 (en) Methods of object search and recognition.
US20110317882A1 (en) Biometric matching method and apparatus
CN111797217A (zh) 基于faq匹配模型的信息查询方法、及其相关设备
US20110229036A1 (en) Method and apparatus for text and error profiling of historical documents
US6662168B1 (en) Coding system for high data volume
US20070172130A1 (en) Structural description of a document, a method of describing the structure of graphical objects and methods of object recognition.
JP2000089786A (ja) 音声認識結果の修正方法および装置
US9443139B1 (en) Methods and apparatus for identifying labels and/or information associated with a label and/or using identified information
US9224040B2 (en) Method for object recognition and describing structure of graphical objects
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
US20120201420A1 (en) Object Recognition and Describing Structure of Graphical Objects
JP3514481B2 (ja) 音声認識装置
JPH0256086A (ja) 文字認識の後処理方法
JP3071745B2 (ja) 文字認識結果の後処理方法
JP2875678B2 (ja) 文字認識結果の後処理方法
JP2908132B2 (ja) 文字認識結果の後処理方法
JP4584507B2 (ja) 住所認識装置、記録媒体及びプログラム
JP2845463B2 (ja) パターン認識装置
JP3476872B2 (ja) 文字認識装置
CN117610583A (zh) 一种身份信息的确定方法和装置
JP4143148B2 (ja) 文字認識装置
JP3659688B2 (ja) 文字認識装置
JPH0239290A (ja) 単語照合方式