JPH10105655A

JPH10105655A - 光学文字認識のための検証および訂正の方法およびシステム

Info

Publication number: JPH10105655A
Application number: JP9220279A
Authority: JP
Inventors: Amand Rowley Raymond; レイモンド・アマンド・ロリー
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1996-08-23
Filing date: 1997-08-15
Publication date: 1998-04-24
Also published as: US5933531A

Abstract

(57)【要約】【課題】本発明の目的は、速度と精度の改善を助ける
ため、文脈情報を利用する前のＯＣＲ結果を改善するこ
とである。【解決手段】文書の同一のバッチに対して、文脈分析
と操作員入力を交互に組み合わせて使用する、光学文字
認識の方法およびシステムを提供する。自動文字認識の
後に、文脈アナライザによって、解を期待するのに十分
な良好さを有するフィールドを処理する。これによっ
て、操作員の介入なしにできる限り多くのフィールドを
受け入れる。いくつかの他のフィールドについて、この
処理では、操作員入力を使用して、ある比率の文字の文
字レベルのＯＣＲ結果を承認または入力し、その結果、
文脈分析で残りのフィールドのうちのいくつかが受け入
れられるようにする。文脈アナライザが、非常に近い仮
説の小さい集合の識別に成功した場合、この処理では、
操作員に１つまたは２つの文字を認証するよう求めて、
仮説の間の曖昧さを解決する。まだ解決されないフィー
ルドについては、フィールドと仮説を操作員に示して、
受け入れ、訂正または入力を求める。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、全般的には光学文
字認識（ＯＣＲ）の分野に関する。具体的にいうと、本
発明は、必要に応じて自動ＯＣＲ機能と人間の介入を効
率的に組み合わせる技法に関する。本発明は、印刷と手
書きの混在したフォーム用紙に現れるデータを入力する
システムへの具体的な利用性を有する。

【０００２】

【従来の技術】近い将来の問題は、走査された画像に含
まれるテキスト情報の認識である。走査画像は、フォー
ムに印刷された質問に対する手書きの回答や、封筒の宛
先住所など、広範囲の素材から得られる。

【０００３】フォームとは、それぞれがある単純な構文
特性または意味特性を有する一定数の小さいフィールド
に簡単に分割できる文書である。データは、機械印刷ま
たは手書きとすることができる。通常、機械印刷フォー
ムは、さまざまなフィールドの印刷された説明文または
指示を有し、フォームに書き込む人物は、諸フィールド
に手書きで情報を挿入する。したがって、機械印刷され
た説明文および指示と手書きの両方が、フォームの画像
に存在する。ＯＣＲは、手書きの情報を得るために実行
される。

【０００４】ＯＣＲシステムでは、画像の小さい部分
（電話番号や郵便番号の数字のグループなど）を連結さ
れた構成要素として分離し、連結された構成要素を１つ
または複数の文字画像にセグメント化し、そのような画
像のそれぞれを特定の文字を表すものとして認識するた
めに、さまざまな戦略が使用される。

【０００５】適度な精度で文字を認識するＯＣＲ認識エ
ンジンが、従来から存在する。しかし、「適度な精度」
は、通常は十分良好とは言えない。金額の１桁の誤りな
どの些細な誤りが、ユーザに重大な影響を及ぼす可能性
がある。

【０００６】この作業を実行するのに必要なＯＣＲ技術
は、最近１０年間にかなりの進歩を遂げたが、ＯＣＲの
生結果は、現在も、おそらくは永遠に、比較的信頼性が
低い状態である。文字レベルでの９８％の認識率では、
多数のフィールドに誤りが残される。９０％の認識率で
は、フォーム内の単語の半数以上に誤りが含まれる。し
かし、９０％という値は、フォームが手書きの時や文字
が「ボックス」におさまっていない時には達成不能であ
る（後者の状況は、セグメント化の誤りをもたらすこと
がしばしばである）。

【０００７】実際上すべての場合に、ＯＣＲの後に何ら
かの形態の誤り訂正を行う必要がある。したがって、実
用的なシステムには、文脈の利用を介する自動的なもの
か、情報の検証と訂正のための操作員の介入をサポート
することによるかのいずれかの、結果を改善するための
何らかの種類の余分な処理が含まれなければならない。

【０００８】ＯＣＲシステムは、連結された構成要素の
セグメント化の複数の代替案を識別し、セグメント化代
替案の中の各文字の複数の文字選択候補を識別するよう
に設計することができる。その結果は、通常は、ＯＣＲ
システムの出力から、テキスト・プロセッサやプリンタ
・ドライバなどのアプリケーション・プログラムに供給
される。

【０００９】ＯＣＲと共に文脈情報を使用すると、実現
される精度の水準を向上するのに役立つことは周知であ
る。たとえば、連結された構成要素が、郵便番号（数字
文字の並びだけからなる）を構成するものとして識別さ
れたと仮定する。その場合、連結された構成要素に含ま
れる文字に対する、数字文字でない文字選択候補のすべ
てを、不正な選択候補として拒絶できることになる。郵
便番号は、既知の桁数を有するので、異なる桁数を意味
する文字選択候補も拒絶できる。最後に、数字文字の可
能な順列の部分集合だけが有効で使用されている実際の
郵便番号になるので、無効な郵便番号を意味する文字選
択候補を拒絶できる。

【００１０】従来のシステムでは、ＯＣＲサブシステム
は、認識した文字選択候補があればそのすべてを単純に
アプリケーション・プログラムに提供し、文脈の利用
は、アプリケーション・プログラムによって実行され
る。アプリケーション・プログラムは、誤り訂正を自動
的に実行するか、操作員介入のためのユーザ・インター
フェースを提供するかのいずれかである。

【００１１】しかし、このような手法には短所がある。
すなわち、速度と精度が理想的な値と比べて満足ではな
い。したがって、ＯＣＲシステム設計者が直面している
課題は、従来のシステムの速度と精度を超えて自動認識
システムの速度と精度を改善するために、文字の検証お
よび訂正と文脈検査を統合する方法である。

【００１２】このようなＯＣＲ後の誤り訂正の技術は、
直線的なシーケンスの動作を実行する方法に限定されて
きた。たとえば、文字認識プログラムや文字認識装置な
どのリコグナイザの呼出しと、その後の、検証される制
約に関する検査という自動ステップが実行される。ある
フィールドが制約を満足しない場合、そのフィールドが
操作員に示され、操作員はそのフィールドを訂正する。

【００１３】もう１つのシーケンスは、文字を認識し、
その後に、操作員の介入に頼って、認識時の信頼性が特
定の閾値未満の個々の文字を認証または再入力すること
であろう。このようなシステムは、文字レベルでのみ機
能する。フィールド検証は後程行われる。

【００１４】この技法の変形に、カーペットという概念
を使用して、すべての文字を認証することが含まれる。
文書は、バッチで認識され、認識は、数百文字ないし数
千文字に対して行われる。その後、「１」と認識された
すべての文字を、画面上に一緒に表示し、「カーペッ
ト」を形成することができる。操作員は、誤認識された
文字を簡単に認識し（これをクリックし）、訂正する。
同様のことを、「２」、「３」などについて行う。この
方法は、非常に高い比率の文字が正しく認識される場合
（９７％ないし９８％の範囲）に限って効果的である。
この要件のため、この方法は、単独で使用される時に、
手書き文字に対してほとんど助けにならない。もちろ
ん、制約の検査は、必ずこの後に行うことができる。

【００１５】もう１つの技法が、第０８／３２５８４９
号明細書に記載されている。このシステムでは、構文規
則と意味論規則の両方が使用される。

【００１６】

【発明が解決しようとする課題】しかし、これらの従来
技術の方法は、所定の順序での動作の実行に制限される
ことが共通している。

【００１７】認識の後に、疑わしい文字が文字レベルの
検証または再入力のために操作員に提示される場合、こ
のシステムは、個々の文字を正しく識別することの重要
性を強調しすぎており、使用可能な文脈情報を効率的に
活用できていない。

【００１８】その一方で、システムが即座に文脈の利用
に突入する場合、過度に貧弱な結果に基づいて文脈が利
用される可能性があり、その結果、文脈訂正処理が、誤
りによって誤った方向に導かれ、不正な文脈情報が適用
される可能性がある。その結果、不適切な文脈情報が原
因で、正しい文字が誤った値に「訂正」される可能性が
ある。

【００１９】これらの要因のために、従来の文脈アナラ
イザは、性能が低く、低速である。これは、辞書のファ
ジイ探索について特にあてはまる。絶対確実な文字がな
いので、インデクシングを使用して辞書の項目の部分集
合を直接アドレッシングすることは困難である。

【００２０】したがって、本発明の目的は、速度と精度
の改善を助けるため、文脈情報を利用する前にＯＣＲ結
果を改善することである。

【００２１】本発明のもう１つの目的は、認識結果が比
較的高い確率を有することが既知である文字を利用する
ことである。

【００２２】

【課題を解決するための手段】上記その他の目的を達成
するため、本発明によって、従来から使用されてきた、
文脈による検証および訂正と操作員による検証および訂
正の間の、はるかに密な統合を使用する技法を提供す
る。

【００２３】本発明による方法では、新規な形で検証と
文脈分析を統合することによって、上で説明した短所が
除去される。

【００２４】本発明の方法では、文書の同一のバッチに
対して、文脈分析と操作員入力を交互に使用する。文字
認識の後に、文脈アナライザによって、解を期待するの
に十分な良好さを有するフィールドを処理する。これに
よって、操作員の介入なしに、できる限り多くのフィー
ルドを受け入れる。

【００２５】いくつかの他のフィールドについては、こ
の処理では、操作員入力を使用して、ある比率の文字の
文字レベルＯＣＲ結果を認証（または文字を入力）し、
その結果、文脈分析で残りのフィールドのうちのいくつ
かが受け入れられるようにする。

【００２６】文脈アナライザが、非常に近い仮説の小さ
い集合の識別に成功した場合、この処理では、操作員に
１つまたは２つの文字を認証するよう求めて、曖昧さを
解決する。まだ解決されないフィールドについては、フ
ィールド（と仮説）を表示し、受け入れ、訂正または入
力を求めることができる。

【００２７】この処理は、フィールドのタイプに従って
異なるものとすることができる。したがって、この処理
は、いくつかのユーザ指定のフィールド依存パラメータ
によって制御される。

【００２８】本発明による方法では、カーペットとバッ
チ処理の組合せが使用される。これは、いくつかの数の
フォームが一緒に処理されることを意味する。バッチで
は、計算集中型の段階と操作員が支援する段階が交互に
現れる、一連の段階を経る。各段階で、作業スペース内
に情報が記憶され、更新される。処理の終りに、作業ス
ペースには、指定された信頼性レベルで認識された値が
含まれる。

【００２９】本発明は、主に方法として開示されるが、
当業者であれば、ＣＰＵ、メモリ、入出力、プログラム
記憶域、接続バスおよび他の適当な構成要素を含む通常
のデータ・プロセッサなどの装置をプログラムまたは設
計して、本発明の方法の実施を容易にすることができる
ことと理解するであろう。このようなプロセッサには、
本発明の方法を実行するための適当なプログラム手段が
含まれるはずである。

【００３０】また、データ処理システムと共に使用する
ための、あらかじめ記録されたディスクまたは他の同様
のコンピュータ・プログラム製品などの製造品に、記憶
媒体と、それに記録された、本発明の方法の実施を容易
にするようデータ処理システムに指令するためのプログ
ラム手段とを含めることができる。そのような装置およ
び製造品も、本発明の趣旨および範囲に含まれることを
理解されたい。

【００３１】

【発明の実施の形態】本発明の方法は、文字ごとに複数
の選択候補を返すリコグナイザ２と共に環境（図１）内
で実施される。あるいは、リコグナイザ２は、連結され
た構成要素の１つまたは複数の解釈を返すこともできる
（区切りなし、２文字に分割、３文字に分割など）。こ
れらの解釈に含まれる文字のそれぞれについて、リコグ
ナイザ２は、複数の文字仮説を作るが、仮説のそれぞれ
は、それぞれの信頼性レベルを有する。これらは、本発
明による検証訂正システム４に供給される。

【００３２】リコグナイザ２からこれらの出力を与えら
れて、検証訂正システム４は、結果と、アプリケーショ
ン設計者によって指定される一連の制御パラメータとに
よって決定される順序で、文脈分析または対話機能を呼
び出す。

【００３３】図２は、図１の検証訂正システム４の詳細
なブロック図であり、本発明を実現するための構成要素
の典型的な構成を示す図である。このシステムには、他
の構成要素を通信的に結合するためのバス６、ＣＰＵ
８、プログラム記憶域１０および、割り振られたディス
ク記憶空間またはランダム・アクセス・メモリ（ＲＡ
Ｍ）などの作業スペース１２が含まれる。ユーザ・イン
ターフェース１４は、下で説明するように、ユーザが中
間結果を調べ、文字の適当な入力または決定を行えるよ
うにするために設けられる。ユーザ・インターフェース
１４には、通常、表示装置と、キーボードまたはマウス
もしくはこの両者とが含まれる。

【００３４】入出力１６は、図１に示された検証訂正シ
ステム４に入力される情報と、画像から読み取られ、認
識されたテキストを含む、検証訂正システム４からの出
力される結果とを表す。

【００３５】図３は、文書の同一のバッチに対して文脈
分析と操作員入力を交互に使用する、本発明の方法を示
す高水準流れ図である。リコグナイザ２による文字認識
の後に、文脈分析を行う検証訂正システム４によって、
フィールドを受け取り（ステップ１８）、処理して（ス
テップ２０）、解を期待するのに十分な良好さを有する
かどうかを判定する。これによって、操作員の介入なし
に、できる限り多くのフィールドを受け入れる（ステッ
プ２２）。

【００３６】いくつかの他のフィールドについて（ステ
ップ２４）、この処理では、操作員入力（ステップ２
６）を使用して、ある比率の文字の文字レベルＯＣＲ結
果を認証（または入力）し、その結果、文脈分析で残り
のフィールドのいくつかが受け入れられるようにする
（ステップ２０の繰り返し）。

【００３７】本発明の好ましい実施例ここで図４を参照して、本発明の方法の好ましい実施例
すなわち、図１の検証訂正システム４の機能性の好まし
い実施例を詳細に説明する。検証訂正システム４は、段
階のシーケンスとして説明される、繰り返しのシーケン
スを実行する。まず、各段階で行われる内容の要約を、
高水準擬似コードの形で示す。段階Ａ（ステップ４０）（計算集中型）各フォームについてフィールドを認識する文脈を適用するいくつかのフィールドを「受け入れ」とマークする段階Ｂ（ステップ４２）（操作員支援）受け入れられなかったフィールドの文字について文字を検証するか手入力する段階Ｃ（ステップ４４）（計算集中型）各フォームについて受け入れられなかったフィールドに文脈を適用するいくつかのより多くのフィールドを「受け入れ」とマー
クする段階Ｄ（ステップ４６）（操作員支援）受け入れられなかった各フィールドについてフィールドを表示する表示された値を受け入れる複数の表示された値のうちの１つを選択する表示された値を入力する段階Ｅ（ステップ４８）（計算集中型）各フォームについて受け入れられなかったフィールドに文脈を適用するより多くのフィールドを「受け入れ」とマークする段階Ｆ（ステップ５０）（操作員支援）受け入れられなかったフィールドを有する各フォームに
ついてフォーム全体を表示し、まだ受け入れられていないフィ
ールドを入力する最終受け入れのためにそれらに対して文脈を適用する

【００３８】段階Ｄ、ＥおよびＦを、３つの別々の段階
として実行するか、単一の操作員支援段階として実行す
るかは、任意選択であることに留意されたい。というの
は、この時点での文脈分析が非常に高速だからである。

【００３９】各段階で、その中間結果が作業スペースに
記憶される。ユーザは、この処理に影響するパラメータ
を指定することができる。これらのパラメータの大半
は、信頼性閾値である。

【００４０】さまざまな段階の詳細な説明を、これから
行う。

【００４１】段階Ａ（図５）すべてのフィールドについて文字リコグナイザを呼び出
す。結果は作業スペースに保存される。認識された文字
のうち良好な信頼性を有する文字の比率を計算する。こ
の例の目的のため、信頼性は、適当な手段によって、０
ないし１０００の範囲に対して正規化された任意の数値
スケールに従って測定される。下で説明する閾値は、特
定の応用例との適合性のため、この範囲内から選択され
る。この分野で通常の技術を有する者に既知または本明
細書の開示に基づいて暗示される他の信頼性尺度も、本
発明に従って使用することができる。

【００４２】ステップ５２を参照すると、認識された文
字の信頼性値（良好な文字の数または比率など）が、閾
値ｔ₁未満の場合、そのフィールドは「不良」とマーク
される（ステップ５４）。値が閾値ｔ₁とそれより大き
い閾値ｔ₂（ｔ₁＜ｔ₂）の間である場合、そのフィール
ドは「平均」とマークされる（ステップ５６）。値が閾
値ｔ₂を超える場合、そのフィールドは「良好」とマー
クされる。

【００４３】良好フィールドの場合、検証訂正システム
４の文脈アナライザを呼び出す（ステップ５８）。ステ
ップ６０で、文脈アナライザが閾値ｔ₃を超える信頼性
を有する仮説を返し、第２の仮説がはるかに低い信頼性
（第１の仮説の信頼性より少なくとも差ｔ₄だけ小さ
い）を有する場合、第１の仮説を受け入れ、そのフィー
ルドを「受け入れ」とマークする（ステップ６２）。

【００４４】ｎ個の仮説が、閾値ｔ₅を超える信頼性を
有し、次によい信頼性を有する仮説からｔ₆より大きい
差だけ離れている場合、ｎ個の仮説が、可能性として保
存され、そのフィールドは、「不確実」とマークされ
る。そうでない場合、そのフィールドは「拒否」とマー
クされる。全般的にステップ６４を参照されたい。

【００４５】あるフィールドが、それに関連する文脈を
有しない場合、文脈アナライザは、単にＯＣＲ信頼性に
基づいてフィールド信頼性を計算する（最大値１０００
よりわずかに少ない最大値、たとえば９９０を用い
て）。

【００４６】段階Ｂ（図６）これは、操作員が支援する段階である。この処理では、
平均（ステップ６８）または拒否（ステップ６６）とマ
ークされたフィールドのすべてと、不確実フィールドの
うちのいくつかを検討し、よりよい判断を行うために文
字に関するより多くの情報を構築することを試みる。

【００４７】不確実フィールドの場合（ステップ７
０）、確実に既知であるならば曖昧さの解決に役立つは
ずの、ごく少数の文字があるかどうかを判定する（ステ
ップ７２）。たとえば、「San Jose CA, 95120」と「Sa
n Jose CA, 95123」の間の曖昧さを解決するためには、
最後の文字だけが必要である。このように識別された文
字を、「クリティカル」とマークする。

【００４８】この処理では、次に、拒否フィールドと平
均フィールドのすべてについて、ＯＣＲ結果を分析し、
少数のクリティカル文字についてもＯＣＲ結果を分析す
る（ステップ７４）。これらの一部は、「高信頼」とマ
ークされる（ステップ７６）。これは、それらのフィー
ルドまたは文字が正しく認識された確率が非常に高いこ
とを意味する。

【００４９】文字が高信頼であるかどうかは、（ｉ）分
割から来たものでないかどうか、（ｉｉ）非常に高い信
頼性を有し、次の選択候補が低い信頼性を有するかどう
か、および（ｉｉｉ）あるテンプレートまでの距離が短
いかどうか、などの判断基準に基づいて判定される。

【００５０】この処理では、次に、好ましくは従来のカ
ーペット方式を使用して、認証のため高信頼文字を操作
員に提示する（ステップ７８）。その結果、これらの文
字の大部分が「確実」とマークされる。認証されなかっ
た文字は、「要入力」とマークされる。

【００５１】あるフィールドの文字のうちのｔ₇％未満
が「高信頼」とマークされている場合、合計ｔ₇％を得
るために、そのフィールドに沿って分散する文字のいく
つかも、「要入力」とマークされる。

【００５２】あるフィールドが不確実の場合、仮説を比
較して、少数の文字を確実に認証することによって曖昧
さが解決されるかどうかを調べる。解決される場合、こ
れらの文字を、それが上の判断基準を満たす場合には
「高信頼」、満たさない場合には「要入力」とマークす
る。

【００５３】すべてのフィールドを分析し終えた時に、
すべての高信頼文字を、認証のためカーペットで表示す
る。その後、すべての要入力文字を横に並べて表示し、
手入力する（ステップ８０）。値を推測できない時に
は、値は入力されない。いくつかのクリティカル文字が
認証または入力された場合、曖昧さが除去され、そのフ
ィールドは「受け入れ」に変換される。

【００５４】この処理の後に、最初の文脈分析に失敗し
たすべてのフィールドと、「平均」（分析を受けるほど
に良好ではない）とマークされたフィールドは、ある個
数の確実文字を有する。

【００５５】段階Ｃ（図７）この処理は計算集中型である。この段階では、拒否また
は平均のすべてのフィールドに対して文脈アナライザを
呼び出す。文脈アナライザは、確実文字がわかっている
ことから大いに助けられる。

【００５６】１例として、辞書８２のファジイ検索すな
わち、辞書に明らかに現れてはいない所望の単語に最も
近い項目の発見を検討する。近さは、パラメータのベク
トルに基づくユークリッド距離に関して測定できること
が既知である。かなりの比率の確実文字がわかっていれ
ば、明らかに探索文字と一致しない辞書項目の除去が可
能になり、これによって、距離計算が必要な辞書項目数
が大幅に削減される。そうすることによって、計算時間
が短縮され、誤り率も低下する。

【００５７】よい文脈分析技法（ステップ８４）は、お
おむね正しい位置の項目に少なくともＸ個の確実文字が
存在しない限り、項目を拒否する。構文判断基準（ステ
ップ８６）と意味論判断基準（ステップ８８）を使用し
て、この判断を支援することができる。

【００５８】たとえば、あるフィールドに「SAN JOSE」
が含まれ、これが「JAM JSE」と認識され、「A」、
「S」および「E」が確実として認証された場合、このシ
ステムは、おおむね*A***SEの位置に、これら３文字の
うちの少なくとも（Ｘ＝１の場合）２文字を含む辞書項
目を検討する。すなわち、SAN JOSE、SEATTLE、SANTA F
EおよびSAN FRANCISCOが検討され、OAKLANDやNEW YORK
は検討されない。

【００５９】「確実」という単語の使用は、その直観的
な意味に従っているが、まだ誤りの余地があることに留
意されたい。確実文字の誤り率が０．５％の場合、この
技法に基づいて正しい項目を拒否する確率は、わずかに
０．００００２５である。

【００６０】文脈分析の後に、結果は段階Ａと同様に分
析され、以前に「平均」または「拒否」であったフィー
ルドの一部が、「受け入れ」（ステップ９０）、「不確
実」（ステップ９２）または「拒否」（ステップ９４）
とマークされる。

【００６１】段階Ｄ（図８）「不良」（ステップ９６）、「拒否」（ステップ９８）
または「不確実」（ステップ１００）であるすべてのフ
ィールドについて、複数の選択候補と共にフィールドの
画像を操作員に示す（ステップ１０２）。操作員は、明
らかに正しいものとして提供された選択候補の１つを受
け入れるか（ステップ１０４）、提供された選択候補の
別の１つを選択するか（ステップ１０６）、全く新しい
選択候補を入力するか（ステップ１０８）のいずれかを
行うことができる。どの場合でも、状況は「良好」にセ
ットされる。操作員は、回答が「不明瞭」であることを
伝えることもできる（ステップ１１０）。

【００６２】段階Ｅ（図９）状況「良好」を有するフィールドについて（ステップ１
１２）、文脈アナライザを呼び出す（ステップ１１
４）。普通は１つの選択候補だけが返されるはずであ
る。実際にそうなった場合には、状況を「受け入れ」に
セットする（ステップ１１６）。アナライザが複数の選
択候補を提供する場合、そのフィールドを「不明瞭」と
マークする（ステップ１１８）。

【００６３】段階Ｆ（図１０）少なくとも１つの「不明瞭」フィールドを含むフォーム
のすべてについて（ステップ１２０）、そのフォームを
表示し（ステップ１２２）、「不明瞭」フィールドを示
す。データが入力される（ステップ１２４）。やはり文
脈アナライザを呼び出す（ステップ１２６）。回答がな
いか複数の選択候補がある場合、そのフィールドについ
て「誤り」状況を返す。そうでない場合には、状況を
「受け入れ」にセットする（ステップ１２８）。ここま
でで、通常は、すべてのフィールドが「受け入れ」の状
況を有することになり、誤りがあるとしてもごく少数の
特定の困難な誤りだけになる（ステップ１３０）。

【００６４】一般的なタイプのフィールドの扱い数値フィールド（文脈なし）これは、頻繁に発生すると思われる事例である。この事
例には、数字（すなわち、可能な記号が比較的少数の字
母系）が、ブロックや文字列など、不確定の個数と形態
で発生する状況が全般的に含まれる。

【００６５】閾値ｔ₂を非常に高く（たとえば上限の１
０００に）設定する場合、段階Ａでは、良好フィールド
があるとしても少数だけが検出される。不良フィールド
が、手入力のために表示される。

【００６６】平均フィールドは、検証または入力のため
にその文字を表示される。文脈アナライザが呼び出され
る（段階Ｃまたは段階Ｅ）が、文脈アナライザは、単純
に個々の文字に基づいてフィールド信頼性を計算する。
すべての文字が検証または入力された場合に限って、そ
のフィールドの信頼性が１０００になり、受け入れられ
る。そうでない場合、そのフィールドは、不良フィール
ドと共に、手動の検証または入力のために表示される。

【００６７】文脈のある数値フィールドこれも頻繁に発生する事例である。この事例には、上に
示した郵便番号の例など、発生すると思われる桁数が既
知であるか、あるいは有効なフィールドと無効なフィー
ルド（すなわち、数字の有効な組合せと無効な組合せ）
が既知であるといった算術的な制約を有する状況が含ま
れる。

【００６８】パラメータｔ₁を、大きい数値または上限
に近い数値に設定する必要はない。算術検査（段階Ａ）
が強力である場合、この段階で１０００を返し、受け入
れを強制することができる。そうでない場合には、低い
値が返される。ｔ₃およびｔ₄の値に応じて、そのフィー
ルドの受け入れの可否が決まる。受け入れられない場
合、処理が継続する（段階Ｂなど）。

【００６９】英数字（辞書文脈あり）この場合、辞書制約を利用することができる。以下に例
を示す。市、州、郵便番号郵便番号、通りの名前氏名、社会保険番号大学名、大学の住所、大学の電話番号製品コード、製品名社名などまたは名前名字職業など

【００７０】例の最初のグループ（普通名詞、有名な地
名など）の場合、有効なタプルの集合を完全に包含する
テーブル（辞書）が存在する。第２のグループ（比較的
無名の固有名詞、特定分野の専門用語など）の場合、辞
書、ディレクトリまたは他のアクセス可能なテーブルが
カバーするのは、部分的なものにすぎない可能性が高
い。解決は、事例ごとに与えられる。

【００７１】英数字（完全に包含する辞書）これに含まれる事例は、最も一般的であり、また、最も
重要な事例である。本発明の教示は、これらの事例を非
常に効率的にサポートする。閾値ｔ₃、ｔ₄、ｔ₅および
ｔ₆の値は、辞書に応じて変化し、使用される特定の応
用分野に適した形にカスタマイズできる。

【００７２】英数字（部分的に包含する辞書）この場合、認識される情報が、辞書に含まれない可能性
がある。さらに、認識される値に非常に近い値が、辞書
に存在する可能性がある。たとえば、固有名詞に関し
て、Mendezは辞書に含まれるがMendesは含まれない、Pi
nterは辞書に含まれるがPintnerは含まれないなどであ
る。

【００７３】この状況を扱うためには、ｔ₃を上限値１
０００にセットする。その結果、フィールドは、文脈ア
ナライザによって受け入れられることが絶対になくな
る。すべての文字の検証または入力が必要になる。

【００７４】結論前述の仕様を使用すれば、標準的なプログラミング技法
またはエンジニアリング技法を使用し、コンピュータ・
プログラミング・ソフトウェア、ファームウェア、ハー
ドウェアまたはこれらの任意の組合せを使用して本発明
を実施できる。そのような結果の、コンピュータ可読プ
ログラム・コード手段を有するプログラムは、固定（ハ
ード）ディスク駆動装置、ディスク、ディスケット、光
ディスク、磁気テープ、読取専用メモリ（ＲＯＭ）など
の半導体メモリなどの１つまたは複数のコンピュータ可
読媒体またはコンピュータ使用可能媒体内か、インター
ネットや他の通信ネットワークまたは通信リンクなどの
送受信媒体で実施または供給でき、これによって、本発
明によるコンピュータ・プログラム製品すなわち製造物
を作ることができる。このコンピュータ・プログラム・
コードを含む製造物は、ある媒体からコードを直接実行
すること、ある媒体から別の媒体にコードをコピーする
ことまたは、ネットワークを介してコードを伝送するこ
とによって、製造または使用することができる。

【００７５】本発明を製造、使用または販売するための
装置は、請求の範囲に記載された発明を実施する、中央
処理装置（ＣＰＵ）、メモリ、記憶装置、通信リンク、
通信装置、サーバ、入出力装置を含む（ただしこれらに
制限されない）１以上の処理システム、または、ソフト
ウェア、ファームウェア、ハードウェアもしくはその任
意の組合せを含む、１以上の処理システムの任意のサブ
コンポーネントもしくは個別部品とすることができる。

【００７６】ユーザ入力は、キーボード、マウス、ペ
ン、音声、タッチ・スクリーンその他の、アプリケーシ
ョン・プログラムなどの他のプログラムを介することを
含めて、人間がデータをコンピュータに入力できる手段
から受け取ることができる。

【００７７】計算機科学の当業者であれば、上の説明に
従って作成されたソフトウェアと適当な汎用コンピュー
タまたは専用コンピュータを組み合わせて、本発明を実
施するコンピュータ・システムまたはコンピュータ・サ
ブコンポーネントを作成し、本発明の方法を実行するた
めのコンピュータ・システムまたはコンピュータ・サブ
コンポーネントを作成することが簡単にできるであろ
う。

【００７８】本発明の好ましい実施例を詳細に説明した
が、当業者が、請求の範囲に記載された本発明の範囲か
ら逸脱することなく、これらの実施例に対する修正およ
び適合を考案できることは明白である。

【００７９】まとめとして、本発明の構成に関して以下
の事項を開示する。

【００８０】（１）自動文脈分析を実行するステップ
と、さらに処理を必要とする文字を識別するため、前記
自動文脈分析の結果を評価するステップと、前記評価す
るステップで識別された文字を、ユーザによる支援のも
とに検証し訂正するステップと、所定の信頼性レベルに
達するまで、前記自動文脈分析を実行するステップ、前
記評価するステップ、および前記検証し訂正するステッ
プを繰り返すステップとを含む、光学文字認識処理の結
果を訂正し、検証するための方法。（２）前記自動文脈分析を実行するステップが、文字が
正しく認識されたことの信頼性の第１の所定の閾値を満
足する文字を識別するステップを含むことを特徴とす
る、上記（１）に記載の方法。（３）前記自動文脈分析を実行するステップまたは前記
検証し訂正するステップが、さらに、信頼性の第１の所
定の閾値を満足する文字に対する辞書索引を実行するス
テップを含むことを特徴とする、上記（２）に記載の方
法。（４）前記自動文脈分析を実行するステップまたは前記
検証し訂正するステップが、さらに、信頼性の第１の所
定の閾値を満足する文字に基づくファジイ探索を実行す
るステップを含むことを特徴とする、上記（２）に記載
の方法。（５）前記自動文脈分析を実行するステップまたは前記
検証し訂正するステップが、さらに、結果が信頼性の第
１の所定の閾値を満足するように、信頼性の第２の所定
の閾値を満足する文字を、ユーザによる支援のもとに検
証し訂正するステップを含むことを特徴とする、上記
（２）に記載の方法。（６）前記自動文脈分析の結果を評価するステップが、
フォーム内の別個のフィールドを識別するステップと、
前記フィールドのうち信頼性閾値を満足するものを受け
入れとマークするステップとを含むことを特徴とする、
上記（１）に記載の方法。（７）前記検証し訂正するステップが、結果が不確実で
あるフィールドを識別するステップと、識別した不確実
なフィールドにおいて曖昧さを解決する文字の部分集合
を識別するステップとを含むことを特徴とする、上記
（１）に記載の方法。（８）前記文字の部分集合を識別するステップが、共通
の文字を有する２つの可能な有効値を識別するステップ
と、前記有効値を共通に有しない文字を前記部分集合と
して識別するステップとを含むことを特徴とする、上記
（７）に記載の方法。（９）前記検証し訂正するステップが、フィールド内の
文字の可能な選択候補をユーザに提示するステップと、
ユーザに、（ｉ）システムによって最適選択候補として
選択された選択候補を是認すること、（ｉｉ）システム
によって最適として選択されたもの以外の１つの選択候
補を選択すること、および（ｉｉｉ）前記可能な選択候
補と異なる選択候補を入力すること、からの選択を可能
にするステップとを含むことを特徴とする、上記（１）
に記載の方法。（１０）自動文脈分析を実行する手段と、さらに処理を
必要とする文字を識別するため、前記自動文脈分析の結
果を評価する手段と、前記評価する手段で識別された文
字を、ユーザによる支援のもとに検証し訂正する手段
と、所定の信頼性レベルに達するまで、前記自動文脈分
析を実行する手段、前記評価する手段、および前記検証
し訂正する手段の動作を繰り返す手段とを含む、光学文
字認識処理の結果を訂正し、検証するためのシステム。（１１）前記自動文脈分析を実行する手段が、文字が正
しく認識されたことの信頼性の第１の所定の閾値を満足
する文字を識別する手段を含むことを特徴とする、上記
（１０）に記載のシステム。（１２）前記自動文脈分析を実行する手段または前記検
証し訂正する手段が、さらに、信頼性の第１の所定の閾
値を満足する文字に対する辞書索引を実行する手段を含
むことを特徴とする、上記（１１）に記載のシステム。（１３）前記自動文脈分析を実行する手段または前記検
証し訂正する手段が、さらに、信頼性の第１の所定の閾
値を満足する文字に基づくファジイ探索を実行する手段
を含むことを特徴とする、上記（１１）に記載のシステ
ム。（１４）前記自動文脈分析を実行する手段または前記検
証し訂正する手段が、さらに、結果が信頼性の第１の所
定の閾値を満足するように、信頼性の第２の所定の閾値
を満足する文字の、ユーザによって支援される検証およ
び訂正を実行する手段を含むことを特徴とする、上記
（１１）に記載のシステム。（１５）前記自動文脈分析の結果を評価する手段が、フ
ォーム内の別個のフィールドを識別する手段と、前記フ
ィールドのうち信頼性閾値を満足するものを受け入れと
マークする手段とを含むことを特徴とする、上記（１
０）に記載のシステム。（１６）前記検証し訂正する手段が、結果が不確実であ
るフィールドを識別する手段と、識別した不確実なフィ
ールドにおいて曖昧さを解決する文字の部分集合を識別
する手段とを含むことを特徴とする、上記（１０）に記
載のシステム。（１７）前記文字の部分集合を識別する手段が、共通の
文字を有するフィールドの２つの可能な有効値を識別す
る手段と、前記有効値を共通に有しない文字を前記部分
集合として識別する手段とを含むことを特徴とする、上
記（１６）に記載のシステム。（１８）前記検証し訂正する手段が、フィールド内の文
字の可能な選択候補をユーザに提示する手段と、ユーザ
に、（ｉ）システムによって最適選択候補として選択さ
れた選択候補を是認すること、（ｉｉ）システムによっ
て最適として選択されたもの以外の１つの選択候補を選
択すること、および（ｉｉｉ）前記可能な選択候補と異
なる選択候補を入力すること、からの選択を可能にする
手段とを含むことを特徴とする、上記（１０）に記載の
システム。（１９）上記（１）ないし（９）のいずれかに記載の方
法を実行するためのプログラムを記憶したコンピュータ
可読媒体。

【図面の簡単な説明】

【図１】ある動作環境での本発明によるシステムを示す
高水準ブロック図である。

【図２】本発明によるシステムのより詳細なブロック図
である。

【図３】図１および図２のシステムによって実施され
る、本発明による方法の高水準流れ図である。

【図４】本明細書に記載の、段階のシーケンスに関する
本発明の方法の好ましい実施例の動作を示す、より詳細
な流れ図である。

【図５】図４の段階Ａの詳細を示す、さらに詳細な流れ
図である。

【図６】図４の段階Ｂの詳細を示す、さらに詳細な流れ
図である。

【図７】図４の段階Ｃの詳細を示す、さらに詳細な流れ
図である。

【図８】図４の段階Ｄの詳細を示す、さらに詳細な流れ
図である。

【図９】図４の段階Ｅの詳細を示す、さらに詳細な流れ
図である。

【図１０】図４の段階Ｆの詳細を示す、さらに詳細な流
れ図である。

【符号の説明】２リコグナイザ４検証訂正システム６バス８ＣＰＵ１０プログラム記憶域１２作業スペース１４ユーザ・インターフェース１６入出力８２辞書

Claims

【特許請求の範囲】

【請求項１】自動文脈分析を実行するステップと、さらに処理を必要とする文字を識別するため、前記自動
文脈分析の結果を評価するステップと、前記評価するステップで識別された文字を、ユーザによ
る支援のもとに検証し訂正するステップと、所定の信頼性レベルに達するまで、前記自動文脈分析を
実行するステップ、前記評価するステップ、および前記
検証し訂正するステップを繰り返すステップとを含む、
光学文字認識処理の結果を訂正し、検証するための方
法。
【請求項２】前記自動文脈分析を実行するステップが、
文字が正しく認識されたことの信頼性の第１の所定の閾
値を満足する文字を識別するステップを含むことを特徴
とする、請求項１に記載の方法。
【請求項３】前記自動文脈分析を実行するステップまた
は前記検証し訂正するステップが、さらに、信頼性の第
１の所定の閾値を満足する文字に対する辞書索引を実行
するステップを含むことを特徴とする、請求項２に記載
の方法。
【請求項４】前記自動文脈分析を実行するステップまた
は前記検証し訂正するステップが、さらに、信頼性の第
１の所定の閾値を満足する文字に基づくファジイ探索を
実行するステップを含むことを特徴とする、請求項２に
記載の方法。
【請求項５】前記自動文脈分析を実行するステップまた
は前記検証し訂正するステップが、さらに、結果が信頼
性の第１の所定の閾値を満足するように、信頼性の第２
の所定の閾値を満足する文字を、ユーザによる支援のも
とに検証し訂正するステップを含むことを特徴とする、
請求項２に記載の方法。
【請求項６】前記自動文脈分析の結果を評価するステッ
プが、フォーム内の別個のフィールドを識別するステップと、前記フィールドのうち信頼性閾値を満足するものを受け
入れとマークするステップとを含むことを特徴とする、
請求項１に記載の方法。
【請求項７】前記検証し訂正するステップが、結果が不確実であるフィールドを識別するステップと、識別した不確実なフィールドにおいて曖昧さを解決する
文字の部分集合を識別するステップとを含むことを特徴
とする、請求項１に記載の方法。
【請求項８】前記文字の部分集合を識別するステップ
が、共通の文字を有する２つの可能な有効値を識別するステ
ップと、前記有効値を共通に有しない文字を前記部分集合として
識別するステップとを含むことを特徴とする、請求項７
に記載の方法。
【請求項９】前記検証し訂正するステップが、フィールド内の文字の可能な選択候補をユーザに提示す
るステップと、ユーザに、（ｉ）システムによって最適選択候補として選択された
選択候補を是認すること、（ｉｉ）システムによって最適として選択されたもの以
外の１つの選択候補を選択すること、および（ｉｉｉ）前記可能な選択候補と異なる選択候補を入力
すること、からの選択を可能にするステップとを含むことを特徴と
する、請求項１に記載の方法。
【請求項１０】自動文脈分析を実行する手段と、さらに処理を必要とする文字を識別するため、前記自動
文脈分析の結果を評価する手段と、前記評価する手段で識別された文字を、ユーザによる支
援のもとに検証し訂正する手段と、所定の信頼性レベルに達するまで、前記自動文脈分析を
実行する手段、前記評価する手段、および前記検証し訂
正する手段の動作を繰り返す手段とを含む、光学文字認
識処理の結果を訂正し、検証するためのシステム。
【請求項１１】前記自動文脈分析を実行する手段が、文
字が正しく認識されたことの信頼性の第１の所定の閾値
を満足する文字を識別する手段を含むことを特徴とす
る、請求項１０に記載のシステム。
【請求項１２】前記自動文脈分析を実行する手段または
前記検証し訂正する手段が、さらに、信頼性の第１の所
定の閾値を満足する文字に対する辞書索引を実行する手
段を含むことを特徴とする、請求項１１に記載のシステ
ム。
【請求項１３】前記自動文脈分析を実行する手段または
前記検証し訂正する手段が、さらに、信頼性の第１の所
定の閾値を満足する文字に基づくファジイ探索を実行す
る手段を含むことを特徴とする、請求項１１に記載のシ
ステム。
【請求項１４】前記自動文脈分析を実行する手段または
前記検証し訂正する手段が、さらに、結果が信頼性の第
１の所定の閾値を満足するように、信頼性の第２の所定
の閾値を満足する文字の、ユーザによって支援される検
証および訂正を実行する手段を含むことを特徴とする、
請求項１１に記載のシステム。
【請求項１５】前記自動文脈分析の結果を評価する手段
が、フォーム内の別個のフィールドを識別する手段と、前記フィールドのうち信頼性閾値を満足するものを受け
入れとマークする手段とを含むことを特徴とする、請求
項１０に記載のシステム。
【請求項１６】前記検証し訂正する手段が、結果が不確実であるフィールドを識別する手段と、識別した不確実なフィールドにおいて曖昧さを解決する
文字の部分集合を識別する手段とを含むことを特徴とす
る、請求項１０に記載のシステム。
【請求項１７】前記文字の部分集合を識別する手段が、共通の文字を有するフィールドの２つの可能な有効値を
識別する手段と、前記有効値を共通に有しない文字を前記部分集合として
識別する手段とを含むことを特徴とする、請求項１６に
記載のシステム。
【請求項１８】前記検証し訂正する手段が、フィールド内の文字の可能な選択候補をユーザに提示す
る手段と、ユーザに、（ｉ）システムによって最適選択候補として選択された
選択候補を是認すること、（ｉｉ）システムによって最適として選択されたもの以
外の１つの選択候補を選択すること、および（ｉｉｉ）前記可能な選択候補と異なる選択候補を入力
すること、からの選択を可能にする手段とを含むことを特徴とす
る、請求項１０に記載のシステム。
【請求項１９】請求項１ないし９のいずれかに記載の方
法を実行するためのプログラムを記憶したコンピュータ
可読媒体。