JPH11102413A - 光学式文字認識出力のポップアップ訂正のための方法および装置 - Google Patents

光学式文字認識出力のポップアップ訂正のための方法および装置

Info

Publication number
JPH11102413A
JPH11102413A JP10110884A JP11088498A JPH11102413A JP H11102413 A JPH11102413 A JP H11102413A JP 10110884 A JP10110884 A JP 10110884A JP 11088498 A JP11088498 A JP 11088498A JP H11102413 A JPH11102413 A JP H11102413A
Authority
JP
Japan
Prior art keywords
text
document
word
pop
optical character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10110884A
Other languages
English (en)
Inventor
L Horowitz Michael
エル.ホロビッツ マイケル
J Mcnaney Michael
ジェイ.マキナニー マイケル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KURARITEC CORP
Original Assignee
KURARITEC CORP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KURARITEC CORP filed Critical KURARITEC CORP
Publication of JPH11102413A publication Critical patent/JPH11102413A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 OCR解釈を生成するのに使用された元の文
書を参照することなく、ユーザが文書イメージで表され
たテキストをそのテキストのOCR解釈と一緒に比較す
ることができるようにする。 【解決手段】 光学式文字認識(OCR)出力および文
書イメージを含む表示について開示されている。文書イ
メージ部分は文書テキスト上のポップアップウィンドウ
内に表示されるため、ユーザは文書テキストと文書イメ
ージを同時に見ることができる。加えてユーザは、マウ
スの別のボタンをクリックするか、または別の同様なフ
ァンクションキーを押すことによって、文書テキストの
正確さを確認するためのポップアップメニューを表示す
ることを選択することができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、光学式文字認識技
術に関し、特に光学式文字認識出力を表示するとともに
その誤りを訂正するための方法および装置に関する。
【0002】
【従来の技術】紙の書類からテキストおよびグラフィッ
クを取得することは、多くの産業にとって重大な問題で
ある。例えば出版会社は年間を通じて何百または何千の
学術論文を印刷するかもしれない。しばしば出版会社は
紙の文書から作業を始め、その紙の文書は出版会社のコ
ンピュータ装置に入力されなければならない。従来の一
手法は、紙の文書を読んでその文書をコンピュータシス
テムにタイプ入力するために、キーボード入力者を雇う
というものである。しかしながら文書を入力することは
時間を浪費し、かつコストも高い。
【0003】光学式文字認識(以下、OCRとする)
は、出版産業およびその他の産業にとって有益であるこ
とを保証する技術である。その理由は、OCR装置の入
力処理速度はキーボード入力者の入力速度をはるかに上
回っているからである。従って出版会社の従業員は、し
ばしば読取り走査された文書から作業を始める。その文
書はOCR装置によってコンピュータの読込み可能なテ
キストフォーマット、例えばASCIIに変換されてい
る。しかしながら最近のOCR装置でもって可能な高い
認識率(しばしば95%を越える)ですら、高い正確度
を必要とする出版産業のような産業にとっては十分でな
い。従って出版会社はしばしば校正係の人を雇い、手作
業でOCR出力の修正を行う。
【0004】
【発明が解決しようとする課題】しかしながらOCR出
力を手作業で校正することは、非常に時間を浪費し、ま
た人が行うのは困難である。校正係の人は、元の紙の文
書とOCR出力の印刷またはスクリーン表示とを見比べ
てそれらを一語一語比較しなければならない。たとえ認
識率が高くても、人がOCR出力の校正を行うと一人よ
がりになって誤りを見落としがちである。
【0005】別の従来の選択は、結果として生じたコン
ピュータの読込み可能なテキストのスペルチェックを行
うことである。しかしながらスペルの間違った語すべて
を認識するというわけではない。加えて、入力された語
は非常に曲解されているかもしれないので、校正係はス
ペルチェックを行っている間中ずっと紙のテキストに戻
って参照しなければならない。一旦校正をする人は紙の
テキストを見て正しい語を決め、それからその正しい語
をOCR出力のテキストにキーをたたいて入力する。こ
の手法は時間を浪費し、またやや間違いがちであること
が分かっているので、校正する人が、OCRの解釈を生
成するのに使用された元の文書を参照する必要がなく、
校正をする人が、文書イメージを表すテキストをそのテ
キストのOCR解釈と一緒に比較することができるのは
有用であろう。
【0006】文書イメージをそのテキストのOCR解釈
と一緒に見ることは、出版社が紙の形態ではなくASC
IIテキストの形態でOCR出力を再版して販売しよう
とする場合に特に有用である。出版社が電子形態でOC
R出力を再販売する目的のためにそのOCR出力を得る
とき、そのOCR出力が正しい語を含むだけでなく、後
にOCR出力がコンピュータのモニタに表示される際
に、OCR出力の形態が文書イメージの形態と同じまま
であるという付加的な関係がある。校正する人が編集段
階中にOCR出力と文書イメージを並べて比較すること
ができるということは、この目的をかなり促進する。
【0007】本発明の目的は、ユーザが文書イメージか
らなるテキストをそのテキストのOCR解釈と一緒に比
較することができるようにすることにある。
【0008】本発明の他の目的は、OCR解釈を生成す
るのに使用された元の文書をユーザが参照する必要がな
く、ユーザが文書イメージで表されたテキストをそのテ
キストのOCR解釈と一緒に比較することができるよう
にすることである。
【0009】本発明のさらに他の目的は、元のテキスト
をOCR出力のテキストに変換している間に起こった間
違いを正すために、ユーザが文書イメージで表されたテ
キストをそのテキストのOCR解釈と比較することがで
きるようにすることである。
【0010】
【課題を解決するための手段】人がOCR出力を校正す
ることを容易に行えるようにする必要がある。この必要
性を満たすため、元の紙の文書から得られた文書イメー
ジの文字は、文書テキストを生成するために(例えばO
CRを介して)認識される。文書テキストの領域に対応
する文書イメージの領域が決定され、そして認識確度パ
ラメータが各領域に対して決定される。ユーザは、語の
上にカーソルを位置させることによって文書テキストか
らその語を選択することができる。ユーザがマウスの一
方のボタンをクリックする(押す)か、あるいは同様な
ファンクションキーを押すと、選択された語に対応する
文書イメージ部分がポップアップウィンドウとして現れ
る。ユーザがマウスの別のボタンをクリックするか、あ
るいは別の同様なファンクションキーを押すと、対応す
るOCR出力に対するポップアップメニューが表示され
る。
【0011】特に文書テキスト上に文書イメージ部分を
表示するためにコンピュータで実施される本方法は、あ
る文書の文書イメージを生成する工程、文書テキストを
生成するために文書イメージから文字を認識する工程、
文書テキストの語に対応する文書イメージの領域を決め
る工程、文書イメージの領域と文書テキストの対応する
語とを相関テーブルを用いて互いに関連させる工程、お
よび文書テキスト上に文書イメージ部分を表示する工程
を組み合わせたものである。それから文書テキストの選
択されたテキストは誤りを正される。
【0012】本発明のこれらおよび他の見解および利点
は、以下の説明、図面および特許請求の範囲の記載を参
照することにより理解されるようになるであろう。
【0013】
【発明の実施の形態】以下に図面を参照しながら本発明
に係る光学式文字認識出力のポップアップ訂正のための
方法および装置を詳細に説明するが、図面においては同
様の構成要素には同様の符号を付している。
【0014】〔1.ハードウェアの概略〕図1は、本発
明の一例が実施され得るコンピュータシステム100の
ブロック図である。コンピュータシステム100は、情
報を伝達するためにバス110または他の伝達手段を備
えており、また情報を処理するためにプロセッサ112
がバス110に接続されている。さらにコンピュータシ
ステム100はランダムアクセスメモリ(RAM)また
は他のダイナミック記憶装置114(メインメモリとし
て示されている)を備えており、そのメインメモリ11
4は、情報およびプロセッサ112によって実行される
べき命令を記憶するためにバス110に接続されてい
る。またメインメモリ114は、プロセッサ112が命
令を実行している間、一時的な変数や他の中間的な情報
を記憶するのにも使用されてもよい。またコンピュータ
システム100は読出し専用メモリ(ROM)および他
のスタティック記憶装置116の一方または両方を備え
ており、それらはバス110に接続されていて、静的な
情報およびプロセッサ112に対する命令を記憶する。
データ記憶装置118は、例えば磁気ディスクや光ディ
スクおよびそれに相当するディスクのドライブであり、
情報および命令を記憶するためにバス110に接続され
得る。
【0015】またコンピュータシステム100には、バ
ス110を介して入出力装置が接続され得る。例えばコ
ンピュータシステム100は、コンピュータのユーザに
情報を表示するために、例えばブラウン管(CRT)の
ような表示装置120を用いる。さらにコンピュータシ
ステム100は、キーボード122および例えばマウス
のようなカーソル制御手段124を用いる。加えてコン
ピュータシステム100は、紙の文書をコンピュータの
読込み可能なフォーマットに変換するためのスキャナー
126を用いてもよい。さらにまたコンピュータシステ
ム100は、スキャナー126によって生成された文書
イメージ、またはメインメモリ114やデータ記憶装置
118に記憶された文書イメージにおける文字を認識す
るためにOCR装置128を用いることができる。ある
いはOCR装置128の機能は、メインメモリ114に
記憶された命令をプロセッサ112で実行することによ
って、ソフトウェアで実施され得る。さらに別に例で
は、スキャナー126とOCR装置128は、紙の文書
を走査してそこにある文字を認識するように設計された
単一の装置に組み合わせられ得る。
【0016】本発明は、同一の表示装置120で元のテ
キストと出力されたテキストを見るためにコンピュータ
システム100を使用することに関する。一実施の形態
によれば、この仕事は、メインメモリ114に格納され
た一連の命令をプロセッサ112が実行することに応じ
てコンピュータシステム100によって遂行される。そ
のような命令は、例えばデータ記憶装置118のような
別のコンピュータ読込み可能媒体からメインメモリ11
4内に読み込まれてもよい。メインメモリ114内に格
納された一連の命令を実行することによって、プロセッ
サ112は後述する処理工程を遂行することとなる。別
の例では、本発明を実施するためにソフトウェアによる
命令に代えて、あるいはソフトウェアの命令とともにハ
ードワイヤード回路が用いられてもよい。従って、本発
明はハードウェア回路とソフトウェアとの如何なる特定
の組合わせにも制限されない。
【0017】〔2.合成文書アーキテクチャ〕合成文書
は、ある文書の多数の表現を有しており、その多数の表
現を論理的な全体として取り扱う。図2に示される合成
文書200は、例えばコンピュータシステム100のメ
インメモリ114やデータ記憶装置118のようなメモ
リに記憶されている。
【0018】合成文書200は文書イメージ210を備
えており、そのイメージは文書の文書(例えばスキャナ
ー126から生成されたTIFFファイル)のビットマ
ップ表示である。例えばアメリカ合衆国憲法のコピー
は、文書イメージ210の形態でアメリカ合衆国憲法の
イメージを生成するために、スキャナー126によって
読取り走査されてもよい。
【0019】ビットマップ表示はピクセルの列であり、
モノクロ(例えば黒と白)または多色(例えば赤、青、
緑等)で表され得る。文書イメージ210の矩形領域の
位置は、例えば矩形の左上隅と右下隅を組み合わせるこ
とによって特定され得る。アメリカ合衆国憲法を読取り
走査する例では、前文の「form」という単語の最初の文
字(すなわち「f 」)は、左上が(16,110)の座
標で右下が(31,119)の座標の矩形内の文書イメ
ージ210に配置されてもよい。そして同じ単語の最後
の文字(すなわち「m 」)は、左上が(16,140)
の座標で右下が(31,149)の座標の矩形の文書イ
メージ210に配置され得る。
【0020】また合成文書200は、文書テキスト22
0および相関テーブル230を備えており、それらは図
3のフローチャートに示す方法によって生成されてもよ
い。文書テキスト220は、符号化したASCII、E
BCDICまたはユニコード(Unicode )に文字を符号
化した一続きの8ビットまたは16ビットのバイトでで
きている。従って文書テキスト220内の文字は、文書
テキスト220内にオフセットにより配置され得る。前
記例では、相関テーブル230のオフセット欄に表され
るように、前文の「form」という単語の最初の文字はオ
フセット57で文書テキスト220内に配置されてもよ
く、また同じ単語の最後の文字はオフセット60で文書
テキスト220内に配置され得る。
【0021】図3について説明すると、ステップS25
0で、文書イメージ210内の文字は、OCR装置12
8またはそれと同等のものによって認識され、ステップ
S252で、文書テキスト220を生成するために保存
される。またOCR装置128は、ステップS250に
おいて、認識される文字の文書イメージ210における
座標を出力するように設計されている。従って文書テキ
スト220内の分かっているオフセットにて認識された
文字は、文書イメージ210の領域に関連付けられ得
る。前文のイメージの上記例では、文書テキスト220
の「form」という単語の最初の文字(オフセット57に
配置される)は、座標(16,110)および(31,
119)によって定義される文書イメージ210領域に
関係づけられている。同様に文書テキスト220の「fo
rm」という単語の最後の文字(オフセット60に配置さ
れる)は、座標(16,140)および(31,14
9)によって定義される文書イメージ210領域に関係
づけられている。
【0022】ステップS254で、文書テキスト220
の単語は、例えば空白の間の文字を語として解釈するこ
とによって特定される。ステップS254で、これらの
語のそれぞれの文字に対応する文書イメージ210の領
域は、合併されて文書テキスト220のそれぞれの語に
対応するより大きな文書イメージ210領域になる。一
実施の形態では、文書イメージ210の領域は、文書テ
キスト220の個々の単語に対応する領域の座標のうち
最も左上の座標と最も右下の座標を有する矩形として特
定される。例えば文書テキスト220の「form」という
単語(オフセット57−60)に対応する文書イメージ
210の領域は、相関テーブル230の座標およびオフ
セットの欄に示されるように座標(16,110)およ
び(31,149)を有する矩形によって特定される。
あるいは特に種々のサイズの文字を有する文書に対して
は、文書テキスト220の各文字に対する座標リストお
よびそれらに対応する文書イメージ210領域は個々に
保存されてもよい。
【0023】加えてOCR装置128の幾つかの実施例
は、当該技術分野において周知のように、文書テキスト
220内の単語または句が間違ったOCR解釈を含んで
いる可能性を十分に考慮した認識確度パラメータを出力
するように設計されている。例えばあるフォントで、文
書イメージ210の文字「m 」はOCR装置128によ
って文字の結合体「rn」として認識されてもよい(例え
ばOCR装置はその語を「modern」として解釈すること
ができるので、OCR装置128は「modem 」という単
語に対して低い確度パラメータを出力してもよい)。そ
の結果、文字「m 」を含む語は、完全に唯一の特徴から
なる語よりも相対的に低い確度を割り当てられるようで
ある。上記前文の例では、「form」という単語は、当該
語の中に「m ]という文字があるため、55%の認識確
度パラメータを割り当てられてもよい。
【0024】ステップS256で、文書テキスト220
に出現する各語についての情報は相関テーブル230に
保存され、そのため文書イメージ210の領域は文書テ
キスト220の語に関係づけられ得る。特に相関テーブ
ル230は、文書イメージ210における領域を特定す
る座標対232、文書テキスト220における単語を特
定するオフセット対234、およびその単語に対する認
識確度パラメータ236を格納する。上記例では、文書
テキスト220の「form」という単語は、(16,11
0)および(31,149)の座標対232と、57お
よび60のオフセット対234と、55%の認識確度パ
ラメータ236を有する。
【0025】相関テーブル230を用いると、文書テキ
スト220における各オフセットは文書イメージ210
の領域に対応し、その逆も同じである。例えばオフセッ
ト58で文書テキスト220の文字が与えられると、そ
の文字が(16,110)および(31,149)の座
標を有する文書イメージ210内の矩形領域に該当して
いることを決めるために、相関テーブル230のオフセ
ット欄が調べられ得る。それから、それらの座標での文
書イメージ210における領域(上記例では「form」と
いう語)は、文書イメージ210から導き出されて表示
され得る。もう一方については、文書イメージ210の
座標(23,127)が与えられると、与えられた文書
イメージ210の座標が、57−60のオフセットを有
する文書テキスト220の単語内に見出されることを決
めるために、相関テーブル230の座標欄が調べられ得
る。それから文書テキスト220のそのオフセット領域
での語(上記例では「form」という語)が特定され得
る。従って、ここで説明された合成文書アーキテクチャ
は、文書テキスト220における語の配置を文書イメー
ジ210の対応する領域に関係づける一方法を提供して
いる。
【0026】〔3.誤認識の見込みを有する語の指摘〕
図4および図5のイメージ表示300,350では、文
書テキスト220における、最も誤認識の可能性の高い
語は、種々の方式(例えば明るくしたり、色やフォント
を変えたり、下線を付したり、きらめかせるなど)で表
示され得る。これらの語は、全ての認識された語の認識
確度パラメータ236を規定された閾値と比較すること
によって決められ得る。例えば認識確度パラメータ23
6が60%以下の語は赤で表示され、テキスト中の間違
っているおそれのある語にユーザの注意を向けさせるこ
とができる。例えば元の語「form」は、55%の認識確
度パラメータ236となり、それによって赤で表示され
る。別の例では、認識確度パラメータ236が低い語
は、その語の背景色を変えることによって、文書テキス
ト220から識別される(例えば文書テキスト220の
「form」という語は、はっきり見える色で強調され得
る)。
【0027】別の例では、さらに紙のテキストの各語に
関連した認識確度パラメータ236は、文書テキスト2
20の各語にふさわしい個々の表示色を決めて、認識さ
れた語の「ヒートマップ」を形成するために、複数の閾
値と比較される。ヒートマップは、複数の色を用いてス
ペクトルの種々の点でのパラメータ(例えば周波数、温
度または認識確度)の値を示した図表である。結果とし
て生じるヒートマップは、OCR出力について文書テキ
スト220の最も問題の有りそうな部分にユーザを導く
助けとなる。本例では、ユーザに表示される文書テキス
ト220の語は種々の色で表される。
【0028】図6について説明すると、ヒートマップ
は、文書テキスト220に対してステップS410で制
御されるループによって生成される。ステップS410
は、イメージ表示300およびイメージ表示350のう
ちの一方または両方に表示されるべき文書テキスト22
0の各語全部についてループをなす。ステップS420
で、文書テキスト220の表示された語に対応する認識
確度パラメータ236を見つけるために、相関テーブル
230が調べられる。それからこのパラメータ236
は、例えば60%、80%および90%のような複数の
閾値と引き続き比較される。
【0029】ステップS422−S434は、例えば閾
値を60%、80%および90%とした場合のヒートマ
ップ表示の生成処理を示している。まず最も低い閾値で
ある60%が比較用の閾値として使用される。認識確度
パラメータ236がその閾値よりも低い場合には、その
語の色は赤に設定される(ステップS424)。上記例
では、「form」という語は、その認識確度パラメータ2
36が55%であるため、赤で強調される。図4および
図5に示す例では、赤に設定される他の語は「general
」と「Constitution」であるかもしれない。
【0030】つぎにステップS426では、つぎに低い
閾値である80%が比較用の閾値として使用される。認
識確度パラメータ236がその閾値よりも低い場合に
は、文書テキスト220のその語の色は緑に設定される
(ステップS428)。上記例では、「Union 」という
語は、その認識確度パラメータ236が75%であって
よく、その場合には緑で表示される。図4および図5に
示す例では、緑に設定される他の語は「insure」と「se
cure」であるかもしれない。
【0031】ステップS430で、最後の閾値である9
0%が比較用の閾値として使用される。認識確度パラメ
ータ236がその閾値よりも低い場合には、文書テキス
ト220の語の色は青に設定される(ステップS43
2)。図4および図5に示す例では、青に設定される語
は「Tranquility 」と「establish 」になり得る。他
方、認識確度パラメータ236が全ての閾値よりも高い
場合には、文書テキスト220のその語の色は、デフォ
ルトの色として使用され得る黒に設定される(ステップ
S434)。一旦色が設定されると、文書テキスト22
0の語はその色で表示される(ステップS436)。
【0032】閾値に対する数および色が、本発明の趣旨
から逸脱することなく、実施の形態に応じて変わっても
よいことは十分に理解されよう。例えば閾値が1つ、2
つ、3つまたは10個でさえもかまわない。別の例とし
て、色の選択が変わってもよい(例えば赤、オレンジ、
黄色)。実際に例えば点滅や下線のような表示色以外の
表示属性が採用されてもよい。また図6のフローチャー
トに示すように分岐を厳格に体系化せずに、閾値および
表示色または他の表示属性が1つのテーブルに入力され
ていて1つのループで引き続き調べられてもよいことも
理解され得る。
【0033】〔4.文書イメージウィンドウの表示〕元
の紙の文書を参照するのに関する時間を減らすために、
元の紙の文書の読取り走査されたイメージ部分(すなわ
ち文書イメージ210)は、そのテキストのOCR解釈
上に表示される。アメリカ合衆国憲法を読取り走査した
例において、前文の読取り走査されたイメージ部分が、
図5に示すようにOCR出力上のウィンドウのイメージ
表示350内に表示されていてもよい。
【0034】イメージ表示350において、文書テキス
ト220は図5に示されるようにモニタに表示される。
それからユーザは、文書テキスト220の何らかの語の
上にカーソル360を位置させることによって文書テキ
スト220からある語を選択する。ユーザがマウスのあ
るボタンをクリックするか、あるいは同様なファンクシ
ョンキーを押すと、文書イメージ210の、選択された
語を囲む領域に対応する部分がポップアップウィンドウ
390として現れる。これによってユーザは、必要な時
には即座に文書イメージ210の部分を見ることができ
る。
【0035】文書イメージ210と文書テキスト220
との調和された動きは、文書テキスト220の各語の配
置を、相関テーブル230を用いて文書イメージ210
からの対応する領域に関係付けることによって達成され
る。カーソル制御手段124によって与えられる情報に
基づいて、文書テキスト220上の如何なる瞬間のカー
ソル360の位置も特定されて、当該技術分野において
周知のマッピング技術によって、イメージ表示350の
座標システムから文書テキスト220のオフセットシス
テムに変換され得る。それから相関テーブル230を用
いて、文書テキスト220に表れる各語のオフセット
は、文書イメージ210の対応する領域に対する座標に
関連付けられ得る。それから対応する領域を含む文書イ
メージ210の部分は、そのイメージ部分がポップアッ
プウィンドウ390内に表示され得るように、抽出され
る。そしてユーザは、文書テキスト220の対応する語
が文書イメージ210と一致することを確かめるため
に、文書イメージ210の表示部分を見ることができ
る。
【0036】別の例では、ポップアップウィンドウ39
0内に表示された文書イメージ210の部分は、文書テ
キスト220をヒートマップ化するために用いられたの
と同じ方式でヒートマップ化される。文書テキスト22
0の語の表示状態を文書イメージ210の対応する領域
に関連付けるため、文書テキスト220の特定の語の表
示状態をはっきり示すのに使用されるのと同じ認識確度
パラメータ236が、文書イメージ210の対応する領
域の表示状態をはっきり示すのに使用される。例えば相
関テーブル230において「form」という語に55%の
認識確度パラメータ236が割り当てられていることに
よって、その語は、文書テキスト220および文書イメ
ージ210の対応する領域の両方において赤で表示され
ることとなる。別の例では、文書テキスト220および
文書イメージ210の両方ともヒートマップで表示され
ず、文書イメージ210の部分が文書テキスト220上
のウィンドウ内に表示されるだけである。
【0037】〔5.OCR出力の誤りの訂正〕図6のフ
ローチャートには、本発明の一実施の形態によるOCR
出力の誤りの訂正処理も示されている。訂正を行うため
に、カーソル310は、例えばマウスやトラックボール
やジョイスティック、およびポップアップウィンドウ3
90を表示させるために使用されるマウスのボタンもし
くはファンクションキー以外のマウスのボタンやファン
クションキーのようなカーソル制御手段124を用いて
文書テキスト220の如何なる部分上にも配置される。
【0038】ステップS440で、プロセッサ112
は、イメージ表示300上のカーソル310の位置に関
してカーソル制御手段124からの入力を受け取る。こ
の入力は、カーソル310がイメージ表示300上に置
かれる時にはいつでも、あるいはユーザがボタンを操作
する時にのみ、カーソル制御手段124によって自動的
に生成されてもよい。後者の場合には、ユーザがボタン
を操作する時に、カーソル制御手段124はカーソル3
10の現在の位置を入力として送る。
【0039】ステップS440で受け取られる入力に関
連付けられるカーソル310の位置は、当該技術分野に
おいて周知のマッピング技術によって、イメージ表示3
00の座標システムから文書テキスト220のオフセッ
トシステムに変換される。図4に示す例では、イメージ
表示300におけるカーソル310の位置は文書テキス
ト220のオフセット59に対応していてもよい。
【0040】ステップS442で、ステップS440で
受け取られた入力から得られたオフセットを含むオフセ
ット対234を指定する記載を求めて、相関テーブル2
30が調べられる。上記例では、オフセット59はオフ
セット対57−60に含まれる。このオフセット対は、
オフセット対234の範囲内のオフセットにて文書テキ
スト220内に置かれた文字列を抜き出すのに使用され
る。
【0041】ステップS444で、オフセット57−6
0での文字列に対して可能性のある置換え語が生成され
る。当該技術分野において、可能性のある置換え語を生
成するために広範囲な種々の技術が知られているが、し
かし発明を実施するにはどれか特定の技術を必要としな
い。例えば可能性のある置換え語を生成するために、単
語レベルの反応が考慮され得る(例えばスペルチェック
をする)。さらに別の例として、句レベルの情報(例え
ばデータベース内に存在する連続語のマルコフモデル)
が用いられ得る。さらにはこれらの種々の技術は組み合
わされて重みを付けられ得る。上記例では、ステップS
444は、選択されたテキスト「domestic」に対して以
下の可能性のある置換え語の組、すなわち「dominat
e」、「demeanor」および「demotion」を生成してもよ
い。
【0042】ステップS446で、選択されたテキスト
に対する可能性のある置換え語は、カーソル310の近
くでポップアップメニュー330内に表示される。これ
らの置換え語が、選択されたテキストの潜在的な置換え
の見込みにしたがう序列でポップアップメニュー330
内に表示されることは好ましい(すなわち選択されたテ
キストが間違っていると考えられる場合には、ポップア
ップメニュー330のリストの一番上にある置換え語
が、最も置換え語として使用されるそうである)。一実
施の形態では、ユーザが文書テキスト220の一部を手
休めずに削除することができるようにするために、削除
のオプションもカーソル310近くのポップアップメニ
ュー330内に設けられる。
【0043】別の例によれば、カーソル310が文書テ
キスト220のある語の上にある場合には、選択された
テキストに対するポップアップメニュー330が自動的
に表示される。従ってユーザは、文書テキスト220の
テキストの表示列の上にカーソル310を動かすことが
でき、選択されたテキストをポップアップメニュー33
0内の可能性のある置換え語と迅速に比較することがで
きる。
【0044】ポップアップメニュー330が表示される
場合、ユーザは、文書イメージ210の部分を含むポッ
プアップウィンドウ390を見て、文書テキスト220
の選択されたテキストが正しくないということを決めて
もよい。この場合には、ユーザは、正しい置換え語を選
択するためにポップアップメニュー330内の可能性の
ある置換え語を見るであろう。正しい置換え語が見つか
ると、ユーザは正しい置換え語を選択することができる
(例えば適当な語を強調し、カーソル制御手段124の
ボタンをクリックするかまたはボタンを押している手を
放すようにする)。上記例では、「domestic」という語
に対する正しい置換え語は、ポップアップメニュー33
0内の「dominate」と「demotion」の間に表示された
「demeanor」かもしれない。
【0045】この時点で、ステップS448におけるよ
うにプロセッサ112は、意図された訂正のために入力
を受け取り、ステップS450におけるように文書テキ
スト220の語を、ユーザが選択した訂正で置き換え
る。しかしながらポップアップメニュー330内に正し
い置換え語がない場合には、ユーザは従来通りのやり方
で(例えばキーボード122を介して)正しい置換え語
を入力してもよい。可能性のある置換え語を生成してそ
れらをポップアップメニュー330内に表示することに
よって、OCR出力に対する訂正に費やされる時間が減
少する。
【0046】一旦ユーザが文書テキスト220に対して
訂正を行うかまたは何らかの方法で文書テキスト220
を変更すると、相関テーブル230は、この行為が起こ
ったことを反映するために更新されなければならない。
加えて、文書テキスト220の正された語の認識確度パ
ラメータ236は自動的に100%に再設定され、文書
テキスト220における選択されたテキストはデフォル
トの色(例えば黒)に戻る。
【0047】本発明は、ある好ましい実施の形態につい
て言及しながらかなり詳細に説明され、また図示された
が、他の変形例が可能である。上記説明を読むと、本発
明の趣旨または範囲から逸脱することなく、形態または
細部について上記説明または図における変形がなされて
もよいということは、当業者にとって明らかである。
【0048】
【発明の効果】以上説明したとおり、この発明に係る光
学式文字認識出力のポップアップ訂正のための方法およ
び装置にあっては、ユーザが文書イメージからなるテキ
ストをそのテキストのOCR解釈と一緒に比較すること
ができる効果を奏する。また、OCR解釈を生成するの
に使用された元の文書をユーザが参照する必要がなく、
ユーザが文書イメージで表されたテキストをそのテキス
トのOCR解釈と一緒に比較することができる効果を奏
する。さらに、元のテキストをOCR出力のテキストに
変換している間に起こった間違いを正すために、ユーザ
が文書イメージで表されたテキストをそのテキストのO
CR解釈と比較することができる効果を奏する。
【図面の簡単な説明】
【図1】本発明が実施され得るコンピュータシステムを
示す上位ブロック図である。
【図2】合成文書アーキテクチャを示すブロック図であ
る。
【図3】合成文書の生成処理を示すフローチャートであ
る。
【図4】本発明の一実施の形態によるスクリーン表示の
一例を示す図である。
【図5】本発明の他の実施の形態によるスクリーン表示
の一例を示す図である。
【図6】本発明の一実施の形態によるOCR出力におけ
る誤りの発見および訂正処理を示すフローチャートであ
る。
【符号の説明】
112 プロセッサ 120 表示装置 122 キーボード 124 カーソル制御手段 126 スキャナー装置 128 光学式文字認識装置 210 文書イメージ 220 文書テキスト 230 相関テーブル 236 認識確度パラメータ 330 ポップアップメニュー

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 テキストを表示する方法において、 ある文書の文書イメージを生成する工程と、 文書テキストを生成するために前記文書イメージから文
    字を認識する工程と、 前記文書テキストの語に対応する前記文書イメージの領
    域を決める工程と、 相関テーブルを用いて前記文書イメージの前記領域を前
    記文書テキストの対応する語と関連させる工程と、 前記文書テキスト上に前記文書イメージの部分を表示す
    る工程と、 を含むことを特徴とする光学式文字認識出力のポップア
    ップ訂正のための方法。
  2. 【請求項2】 前記文書イメージの前記領域は、それぞ
    れの認識確度パラメータを示すように表示されることを
    特徴とする請求項1に記載の光学式文字認識出力のポッ
    プアップ訂正のための方法。
  3. 【請求項3】 前記文書テキストの前記対応する語は、
    それぞれの認識確度パラメータを示すように表示される
    ことを特徴とする請求項1に記載の光学式文字認識出力
    のポップアップ訂正のための方法。
  4. 【請求項4】 前記文書イメージの前記領域および前記
    文書テキストの前記対応する語の両方とも、それぞれの
    認識確度パラメータを示すように表示されることを特徴
    とする請求項1に記載の光学式文字認識出力のポップア
    ップ訂正のための方法。
  5. 【請求項5】 前記文書テキストにおけるある位置を選
    択する入力を受け取る工程と、 前記文書テキストの前記位置に対応する選択されたテキ
    ストを決定する工程と、 前記選択されたテキストを訂正するための入力を受け取
    る工程と、 前記選択されたテキストに対してなされた訂正を反映す
    るために、前記相関テーブルを最新情報を含む情報に更
    新する工程と、 をさらに含むことを特徴とする請求項1に記載の光学式
    文字認識出力のポップアップ訂正のための方法。
  6. 【請求項6】 前記選択されたテキストを訂正するため
    の入力を受け取る工程は、前記選択されたテキストを削
    除する工程を含むことを特徴とする請求項5に記載の光
    学式文字認識出力のポップアップ訂正のための方法。
  7. 【請求項7】 前記選択されたテキストを訂正するため
    の入力を受け取る工程は、 前記選択されたテキストに対する1または2以上の置換
    え語を決定する工程と、 前記選択されたテキストに対する前記1または2以上の
    置換え語を表示する工程と、 前記選択されたテキストに対する置換え語を指示する入
    力を受け取る工程と、 前記選択されたテキストを前記置換え語で置き換える工
    程と、 を含むことを特徴とする請求項5に記載の光学式文字認
    識出力のポップアップ訂正のための方法。
  8. 【請求項8】 置換え語を指示する入力を受け取る工程
    は、前記置換え語のキーボード入力を受け取る工程を含
    むことを特徴とする請求項7に記載の光学式文字認識出
    力のポップアップ訂正のための方法。
  9. 【請求項9】 前記1または2以上の置換え語はポップ
    アップメニュー内に表示されることを特徴とする請求項
    7に記載の光学式文字認識出力のポップアップ訂正のた
    めの方法。
  10. 【請求項10】 テキストを表示する装置は、 ある文書の文書イメージを生成するためのスキャナー装
    置と、 文書テキストを生成するために文書イメージ内の文字を
    認識するための光学式文字認識装置と、 前記文書テキストの語に対応する前記文書イメージの領
    域を決め、かつ相関テーブルを用いて前記文書イメージ
    の前記領域を前記文書テキストの対応する語と関連させ
    るためのプロセッサと、 前記文書テキスト上に前記文書イメージの部分を表示す
    るための表示装置と、 を具備することを特徴とする光学式文字認識出力のポッ
    プアップ訂正のための装置。
  11. 【請求項11】 前記表示装置は、前記文書イメージの
    前記領域を、それぞれの認識確度パラメータを示すよう
    に表示することを特徴とする請求項10に記載の光学式
    文字認識出力のポップアップ訂正のための装置。
  12. 【請求項12】 前記表示装置は、前記文書テキストの
    前記対応する語を、それぞれの認識確度パラメータを示
    すように表示することを特徴とする請求項10に記載の
    光学式文字認識出力のポップアップ訂正のための装置。
  13. 【請求項13】 前記表示装置は、前記文書イメージの
    前記領域および前記文書テキストの前記対応する語の両
    方とも、それぞれの認識確度パラメータを示すように表
    示することを特徴とする請求項10に記載の光学式文字
    認識出力のポップアップ訂正のための装置。
  14. 【請求項14】 さらに前記文書テキストにおけるある
    位置を選択する入力を受け取るためのカーソル制御手段
    を含み、 前記プロセッサは、 前記文書テキストの前記位置に対応する選択されたテキ
    ストを決定し、 前記選択されたテキストを訂正するための入力を受け取
    り、 前記選択されたテキストに対してなされた訂正を反映す
    るために、前記相関テーブルを最新情報を含む情報に更
    新することを特徴とする請求項10に記載の光学式文字
    認識出力のポップアップ訂正のための装置。
  15. 【請求項15】 前記プロセッサは、前記選択されたテ
    キストを削除することによって、前記選択されたテキス
    トを訂正するための入力を受け取ることを特徴とする請
    求項14に記載の光学式文字認識出力のポップアップ訂
    正のための装置。
  16. 【請求項16】 前記プロセッサは、 前記選択されたテキストに対する1または2以上の置換
    え語を決定し、 前記選択されたテキストに対する前記1または2以上の
    置換え語を表示するために表示装置を制御し、 前記選択されたテキストに対する置換え語を指示する入
    力を受け取り、 前記選択されたテキストを前記置換え語で置き換えるこ
    とによって、 前記選択されたテキストを訂正するための入力を受け取
    ることを特徴とする請求項14に記載の光学式文字認識
    出力のポップアップ訂正のための装置。
  17. 【請求項17】 さらに前記選択されたテキストに対す
    る前記置換え語を入力するためのキーボードを具備する
    ことを特徴とする請求項16に記載の光学式文字認識出
    力のポップアップ訂正のための装置。
  18. 【請求項18】 前記表示装置は、前記1または2以上
    の置換え語をポップアップメニュー内に表示するように
    制御されることを特徴とする請求項16に記載の光学式
    文字認識出力のポップアップ訂正のための装置。
JP10110884A 1997-07-25 1998-04-21 光学式文字認識出力のポップアップ訂正のための方法および装置 Pending JPH11102413A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US90078397A 1997-07-25 1997-07-25
US08/900783 1997-07-25

Publications (1)

Publication Number Publication Date
JPH11102413A true JPH11102413A (ja) 1999-04-13

Family

ID=25413071

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10110884A Pending JPH11102413A (ja) 1997-07-25 1998-04-21 光学式文字認識出力のポップアップ訂正のための方法および装置

Country Status (1)

Country Link
JP (1) JPH11102413A (ja)

Similar Documents

Publication Publication Date Title
US6453079B1 (en) Method and apparatus for displaying regions in a document image having a low recognition confidence
US6532461B2 (en) Apparatus and methodology for submitting search oueries
JPH11110480A (ja) テキストの表示方法およびその装置
JP4071328B2 (ja) 文書画像処理装置および方法
US6363179B1 (en) Methodology for displaying search results using character recognition
US7310769B1 (en) Text encoding using dummy font
JP2007042126A (ja) ラスタ画像表示用ハイブリッドデータ構造生成方法及び装置
US20200104586A1 (en) Method and system for manual editing of character recognition results
US11348331B2 (en) Information processing apparatus and non-transitory computer readable medium
JPH11102413A (ja) 光学式文字認識出力のポップアップ訂正のための方法および装置
JPH11102415A (ja) 光学式文字認識出力の二元スクリーン表示のための方法および装置
JPH11102412A (ja) ビットマップ選択を用いて光学式文字認識の訂正を行うための方法および装置、並びに、ocr出力の誤りを訂正するために一連の命令を記録したコンピュータ読み取り可能な記録媒体
JP4633773B2 (ja) 文書画像処理装置および方法
US20240020075A1 (en) Information processing apparatus, control method therefor, and storage medium
JP2007058819A (ja) 索引情報生成装置
JPH01292587A (ja) 画像処理方法
JP2901525B2 (ja) 文字作成方式
JP2669897B2 (ja) 誤読文字の修正方法
JPH06223221A (ja) 文字認識装置
JP4589370B2 (ja) 文書画像処理装置および方法
JPH06290308A (ja) 文字認識装置
JP3333075B2 (ja) 文書処理方法
JP3302211B2 (ja) 文字処理システム及びその外字パターン登録方法
JP2683711B2 (ja) 文字・記号データの認識・修正方法
JP4081074B2 (ja) 帳票処理装置、帳票処理方法、及び帳票処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050420

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071030

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080513