JPH04195692A - 文書読取装置 - Google Patents

文書読取装置

Info

Publication number
JPH04195692A
JPH04195692A JP2328462A JP32846290A JPH04195692A JP H04195692 A JPH04195692 A JP H04195692A JP 2328462 A JP2328462 A JP 2328462A JP 32846290 A JP32846290 A JP 32846290A JP H04195692 A JPH04195692 A JP H04195692A
Authority
JP
Japan
Prior art keywords
word
words
character
processing
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2328462A
Other languages
English (en)
Other versions
JP2835178B2 (ja
Inventor
Akio Sannomiya
三宮 昭夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2328462A priority Critical patent/JP2835178B2/ja
Priority to US07/799,305 priority patent/US5265171A/en
Publication of JPH04195692A publication Critical patent/JPH04195692A/ja
Application granted granted Critical
Publication of JP2835178B2 publication Critical patent/JP2835178B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/191Automatic line break hyphenation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の目的〕 (産業上の利用分野) 本発明は、英文等の一般文書の文字の読取りを行なう文
書読取装置に関する。
(従来の技術) 近年では、英文等の一般文書の文字の読取りを行なう文
書読取装置が開発され、使用され始めている。このよう
な、文書読取装置では、読取りの対象となる文書の読取
りのフォーマットも、また内容自体も多様なものとなっ
ている。
また、読取結果に対する確認,修正を行なうために、例
えば英文の場合には、単語に対するスベルチェック等を
行なうことかある。このスペルチェックを行なう機能を
有する装置では、文字の読取結果からチエツクの対象と
なる単語を切り出すことが、その正確性を向上させるた
めの重要な要素となっている。
通常、単語の切り出しは、用紙に記録された各単語の物
理的な切れ目に基づいて行なっている。
具体的には、単語間のスペースの大小の判定を行ない、
所定値以上のスペースがあれば単語の切れ目と判別する
ものである。ところが、一般の英語の文書では、本来の
単語の切れ目と、印刷された用紙上での物理的切れ目と
異なる場合か多い。
例えば、次のような独立した単語がハイフンによって接
続されて生成された合成語r budget−1ine
Jは1語として切り出される。また、単語r impo
rtantJが行末に存在してrig−Jと次行始めの
rportantJに分割された場合(以下、このよう
な単語を分離語と称する)には2語として切り出される
このような合成語、分離語は、通常、スペルチJ−ツク
機能に予め用意された辞書に登録されていない。すなわ
ち、前記に示す合成語中のrbudgetJNineJ
は別々に処理の対象とするべきものであり、また分離語
は本来の単語と別の単語(文字列)か処理の対象とされ
てしまう。このため、スペルチェックを行なっても正し
い結果を得ることかできない。
また、合成語、分離語を含んだ単語を全て辞書に登録す
ることも考えられるか、この場合、単語数が膨大なもの
になるため、辞書を記憶するための容量を多く必要とし
実用的ではない。
(発明か解決しようとする課題) このように、従来の文書読取装置では、合成語や分離語
についてはスペルチェック処理に供するべき単語が正し
く切り出すことかできなかった。
このため、スペルチェック処理を実行しても正しい結果
が得られず、文字認識処理結果についての確認、修正を
確実に行なうことができなかった。
本発明は前記のような点に鑑みてなされたもので、文字
認識結果について確認、修正を行なうための単語処理(
スペルチェック)を、良好に処理、運用することが可能
な文書読取装置を提供することを目的とする。
[発明の構成] (課題を解決するための手段) 本発明は、読取対象となる文書についての文字認識処理
の結果について単語処理を行なう単語処理機能を有する
文書読取装置において、文字認識処理の結果から、単語
処理の対象とすべき単語を切出す単語切出し手段を具備
して構成するものである。
また、前記単語切出し手段によって得られた単語につい
ての単語処理結果に基づいて、誤った単語に対応する候
補単語を求める候補単語抽出手段と、前記候補単語抽出
手段によって得られた候補単語に基づいて、誤った単語
について修正を行なう単語修正手段と、前記単語修正手
段によって修正された単語を、前記単語切出し手段によ
って切出される前の形式に復元する単語復元手段とをさ
らに具備し、前記単語修復手段によって復元された単語
に基づいて、表示を行なうように構成するものである。
(作用) このような構成によれば、単語処理機能による単語処理
に応した処理対象とすべき単語が切出されるため、必要
以上に処理対象単語数を増加させる必要がない。つまり
、合成語、分離語については、そのまま単語処理の対象
とせずに、不必要な文字(ハイフン)を除いた、本来の
1単語毎に切出され、単語処理に供される。
(実施例) 以下、図面を参照して本発明の一実施例を説明する。第
1図は同実施例に係わる文書読取装置の構成を示すブロ
ック図である。同実施例においては、英文の一般文書に
ついて文字読取処理を行なう場合を例にして説明する。
同図において、1゜は装置全体の制御を司る制御部であ
る。制御部10は、スキャナ制御部13、画像処理部1
4、認識処理部I5、単語処理HI6、表示処理部17
、及び入力処理部19の制御を行なう。
スキャナ制御部13は、制御部IOのちとにスキャナ部
23の制御を行なう。スキャナ部23は、文書を光学的
に走査し、文字等の画像を検出する。画像処理部14は
、スキャナ部23によって検出された画像データをもと
に、文書のサイズ、文書中の文字か記録された文字読取
処理の対象とする読取領域(文書ブロック)の検出、文
書ブロック内に含まれる各読取行の抽出、及び1文字毎
に文字パターンの切出しを行なう。認識処理部15は、
切出された文字パターンについて、予め設定された文字
認識処理用の辞書(図示せず)を参照しながら、1文字
毎に文字認識処理を行なう。単語処理部1Gは、文字認
識処理の結果、及び切出された文字の位置等に基づいて
単語を切り出し、この単語について予め設定された単語
辞書(図示せず)を参照して単語処理(スペルチェック
)を行なう。ここで、単語の切り出しは、用紙等に印刷
された文書の状態をもとに得られた物理上の単語が合成
語1分離語であっても、この単語を単語処理の対象とす
べき論理上の単語に変換して行なう。そして、切り出し
た単語に対応する類傭した他の単語(候補単語)を求め
る。表示処理部17は、制御部IOの制御のもとに、表
示装置24の表示制御を行なう。表示装置24は、装置
の動作状態を通知する人間−マシンインターフェイスの
出力部分に相当し、例えば認忠結果についての確認修正
を行なう処理において第4図に示すような表示を行なう
。入力処理部19は、キーボード25.マウス26から
の人力情報を制御する。
30はメモリであり、画像格納領域31、レイアウト・
切出し情報格納領域32、認識情報格納領域33、単語
情報格納領域34が設けられている。画像格納領域31
は、スキャナ部23によって検出された画像データを格
納するだめのものである。レイアウト・切出し情報格納
領域32は、画像処理部14における処理によって得ら
れた文書サイズ、文書中の文書ブロックのレイアウト(
位置)を示すレイアウト情報、及び文書中の各読取行、
各文字の位置を示す切出し情報を格納するためのもので
ある。認識情報格納領域33は、認識処理部15におけ
る処理によって得られた各文字についての文字認識結果
を格納するためのものである。単語情報格納領域34は
、単語処理部I6における「=」(ハイフン)を単語中
から削除する処理によって得られた情報くハイフン位置
等)や、単語認識結果(候補単語)等を格納するための
ものである。
次に、同実施例の動作について第2図に示すフローチャ
ートを参照しながら説明する。
まず、スキャナ制御部13の制御のもとにスキャナ部2
3において、文字読取処理の対象とする文書を光学的に
走査し、文書中の文字の文字パターンを含む画像データ
の検出が行なわれる。検出された画像データは、スキャ
ナ制御部13を介して入力され、メモリ30の画像格納
領域31に格納される。
ここでは、画像格納領域31に、1文書分の画像データ
が格納されるものとする(ステップSl)。
スキャナ部23によって1文書の走査が終了すると、制
御部10は、画像処理部14に対して検出された画像デ
ータについて文書ブロックのレイアウト等の解析を指示
する。制御部10からの指示を受けると、画像処理部1
4は、画像格納領域31に格納された1文書分の画像デ
ータをもとに、例えばX。
Y軸方向に射影をとることによって、文書サイズと、図
形、イラスト等が記録された領域を除いた文字パターン
か存在する文字読取処理の対象する読取領域(文書ブロ
ック)の抽出を行なう。文書ブロックは、文書中の内容
的なまとまりであり、所定以上の行間隔、複数の行に渡
る同一桁における文字間隔によって区分されるものとす
る。画像処理部14は、行間隔1文字間隔が所定以上あ
るか否かによって文書ブロックを抽出し、各文書ブロッ
クを文書ブロック内の文字を全て含む矩形によって位置
を表すものとする。さらに、画像処理部14は、文書ブ
ロック内に含まれる各読取行、及び読取行内の各文字の
検出切出しを行なう。これらの処理の結果得られた文書
サイズ、文書ブロック。
読取行1文字の位置は、それぞれ矩形枠の対角の座標点
によって表され、レイアウト・切出し情報格納領域32
に格納される(ステップS2)。
次に、制御部10は、認識処理部15に対して、文字認
識処理の実行を指示する。認識処理部15は、画像処理
部14によって切出された文字の文字パターンと、文字
毎の認識処理を行なうための辞書(図示せず)とを照合
することによって文字を認識する。各文字パターンにつ
いての文字認識処理の結果は、4議情報格納部33に格
納される(ステップS3)。
制御部1aは、文書単位で画像入力、レイアウト解析・
検出切り出し、文字認議の処理(ステップ81〜S3)
を実行させる。1文書分の文字認識処理が終了すると、
制御部10は、単語処理部16に対して単語処理の実行
を指示する。
制御部10によって単語処理の実行が指示されると、単
語処理部16は、レイアウト・切出し情報格納領域32
に格納された各読取行、各文字の位置を示す切出し情報
と、認識情報格納領域33に格納された認識処理の結果
をもとに単語を作成する。例えば、切比し情報から、同
一行の文字と文字との間に所定以上の間隔(スペース)
かある位置を単語の区切りと判別し、この区切りによっ
て規定される文字認識処理結果の集合を一つの単語とす
るものである。
まず、こうして得られた1単語分の文字認識結果(]単
語)を入力する(ステップS4)。単語処理部16は、
1単語中から「−」(ハイフン)の検出を行なう(ステ
ップS5)。通常、一般の英語の文書においては、複数
の単語をハイフンによって接続することによって合成語
か生成されている。また、行末における単語か、文書を
用紙の印刷する際に改行せざるを得ない都合上、当行と
次行とに分離された場合(分離語)には、当行中の前部
の文字列最後尾にハイフンが付されている。
単語処理部16は、スペルチェックに不要なハイフンを
削除し、チエツクの対象とする本来の単語の生成を行な
う。
ここで、具体的な例を用いて説明する。第3図には、読
取りの対象とする用紙に印刷された文書の一例を示して
いる。また、第4図には、文字認識処理の結果、表示装
置24に表示された内容を示している。
ステップS5における「=」の検出の結果、単語中に「
−」か存在し、かつ単語の文字位置か行末である場合に
は(ステップS6)、分離語または合成語であると判別
する。この場合、前部の文字列の最後尾に接続されたハ
イフン「−」を削除し、次行の第1単語を入力する。そ
して、当行のハイフンが削除された文字列と、次行の第
1単語とを合併し単語を生成する。第3図中においては
、A −1,A−2によって示す単語(rcom−me
ntsJ )が、分離語の例に当たる。行末の単語r 
coIl−Jは、英語としての単語を成しておらず、文
書を印刷する上で改行せざるを得ない都合上、語末に「
−」が付加され、それ以降のrmentsJが次行に印
刷されたものである。ステップS7の処理によって、分
離語の場合では、本来の単語か得られる。なお、このス
テップでは、合併によって得られた単語と、ハイフンが
削除された行末位置の単語をステップS9におけるスペ
ルチェックに供する単語として用意する。すなわち、合
成語であった場合に、ハイフンが削除された本来の単語
によってスペルチェックを行なうためである。
一方、ステップS5における「−」の検出の結果、単語
中に「−」か存在し、かつ単語の文字位置か文字位置の
情報から行末ではないと判別された場合には(ステップ
S6)、合成語であると判別する。第3図中においては
、Bによって示す単語(rAmerican−Jewi
shJ )が、この例に当たる。
この場合、ハイフン「−」を削除し、単語を分割する(
ステップS8)。第3図に示す合成語は、ハイフンが1
つ存在するため、2つの単語に分割される。
なお、ステップS5において、人力した単語中に「−」
が存在しない場合には、一般の単語であると判別する。
こうして、用紙等に印刷された文書の状態をもとに得ら
れた物理上の単語を論理上の単語に変換すると、この単
語について文字認識処理用の辞書を参照しながらスペル
チェックを行なう(ステップS9)。なお、ステップS
7において用意された2単語についてスペルチェックを
行なった結果、誤りの少ない方か本来の単語であるとす
る。すなわち、分離語であれば合併して得られた単語の
方が誤りか少なく、合成語であればハイフンを削除した
単語の方か誤りが少なくなる。ここで、行末の単語か分
離語であると判別された際には、次行の処理において第
1単語の処理が不要となる。
このスペルチェック処理において誤りが発見された場合
、すなわち文字認識処理の結果中にリジェクト(読取拒
否)や、または正しく4譚されていない文字(誤読)が
存在する場合には、スペルチェック処理の結果を用いて
、文字の修正を行なうことができる。つまり、リジェク
ト文字や誤読文字以外の文字が一致、または類似する複
数(1つでも良い)の候補単語をスペルチェック処理に
よって求める。そして、候補単語を表示装置24の表示
画面中に表示し、キーボード25、またはマウス26を
用いて1つの単語を選択させる。
ステップSIOにおいては、選択された正解単語と誤っ
た単語とを置換し、その結果を表示する。
例えば、第4図中のC−1に示すように、カーソル30
が位置する分離語にリジェクト文字(図中−部分の文字
)か存在する場合には、候補文字から正解単語が選択さ
れるとステップ55〜S8までの処理内容に応じて、「
−」(ハイフン)をC−2の文字列との間の所定の位置
に復元して表示を行なう。また、合成語の場合について
も、第4図中のDに示すように、同様に正解単語の各単
語間にハイフンを復元して、表示を行なう。
こうして、単語の置換処理を行ないりジエクト文字、誤
読文字か修正され、正解単語を表示させると、次単語の
処理に移行するための準備を行なう(ステップ512)
以下、同様にして、1文書中の各単語について順次処理
を実行する。
なお、前記実施例においては、1単語毎に入力し、スペ
ルチェックによってリジェクトや誤読した文字を含む単
語について候補単語を表示して選択させるようにしてい
るが、1文書中の全単語についてスペルチェックを行な
った後に、修正すべき単語を任意に選択させることによ
って候補単語を表示し、正解単語の選択、修正を行なう
ようにしても良い。
このようにして、文字認識処理の結果について単語処理
(スペルチェック)を行なう際に、合成語、分離語であ
っても処理対象とすべき単語を切出すので、確認・修正
処理をより正確に行なうことができる。
[発明の効果] 以上のように本発明によれば、単語処理機能による単語
処理(スペルチェック)の対象とすべき単語が切出され
るため、文書中に合成語や分離語が含まれている場合で
あっても直接処理対象とされないので、より確実にチエ
ツクが行われ、確認・修正処理を正確に行なうことがで
きるものである。
【図面の簡単な説明】
第1図は本発明の一実施例に係わる文書読取装置の構成
を示すブロック図、第2図は同実施例における文字読取
処理の処理手順を示すフローチャート、第3図は読取り
の対象とする用紙に印刷された文書の一例を示す図、第
4図は表示装置に表示された文字認識処理の結果の内容
を示す図である。 10・・・制御部、13・・・スキャナ制御部、14・
・・画像処理部、15・・認識処理部、16・・・単語
処理部、17・・・表示処理部、19・・・入力処理部
、23・・・スキャナ部、24・・・表示装置、25・
・・キーボード、26・・・マウス、30・・・メモリ
、31・・・画像格納領域、32・・レイアウト・切出
し情報格納領域、33・・・4諜情報格納領域、34・
・・単語情報格納領域。 出願人代理人 弁理士 鈴江武彦

Claims (2)

    【特許請求の範囲】
  1. (1)読取対象となる文書についての文字認識処理の結
    果について単語処理を行なう単語処理機能を有する文書
    読取装置において、 前記文字認識処理の結果から、前記単語処理の対象とす
    べき単語を切出す単語切出し手段を具備し、 前記単語切出し手段によって切出された単語について単
    語処理を行なうことを特徴とする文書読取装置。
  2. (2)前記単語切出し手段によって得られた単語につい
    ての単語処理結果に基づいて、誤った単語に対応する候
    補単語を求める候補単語抽出手段と、 前記候補単語抽出手段によって得られた候補単語に基づ
    いて、誤った単語について修正を行なう単語修正手段と
    、 前記単語修正手段によって修正された単語を、前記単語
    切出し手段によって切出される前の形式に復元する単語
    復元手段と、 をさらに具備し、 前記単語復元手段によって復元された単語に基づいて、
    表示を行なうことを特徴とする第1請求項記載の文書読
    取装置。
JP2328462A 1990-11-28 1990-11-28 文書読取装置 Expired - Lifetime JP2835178B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2328462A JP2835178B2 (ja) 1990-11-28 1990-11-28 文書読取装置
US07/799,305 US5265171A (en) 1990-11-28 1991-11-27 Optical character reading apparatus for performing spelling check

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2328462A JP2835178B2 (ja) 1990-11-28 1990-11-28 文書読取装置

Publications (2)

Publication Number Publication Date
JPH04195692A true JPH04195692A (ja) 1992-07-15
JP2835178B2 JP2835178B2 (ja) 1998-12-14

Family

ID=18210539

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2328462A Expired - Lifetime JP2835178B2 (ja) 1990-11-28 1990-11-28 文書読取装置

Country Status (2)

Country Link
US (1) US5265171A (ja)
JP (1) JP2835178B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007073044A (ja) * 2005-09-02 2007-03-22 Xerox Corp Pdf変換器用テキスト修正
JP2010157241A (ja) * 2008-12-30 2010-07-15 Nhn Corp Ocr結果を補正するための方法、システム、及びコンピュータ読み取り可能な記録媒体

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5488719A (en) * 1991-12-30 1996-01-30 Xerox Corporation System for categorizing character strings using acceptability and category information contained in ending substrings
JPH06274680A (ja) * 1993-03-17 1994-09-30 Hitachi Ltd 文書認識方法およびシステム
CA2154952A1 (en) * 1994-09-12 1996-03-13 Robert M. Ayers Method and apparatus for identifying words described in a page description language file
EP0702322B1 (en) * 1994-09-12 2002-02-13 Adobe Systems Inc. Method and apparatus for identifying words described in a portable electronic document
JP2845149B2 (ja) * 1994-12-28 1999-01-13 日本電気株式会社 手書文字入力装置および手書文字入力方法
US6298158B1 (en) * 1997-09-25 2001-10-02 Babylon, Ltd. Recognition and translation system and method
JP3707997B2 (ja) * 2000-05-31 2005-10-19 富士通株式会社 払込帳票判別方法及びその装置
US7401290B2 (en) * 2001-03-05 2008-07-15 Adobe Systems Incorporated Inhibiting hypenation clusters in automated paragraphs layouts
US20030232371A1 (en) * 2001-10-24 2003-12-18 Bestor Timothy H. Methods for detecting methylated promoters based on differential DNA methylation
US7475340B2 (en) * 2005-03-24 2009-01-06 International Business Machines Corporation Differential dynamic content delivery with indications of interest from non-participants
US7493556B2 (en) * 2005-03-31 2009-02-17 International Business Machines Corporation Differential dynamic content delivery with a session document recreated in dependence upon an interest of an identified user participant
JP4533273B2 (ja) * 2005-08-09 2010-09-01 キヤノン株式会社 画像処理装置及び画像処理方法、プログラム
US7593572B2 (en) * 2006-02-09 2009-09-22 Microsoft Corporation Ink-parser-parameter optimization
AU2008229628A1 (en) * 2007-03-16 2008-09-25 Human Genetic Signatures Pty Ltd Assay for gene expression
US9384389B1 (en) * 2012-09-12 2016-07-05 Amazon Technologies, Inc. Detecting errors in recognized text
US9256592B1 (en) * 2012-11-07 2016-02-09 Amazon Technologies, Inc. System for detecting and correcting broken words
JP7234495B2 (ja) * 2018-01-25 2023-03-08 富士フイルムビジネスイノベーション株式会社 画像処理装置及びプログラム
US11170055B2 (en) * 2018-12-28 2021-11-09 Open Text Sa Ulc Artificial intelligence augmented document capture and processing systems and methods

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63106074A (ja) * 1986-10-23 1988-05-11 Ricoh Co Ltd 形態素解析における行末ハイフンの処理方式
JPS6473483A (en) * 1987-09-16 1989-03-17 Tokyo Keiki Kk Device for checking spelling of foreign sentence

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3969700A (en) * 1974-04-10 1976-07-13 International Business Machines Corporation Regional context maximum likelihood error correction for OCR, keyboard, and the like
JPS5998283A (ja) * 1982-11-27 1984-06-06 Hitachi Ltd パターン切出しおよび認識方法、ならびにそのシステム
US4611346A (en) * 1983-09-29 1986-09-09 International Business Machines Corporation Method and apparatus for character recognition accommodating diacritical marks
US4907285A (en) * 1984-08-24 1990-03-06 Hitachi, Ltd. Image understanding system
JPH07107694B2 (ja) * 1984-08-31 1995-11-15 株式会社日立製作所 文書処理装置
JPH0797373B2 (ja) * 1985-08-23 1995-10-18 株式会社日立製作所 文書フアイリングシステム
JPH0743773B2 (ja) * 1986-02-27 1995-05-15 キヤノン株式会社 画像処理装置
JPS63155386A (ja) * 1986-12-19 1988-06-28 Ricoh Co Ltd 帳票デ−タ読取装置
JPH0634256B2 (ja) * 1987-03-04 1994-05-02 シャープ株式会社 接触文字切出し方法
JPH07104909B2 (ja) * 1987-03-04 1995-11-13 シャープ株式会社 文字認識方法
US4907283A (en) * 1987-03-13 1990-03-06 Canon Kabushiki Kaisha Image processing apparatus
JPH02201588A (ja) * 1989-01-31 1990-08-09 Toshiba Corp 文字読取装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63106074A (ja) * 1986-10-23 1988-05-11 Ricoh Co Ltd 形態素解析における行末ハイフンの処理方式
JPS6473483A (en) * 1987-09-16 1989-03-17 Tokyo Keiki Kk Device for checking spelling of foreign sentence

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007073044A (ja) * 2005-09-02 2007-03-22 Xerox Corp Pdf変換器用テキスト修正
JP2010157241A (ja) * 2008-12-30 2010-07-15 Nhn Corp Ocr結果を補正するための方法、システム、及びコンピュータ読み取り可能な記録媒体

Also Published As

Publication number Publication date
US5265171A (en) 1993-11-23
JP2835178B2 (ja) 1998-12-14

Similar Documents

Publication Publication Date Title
JPH04195692A (ja) 文書読取装置
EP0439951B1 (en) Data processing
US5664027A (en) Methods and apparatus for inferring orientation of lines of text
KR100570224B1 (ko) 전표정의데이터 작성방법 및 전표처리장치
JPH05282488A (ja) 文書画像の復号なしに文書の意味的に重要な部分の自動変更のための方法
JP2004046315A (ja) 文字認識装置および文字認識方法、プログラムおよび記憶媒体
US7680329B2 (en) Character recognition apparatus and character recognition method
JP2000315247A (ja) 文字認識装置
JP2002015280A (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JP5041775B2 (ja) 文字切出方法及び文字認識装置
JP3215176B2 (ja) 文書画像処理装置及び文書画像処理方法
JP3159087B2 (ja) 文書照合装置および方法
JPH0991371A (ja) 文字表示装置
JP3197441B2 (ja) 文字認識装置
JP4318311B2 (ja) 帳票並びに帳票処理装置および帳票処理プログラム
JP2887823B2 (ja) 文書認識装置
JPH02230484A (ja) 文字認識装置
JP2851102B2 (ja) 文字切出し方法
JPH05174185A (ja) 日本語文字認識装置
JP3064508B2 (ja) 文書認識装置
JPH07296102A (ja) データ入力方式
JPH0581318A (ja) デジタル翻訳装置
JPH10134145A (ja) 文字切り出し方法およびそれを用いた文字認識装置と、その文字切り出し方法を実行するプログラムを格納した、コンピュータが読取可能な記憶媒体
JPH0443476A (ja) 文字認識装置
JPH04282789A (ja) 文字読取り装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081002

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081002

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091002

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091002

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101002

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111002

Year of fee payment: 13

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111002

Year of fee payment: 13