JP2835178B2 - 文書読取装置 - Google Patents

文書読取装置

Info

Publication number
JP2835178B2
JP2835178B2 JP2328462A JP32846290A JP2835178B2 JP 2835178 B2 JP2835178 B2 JP 2835178B2 JP 2328462 A JP2328462 A JP 2328462A JP 32846290 A JP32846290 A JP 32846290A JP 2835178 B2 JP2835178 B2 JP 2835178B2
Authority
JP
Japan
Prior art keywords
word
processing
document
character
hyphen
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2328462A
Other languages
English (en)
Other versions
JPH04195692A (ja
Inventor
昭夫 三宮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2328462A priority Critical patent/JP2835178B2/ja
Priority to US07/799,305 priority patent/US5265171A/en
Publication of JPH04195692A publication Critical patent/JPH04195692A/ja
Application granted granted Critical
Publication of JP2835178B2 publication Critical patent/JP2835178B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/191Automatic line break hyphenation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は、英文等の一般文書の文字の読取りを行なう
文書読取装置に関する。
(従来の技術) 近年では、英文等の一般文書の文字の読取りを行なう
文書読取装置が開発され、使用され始めている。このよ
うな、文書読取装置であ、読取りの対象となる文書の読
取りのフォーマットも、また内容自体も多様なものとな
っている。
また、読取結果に対する確認,修正を行なうために、
例えば英文の場合には、単語に対するスペルチェック等
を行なうことがある。このスペルチェックを行なう機能
を有する装置では、文字の読取結果からチェックの対象
となる単語を切り出すことが、その正確性を向上させる
ための重要な要素となっている。
通常、単語の切り出しは、用紙に記録された各単語の
物理的な切れ目に基づいて行なっている。具体的には、
単語間のスペースの大小の判定を行ない、所定値以上の
スペースがあれば単語の切れ目と判別するものである。
ところが、一般の英語の文書では、本来の単語の切れ目
と、印刷された用紙上での物理的切れ目と異なる場合が
多い。
例えば、次のような独立した単語がハイフンによって
接続されて生成された合成語「budget−line」は1語と
して切り出される。また、単語「important」が行末に
存在して「im−」と次行始めの「portant」に分割され
た場合(以下、このような単語を分離語と称する)には
2語として切り出される。
このような合成語、分離語は、通常、スペルチェック
機能に予め用意された辞書に登録されていない。すなわ
ち、前記に示す合成語中の「budget」「line」は別々に
処理の対象とするべきものであり、また分離語は本来の
単語と別の単語(文字列)が処理の対象とされてしま
う。このため、スペルチェックを行なっても正しい結果
を得ることができない。
また、合成語、分離語を含んだ単語を全て辞書に登録
することも考えられるが、この場合、単語数が膨大なも
のになるため、辞書を記憶するための容量を多く必要と
し実用的ではない。
(発明が解決しようとする課題) このように、従来の文書読取装置では、合成語や分離
語についてはスペルチェック処理に供するべき単語が正
しく切り出すことができなかった。このため、スペルチ
ェック処理を実行しても正しい結果が得られず、文字認
識処理結果についての確認、修正を確実に行なうことが
できなかった。
本発明は前記のような点に鑑みてなされたもので、文
字認識結果について確認、修正を行なうための単語処理
(スペルチェック)を、良好に処理、運用することが可
能な文書読取装置を提供することを目的とする。
[発明の構成] (課題を解決するための手段) 本発明は、読取対象となる文書についての文字認識処
理の結果について単語処理を行なう単語処理機能を有す
る文書読取装置において、前記文字認識処理の結果か
ら、前記単語処理の対象すべき単語を、ハイフンが接続
されている場合には削除して切り出す単語切出し手段
と、前記単語切出し手段によって得られた単語について
の単語処理結果に基づいて、誤った単語に対応する候補
単語を求める候補単語抽出手段と、前記候補単語抽出手
段によって得られた候補単語に基づいて、誤った単語に
ついて修正を行なう単語修正手段と、前記単語切出し手
段によって切出された単語にハイフンが接続されていた
場合に、このハイフンの接続位置に応じて、前記単語修
正手段によって修正された単語に対してハイフンを復元
する単語復元手段と、を具備し、前記単語復元手段によ
って復元された単語に基づいて、表示を行なうことを特
徴とするものである。
(作用) このような構成によれば、単語処理機能による単語処
理に応じた処理対象とすべき単語が切出されるため、必
要以上に処理対象単語数を増加させる必要がない。つま
り、合成語、分離語については、そのまま単語処理の対
象とせずに、不必要な文字(ハイフン)を除いた、本来
の1単語毎に切出され、単語処理に供される。
(実施例) 以下、図面を参照して本発明の一実施例を説明する。
第1図は同実施例に係わる文書読取装置の構成を示すブ
ロック図である。同実施例においては、英文の一般文書
について文字認識処理を行なう場合を例にして説明す
る。同図において、10は装置全体の制御を司る制御部で
ある。制御部10は、スキャナ制御部13、画像処理部14、
認識処理部15、単語処理部16、表示処理部17、及び入力
処理部19の制御を行なう。
スキャナ制御部13は、制御部10のもとにスキャナ部23
の制御を行なう。スキャナ部23は、文書を光学的に走査
し、文字等の画像を検出する。画像処理部14は、スキャ
ナ部23によって検出された画像データをもとに、文書の
サイズ,文書中の文字が記録された文字読取処理の対象
とする読取領域(文書ブロック)の検出、文書ブロック
内に含まれる各読取行の抽出、及び1文字毎に文字パタ
ーンの切出しを行なう。認識処理部15は、切出された文
字パターンについて、予め設定された文字認識処理用の
辞書(図示せず)を参照しながら、1文字毎に文字認識
処理を行なう。単語処理部16は、文字認識処理の結果、
及び切出された文字の位置等に基づいて単語を切り出
し、この単語について予め設定された単語辞書(図示せ
ず)を参照して単語処理(スペルチェック)を行なう。
ここで、単語の切り出しは、用紙等に印刷された文書の
状態をもとに得られた物理上の単語が合成語,分離語で
あっても、この単語を単語処理の対象とすべき論理上の
単語に変換して行なう。そして、切り出した単語に対応
する類似した他の単語(候補単語)を求める。表示処理
部17は、制御部10の制御のもとに、表示装置24の表示制
御を行なう。表示装置24は、装置の動作状態を通知する
人間−マシンインターフェイスの出力部分に相当し、例
えば認識結果についての確認修正を行なう処理において
第4図に示すような表示を行なう。入力処理部19は、キ
ーボード25,マウス26からの入力情報を制御する。
30はメモリであり、画像格納領域31は、レイアウト・
切出し情報格納領域32、認識情報格納領域33、単語情報
格納領域34が設けられている。画像格納領域31は、スキ
ャナ部23によって検出された画像データを格納するため
のものである。レイアウト・切出し情報格納領域32は、
画像処理部14における処理によって得られた文書サイ
ズ,文書中の文書ブロックのレイアウト(位置)を示す
レイアウト情報、及び文書中の各読取行,各文字の位置
を示す切出し情報を格納するためのものである。認識情
報格納領域33は、認識処理部15における処理によって得
られた各文字についての文字認識結果を格納するための
ものである。単語情報格納領域34は、単語処理部16にお
ける「−」(ハイフン)を単語中から削除する処理によ
って得られた情報(ハイフン位置等)や、単語認識結果
(候補単語)等を格納するためのものである。
次に、同実施例の動作について第2図に示すフローチ
ャートを参照しながら説明する。
まず、スキャナ制御部13の制御のもとにスキャナ部23
において、文字読取処理の対象とする文書を光学的に走
査し、文書中の文字の文字パターンを含む画像データの
検出が行なわれる。検出された画像データは、スキャナ
制御部13を介して入力され、メモリ30の画像格納領域31
に格納される。ここでは、画像格納領域31に、1文書分
の画像データが格納されるものとする(ステップS1)。
スキャナ部23によって1文書の走査が終了すると、制
御部10は、画像処理部14に対して検出された画像データ
について文書ブロックのレイアウト等の解析を指示す
る。制御部10からの指示を受けると、画像処理部14は、
画像格納領域31に格納された1文書分の画像データをも
とに、例えばX,Y軸方向に射影をとることによって、文
書サイズと、図形,イラスト等が記録された領域を除い
た文字パターンが存在する文字読取処理の対象する読取
領域(文書ブロック)の抽出を行なう。文書ブロック
は、文書中の内容的なまとまりであり、所定以上の行間
隔,複数の行に渡る同一桁における文字間隔によって区
分されるものとする。画像処理部14は、行間隔,文字間
隔が所定以上あるか否かによって文書ブロックを抽出
し、各文書ブロックを文書ブロック内の文字を全て含む
矩形によって位置を表すものとする。さらに、画像処理
部14は、文書ブロック内に含まれる各読取行、及び読取
行内の各文字の検出切出しを行なう。これらの処理の結
果得られた文書サイズ,文書ブロック,読取行,文字の
位置は、それぞれ矩形枠の対角の座標点によって表さ
れ、レイアウト・切出し情報格納領域32に格納される
(ステップS2)。
次に、制御部10は、認識処理部15に対して、文字認識
処理の実行を指示する。認識処理部15は、画像処理部14
によって切出された文字の文字パターンと、文字毎の認
識処理を行なうための辞書(図示せず)とを照合するこ
とによって文字を認識する。各文字パターンについての
文字認識処理の結果は、認識情報格納部33に格納される
(ステップS3)。
制御部10は、文字単位で画像入力、レイアウト解析・
検出切り出し、文字認識の処理(ステップS1〜S3)を実
行させる。1文書分の文字認識処理が終了すると、制御
部10は、単語処理部16に対して単語処理の実行を指示す
る。
制御部10によって単語処理の実行が指示されると、単
語処理部16は、レイアウト・切出し情報格納領域32に格
納された各読取行,各文字の位置を示す切出し情報と、
認識情報格納領域33に格納された認識処理の結果をもと
に単語を作成する。例えば、切出し情報から、同一行の
文字と文字との間に所定以上の間隔(スペース)がある
位置を単語の区切りと判別し、この区切りによって規定
される文字認識処理結果の集合を一つの単語とするもの
である。
まず、こうして得られた1単語分の文字認識結果(1
単語)を入力する(ステップS4)。単語処理部16は、1
単語中から「−」(ハイフン)の検出を行なう(ステッ
プS5)。通常、一般の英語の文書においては、複数の単
語をハイフンによって接続することによって合成語が生
成されている。また、行末における単語が、文書を用紙
の印刷する際に改行せざるを得ない都合上、当行と次行
とに分離された場合(分離語)には、当行中の前部の文
字列最後尾にハイフンが付されている。単語処理部16
は、スペルチェックに不要なハイフンを削除し、チェッ
クの対象とする本来の単語の生成を行なう。
ここで、具体的な例を用いて説明する。第3図には、
読取りの対象とする用紙に印刷された文書の一例を示し
ている。また、第4図には、文字認識処理の結果、表示
装置24に表示された内容を示している。
ステップS5における「−」の検出の結果、単語中に
「−」が存在し、かつ単語の文字位置が行末である場合
には(ステップS6)、分離語または合成語であると判別
する。この場合、前部の文字列の最後尾に接続されたハ
イフン「−」を削除し、次行の第1単語を入力する。そ
して、当行のハイフンが削除された文字列と、次行の第
1単語とを合併し単語を生成する。第3図中において
は、A−1,A−2によって示す単語(「com−ments」)
が、分離語の例に当たる。行末の単語「com−」は、英
語としての単語を成しておらず、文書を印刷する上で改
行せざるを得ない都合上、語末に「−」が付加され、そ
れ以降の「ments」が次行に印刷されたものである。ス
テップS7の処理によって、分離語の場合では、本来の単
語が得られる。なお、このステップでは、合併によって
得られた単語と、ハイフンが削除された行末位置の単語
をステップS9におけるスペルチェックに供する単語とし
て用意する。すなわち、合成語であった場合に、ハイフ
ンが削除された本来の単語によってスペルチェックを行
なうためである。
一方、ステップS5における「−」の検出の結果、単語
中に「−」が存在し、かつ単語の文字位置が文字位置の
情報から行末ではないと判別された場合には(ステップ
S6)、合成語であると判別する。第3図中においては、
Bによって示す単語(「American−Jewish」)が、この
例に当たる。この場合、ハイフン「−」を削除し、単語
を分割する(ステップS8)。第3図に示す合成語は、ハ
イフンが1つ存在するため、2つの単語に分割される。
なお、ステップS5において、入力した単語中に「−」
が存在しない場合には、一般の単語であると判別する。
こうして、用紙等に印刷された文書の状態をもとに得
られた物理上の単語を論理上の単語に変換すると、この
単語について文字認識処理用の辞書を参照しながらスペ
ルチェックを行なう(ステップS9)。なお、ステップS7
において用意された2単語についてスペルチェックを行
なった結果、誤りの少ない方が本来の単語であるとす
る。すなわち、分離語であれば合併して得られ単語の方
が誤りが少なく、合成語であればハイフンを削除した単
語の方が誤りが少なくなる。ここで、行末の単語が分離
語であると判別された際には、次行の処理において第1
単語の処理が不要となる。
このスペルチェック処理において誤りが発見された場
合、すなわち文字認識処理の結果中にリジェクト(読取
拒否)や、また正しく認識されていない文字(誤読)が
存在する場合には、スペルチェック処理の結果を用い
て、文字の修正を行なうことができる。つまり、リジェ
クト文字や誤読文字以外の文字が一致、または類似する
複数(1つでも良い)の候補単語をスペルチェック処理
によって求める。そして、候補単語を表示装置24の表示
画面中に表示し、キーボード25、またはマウス26を用い
て1つの単語を選択させる。
ステップS10においては、選択された正解単語と誤っ
た単語とを置換し、その結果を表示する。
例えば、第4図中のC−1に示すように、カーソル30
が位置する分離語にリジェクト文字(図中■部分の文
字)が存在する場合には、候補文字から正解単語が選択
されるとステップS5〜S8までの処理内容に応じて、
「−」(ハイフン)をC−2の文字列との間の所定の位
置に復元して表示を行なう。また、合成語の場合につい
ても、第4図中のDに示すように、同様に正解単語の各
単語間にハイフンを復元して、表示を行なう。
こうして、単語の置換処理を行ないリジェクト文字、
誤読文字が修正され、正解単語を表示させると、次単語
の処理に移行するための準備を行なう(ステップS1
2)。
以下、同様にして、1文書中の各単語について順次処
理を実行する。
なお、前記実施例においては、1単語毎に入力し、ス
ペルチェックによってリジェクトや誤読した文字を含む
単語について候補単語を表示して選択させるようにして
いるが、1文書中の全単語についてスペルチェックを行
なった後に、修正すべき単語を任意に選択させることに
よって候補単語を表示し、正解単語の選択,修正を行な
うようにしても良い。
このようにして、文字認識処理の結果について単語処
理(スペルチェック)を行なう際に、合成語、分離語で
あっても処理対象とすべき単語を切出すので、確認・修
正処理をより正確に行なうことができる。
[発明の効果] 以上のように本発明によれば、単語処理機能による単
語処理(スペルチェック)の対象とすべき単語が切出さ
れるため、文書中に合成語や分離語が含まれている場合
であっても直接処理対象とされないので、より確実にチ
ェックが行われ、確認・修正処理を正確に行なうことが
できるものである。
【図面の簡単な説明】
第1図は本発明の一実施例に係わる文書読取装置の構成
を示すブロック図、第2図は同実施例における文字読取
処理の処理手順を示すフローチャート、第3図は読取り
の対象とする用紙に印刷された文書の一例を示す図、第
4図は表示装置に表示された文字認識処理の結果の内容
を示す図である。 10……制御部、13……スキャナ制御部、14……画像処理
部、15……認識処理部、16……単語処理部、17……表示
処理部、19……入力処理部、23……スキャナ部、24……
表示装置、25……キーボード、26……マウス、30……メ
モリ、31……画像格納領域、32……レイアウト・切出し
情報格納領域、33……認識情報格納領域、34……単語情
報格納領域。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】読取対象となる文書についての文字認識処
    理の結果について単語処理を行なう単語処理機能を有す
    る文書読取装置において、 前記文字認識処理の結果から、前記単語処理の対象すべ
    き単語を、ハイフンが接続されている場合には削除して
    切り出す単語切出し手段と、 前記単語切出し手段によって得られた単語についての単
    語処理結果に基づいて、誤った単語に対応する候補単語
    を求める候補単語抽出手段と、 前記候補単語抽出手段によって得られた候補単語に基づ
    いて、誤った単語について修正を行なう単語修正手段
    と、 前記単語切出し手段によって切出された単語にハイフン
    が接続されていた場合に、このハイフンの接続位置に応
    じて、前記単語修正手段によって修正された単語に対し
    てハイフンを復元する単語復元手段と、 を具備し、 前記単語復元手段によって復元された単語に基づいて、
    表示を行なうことを特徴とする文書読取装置。
JP2328462A 1990-11-28 1990-11-28 文書読取装置 Expired - Lifetime JP2835178B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2328462A JP2835178B2 (ja) 1990-11-28 1990-11-28 文書読取装置
US07/799,305 US5265171A (en) 1990-11-28 1991-11-27 Optical character reading apparatus for performing spelling check

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2328462A JP2835178B2 (ja) 1990-11-28 1990-11-28 文書読取装置

Publications (2)

Publication Number Publication Date
JPH04195692A JPH04195692A (ja) 1992-07-15
JP2835178B2 true JP2835178B2 (ja) 1998-12-14

Family

ID=18210539

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2328462A Expired - Lifetime JP2835178B2 (ja) 1990-11-28 1990-11-28 文書読取装置

Country Status (2)

Country Link
US (1) US5265171A (ja)
JP (1) JP2835178B2 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5488719A (en) * 1991-12-30 1996-01-30 Xerox Corporation System for categorizing character strings using acceptability and category information contained in ending substrings
JPH06274680A (ja) * 1993-03-17 1994-09-30 Hitachi Ltd 文書認識方法およびシステム
DE69525401T2 (de) * 1994-09-12 2002-11-21 Adobe Systems Inc Verfahren und Gerät zur Identifikation von Wörtern, die in einem portablen elektronischen Dokument beschrieben sind
CA2154952A1 (en) * 1994-09-12 1996-03-13 Robert M. Ayers Method and apparatus for identifying words described in a page description language file
JP2845149B2 (ja) * 1994-12-28 1999-01-13 日本電気株式会社 手書文字入力装置および手書文字入力方法
US6298158B1 (en) * 1997-09-25 2001-10-02 Babylon, Ltd. Recognition and translation system and method
JP3707997B2 (ja) * 2000-05-31 2005-10-19 富士通株式会社 払込帳票判別方法及びその装置
US7401290B2 (en) * 2001-03-05 2008-07-15 Adobe Systems Incorporated Inhibiting hypenation clusters in automated paragraphs layouts
US20030232371A1 (en) * 2001-10-24 2003-12-18 Bestor Timothy H. Methods for detecting methylated promoters based on differential DNA methylation
US7475340B2 (en) * 2005-03-24 2009-01-06 International Business Machines Corporation Differential dynamic content delivery with indications of interest from non-participants
US7493556B2 (en) * 2005-03-31 2009-02-17 International Business Machines Corporation Differential dynamic content delivery with a session document recreated in dependence upon an interest of an identified user participant
JP4533273B2 (ja) * 2005-08-09 2010-09-01 キヤノン株式会社 画像処理装置及び画像処理方法、プログラム
US7827484B2 (en) * 2005-09-02 2010-11-02 Xerox Corporation Text correction for PDF converters
US7593572B2 (en) * 2006-02-09 2009-09-22 Microsoft Corporation Ink-parser-parameter optimization
CA2680426A1 (en) * 2007-03-16 2008-09-25 Human Genetic Signatures Pty Ltd Assay for gene expression
KR100992858B1 (ko) * 2008-12-30 2010-11-09 엔에이치엔(주) Ocr 결과를 보정하기 위한 방법, 시스템 및 컴퓨터 판독가능한 기록 매체
US9384389B1 (en) * 2012-09-12 2016-07-05 Amazon Technologies, Inc. Detecting errors in recognized text
US9256592B1 (en) 2012-11-07 2016-02-09 Amazon Technologies, Inc. System for detecting and correcting broken words
JP7234495B2 (ja) * 2018-01-25 2023-03-08 富士フイルムビジネスイノベーション株式会社 画像処理装置及びプログラム
US11170055B2 (en) * 2018-12-28 2021-11-09 Open Text Sa Ulc Artificial intelligence augmented document capture and processing systems and methods

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3969700A (en) * 1974-04-10 1976-07-13 International Business Machines Corporation Regional context maximum likelihood error correction for OCR, keyboard, and the like
JPS5998283A (ja) * 1982-11-27 1984-06-06 Hitachi Ltd パターン切出しおよび認識方法、ならびにそのシステム
US4611346A (en) * 1983-09-29 1986-09-09 International Business Machines Corporation Method and apparatus for character recognition accommodating diacritical marks
US4907285A (en) * 1984-08-24 1990-03-06 Hitachi, Ltd. Image understanding system
JPH07107694B2 (ja) * 1984-08-31 1995-11-15 株式会社日立製作所 文書処理装置
JPH0797373B2 (ja) * 1985-08-23 1995-10-18 株式会社日立製作所 文書フアイリングシステム
JPH0743773B2 (ja) * 1986-02-27 1995-05-15 キヤノン株式会社 画像処理装置
JPS63106074A (ja) * 1986-10-23 1988-05-11 Ricoh Co Ltd 形態素解析における行末ハイフンの処理方式
JPS63155386A (ja) * 1986-12-19 1988-06-28 Ricoh Co Ltd 帳票デ−タ読取装置
JPH07104909B2 (ja) * 1987-03-04 1995-11-13 シャープ株式会社 文字認識方法
JPH0634256B2 (ja) * 1987-03-04 1994-05-02 シャープ株式会社 接触文字切出し方法
US4907283A (en) * 1987-03-13 1990-03-06 Canon Kabushiki Kaisha Image processing apparatus
JPS6473483A (en) * 1987-09-16 1989-03-17 Tokyo Keiki Kk Device for checking spelling of foreign sentence
JPH02201588A (ja) * 1989-01-31 1990-08-09 Toshiba Corp 文字読取装置

Also Published As

Publication number Publication date
US5265171A (en) 1993-11-23
JPH04195692A (ja) 1992-07-15

Similar Documents

Publication Publication Date Title
JP2835178B2 (ja) 文書読取装置
US5889897A (en) Methodology for OCR error checking through text image regeneration
JP3805005B2 (ja) 画像処理装置及び光学的文字認識装置及びそれらの方法
EP0621553A2 (en) Methods and apparatus for inferring orientation of lines of text
JPH03201166A (ja) 日本語文書読取翻訳システムの修正時における表示方式
JPH1139428A (ja) 文書映像の方向修正方法
JPH08212298A (ja) 文書方向自動判別装置、及び文書方向自動補正装置
JPH08329187A (ja) 文書読取装置
JPH0991371A (ja) 文字表示装置
JP3484446B2 (ja) 光学文字認識装置
JPH117493A (ja) 文字認識処理装置
JPH11250179A (ja) 文字認識装置および文字認識方法
JPH0916712A (ja) 文書読取装置
JPH07296102A (ja) データ入力方式
JP3270551B2 (ja) 文字認識装置および文字認識方法
JPS61198375A (ja) 光学的文字読取装置
JPH1055405A (ja) 住所録読み取り装置及び住所録読み取り方法
JPS61198376A (ja) 光学的文字読取装置
JPH04302070A (ja) 文字認識装置及び方法
JPH0581318A (ja) デジタル翻訳装置
JPS61198378A (ja) 光学的文字読取装置
JPH0696272A (ja) 帳票フォーマット定義体作成装置
JP2890788B2 (ja) 文書認識装置
JP3477308B2 (ja) 機械翻訳装置
JPS61198377A (ja) 光学的文字読取装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081002

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081002

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091002

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091002

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101002

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111002

Year of fee payment: 13

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111002

Year of fee payment: 13