JPH07262317A - 文書処理装置 - Google Patents

文書処理装置

Info

Publication number
JPH07262317A
JPH07262317A JP6049244A JP4924494A JPH07262317A JP H07262317 A JPH07262317 A JP H07262317A JP 6049244 A JP6049244 A JP 6049244A JP 4924494 A JP4924494 A JP 4924494A JP H07262317 A JPH07262317 A JP H07262317A
Authority
JP
Japan
Prior art keywords
character
document
recognition
pattern
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6049244A
Other languages
English (en)
Inventor
Shigemi Hatsuno
茂美 初野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP6049244A priority Critical patent/JPH07262317A/ja
Publication of JPH07262317A publication Critical patent/JPH07262317A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 紙に印刷又は手書きされた文書から文字認
識を行い、その認識結果に基づいて元の文書のレイアウ
トや体裁に忠実な文書を容易に作成し、それを編集でき
るようにする。 【構成】 文書パターン読取手段2によって文書原稿
1を光学的に走査し、文書パターンデータを読み取る。
文字認識手段3はその文書パターンデータから行の切り
出し処理および文字の切り出し処理を行い、文字パター
ンと共にその文字を抽出した位置、文字の大きさ、色を
文字の特徴情報として抽出する。そして認識処理手段7
が1文字分の文字パターンから認識用辞書を用いて文字
の認識、書体及び向きの認識を行い、その認識処理の結
果としての、文字のコードと書体の区別を含む特徴情報
を認識結果記憶手段8に処理手段9によって編集処理で
きる形式で記憶させる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は文字認識装置を備えた
文書処理装置に関し、特に、帳票等の紙に印刷または手
書きされた文書(原稿)をイメージデータとして読み取
り、その中の文字を認識してコードデータとして編集処
理可能に記憶する文書処理装置に関するものである。
【0002】
【従来の技術】ワードプロセッサやデスク・トップ・パ
ブリッシング装置(DTP)等の文書処理装置において
は、図や写真が混在した文書を作成するのにイメーシス
キャナを用い、図や写真等をイメージデータとして取り
込み、所望する位置や大きさを指定して文字と同様に編
集できるものがある。また、紙に印刷又は手書きされた
文書(原稿)をイメージスキャナでスキャンし、文字の
部分を抽出して文字認識を行い、ディスプレイ装置やプ
リンタ等へコードデータとして出力する技術も知られて
いる(例えば特開昭63ー18484号公報参照)。
【0003】
【発明が解決しようとする課題】しかしながら、このよ
うな従来の文書処理装置や文字認識方法では、図3に示
すように、読み取られた原稿上の文字の色、位置及び向
きや大きさ、あるいは文字の書体等の情報は文書処理装
置には伝達されず、そのため、認識された文字の並びは
図3(b)に示すように基となった図3(a)の原稿に
忠実ではあっても、元の原稿のレイアウトや体裁等を再
現するには不十分であった。そのため、左右余白、文字
間隔、行間隔等の書式や、文字の大きさや書体、色等の
属性を改めて指定し直す必要があり、作業が不効率であ
るという問題があった。
【0004】この発明は上記のような問題を解決するた
めになされたものであり、その目的は、紙に印刷又は手
書きされた文書から文字認識を行い、その認識結果に基
づいて元の文書のレイアウトや体裁に忠実な文書を容易
に作成し、それを編集できるようにすることにある。
【0005】
【課題を解決するための手段】この発明は上記の目的を
達成するため、印刷または手書きされた文書をパターン
情報として光学的に読取る文書パターン読取手段と、そ
の読み取ったパターン情報から文字パターンを抽出して
文字の認識を行う文字認識手段と、この文字認識手段の
認識結果を編集処理可能に記憶する認識結果記憶手段と
を備えた文書処理装置において、前記文字認識手段が前
記抽出した文字パターンのコードと共に該文字の特徴情
報(文字の位置、大きさ及び/又は向き、色、書体等の
情報)を認識して上記認識結果記憶手段に記憶させる手
段を有するように構成した。
【0006】
【作用】このように構成したこの文書処理装置は、印刷
または手書きにより作成された文書をイメージデータと
して読み取り、その中の文字パターンに認識処理をほど
こして文字をコード化すると共に、その文字の特徴情報
も認識して編集可能なデータとして記憶するので、少な
いデータ量で元の文書を容易に再現し、それを編集でき
る。
【0007】
【実施例】以下、図を参照してこの発明の実施例の詳細
を説明する。図1はこの発明の一実施例による文書処理
装置の処理を示すブロック図、図2は図1に示す文書処
理装置のハードウエア構成の一例を示す図である。この
実施例による文書処理装置のハードウエア構成は図2に
示すように、キーボード11は文字を入力する他に文書
処理装置に対して原稿の読み込みや文書の検索、編集、
出力等の指示をするのに用いる。イメージスキャナ12
は原稿を光学的に走査して、原稿上の色、濃淡をドット
パターンデータとして読み取るものである。演算制御部
13は前述のキーボード1やイメージスキャナ12の入
力制御や、後述の表示装置17や印刷装置18の出力制
御の他に、プログラムメモリ(ROM)14に格納され
ている文字の認識や文書の編集、検索等のプログラムを
実行、制御するものでマイクロプロセッサ及び周辺制御
回路等から構成されている。
【0008】データメモリ15はRAMで構成する記憶
装置で、プログラムの実行に必要な中間結果の保存や、
入出力時のデータバッファとしても使用する。外部記憶
装置16はハードディスクや光磁気ディスク等の大容量
記憶装置で、文字認識のための辞書、認識された結果の
文書、キーボード11から入力・編集して作成した文書
や文書名、作成日等の管理情報を格納するためのもので
ある。この発明の文書処理装置では文字認識時に書体も
認識するので、辞書は各書体別に、例えば明朝体、ゴシ
ック体の、重ね合わせ用パターン辞書および構造解析用
の芯線辞書が用意されている。
【0009】表示装置17は保存している文書や認識結
果、あるいは認識、編集、検索等の各種の指示と指示に
対するレスポンスを表示するもので、カラーCRTディ
スプレイやカラー液晶表示装置等で構成する。印刷装置
18は文書等の印刷を行うもので、ドット単位でのカラ
ー印刷も可能な熱転写型、カラートナー型、インクジェ
ット型などのプリンタである。認識する書体および文字
サイズに対応した印字機能を備えている必要がある。
【0010】次に、この実施例の演算処理装置13によ
る文字認識機能を図1、図3、図4を用いて説明する。
まず、図3(a)に示すような紙に印刷又は手書きされ
た文書の原稿をイメージスキャナ12等で構成される文
書パターン読取手段2で光学的に走査し、読み取った文
書パターンデータをデータメモリ15に一時格納する。
図3(a)は原稿の一部を示したもので、この中には例
えば、大きな文字で「調査結果」、ゴシック体で「排気
ガス」、青い文字で「環境」のような文字が使用されて
いて、それぞれ所定の左余白をあけて各行が始まってい
る。従来の文字認識装置等では図3(b)に示す認識結
果のように、文字の位置、大きさ、書体、色等の情報は
失われ、文字コードデータのみによる文書データとして
入力されていた。
【0011】この実施例では、文書パターン読取手段2
で得たデータメモリ15上の文書パターンデータを、次
に文字認識手段3に送り、行切り出し処理手段4及び文
字切り出し処理手段5によって処理して文字パターンを
抽出する。そして文字の特徴情報抽出処理手段6によっ
てその文字パターンから文字の大きさ、位置、及び色情
報を抽出して得る。行切り出し処理手段4は、丁度コピ
ー機やファクシミリが水平な1ドット列を走査していく
ように、文書パターンデータを読出し、背景の(文字が
存在していない)部分と文字の部分を分ける処理を行
う。文字切り出し処理手段5も行切り出し処理手段4と
同様に、今度は切り出した一つひとつの行について垂直
な1ドット列を検査して行き、ひとつの文字パターンを
抽出する。これまでの一連の処理結果によって、文字の
特徴情報抽出処理手段6では、文字一つ分を認識するパ
ターンデータの他に、文字の色と文書パターンデータの
密度(1インチ当たりのドット数:dpi)から文字の
大きさと抽出された時の文字の位置情報を得る。
【0012】次に認識処理手段7であるが、この実施例
の場合、まず重ね合わせテスト(整合法)を行うべく、
抽出した文字パターンを辞書のパターンの大きさに合わ
せ変倍し、辞書中の文字パターンと一つずつドットのオ
ン/オフを照合してして行き、所定の一致度以上の候補
を選出する。もし、適合する候補が選出されなかった場
合は、文字の向きが異なるか、書体が異なる、あるいは
原稿のかすれや汚れ等が考えられるので、一方の文字パ
ターンを回転させたり、別の書体の辞書による重ね合わ
せテストを繰り返す。原稿の質が悪い場合は、重ね合わ
せ法ではなく構造解析の方法を実行すべく、抽出した文
字パターンから芯線を抽出して、構造解析用の辞書を用
いて文字認識を行う。そして選出した候補の中で一番一
致度の大きい候補を認識結果とする。このようにして、
文字コードを認識すると共に、その文字の書体や向きの
情報も認識する。
【0013】そして、この文字認識手段3で文字認識し
た文字のコードとその文字の位置、大きさ、方向、書
体、色等の特徴情報を外部記憶装置16等で構成する認
識結果記憶手段8へ図4に示すフォーマットで編集可能
に記憶させる。
【0014】図4(a)に示すフォーマットでは、各行
は先頭に印刷を開始する位置(Y、X)を表すデータで
始まり、改行記号で終る。表示又は印字すべき文字のコ
ードは、例えば、文字の色は黒、書体は明朝体、文字の
大きさは12ポイントの様なデフォルト値と異なる部分
の指定と解除指定を文字コードの前後に挿入することで
表せる。また文字の間隔は各文字の先頭に(x)の如き
数値を付すことにより、名刺のように文字の大きさ、配
置、書体が複数あるものにも対応できる。
【0015】図4(b)に示すフォーマットは、4図
(a)に示すフォーマットから、位置に関する情報を取
り除いたものである。通常の文書では、1ページの行
数、一行の文字数は一定である場合が多い。この場合は
行の切り出し及び文字の切り出し処理でこれらの数値も
決定できる。従って、前の文字からどの位離して表示又
は印字するかの指定は、空白文字やタブで置き換えら
れ、このデータを読み込んで表示、印刷あるいは編集処
理する処理手段9の負担を軽減できる。また、図示しな
いが、アドビ社のページ記述言語であるポストスクリプ
ト(PostScript)等のフォーマットに適合す
るようにデータフォーマットを設定しても良い。
【0016】なお、この発明の文書処理装置は、文書を
取り扱う処理装置なら適用可能であり、ワードプロセッ
サはもとより、文書をタイトル等と共に蓄積、検索する
ファイリングシステムや文字認識装置、パーソナルコン
ピュータにも好適なものである。手書き文書の文字認識
に用いれば、手書き文書をその作成社のいとに沿ったレ
イアウト及び体裁(書体や文字色も含む)で清書した文
書を作成することも容易にできる。
【0017】
【発明の効果】以上説明してきたように、この発明によ
る文書処理装置は、既存文書を文字認識により単なる文
字コードへ変換するだけでなく、文字がどのような状態
で文書中にあったかを文字の特徴情報として抽出し、さ
らに認識結果として前記文字コードとその文字の特徴情
報を編集可能に記憶するので、元の既存文書を容易に復
元して編集でき、また、従来の光ファイリング装置とは
異なり文書をイメージデータでなくコードデータで持つ
ので、少ない記憶容量で文書の蓄積、印刷が可能とな
る。更に、コードデータは文字列検索が容易なので文書
の検索も高速に行える。
【図面の簡単な説明】
【図1】図2に示した一実施例の演算処理装置13によ
る文字認識に係る機能を示すブロック図である。
【図2】この発明の一実施例である文書処理装置のハー
ドウエア構成の一例を示すブロック図である。
【図3】この発明による処理の対象となる文書原稿の一
例と、従来技術を説明するための認識結果を示す図であ
る。
【図4】図1における認識結果記憶手段8に記憶する認
識結果のフォーマットの異なる例を示す図である。
【符号の説明】
1 文書の原稿 2 文書パターン読取手
段 3 文書認識手段 4 行切り出し処理手段 5 文字切り出し処理手段 6 文字の特徴情報抽出
処理手段 7 認識処理手段 8 認識結果記憶手段 9 処理手段 11 キーボード 12 イメージスキャナ 13 演算制御装置 14 プログラムメモリ 15 データメモリ 16 外部記憶装置 17 表示装置 18 印刷装置

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 印刷または手書きされた文書をパターン
    情報として光学的に読取る文書パターン読取手段と、該
    手段が読み取ったパターン情報から文字パターンを抽出
    して文字の認識を行う文字認識手段と、該文字認識手段
    の認識結果を編集処理可能に記憶する認識結果記憶手段
    とを備えた文書処理装置において、前記文字認識手段が
    前記抽出した文字パターンのコードと共に該文字の特徴
    情報を認識して前記認識結果記憶手段に記憶させる手段
    を有することを特徴とする文書処理装置。
  2. 【請求項2】 前記文字認識手段が認識する文字の特徴
    情報が文字の位置情報であることを特徴とする請求項1
    記載の文書処理装置。
  3. 【請求項3】 前記文字認識手段が認識する文字の特徴
    情報が文字の大きさ及び/又は向きの情報であることを
    特徴とする請求項1記載の文書処理装置。
  4. 【請求項4】 前記文字認識手段が認識する文字の特徴
    情報が文字の色情報であることを特徴とする請求項1記
    載の文書処理装置。
  5. 【請求項5】 前記文字認識手段が認識する文字の特徴
    情報が文字の書体の情報であることを特徴とする請求項
    1記載の文書処理装置。
JP6049244A 1994-03-18 1994-03-18 文書処理装置 Pending JPH07262317A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6049244A JPH07262317A (ja) 1994-03-18 1994-03-18 文書処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6049244A JPH07262317A (ja) 1994-03-18 1994-03-18 文書処理装置

Publications (1)

Publication Number Publication Date
JPH07262317A true JPH07262317A (ja) 1995-10-13

Family

ID=12825453

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6049244A Pending JPH07262317A (ja) 1994-03-18 1994-03-18 文書処理装置

Country Status (1)

Country Link
JP (1) JPH07262317A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0912040A2 (en) * 1997-09-16 1999-04-28 Cyberscan Technology Inc. Universal document scanner controller
JP2005301662A (ja) * 2004-04-12 2005-10-27 Fuji Xerox Co Ltd 画像辞書作成装置、符号化装置、画像辞書作成方法及びそのプログラム
WO2008106669A1 (en) * 2007-03-01 2008-09-04 Microsoft Corporation Adaptive server-based layout of web documents
JP2015194873A (ja) * 2014-03-31 2015-11-05 京セラドキュメントソリューションズ株式会社 情報処理装置、情報処理システム、及び情報処理プログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0912040A2 (en) * 1997-09-16 1999-04-28 Cyberscan Technology Inc. Universal document scanner controller
EP0912040A3 (en) * 1997-09-16 2000-12-06 Cyberscan Technology Inc. Universal document scanner controller
US6344906B1 (en) 1997-09-16 2002-02-05 Cyberscan Technology, Inc. Universal document scanner controller
JP2005301662A (ja) * 2004-04-12 2005-10-27 Fuji Xerox Co Ltd 画像辞書作成装置、符号化装置、画像辞書作成方法及びそのプログラム
WO2008106669A1 (en) * 2007-03-01 2008-09-04 Microsoft Corporation Adaptive server-based layout of web documents
JP2015194873A (ja) * 2014-03-31 2015-11-05 京セラドキュメントソリューションズ株式会社 情報処理装置、情報処理システム、及び情報処理プログラム

Similar Documents

Publication Publication Date Title
US7681121B2 (en) Image processing apparatus, control method therefor, and program
US4933979A (en) Data reading apparatus for reading data from form sheet
JP4181892B2 (ja) 画像処理方法
JP4854491B2 (ja) 画像処理装置及びその制御方法
US8520006B2 (en) Image processing apparatus and method, and program
US5003614A (en) Image processing system
US20120250048A1 (en) Image processing apparatus and image processing method
JPH05250408A (ja) 取り込んだ情報で文書画像を復号することなく選択した文書の重要な部分を補完するための方法
US6885768B2 (en) Image recognition apparatus, method and program product
JP2008108114A (ja) 文書処理装置および文書処理方法
JP4310023B2 (ja) 縮小画像作成方法及び装置、記憶媒体
JPH07262317A (ja) 文書処理装置
US20020181779A1 (en) Character and style recognition of scanned text
JP2007129557A (ja) 画像処理システム
JPH05303619A (ja) 電子スクラップブック
JP4310176B2 (ja) 画像処理装置、画像処理方法およびプログラム
EP0692768A2 (en) Full text storage and retrieval in image at OCR and code speed
JP7497620B2 (ja) 文書データ生成装置、画像形成装置、及び文書データ生成プログラム
JP2662404B2 (ja) 光学文字読取装置における辞書作成方法
JP3424942B2 (ja) 対訳画像形成装置
JP2002185763A (ja) デジタル複写機
JPS63155385A (ja) 光学文字読取装置
JPH0589279A (ja) 文字認識装置
JPH0981672A (ja) 文書読取装置
JP2006228106A (ja) 画像処理方法および画像処理装置およびコンピュータプログラムおよび記憶媒体