JP2823350B2 - マルチメディア入力装置 - Google Patents

マルチメディア入力装置

Info

Publication number
JP2823350B2
JP2823350B2 JP2328460A JP32846090A JP2823350B2 JP 2823350 B2 JP2823350 B2 JP 2823350B2 JP 2328460 A JP2328460 A JP 2328460A JP 32846090 A JP32846090 A JP 32846090A JP 2823350 B2 JP2823350 B2 JP 2823350B2
Authority
JP
Japan
Prior art keywords
feature
global
type
character
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2328460A
Other languages
English (en)
Other versions
JPH04195693A (ja
Inventor
吉久 田辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2328460A priority Critical patent/JP2823350B2/ja
Publication of JPH04195693A publication Critical patent/JPH04195693A/ja
Application granted granted Critical
Publication of JP2823350B2 publication Critical patent/JP2823350B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) この発明は、帳票等、面を持つ物体の表面により表わ
されている情報がどのようなものであるかを理解するの
に好適なマルチメディア入力装置に関する。
(従来の技術) 従来、帳票のフォーマットを理解するのに、次の2つ
の方式が採られていた。
第1の方式は、帳票上のフォーマットを構成する直線
を検出し、その長さ、方向、位置を計算し、その結果と
予め用意された幾つかのフォーマットパターンとを比較
して、一致したパターンがそのフォーマットであるとす
るものである。第1の方式を実現するためには、適用可
能な幾つかのフォーマットを予め定めておき、そのフォ
ーマットパターンをメモリに予め記憶しておく必要があ
る。
次に第2の方式は、帳票上に印刷されたフォーマット
種別識別用の記号(ID)を検出することでフォーマット
を判別するものであり、帳票上に予めIDを印刷しておく
必要がある。
(発明が解決しようとする課題) 上記したように従来は、帳票のフォーマットを理解す
るのに、適用可能なフォーマットのパターンを予め用意
したり、帳票上にフォーマット種別識別用のIDを予め印
刷しておく必要があった。このため従来は、 予め分かっているフォーマットしか対応できない(第
1および第2の方式に共通)。
帳票上のフォーマットに乱れ(汚れ、直線のかすれ、
ずれ等)があると、誤りが発生し易くなったり、リジェ
クト率が高くなったりする(第1の方式)。
予めIDを印刷するなど、帳票設計されたものしか対象
にできない(第2の方式)。
という問題点があった。
また、このような問題は帳票に限るものではなく、面
を持つ物体の表面により表わされている情報がどのよう
なものであるかを理解しようとすると必ず生じていた。
この発明は上記事情に鑑みてなされたものでその目的
は、帳票など面を有する物体の表面により表わされる情
報がどのようなものであるかが、その表面に関する全て
の情報、特に位置に関する情報を予め用意しておかなく
ても、簡単に理解できるマルチメディア入力装置を提供
することにある。
[発明の構成] (課題を解決するための手段) この発明は、スキャナによって取込まれた文書構造を
持つ入力対象物体の面イメージを格納するためのメモリ
と、このメモリ上を電子的にスキャンして上記取込まれ
た面イメージに含まれている文字部分および図形部分を
分離抽出し、当該面イメージの文書構造特徴を表す大局
的特徴として出力する第1の特徴抽出手段と、文書構造
特徴が異なる各フォーマット文書の種類毎に、そのフォ
ーマット文書の図形部分と文字部分の構造特徴が予め登
録された大局理解辞書と、上記第1の特徴抽出手段によ
って抽出された上記面イメージの大局的特徴中の文字部
分の構造特徴から、各文字配列毎に見出しを含む文書構
造要素種別を判別すると共に、当該大局的特徴中の図形
部分の構造特徴並びに文字部分に関する文書構造要素種
別毎の構造特徴と上記大局理解辞書に各フォーマット文
書の種類毎に登録されているそのフォーマット文書の図
形部分並びに文字部分の構造特徴とのマッチングを行う
ことで、上記面イメージの大局的特徴の種類を認識する
大局認識手段と、各大局的特徴種類毎にその大局的特徴
種類に固有の詳細特徴抽出のための、当該大局的特徴種
類に固有の抽出対象特徴部分を含む指示内容が予め定義
された次工程定義テーブルと、上記大局認識手段によっ
て認識された大局的特徴種類に固有の、上記次工程定義
テーブルで定義された指示内容に従う詳細特徴抽出処理
を、上記第1の特徴抽出手段によって抽出された上記面
イメージの大局的特徴中の当該指示内容で指定されてい
る抽出対象特徴部分に対して実行することにより詳細な
特徴を抽出する第2の特徴抽出手段と、この第2の特徴
抽出手段によって抽出された詳細特徴をもとに、対応す
る上記面イメージの表わす情報を理解して認識する理解
・認識手段とを備えたことを特徴とするものである。
(作用) この発明によれば、帳票など面を有する物体の面イメ
ージから、第1の特徴抽出手段によって文字部分と罫線
などの図形部分が分離抽出され、当該面イメージの文書
構造特徴を表す大局的特徴として出力される。そして、
この抽出された面イメージの大局的特徴中の文字部分の
構造特徴から、大局認識手段によって各文字配列毎に見
出し、コメント、ルビ等の文書構造要素種別が判別され
る。また、抽出された面イメージの大局的特徴中の図形
部分の構造特徴並びに文字部分に関する文書構造要素種
別毎の構造特徴について、大局理解辞書に売上げ伝票、
振込み用紙、住所録、目次などの各フォーマット文書の
種類毎に登録されているそのフォーマット文書の図形部
分並びに文字部分の構造特徴とのマッチングを行うこと
で、当該抽出された面イメージの大局的特徴の種類、つ
まり面イメージを構成するフォーマット文書の種類が大
局認識手段により認識される。
このように、帳票等、面を持つ物体の面イメージから
抽出される図形部分の構造特徴だけでなく文字部分の構
造特徴をも用いて辞書情報とのマッチンクを行うこと
で、当該面イメージを構成するフォーマット文書の種類
を特定するようにしているため、図形部分の罫線構造等
に関する詳細な位置情報を用いる必要はなく、したがっ
て汚れ等に起因するフォーマットの乱れの影響を受けに
くい。
さて、面イメージの大局的特徴の種類(つまり面イメ
ージを構成するフォーマット文書の種類)が認識される
と、当該大局的特徴の詳細な特徴を抽出するための、当
該大局的特徴に固有の抽出対象特徴部分を含む指示内容
が次工程定義テーブルにより決定される。第2の特徴抽
出手段は、この決定された指示内容に従い、対象となる
大局的特徴中の当該指示内容で指定されている抽出対象
特徴部分からの詳細特徴抽出処理を行い、その詳細な特
徴を抽出する。この結果、抽出された詳細特徴をもと
に、面イメージが表わす情報がどのようなものであるか
が簡単に理解される。
(実施例) 第1図はこの発明の一実施例に係るマルチメディア入
力装置のブロック構成図である。同図において、11は入
力対象物体の面上を光学的にスキャンしてその面上のイ
メージを取込むスキャナであり、光源、レンズ、走査
系、受光系、光電変換系など周知の構成を有している。
12はスキャナ11によって取込まれた面イメージ(入力面
イメージ)を例えば1面分記憶するためのメモリ(以
下、面バッファと称する)、13は面バッファ12を電子的
にスキャンする電子スキャナ、14は電子スキャナ13によ
ってスキャンされた入力面イメージに含まれている文字
部分および図形部分を分離抽出し、当該入力面イメージ
の文書構造特徴を表す大局的特徴として出力する大局特
徴抽出回路である。
15は売上げ伝票、振込み用紙、住所録、目次など文書
構造特徴が異なる各種フォーマット文書の種類毎に、そ
のフォーマット文書の図形部分と文字部分の構造特徴、
つまり大局的特徴を表わす情報がその意味(文書種類)
と共に予め登録された大局理解辞書、16は各文字につい
ての種々の形状の文字パターン、パターン特徴等が予め
登録された文字パターン辞書、17は大局特徴抽出回路14
によって抽出された面イメージの大局的特徴中の文字部
分の構造特徴について文字パターン辞書16をもとに文字
種(ここでは、文字フォントの種別だけでなく、見出
し、本文、コメント、ルビなどの文書構造要素の種別を
含む)の判別を行うと共に、当該面イメージの大局的特
徴中の図形部分の構造特徴並びに文字部分に関する文書
構造要素種別毎の構造特徴と大局理解辞書15に各フォー
マット文書の種類毎に登録されているそのフォーマット
文書の図形部分並びに文字部分の構造特徴とのマッチン
グを行うことで、当該面イメージの大局的特徴(の表す
フォーマット文書)の種類を認識する大局認識回路であ
る。18は各大局的特徴種類毎にその大局的特徴種類に固
有の詳細特徴抽出の処理に必要な抽出対象特徴部分を含
む指示内容が予め定義された次工程定義テーブル(以
下、詳細理解辞書と称する)、19は大局認識回路17によ
って認識された大局的特徴種類に固有の詳細特徴抽出処
理を、詳細理解辞書18によって定義されている指示内容
に従って実行することにより詳細な特徴を抽出する詳細
特徴抽出回路である。20は詳細特徴抽出回路19によって
抽出された詳細特徴をもとに、対応する入力面イメージ
の表わす情報を理解し、更に必要なデータを判別して認
識すると共に、その結果を編集して正しく出力するため
の準備を行う理解・認識回路、21は理解・認識回路20に
よって理解・認識された結果を、正しいフォーマットに
編集して出力する出力・編集回路である。
次に、第1図の構成の動作を説明する。
まず、入力の対象となる、帳票やプレート等、面を持
つ物体の表面(または内面)を、スキャナ11により例え
ば16本/mm以上の解像度で光学的にスキャンしてその面
イメージを取込む。スキャナ11により取込まれた入力対
象物体の面イメージ(入力面イメージ)は面バッファ12
に記憶される。次に電子スキャナ13によって面バッファ
12を電子的にスキャンする。大局特徴抽出回路14は電子
スキャナ13により電子的にスキャンされた面バッファ12
上の入力面イメージから、予め与えられた周知の方式に
より文字部分と図形部分を分離抽出し、即ち入力面イメ
ージの文書構造特徴を表す大局的特徴を抽出し、大局認
識回路17および詳細特徴抽出回路19に出力する。
大局認識回路17は、大局特徴抽出回路14によって抽出
された入力面イメージの文書構造特徴を表す大局的特徴
のうち、文字部分の大局的特徴(つまり文字部分の構造
特徴)について文字パターン辞書16とのマッチングを行
うことで、文字の大きさ、フォント種別(イタリック、
明朝、ゴチック等)、文字の配列を認識し、その認識結
果から、各文字列(文字配列)毎に、その文字列部分の
文書構造上の特徴、具体的にはその文字配列部分が、見
出し、コメント、本文、ルビなどのうちのいずれの文書
構造要素種類のものであるかを判別する。ここでは、例
えば平均的な文字の大きさより大きい文字列であれば見
出しであり、イタリック体であればコメントであり、平
均的な文字の大きさであれば本文であり、平均的な文字
の大きさより小さい文字列であればルビであると判別さ
れる。
また大局認識回路17は、大局特徴抽出回路14によって
抽出された入力面イメージの文書構造特徴を表す大局的
特徴の種類を大局理解辞書15をもとに次のように認識す
る。
まず大局理解辞書15には、売上げ伝票、振込み用紙、
住所録、目次などの各種フォーマット文書の文書構造特
徴が、その特徴の種類、言い換えればその特徴を表わす
意味(売上げ伝票、振込み用紙、住所録など)と対応付
けて予め登録されている。大局認識回路17はこの大局理
解辞書15に登録されている各大局特徴種類毎の図形部分
の構造特徴(ここでは罫線構造特徴)並びに文字部分の
構造特徴と、大局特徴抽出回路14によって抽出された大
局的特徴中の図形部分の構造特徴並びに判別された文字
列部分の文書構造上の特徴(見出し等の文書構造要素種
別毎の構造特徴)とのマッチングを行い、大局特徴抽出
回路14により抽出された入力面イメージの大局的特徴
(の表すフォーマット文書)の種類を認識(特定)す
る。
大局認識回路17による上記の大局的特徴の認識・判別
処理が行われると、その認識・判別結果をもとに詳細理
解辞書18が参照される。具体的には、大局認識回路17に
より認識された入力面イメージの文書構造特徴を表す大
局的特徴の種類、つまり売上げ伝票、振込み用紙、住所
録などの文書フォーマット種類をもとに詳細理解辞書18
が参照される。この結果、大局認識回路17によって認識
・判別された入力面イメージの文書構造特徴を表す大局
的特徴の詳細(詳細特徴)を調べるための、対象となる
特徴部分を含む指示内容が詳細理解辞書18から取出さ
れ、詳細特徴抽出回路19に与えられる。この指示内容
は、認識(特定)された入力面イメージの大局的特徴の
種類が例えば振込み用紙であれば、「罫線構造中のどの
特徴部分には金額欄を表わす見出しがあるはずだから、
その部分を漢字として読め」などであり、つまり抽出
(読取り)対象となる文書構造要素種別の構造特徴部分
並びに対応する図形に関する構造特徴部分の指定情報
と、その対象箇所に対する処理内容からなり、フォーマ
ットコントロール(FC)データとしての役割を有する。
従来のフォーマットコントロールデータとの違いは、読
取り対象箇所を座標位置で示さずに対象箇所の構造特徴
で示している点である。
また詳細理解辞書18からは更に、上記入力面イメージ
の文書構造特徴を表す大局的特徴の詳細がどのようなも
のであるかを理解するのを補助するための情報(詳細理
解補助情報)が取出され、理解・認識回路20に与えられ
る。この詳細理解補助情報は、上記の金額欄の例であれ
ば、「金額欄の先頭には金額を表わす“金”や“¥”が
ある」などである。
詳細特徴抽出回路19は、詳細理解辞書18から取出され
た指示内容が与えられると、大局特徴抽出回路14によっ
て抽出された入力面イメージの大局的特徴、つまり図形
部分の構造特徴と文字部分の構造特徴を対象に、その指
示内容に従って詳細な特徴抽出を行う。これにより、上
記の指示内容が取出された例であれば、指示された特徴
部分の領域(ここでは、“金”または“¥”が見出しの
先頭にある金額欄を表す領域)にある黒の部分を対象と
する漢字認識用の詳細な特徴抽出が、大局的特徴抽出時
より高解像度(ここでは16本/mm)で行われる。
詳細特徴抽出回路19によって抽出された詳細特徴は理
解・認識回路20に与えられる。理解・認識回路20は、詳
細特徴抽出回路19によって抽出された詳細特徴(ここで
は金額欄を表す見出し部分の高解像度イメージデータ)
と、詳細理解辞書18から取出されている詳細理解補助情
報(ここでは、「金額欄の先頭には金額を表わす“金”
や“¥”がある」旨を表す情報)、文字パターン辞書16
をもとに、入力面イメージの表わす情報がどのようなフ
ォーマット種別のものであるか(例えば、どのような形
式の金額欄を持つ振込み用紙であるか)を理解し、更に
必要な箇所のデータを判別して認識し、即ち指示された
特徴部分の領域にあるものが、文字の何というカテゴリ
ーか、何という記号か、何を意味するか(例えば金額欄
の先頭にある複雑な文字は“¥”であるなど)を認識す
る。
そして理解・認識回路20は、理解したフォーマット種
別に対応して(例えば詳細理解辞書18に)予め用意され
ていたフォーマット(フォーマットデータ)を、同フォ
ーマット中に設定すべき上記認識した文字のコードデー
タ、更にはイメージと共に出力・編集回路21に与える。
これにより出力・編集回路21は、理解・認識回路20によ
って認識されて与えられたデータを指定されたフォーマ
ットに設定する編集処理を行い、出力する。
このように本実施例によれば、帳票やプレート等、面
を持つ物体の面イメージの表わすフォーマット情報を、
その面イメージの文字部分の見出し等の構造特徴と図形
部分の罫線構造等の構造特徴を用いることで、その詳細
な位置情報を予め記憶することなく、即ちフォーマット
コントロールデータ(FCデータ)を登録することなく理
解することができる。このため、例えば複数の種類の帳
票が入力されても、自動的にどの種類のものか判別でき
る。しかも本実施例によれば、必要な領域の必要なデー
タを自動的に認識し、その認識したデータを、判別され
たフォーマット種類に対応して予め用意されていたフォ
ーマットに編集して出力することができるため、誰でも
手軽に光学的文字読取り装置(OCR)を使うことができ
るようになる。したがって本発明は、OCRは勿論、ファ
クシミリ装置(FAX)、複写装置などのイメージ入力機
器のインテリジォント化、省力化に有効である。
[発明の効果] 以上詳述したようにこの発明によれば、帳票など面を
有する物体の面イメージから文字部分と図形部分を分離
抽出することで当該面イメージの文書構造特徴を表す大
局的特徴を抽出し、この大局的特徴からその特徴に固有
の詳細特徴抽出を行うことにより、この詳細特徴から面
イメージが表わす情報がどのようなものであるかを簡単
に理解できるので、従来のように対象となる面に関する
全ての情報を予め用意しておく必要がなく、汎用性に富
む。
【図面の簡単な説明】
第1図はこの発明の一実施例に係るマルチメディア入力
装置のブロック構成図である。 11……スキャナ、12……面バッファ、13……電子スキャ
ナ、14……大局特徴抽出回路、15……大局理解辞書、16
……文字パターン辞書、17……大局認識回路、18……詳
細理解辞書(次工程定義テーブル)、19……詳細特徴抽
出回路、20……理解・認識回路、21……出力・編集回
路。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】文書構造を持つ入力対象物体の面上を光学
    的にスキャンしてその面上のイメージを取込むスキャナ
    と、 このスキャナによって取込まれた面イメージを格納する
    ためのメモリと、 このメモリ上を電子的にスキャンして上記取込まれた面
    イメージに含まれている文字部分および図形部分を分離
    抽出し、当該面イメージの文書構造特徴を表す大局的特
    徴として出力する第1の特徴抽出手段と、 文書構造特徴が異なる各種フォーマット文書の種類毎
    に、そのフォーマット文書の図形部分と文字部分の構造
    特徴が予め登録された大局理解辞書と、 上記第1の特徴抽出手段によって抽出された上記面イメ
    ージの大局的特徴中の文字部分の構造特徴から、各文字
    配列の見出しを含む文書構造要素種別を判別すると共
    に、当該大局的特徴中の図形部分の構造特徴並びに文字
    部分に関する文書構造要素種別毎の構造特徴と上記大局
    理解辞書に各フォーマット文書の種類毎に登録されてい
    るそのフォーマット文書の図形部分並びに文字部分の構
    造特徴とのマッチングを行うことで、上記面イメージの
    大局的特徴の種類を認識する大局認識手段と、 各大局的特徴種類毎にその大局的特徴種類に固有の詳細
    特徴抽出のための、当該大局的特徴種類に固有の抽出対
    象特徴部分を含む指示内容が予め定義された次工程定義
    テーブルと、 上記大局認識手段によって認識された大局的特徴種類に
    固有の、上記次工程定義テーブルで定義された指示内容
    に従う詳細特徴抽出処理を、上記第1の特徴抽出手段に
    よって抽出された上記面イメージの大局的特徴中の当該
    指示内容で指定されている抽出対象特徴部分に対して実
    行することにより詳細な特徴を抽出する第2の特徴抽出
    手段と、 この第2の特徴抽出手段によって抽出された詳細特徴を
    もとに、対応する上記面イメージの表わす情報を理解し
    て認識する理解・認識手段と、 を具備することを特徴とするマルチメディア入力装置。
JP2328460A 1990-11-28 1990-11-28 マルチメディア入力装置 Expired - Lifetime JP2823350B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2328460A JP2823350B2 (ja) 1990-11-28 1990-11-28 マルチメディア入力装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2328460A JP2823350B2 (ja) 1990-11-28 1990-11-28 マルチメディア入力装置

Publications (2)

Publication Number Publication Date
JPH04195693A JPH04195693A (ja) 1992-07-15
JP2823350B2 true JP2823350B2 (ja) 1998-11-11

Family

ID=18210515

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2328460A Expired - Lifetime JP2823350B2 (ja) 1990-11-28 1990-11-28 マルチメディア入力装置

Country Status (1)

Country Link
JP (1) JP2823350B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61296481A (ja) * 1985-06-24 1986-12-27 Mitsubishi Electric Corp 文書読取装置
JPS6327990A (ja) * 1986-07-22 1988-02-05 Ricoh Co Ltd 文字認識方法
JPH02217977A (ja) * 1989-02-17 1990-08-30 Toshiba Corp 光学的文字読取装置

Also Published As

Publication number Publication date
JPH04195693A (ja) 1992-07-15

Similar Documents

Publication Publication Date Title
JP3962891B2 (ja) 文書画像処理装置、文書画像処理方法、及び記憶媒体
EA004418B1 (ru) Автоматическое создание штрихового кода для передачи и поиска данных
CN114299528B (zh) 一种针对扫描文档的信息提取和结构化方法
US20070269109A1 (en) Method and apparatus for processing selected images on image reproduction machines
JP2007005950A (ja) 画像処理装置及びネットワークシステム
JP2022092119A (ja) 画像処理装置、画像処理方法およびプログラム
JP2823350B2 (ja) マルチメディア入力装置
JPH05303619A (ja) 電子スクラップブック
JP3223878B2 (ja) 文字列照合装置、方法及び記録媒体
CN100511267C (zh) 图文影像处理装置及其影像处理方法
JP3959451B2 (ja) 画像読取システム
JP2682873B2 (ja) 表形式文書の認識装置
JP3006294B2 (ja) 光学的文字読取装置
JPS63184181A (ja) 光学文字認識装置
JP2923004B2 (ja) 画像生成装置
JP2619915B2 (ja) 情報処理方法および装置
JP2003085477A (ja) 文字認識装置および文字認識結果の訂正方法
JP3859263B2 (ja) 伝票用紙と専用用紙の使用方法
JPS63137383A (ja) 文字読取装置
JP3199033B2 (ja) 光学式文字読取方法、及び光学式文字読取装置
JPH11250179A (ja) 文字認識装置および文字認識方法
JPS63293690A (ja) 文字認識システム
JP2664895B2 (ja) 光学文字読取装置
JPH08190606A (ja) 光学的文字読取装置
JPS638988A (ja) 文字読取装置