JPH04105178A - 文書画像処理装置 - Google Patents

文書画像処理装置

Info

Publication number
JPH04105178A
JPH04105178A JP22381390A JP22381390A JPH04105178A JP H04105178 A JPH04105178 A JP H04105178A JP 22381390 A JP22381390 A JP 22381390A JP 22381390 A JP22381390 A JP 22381390A JP H04105178 A JPH04105178 A JP H04105178A
Authority
JP
Japan
Prior art keywords
image
area
character
information
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP22381390A
Other languages
English (en)
Inventor
Naoki Kuwata
直樹 鍬田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP22381390A priority Critical patent/JPH04105178A/ja
Publication of JPH04105178A publication Critical patent/JPH04105178A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、イメージ情報の形式で取り込まれた文書情報
から文字領域と図表領域とイメージ領域を分離抽出し、
各領域に含まれる情報をその情報に適するコードデータ
に変換後、再構成して出力する文書画像処理装置に関す
る。
[従来の技術] 一般的に、紙に書かれた文書情報を保存する場合、イメ
ージスキャナ等で取り込んだ画像をそのままイメージ情
報として扱い、外部記憶装置等に保存している。また、
文字領域のみを抽出した後文字領域について文字認識を
行い文字コード化して保存する場合は、入力文書画像に
対して使用者が、文字領域を人手により指定する必要が
あった。
[発明が解決しようとする課題] 以上述べたように、イメージ情報の形で保存するタイプ
では、記憶容量が膨大になり、また、文書の一部を書き
直したりする編集作業が行えなかった。そして、領域指
定するタイプでは、人間が常にその場に居て、指示する
必要があり、手間がかかっていた。
そこで本発明は、上記の問題点を解決するためのもので
、人手に頼らず入力された文書画像を文字領域・図表領
域・イメージ領域に分離し、さらに文字領域においては
文字を認識し、図表領域においては文字および幾何図形
を認識し、それぞれの情報に適したコードデータに変換
して、文書を保存する装置を提供することを目的とする
[課題を解決するための手段] 本発明の文書画像処理装置は、文字・図表・イメージ領
域をを少なくとも一つ以上含む文書をイメージ情報とし
て取り込む画像入力部と、この画像入力部により取り込
まれたイメージ情報から雑音を除去し2値化する前処理
部と、イメージ情報における文字・図表・イメージ領域
の持つ特徴を抽出する特徴抽出部と、この特徴抽出部で
抽出された特徴に基づき前述のイメージ情報を文字領域
・図表領域・イメージ領域に分割する領域分割部と、文
字領域部の文字を認識する文字領域処理部と、図表領域
内の幾何図形および文字を認識する図表領域処理部と、
イメージ領域内のイメージ情報を加工するイメージ領域
処理部と、これらの各処理部からのデータを再構成する
再構成部と、再構成された文書情報を出力する画像出力
部とを具備したことを特徴とする。
[実施例] 以下本発明について図面に基づいて説明する。
第1図は本発明の文書画像処理装置の構成を示すブロッ
ク図である。101は文書画像をイメージ情報として取
り込む画像入力部であり、スキャナもしくはカメラ等を
用いる。あらかじめ画像が収納されている光ディスク等
を使用する場合は、これに対応する再生装置になる。1
02は取り込んだイメージ情報を一時的に保存する画像
メモリである。103はイメージ情報に含まれる雑音の
除去、2値化を行う前処理部である。雑音の除去には、
メジアンフィルタ等を用いて孤立雑音を除去する。もし
、入力画像が傾いていたときは後の処理をやりやすくす
るために、この部分で傾斜角の補正を行う。104は文
字領域・図表領域・イメージ領域を分離するための特徴
量を抽出する特徴抽出部である。特徴の抽出法について
は後述する。
105は、特徴抽出部104で抽出された特徴量に基づ
いて入力されたイメージ情報を文字領域・図表領域・イ
メージ領域に分割する領域分割部である。106は分割
された文字領域内で、文字列の抽出、−文字の切り出し
、切り出した文字の認識を行う文字領域処理部である。
107は図表領域内の幾何図形および文字を抽出した後
、認識を行う図表領域処理部である。108はイメージ
領域と判定された部分をイメージデータのまま、もしく
は圧縮処理をするイメージ領域処理部である。
109は、コードデータ化された領域とイメージデータ
の領域を紙面上に再構成する再構成部である。110は
再構成された文書情報を出力する画像出力部で、具体的
には印画装置・表示装置・外部記憶装置がこれに該当す
る。
次に、入力されたイメージ情報の特徴抽出の方法につい
て説明する。まず、入力画像を縦m個、横n個の画素ご
とにグループ化する。そして、各グループ(mXn画素
)中に存在する黒点の数を計数する。この操作を入力画
像全体に対して行う。
第2図は入力されたイメージ情報をmXn画素のグルー
プに分割し、そのなかに存在する黒画素の数を入力画像
全面に渡って計数し、密度(黒画素数)を横軸に、その
出現頻度(度数)を縦軸にとったヒストグラムを示す図
である。−船釣に、図表領域は白い部分が多く密度は低
くなる。一方、イメージ領域は黒い部分が多く密度は高
くなる。
文字領域はこの中間に位置する。図に示されたように、
適当なしきい値(tl、t2、t3)で分離された領域
を密度の低い順番に0.1.2.3と番号を振ると、0
は何も書かれてぃない空白領域、1は図表領域、2は文
字領域、3はイメージ領域というように分割することが
できる。この例の場合は、文字領域の面積が大きい文書
を標本として用いたので、文字領域に対応する部分の度
数が多くなっている。
第3図は、第2図に示した方法により入力文書に対して
、m x n画素ごとにラベル付けを行った一例を示す
図である。1とラベルがつけられた領域が図表領域、2
が文字領域、3がイメージ領域に対応する。このように
して、同じラベルの付いた領域をグループ化することに
より、領域分割を行う。
第4図は、文字領域処理部106の詳細を示すブロック
図である。41は文字領域内の文字列を抽出する文字列
抽出部、42は抽出された文字列から一文字を切り出す
文字抽出部、43は抽出された文字を文字認識用辞書4
4を参照して、認識を行う文字認識部である。ここで認
識が行えなかった文字に関しては、イメージデータのま
ま次の単語照合部45へ送られる。単語照合部では、認
識された文字が、単語として意味をもつがどうが単語辞
書46を参照して、もし文字の誤認識により意味のない
単語が存在した場合は、訂正の可能なものについては正
しい単語に変換する。文字認識部で認識できなかった文
字についても、単語辞書を参照することにより確定でき
るものについては、この部分で決定する。単語照合部で
確定できなかった文字については、イメージのまま残し
ておく。47は、認識された文字について、これをコー
ド化する文字コード化部である。48は、上記の部分で
コードデータ化された文字列を紙面上で再構成するため
に必要な情報を付加する真書式付加部である。例えば、
第5図に示されるように、紙面の左上を原点として、縦
方向にX軸を、横方向にY軸をとったとき、 (xLy
l)と(x2、y2)で囲まれた領域に文字列が存在す
るとする。
このとき、この領域を示す頁書式は、例えば第6図(a
)に示したようになる。この例では、++ Char”
が、この領域が文字領域であることを、文字領域の存在
位置が(xl、yl)と(x2、y2)で囲まれた矩形
内であること、文字の種類が明朝体であること、文字の
大きさが10ポイントであり、認識した文字列が(@@
・旧・川・・・・@@)で示される内容であることをそ
れぞれ表している。
この情報を基に、文字領域内の情報が印字装置や表示装
置に出力されたり、あるいは外部記憶装置に保存される
第7図は、図表領域処理部107の詳細を示すブロック
図である。71は図表領域内の幾何図形を抽出する幾何
図形抽出部で、抽出法には、H。
ugh変換・黒画素の連結成分抽出等を用いる。
72は図表領域に含まれる文字を抽出する文字抽出部、
73は抽出された文字を文字認識用辞書74を参照して
、認識を行う文字認識部である。ここで認識が行えなか
った文字に関しては、イメージデータのまま次の単語照
合部75へ送られる。
単語照合部では、認識された文字が、単語として意味を
もつかどうか単語辞書76を参照して、もし文字の誤認
識により意味のない単語が存在した場合は、訂正の可能
なものについては正しい単語に変換する。文字認識部で
認識できなかった文字についても、単語辞書を参照する
ことにより確定できるものについては、この部分で決定
する。単語照合部で確定できなかった文字については、
イメージのまま残しておく。77は、認識された文字に
ついて、これをコード化する文字コード化部である。7
8は、上記の部分でコードデータ化された文字列を紙面
上で再構成するために必要な情報を付加する真書式付加
部である。例えば、第5図に示されるように、紙面の左
上を原点として、縦方向にX軸を、横方向にY軸をとっ
たとき、(x3、y3)と(x4、y4)を結ぶ直線が
存在するとする。このとき、この直線を示す頁書式は、
例えば第6図(b)に示したようになる。この例では、
”Line”が、この図形が直線であることを、直線の
存在位置が(x’3、y3)と(x4、y4)を結ぶ領
域であること、線の種類が実線であること、線の幅が0
.5mmであることをそれぞれ表している。第7図にお
いて、72から78で示される部分については、文字領
域処理部106に含まれるものと共用してもよい。
本発明の応用例としては、以下のものが考えられる。電
子ファイリングシステムにおいて、久方画像を領域分割
し、コード化することによって、データの圧縮ができ、
記憶容量が縮小できる。デスクトップパブリッシングと
組み合わせることにより、入力画像の文章や図形を書き
換えて別の文書を作成するのに利用することができる。
機械翻訳を行う際、従来キーボードなどを使用して人が
人力していた文書入力の自動化を図ることができる。複
写機において、従来イメージ情報のまま複製を繰り返す
とと、雑音等の影響で文字や図形が不鮮明になりついに
は読み取れなくなったが、度この文書処理装置を通し、
コード化できる部分についてコード化することにより、
コード化された部分については、何回複写を繰り返して
も常に鮮明な画像を得ることができる。また、同様の理
由でファクシミリの入力画像の処理に利用すると、画像
が鮮明になり、かつ伝送容量の圧縮につながる。
[発明の効果] 以上述べたように、本発明の文書画像処理装置を用いる
と、従来イメージデータとして取り扱っていた文字およ
び図形を認識することにより、これに適したコードデー
タに直すので、保存する場合、記憶容量が少なくて済む
。またコードデータに変換されているので、一部分の文
字・図形等を変更したり、再利用したりする編集作業が
行える。
さらに、文字・図表・イメージ領域を自動的に分離抽出
しているので処理の省力化が可能になるだけでなく、あ
らかじめプログラムを設定しておくことにより、欄外に
存在するロゴマークを消すとか、文章だけ、図形だけの
保存といったトリックプレイも行える。
【図面の簡単な説明】
第1図は本発明の文書画像処理装置の構成を示すブロッ
ク図、第2図は各領域の黒画素の分布を示す図、第3図
は入力画像を領域分割したときの図、第4図は本発明の
文字領域処理部のブロック図、第5図は入力画像の一例
を示す図、第6図は第5図を真書式で表現した図、第7
図は本発明の図表領域処理部のブロック図である。 101・・・画像入力部、102・・・画像メモリ、1
03・・・前処理部、104・・・特徴抽出部、105
・・・領域分割部、106・・・文字領域処理部、10
7・・・図表領域処理部、108・・・イメージ領域処
理部、109・・・再構成部、110・・・画像出力部
、41・・・文字列抽出部、42・72・・・文字抽出
部、43・73・・・文字認識部、44・74・・・文
字認識用辞書、45・75・・・単語照合部、46・7
6・・・単語辞書、47・77・・・文字コード化部、
48・78・・・頁書式付加部、71・・・幾何図形抽
出部 用願人 セイコーエプソン株式会社 代理人 弁理土鈴水害三部(他1名) t2 密度 第3図 第6図(b)

Claims (1)

    【特許請求の範囲】
  1. 文字・図表・イメージ領域を少なくとも一つ以上含む文
    書をイメージ情報として取り込む画像入力部と、前記画
    像入力部により取り込まれたイメージ情報から雑音を除
    去し2値化する前処理部と、前記イメージ情報における
    前記文字・図表・イメージ領域の持つ特徴を抽出する特
    徴抽出部と、前記特徴抽出部で抽出された特徴に基づき
    前記イメージ情報を文字領域・図表領域・イメージ領域
    に分割する領域分割部と、前記文字領域部の文字を認識
    する文字領域処理部と、前記図表領域内の幾何図形およ
    び文字を認識する図表領域処理部と、前記イメージ領域
    内のイメージ情報を加工するイメージ領域処理部と、前
    記3処理部からのデータを再構成する再構成部と、再構
    成された文書情報を出力する画像出力部とを具備したこ
    とを特徴とする文書画像処理装置。
JP22381390A 1990-08-24 1990-08-24 文書画像処理装置 Pending JPH04105178A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP22381390A JPH04105178A (ja) 1990-08-24 1990-08-24 文書画像処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP22381390A JPH04105178A (ja) 1990-08-24 1990-08-24 文書画像処理装置

Publications (1)

Publication Number Publication Date
JPH04105178A true JPH04105178A (ja) 1992-04-07

Family

ID=16804125

Family Applications (1)

Application Number Title Priority Date Filing Date
JP22381390A Pending JPH04105178A (ja) 1990-08-24 1990-08-24 文書画像処理装置

Country Status (1)

Country Link
JP (1) JPH04105178A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06251119A (ja) * 1993-02-25 1994-09-09 Fuji Xerox Co Ltd 文書編集装置
JPH07282283A (ja) * 1994-04-13 1995-10-27 Ricoh Co Ltd 文字画像編集処理装置
JPH08235341A (ja) * 1995-02-22 1996-09-13 Toshiba Corp ドキュメントファイリング装置および方法
JPH0991450A (ja) * 1995-07-17 1997-04-04 Toshiba Corp 文書処理装置および文書処理方法
US6437881B1 (en) 1997-10-15 2002-08-20 Fuji Xerox Co., Ltd. Image processing apparatus and image processing method

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06251119A (ja) * 1993-02-25 1994-09-09 Fuji Xerox Co Ltd 文書編集装置
JPH07282283A (ja) * 1994-04-13 1995-10-27 Ricoh Co Ltd 文字画像編集処理装置
JPH08235341A (ja) * 1995-02-22 1996-09-13 Toshiba Corp ドキュメントファイリング装置および方法
JPH0991450A (ja) * 1995-07-17 1997-04-04 Toshiba Corp 文書処理装置および文書処理方法
US6437881B1 (en) 1997-10-15 2002-08-20 Fuji Xerox Co., Ltd. Image processing apparatus and image processing method

Similar Documents

Publication Publication Date Title
US4020462A (en) Method and apparatus for form removal from contour compressed image data
JP2940936B2 (ja) 表領域識別方法
JP4189506B2 (ja) 画像処理のための装置、方法及び記録媒体
JPH03119486A (ja) 記入済書式に含まれている情報を記憶または伝送のために圧縮する方法
JP2000306103A (ja) 情報処理装置及び方法
US20020141648A1 (en) Apparatus and method for filing and reproducing images
JPH04105178A (ja) 文書画像処理装置
JP2017211936A (ja) 文書保存処理システム
JP2001076095A (ja) 情報処理装置及びその方法
JPH04106670A (ja) 文書画像処理装置
US6728426B1 (en) Compression of form images in gray-level
JP4742632B2 (ja) 画像処理装置、画像処理方法及びプログラム
JPS6255772A (ja) 画像処理装置
JP2505402B2 (ja) 画像処理装置
JPH09167222A (ja) 画像処理装置
JPH05159062A (ja) 文書認識装置
JP2505401B2 (ja) 画像処理装置
JPH08202824A (ja) 文書画像認識装置
KR970006033B1 (ko) 이미지데이타와 텍스트데이타의 합성에 의한 문서작성 방법
JPS6279579A (ja) 文書読取装置
JPH0343879A (ja) 文字認識装置およびその文字領域分離方法
JP2773264B2 (ja) 画像入力処理装置
JP2637402B2 (ja) 画像処理システム
JPH03230288A (ja) 情報処理装置
EP0594901A1 (en) Image compression method