JP3787377B2 - 文書方向判定方法及び装置及び文字認識方法及び装置 - Google Patents
文書方向判定方法及び装置及び文字認識方法及び装置 Download PDFInfo
- Publication number
- JP3787377B2 JP3787377B2 JP22359195A JP22359195A JP3787377B2 JP 3787377 B2 JP3787377 B2 JP 3787377B2 JP 22359195 A JP22359195 A JP 22359195A JP 22359195 A JP22359195 A JP 22359195A JP 3787377 B2 JP3787377 B2 JP 3787377B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- attribute
- area
- character
- determined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Character Input (AREA)
Description
【発明の属する技術分野】
本発明は、文書原稿を光学的に読み取って得られる画像データより当該文書原稿の方向を判定する文書方向判定方法及び装置、及び該文書方向判定装置を備えた文字認識装置に関する。
【0002】
【従来の技術】
従来、文字認識処理においては、原稿を光学的に読み取る装置、いわゆるスキャナを用いて画像データを獲得し、この画像データに対して、文字認識を行なっている。この場合、もし画像データが90°あるいは180°回転されて読み取られたりしていると、文字認識結果として全く異なるコードを出力してしまう。これは、獲得された画像データについて一応文字認識を実行するものの、文字の方向が正しくないため、認識結果が滅茶苦茶なものとなってしまうためである。
【0003】
そこで、正しく文字認識が行なわれるように、文書の方向が不正である場合には、原稿の読取り方向を人が直して、再度入力し、認識処理を行なってきた。しかしながら、(1)スキャナの処理のスピードが向上し、オートフィーダと呼ばれる原稿自動給紙機能が附属され始めてから、大量の原稿を処理することが増えてきて、人がいちいち原稿の方向を補正することがむずかしくなってきた、(2)A4のスキャナの場合、原稿の置きかたは一義的に決まってしまう、といった理由により、文書方向の自動判別/回転機能は必要な技術となってきている。
【0004】
図12は、文書方向の自動判別の代表的な手法を説明する図である。図12において、(a)では、領域分離の結果を用いて表のような線のある部分1000を抽出し、その方向性を見て(例えば、横方向に長い線で分割されている特徴を用いて)その文書の方向性を認識する方式が示されている。また、図12の(b)に示されるように、縦方向と横方向の射影(ヒストグラム1001)を検出して、その区切れ具合を見て方向を判断したり(例えば、ヒストグラムが細切れになっているほうを横方向とする)、領域分離して、文字領域の特徴にマッチした矩形領域1002の横長、縦長といった特徴から文書の方向を判別する。
【0005】
以上のような判別手法による文書方向の判別結果より、文書が横方向か縦方向かを判別し、必要に応じて画像の回転を行なっていた。そして回転された画像に対して、文字認識処理を行ない、認識結果を得ていた。
【0006】
文字認識への期待は、大量の文書を整理したいという要求のもとで近年非常に高まっており、文字認識装置は電子ファイリングやDTPに搭載されたり、複写機のような大量に文書を処理する機器に搭載されたりしている。このような文字認識装置により、紙に書かれた文書中の文字を、検索に利用したり、DTPソフト上で処理したりすることが可能となる。
【0007】
以上のように、文字認識装置において、人間の手を煩わせない各種の自動化技術は、大きな課題となってきた。特に、文書方向自動補正技術は、なくてはならない重要な技術である。
【0008】
【発明が解決しようとする課題】
上述した従来の文字認識装置には、以下に示されるような問題がある。即ち、
(1)文書が誤った方向に入力されたことによる、文字認識の誤認識の発生。
(2)読み取り画像データが、横を向いていたり、逆さを向いていたりした場合、モニター等で確認した場合の不都合さ。
(3)文書方向判別の精度。
(4)文書中に異なる方向の文字が混在するものに対する方向判別の精度。
という問題がある。上述の各問題について、以下に簡単な説明を行なう。
【0009】
(1)文書方向相違による誤認識の発生
図13は、「高」という文字に対して、読取り方向が回転した場合の各方向における認識結果を示す図である。なお、図13で示したのはあくまでも一例であり、誤認識の結果は必ずしも図のとおりとなるとは限らない。図13に示したように、文書の読取り方向が270度回転した場合の認識結果は「打」、180度の場合は「字」、90度の場合は認識不可能というように誤認識、あるいは認識できないという結果を生じる。このように文字認識は、あくまでも文字が正方向を向いているとして、得られた特徴から文字候補を選び出すので、読取り方向が回転すればその認識結果も誤ったものとなる。
【0010】
(2)モニタ上における画像データの確認の際の不都合さの発生
図14は、スキャナ等で読み込まれた画像データをディスプレイ表示している状態を表す図である。(a)は、A4縦方向の文書がA4縦置きで読み取られた場合の表示例で、表示が正常な場合である。(b)は、A4縦方向の文書をA4横置きで読み取られた場合の表示例で、人間が見ると、90°回転している画像となっている。これは、紙面上における文書の書かれ方(文書の方向)と、スキャナから画像入力する際の原稿の置方の関係から発生する。
【0011】
図15は紙面上における文書の各種の配置状態を説明する図である。紙面に対する文書の配置は、図15に示すように各種の形態がある。(a)は、A4縦置き文書で日本語の横書き文書や英語の文書等でよく用いられる形態である。(b)は、A4横置きで、一行の長さが長い文書や、OHP用の文書、A3、B4などの文書を縮小コピーした場合などでよく用いられる形態である。(c)はA4横置きで、真中で段組が切り替わっているもので、A4文書を2枚連続して縮小コピーした場合に用いられる形態である。(d)は、A4縦置きにおける縦書き文書の形態である。
【0012】
一方、スキャナは機種により読み取り方法がまちまちである。例えば、原稿サイズ最大A4まで入力できるフラットベットのスキャナや、A4原稿を縦方向にスライドして読み込む方式のスキャナ等では、原稿読み取り方向が一義的に決まってしまう。このため、文書配置の形態によっては、方向が不正方向に読み込まれてしまう。
【0013】
また、複写機のスキャナ部を利用して原稿を読み取るものがある。このようなスキャナでは、読み取るべき原稿の置方が比較的自由である。そのため、人間が正しい方向に原稿をおいて画像入力することが可能である。特に、原稿枚数の多い文書の読取りを行う際に、オートフィーダーを用いて自動的に原稿を取り込んで読取りを行うことが可能なものもある。しかしながら、オートフィーダーを用いて原稿の取り込を行う場合、文書中に不正方向に向いている原稿がまじっていたり、文書の配置方法が異なる原稿が含まれていたりすると、画像が不正方向に入力されてしまうことになる。
【0014】
以上のような原因により、図14に示したディスプレイ表示がおかしな方向になってしまう。このため画像を正常方向に回転する必要がある。
【0015】
(3)文書方向判別の精度
文書の方向判別は、より精度の高いものでなければならない。上記従来例のように文書中の表の線を用いる判定は、それがない文書や縦横混在の線を含んだ文書の場合は、方向判別を誤る可能性がある。また縦横の射影をとる場合は、文字のみで行や段落がしっかり分かれている文書に対しては、比較的精度よく回転方向を検出できるが、文書中に図や自然画が含まれている文書の場合は、方向判別を誤る可能性がある。さらに、0度と180度、90度と270度の区別はつきにくく、方向判別の精度は低い。
【0016】
(4)異なる方向の文字が混在する文書における方向判別の誤認識の発生
図16は1枚の原稿上に異なる方向の文字が混在する文書の例を表す図である。同図(a)は、正常方向と異なる方向の文字が存在する文書、例えば文書中の1010に対する説明文字が存在する場合を示す。また、(b)、(c)のように、2枚の原稿を縮小して1枚の原稿にした文書において、片側は、縦置文書、もう片側は横置文書の場合がある。これらは、文書中のどの文字の方向を用いてその文書の方向を判断するかにより、方向判断結果が異なってくる。
【0017】
本発明は上記の問題に鑑みてなされたものであり、文書画像データに含まれる複数領域について文書方向を判別し、判別された各領域の方向に基づいて当該文書画像の方向を決定することにより、より正確に文書方向を判定する文書方向判定方法及び装置を提供することを目的とする。
【0018】
また、上記各領域の方向の判別を、各領域に含まれる文字の方向を判別することで行うことで、各領域の方向をより正確に判定することを目的とする。
【0019】
また、本発明で提供される文書方向判定装置を備えることにより、文書の読取り方向に関らず正しい方向で文書画像を表示するとともに、より文字認識精度を向上する文字認識装置を提供することを目的とする。
【0020】
【課題を解決するための手段】
上記の目的を達成するための本発明の文書方向判定装置は以下の構成を備える。即ち、
入力された文書画像を複数の部分領域に分離する分離手段と、
前記分離手段で得られた複数の部分領域における属性が、予め優先度の定められた複数種類の属性のいずれであるかを判別する属性判別手段と、
前記分離手段で得られた複数の部分領域における方向を判別する方向判別手段と、
前記属性判別手段で最も優先度が高い属性を有すると判別された複数の部分領域における前記判別された方向が一致しているか否かを判定し、一致する場合には当該一致する方向を前記文書画像における文書方向として決定する決定手段とを有し、
前記複数種類の属性のうち最も優先度が高い属性は、文字認識しやすい文字が含まれる領域で、かつ文書画像における文書方向と方向が一致する可能性の高い領域の属性である。
【0021】
また、好ましくは、
前記方向判別手段は、
前記分離手段で得られた複数の部分領域を一つずつ処理対象とし、当該処理対象とされた部分領域における方向を判別し、
前記決定手段は、
前記処理対象の部分領域が最も優先度が高い属性を有すると前記属性判別手段で判別されている場合には、当該処理対象の部分領域における方向が既に処理済の部分領域における方向と一致するか否かを判定し、一致する場合には当該一致する方向を前記文書画像における文書方向として決定し、一致しない場合には前記方向判別手段に対して新たな部分領域を処理対象とさせる。
文書方向を決定するのに対して高い優先度を持つ複数の部分領域で方向が一致した時点で文書方向判別の処理を打ち切ることが可能となり、処理の効率が向上する。
【0022】
また、好ましくは、
前記決定手段は、
前記処理対象の部分領域と前記処理済みの部分領域とにおける方向が一致しない場合で、かつ、新たな部分領域が存在しない場合には、前記最も優先度が高い属性以外の属性を有する部分領域の方向に基づいて文書方向を決定する。
【0023】
また、好ましくは、前記複数種類の属性には、本文中の文字領域である属性、表組中の文字領域である属性、タイトル中の文字領域である属性、図の解説のための文字領域である属性が含まれる。これら文字領域を更に細かく分類したものであり、方向判定に用いるべき文字領域を適切に選択できる。
【0024】
また、好ましくは、本文中の文字領域である属性を最も優先度の高い属性とする。本文中の文字は文書方向と一致する可能性が高いからである。
【0025】
また、好ましくは、タイトル中の文字領域である属性を最も優先度の高い属性とする。タイトル中の文字領域に含まれる文字の方向は文書方向と一致する可能性が高いからである。
【0030】
また、本発明によれば、
上記の構成を有する文書方向判定装置によって決定された文書画像の文書方向が前記文書画像における0度の方向と異なる場合に、前記文書画像を回転する回転手段と、
前記回転手段で回転された後の文書画像を複数の部分領域に分離する第2の分離手段と、
前記第2の分離手段で得られた複数の部分領域のうちの文字領域に含まれる文字を認識する文字認識手段とを備える文字認識装置が提供される。入力された文書画像データを正しい方向に回転するので、例えば文書画像データの表示に際して、その文書画像データの入力方向に関らず、正しい方向で文書画像を表示できるとともに、正しく文字認識を行うことが可能となる。
【0031】
【発明の実施の形態】
以下に添付の図面を参照し手本発明の好適な実施の形態を説明する。
【0032】
<実施形態1>
実施形態1における文字認識装置では、文書方向判別の手法として、文字認識の認識率を用いて、方向判別を行う。これは、文書の方向を一番正確に現わしているのは、文字領域であることに注目し、文書中の文字領域における複数の文字について、0°、90°、180°、270°の方向から文字認識を行い、最も類似度が高かった方向が正しい文書の方向であると判断する。
【0033】
文字認識処理では、まず画像中から文字切りという手法で、一文字ごとに画像を切りだす。次に、認識文字の選出は、文字ごとに算出される文字の特徴が、より近い特徴の文字を選び出してくる。文字認識の自信度(類似度)とは、その特徴にどれだけ近いかを示す割合を示す。専門的にいうと文字の特徴分布のなかにおける距離の近さを示す。文字認識の場合、近い文字を数種類算出して候補文字とするが、その中でも一番距離の近いものを第一候補文字とする。
【0034】
以上のような認識処理を4方向に対して行なうと、4方向とも文字認識は行うが、候補文字の距離値(自信度)は異なってくる。もちろん正しい方向に向いた文字のほうが、距離値は近い値となる。しかしながら、たとえ距離値が近いといっても、それがかならずしも正確であるとは限らない。偶然正方向以外の角度からの文字認識に対して、誤方向の角度の方がよい値を出すこともある。
【0035】
そのため、複数の文字、例えば10文字を抽出して方向判別し、その近さの距離を計算をし、そして、その平均値を用いて判断基準にする。さらに、より精度を上げるため、文字のブロックを数ヶ所選んで同様の処理を行う。以上のように、文字認識の認識率を利用して文書の方向判別を行う。なお、以下の実施形態では、文字認識の精度を用いて方向判別する前に、以下のような処理を行う。
【0036】
文書画像データに対して、領域分割処理を最初に行う。この領域分割処理の結果、文字領域と判断された領域について、文字認識処理を利用した方向判別処理を行う。この判定に用いる文字領域は、領域分割処理で得られる結果、更に詳細にその属性が得られる。例えば、テキスト領域、タイトル領域、キャプション領域、表中の文字領域に判別される。本実施形態の方式では、これらの属性の各々に対して優先順位を設定し、優先順位の高い領域で判定された文書方向を優先的に採用することを特徴とする。例えば、以下のような優先順位が考えられる。
【0037】
(1)タイトル優先 : 文書画像中、タイトルは文字サイズも大きく文字認識しやすく、更に、その方向も正しい文書方向と一致する可能性が高い。よって、タイトル領域の優先順位を高く設定する。
【0038】
(2)テキスト優先 : 文書画像中、本文を表すテキスト領域は、文書中に一番多く存在する。また大きさもある一定の大きさであることが多く文字認識もしやすい。このためテキスト領域の優先順位を高く設定する。
【0039】
(3)表中文字非優先 : 文書画像中、表が存在し、そのなかに、文字が存在する場合、その文字がその原稿の本来の方向と異なる方向を向いている可能性が高い。このため、表中の文字領域の優先順位を低くする。
【0040】
(4)キャプション文字非優先 : 文書画像中、図や表が存在し、その上部、下部、横部のいずれかに説明文字が存在することが多く、このような文字の存在する領域をキャプション領域という。特に図や表の横部分に存在するキャプション領域では、領域中の文字がその原稿の本来の方向と異なる方向を向いている可能性が高い。このため、キャプション領域の優先順位を低くする。
【0041】
以上のように、文字領域の属性に優先順位を設けて、優先順位の高い文字領域の文字を用いて文書方向の判定を行う。そして、この判定の結果に従って、原画像を正しい方向に回転させて、文字認識結果と正方向画像データを得る。以下、本実施形態1について詳細に説明する。
【0042】
図1は実施形態1における情報処理システムの構成を表すブロック図である。本情報処理システムは、画像の入力部、画像処理部、出力部、外部I/Fを持つ画像入出力装置である。分離されたスキャナとプリンタ装置の構成からなるスキャナプリンタや、一体化された複写機のようなシステムがこれに当てはまる。本システムは、I/Fを介してコンピュータとの接続も可能であり、コンピュータ側からの指示により、各種動作を行うことができるシステムである。
【0043】
11はスキャナ部であり、文書原稿を光学的に読み取って画像データを獲得する。スキャナ部11には付加機能であるオートフィーダの取り付けが可能となっており、該オートフィーダを装着することにより、複数枚の原稿を連続的に入力することが可能となる。12は主制御部であり、CPU12a及びメモリ12b(ROM、RAMで構成される)を備える。主制御部12は文字認識/方向判別部13及び領域分離部14による処理結果を用いて当該システムの各種制御を行うとともに、一時的に画像データを保存する。
【0044】
13は文字認識/方向判別部であり、本実施形態の特徴である文書方向の判別処理と文字認識とを行うブロックである。14は領域分離部であり、文書画像データより、文字領域、図形領域、自然画領域、表領域などを矩形に分離して、各領域の属性を付加する処理を行う。
【0045】
15は記憶装置であり、各種処理結果(画像データ、領域分離結果、文字認識結果など)を保存する。記憶装置15は、例えば、ハードディスクや光磁気ディスクなどで構成される。16はI/F部であり、外部の装置へデータを送るための構成で、データ伝送の形態としてはSCSIやRS232Cなどがある。17はコンピュータであり、I/F部16を介して情報を得たり、記憶装置15よりデータを得て、それらを利用する。例えば、コンピュータ17上でDTP(Desktop Publishing)アプリケーションを動作させ、文字認識処理によって得られた文書データを記憶装置15から獲得し、これを編集対象のデータとして用いるように構成できる。18はプリンタ部であり、領域分離情報や文字認識情報によって加工されたデータを出力する。
【0046】
次に、図2〜図4を用いて本実施形態1の動作について説明する。図2〜図4は実施形態1における文字認識の手順を表すフローチャートである。なお、本フローチャートで示される手順を実現するための制御プログラムは、メモリ12bのROMに格納されており、CPU12aによって実行される。
【0047】
まず、ステップS1において、スキャナ部11により原稿を読み込み、文書画像データを得る。得られた文書画像データはメモリ12bのRAMに格納される。次に、ステップS2において、文書画像データに対する領域分離処理を行う。領域分離処理は、メモリ12bに格納した文書画像データを領域分離部14へ入力することで行われる。なお、領域分離処理の詳細については後述する。また、分離結果は、各領域を囲む矩形情報とその属性情報とを有し、主記憶(メモり12bのRAM)に格納される。この分離結果は後の処理においてCPU12aによって頻繁にアクセスされるためである。
【0048】
ステップS3では、上述の領域分離処理によって分離された各領域のうち、属性が文字領域と判定された領域(テキスト領域、タイトル領域、表中の文字領域、図のキャプション領域)を抽出し、以降のステップS4〜ステップS16において抽出した文字領域の方向判別処理を行う。
【0049】
まず、ステップS4において、当該原稿中に文字領域と判別される領域が存在するか否かを調べる。原稿中に文字領域が存在しなければ、ステップS21へ進み、方向判別不能とし、読み取られた方向がそのまま正しい方向である(方向0°)とする。
【0050】
ステップS4において、文字領域が存在すればステップS5へ進む。ステップS5では、文字領域と判断された領域の一つを抽出し、その属性に従って処理を分岐する。即ち、抽出された文字領域の属性がタイトル領域であればステップS6へ、テキスト領域であればステップS9へ、キャプション領域であればステップS8へそれぞれ処理が分岐する。
【0051】
ステップS6では、当該領域をタイトル領域として、その旨を示すTITLEフラグを記憶する。また、ステップS8では、当該領域をキャプション領域として、その旨を表すCAPTIONフラグを記憶する。
【0052】
当該領域がテキスト領域の場合は、ステップS9へ進み、当該テキスト領域が本文中のものか、表中のものかを判断する。そして、本文中のテキスト領域であればステップS10へ、表中のテキスト領域であればステップS11へそれぞれ進む。そしてステップS10では、当該領域が本文中のテキスト領域であることを示す本文中TEXTフラグを記憶する。また、ステップS11では、当該文字領域が表中のテキスト領域であることを示す表中TEXTフラグを記憶する。
【0053】
ステップS12では複数の角度からの読取りによる文字認識を行い、その文字認識結果に基づいて当該領域における文書方向の判別を行う。なお、この文書方向判別の詳細は後述する。ステップS12において、当該領域における文書方向が判別できた場合はステップS14へ、文書方向の判別が不能であった場合はステップS16へそれぞれ進む。
【0054】
ステップS14では、各フラグ別(即ち、TITLE,CAPTION,本文中TEXT,表中TEX別)に、ステップS12による方向判別結果を記憶する。そして、ステップS15では、本文中TEXTと判断された複数の文字領域において、方向判別結果が一致したか判断する。もし一致方向が検出できたら、その方向を方向判別結果としてステップS22へ進む。一方、一致方向の検出ができなかった場合はステップS16へ進み、全ての文字領域について上述のステップS5からステップS15の処理を行ったか否かを判断する。もしまだ未処理の文字領域がある場合は、ステップS13へ進み、処理の対象を次の文字領域へ移し、ステップS5へ戻る。
【0055】
本文中のテキスト領域と判定された文字領域で一致方向が検出できず、ステップS3で抽出された全ての文字領域についてステップS5〜S15の処理が終了している場合は、ステップS16からステップS17へ進む。ステップS17では、タイトル領域と判定された文字領域の複数領域で方向判別結果が一致したか判断する。もし一致方向が検出できたら、該一致方向を方向判別結果とし、ステップS22へ進む。
【0056】
一方、ステップS17において一致方向を検出できなければ、ステップS18へ進む。ステップS18では、表中のテキスト領域と判定された文字領域で複数箇所の方向判別結果が一致したか判断する。もし一致方向が検出できたら、その方向を方向判別結果としてステップS22へ進む。
【0057】
ステップS18において一致方向が検出できなかった場合は、ステップS19へ進む。ステップS19では、キャプション領域と判定された文字領域で複数箇所の方向判別結果が一致したか判断する。もし一致方向が検出できたら、その方向を方向判別結果としてステップS22へ進む。
【0058】
ステップS19において、一致方向が検出できなければステップS20へ進む。ステップS20では、抽出された文字領域のうち方向判別結果の得られた領域があるかどうかを調査し、一つでも方向判別結果が得られた領域が見つかれば、その領域の方向を方向判別結果としてステップS22へ進む。ただし、ステップS20における調査は、本文中のテキスト領域、タイトル領域、表中のテキスト領域、キャプション領域の順に行う。
【0059】
ステップS20において方向判別結果の得られた文字領域が存在しない場合はステップS21へ進み、方向判別不能とする。この場合、スキャナ部11の読取り方向をそのまま文書方向として(即ち、0度の画像として)ステップS26へ進み、処理を続行する。
【0060】
一方、何等かの方向判別結果が得られた場合は、ステップS22においてその方向判別結果を取得し、ステップS23で該方向判別結果が0度か否かを判断する。方向判別結果が0度の場合は、画像回転を行わないので、そのままステップS26へ進む。
【0061】
ステップS24では、方向判別結果(本例の場合、90°、180°、270°のいずれかとなる)に従って、メモリ12bに格納された画像データを回転する。そして、ステップS25にて、メモり12bに格納された画像データに対して、再びステップS2と同様の領域分離処理を行う。領域分離結果はステップS2の場合と同様に主記憶(RAM)に記憶される。
【0062】
ステップS26では、正しい方向に修正された画像データあるいは当初から正しい方向で読み込まれた画像データについて、全文字領域にわたって文字認識を実行する。ステップS27では、その文字認識結果を得て、これを記憶装置15に格納する。
【0063】
以上のように、本実施形態1では、文書中の文字領域を用いて文書方向の判別を行う訳だが、文書中において各文字が最も正しい方向を向いていると判断される本文中のテキスト領域を優先順位を高くして方向判別に用いるので、方向判定結果の信頼性が向上する。
【0064】
そして、もし文書方向が正しい方向であると判定された場合は、引続き画像中の文字ブロックに対して文字認識処理を行なう。一方、不正な方向に入力された場合は、当該画像データを正しい方向に回転させて、得られた回転画像に対して、再び領域分離補正処理を行ない、文字認識を行う。
【0065】
ここで、回転処理後の画像データに対して再度領域分離を行うのは、画像回転に伴う領域分離情報の相違を補正するためである。回転後の画像に対する領域分離の方法としては、(A)回転後の全画像データに対して再度領域分離処理を行なう方法、あるいは(B)アドレス変換を領域分離結果にかける方法がある。領域分離処理は、一般に画像が正方向であることを想定しているため、初めの段階で行なった領域分離処理と回転画像データに対して行なった領域分離処理は、結果が異なることが多い。それゆえ(A)の方法を採用するのが一般的である。
【0066】
そして、回転画像データ中の各文字領域は、文字認識処理系(文字認識/方向判別部13)で文字認識される。この結果、回転処理を必要とする画像であっても、必要としない画像であっても、最終的に領域分離情報と文字認識情報が得られることになる。更に、この処理結果は、図1のI/F部16を介してコンピュータ17に転送可能であり、コンピュータ17上のアプリケーションソフト(例えばファイリング処理や文書処理等)で利用される。
【0067】
もちろん、上記処理結果を記憶装置15に転送して格納するようにしても良いことはいうまでもない。このように記憶装置15に転送する処理形態は、スキャナ11より連続的に画像情報を入力して処理結果を記憶総理15に格納しておき、次にその情報をコンピュータ17によってまとめて読み出すといったバッチ処理的に使われる方式に利用される。
【0068】
また、処理結果をプリンタ部17に転送する処理形態では、プリンタ装置にページ記述言語を解釈する機能があるとして、文字認識と領域分離の処理により逆PDL(画像データよりページ記述言語を作成する方法)やHTML(レイアウトや文書構造を記述する方法)で文書を再構成したり清書したりするシステムで利用される。
【0069】
次に、文字認識処理を用いた、文書方向判別の手法について、説明する。
【0070】
[領域分離処理]
文書画像データの黒画素を検出してゆき、輪郭線追跡、またはラベリング方式により、黒画素ブロックの矩形枠を作成する。次にその矩形のなかの黒画素密度、隣接矩形ブロックの有無、矩形の縦横比率などを判断基準にして、各矩形について文字領域(タイトル、本文、キャプションなど)、図形領域、自然画領域、表領域などを判別する。この処理結果より文字領域の矩形情報が判別される。この領域分離処理は、上述のステップS2,S25にて実行される。
【0071】
[文字認識処理]
文字認識処理の一つの方法として、特徴ベクトル抽出、比較方式がある。図5は実施形態1で用いられる文字認識処理の手法を説明する図である。(a)は処理対象の文書画像を表しており、「1.本発明の名称」を含む領域51が文字領域として抽出されている。文字認識処理の第1段階として、(b)に示されるように、文字の切り出し処理を行なう。これは一つの文字の矩形を切り出す処理で、黒画素連続性の状態を検出していけば求められる。
【0072】
次に、第2段階として、(c)に示されるように一文字の矩形をm×nのブロック(例えば、64×64のブロック)に分割する。そして、そのなかから3x3のウインドを用いて、黒画素の分布方向を抽出する(方向ベクトル情報)。(d)はその方向ベクトル情報を示す例である。このウインドをずらしてゆき、方向ベクトル情報を数十個得る。このベクトル情報が文字の特徴となる。
【0073】
この特徴ベクトルとあらかじめ各文字について標準的な特徴ベクトルが登録されている文字認識辞書とを比較して、両者が一番近い文字から順番に文字を抽出する。一番近い文字が第一候補となり、続いて第二、第三となる。この両者の特徴ベクトルの近さが、その文字に対する距離の近さ、前述の自信度という数値になる。
【0074】
[文字方向判別]
上述の文字認識処理で文字の自信度が求まる訳だが、この文字認識処理を用いて文書の方向を求める手順について図6を用いて説明する。図6は実施形態1における文書方向の検出方法を説明する図である。(a)は正方向の文、(b)は270度に回転した文を示す。ここで「本」に注目すると、(c)に示すように、0度、90度、180度、270度の方向から文字認識を行なってみる。各角度による認識処理は、文字矩形の領域からの画像データの読みだし方を変更することで実現でき、特に原画像データを回転する必要はない。さて、各角度による文字認識結果((c))をみると、認識文字が各角度で異なっている。なお、(c)に示した認識結果は、説明用の仮の文字認識結果および自信度である。
【0075】
(c)によれば、正方向の文字による認識結果によれば、「本」と認識され、その自信度も0.90と高い値となる。90度回転すると「町」と認識され、自信度は0.40と落ちる。これは、不正な方向に向いた文字の特徴より、特徴の近い文字を無理矢理引っ張り出してきたためである。同様に180度、270度の値も低い値を示す。この自信度は、複雑な文字程、その差が顕著となる。
【0076】
図6の(c)の結果によれば、文書は正方向を向いている可能性が高いと判断される。より精度を上げるため、さらに数個の文字について同様な処理を行なう。一つの文字ブロックだけでは、特殊になる可能性があるため、異なる文字領域についても行なってみる必要がある。
【0077】
各角度からの自信度の平均値より、回転している方向の値が高い値となるため、方向が判別できる。0度と180度、90度と270度ではそれぞれ自信度が異なるため、4方向の向きがわかることになる。これにより、精度の高い方向判別結果を得る。
【0078】
次に、もし回転すべきと判断されたならば、原画像を回転する。これは、図1の主制御部12におけるCPU12a,メモリ12bを用い、公知の手法で達成されるので、詳細な説明は省略する。
【0079】
[最終的に獲得される情報(ステップS27)]
図7は最終的な文字認識を終えた時点において獲得されるデータを説明する図である。上図のような処理により、最終的に文書方向が補正された画像について、原画像データ(A)、領域分離データ(B)、OCR結果(文字認識結果)(C)を得ることができる。
【0080】
(A)の原画像データは、読取り方向が正しい方向に修正された回転後の画像データである。(B)の領域分離データにおいて、「header」は以降のデータが領域分離データであることを示す。「rect1」〜「rectn」は、それぞれ検出された領域に対する領域分離データである。「rect1」〜「rectn」はそれぞれ、71に示すような構造を有する。即ち、領域を特定するための番号を示す「order」、領域の属性を示す「att」、領域の位置(矩形の左上の角)を示す「x1,y1」、領域の幅、高さを表す「w,h」、当該領域の組方向(縦書き、横書き)を表す「direction」の各データで構成される。
【0081】
また、文字認識情報は(C)に示すような形態となっており、「OCR1」〜「OCRn」の各データは、「rect1」〜「rectn」の各領域の文字認識結果である。文字認識結果はそれぞれ、73に示すデータ構造を有する。また、blk headerは、各領域の文字認識結果の前に付加するヘッダーであり、どのような矩形領域について文字認識処理したかの情報を入れる。このblk headrは、「type」「order」「att」「x1」「y1」「w」「h」「direction」を有する。「order」〜「direction」の各データは、上述の領域分離データ71の各データと同様である。「type」は、以降のデータがblk headerであることを示す。また、文字認識結果について、日本語、英語、その他の言語等の区別も示す。
【0082】
文字認識結果73における「type」は、以降のデータが文字認識結果であることを示すという点を除いて、blk headerの「type」と同じである。また、「文字1」等は認識結果としての文字コードである。更に、文字認識結果73において、「x1」「y1」「w」「h」は一文字切り出した際の文字矩形情報である。更に、「reserve」は予備部を示す。以上のような情報は、アプリケーションにより使用される。例えば、電子ファイリング、文書整形、DTPなどで利用される。
【0083】
上記実施形態1では、文書中の文字領域の属性を優先順位の項目としており、本文中のテキストを最も優先順位を高くしているが、優先順位の設定はこれに限られるものではない。例えばタイトル領域が最も正方向を向いている確率が高いとして、タイトル領域の優先順位を最も高くしてもよい。
【0084】
実施形態1の処理手順において、方向判定の優先順位は、図3のステップS15、S17〜S19においてどの属性の領域が参照されているかによって決定されている。そして、若いステップ番号で参照される領域ほど優先順位が高くなる。よって、これらのステップにおいて参照する領域の属性を変更することで、方向判定における優先順位を変更できる。図8は、タイトル領域を最高優先度の領域とした場合の文字認識処理手順を説明するフローチャートである。なお、図8で示される処理手順は、図3で示される処理手順に対応し、同じ処理を行うステップには同一のステップ番号を付した。図8と図3の対比から明らかなように、ステップS15、S17で参照される領域の属性を入れ換えてステップS15’、S17’とすることで、優先順位の変更が達成される。
【0085】
また、逆に、文書中の図や表などの脇に添えて書かれたキャプション領域の属性を最も低い優先順位としたが、表中の文字領域の方が変な方向に向いている可能性が高いとして、表中の文字領域を最も優先順位の低い領域とすることもできることは明らかである。
【0086】
<実施形態2>
上記実施形態1では、文字領域の属性に優先順位を与えて、優先順位の高い属性を有する文字領域から判定される文書方向を優先的に用いて文書方向の判定を行っている。本実施形態2では、文字領域の方向判定において自信度の高い判定結果を用い、この判定結果が複数の文字領域で一致する場合、その方向を文書方向として決定するものである。
【0087】
実施形態2によれば、文書画像データに対して、領域分割処理を行い、この領域分割処理の結果、文字領域と判断された領域について、文字認識処理を利用した方向判別処理を行う。そして、文字領域内で、ある程度以上の自信度を有した方向判別の結果が得られれば、それを第1候補の方向認識結果とする。引き続き他の文字領域について方向判定を行い、所定値以上の自信度を有した方向判別の結果が得られればそれを第2候補の方向認識結果とする。
【0088】
以上のようにして得られた第1及び第2候補の方向認識結果が一致すれば、その方向を当該文書の方向と判断する。
【0089】
なお、実施形態2におけるシステムの構成は実施形態18図1と同様であるので説明を省略する。
【0090】
図9及び図10は実施形態2における文字認識処理の手順を表すフローチャートである。ステップS41では、スキャナ部11により画像を光学的に読取り、画像データを得る。ステップS42では、得られた画像データに対して実施形態1で説明した領域分離処理を行う。そして、ステップS43にて、分離された領域より、文字領域を抽出する。
【0091】
ステップS44では、抽出された文字領域の一つについて文書方向を判別する。文書方向の判別方法は実施形態1で説明した通りである。ここで、当該文字領域の文字方向が判別できなければステップS45へ進み、次の未処理の文字ブロックがあるかどうかを判定する。未処理の文字ブロックがあればステップS44へ戻る。一方、ステップS45において未処理の文字ブロックがなくなれば、回転方向の判別が不能であるとしてそのままステップS54へ進む。なお、ステップS44における文書方向の判別の可否は、所定の自信度を有する判定結果を得たか否かによって行う。従って、この自信度をある程度高い値とすることにより、自信度の小さい判定結果は排除される。
【0092】
ステップS46では、ステップS44の文書方向判別の結果が第1判別方向として保存される。即ち、ステップS44、S45の処理において、所定値以上の自信度を有する文書方向の判別結果が得られた場合に、その判別方向を第1判別方向として保存する。
【0093】
続いて、ステップS47〜ステップS49において、ステップS44〜ステップS46と同様な処理を行い、所定値以上の自信度を有する文書方向の判別結果が得られれば、これを第2判別方向として保存する。
【0094】
ステップS49において、第2判別方向が保存されると、ステップS50において第1判別方向と第2判別方向が同じであるか否かを判定する。両判別方向が同じであれば、ステップS51へ進み、それらの判別方向が何度であるかによって処理を分岐する。ステップS51において、判別方向が0度であれば、画像回転等の処理が不要であるので、ステップS54へ進み、そのまま文字認識処理を実行する。
【0095】
一方、ステップS51において、判別方向が90度、270度、360度のいずれかであれば、ステップS52へ進み、検出された判別方向に基づいて、当該画像が正しい方向を向くように画像を回転させる。そして、ステップS53において、回転後の画像データにおいて再度領域分離を行い、全文字について文字認識を行うべくステップS54へ進む。
【0096】
また、ステップS47において、第2判別方向が検出される前に処理すべき文字領域が無くなれば、ステップS46で保存した第1判別方向を当該文書画像の方向として採用し、そのままステップS51へ進む。
【0097】
また、ステップS50において、両判別方向が一致しなければ、文書方向の判別は不能として、ステップS54へ進む(即ち、画像の回転等を行わずに、全文字の認識処理を実行する)。
【0098】
ステップS54では、画像データ中の全文字領域について文字認識を実行する。そして、ステップS54において、図7で示したような領域分離情報と文字認識情報を生成する。
【0099】
以上のように、上記実施形態2においては、文書方向の判別における判別の可否のチェックを所定値以上の自信度を有するか否かで行い、自信度の小さい判別結果を採用しないようにして、方向判別の精度を向上している。また、複数の方向判別結果を参照することにより、更に向判別の精度を向上している。
【0100】
上記実施形態1では、文書中の所定値以上の自信度を有する方向判別結果が得られた文書領域を2ヶ所検出し、これらの文書領域の方向判別結果が一致すれば、これを方向判別結果として獲得している。しかしながら、3つ以上の文字領域で判別方向が一致するか否かで判断するように構成することも可能である。
【0101】
また、上記実施形態2では、最初に検出された第1判別方向と第2判別方向の一致で文書方向を決定し、このような方向の不確定な文書に対して、方向判別のための処理に時間を駈けないようにしている。しかしながら、ステップS50で第1及び第2判別方向が一致しない場合、ステップS44へ処理を戻して、他の文字領域を用いて方向検出をやり直すように構成してもよい。このとき、他の文字領域によって検出された方向が上述の第1判別方向と第2判別方向のいずれかと一致するとき、その方向を文書方向として決定するようにすればよい。
【0102】
<実施形態3>
本実施形態3では、方向判別に全文字領域の方向判定を行い、判別回数の多い方向をもって、当該文書の方向に決定する方法を説明する。
【0103】
図11は実施形態3における文字認識処理の手順を表すフローチャートである。同図において、ステップS61〜ステップS63は、図9のステップS41〜ステップS43と同様の処理を行う。ステップS64では、ステップS63で抽出された文字領域の一つについて方向判別を行う。そして、その結果、所定値以上の自信度を有する方向が判別されれば、ステップS65へ進む。ステップS65では、ステップS64で判別された方向毎に、判別回数をカウントする。判別回数のカウント値は、メモり12bのRAMに所定の領域を設けて格納する。そして、ステップS66へ進む。
【0104】
一方、ステップS64で、所定値以上の自信度を有する方向判定が行えなかった場合はそのままステップS66へ進む。ステップS66では、次の未処理の文字領域が存在するか否かを判定し、未処理の文字領域があればステップS64へ戻る。また、未処理の文字領域が無くなれば、ステップS67へ進む。以上のようにして、すべての文字領域について方向判別が行われ、所定値以上の自信度を有して判別された回数が各方向毎(本例では0度、90度、180度、270度)にカウントされる。
【0105】
ステップS67では、判別回数が最大となった方向を検出し、これを当該文書の方向として決定する。以上のようにして決定された方向を判別結果としてステップS51へ進む。なお、ステップS51〜ステップS55は、図10で示した各ステップと同様であるので、ここでは説明を省略する。
【0106】
以上説明したように、実施形態3によれば、文字領域全体について方向判定を行い、最も判定された回数の多い方向を文書方向とするので、精度よく文書方向を判定できる。
【0107】
以上のように各実施形態によれば、文書中の複数の文字領域を検査することにより、その文書の方向を判定するので、より精度の高い判別結果を得ることが可能となる。このため、文書方向が誤った方向で文書入力が行われても、自動的に補正することが可能となり、特に大量に入力された文書をファイリングするシステムにおいて、人間の手間を省くことができる効果がある。文字認識処理においても、間違った方向のまま文字認識されることがなくなり、誤認識を防止できると共に、画像データも正しい方向で保存される。
【0108】
上記情報処理システムにおける文書方向判別及び文字認識処理は、パーソナルコンピュータ等にスキャナを接続した構成においても実現できる。よって、上記装置の機能もしくは方法の機能によって達成される本発明の目的は、前述の実施例のプログラムを記憶させた記憶媒体によっても達成できるものである。即ち、上記装置に、その記憶媒体を装着し、その記憶媒体から読み出したプログラム自体が本発明の新規な機能を達成するからである。なお、記憶媒体を例えばフロッピーディスクとすれば、フロッピーディスクドライバを記憶装置15の一部として組込み、該フロッピーディスクより制御プログラムを読み出してメモり12bへ格納し、これをCPU12aで実行するようにすれば良い。
【0109】
このための、本発明にかかるプログラムの構造的特徴は、図17に示す通りである。
【0110】
図17の(a)において、1701は分離処理であり、入力された文書画像データを複数の部分領域に分離する。また、1702は付与処理であり、上記分離処理1701で得られた複数の部分領域のそれぞれについて、予め優先度が与えられた複数種類の属性のいずれに該当するかを判別し、判別された属性を付与する。以上の処理は、図2のステップS2に相当する処理である。
【0111】
また、1703は判別処理であり、上記分離処理1701で得られた前記複数の部分領域のそれぞれについて、文書方向を判別する。これは、図3のステップS12に相当する処理である。そして、1704は決定処理であり、判別処理1703で判別された各部分領域の文書方向と、各部分領域に付与されている属性の優先度に基づいて当該文書画像データの方向を決定する。これは図3のステップS15〜ステップS20に相当する。
【0112】
図17の(b)は、上述の各処理を実行するためのプログラムモジュールを記憶媒体に格納した場合のメモりマップを表す図である。分離処理モジュール1701’、付与処理モジュール1702’、判別処理モジュール1703’、決定処理モジュール1704’は、それぞれ、分離処理1701、付与処理1702、判別処理1703、決定処理1704を実行するプログラムモジュールである。
【0113】
また、図18は、本発明にかかる他のプログラムを説明する図である。図18の(a)において、1801は抽出処理であり、入力された文書画像データより複数の部分領域を抽出する。これは、図9のステップS41〜S43に相当する処理である。1802は判別処理であり、抽出処理1801で抽出された部分領域について方向を判別する。これは、図9のステップS44、S47に相当する処理である。1803は決定処理であり、判別処理1802において所定以上の確実性を有して方向が判別された複数の部分領域に関して、その判別された方向が一致する場合、該方向を前記文書画像データの方向として決定する。これは、図9のステップS46、S49、図10のステップS50に相当する処理である。
【0114】
図18の(b)は、上述の各処理を実行するためのプログラムモジュールを記憶媒体に格納した場合のメモりマップを表す図である。分離処理モジュール1801’、判別処理モジュール1802’、決定処理モジュール1803’は、それぞれ、分離処理1801、判別処理1802、決定処理1803を実行するプログラムモジュールである。
【0115】
また、図19は、本発明にかかる更に他のプログラムを説明する図である。図19の(a)において、1901は抽出処理であり、入力された文書画像データより複数の部分領域を抽出する。これは図11のステップS61〜S63の処理に相当する。また、1902は判別処理であり、上記抽出工程1901で抽出された複数の部分領域のそれぞれについて文書方向を判別する。これはステップS64の処理に相当する。また、1903は決定処理であり、各文書方向について上記判別処理1902で判別された回数をカウントし、そのカウント値が最大となる文書方向を前記文書画像データの方向として決定する。これは、ステップS65、S67に相当する。
【0116】
また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。また、本発明はシステム或は装置にプログラムを供給することによって達成される場合にも適用できることは言うまでもない。この場合、本発明に係るプログラムを格納した記憶媒体が、本発明を構成することになる。そして、該記憶媒体からそのプログラムをシステム或は装置に読み出すことによって、そのシステム或は装置が、予め定められた仕方で動作する。
【0117】
【発明の効果】
以上のように本発明によれば、文書画像データに含まれる複数領域について文書方向を判別し、判別された各領域の方向に基づいて当該文書画像の方向を決定することが可能となり、より正確に文書方向を判定できる。
【0118】
また、本発明によれば、各部分領域の方向の判別を、各領域に含まれる文字の方向を判別することによって行うことで、各領域の方向をより正確に判定することが可能となる。
【0119】
また、本発明によれば、文書の読取り方向に関らず正しい方向で文書画像が表示され、より文字認識精度が向上する。
【0120】
【図面の簡単な説明】
【図1】実施形態1における情報処理システムの構成を表すブロック図である。
【図2】実施形態1における文字認識の手順を表すフローチャートである。
【図3】実施形態1における文字認識の手順を表すフローチャートである。
【図4】実施形態1における文字認識の手順を表すフローチャートである。
【図5】実施形態1で用いられる文字認識処理の手法を説明する図である。
【図6】実施形態1における文書方向の検出方法を説明する図である。
【図7】最終的な文字認識を終えた時点において獲得されるデータを説明する図である。
【図8】タイトル領域を最高優先度の領域とした場合の文字認識処理手順を説明するフローチャートである。
【図9】実施形態2における文字認識処理の手順を表すフローチャートである。
【図10】実施形態2における文字認識処理の手順を表すフローチャートである。
【図11】実施形態3における文字認識処理の手順を表すフローチャートである。
【図12】文書方向の自動判別の代表的な手法を説明する図である。
【図13】「高」という文字に対して、読取り方向が回転した場合の各方向における認識結果を示す図である。
【図14】スキャナ等で読み込まれた画像データをディスプレイ表示している状態を表す図である。
【図15】紙面上における文書の各種の配置状態を説明する図である。
【図16】1枚の原稿上に異なる方向の文字が混在する文書の例を表す図である。
【図17】本実施の形態の制御を実現するための制御プログラムを格納した記憶媒体の構成を説明する図である。
【図18】本実施の形態の制御を実現するための制御プログラムを格納した記憶媒体の他の構成を説明する図である。
【図19】本実施の形態の制御を実現するための制御プログラムを格納した記憶媒体の他の構成を説明する図である。
【符号の説明】
11 スキャナ部
12 主制御部
13 文字認識/方向判別部
14 領域分離部
15 記憶装置
16 I/F部
17 コンピュータ
18 プリンタ部
Claims (14)
- 入力された文書画像を複数の部分領域に分離する分離手段と、
前記分離手段で得られた複数の部分領域における属性が、予め優先度の定められた複数種類の属性のいずれであるかを判別する属性判別手段と、
前記分離手段で得られた複数の部分領域における方向を判別する方向判別手段と、
前記属性判別手段で最も優先度が高い属性を有すると判別された複数の部分領域における前記判別された方向が一致しているか否かを判定し、一致する場合には当該一致する方向を前記文書画像における文書方向として決定する決定手段とを有し、
前記複数種類の属性のうち最も優先度が高い属性は、文字認識しやすい文字が含まれる領域で、かつ文書画像における文書方向と方向が一致する可能性の高い領域の属性であることを特徴とする文書方向判定装置。 - 前記方向判別手段は、
前記分離手段で得られた複数の部分領域を一つずつ処理対象とし、当該処理対象とされた部分領域における方向を判別し、
前記決定手段は、
前記処理対象の部分領域が最も優先度が高い属性を有すると前記属性判別手段で判別されている場合には、当該処理対象の部分領域における方向が既に処理済の部分領域における方向と一致するか否かを判定し、一致する場合には当該一致する方向を前記文書画像における文書方向として決定し、一致しない場合には前記方向判別手段に対して新たな部分領域を処理対象とさせることを特徴とする請求項1に記載の文書方向判定装置。 - 前記決定手段は、
前記処理対象の部分領域と前記処理済みの部分領域とにおける方向が一致しない場合で、かつ、新たな部分領域が存在しない場合には、前記最も優先度が高い属性以外の属性を有する部分領域の方向に基づいて文書方向を決定することを特徴とする請求項2に記載の文書方向判定装置。 - 前記複数種類の属性には、本文中の文字領域である属性、表組中の文字領域である属性、タイトル中の文字領域である属性、図の解説のための文字領域である属性が含まれることを特徴とする請求項1乃至3の何れか1項に記載の文書方向判定装置。
- 本文中の文字領域である属性を最も優先度の高い属性とすることを特徴とする請求項4に記載の文書方向判定装置。
- タイトル中の文字領域である属性を最も優先度の高い属性とすることを特徴とする請求項4に記載の文書方向判定装置。
- 請求項1乃至6のいずれか1項に記載の文書方向判定装置によって決定された文書画像の文書方向が前記文書画像における0度の方向と異なる場合に、前記文書画像を回転する回転手段と、
前記回転手段で回転された後の文書画像を複数の部分領域に分離する第2の分離手段と、
前記第2の分離手段で得られた複数の部分領域のうちの文字領域に含まれる文字を認識する文字認識手段とを備えることを特徴とする文字認識装置。 - 入力された文書画像を複数の部分領域に分離する分離工程と、
前記分離工程で得られた複数の部分領域における属性が、予め優先度の定められた複数種類の属性のいずれであるかを判別する属性判別工程と、
前記分離工程で得られた複数の部分領域における方向を判別する方向判別工程と、
前記属性判別工程で最も優先度が高い属性を有すると判別された複数の部分領域における前記判別された方向が一致しているか否かを判定し、一致する場合には当該一致する方向を前記文書画像における文書方向として決定する決定工程とを有し、
前記複数種類の属性のうち最も優先度が高い属性は、文字認識しやすい文字が含まれる領域で、かつ文書画像における文書方向と方向が一致する可能性の高い領域の属性であることを特徴とする文書方向判定方法。 - 前記方向判別工程は、
前記分離工程で得られた複数の部分領域を一つずつ処理対象とし、当該処理対象とされた部分領域における方向を判別し、
前記決定工程は、
前記処理対象の部分領域が最も優先度が高い属性を有すると前記属性判別工程で判別されている場合には、当該処理対象の部分領域における方向が既に処理済の部分領域における方向と一致するか否かを判定し、一致する場合には当該一致する方向を前記文書画像における文書方向として決定し、一致しない場合には前記方向判別工程に対して新たな部分領域を処理対象とさせることを特徴とする請求項8に記載の文書方向判定方法。 - 前記決定工程は、
前記処理対象の部分領域と前記処理済みの部分領域とにおける方向が一致しない場合で、かつ、新たな部分領域が存在しない場合には、前記最も優先度が高い属性以外の属性を有する部分領域の方向に基づいて文書方向を決定することを特徴とする請求項9に記載の文書方向判定方法。 - 前記複数種類の属性には、本文中の文字領域である属性、表組中の文字領域である属性、タイトル中の文字領域である属性、図の解説のための文字領域である属性が含まれることを特徴とする請求項8乃至10の何れか1項に記載の文書方向判定方法。
- 本文中の文字領域である属性を最も優先度の高い属性とすることを特徴とする請求項11に記載の文書方向判定方法。
- タイトル中の文字領域である属性を最も優先度の高い属性とすることを特徴とする請求項11に記載の文書方向判定方法。
- 請求項8乃至13のいずれか1項に記載の文書方向判定方法によって決定された文書画像の文書方向が前記文書画像における0度の方向と異なる場合に、前記文書画像を回転する回転工程と、
前記回転工程で回転された後の文書画像を複数の部分領域に分離する第2の分離工程と、
前記第2の分離工程で得られた複数の部分領域のうちの文字領域に含まれる文字を認識する文字認識工程とを備えることを特徴とする文字認識方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP22359195A JP3787377B2 (ja) | 1995-08-31 | 1995-08-31 | 文書方向判定方法及び装置及び文字認識方法及び装置 |
US08/703,475 US6137905A (en) | 1995-08-31 | 1996-08-28 | System for discriminating document orientation |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP22359195A JP3787377B2 (ja) | 1995-08-31 | 1995-08-31 | 文書方向判定方法及び装置及び文字認識方法及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0969136A JPH0969136A (ja) | 1997-03-11 |
JP3787377B2 true JP3787377B2 (ja) | 2006-06-21 |
Family
ID=16800576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP22359195A Expired - Fee Related JP3787377B2 (ja) | 1995-08-31 | 1995-08-31 | 文書方向判定方法及び装置及び文字認識方法及び装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3787377B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6151423A (en) * | 1998-03-04 | 2000-11-21 | Canon Kabushiki Kaisha | Character recognition with document orientation determination |
US6798905B1 (en) | 1998-07-10 | 2004-09-28 | Minolta Co., Ltd. | Document orientation recognizing device which recognizes orientation of document image |
JP3695163B2 (ja) | 1998-07-31 | 2005-09-14 | コニカミノルタビジネステクノロジーズ株式会社 | 画像形成装置 |
JP4927122B2 (ja) | 2009-06-15 | 2012-05-09 | シャープ株式会社 | 画像処理方法、画像処理装置、画像形成装置、プログラムおよび記録媒体 |
WO2018037520A1 (ja) * | 2016-08-24 | 2018-03-01 | 株式会社Pfu | モバイル端末、画像処理方法、および、プログラム |
CN110443239A (zh) * | 2019-06-28 | 2019-11-12 | 平安科技(深圳)有限公司 | 文字图像的识别方法及其装置 |
-
1995
- 1995-08-31 JP JP22359195A patent/JP3787377B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH0969136A (ja) | 1997-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6137905A (en) | System for discriminating document orientation | |
EP0854433B1 (en) | Caption and photo extraction from scanned document images | |
US6148119A (en) | Character recognition in input images divided into areas | |
US5822454A (en) | System and method for automatic page registration and automatic zone detection during forms processing | |
US5774580A (en) | Document image processing method and system having function of determining body text region reading order | |
EP0202671B1 (en) | Method of storing and retrieving image data | |
EP1398726B1 (en) | Apparatus and method for recognizing character image from image screen | |
EP0854434B1 (en) | Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof | |
US7305619B2 (en) | Image processing method, device and storage medium therefor | |
JPH1139428A (ja) | 文書映像の方向修正方法 | |
JP3411472B2 (ja) | パターン抽出装置 | |
US6360028B1 (en) | Image processing apparatus and method | |
JP3787377B2 (ja) | 文書方向判定方法及び装置及び文字認識方法及び装置 | |
JP2000181931A (ja) | 自動オーサリング装置および記録媒体 | |
JP3285686B2 (ja) | 領域分割方法 | |
KR0186172B1 (ko) | 문자 인식장치의 접촉문자 분리 및 특징 추출방법 | |
JPH09269970A (ja) | 文字認識方法とその装置 | |
CN115131806B (zh) | 一种基于深度学习的各类证件ocr图像信息识别方法、*** | |
JPH0728935A (ja) | 文書画像処理装置 | |
JPH0757040A (ja) | Ocr付きファイリング装置 | |
CN113033360A (zh) | 文档图像识别装置及方法 | |
JP3412998B2 (ja) | 画像処理装置及びその方法 | |
JP3027232B2 (ja) | 文字認識装置 | |
JPH1021336A (ja) | 文字列種別判定方法及び装置 | |
JP2004030340A (ja) | 帳票識別装置及びその識別方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050818 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050822 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051021 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060310 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060327 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100331 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100331 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110331 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120331 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130331 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130331 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140331 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |