JP3787377B2

JP3787377B2 - 文書方向判定方法及び装置及び文字認識方法及び装置

Info

Publication number: JP3787377B2
Application number: JP22359195A
Authority: JP
Inventors: 真琴高岡
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1995-08-31
Filing date: 1995-08-31
Publication date: 2006-06-21
Anticipated expiration: 2015-08-31
Also published as: JPH0969136A

Description

【０００１】
【発明の属する技術分野】
本発明は、文書原稿を光学的に読み取って得られる画像データより当該文書原稿の方向を判定する文書方向判定方法及び装置、及び該文書方向判定装置を備えた文字認識装置に関する。
【０００２】
【従来の技術】
従来、文字認識処理においては、原稿を光学的に読み取る装置、いわゆるスキャナを用いて画像データを獲得し、この画像データに対して、文字認識を行なっている。この場合、もし画像データが９０°あるいは１８０°回転されて読み取られたりしていると、文字認識結果として全く異なるコードを出力してしまう。これは、獲得された画像データについて一応文字認識を実行するものの、文字の方向が正しくないため、認識結果が滅茶苦茶なものとなってしまうためである。
【０００３】
そこで、正しく文字認識が行なわれるように、文書の方向が不正である場合には、原稿の読取り方向を人が直して、再度入力し、認識処理を行なってきた。しかしながら、（１）スキャナの処理のスピードが向上し、オートフィーダと呼ばれる原稿自動給紙機能が附属され始めてから、大量の原稿を処理することが増えてきて、人がいちいち原稿の方向を補正することがむずかしくなってきた、（２）Ａ４のスキャナの場合、原稿の置きかたは一義的に決まってしまう、といった理由により、文書方向の自動判別／回転機能は必要な技術となってきている。
【０００４】
図１２は、文書方向の自動判別の代表的な手法を説明する図である。図１２において、（ａ）では、領域分離の結果を用いて表のような線のある部分１０００を抽出し、その方向性を見て（例えば、横方向に長い線で分割されている特徴を用いて）その文書の方向性を認識する方式が示されている。また、図１２の（ｂ）に示されるように、縦方向と横方向の射影（ヒストグラム１００１）を検出して、その区切れ具合を見て方向を判断したり（例えば、ヒストグラムが細切れになっているほうを横方向とする）、領域分離して、文字領域の特徴にマッチした矩形領域１００２の横長、縦長といった特徴から文書の方向を判別する。
【０００５】
以上のような判別手法による文書方向の判別結果より、文書が横方向か縦方向かを判別し、必要に応じて画像の回転を行なっていた。そして回転された画像に対して、文字認識処理を行ない、認識結果を得ていた。
【０００６】
文字認識への期待は、大量の文書を整理したいという要求のもとで近年非常に高まっており、文字認識装置は電子ファイリングやＤＴＰに搭載されたり、複写機のような大量に文書を処理する機器に搭載されたりしている。このような文字認識装置により、紙に書かれた文書中の文字を、検索に利用したり、ＤＴＰソフト上で処理したりすることが可能となる。
【０００７】
以上のように、文字認識装置において、人間の手を煩わせない各種の自動化技術は、大きな課題となってきた。特に、文書方向自動補正技術は、なくてはならない重要な技術である。
【０００８】
【発明が解決しようとする課題】
上述した従来の文字認識装置には、以下に示されるような問題がある。即ち、
（１）文書が誤った方向に入力されたことによる、文字認識の誤認識の発生。
（２）読み取り画像データが、横を向いていたり、逆さを向いていたりした場合、モニター等で確認した場合の不都合さ。
（３）文書方向判別の精度。
（４）文書中に異なる方向の文字が混在するものに対する方向判別の精度。
という問題がある。上述の各問題について、以下に簡単な説明を行なう。
【０００９】
（１）文書方向相違による誤認識の発生
図１３は、「高」という文字に対して、読取り方向が回転した場合の各方向における認識結果を示す図である。なお、図１３で示したのはあくまでも一例であり、誤認識の結果は必ずしも図のとおりとなるとは限らない。図１３に示したように、文書の読取り方向が２７０度回転した場合の認識結果は「打」、１８０度の場合は「字」、９０度の場合は認識不可能というように誤認識、あるいは認識できないという結果を生じる。このように文字認識は、あくまでも文字が正方向を向いているとして、得られた特徴から文字候補を選び出すので、読取り方向が回転すればその認識結果も誤ったものとなる。
【００１０】
（２）モニタ上における画像データの確認の際の不都合さの発生
図１４は、スキャナ等で読み込まれた画像データをディスプレイ表示している状態を表す図である。（ａ）は、Ａ４縦方向の文書がＡ４縦置きで読み取られた場合の表示例で、表示が正常な場合である。（ｂ）は、Ａ４縦方向の文書をＡ４横置きで読み取られた場合の表示例で、人間が見ると、９０°回転している画像となっている。これは、紙面上における文書の書かれ方（文書の方向）と、スキャナから画像入力する際の原稿の置方の関係から発生する。
【００１１】
図１５は紙面上における文書の各種の配置状態を説明する図である。紙面に対する文書の配置は、図１５に示すように各種の形態がある。（ａ）は、Ａ４縦置き文書で日本語の横書き文書や英語の文書等でよく用いられる形態である。（ｂ）は、Ａ４横置きで、一行の長さが長い文書や、ＯＨＰ用の文書、Ａ３、Ｂ４などの文書を縮小コピーした場合などでよく用いられる形態である。（ｃ）はＡ４横置きで、真中で段組が切り替わっているもので、Ａ４文書を２枚連続して縮小コピーした場合に用いられる形態である。（ｄ）は、Ａ４縦置きにおける縦書き文書の形態である。
【００１２】
一方、スキャナは機種により読み取り方法がまちまちである。例えば、原稿サイズ最大Ａ４まで入力できるフラットベットのスキャナや、Ａ４原稿を縦方向にスライドして読み込む方式のスキャナ等では、原稿読み取り方向が一義的に決まってしまう。このため、文書配置の形態によっては、方向が不正方向に読み込まれてしまう。
【００１３】
また、複写機のスキャナ部を利用して原稿を読み取るものがある。このようなスキャナでは、読み取るべき原稿の置方が比較的自由である。そのため、人間が正しい方向に原稿をおいて画像入力することが可能である。特に、原稿枚数の多い文書の読取りを行う際に、オートフィーダーを用いて自動的に原稿を取り込んで読取りを行うことが可能なものもある。しかしながら、オートフィーダーを用いて原稿の取り込を行う場合、文書中に不正方向に向いている原稿がまじっていたり、文書の配置方法が異なる原稿が含まれていたりすると、画像が不正方向に入力されてしまうことになる。
【００１４】
以上のような原因により、図１４に示したディスプレイ表示がおかしな方向になってしまう。このため画像を正常方向に回転する必要がある。
【００１５】
（３）文書方向判別の精度
文書の方向判別は、より精度の高いものでなければならない。上記従来例のように文書中の表の線を用いる判定は、それがない文書や縦横混在の線を含んだ文書の場合は、方向判別を誤る可能性がある。また縦横の射影をとる場合は、文字のみで行や段落がしっかり分かれている文書に対しては、比較的精度よく回転方向を検出できるが、文書中に図や自然画が含まれている文書の場合は、方向判別を誤る可能性がある。さらに、０度と１８０度、９０度と２７０度の区別はつきにくく、方向判別の精度は低い。
【００１６】
（４）異なる方向の文字が混在する文書における方向判別の誤認識の発生
図１６は１枚の原稿上に異なる方向の文字が混在する文書の例を表す図である。同図（ａ）は、正常方向と異なる方向の文字が存在する文書、例えば文書中の１０１０に対する説明文字が存在する場合を示す。また、（ｂ）、（ｃ）のように、２枚の原稿を縮小して１枚の原稿にした文書において、片側は、縦置文書、もう片側は横置文書の場合がある。これらは、文書中のどの文字の方向を用いてその文書の方向を判断するかにより、方向判断結果が異なってくる。
【００１７】
本発明は上記の問題に鑑みてなされたものであり、文書画像データに含まれる複数領域について文書方向を判別し、判別された各領域の方向に基づいて当該文書画像の方向を決定することにより、より正確に文書方向を判定する文書方向判定方法及び装置を提供することを目的とする。
【００１８】
また、上記各領域の方向の判別を、各領域に含まれる文字の方向を判別することで行うことで、各領域の方向をより正確に判定することを目的とする。
【００１９】
また、本発明で提供される文書方向判定装置を備えることにより、文書の読取り方向に関らず正しい方向で文書画像を表示するとともに、より文字認識精度を向上する文字認識装置を提供することを目的とする。
【００２０】
【課題を解決するための手段】
上記の目的を達成するための本発明の文書方向判定装置は以下の構成を備える。即ち、
入力された文書画像を複数の部分領域に分離する分離手段と、
前記分離手段で得られた複数の部分領域における属性が、予め優先度の定められた複数種類の属性のいずれであるかを判別する属性判別手段と、
前記分離手段で得られた複数の部分領域における方向を判別する方向判別手段と、
前記属性判別手段で最も優先度が高い属性を有すると判別された複数の部分領域における前記判別された方向が一致しているか否かを判定し、一致する場合には当該一致する方向を前記文書画像における文書方向として決定する決定手段とを有し、
前記複数種類の属性のうち最も優先度が高い属性は、文字認識しやすい文字が含まれる領域で、かつ文書画像における文書方向と方向が一致する可能性の高い領域の属性である。
【００２１】
また、好ましくは、
前記方向判別手段は、
前記分離手段で得られた複数の部分領域を一つずつ処理対象とし、当該処理対象とされた部分領域における方向を判別し、
前記決定手段は、
前記処理対象の部分領域が最も優先度が高い属性を有すると前記属性判別手段で判別されている場合には、当該処理対象の部分領域における方向が既に処理済の部分領域における方向と一致するか否かを判定し、一致する場合には当該一致する方向を前記文書画像における文書方向として決定し、一致しない場合には前記方向判別手段に対して新たな部分領域を処理対象とさせる。
文書方向を決定するのに対して高い優先度を持つ複数の部分領域で方向が一致した時点で文書方向判別の処理を打ち切ることが可能となり、処理の効率が向上する。
【００２２】
また、好ましくは、
前記決定手段は、
前記処理対象の部分領域と前記処理済みの部分領域とにおける方向が一致しない場合で、かつ、新たな部分領域が存在しない場合には、前記最も優先度が高い属性以外の属性を有する部分領域の方向に基づいて文書方向を決定する。
【００２３】
また、好ましくは、前記複数種類の属性には、本文中の文字領域である属性、表組中の文字領域である属性、タイトル中の文字領域である属性、図の解説のための文字領域である属性が含まれる。これら文字領域を更に細かく分類したものであり、方向判定に用いるべき文字領域を適切に選択できる。
【００２４】
また、好ましくは、本文中の文字領域である属性を最も優先度の高い属性とする。本文中の文字は文書方向と一致する可能性が高いからである。
【００２５】
また、好ましくは、タイトル中の文字領域である属性を最も優先度の高い属性とする。タイトル中の文字領域に含まれる文字の方向は文書方向と一致する可能性が高いからである。
【００３０】
また、本発明によれば、
上記の構成を有する文書方向判定装置によって決定された文書画像の文書方向が前記文書画像における０度の方向と異なる場合に、前記文書画像を回転する回転手段と、
前記回転手段で回転された後の文書画像を複数の部分領域に分離する第２の分離手段と、
前記第２の分離手段で得られた複数の部分領域のうちの文字領域に含まれる文字を認識する文字認識手段とを備える文字認識装置が提供される。入力された文書画像データを正しい方向に回転するので、例えば文書画像データの表示に際して、その文書画像データの入力方向に関らず、正しい方向で文書画像を表示できるとともに、正しく文字認識を行うことが可能となる。
【００３１】
【発明の実施の形態】
以下に添付の図面を参照し手本発明の好適な実施の形態を説明する。
【００３２】
＜実施形態１＞
実施形態１における文字認識装置では、文書方向判別の手法として、文字認識の認識率を用いて、方向判別を行う。これは、文書の方向を一番正確に現わしているのは、文字領域であることに注目し、文書中の文字領域における複数の文字について、０°、９０°、１８０°、２７０°の方向から文字認識を行い、最も類似度が高かった方向が正しい文書の方向であると判断する。
【００３３】
文字認識処理では、まず画像中から文字切りという手法で、一文字ごとに画像を切りだす。次に、認識文字の選出は、文字ごとに算出される文字の特徴が、より近い特徴の文字を選び出してくる。文字認識の自信度（類似度）とは、その特徴にどれだけ近いかを示す割合を示す。専門的にいうと文字の特徴分布のなかにおける距離の近さを示す。文字認識の場合、近い文字を数種類算出して候補文字とするが、その中でも一番距離の近いものを第一候補文字とする。
【００３４】
以上のような認識処理を４方向に対して行なうと、４方向とも文字認識は行うが、候補文字の距離値（自信度）は異なってくる。もちろん正しい方向に向いた文字のほうが、距離値は近い値となる。しかしながら、たとえ距離値が近いといっても、それがかならずしも正確であるとは限らない。偶然正方向以外の角度からの文字認識に対して、誤方向の角度の方がよい値を出すこともある。
【００３５】
そのため、複数の文字、例えば１０文字を抽出して方向判別し、その近さの距離を計算をし、そして、その平均値を用いて判断基準にする。さらに、より精度を上げるため、文字のブロックを数ヶ所選んで同様の処理を行う。以上のように、文字認識の認識率を利用して文書の方向判別を行う。なお、以下の実施形態では、文字認識の精度を用いて方向判別する前に、以下のような処理を行う。
【００３６】
文書画像データに対して、領域分割処理を最初に行う。この領域分割処理の結果、文字領域と判断された領域について、文字認識処理を利用した方向判別処理を行う。この判定に用いる文字領域は、領域分割処理で得られる結果、更に詳細にその属性が得られる。例えば、テキスト領域、タイトル領域、キャプション領域、表中の文字領域に判別される。本実施形態の方式では、これらの属性の各々に対して優先順位を設定し、優先順位の高い領域で判定された文書方向を優先的に採用することを特徴とする。例えば、以下のような優先順位が考えられる。
【００３７】
（１）タイトル優先：文書画像中、タイトルは文字サイズも大きく文字認識しやすく、更に、その方向も正しい文書方向と一致する可能性が高い。よって、タイトル領域の優先順位を高く設定する。
【００３８】
（２）テキスト優先：文書画像中、本文を表すテキスト領域は、文書中に一番多く存在する。また大きさもある一定の大きさであることが多く文字認識もしやすい。このためテキスト領域の優先順位を高く設定する。
【００３９】
（３）表中文字非優先：文書画像中、表が存在し、そのなかに、文字が存在する場合、その文字がその原稿の本来の方向と異なる方向を向いている可能性が高い。このため、表中の文字領域の優先順位を低くする。
【００４０】
（４）キャプション文字非優先：文書画像中、図や表が存在し、その上部、下部、横部のいずれかに説明文字が存在することが多く、このような文字の存在する領域をキャプション領域という。特に図や表の横部分に存在するキャプション領域では、領域中の文字がその原稿の本来の方向と異なる方向を向いている可能性が高い。このため、キャプション領域の優先順位を低くする。
【００４１】
以上のように、文字領域の属性に優先順位を設けて、優先順位の高い文字領域の文字を用いて文書方向の判定を行う。そして、この判定の結果に従って、原画像を正しい方向に回転させて、文字認識結果と正方向画像データを得る。以下、本実施形態１について詳細に説明する。
【００４２】
図１は実施形態１における情報処理システムの構成を表すブロック図である。本情報処理システムは、画像の入力部、画像処理部、出力部、外部Ｉ／Ｆを持つ画像入出力装置である。分離されたスキャナとプリンタ装置の構成からなるスキャナプリンタや、一体化された複写機のようなシステムがこれに当てはまる。本システムは、Ｉ／Ｆを介してコンピュータとの接続も可能であり、コンピュータ側からの指示により、各種動作を行うことができるシステムである。
【００４３】
１１はスキャナ部であり、文書原稿を光学的に読み取って画像データを獲得する。スキャナ部１１には付加機能であるオートフィーダの取り付けが可能となっており、該オートフィーダを装着することにより、複数枚の原稿を連続的に入力することが可能となる。１２は主制御部であり、ＣＰＵ１２ａ及びメモリ１２ｂ（ＲＯＭ、ＲＡＭで構成される）を備える。主制御部１２は文字認識／方向判別部１３及び領域分離部１４による処理結果を用いて当該システムの各種制御を行うとともに、一時的に画像データを保存する。
【００４４】
１３は文字認識／方向判別部であり、本実施形態の特徴である文書方向の判別処理と文字認識とを行うブロックである。１４は領域分離部であり、文書画像データより、文字領域、図形領域、自然画領域、表領域などを矩形に分離して、各領域の属性を付加する処理を行う。
【００４５】
１５は記憶装置であり、各種処理結果（画像データ、領域分離結果、文字認識結果など）を保存する。記憶装置１５は、例えば、ハードディスクや光磁気ディスクなどで構成される。１６はＩ／Ｆ部であり、外部の装置へデータを送るための構成で、データ伝送の形態としてはＳＣＳＩやＲＳ２３２Ｃなどがある。１７はコンピュータであり、Ｉ／Ｆ部１６を介して情報を得たり、記憶装置１５よりデータを得て、それらを利用する。例えば、コンピュータ１７上でＤＴＰ（Desktop Publishing）アプリケーションを動作させ、文字認識処理によって得られた文書データを記憶装置１５から獲得し、これを編集対象のデータとして用いるように構成できる。１８はプリンタ部であり、領域分離情報や文字認識情報によって加工されたデータを出力する。
【００４６】
次に、図２〜図４を用いて本実施形態１の動作について説明する。図２〜図４は実施形態１における文字認識の手順を表すフローチャートである。なお、本フローチャートで示される手順を実現するための制御プログラムは、メモリ１２ｂのＲＯＭに格納されており、ＣＰＵ１２ａによって実行される。
【００４７】
まず、ステップＳ１において、スキャナ部１１により原稿を読み込み、文書画像データを得る。得られた文書画像データはメモリ１２ｂのＲＡＭに格納される。次に、ステップＳ２において、文書画像データに対する領域分離処理を行う。領域分離処理は、メモリ１２ｂに格納した文書画像データを領域分離部１４へ入力することで行われる。なお、領域分離処理の詳細については後述する。また、分離結果は、各領域を囲む矩形情報とその属性情報とを有し、主記憶（メモり１２ｂのＲＡＭ）に格納される。この分離結果は後の処理においてＣＰＵ１２ａによって頻繁にアクセスされるためである。
【００４８】
ステップＳ３では、上述の領域分離処理によって分離された各領域のうち、属性が文字領域と判定された領域（テキスト領域、タイトル領域、表中の文字領域、図のキャプション領域）を抽出し、以降のステップＳ４〜ステップＳ１６において抽出した文字領域の方向判別処理を行う。
【００４９】
まず、ステップＳ４において、当該原稿中に文字領域と判別される領域が存在するか否かを調べる。原稿中に文字領域が存在しなければ、ステップＳ２１へ進み、方向判別不能とし、読み取られた方向がそのまま正しい方向である（方向０°）とする。
【００５０】
ステップＳ４において、文字領域が存在すればステップＳ５へ進む。ステップＳ５では、文字領域と判断された領域の一つを抽出し、その属性に従って処理を分岐する。即ち、抽出された文字領域の属性がタイトル領域であればステップＳ６へ、テキスト領域であればステップＳ９へ、キャプション領域であればステップＳ８へそれぞれ処理が分岐する。
【００５１】
ステップＳ６では、当該領域をタイトル領域として、その旨を示すTITLEフラグを記憶する。また、ステップＳ８では、当該領域をキャプション領域として、その旨を表すCAPTIONフラグを記憶する。
【００５２】
当該領域がテキスト領域の場合は、ステップＳ９へ進み、当該テキスト領域が本文中のものか、表中のものかを判断する。そして、本文中のテキスト領域であればステップＳ１０へ、表中のテキスト領域であればステップＳ１１へそれぞれ進む。そしてステップＳ１０では、当該領域が本文中のテキスト領域であることを示す本文中TEXTフラグを記憶する。また、ステップＳ１１では、当該文字領域が表中のテキスト領域であることを示す表中TEXTフラグを記憶する。
【００５３】
ステップＳ１２では複数の角度からの読取りによる文字認識を行い、その文字認識結果に基づいて当該領域における文書方向の判別を行う。なお、この文書方向判別の詳細は後述する。ステップＳ１２において、当該領域における文書方向が判別できた場合はステップＳ１４へ、文書方向の判別が不能であった場合はステップＳ１６へそれぞれ進む。
【００５４】
ステップＳ１４では、各フラグ別（即ち、TITLE，CAPTION，本文中TEXT，表中TEX別）に、ステップＳ１２による方向判別結果を記憶する。そして、ステップＳ１５では、本文中TEXTと判断された複数の文字領域において、方向判別結果が一致したか判断する。もし一致方向が検出できたら、その方向を方向判別結果としてステップＳ２２へ進む。一方、一致方向の検出ができなかった場合はステップＳ１６へ進み、全ての文字領域について上述のステップＳ５からステップＳ１５の処理を行ったか否かを判断する。もしまだ未処理の文字領域がある場合は、ステップＳ１３へ進み、処理の対象を次の文字領域へ移し、ステップＳ５へ戻る。
【００５５】
本文中のテキスト領域と判定された文字領域で一致方向が検出できず、ステップＳ３で抽出された全ての文字領域についてステップＳ５〜Ｓ１５の処理が終了している場合は、ステップＳ１６からステップＳ１７へ進む。ステップＳ１７では、タイトル領域と判定された文字領域の複数領域で方向判別結果が一致したか判断する。もし一致方向が検出できたら、該一致方向を方向判別結果とし、ステップＳ２２へ進む。
【００５６】
一方、ステップＳ１７において一致方向を検出できなければ、ステップＳ１８へ進む。ステップＳ１８では、表中のテキスト領域と判定された文字領域で複数箇所の方向判別結果が一致したか判断する。もし一致方向が検出できたら、その方向を方向判別結果としてステップＳ２２へ進む。
【００５７】
ステップＳ１８において一致方向が検出できなかった場合は、ステップＳ１９へ進む。ステップＳ１９では、キャプション領域と判定された文字領域で複数箇所の方向判別結果が一致したか判断する。もし一致方向が検出できたら、その方向を方向判別結果としてステップＳ２２へ進む。
【００５８】
ステップＳ１９において、一致方向が検出できなければステップＳ２０へ進む。ステップＳ２０では、抽出された文字領域のうち方向判別結果の得られた領域があるかどうかを調査し、一つでも方向判別結果が得られた領域が見つかれば、その領域の方向を方向判別結果としてステップＳ２２へ進む。ただし、ステップＳ２０における調査は、本文中のテキスト領域、タイトル領域、表中のテキスト領域、キャプション領域の順に行う。
【００５９】
ステップＳ２０において方向判別結果の得られた文字領域が存在しない場合はステップＳ２１へ進み、方向判別不能とする。この場合、スキャナ部１１の読取り方向をそのまま文書方向として（即ち、０度の画像として）ステップＳ２６へ進み、処理を続行する。
【００６０】
一方、何等かの方向判別結果が得られた場合は、ステップＳ２２においてその方向判別結果を取得し、ステップＳ２３で該方向判別結果が０度か否かを判断する。方向判別結果が０度の場合は、画像回転を行わないので、そのままステップＳ２６へ進む。
【００６１】
ステップＳ２４では、方向判別結果（本例の場合、９０°、１８０°、２７０°のいずれかとなる）に従って、メモリ１２ｂに格納された画像データを回転する。そして、ステップＳ２５にて、メモり１２ｂに格納された画像データに対して、再びステップＳ２と同様の領域分離処理を行う。領域分離結果はステップＳ２の場合と同様に主記憶（ＲＡＭ）に記憶される。
【００６２】
ステップＳ２６では、正しい方向に修正された画像データあるいは当初から正しい方向で読み込まれた画像データについて、全文字領域にわたって文字認識を実行する。ステップＳ２７では、その文字認識結果を得て、これを記憶装置１５に格納する。
【００６３】
以上のように、本実施形態１では、文書中の文字領域を用いて文書方向の判別を行う訳だが、文書中において各文字が最も正しい方向を向いていると判断される本文中のテキスト領域を優先順位を高くして方向判別に用いるので、方向判定結果の信頼性が向上する。
【００６４】
そして、もし文書方向が正しい方向であると判定された場合は、引続き画像中の文字ブロックに対して文字認識処理を行なう。一方、不正な方向に入力された場合は、当該画像データを正しい方向に回転させて、得られた回転画像に対して、再び領域分離補正処理を行ない、文字認識を行う。
【００６５】
ここで、回転処理後の画像データに対して再度領域分離を行うのは、画像回転に伴う領域分離情報の相違を補正するためである。回転後の画像に対する領域分離の方法としては、（Ａ）回転後の全画像データに対して再度領域分離処理を行なう方法、あるいは（Ｂ）アドレス変換を領域分離結果にかける方法がある。領域分離処理は、一般に画像が正方向であることを想定しているため、初めの段階で行なった領域分離処理と回転画像データに対して行なった領域分離処理は、結果が異なることが多い。それゆえ（Ａ）の方法を採用するのが一般的である。
【００６６】
そして、回転画像データ中の各文字領域は、文字認識処理系（文字認識／方向判別部１３）で文字認識される。この結果、回転処理を必要とする画像であっても、必要としない画像であっても、最終的に領域分離情報と文字認識情報が得られることになる。更に、この処理結果は、図１のＩ／Ｆ部１６を介してコンピュータ１７に転送可能であり、コンピュータ１７上のアプリケーションソフト（例えばファイリング処理や文書処理等）で利用される。
【００６７】
もちろん、上記処理結果を記憶装置１５に転送して格納するようにしても良いことはいうまでもない。このように記憶装置１５に転送する処理形態は、スキャナ１１より連続的に画像情報を入力して処理結果を記憶総理１５に格納しておき、次にその情報をコンピュータ１７によってまとめて読み出すといったバッチ処理的に使われる方式に利用される。
【００６８】
また、処理結果をプリンタ部１７に転送する処理形態では、プリンタ装置にページ記述言語を解釈する機能があるとして、文字認識と領域分離の処理により逆ＰＤＬ（画像データよりページ記述言語を作成する方法）やＨＴＭＬ（レイアウトや文書構造を記述する方法）で文書を再構成したり清書したりするシステムで利用される。
【００６９】
次に、文字認識処理を用いた、文書方向判別の手法について、説明する。
【００７０】
［領域分離処理］
文書画像データの黒画素を検出してゆき、輪郭線追跡、またはラベリング方式により、黒画素ブロックの矩形枠を作成する。次にその矩形のなかの黒画素密度、隣接矩形ブロックの有無、矩形の縦横比率などを判断基準にして、各矩形について文字領域（タイトル、本文、キャプションなど）、図形領域、自然画領域、表領域などを判別する。この処理結果より文字領域の矩形情報が判別される。この領域分離処理は、上述のステップＳ２，Ｓ２５にて実行される。
【００７１】
［文字認識処理］
文字認識処理の一つの方法として、特徴ベクトル抽出、比較方式がある。図５は実施形態１で用いられる文字認識処理の手法を説明する図である。（ａ）は処理対象の文書画像を表しており、「１．本発明の名称」を含む領域５１が文字領域として抽出されている。文字認識処理の第１段階として、（ｂ）に示されるように、文字の切り出し処理を行なう。これは一つの文字の矩形を切り出す処理で、黒画素連続性の状態を検出していけば求められる。
【００７２】
次に、第２段階として、（ｃ）に示されるように一文字の矩形をｍ×ｎのブロック（例えば、６４×６４のブロック）に分割する。そして、そのなかから３ｘ３のウインドを用いて、黒画素の分布方向を抽出する（方向ベクトル情報）。（ｄ）はその方向ベクトル情報を示す例である。このウインドをずらしてゆき、方向ベクトル情報を数十個得る。このベクトル情報が文字の特徴となる。
【００７３】
この特徴ベクトルとあらかじめ各文字について標準的な特徴ベクトルが登録されている文字認識辞書とを比較して、両者が一番近い文字から順番に文字を抽出する。一番近い文字が第一候補となり、続いて第二、第三となる。この両者の特徴ベクトルの近さが、その文字に対する距離の近さ、前述の自信度という数値になる。
【００７４】
［文字方向判別］
上述の文字認識処理で文字の自信度が求まる訳だが、この文字認識処理を用いて文書の方向を求める手順について図６を用いて説明する。図６は実施形態１における文書方向の検出方法を説明する図である。（ａ）は正方向の文、（ｂ）は２７０度に回転した文を示す。ここで「本」に注目すると、（ｃ）に示すように、０度、９０度、１８０度、２７０度の方向から文字認識を行なってみる。各角度による認識処理は、文字矩形の領域からの画像データの読みだし方を変更することで実現でき、特に原画像データを回転する必要はない。さて、各角度による文字認識結果（（ｃ））をみると、認識文字が各角度で異なっている。なお、（ｃ）に示した認識結果は、説明用の仮の文字認識結果および自信度である。
【００７５】
（ｃ）によれば、正方向の文字による認識結果によれば、「本」と認識され、その自信度も０．９０と高い値となる。９０度回転すると「町」と認識され、自信度は０．４０と落ちる。これは、不正な方向に向いた文字の特徴より、特徴の近い文字を無理矢理引っ張り出してきたためである。同様に１８０度、２７０度の値も低い値を示す。この自信度は、複雑な文字程、その差が顕著となる。
【００７６】
図６の（ｃ）の結果によれば、文書は正方向を向いている可能性が高いと判断される。より精度を上げるため、さらに数個の文字について同様な処理を行なう。一つの文字ブロックだけでは、特殊になる可能性があるため、異なる文字領域についても行なってみる必要がある。
【００７７】
各角度からの自信度の平均値より、回転している方向の値が高い値となるため、方向が判別できる。０度と１８０度、９０度と２７０度ではそれぞれ自信度が異なるため、４方向の向きがわかることになる。これにより、精度の高い方向判別結果を得る。
【００７８】
次に、もし回転すべきと判断されたならば、原画像を回転する。これは、図１の主制御部１２におけるＣＰＵ１２ａ，メモリ１２ｂを用い、公知の手法で達成されるので、詳細な説明は省略する。
【００７９】
［最終的に獲得される情報（ステップＳ２７）］
図７は最終的な文字認識を終えた時点において獲得されるデータを説明する図である。上図のような処理により、最終的に文書方向が補正された画像について、原画像データ（Ａ）、領域分離データ（Ｂ）、ＯＣＲ結果（文字認識結果）（Ｃ）を得ることができる。
【００８０】
（Ａ）の原画像データは、読取り方向が正しい方向に修正された回転後の画像データである。（Ｂ）の領域分離データにおいて、「header」は以降のデータが領域分離データであることを示す。「rect1」〜「rectn」は、それぞれ検出された領域に対する領域分離データである。「rect1」〜「rectn」はそれぞれ、７１に示すような構造を有する。即ち、領域を特定するための番号を示す「order」、領域の属性を示す「att」、領域の位置（矩形の左上の角）を示す「x1,y1」、領域の幅、高さを表す「w,h」、当該領域の組方向（縦書き、横書き）を表す「direction」の各データで構成される。
【００８１】
また、文字認識情報は（Ｃ）に示すような形態となっており、「OCR1」〜「OCRn」の各データは、「rect1」〜「rectn」の各領域の文字認識結果である。文字認識結果はそれぞれ、７３に示すデータ構造を有する。また、blk headerは、各領域の文字認識結果の前に付加するヘッダーであり、どのような矩形領域について文字認識処理したかの情報を入れる。このblk headrは、「type」「order」「att」「x1」「y1」「w」「h」「direction」を有する。「order」〜「direction」の各データは、上述の領域分離データ７１の各データと同様である。「type」は、以降のデータがblk headerであることを示す。また、文字認識結果について、日本語、英語、その他の言語等の区別も示す。
【００８２】
文字認識結果７３における「type」は、以降のデータが文字認識結果であることを示すという点を除いて、blk headerの「type」と同じである。また、「文字１」等は認識結果としての文字コードである。更に、文字認識結果７３において、「x1」「y1」「w」「h」は一文字切り出した際の文字矩形情報である。更に、「reserve」は予備部を示す。以上のような情報は、アプリケーションにより使用される。例えば、電子ファイリング、文書整形、ＤＴＰなどで利用される。
【００８３】
上記実施形態１では、文書中の文字領域の属性を優先順位の項目としており、本文中のテキストを最も優先順位を高くしているが、優先順位の設定はこれに限られるものではない。例えばタイトル領域が最も正方向を向いている確率が高いとして、タイトル領域の優先順位を最も高くしてもよい。
【００８４】
実施形態１の処理手順において、方向判定の優先順位は、図３のステップＳ１５、Ｓ１７〜Ｓ１９においてどの属性の領域が参照されているかによって決定されている。そして、若いステップ番号で参照される領域ほど優先順位が高くなる。よって、これらのステップにおいて参照する領域の属性を変更することで、方向判定における優先順位を変更できる。図８は、タイトル領域を最高優先度の領域とした場合の文字認識処理手順を説明するフローチャートである。なお、図８で示される処理手順は、図３で示される処理手順に対応し、同じ処理を行うステップには同一のステップ番号を付した。図８と図３の対比から明らかなように、ステップＳ１５、Ｓ１７で参照される領域の属性を入れ換えてステップＳ１５’、Ｓ１７’とすることで、優先順位の変更が達成される。
【００８５】
また、逆に、文書中の図や表などの脇に添えて書かれたキャプション領域の属性を最も低い優先順位としたが、表中の文字領域の方が変な方向に向いている可能性が高いとして、表中の文字領域を最も優先順位の低い領域とすることもできることは明らかである。
【００８６】
＜実施形態２＞
上記実施形態１では、文字領域の属性に優先順位を与えて、優先順位の高い属性を有する文字領域から判定される文書方向を優先的に用いて文書方向の判定を行っている。本実施形態２では、文字領域の方向判定において自信度の高い判定結果を用い、この判定結果が複数の文字領域で一致する場合、その方向を文書方向として決定するものである。
【００８７】
実施形態２によれば、文書画像データに対して、領域分割処理を行い、この領域分割処理の結果、文字領域と判断された領域について、文字認識処理を利用した方向判別処理を行う。そして、文字領域内で、ある程度以上の自信度を有した方向判別の結果が得られれば、それを第１候補の方向認識結果とする。引き続き他の文字領域について方向判定を行い、所定値以上の自信度を有した方向判別の結果が得られればそれを第２候補の方向認識結果とする。
【００８８】
以上のようにして得られた第１及び第２候補の方向認識結果が一致すれば、その方向を当該文書の方向と判断する。
【００８９】
なお、実施形態２におけるシステムの構成は実施形態１８図１と同様であるので説明を省略する。
【００９０】
図９及び図１０は実施形態２における文字認識処理の手順を表すフローチャートである。ステップＳ４１では、スキャナ部１１により画像を光学的に読取り、画像データを得る。ステップＳ４２では、得られた画像データに対して実施形態１で説明した領域分離処理を行う。そして、ステップＳ４３にて、分離された領域より、文字領域を抽出する。
【００９１】
ステップＳ４４では、抽出された文字領域の一つについて文書方向を判別する。文書方向の判別方法は実施形態１で説明した通りである。ここで、当該文字領域の文字方向が判別できなければステップＳ４５へ進み、次の未処理の文字ブロックがあるかどうかを判定する。未処理の文字ブロックがあればステップＳ４４へ戻る。一方、ステップＳ４５において未処理の文字ブロックがなくなれば、回転方向の判別が不能であるとしてそのままステップＳ５４へ進む。なお、ステップＳ４４における文書方向の判別の可否は、所定の自信度を有する判定結果を得たか否かによって行う。従って、この自信度をある程度高い値とすることにより、自信度の小さい判定結果は排除される。
【００９２】
ステップＳ４６では、ステップＳ４４の文書方向判別の結果が第１判別方向として保存される。即ち、ステップＳ４４、Ｓ４５の処理において、所定値以上の自信度を有する文書方向の判別結果が得られた場合に、その判別方向を第１判別方向として保存する。
【００９３】
続いて、ステップＳ４７〜ステップＳ４９において、ステップＳ４４〜ステップＳ４６と同様な処理を行い、所定値以上の自信度を有する文書方向の判別結果が得られれば、これを第２判別方向として保存する。
【００９４】
ステップＳ４９において、第２判別方向が保存されると、ステップＳ５０において第１判別方向と第２判別方向が同じであるか否かを判定する。両判別方向が同じであれば、ステップＳ５１へ進み、それらの判別方向が何度であるかによって処理を分岐する。ステップＳ５１において、判別方向が０度であれば、画像回転等の処理が不要であるので、ステップＳ５４へ進み、そのまま文字認識処理を実行する。
【００９５】
一方、ステップＳ５１において、判別方向が９０度、２７０度、３６０度のいずれかであれば、ステップＳ５２へ進み、検出された判別方向に基づいて、当該画像が正しい方向を向くように画像を回転させる。そして、ステップＳ５３において、回転後の画像データにおいて再度領域分離を行い、全文字について文字認識を行うべくステップＳ５４へ進む。
【００９６】
また、ステップＳ４７において、第２判別方向が検出される前に処理すべき文字領域が無くなれば、ステップＳ４６で保存した第１判別方向を当該文書画像の方向として採用し、そのままステップＳ５１へ進む。
【００９７】
また、ステップＳ５０において、両判別方向が一致しなければ、文書方向の判別は不能として、ステップＳ５４へ進む（即ち、画像の回転等を行わずに、全文字の認識処理を実行する）。
【００９８】
ステップＳ５４では、画像データ中の全文字領域について文字認識を実行する。そして、ステップＳ５４において、図７で示したような領域分離情報と文字認識情報を生成する。
【００９９】
以上のように、上記実施形態２においては、文書方向の判別における判別の可否のチェックを所定値以上の自信度を有するか否かで行い、自信度の小さい判別結果を採用しないようにして、方向判別の精度を向上している。また、複数の方向判別結果を参照することにより、更に向判別の精度を向上している。
【０１００】
上記実施形態１では、文書中の所定値以上の自信度を有する方向判別結果が得られた文書領域を２ヶ所検出し、これらの文書領域の方向判別結果が一致すれば、これを方向判別結果として獲得している。しかしながら、３つ以上の文字領域で判別方向が一致するか否かで判断するように構成することも可能である。
【０１０１】
また、上記実施形態２では、最初に検出された第１判別方向と第２判別方向の一致で文書方向を決定し、このような方向の不確定な文書に対して、方向判別のための処理に時間を駈けないようにしている。しかしながら、ステップＳ５０で第１及び第２判別方向が一致しない場合、ステップＳ４４へ処理を戻して、他の文字領域を用いて方向検出をやり直すように構成してもよい。このとき、他の文字領域によって検出された方向が上述の第１判別方向と第２判別方向のいずれかと一致するとき、その方向を文書方向として決定するようにすればよい。
【０１０２】
＜実施形態３＞
本実施形態３では、方向判別に全文字領域の方向判定を行い、判別回数の多い方向をもって、当該文書の方向に決定する方法を説明する。
【０１０３】
図１１は実施形態３における文字認識処理の手順を表すフローチャートである。同図において、ステップＳ６１〜ステップＳ６３は、図９のステップＳ４１〜ステップＳ４３と同様の処理を行う。ステップＳ６４では、ステップＳ６３で抽出された文字領域の一つについて方向判別を行う。そして、その結果、所定値以上の自信度を有する方向が判別されれば、ステップＳ６５へ進む。ステップＳ６５では、ステップＳ６４で判別された方向毎に、判別回数をカウントする。判別回数のカウント値は、メモり１２ｂのＲＡＭに所定の領域を設けて格納する。そして、ステップＳ６６へ進む。
【０１０４】
一方、ステップＳ６４で、所定値以上の自信度を有する方向判定が行えなかった場合はそのままステップＳ６６へ進む。ステップＳ６６では、次の未処理の文字領域が存在するか否かを判定し、未処理の文字領域があればステップＳ６４へ戻る。また、未処理の文字領域が無くなれば、ステップＳ６７へ進む。以上のようにして、すべての文字領域について方向判別が行われ、所定値以上の自信度を有して判別された回数が各方向毎（本例では０度、９０度、１８０度、２７０度）にカウントされる。
【０１０５】
ステップＳ６７では、判別回数が最大となった方向を検出し、これを当該文書の方向として決定する。以上のようにして決定された方向を判別結果としてステップＳ５１へ進む。なお、ステップＳ５１〜ステップＳ５５は、図１０で示した各ステップと同様であるので、ここでは説明を省略する。
【０１０６】
以上説明したように、実施形態３によれば、文字領域全体について方向判定を行い、最も判定された回数の多い方向を文書方向とするので、精度よく文書方向を判定できる。
【０１０７】
以上のように各実施形態によれば、文書中の複数の文字領域を検査することにより、その文書の方向を判定するので、より精度の高い判別結果を得ることが可能となる。このため、文書方向が誤った方向で文書入力が行われても、自動的に補正することが可能となり、特に大量に入力された文書をファイリングするシステムにおいて、人間の手間を省くことができる効果がある。文字認識処理においても、間違った方向のまま文字認識されることがなくなり、誤認識を防止できると共に、画像データも正しい方向で保存される。
【０１０８】
上記情報処理システムにおける文書方向判別及び文字認識処理は、パーソナルコンピュータ等にスキャナを接続した構成においても実現できる。よって、上記装置の機能もしくは方法の機能によって達成される本発明の目的は、前述の実施例のプログラムを記憶させた記憶媒体によっても達成できるものである。即ち、上記装置に、その記憶媒体を装着し、その記憶媒体から読み出したプログラム自体が本発明の新規な機能を達成するからである。なお、記憶媒体を例えばフロッピーディスクとすれば、フロッピーディスクドライバを記憶装置１５の一部として組込み、該フロッピーディスクより制御プログラムを読み出してメモり１２ｂへ格納し、これをＣＰＵ１２ａで実行するようにすれば良い。
【０１０９】
このための、本発明にかかるプログラムの構造的特徴は、図１７に示す通りである。
【０１１０】
図１７の（ａ）において、１７０１は分離処理であり、入力された文書画像データを複数の部分領域に分離する。また、１７０２は付与処理であり、上記分離処理１７０１で得られた複数の部分領域のそれぞれについて、予め優先度が与えられた複数種類の属性のいずれに該当するかを判別し、判別された属性を付与する。以上の処理は、図２のステップＳ２に相当する処理である。
【０１１１】
また、１７０３は判別処理であり、上記分離処理１７０１で得られた前記複数の部分領域のそれぞれについて、文書方向を判別する。これは、図３のステップＳ１２に相当する処理である。そして、１７０４は決定処理であり、判別処理１７０３で判別された各部分領域の文書方向と、各部分領域に付与されている属性の優先度に基づいて当該文書画像データの方向を決定する。これは図３のステップＳ１５〜ステップＳ２０に相当する。
【０１１２】
図１７の（ｂ）は、上述の各処理を実行するためのプログラムモジュールを記憶媒体に格納した場合のメモりマップを表す図である。分離処理モジュール１７０１’、付与処理モジュール１７０２’、判別処理モジュール１７０３’、決定処理モジュール１７０４’は、それぞれ、分離処理１７０１、付与処理１７０２、判別処理１７０３、決定処理１７０４を実行するプログラムモジュールである。
【０１１３】
また、図１８は、本発明にかかる他のプログラムを説明する図である。図１８の（ａ）において、１８０１は抽出処理であり、入力された文書画像データより複数の部分領域を抽出する。これは、図９のステップＳ４１〜Ｓ４３に相当する処理である。１８０２は判別処理であり、抽出処理１８０１で抽出された部分領域について方向を判別する。これは、図９のステップＳ４４、Ｓ４７に相当する処理である。１８０３は決定処理であり、判別処理１８０２において所定以上の確実性を有して方向が判別された複数の部分領域に関して、その判別された方向が一致する場合、該方向を前記文書画像データの方向として決定する。これは、図９のステップＳ４６、Ｓ４９、図１０のステップＳ５０に相当する処理である。
【０１１４】
図１８の（ｂ）は、上述の各処理を実行するためのプログラムモジュールを記憶媒体に格納した場合のメモりマップを表す図である。分離処理モジュール１８０１’、判別処理モジュール１８０２’、決定処理モジュール１８０３’は、それぞれ、分離処理１８０１、判別処理１８０２、決定処理１８０３を実行するプログラムモジュールである。
【０１１５】
また、図１９は、本発明にかかる更に他のプログラムを説明する図である。図１９の（ａ）において、１９０１は抽出処理であり、入力された文書画像データより複数の部分領域を抽出する。これは図１１のステップＳ６１〜Ｓ６３の処理に相当する。また、１９０２は判別処理であり、上記抽出工程１９０１で抽出された複数の部分領域のそれぞれについて文書方向を判別する。これはステップＳ６４の処理に相当する。また、１９０３は決定処理であり、各文書方向について上記判別処理１９０２で判別された回数をカウントし、そのカウント値が最大となる文書方向を前記文書画像データの方向として決定する。これは、ステップＳ６５、Ｓ６７に相当する。
【０１１６】
また、本発明は、複数の機器から構成されるシステムに適用しても、１つの機器からなる装置に適用してもよい。また、本発明はシステム或は装置にプログラムを供給することによって達成される場合にも適用できることは言うまでもない。この場合、本発明に係るプログラムを格納した記憶媒体が、本発明を構成することになる。そして、該記憶媒体からそのプログラムをシステム或は装置に読み出すことによって、そのシステム或は装置が、予め定められた仕方で動作する。
【０１１７】
【発明の効果】
以上のように本発明によれば、文書画像データに含まれる複数領域について文書方向を判別し、判別された各領域の方向に基づいて当該文書画像の方向を決定することが可能となり、より正確に文書方向を判定できる。
【０１１８】
また、本発明によれば、各部分領域の方向の判別を、各領域に含まれる文字の方向を判別することによって行うことで、各領域の方向をより正確に判定することが可能となる。
【０１１９】
また、本発明によれば、文書の読取り方向に関らず正しい方向で文書画像が表示され、より文字認識精度が向上する。
【０１２０】
【図面の簡単な説明】
【図１】実施形態１における情報処理システムの構成を表すブロック図である。
【図２】実施形態１における文字認識の手順を表すフローチャートである。
【図３】実施形態１における文字認識の手順を表すフローチャートである。
【図４】実施形態１における文字認識の手順を表すフローチャートである。
【図５】実施形態１で用いられる文字認識処理の手法を説明する図である。
【図６】実施形態１における文書方向の検出方法を説明する図である。
【図７】最終的な文字認識を終えた時点において獲得されるデータを説明する図である。
【図８】タイトル領域を最高優先度の領域とした場合の文字認識処理手順を説明するフローチャートである。
【図９】実施形態２における文字認識処理の手順を表すフローチャートである。
【図１０】実施形態２における文字認識処理の手順を表すフローチャートである。
【図１１】実施形態３における文字認識処理の手順を表すフローチャートである。
【図１２】文書方向の自動判別の代表的な手法を説明する図である。
【図１３】「高」という文字に対して、読取り方向が回転した場合の各方向における認識結果を示す図である。
【図１４】スキャナ等で読み込まれた画像データをディスプレイ表示している状態を表す図である。
【図１５】紙面上における文書の各種の配置状態を説明する図である。
【図１６】１枚の原稿上に異なる方向の文字が混在する文書の例を表す図である。
【図１７】本実施の形態の制御を実現するための制御プログラムを格納した記憶媒体の構成を説明する図である。
【図１８】本実施の形態の制御を実現するための制御プログラムを格納した記憶媒体の他の構成を説明する図である。
【図１９】本実施の形態の制御を実現するための制御プログラムを格納した記憶媒体の他の構成を説明する図である。
【符号の説明】
１１スキャナ部
１２主制御部
１３文字認識／方向判別部
１４領域分離部
１５記憶装置
１６Ｉ／Ｆ部
１７コンピュータ
１８プリンタ部

Claims

入力された文書画像を複数の部分領域に分離する分離手段と、
前記分離手段で得られた複数の部分領域における属性が、予め優先度の定められた複数種類の属性のいずれであるかを判別する属性判別手段と、
前記分離手段で得られた複数の部分領域における方向を判別する方向判別手段と、
前記属性判別手段で最も優先度が高い属性を有すると判別された複数の部分領域における前記判別された方向が一致しているか否かを判定し、一致する場合には当該一致する方向を前記文書画像における文書方向として決定する決定手段とを有し、
前記複数種類の属性のうち最も優先度が高い属性は、文字認識しやすい文字が含まれる領域で、かつ文書画像における文書方向と方向が一致する可能性の高い領域の属性であることを特徴とする文書方向判定装置。
前記方向判別手段は、
前記分離手段で得られた複数の部分領域を一つずつ処理対象とし、当該処理対象とされた部分領域における方向を判別し、
前記決定手段は、
前記処理対象の部分領域が最も優先度が高い属性を有すると前記属性判別手段で判別されている場合には、当該処理対象の部分領域における方向が既に処理済の部分領域における方向と一致するか否かを判定し、一致する場合には当該一致する方向を前記文書画像における文書方向として決定し、一致しない場合には前記方向判別手段に対して新たな部分領域を処理対象とさせることを特徴とする請求項１に記載の文書方向判定装置。
前記決定手段は、
前記処理対象の部分領域と前記処理済みの部分領域とにおける方向が一致しない場合で、かつ、新たな部分領域が存在しない場合には、前記最も優先度が高い属性以外の属性を有する部分領域の方向に基づいて文書方向を決定することを特徴とする請求項２に記載の文書方向判定装置。
前記複数種類の属性には、本文中の文字領域である属性、表組中の文字領域である属性、タイトル中の文字領域である属性、図の解説のための文字領域である属性が含まれることを特徴とする請求項１乃至３の何れか１項に記載の文書方向判定装置。
本文中の文字領域である属性を最も優先度の高い属性とすることを特徴とする請求項４に記載の文書方向判定装置。
タイトル中の文字領域である属性を最も優先度の高い属性とすることを特徴とする請求項４に記載の文書方向判定装置。
請求項１乃至６のいずれか１項に記載の文書方向判定装置によって決定された文書画像の文書方向が前記文書画像における０度の方向と異なる場合に、前記文書画像を回転する回転手段と、
前記回転手段で回転された後の文書画像を複数の部分領域に分離する第２の分離手段と、
前記第２の分離手段で得られた複数の部分領域のうちの文字領域に含まれる文字を認識する文字認識手段とを備えることを特徴とする文字認識装置。
入力された文書画像を複数の部分領域に分離する分離工程と、
前記分離工程で得られた複数の部分領域における属性が、予め優先度の定められた複数種類の属性のいずれであるかを判別する属性判別工程と、
前記分離工程で得られた複数の部分領域における方向を判別する方向判別工程と、
前記属性判別工程で最も優先度が高い属性を有すると判別された複数の部分領域における前記判別された方向が一致しているか否かを判定し、一致する場合には当該一致する方向を前記文書画像における文書方向として決定する決定工程とを有し、
前記複数種類の属性のうち最も優先度が高い属性は、文字認識しやすい文字が含まれる領域で、かつ文書画像における文書方向と方向が一致する可能性の高い領域の属性であることを特徴とする文書方向判定方法。
前記方向判別工程は、
前記分離工程で得られた複数の部分領域を一つずつ処理対象とし、当該処理対象とされた部分領域における方向を判別し、
前記決定工程は、
前記処理対象の部分領域が最も優先度が高い属性を有すると前記属性判別工程で判別されている場合には、当該処理対象の部分領域における方向が既に処理済の部分領域における方向と一致するか否かを判定し、一致する場合には当該一致する方向を前記文書画像における文書方向として決定し、一致しない場合には前記方向判別工程に対して新たな部分領域を処理対象とさせることを特徴とする請求項８に記載の文書方向判定方法。
前記決定工程は、
前記処理対象の部分領域と前記処理済みの部分領域とにおける方向が一致しない場合で、かつ、新たな部分領域が存在しない場合には、前記最も優先度が高い属性以外の属性を有する部分領域の方向に基づいて文書方向を決定することを特徴とする請求項９に記載の文書方向判定方法。
前記複数種類の属性には、本文中の文字領域である属性、表組中の文字領域である属性、タイトル中の文字領域である属性、図の解説のための文字領域である属性が含まれることを特徴とする請求項８乃至１０の何れか１項に記載の文書方向判定方法。
本文中の文字領域である属性を最も優先度の高い属性とすることを特徴とする請求項１１に記載の文書方向判定方法。
タイトル中の文字領域である属性を最も優先度の高い属性とすることを特徴とする請求項１１に記載の文書方向判定方法。
請求項８乃至１３のいずれか１項に記載の文書方向判定方法によって決定された文書画像の文書方向が前記文書画像における０度の方向と異なる場合に、前記文書画像を回転する回転工程と、
前記回転工程で回転された後の文書画像を複数の部分領域に分離する第２の分離工程と、
前記第２の分離工程で得られた複数の部分領域のうちの文字領域に含まれる文字を認識する文字認識工程とを備えることを特徴とする文字認識方法。