JP4768451B2

JP4768451B2 - 画像処理装置、画像形成装置、プログラムおよび画像処理方法

Info

Publication number: JP4768451B2
Application number: JP2006010368A
Authority: JP
Inventors: 広文西田
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2006-01-18
Filing date: 2006-01-18
Publication date: 2011-09-07
Anticipated expiration: 2026-01-18
Also published as: CN100559387C; JP2007193528A; US20070165950A1; CN101004792A

Description

本発明は、文書画像のレイアウト解析処理を行う画像処理装置、画像形成装置、プログラムおよび画像処理方法に関する。

スキャナやデジタルカメラなどの画像入力機器を通してコンピュータに入力された文書画像を文書構成要素（例えば、文字、文字行、パラグラフ、コラムなど）に分離する処理は、通常、「幾何的レイアウト解析」や「ページセグメンテーション」と呼ばれる。この「幾何的レイアウト解析」や「ページセグメンテーション」は、多くの場合、２値文書画像上で行われる。また、「幾何的レイアウト解析」や「ページセグメンテーション」は、前処理として、入力の際に生じる傾きを補正する「スキュー補正」を伴う。このようにしてスキュー補正された２値文書画像の「幾何的レイアウト解析」や「ページセグメンテーション」は、大きく２通りのアプローチ（トップダウン解析及びボトムアップ解析）に分類される。

まず、トップダウン解析について説明する。トップダウン解析は、ページを大きな構成要素から小さな構成要素に分離する。例えば、ページをコラムに、そして、コラムをパラグラフに、パラグラフを文字行に、というように、大きな構成要素から小さなものに分離してゆくアプローチである。トップダウン解析は、ページのレイアウト構造についての仮定に基づくモデル（例えば、マンハッタンレイアウトでは、文字行は直立矩形である）を利用して効率的に計算ができる反面、仮定が成り立たないようなデータについては、とんでもない間違いを生じるという欠点がある。一般に、複雑なレイアウトはモデル化も複雑になるため、取り扱いが難しい。

次に、ボトムアップ解析について説明する。ボトムアップ解析は、特許文献１、２に記載されているように、近隣の構成要素の位置関係を参照して、要素を統合してゆく。例えば、連結成分を文字行、そして、文字行をコラムに、というように、小さな構成要素を大きなものにグループ化してゆくアプローチである。しかしながら、特許文献１に記載されているようなボトムアップ解析は、局所的な情報に基づく方法なので、ページ全体のレイアウトに関する仮定にあまり依存せずに多様なレイアウトに対応できる反面、局所的な判断の間違いが蓄積してゆくという欠点がある。例えば、２つの異なるコラム間にまたがる２つの文字が、誤って１つの文字行に統合されてしまえば、それらの２つのコラムも１つのコラムとして誤って抽出されてしまう。また、特許文献２に記載されているような構成要素の統合では、言語による文字の並び方の特性や、文字列方向（縦／横）などの知識が必要となる。

このように２つのアプローチは相補的であるが、これらの「隙間」を埋めるアプローチとして、文字でない部分、すなわち「背景」、あるいは２値文書画像で言うところの「白地」を利用する方法がある（特許文献３，４参照）。背景や白地の利用の利点としては、
（１）言語に依存しない（多くの言語でも白地が区切りとして使われる）。また、行方向（横書き／縦書き）についての知識を必要としない。
（２）大局的な処理なので、局所的な判断間違いが累積する可能性が少ない。
（３）複雑なレイアウトにも、柔軟に対応できる。
などが挙げられる。

特開２０００−０６７１５８号公報特開２０００−１１３１０３号公報米国特許第５，６４７，０２１号明細書米国特許第５，４３０，８０８号明細書

上述したようなアプローチのそれぞれの長所、短所、得意・苦手な画像のタイプは、以下のようにまとめられる。

（１）長所
ボトムアップ型では、どのようなレイアウトに対しても、ある程度の性能を発揮する。「文字→文字列→文字行→文字ブロック」という積み上げ型の処理であるので、レイアウト構造に関するモデルを必要としない。
トップダウン型では、レイアウト構造に関するモデルに依存した情報を使うことができるときに、強みを発揮する。大局的な情報を使えるので、局所的な間違いが累積することがない。また、トップダウン型では、言語に依存しない解析ができる。

（２）短所
ボトムアップ型では、局所的判断の間違いが累積する。文字、文字列、それに、文字行の構成については言語依存性が避けられない。
トップダウン型では、仮定しているモデルが当てはまらない場合にうまく作用しない。

（３）得意な画像のタイプ
ボトムアップ型は、文字が少ないものが得意である。局所的な間違いが起こりにくく、文字が少なければ、統合に要する計算量も少なくて済む。
トップダウン型は、文字が主体で、コラムの配置が構造化されているような文書（新聞、雑誌の記事、ビジネス文書）が得意である

（４）苦手な画像のタイプ
ボトムアップ型は、レイアウトが密集しているもの（新聞など）が苦手である。局所的な間違いが発生しやすいからである。
トップダウン型は、絵が主体のもの（スポーツ新聞、宣伝広告）や、コラムの配置が構造化されていないものが苦手である。

このようにボトムアップ型のレイアウト解析とトップダウン型のレイアウト解析とは相補的であり、レイアウト解析のアルゴリズムは、文字領域抽出に限っても数種類ある。

つまり、文書画像の「タイプ」によって、それぞれ得手不得手があり、文書画像の「タイプ」によって適したアルゴリズムを適用することが望ましい。これはアイディアとして単純に見えるが、実は、領域識別をしてみなければ、文書画像の「タイプ」がわからないという矛盾がある。すなわち、タイプ分類のための領域識別には、高速に計算できて、表現力が高いような画像特徴が必要である。

本発明は、上記に鑑みてなされたものであって、文書領域抽出の性能を向上させることができる画像処理装置、画像形成装置、プログラムおよび画像処理方法を提供することを目的とする。

上述した課題を解決し、目的を達成するために、請求項１にかかる発明は、文書画像のレイアウト解析処理を行う画像処理装置において、文書画像データの画像特徴量として、文字の割合および写真または絵である非文字の割合や、文字の散乱度および非文字の散乱度や、描画領域に対する文字および非文字の密集率を、文字や非文字についての空間的分布であるレイアウトの概略に基づいて計算する画像特徴量計算手段と、この画像特徴量計算手段により計算された前記画像特徴量を用い、近隣の構成要素の位置関係を参照して構成要素を統合していく第１のレイアウト解析が得意とする前記文書画像データの画像タイプ、あるいは、ページを大きな構成要素から小さな構成要素に分離していく第２のレイアウト解析が苦手とする前記文書画像データの画像タイプと、これら以外の前記文書画像データの画像タイプと、に前記文書画像データの画像タイプを分類識別する画像タイプ識別手段と、前記画像タイプ識別手段による画像タイプの分類結果に基づいて、前記第１のレイアウト解析と前記第２のレイアウト解析とのいずれかをレイアウト解析における領域抽出の方法として選択する選択手段と、この選択手段で選択された領域抽出の方法に基づいて、前記文書画像データを領域に分割する領域抽出手段と、を備える。

また、請求項２にかかる発明は、請求項１記載の画像処理装置において、前記画像特徴量計算手段は、前記文書画像データを矩形ブロックに排他的に分割するブロック分割手段と、分割された前記各ブロックを、当該文書画像データを構成する所定の構成要素に分類するブロック分類手段と、前記ブロックの分類結果に基づいて前記文書画像データの画像特徴量を計算する計算手段と、を備える。

また、請求項３にかかる発明は、請求項２記載の画像処理装置において、前記ブロック分類手段は、前記ブロックから複数の異なる解像度の画像を生成する画像生成手段と、前記各解像度の画像から特徴量ベクトルを計算する特徴量ベクトル計算手段と、前記特徴量ベクトルに基づいて前記各ブロックを所定の構成要素に分類する分類手段と、を備える。

また、請求項４にかかる発明は、請求項３記載の画像処理装置において、前記特徴量ベクトル計算手段は、前記各解像度の画像を２値化する２値化手段と、２値画像の各々の画素について当該画素及びその近傍画素で構成する局所パターンの対応する画素の値を使って特徴を計算する画素特徴計算手段と、前記各画素について計算された特徴を画像全体にわたって加算する加算手段と、を備える。

また、請求項５にかかる発明は、請求項３記載の画像処理装置において、前記特徴量ベクトル計算手段は、前記各解像度の画像の各々の画素について当該画素及びその近傍画素で構成する局所パターンの対応する画素の値を使って特徴を計算する画素特徴計算手段と、前記各画素について計算された特徴を画像全体にわたって加算する加算手段と、を備える。

また、請求項６にかかる発明は、請求項３記載の画像処理装置において、前記分類手段は、前記特徴量ベクトル計算手段により計算された前記特徴量ベクトルを、予め計算されている文字画素の特徴量ベクトル及び非文字画素の特徴量ベクトルの線形結合に分解して、前記各ブロックを所定の構成要素に分類する。
また、請求項７にかかる発明は、請求項１記載の画像処理装置において、前記第１のレイアウト解析は、近隣の構成要素の位置関係を参照して構成要素を統合していくボトムアップ型であり、前記第２のレイアウト解析は、ページを大きな構成要素から小さな構成要素に分離していくトップダウン型である。

また、請求項８にかかる発明は、画像を用紙上に印刷する画像形成装置において、文書原稿を読み取る画像読取手段と、この画像読取手段により読み取られた文書画像データの画像特徴量として、文字の割合および写真または絵である非文字の割合や、文字の散乱度および非文字の散乱度や、描画領域に対する文字および非文字の密集率を、文字や非文字についての空間的分布であるレイアウトの概略に基づいて計算する画像特徴量計算手段と、この画像特徴量計算手段により計算された前記画像特徴量を用い、近隣の構成要素の位置関係を参照して構成要素を統合していく第１のレイアウト解析が得意とする前記文書画像データの画像タイプ、あるいは、ページを大きな構成要素から小さな構成要素に分離していく第２のレイアウト解析が苦手とする前記文書画像データの画像タイプと、これら以外の前記文書画像データの画像タイプと、に前記文書画像データの画像タイプを分類識別する画像タイプ識別手段と、前記画像タイプ識別手段による画像タイプの分類結果に基づいて、前記第１のレイアウト解析と前記第２のレイアウト解析とのいずれかをレイアウト解析における領域抽出の方法として選択する選択手段と、この選択手段で選択された領域抽出の方法に基づいて、前記文書画像データを領域に分割する領域抽出手段と、を備える。

また、請求項９にかかる発明は、請求項８記載の画像形成装置において、前記画像特徴量計算手段は、前記文書画像データを矩形ブロックに排他的に分割するブロック分割手段と、分割された前記各ブロックを、当該文書画像データを構成する所定の構成要素に分類するブロック分類手段と、前記ブロックの分類結果に基づいて前記文書画像データの画像特徴量を計算する計算手段と、を備える。

また、請求項１０にかかる発明は、請求項９記載の画像形成装置において、前記ブロック分類手段は、前記ブロックから複数の異なる解像度の画像を生成する画像生成手段と、前記各解像度の画像から特徴量ベクトルを計算する特徴量ベクトル計算手段と、前記特徴量ベクトルに基づいて前記各ブロックを所定の構成要素に分類する分類手段と、を備える。

また、請求項１１にかかる発明は、請求項１０記載の画像形成装置において、前記特徴量ベクトル計算手段は、前記各解像度の画像を２値化する２値化手段と、２値画像の各々の画素について当該画素及びその近傍画素で構成する局所パターンの対応する画素の値を使って特徴を計算する画素特徴計算手段と、前記各画素について計算された特徴を画像全体にわたって加算する加算手段と、を備える。

また、請求項１２にかかる発明は、請求項１０記載の画像形成装置において、前記特徴量ベクトル計算手段は、前記各解像度の画像の各々の画素について当該画素及びその近傍画素で構成する局所パターンの対応する画素の値を使って特徴を計算する画素特徴計算手段と、前記各画素について計算された特徴を画像全体にわたって加算する加算手段と、を備える。

また、請求項１３にかかる発明は、請求項１０記載の画像形成装置において、前記分類手段は、前記特徴量ベクトル計算手段により計算された前記特徴量ベクトルを、予め計算されている文字画素の特徴量ベクトル及び非文字画素の特徴量ベクトルの線形結合に分解して、前記各ブロックを所定の構成要素に分類する。
また、請求項１４にかかる発明は、請求項８記載の画像形成装置において、前記第１のレイアウト解析は、近隣の構成要素の位置関係を参照して構成要素を統合していくボトムアップ型であり、前記第２のレイアウト解析は、ページを大きな構成要素から小さな構成要素に分離していくトップダウン型である。

また、請求項１５にかかる発明は、文書画像のレイアウト解析処理をコンピュータに実行させるプログラムであって、前記コンピュータに、文書画像データの画像特徴量として、文字の割合および写真または絵である非文字の割合や、文字の散乱度および非文字の散乱度や、描画領域に対する文字および非文字の密集率を、文字や非文字についての空間的分布であるレイアウトの概略に基づいて計算する画像特徴量計算機能と、この画像特徴量計算機能により計算された前記画像特徴量を用い、近隣の構成要素の位置関係を参照して構成要素を統合していく第１のレイアウト解析が得意とする前記文書画像データの画像タイプ、あるいは、ページを大きな構成要素から小さな構成要素に分離していく第２のレイアウト解析が苦手とする前記文書画像データの画像タイプと、これら以外の前記文書画像データの画像タイプと、に前記文書画像データの画像タイプを分類識別する画像タイプ識別機能と、前記画像タイプ識別機能による画像タイプの分類結果に基づいて、前記第１のレイアウト解析と前記第２のレイアウト解析とのいずれかをレイアウト解析における領域抽出の方法として選択する選択機能と、この選択機能で選択された領域抽出の方法に基づいて、前記文書画像データを領域に分割する領域抽出機能と、を実行させる。

また、請求項１６にかかる発明は、請求項１５記載のプログラムにおいて、前記画像特徴量計算機能は、前記文書画像データを矩形ブロックに排他的に分割するブロック分割機能と、分割された前記各ブロックを、当該文書画像データを構成する所定の構成要素に分類するブロック分類機能と、前記ブロックの分類結果に基づいて前記文書画像データの画像特徴量を計算する計算機能と、を前記コンピュータに実行させる。

また、請求項１７にかかる発明は、請求項１６記載のプログラムにおいて、前記ブロック分類機能は、前記ブロックから複数の異なる解像度の画像を生成する画像生成機能と、前記各解像度の画像から特徴量ベクトルを計算する特徴量ベクトル計算機能と、前記特徴量ベクトルに基づいて前記各ブロックを所定の構成要素に分類する分類機能と、を前記コンピュータに実行させる。

また、請求項１８にかかる発明は、請求項１７記載のプログラムにおいて、前記特徴量ベクトル計算機能は、前記各解像度の画像を２値化する２値化機能と、２値画像の各々の画素について当該画素及びその近傍画素で構成する局所パターンの対応する画素の値を使って特徴を計算する画素特徴計算機能と、前記各画素について計算された特徴を画像全体にわたって加算する加算機能と、を前記コンピュータに実行させる。

また、請求項１９にかかる発明は、請求項１７記載のプログラムにおいて、前記特徴量ベクトル計算機能は、前記各解像度の画像の各々の画素について当該画素及びその近傍画素で構成する局所パターンの対応する画素の値を使って特徴を計算する画素特徴計算機能と、前記各画素について計算された特徴を画像全体にわたって加算する加算機能と、を前記コンピュータに実行させる。

また、請求項２０にかかる発明は、請求項１７記載のプログラムにおいて、前記分類機能は、前記特徴量ベクトル計算機能により計算された前記特徴量ベクトルを、予め計算されている文字画素の特徴量ベクトル及び非文字画素の特徴量ベクトルの線形結合に分解して、前記各ブロックを所定の構成要素に分類する。
また、請求項２１にかかる発明は、請求項１５記載のプログラムにおいて、前記第１のレイアウト解析は、近隣の構成要素の位置関係を参照して構成要素を統合していくボトムアップ型であり、前記第２のレイアウト解析は、ページを大きな構成要素から小さな構成要素に分離していくトップダウン型である。

また、請求項２２にかかる発明は、文書画像のレイアウト解析処理を実行するコンピュータにおける画像処理方法であって、文書画像データの画像特徴量として、文字の割合および写真または絵である非文字の割合や、文字の散乱度および非文字の散乱度や、描画領域に対する文字および非文字の密集率を、文字や非文字についての空間的分布であるレイアウトの概略に基づいて計算する画像特徴量計算工程と、この画像特徴量計算工程により計算された前記画像特徴量を用い、近隣の構成要素の位置関係を参照して構成要素を統合していく第１のレイアウト解析が得意とする前記文書画像データの画像タイプ、あるいは、ページを大きな構成要素から小さな構成要素に分離していく第２のレイアウト解析が苦手とする前記文書画像データの画像タイプと、これら以外の前記文書画像データの画像タイプと、に前記文書画像データの画像タイプを分類識別する画像タイプ識別工程と、前記画像タイプ識別工程による画像タイプの分類結果に基づいて、前記第１のレイアウト解析と前記第２のレイアウト解析とのいずれかをレイアウト解析における領域抽出の方法として選択する選択工程と、この選択工程で選択された領域抽出の方法に基づいて、前記文書画像データを領域に分割する領域抽出工程と、を含む。

また、請求項２３にかかる発明は、請求項２２記載の画像処理方法において、前記画像特徴量計算工程は、前記文書画像データを矩形ブロックに排他的に分割するブロック分割工程と、分割された前記各ブロックを、当該文書画像データを構成する所定の構成要素に分類するブロック分類工程と、前記ブロックの分類結果に基づいて前記文書画像データの画像特徴量を計算する計算工程と、を含む。

また、請求項２４にかかる発明は、請求項２３記載の画像処理方法において、前記ブロック分類工程は、前記ブロックから複数の異なる解像度の画像を生成する画像生成工程と、前記各解像度の画像から特徴量ベクトルを計算する特徴量ベクトル計算工程と、前記特徴量ベクトルに基づいて前記各ブロックを所定の構成要素に分類する分類工程と、を含む。

また、請求項２５にかかる発明は、請求項２４記載の画像処理方法において、前記特徴量ベクトル計算工程は、前記各解像度の画像を２値化する２値化工程と、２値画像の各々の画素について当該画素及びその近傍画素で構成する局所パターンの対応する画素の値を使って特徴を計算する画素特徴計算工程と、前記各画素について計算された特徴を画像全体にわたって加算する加算工程と、を含む。

また、請求項２６にかかる発明は、請求項２４記載の画像処理方法において、前記特徴量ベクトル計算工程は、前記各解像度の画像の各々の画素について当該画素及びその近傍画素で構成する局所パターンの対応する画素の値を使って特徴を計算する画素特徴計算工程と、前記各画素について計算された特徴を画像全体にわたって加算する加算工程と、を含む。

また、請求項２７にかかる発明は、請求項２４記載の画像処理方法において、前記分類工程は、前記特徴量ベクトル計算工程により計算された前記特徴量ベクトルを、予め計算されている文字画素の特徴量ベクトル及び非文字画素の特徴量ベクトルの線形結合に分解して、前記各ブロックを所定の構成要素に分類する。
また、請求項２８にかかる発明は、請求項２２記載の画像処理方法において、前記第１のレイアウト解析は、近隣の構成要素の位置関係を参照して構成要素を統合していくボトムアップ型であり、前記第２のレイアウト解析は、ページを大きな構成要素から小さな構成要素に分離していくトップダウン型である。

請求項１にかかる発明によれば、レイアウトの概略（文字や写真・絵の大体の空間的配置や分布など）に基づいて計算された文書画像データの画像特徴量を用いて当該文書画像データの画像タイプが分類識別された後、分類結果及び画像タイプと領域抽出方法の対応規則を対応付けた情報に基づいてレイアウト解析における領域抽出の方法が選択され、選択された領域抽出の方法に基づいて文書画像データが領域に分割される。これにより、レイアウトの概略（文字や写真・絵の大体の空間的配置や文字と写真・絵の分布など）に従うことで画像のタイプを特徴付ける画像特徴量を高速に計算することができるとともに、文書画像データの画像タイプに適したレイアウト解析における領域抽出方法を選択することができるので、文書領域抽出の性能を向上させることができるという効果を奏する。

また、請求項２にかかる発明によれば、文字や写真・絵の大体の空間的配置、文字と写真・絵の分布などのレイアウトの概略をブロック単位で取得することができるので、文書画像データの画像特徴量を簡潔に計算することができるという効果を奏する。

また、請求項３にかかる発明によれば、画像の粗い特徴と細かい特徴を表す特徴を効率的に抽出することができるという効果を奏する。

また、請求項４にかかる発明によれば、文書画像データにおける黒画素と白画素の局所的配置を表す表現力の高い統計的情報を効率的に計算することができるという効果を奏する。

また、請求項５にかかる発明によれば、文書画像データにおける黒画素と白画素の局所的配置を表す表現力の高い統計的情報を効率的に計算することができるという効果を奏する。

また、請求項６にかかる発明によれば、文字や絵（非文字）の分布に応じた文書画像データの分類線形演算により簡単に行うことができるという効果を奏する。
また、請求項７にかかる発明によれば、近隣の構成要素の位置関係を参照して構成要素を統合していくボトムアップ型のレイアウト解析における領域抽出方法か、ページを大きな構成要素から小さな構成要素に分離していくトップダウン型のレイアウト解析における領域抽出方法かを選択することができるので、文書領域抽出の性能を向上させることができるという効果を奏する。

また、請求項８にかかる発明によれば、レイアウトの概略（文字や写真・絵の大体の空間的配置や分布など）に基づいて計算された文書画像データの画像特徴量を用いて当該文書画像データの画像タイプが分類識別された後、分類結果及び画像タイプと領域抽出方法の対応規則を対応付けた情報に基づいてレイアウト解析における領域抽出の方法が選択され、選択された領域抽出の方法に基づいて文書画像データが領域に分割される。これにより、レイアウトの概略（文字や写真・絵の大体の空間的配置や文字と写真・絵の分布など）に従うことで画像のタイプを特徴付ける画像特徴量を高速に計算することができるとともに、文書画像データの画像タイプに適したレイアウト解析における領域抽出方法を選択することができるので、文書領域抽出の性能を向上させることができるという効果を奏する。

また、請求項９にかかる発明によれば、文字や写真・絵の大体の空間的配置、文字と写真・絵の分布などのレイアウトの概略をブロック単位で取得することができるので、文書画像データの画像特徴量を簡潔に計算することができるという効果を奏する。

また、請求項１０にかかる発明によれば、画像の粗い特徴と細かい特徴を表す特徴を効率的に抽出することができるという効果を奏する。

また、請求項１１にかかる発明によれば、文書画像データにおける黒画素と白画素の局所的配置を表す表現力の高い統計的情報を効率的に計算することができるという効果を奏する。

また、請求項１２にかかる発明によれば、文書画像データにおける黒画素と白画素の局所的配置を表す表現力の高い統計的情報を効率的に計算することができるという効果を奏する。

また、請求項１３にかかる発明によれば、文字や絵（非文字）の分布に応じた文書画像データの分類線形演算により簡単に行うことができるという効果を奏する。
また、請求項１４にかかる発明によれば、近隣の構成要素の位置関係を参照して構成要素を統合していくボトムアップ型のレイアウト解析における領域抽出方法か、ページを大きな構成要素から小さな構成要素に分離していくトップダウン型のレイアウト解析における領域抽出方法かを選択することができるので、文書領域抽出の性能を向上させることができるという効果を奏する。

また、請求項１５にかかる発明によれば、レイアウトの概略（文字や写真・絵の大体の空間的配置や分布など）に基づいて計算された文書画像データの画像特徴量を用いて当該文書画像データの画像タイプが分類識別された後、分類結果及び画像タイプと領域抽出方法の対応規則を対応付けた情報に基づいてレイアウト解析における領域抽出の方法が選択され、選択された領域抽出の方法に基づいて文書画像データが領域に分割される。これにより、レイアウトの概略（文字や写真・絵の大体の空間的配置や文字と写真・絵の分布など）に従うことで画像のタイプを特徴付ける画像特徴量を高速に計算することができるとともに、文書画像データの画像タイプに適したレイアウト解析における領域抽出方法を選択することができるので、文書領域抽出の性能を向上させることができるという効果を奏する。

また、請求項１６にかかる発明によれば、文字や写真・絵の大体の空間的配置、文字と写真・絵の分布などのレイアウトの概略をブロック単位で取得することができるので、文書画像データの画像特徴量を簡潔に計算することができるという効果を奏する。

また、請求項１７にかかる発明によれば、画像の粗い特徴と細かい特徴を表す特徴を効率的に抽出することができるという効果を奏する。

また、請求項１８にかかる発明によれば、文書画像データにおける黒画素と白画素の局所的配置を表す表現力の高い統計的情報を効率的に計算することができるという効果を奏する。

また、請求項１９にかかる発明によれば、文書画像データにおける黒画素と白画素の局所的配置を表す表現力の高い統計的情報を効率的に計算することができるという効果を奏する。

また、請求項２０にかかる発明によれば、文字や絵（非文字）の分布に応じた文書画像データの分類線形演算により簡単に行うことができるという効果を奏する。
また、請求項２１にかかる発明によれば、近隣の構成要素の位置関係を参照して構成要素を統合していくボトムアップ型のレイアウト解析における領域抽出方法か、ページを大きな構成要素から小さな構成要素に分離していくトップダウン型のレイアウト解析における領域抽出方法かを選択することができるので、文書領域抽出の性能を向上させることができるという効果を奏する。

また、請求項２２にかかる発明によれば、レイアウトの概略（文字や写真・絵の大体の空間的配置や分布など）に基づいて計算された文書画像データの画像特徴量を用いて当該文書画像データの画像タイプが分類識別された後、分類結果及び画像タイプと領域抽出方法の対応規則を対応付けた情報に基づいてレイアウト解析における領域抽出の方法が選択され、選択された領域抽出の方法に基づいて文書画像データが領域に分割される。これにより、レイアウトの概略（文字や写真・絵の大体の空間的配置や文字と写真・絵の分布など）に従うことで画像のタイプを特徴付ける画像特徴量を高速に計算することができるとともに、文書画像データの画像タイプに適したレイアウト解析における領域抽出方法を選択することができるので、文書領域抽出の性能を向上させることができるという効果を奏する。

また、請求項２３にかかる発明によれば、文字や写真・絵の大体の空間的配置、文字と写真・絵の分布などのレイアウトの概略をブロック単位で取得することができるので、文書画像データの画像特徴量を簡潔に計算することができるという効果を奏する。

また、請求項２４にかかる発明によれば、画像の粗い特徴と細かい特徴を表す特徴を効率的に抽出することができるという効果を奏する。

また、請求項２５にかかる発明によれば、文書画像データにおける黒画素と白画素の局所的配置を表す表現力の高い統計的情報を効率的に計算することができるという効果を奏する。

また、請求項２６にかかる発明によれば、文書画像データにおける黒画素と白画素の局所的配置を表す表現力の高い統計的情報を効率的に計算することができるという効果を奏する。

また、請求項２７にかかる発明によれば、文字や絵（非文字）の分布に応じた文書画像データの分類線形演算により簡単に行うことができるという効果を奏する。
また、請求項２８にかかる発明によれば、近隣の構成要素の位置関係を参照して構成要素を統合していくボトムアップ型のレイアウト解析における領域抽出方法か、ページを大きな構成要素から小さな構成要素に分離していくトップダウン型のレイアウト解析における領域抽出方法かを選択することができるので、文書領域抽出の性能を向上させることができるという効果を奏する。

［第１の実施の形態］
本発明の第１の実施の形態を図１ないし図１１に基づいて説明する。

図１は、本発明の第１の実施の形態にかかる画像処理装置１の電気的な接続を示すブロック図である。図１に示すように、画像処理装置１は、ＰＣ（Personal Computer）などのコンピュータであり、画像処理装置１の各部を集中的に制御するＣＰＵ（Central Processing Unit）２、情報を格納するＲＯＭ（Read Only Memory）３及びＲＡＭ（Random Access Memory）４等の一次記憶装置５、データファイル（例えば、カラービットマップ画像データ）を記憶する記憶部であるＨＤＤ（Hard Disk Drive）６等の二次記憶装置７、情報を保管したり外部に情報を配布したり外部から情報を入手するためのＣＤ−ＲＯＭドライブ等のリムーバブルディスク装置８、ネットワーク９を介して外部の他のコンピュータと通信により情報を伝達するためのネットワークインターフェース１０、処理経過や結果等を操作者に表示するＣＲＴ（Cathode Ray Tube）やＬＣＤ（Liquid Crystal Display）等の表示装置１１、並びに操作者がＣＰＵ２に命令や情報等を入力するためのキーボード１２、マウス等のポインティングデバイス１３等から構成されており、これらの各部間で送受信されるデータをバスコントローラ１４が調停して動作する。

なお、本実施の形態においては、画像処理装置１として一般的なパーソナルコンピュータを適用して説明しているが、これに限るものではなく、ＰＤＡ（Personal Digital Assistants）と称される携帯用情報端末、palmTopＰＣ、携帯電話、ＰＨＳ（Personal Handyphone System）等であっても良い。

このような画像処理装置１では、ユーザが電源を投入するとＣＰＵ２がＲＯＭ３内のローダーというプログラムを起動させ、ＨＤＤ６よりオペレーティングシステムというコンピュータのハードウェアとソフトウェアとを管理するプログラムをＲＡＭ７に読み込み、このオペレーティングシステムを起動させる。このようなオペレーティングシステムは、ユーザの操作に応じてプログラムを起動したり、情報を読み込んだり、保存を行ったりする。オペレーティングシステムのうち代表的なものとしては、Ｗｉｎｄｏｗｓ（登録商標）、ＵＮＩＸ（登録商標）等が知られている。これらのオペレーティングシステム上で走る動作プログラムをアプリケーションプログラムと呼んでいる。

ここで、画像処理装置１は、アプリケーションプログラムとして、画像処理プログラムをＨＤＤ６に記憶している。この意味で、ＨＤＤ６は、画像処理プログラムを記憶する記憶媒体として機能する。

また、一般的には、画像処理装置１のＨＤＤ６等の二次記憶装置７にインストールされるアプリケーションプログラムは、ＣＤ−ＲＯＭやＤＶＤ−ＲＯＭ等の光情報記録メディアやＦＤ等の磁気メディア等の記憶媒体８ａに記録され、この記憶媒体８ａに記録されたアプリケーションプログラムがＨＤＤ６等の二次記憶装置７にインストールされる。このため、ＣＤ−ＲＯＭ等の光情報記録メディアやＦＤ等の磁気メディア等の可搬性を有する記憶媒体８ａも、画像処理プログラムを記憶する記憶媒体となり得る。さらには、画像処理プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、例えばネットワークインターフェース１０を介して外部からダウンロードさせることにより、ＨＤＤ６等の二次記憶装置７にインストールするように構成しても良い。また、本実施の形態の画像処理装置１で実行される画像処理プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。

画像処理装置１は、オペレーティングシステム上で動作する画像処理プログラムが起動すると、この画像処理プログラムに従い、ＣＰＵ２が各種の演算処理を実行して各部を集中的に制御する。画像処理装置１のＣＰＵ２が実行する各種の演算処理のうち、本実施の形態の特長的な処理であるレイアウト解析処理について以下に説明する。

なお、リアルタイム性が重要視される場合には、処理を高速化する必要がある。そのためには、論理回路（図示せず）を別途設け、論理回路の動作により各種の演算処理を実行するようにするのが望ましい。

ここで、画像処理装置１のＣＰＵ２が実行するレイアウト解析処理について説明する。図２は画像処理装置１のＣＰＵ２が実行するレイアウト解析処理にかかる機能を示す機能ブロック図、図３はその流れを概略的に示すフローチャートである。図２に示すように、画像処理装置１は、画像入力処理部２１と、画像特徴量計算部２２と、画像タイプ識別部２３と、領域抽出方法の選択部２４と、領域抽出部２５と、記憶部２６と、を備えている。以下において、各構成部の動作と作用を詳述する。

画像入力処理部２１は、画像特徴量計算手段として機能するものであって、入力された文書画像中の文書の傾きを補正する「スキュー補正」を文書画像に施したり、カラー入力の場合にモノクロのグレースケール画像に変換したりするなどの前処理を施す。

画像特徴量計算部２２は、画像全体の特徴量を出力するものである。図４は、画像特徴量計算部２２における画像特徴量計算処理の流れを概略的に示すフローチャートである。図４に示すように、まず、入力した画像を同じ大きさの矩形ブロックに排他的に分割し（ステップＳ１：ブロック分割手段）、各ブロックを、“絵”“文字”“他”の３種類のいずれかに分類する（ステップＳ２：ブロック分類手段）。次に、すべてのブロックの分類結果をもとに画像全体の画像特徴量を計算する（ステップＳ３：計算手段）。最後に、画像全体の画像特徴量を出力する（ステップＳ４）。以下において、各ステップの動作を説明する。

（１）ブロック分割（ステップＳ１）
入力画像を同じサイズのブロック、たとえば、１ｃｍ×１ｃｍ（解像度が２００ｄｐｉであれば８０画素×８０画素、解像度が３００ｄｐｉであれば１２０画素×高さ１２０画素）の矩形に分割する。

（２）ブロックの分類（ステップＳ２）
各ブロックを、“絵”“文字”“他”の３種類のいずれかに分類する。この処理のフローを図５に示し、以下において詳述する。

図５に示すように、まず、処理対象となるブロック画像を１００ｄｐｉ程度の低解像度に縮小した画像Ｉを生成するとともに（ステップＳ１１：画像生成手段）、解像度のレベル数Ｌを設定し（ステップＳ１２）、解像度縮小レベルｋを初期化（ｋ←０）する（ステップＳ１３）。このようなステップＳ１１〜Ｓ１３の処理を行うのは、図６に示すように、画像Ｉとともに、さらに低解像度化した画像からも特徴を抽出するためである。詳細は後述するが、例えば、解像度レベル数Ｌを２にした場合には、画像Ｉと、解像度が１／２の画像Ｉ₁と、解像度が１／４の画像の画像Ｉ₂との計３つの画像から特徴を抽出する。

解像度縮小レベルｋが解像度レベル数Ｌに達していない場合には（ステップＳ１４のＹｅｓ）、ステップＳ１１で生成した画像Ｉから解像度を１／２^kに縮小した画像Ｉ_k（ｋ＝０，・・・，Ｌ）を生成し（ステップＳ１５）、画像Ｉ_kを２値化する（ステップＳ１６：２値化手段）。ただし、２値画像において、黒画素は値１、白画素は値０をとるとする。

次いで、２値化した解像度が１／２^kの画像Ｉ_kから、Ｍ次元の特徴量ベクトルｆ_kを計算した後（ステップＳ１７）、解像度縮小レベルｋを“１”だけインクリメント（ｋ←ｋ＋１）する（ステップＳ１８）。

ここで、画像Ｉ_k（ｋ＝０，・・・，Ｌ）を２値化した画像から特徴を抽出する方法を述べる。自己相関関数を高次（Ｎ次）へと拡張した「高次自己相関関数（Ｎ次自己相関関数）」は、画面内の対象画像をＩ（ｒ）とすると、変位方向（Ｓ₁，Ｓ₂，…，Ｓ_N）に対して、

で定義される。ただし、和Σは画像全体の画素rについての加算である。従って、高次自己相関関数は、次数や変位方向（Ｓ₁，Ｓ₂，…，Ｓ_N）の取り方により、無数に考えられる。ここでは、簡単のため高次自己相関係数の次数Ｎを“２”までとする。また、変位方向を参照画素ｒの周りの局所的な３×３画素の領域に限定する。平行移動により等価な特徴を除くと、２値画像に対して、図７に示すように特徴の数は全部で２５個になる。各特徴の計算は、局所パターンの対応する画素の値の積を全画像に対して足し合わせればよい。例えば、「Ｎｏ．３」の局所パターンに対応する特徴は、参照画素ｒでの濃淡値とそのすぐ右隣の点での濃淡値との全画像に対する積和を取ることによって計算される。このようにして、解像度が１／２^kの画像から、Ｍ＝２５次元の特徴量ベクトルｆ_k＝（ｇ（ｋ，１），・・・，ｇ（ｋ，２５））が計算される。ここに、画素特徴計算手段の機能および加算手段の機能が実行される。

上述したようなステップＳ１５〜Ｓ１８の処理（特徴量ベクトル計算手段）は、ステップＳ１８でインクリメントされた解像度縮小レベルｋが解像度レベル数Ｌを超える迄（ステップＳ１４のＮｏ）、繰り返される。

ステップＳ１８でインクリメントされた解像度縮小レベルｋが解像度レベル数Ｌを超えた場合には（ステップＳ１４のＮｏ）、特徴量ベクトルｆ₀，・・・，ｆ_Lをもとにして、ブロックを、“絵”“文字”“他”の３種類のいずれかに分類する（ステップＳ１９：分類手段）。

ここで、ブロックの分類の方法について詳述する。まず、前述したＭ＝２５次元の特徴量ベクトルｆ_k＝（ｇ（ｋ，１），・・・，ｇ（ｋ，２５））（ｋ＝０，・・・，Ｌ）から（２５×Ｌ）次元の特徴量ベクトルｘ＝（ｇ（０，１），・・・，ｇ（０，２５），・・・，ｇ（Ｌ，１），・・・，ｇ（Ｌ，２５））を生成する。このようなブロックの特徴量ベクトルｘを用いて分類を行うためには、前もって学習を行うことが必要である。そこで、本実施の形態においては、学習用データを文字だけ含むようなものと文字を含まないようなものの２種類に分けて特徴量ベクトルｘを計算する。その後、それぞれの平均をとることによって、文字画素の特徴量ベクトルｐ₀と非文字画素の特徴量ベクトルｐ₁を前もって計算しておく。そして、分類しようとしているブロック画像から得られた特徴量ベクトルｘを、既知の特徴量ベクトルｐ₀とｐ₁の線形結合に分解すれば、その結合係数ａ₀，ａ₁が文字画素と非文字画素の比率、あるいは、ブロックの「文字らしさ」と「非文字らしさ」を表すことになる。このような分解が可能であるのは、高次局所自己相関に基づく特徴が画面内の対象の位置に不変で、しかも、対象の数に関して加法性を持つことによる。特徴量ベクトルｘの分解を、
ｘ＝ａ₀・ｐ₀＋ａ₀・ｐ₁＝Ｆ^Tａ＋ｅ
とする。ここで、ｅは誤差ベクトル、Ｆ＝［ｐ₀，ｐ₁］^T、ａ＝（ａ₀，ａ₁）^Tである。最小二乗法により、最適な結合係数ベクトルａは、
ａ＝（ＦＦ^T）^-1・Ｆｘ
で与えられる。各ブロックについて、「非文字らしさ」を表すパラメータａ₁について閾値処理することにより、そのブロックを「絵」、「絵でない」、「未定」に分類する。各ブロックについて、「未定」または「絵でない」に分類されていて、文字らしさを表すパラメータａ₀が閾値以上であれば「文字」に、そうでなければ「その他」に分類する。図８にブロック分類の例を示す。図８の例においては、黒部分は「文字」、グレイ部分は「絵」、白部分は「他」を表わしている。

（３）画像特徴量の計算（ステップＳ３）
ブロックの分類結果をもとにして、画像のタイプ分けのための画像特徴量を計算する。特に、
・文字、絵の割合
・密集率：レイアウトの混み方（狭いところに詰め込まれている度合い）
・文字、絵の散乱度：文字や写真が紙面全体に散らばって分布している度合い
を計算する。具体的には、次の５つの画像特徴量を計算する。
・文字の割合Ｒｔ∈［０，１］：全ブロックの中で「文字」に分類されたブロックの割合
・非文字の割合Ｒｐ∈［０，１］：全ブロックの中で「絵」に分類されたブロックの割合
・レイアウト密度Ｄ∈［０，１］：「文字」と「絵」のブロック数の面積の和を、描画領域の面積で割ったもの
・文字散乱度Ｓｔ（＞０）：文字ブロックのｘ，ｙ方向の空間的分布について、分散・共分散行列の行列式を、画像の面積で正規化したもの
・非文字散乱度Ｓｐ（＞０）：絵ブロックのｘ，ｙ方向の空間的分布について、分散・共分散行列の行列式を、画像の面積で正規化したもの
表１は、図８の例についての画像特徴量の計算結果を示すものである。

次に、画像タイプ識別部２３について説明する。画像タイプ識別部２３は、画像タイプ識別手段として機能するものであって、画像特徴量計算部２２で計算した画像特徴量を用い、画像のタイプを分類識別する。本実施の形態においては、画像特徴量計算部２２で計算した特徴量を用いることにより、「ボトムアップ型のレイアウト解析が得意とする、あるいは、トップダウン型のレイアウト解析が苦手とする」文書のレイアウトタイプについて、例えば線形判別関数により簡単に表現するものとする。
・絵が主体で、文字が少ないレイアウトタイプ：すなわち、Ｒｐについて単調増加し、Ｒｔについて単調減少するような判別関数
Ｒｐ−ａ₀・Ｒｔ−ａ₁＞０（ａ₀＞１）
を満たすレイアウトタイプである。より具体的には、大きな写真や絵が張り付いているもの、あるいは、小さい写真が多数張り付いているものがこのタイプに分類される。
・レイアウト密度が祖（単純な構造）なレイアウトタイプ：ＤとＲｔについて単調減少するような判別関数
−Ｄ−ｂ₀・Ｒｔ＋ｂ₁＞０（ｂ₀，ｂ₁＞０）
を満たすレイアウトタイプである。より具体的には、込み入っていない、単純な構造を持つものがこのタイプに判別される。大きな絵や写真が張り付いているようなものは、レイアウト密度が高くなるので、このタイプには多くは現れない。
・文字が少なく、ページ全体に散らばっているようなレイアウトタイプ（非構造化文書）：Ｒｔについて単調減少し、Ｓｔについて単調増加するような判別関数
Ｓｔ−ｃ₀・Ｒｔ−ｃ₁＞０（ｃ₀＞０）
を満たすレイアウトタイプである。より具体的には、写真や絵が占める割合がそれほど多くなくても、文字が写真の絵の説明に添えられているようなものがこのタイプに分類される。
表２は、図８の例についてのタイプ識別例を示すものである。

次に、領域抽出方法の選択部２４について説明する。領域抽出方法の選択部２４は、画像タイプ識別部２３における画像のタイプ分類の結果に基づいて、レイアウト解析における領域抽出の方法を選択する。例えば、図９に示すような画像タイプと領域抽出方法の対応規則を記憶手段である記憶部２６に保持しておき、この画像タイプと領域抽出方法の対応規則に従って領域抽出方法を選択するようにすれば良い。具体的には、図９に示すような対応規則においては、「レイアウト密度が疎（単純な構造）なレイアウトタイプ」に分類された場合には（図８の（ｃ）（ｆ）が該当）、トップダウン型の領域抽出方法を選択する。「文字が少なく、ページ全体に散らばっている（非構造化文書）レイアウトタイプ」に分類された場合には（図８の（ａ）が該当）、ボトムアップ型の領域抽出方法を選択する。「絵が主体で、文字が少ないレイアウトタイプ」に分類された場合には（図８の（ｄ）が該当）、ボトムアップ型の領域抽出方法を選択する。どれにも当てはまらない場合には（図８の（ｂ）（ｅ）が該当）、トップダウン型の領域抽出方法を選択する。

このようにして選択された領域抽出方法にしたがってパラメータが変更される。なお、複数の領域抽出方法が選択されるような場合には、例えばレイアウトタイプに優先順位を付しておき、優先順位が高いレイアウトタイプについての領域抽出方法を優先する。

領域抽出部２５は、領域抽出手段として機能するものであって、領域抽出方法の選択部２４で選択された領域抽出の方法に基づいて、文書画像データを領域に分割する。

ここで、画像処理装置１のＣＰＵ２が実行するトップダウン型の領域抽出方法によるレイアウト解析処理について簡単に説明する。レイアウト解析処理が施される画像データは、一般性を失うことなく、スキュー補正された２値画像が与えられていて、文字が黒画素として表されているとする。なお、原画像がカラー画像やグレイ画像の場合には、２値化などにより文字を抽出する前処理を施せばよい。本実施の形態におけるトップダウン型の領域抽出方法によるレイアウト解析処理の基本的アプローチは、図１０に示すように、祖から密への再帰的分離による階層的処理を行うことにより、処理の効率化を図るようにしたものである。概略的には、まず、ページ全体に対して極大白矩形系列抽出の終了条件の下限値を大きく設定して、粗いスケールで処理する。この段階で、抽出された白矩形系列をセパレータとしてページ全体をいくつかの領域に分離する。次に、各領域について極大白矩形系列抽出の終了条件の下限値を前よりも小さく設定して、再び極大白矩形系列抽出を行い、より細かな分離を行う。このような処理を再帰的に繰り返してゆく。なお、階層的処理における極大白矩形系列抽出の終了条件である下限値は、領域のサイズなどに応じて設定するようにすれば良い。また、極大白矩形系列抽出の終了条件である下限値の他に、白矩形として望ましい形やサイズに関する拘束条件を導入するようにしても良い。例えば、領域のセパレータとして適当でない形をした白矩形を除外する等である。このように領域のセパレータとして適当でない形をした白矩形を除外するのは、長さが短いものや幅が狭すぎるものは、文字の間の隙間である可能性が高いからである。このような長さや幅について拘束条件は、領域内で推定される文字のサイズに応じて決めることができる。このようなトップダウン型の領域抽出方法によるレイアウト解析処理については、本出願人による特願２００５−０００７６９などに詳述されている。

なお、トップダウン型の領域抽出方法によるレイアウト解析処理については、上述したものに限るものではない。

一方、ボトムアップ型の領域抽出方法によるレイアウト解析方法については、特許文献１、２に記載されている方法などが適用可能であり、その説明は省略する。

ここで、図１１は図８の（ｂ）についての領域抽出の結果を示すものである。（ａ）はトップダウン型の領域抽出方法によるレイアウト解析方法による文字領域の領域抽出結果であり、（ｂ）は写真領域の抽出結果である。

このように本実施の形態によれば、レイアウトの概略（文字や写真・絵の大体の空間的配置や分布など）に基づいて計算された文書画像データの画像特徴量を用いて当該文書画像データの画像タイプが分類識別された後、分類結果及び画像タイプと領域抽出方法の対応規則を対応付けた情報に基づいてレイアウト解析における領域抽出の方法が選択され、選択された領域抽出の方法に基づいて文書画像データが領域に分割される。これにより、レイアウトの概略（文字や写真・絵の大体の空間的配置や文字と写真・絵の分布など）に従うことで画像のタイプを特徴付ける画像特徴量を高速に計算することができるとともに、文書画像データの画像タイプに適したレイアウト解析における領域抽出方法を選択することができるので、文書領域抽出の性能を向上させることができる。

なお、本実施の形態の「（２）ブロックの分類（ステップＳ２）」においては、ブロックから計算された（２５×Ｌ）次元の特徴量ベクトルｘについて、行列Ｆを用いて、ブロックの文字らしさと非文字らしさを表す係数成分から成る係数ベクトルａを計算したが、これに限るものではない。例えば、学習データから計算された特徴量ベクトルｘと、学習データに付属した教師信号（文字か、文字でないか）を用いた教師つき学習を前もって行い、識別関数を構築しておくようにしても良い。例えば、学習や識別関数は、線形判別分析と線形判別関数、ニューラルネットワークの誤差逆伝播とネットワークの重み係数などの既知のものを用いればよい。分類すべきブロックで計算された特徴量ベクトルｘについて、予め計算されておいた識別関数を用いて、ブロックを“絵”“文字”“他”のいずれかに分類する。

また、本実施の形態の「（２）ブロックの分類（ステップＳ２）」においては、２値画像から特徴を抽出するようにしたが、２値画像ではなく、多値画像から特徴を抽出するようにしても良い。この場合、３×３近傍の局所パターンの数は３５になる。これは、図７に示した局所パターンに加えて、１次自己相関において注目画素自身の濃淡値の２乗、２次自己相関において注目画素自身の濃淡値の３乗、８近傍の画素のそれぞれについて近傍画素の濃淡値の２乗と注目画素の濃淡値の積、合計１０個の相関値を計算しなければならないからである。２値画像では、濃淡値が１または０だけなので、濃淡値を２乗、３乗しても、もとの値と変わらないが、多値画像ではこれらのケースを考慮しなければならない。

そして、これに応じて，特徴量ｆｋの次元もＭ＝３５になり、特徴量ベクトルｆ_k＝（ｇ（ｋ，１），ｇ（ｋ，１），・・・，ｇ（ｋ，３５））が計算される。また、ブロックの分類においても、（３５×Ｌ）次元の特徴量ベクトルｘ＝（ｇ（０，１），・・・，ｇ（０，２５），・・・，ｇ（Ｌ，１），・・・，ｇ（Ｌ，２５））を用いる。

［第２の実施の形態］
次に、本発明の第２の実施の形態を図１２に基づいて説明する。なお、前述した第１の実施の形態と同じ部分は同じ符号で示し説明も省略する。

第１の実施の形態においては、画像処理装置１としてＰＣなどのコンピュータを適用したが、本実施の形態は、画像処理装置１としてデジタル複合機などに備えられる情報処理装置を適用したものである。

図１２は、本発明の第２の実施の形態にかかるデジタル複合機５０を示す外観斜視図である。図１２に示すように、画像読取手段であるスキャナ部５１及び画像印刷装置であるプリンタ部５２を備えた画像形成装置であるデジタル複合機５０に備えられる情報処理装置に画像処理装置１を適用し、デジタル複合機５０のスキャナ部５１で読み取ったスキャン画像に対してレイアウト解析処理を施すようにしたものである。

この場合、以下に示す３つの態様が考えられる。
１．スキャナ部５１におけるスキャン時に、画像タイプ識別部２３における画像タイプ識別処理まで実行し、画像データのヘッダに画像タイプ情報として記録する。
２．スキャナ部５１におけるスキャン時には特に何もせず、データ配信時またはデータ蓄積時に、領域抽出部２５による領域抽出処理まで行う。
３．スキャナ部５１におけるスキャン時に、領域抽出部２５による領域抽出処理まで行う。

［第３の実施の形態］
次に、本発明の第３の実施の形態を図１３に基づいて説明する。なお、前述した第１の実施の形態と同じ部分は同じ符号で示し説明も省略する。

第１の実施の形態においては、画像処理装置１としてローカルなシステム（例えば、パーソナルコンピュータ単体）を適用したが、本実施の形態は、画像処理装置１としてサーバクライアントシステムを構成するサーバコンピュータを適用したものである。

図１３は、本発明の第３の実施の形態にかかるサーバクライアントシステムを示す模式図である。図１３に示すように、サーバコンピュータＳにネットワークＮを介してクライアントコンピュータＣが複数台接続されたサーバクライアントシステムを適用しており、各クライアントコンピュータＣからサーバコンピュータＳに対して画像を送信し、サーバコンピュータＳ（画像処理装置１）において画像に対してレイアウト解析処理を施すようにしたものである。また、ネットワークＮ上には、ネットワークスキャナＮＳが設けられている。

この場合、以下に示す３つの態様が考えられる。
１．ネットワークスキャナＮＳを用いたサーバコンピュータＳ（画像処理装置１）によるスキャン時に、画像タイプ識別部２３における画像タイプ識別処理まで実行し、画像データのヘッダに画像タイプ情報として記録する。
２．ネットワークスキャナＮＳを用いたサーバコンピュータＳ（画像処理装置１）によるスキャン時には特に何もせず、データ配信時またはデータ蓄積時に、領域抽出部２５による領域抽出処理まで行う。
３．ネットワークスキャナＮＳを用いたサーバコンピュータＳ（画像処理装置１）によるスキャン時に、領域抽出部２５による領域抽出処理まで行う。

本発明の第１の実施の形態にかかる画像処理装置の電気的な接続を示すブロック図である。画像処理装置のＣＰＵが実行するレイアウト解析処理にかかる機能を示す機能ブロック図である。その流れを概略的に示すフローチャートである。画像特徴計算部における画像特徴量計算処理の流れを概略的に示すフローチャートである。ブロック分類処理の流れを概略的に示すフローチャートである。多重解像度処理を示す模式図である。高次自己相関関数計算のためのマスクパターンの一例を示す模式図である。ブロック分類の例を示す模式図である。画像タイプと領域抽出方法の対応規則の一例を示すフローチャートである。トップダウン型の領域抽出方法によるレイアウト解析処理の基本的アプローチを示す模式図である。図８の（ｂ）についての領域抽出の結果を示す模式図である。本発明の第２の実施の形態にかかるデジタル複合機を示す外観斜視図である。本発明の第３の実施の形態にかかるサーバクライアントシステムを示す模式図である。

符号の説明

１画像処理装置
２２画像特徴量計算手段
２３画像タイプ識別手段
２４選択手段
２５領域抽出手段
２６記憶手段
５０画像形成装置
５１画像読取手段

Claims

文書画像のレイアウト解析処理を行う画像処理装置において、
文書画像データの画像特徴量として、文字の割合および写真または絵である非文字の割合や、文字の散乱度および非文字の散乱度や、描画領域に対する文字および非文字の密集率を、文字や非文字についての空間的分布であるレイアウトの概略に基づいて計算する画像特徴量計算手段と、
この画像特徴量計算手段により計算された前記画像特徴量を用い、近隣の構成要素の位置関係を参照して構成要素を統合していく第１のレイアウト解析が得意とする前記文書画像データの画像タイプ、あるいは、ページを大きな構成要素から小さな構成要素に分離していく第２のレイアウト解析が苦手とする前記文書画像データの画像タイプと、これら以外の前記文書画像データの画像タイプと、に前記文書画像データの画像タイプを分類識別する画像タイプ識別手段と、
前記画像タイプ識別手段による画像タイプの分類結果に基づいて、前記第１のレイアウト解析と前記第２のレイアウト解析とのいずれかをレイアウト解析における領域抽出の方法として選択する選択手段と、
この選択手段で選択された領域抽出の方法に基づいて、前記文書画像データを領域に分割する領域抽出手段と、
を備えることを特徴とする画像処理装置。
前記画像特徴量計算手段は、
前記文書画像データを矩形ブロックに排他的に分割するブロック分割手段と、
分割された前記各ブロックを、当該文書画像データを構成する所定の構成要素に分類するブロック分類手段と、
前記ブロックの分類結果に基づいて前記文書画像データの画像特徴量を計算する計算手段と、
を備えることを特徴とする請求項１記載の画像処理装置。
前記ブロック分類手段は、
前記ブロックから複数の異なる解像度の画像を生成する画像生成手段と、
前記各解像度の画像から特徴量ベクトルを計算する特徴量ベクトル計算手段と、
前記特徴量ベクトルに基づいて前記各ブロックを所定の構成要素に分類する分類手段と、
を備えることを特徴とする請求項２記載の画像処理装置。
前記特徴量ベクトル計算手段は、
前記各解像度の画像を２値化する２値化手段と、
２値画像の各々の画素について当該画素及びその近傍画素で構成する局所パターンの対応する画素の値を使って特徴を計算する画素特徴計算手段と、
前記各画素について計算された特徴を画像全体にわたって加算する加算手段と、
を備えることを特徴とする請求項３記載の画像処理装置。
前記特徴量ベクトル計算手段は、
前記各解像度の画像の各々の画素について当該画素及びその近傍画素で構成する局所パターンの対応する画素の値を使って特徴を計算する画素特徴計算手段と、
前記各画素について計算された特徴を画像全体にわたって加算する加算手段と、
を備えることを特徴とする請求項３記載の画像処理装置。
前記分類手段は、前記特徴量ベクトル計算手段により計算された前記特徴量ベクトルを、予め計算されている文字画素の特徴量ベクトル及び非文字画素の特徴量ベクトルの線形結合に分解して、前記各ブロックを所定の構成要素に分類する、
ことを特徴とする請求項３記載の画像処理装置。
前記第１のレイアウト解析は、近隣の構成要素の位置関係を参照して構成要素を統合していくボトムアップ型であり、
前記第２のレイアウト解析は、ページを大きな構成要素から小さな構成要素に分離していくトップダウン型である、
ことを特徴とする請求項１記載の画像処理装置。
画像を用紙上に印刷する画像形成装置において、
文書原稿を読み取る画像読取手段と、
この画像読取手段により読み取られた文書画像データの画像特徴量として、文字の割合および写真または絵である非文字の割合や、文字の散乱度および非文字の散乱度や、描画領域に対する文字および非文字の密集率を、文字や非文字についての空間的分布であるレイアウトの概略に基づいて計算する画像特徴量計算手段と、
この画像特徴量計算手段により計算された前記画像特徴量を用い、近隣の構成要素の位置関係を参照して構成要素を統合していく第１のレイアウト解析が得意とする前記文書画像データの画像タイプ、あるいは、ページを大きな構成要素から小さな構成要素に分離していく第２のレイアウト解析が苦手とする前記文書画像データの画像タイプと、これら以外の前記文書画像データの画像タイプと、に前記文書画像データの画像タイプを分類識別する画像タイプ識別手段と、
前記画像タイプ識別手段による画像タイプの分類結果に基づいて、前記第１のレイアウト解析と前記第２のレイアウト解析とのいずれかをレイアウト解析における領域抽出の方法として選択する選択手段と、
この選択手段で選択された領域抽出の方法に基づいて、前記文書画像データを領域に分割する領域抽出手段と、
を備えることを特徴とする画像形成装置。
前記画像特徴量計算手段は、
前記文書画像データを矩形ブロックに排他的に分割するブロック分割手段と、
分割された前記各ブロックを、当該文書画像データを構成する所定の構成要素に分類するブロック分類手段と、
前記ブロックの分類結果に基づいて前記文書画像データの画像特徴量を計算する計算手段と、
を備えることを特徴とする請求項８記載の画像形成装置。
前記ブロック分類手段は、
前記ブロックから複数の異なる解像度の画像を生成する画像生成手段と、
前記各解像度の画像から特徴量ベクトルを計算する特徴量ベクトル計算手段と、
前記特徴量ベクトルに基づいて前記各ブロックを所定の構成要素に分類する分類手段と、
を備えることを特徴とする請求項９記載の画像形成装置。
前記特徴量ベクトル計算手段は、
前記各解像度の画像を２値化する２値化手段と、
２値画像の各々の画素について当該画素及びその近傍画素で構成する局所パターンの対応する画素の値を使って特徴を計算する画素特徴計算手段と、
前記各画素について計算された特徴を画像全体にわたって加算する加算手段と、
を備えることを特徴とする請求項１０記載の画像形成装置。
前記特徴量ベクトル計算手段は、
前記各解像度の画像の各々の画素について当該画素及びその近傍画素で構成する局所パターンの対応する画素の値を使って特徴を計算する画素特徴計算手段と、
前記各画素について計算された特徴を画像全体にわたって加算する加算手段と、
を備えることを特徴とする請求項１０記載の画像形成装置。
前記分類手段は、前記特徴量ベクトル計算手段により計算された前記特徴量ベクトルを、予め計算されている文字画素の特徴量ベクトル及び非文字画素の特徴量ベクトルの線形結合に分解して、前記各ブロックを所定の構成要素に分類する、
ことを特徴とする請求項１０記載の画像形成装置。
前記第１のレイアウト解析は、近隣の構成要素の位置関係を参照して構成要素を統合していくボトムアップ型であり、
前記第２のレイアウト解析は、ページを大きな構成要素から小さな構成要素に分離していくトップダウン型である、
ことを特徴とする請求項８記載の画像形成装置。
文書画像のレイアウト解析処理をコンピュータに実行させるプログラムであって、前記コンピュータに、
文書画像データの画像特徴量として、文字の割合および写真または絵である非文字の割合や、文字の散乱度および非文字の散乱度や、描画領域に対する文字および非文字の密集率を、文字や非文字についての空間的分布であるレイアウトの概略に基づいて計算する画像特徴量計算機能と、
この画像特徴量計算機能により計算された前記画像特徴量を用い、近隣の構成要素の位置関係を参照して構成要素を統合していく第１のレイアウト解析が得意とする前記文書画像データの画像タイプ、あるいは、ページを大きな構成要素から小さな構成要素に分離していく第２のレイアウト解析が苦手とする前記文書画像データの画像タイプと、これら以外の前記文書画像データの画像タイプと、に前記文書画像データの画像タイプを分類識別する画像タイプ識別機能と、
前記画像タイプ識別機能による画像タイプの分類結果に基づいて、前記第１のレイアウト解析と前記第２のレイアウト解析とのいずれかをレイアウト解析における領域抽出の方法として選択する選択機能と、
この選択機能で選択された領域抽出の方法に基づいて、前記文書画像データを領域に分割する領域抽出機能と、
を実行させることを特徴とするプログラム。
前記画像特徴量計算機能は、
前記文書画像データを矩形ブロックに排他的に分割するブロック分割機能と、
分割された前記各ブロックを、当該文書画像データを構成する所定の構成要素に分類するブロック分類機能と、
前記ブロックの分類結果に基づいて前記文書画像データの画像特徴量を計算する計算機能と、
を前記コンピュータに実行させることを特徴とする請求項１５記載のプログラム。
前記ブロック分類機能は、
前記ブロックから複数の異なる解像度の画像を生成する画像生成機能と、
前記各解像度の画像から特徴量ベクトルを計算する特徴量ベクトル計算機能と、
前記特徴量ベクトルに基づいて前記各ブロックを所定の構成要素に分類する分類機能と、
を前記コンピュータに実行させることを特徴とする請求項１６記載のプログラム。
前記特徴量ベクトル計算機能は、
前記各解像度の画像を２値化する２値化機能と、
２値画像の各々の画素について当該画素及びその近傍画素で構成する局所パターンの対応する画素の値を使って特徴を計算する画素特徴計算機能と、
前記各画素について計算された特徴を画像全体にわたって加算する加算機能と、
を前記コンピュータに実行させることを特徴とする請求項１７記載のプログラム。
前記特徴量ベクトル計算機能は、
前記各解像度の画像の各々の画素について当該画素及びその近傍画素で構成する局所パターンの対応する画素の値を使って特徴を計算する画素特徴計算機能と、
前記各画素について計算された特徴を画像全体にわたって加算する加算機能と、
を前記コンピュータに実行させることを特徴とする請求項１７記載のプログラム。
前記分類機能は、前記特徴量ベクトル計算機能により計算された前記特徴量ベクトルを、予め計算されている文字画素の特徴量ベクトル及び非文字画素の特徴量ベクトルの線形結合に分解して、前記各ブロックを所定の構成要素に分類する、
ことを特徴とする請求項１７記載のプログラム。
前記第１のレイアウト解析は、近隣の構成要素の位置関係を参照して構成要素を統合していくボトムアップ型であり、
前記第２のレイアウト解析は、ページを大きな構成要素から小さな構成要素に分離していくトップダウン型である、
ことを特徴とする請求項１５記載のプログラム。
文書画像のレイアウト解析処理を実行するコンピュータにおける画像処理方法であって、
文書画像データの画像特徴量として、文字の割合および写真または絵である非文字の割合や、文字の散乱度および非文字の散乱度や、描画領域に対する文字および非文字の密集率を、文字や非文字についての空間的分布であるレイアウトの概略に基づいて計算する画像特徴量計算工程と、
この画像特徴量計算工程により計算された前記画像特徴量を用い、近隣の構成要素の位置関係を参照して構成要素を統合していく第１のレイアウト解析が得意とする前記文書画像データの画像タイプ、あるいは、ページを大きな構成要素から小さな構成要素に分離していく第２のレイアウト解析が苦手とする前記文書画像データの画像タイプと、これら以外の前記文書画像データの画像タイプと、に前記文書画像データの画像タイプを分類識別する画像タイプ識別工程と、
前記画像タイプ識別工程による画像タイプの分類結果に基づいて、前記第１のレイアウト解析と前記第２のレイアウト解析とのいずれかをレイアウト解析における領域抽出の方法として選択する選択工程と、
この選択工程で選択された領域抽出の方法に基づいて、前記文書画像データを領域に分割する領域抽出工程と、
を含むことを特徴とする画像処理方法。
前記画像特徴量計算工程は、
前記文書画像データを矩形ブロックに排他的に分割するブロック分割工程と、
分割された前記各ブロックを、当該文書画像データを構成する所定の構成要素に分類するブロック分類工程と、
前記ブロックの分類結果に基づいて前記文書画像データの画像特徴量を計算する計算工程と、
を含むことを特徴とする請求項２２記載の画像処理方法。
前記ブロック分類工程は、
前記ブロックから複数の異なる解像度の画像を生成する画像生成工程と、
前記各解像度の画像から特徴量ベクトルを計算する特徴量ベクトル計算工程と、
前記特徴量ベクトルに基づいて前記各ブロックを所定の構成要素に分類する分類工程と、
を含むことを特徴とする請求項２３記載の画像処理方法。
前記特徴量ベクトル計算工程は、
前記各解像度の画像を２値化する２値化工程と、
２値画像の各々の画素について当該画素及びその近傍画素で構成する局所パターンの対応する画素の値を使って特徴を計算する画素特徴計算工程と、
前記各画素について計算された特徴を画像全体にわたって加算する加算工程と、
を含むことを特徴とする請求項２４記載の画像処理方法。
前記特徴量ベクトル計算工程は、
前記各解像度の画像の各々の画素について当該画素及びその近傍画素で構成する局所パターンの対応する画素の値を使って特徴を計算する画素特徴計算工程と、
前記各画素について計算された特徴を画像全体にわたって加算する加算工程と、
を含むことを特徴とする請求項２４記載の画像処理方法。
前記分類工程は、前記特徴量ベクトル計算工程により計算された前記特徴量ベクトルを、予め計算されている文字画素の特徴量ベクトル及び非文字画素の特徴量ベクトルの線形結合に分解して、前記各ブロックを所定の構成要素に分類する、
ことを特徴とする請求項２４記載の画像処理方法。
前記第１のレイアウト解析は、近隣の構成要素の位置関係を参照して構成要素を統合していくボトムアップ型であり、
前記第２のレイアウト解析は、ページを大きな構成要素から小さな構成要素に分離していくトップダウン型である、
ことを特徴とする請求項２２記載の画像処理方法。