JP4859054B2

JP4859054B2 - 画像処理装置、画像処理方法、プログラムおよび記録媒体

Info

Publication number: JP4859054B2
Application number: JP2007039787A
Authority: JP
Inventors: 幸二小林; 浩久稲本; 酉華木原
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2007-02-20
Filing date: 2007-02-20
Publication date: 2012-01-18
Anticipated expiration: 2027-02-20
Also published as: JP2008204184A

Description

本発明は、文書画像の文書タイプを認識および／または自動分類する画像処理装置、画像処理方法、プログラムおよび記録媒体に関し、例えば、複写機の複合機（ＭＦＰ（ＭｕｌｔｉＦｕｎｃｔｉｏｎＰｒｉｎｔｅｒ））、ファイルサーバ、画像処理プログラムなどに好適な技術に関する。

紙文書をスキャナなどの入力デバイスを使用して電子化する例えば電子ファイリングなどの装置があるが、専ら紙文書を大量に扱う業務用途として使用されていた。近年、スキャナの低価格化やスキャン機能を搭載したＭＦＰの普及やｅ−文書法などの法制化により、オフィスでもそのハンドリングの良さや利便性が認知され、紙文書が電子化されている。一方では、電子化された文書画像データや写真画像データ、ＰＣなどのアプリケーションによって作成された文書データなどをデータベース（以下ＤＢ）化して一元管理する画像ＤＢの利用も増大している。例えば紙文書の原本を保存する必要があっても管理や検索のし易さから、画像ＤＢを構築する場合もある。

上記した画像ＤＢは、サーバ装置を設置して多数のユーザがアクセスする大規模なものから、個人のＰＣ内にＤＢを構築するパーソナル用途まで様々であり、例えば、近年のＭＦＰは内蔵のＨＤＤに文書を蓄積する機能が備えられ、ＭＦＰをベースとした画像ＤＢが構築されている。

このような文書画像ＤＢにおいて、大量の文書画像から所望の文書画像を検索するために検索機能を備えたものがある。文書画像における現在主流の検索機能は、ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅａｄｅｒ）処理した文字認識結果をキーワードとして全文検索、または概念検索等を行うのが一般的である。しかし、このようなテキストベースの検索においては、
（１）ＯＣＲの精度に依存する
（２）検索キーワードが必要
（３）ヒット数が多い場合に絞り込みが困難
という問題点がある。

上記（１）については、ＯＣＲにより１００％の正解を得ることは現状では不可能であるため、入力した検索キーワードの部分にＯＣＲのミスがあればヒットしないという問題が生じる。上記（２）については、テキストベースの検索は、例えば、インターネットのＨＰを検索するような未知のものを検索する場合や、そのキーワードが明らかな場合には有効性が高いが、例えば数年前に入力した記憶が曖昧な文書を検索するような場合には、適切なキーワードが思い浮かばなければ検索することができない。また、ページ全体が写真やグラフィクスで文章が存在しない場合には当然ながら検索することができない。上記（３）については、テキストベースの検索は順位付けが困難であるため、キーワードにヒットしたものは同格に扱われる。そのため、ヒット数が多い場合、ヒットした多数の文書画像を一つ一つ確認する必要があり、ユーザビリティが悪い。

そこで、テキストベース検索の問題を改善する手法として、テキストベース検索と異なるアプローチによる検索手法がある。この検索手法は、文書画像を複数のカテゴリに分類して徐々に文書画像を絞り込む手法であり、あるいは付与されたカテゴリ属性とテキストベースの検索との連携により画像を検索する、文書画像分類（文書画像の属性付与）という方法である。

文書画像分類は、例えばユーザが文書画像を登録する際に、所望の文書カテゴリ属性を付与し、ユーザの分類体系に基づいて文書画像を分類する。この分類方法は、個々のユーザにとって理想的な分類カテゴリを得る方法であるが、多量の文書画像を登録する際の処理が煩雑であり、またユーザの作業負担が大きいことから、専門のオペレータが作業を行う場合を除いては一般的ではない。

例えば、ＭＦＰのスキャン機能を使用し、スキャンした文書にカテゴリ属性を付与する場合に、ＭＦＰの操作パネル上で行うが、一文書毎にスキャニング作業を中断し、カテゴリ名を入力しなければならず作業効率が悪い。別な方法として、全ての文書をスキャニングした後、各々の文書にカテゴリ属性を付与する方法もあるが、それぞれの文書を確認する必要があり、ユーザの作業負担が大きい。

このような問題を解決する手段として、文書画像を自動分類する技術がある。文書画像の自動分類は、ユーザの理想的な分類カテゴリが得られ難いが、ユーザの負担が大幅に軽減され、またテキストベース検索の問題が解決できることから、文書画像の検索手法として有効な手段である。

文書画像の自動分類（もしくは文書画像への自動属性付与）の技術としては、例えば特許文献１がある。特許文献１では、スキャンされた文書画像を、属性の等しい矩形領域に分割し、各領域の属性を判定するレイアウト解析処理を行い、レイアウトの特徴（各ブロックの属性、その大きさ等）を認識することで、文書画像を、表や帳票文書、写真文書、及びその他の文書の何れかの文書に自動分類する。

また、他の例として特許文献２がある。特許文献２では、入力文書画像を圧縮し２値の圧縮画像とし、２値の圧縮画像の黒画素連結成分に外接する矩形を抽出し、その矩形を文字矩形とそれ以外の矩形に分類し、それぞれの矩形の統合により文字領域やその他の領域を抽出して属性の等しい領域を、文章領域、表領域、罫線、図領域、写真領域等の矩形領域に分割してレイアウト解析を行い、これらの領域の種類と数に関する情報を属性として文書画像を分類する。

特開２００１−１０１２１３号公報特開２００３−１７８０７１号公報

しかし、上記したレイアウト解析処理による文書画像の自動分類手法には、以下のような問題がある。
（１）カギ形のように領域の形状が複雑である場合や、領域が重なり合って込み入っている場合など、領域を精度よく抽出することが難しい。
（２）領域属性を誤って識別（分類、属性判定）した場合の回復手段がない。

つまり、上記従来技術のように、レイアウト解析による矩形領域情報を基に文書画像を自動分類する手法は、上記したような誤った識別（分類判定）が避けられない。

例えば、「帳票」カテゴリに分類されるべき文書画像が入力され、文書画像の表領域が図領域として誤って識別された場合、文書画像を正しく「帳票」として分類することができない。また、チラシ等のように込み入ったレイアウトに対して、正しく領域を判定できない場合には、領域の形状を誤って識別するだけではなく、領域の属性も誤って判定し、その結果、文書画像を誤って分類することになる。このように誤分類された文書画像を検索しても正しい検索結果が得られず、また検索に時間がかかり、検索効率が悪化する。

上記した手法では、特に表や図形等に使用されている線画を主体とした領域を誤って判定する。一般的に罫線の判定は、前掲した特許文献２のように、２値化した画像の黒画素連結成分（黒ラン）の長さによって判定する方法を用いているが、この方法では、スキャン画像の２値化時に線が途切れることにより、誤判定を引き起こし、精度に問題がある。また、属性の等しい画像領域を一つのまとまった領域として検出する場合の一般的な手法では、前掲した特許文献２のように、領域の外接矩形を検出するために、同一画像を複数回走査しなければならず、一回の走査による処理、つまり例えば画像を左上からラスタ走査するに従って処理が進み、画像の右下に達すると処理が終了するような処理が難しく、処理時間がかかり、複雑な処理を必要とする。また文書画像毎に処理時間が異なるため、処理時間の予測が難しい。

本発明は上記した問題点に鑑みてなされたもので、
本発明の目的は、処理時間を短縮すると共に、処理を簡単化しつつ、画像の文書タイプを高精度に識別し、自動的に分類する画像処理装置、画像処理方法、プログラムおよび記録媒体を提供することにある。

本発明は、画像の文書タイプを識別する画像処理装置であって、前記画像の所定領域の複数画素に対して周波数変換を行い、複数の周波数変換係数を出力し、前記複数の周波数変換係数の内、線成分と非線成分の差が所定値以上である場合に、前記所定領域を線画領域と識別する局所領域識別手段と、前記局所領域識別手段により識別された線画識別結果から特徴量を算出する特徴量算出手段と、前記特徴量に応じて前記画像の文書タイプを識別する文書タイプ識別手段を備えたことを最も主要な特徴とする。

（１）スキャン画像のようなビットマップ画像の文書タイプを識別する画像処理装置、方法において、局所領域毎に線画か否かを識別し、局所領域識別結果から特徴量を算出し、算出された特徴量に基づいて文書タイプを識別し文書分類を行うので、複雑なレイアウト形状を持つ文書画像においても、精度良く文書タイプの識別が可能であり、レイアウト解析の領域識別のように画像を複数回走査する必要がなく、一度の走査で実現できるため、処理コスト（処理時間が短縮され、複雑な処理を必要としない）を低減することができ、かつ処理時間を予測しやすく使い勝手の良い処理を実現できる。
（２）局所領域毎に線画／文字を識別するように構成し、特徴量の次元を増やしているため、識別の精度が向上する。
（３）局所領域毎に線画／文字／写真を識別するように構成し、特徴量の次元を増やしているため、識別の精度が向上すると共に写真を含む文書タイプのカテゴリを識別できる。
（４）周波数変換を行うことによって、線画等の局所領域を識別する際に特定の周波数係数へ電力を集中させることが可能となり局所領域の識別精度が向上する。
（５）文書タイプ属性を識別する際に、複数の識別手段を並列に使用して識別結果に重複を許すことにより識別の精度が向上するとともに、ユーザの主観が異なるような画像を検索する場合にも文書タイプ識別を用いた分類表示によって検索が可能となる。

以下、発明の実施の形態について図面により詳細に説明する。

実施例１：
図１は、本発明の実施例１のシステム構成を示す。図１において、１００はパーソナルコンピュータ（以下ＰＣ）、ＰＤＡや携帯電話などのモバイル端末などのクライアント装置である。１０１はモニタなどの表示デバイス、１０２はユーザ指示の解釈、サーバ装置１１０との通信、表示デバイス１０１の制御を行うアプリケーションプログラム、１０３はユーザからの指示入力手段であるキーボードやマウスなどの入力デバイス、１０４はＬＡＮやインターネットなどの外部通信路である。

１１０は画像データを蓄積するデータベース（以下ＤＢ）を有し、入力された画像データの文書タイプを識別し、ＤＢへ文書画像およびその属性情報を登録し、クライアント装置１００からのコマンドに応じて表示画面を生成してクライアント装置１００へ出力するサーバ装置、１１１は外部通信路１０４とのインターフェース（以下Ｉ／Ｆ）、１１２は画像ＤＢ１１４へ登録する登録画像データ、１１３は登録画像１１２を所定サイズ以下に変倍してサムネイル画像を生成するサムネイル生成処理部、１１４は登録画像１１２の画像データ、登録画像１１２のサムネイル画像データを蓄積する画像ＤＢ、１１５は登録画像１１２の画像データについて文書タイプを識別する文書タイプ識別処理部、１１７は画像ＤＢ１１４へ登録されている画像データ毎の情報を蓄積する画像情報ＤＢである。ここで情報とは、例えば、登録画像データのファイル名、作成日、画像データとの紐付け情報（紐付け情報とは例えば、画像ＤＢ１１４に蓄積されるとき、各画像データ固有に付されたＩＤやファイル名など）、文書タイプ（属性）などを言う。

１１８はクライアント装置１００へ表示するための表示画面を生成し、かつ画面制御データ１２０の内容に応じて表示画面を制御する表示画面制御処理部、１１９はクライアント装置１００の表示デバイス１０１上へ表示するための表示画面データ、１２０はクライアント装置１００によって指定され、入力される画面制御データである。図中の点線は、画像登録時のデータの流れを表し、実線は表示画面の生成時のデータの流れを表している。

図２は、サーバ装置１１０／クライアント１００装置の構成を示す。図２において、２０１はプログラムに応じた演算や処理を行うＣＰＵ、２０２はプログラムのコードや画像の符号データなどのデータを一時的に記憶、保持するワーク領域として使用される揮発性のメモリ、２０３は画像データやプログラムなどを保存、蓄積するためのハードディスク（以下ＨＤＤ）であり、画像ＤＢ１１４、画像情報ＤＢ１１７を保持する。２０４はモニタ２０５へ表示するためのデータバッファであるビデオメモリである。ビデオメモリ２０４に書き込まれた画像データは、定期的にモニタ２０５へ表示される。２０６はマウスやキーボードなどの入力デバイス、２０７はインターネットやＬＡＮなどの外部通信路１０４を介してデータを送受信する外部Ｉ／Ｆ、２０８は各々の構成要素を接続するバスである。

本実施例では、サーバ装置１１０がサーバコンピュータにより構成され、表示画面生成などの処理がソフトウェによって実現する例を示す。すなわち、サーバ内の処理は図示しないアプリケーションプログラムによって実現される。本発明の実施形態はこれに限定されず、ＭＦＰなどの装置内にハードウェアによって処理を行うように構成しても良いし、また、サーバ、クライアント構成を採らずに、例えば１つのＰＣやＭＦＰなどの機器内に、図１を構成するようにしても良い。

以下、本実施例の動作概要を説明する。実施例１のシステムは、大別すると二つの動作に分かれている。一つは文書画像の登録動作であり、他の一つは所望の文書画像を検索し、閲覧し、取得（サーバからのダウンロード）する「ＤＢ内の文書画像を利用する」動作である。文書画像の利用においては、まず所望の文書画像を検索し、その後、アプリケーションのビューアーを使用して画像を閲覧し、ユーザのＰＣ内へ蓄積する。以下、本実施例の文書画像登録時の動作と、文書画像の検索動作を説明する。

図３は、文書画像登録時の動作フローチャートを示す。図１（破線は登録時の動作を示す）、図３を参照して文書画像登録動作を説明する。

ステップＳ００１において、ユーザは、クライアント装置１００からアプリケーションプログラム１０２を介してサーバ装置１１０へ画像データの登録の指示と登録する登録画像データ１１２を指示する。

ステップＳ００２において、登録画像データ１１２は、外部通信路１０４を介してサーバ装置１１０へファイル名、作成日等のファイル情報と共に入力され、外部Ｉ／Ｆ１１１を経由して画像ＤＢ１１４へＩＤ番号が付与されて登録される。同時に、サムネイル生成処理部１１３は登録画像１１２を変倍処理して所定サイズ以下のサムネイル画像を生成し、画像ＤＢ１１４へＩＤ番号を付与して登録する。登録画像データ１１２が複数ページの画像データの場合には、ページ単位でサムネイルを生成する。

ステップＳ００３において、登録画像データ１１２は、後述する文書タイプ識別処理部１１５へ入力され、文書タイプ属性が識別される。識別された文書タイプ属性は、以下の画像情報データと共に画像情報ＤＢ１１７へ登録される。
・ファイル名、作成日
・画像データＩＤ
・サムネイル画像データＩＤ
・文書タイプ属性
なお、画像情報ＤＢ１１７は、一般的なＲＤＢ（リレーショナルデータベース）を使用することにより、情報の登録、管理、検索などの処理を簡易に実現できる。また、画像ＤＢ１１４、画像情報ＤＢ１１７は上述の機能を満たせば、同じＤＢに例えばＸＭＬ（ｅＸｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇａｇｅ）などの言語を使用し、階層的なデータ構造などを構築して蓄積しても良く、また、異なるサーバ毎にそれぞれＤＢとして蓄積してもよい。画像登録は、スキャナやデジタルカメラなどの画像入力装置から直接、画像データをサーバ装置１１０へ登録するようにしても良い。

図４は、実施例１の文書タイプ識別処理部１１５の構成を示す。３０１は、入力された登録画像１１２に対して、後段処理の処理量（処理コスト）を低減し、局所領域識別処理部３０３の精度を向上するための画像処理を行う前処理部である。例えば、画素数を減らして処理コストを低減する処理としては、カラー画像のグレー画像への変換処理、縮小変倍処理等があり、精度向上の処理としては、画像のトーンカーブを補正するγ補正処理、例えばデバイス固有の色空間を標準色空間へ変換を行う色補正処理、画像のＭＴＦを補正する空間フィルタ処理、所定の解像度への変換処理（変倍処理と同様）等がある。

３０２は、複数の画素を実空間から周波数空間へ変換する周波数変換処理部である。画像の周波数変換処理は、離散フーリエ変換（ＤＦＴ）、離散コサイン（ＤＣＴ）、離散ウェーブレット変換（ＤＷＴ）等種々の方法があるが、本実施例では一例としてＪＰＥＧ圧縮等で使用されている離散コサイン変換（以下ＤＣＴ）を縦横８画素の６４画素単位に行うものとする。ＤＣＴは式１により実現される。

Ｎ＝８：ブロック内水平（垂直）画素数
ｕ，ｖ＝０，１，〜Ｎ−１：ブロック内ＤＣＴ係数座標
ｘ，ｙ＝０，１，〜Ｎ−１：ブロック内画素座
ｆ（ｘ，ｙ）＝入力画素値
Ｆ（ｕ，ｖ）＝ＤＣＴ係数値

３０３は、周波数変換処理部３０２から出力されるＤＣＴ係数を基にして、線画か否かを識別する局所領域識別処理部、３０４は、線画の識別結果（オン／オフ）により構成される識別結果画像、３０５は、線画の識別結果画像３０４から特徴量を算出する特徴量算出処理部、３０６は、特徴量算出処理部３０５で算出された特徴量に基づいて登録画像１１２の文書タイプ属性を識別するタイプ属性識別処理部、３０７は、識別された文書タイプ属性情報である。

登録画像１１２に対して、前処理部３０１は所定の前処理を行う。本実施例では、一例として（１）処理コスト低減のために、入力画像がカラー画像の場合、グレー画像へ変換するグレー画像変換処理を行い、（２）処理コスト低減と後段の局所領域識別処理の精度向上のための解像度変換処理が行われる。
（１）グレー画像変換処理は、カラー画像が入力された場合、画像データ量を１／３に低減する処理であり、処理コストが低減される。変換方法は種々の方法があるが、入力される登録画像１１２がＲ（ｅｄ）Ｇ（ｒｅｅｎ）Ｂ（ｌｕｅ）画像の場合は、輝度Ｙへ変換する。ＲＧＢから輝度Ｙへの変換式は、式２で表される。
Ｙ＝０．２９９Ｒ＋０．５８７Ｇ＋０．１１４Ｂ式２
但し、Ｙ：輝度
Ｒ：Ｒｅｄ画素値
Ｇ：Ｇｒｅｅｎ画素値
Ｂ：Ｂｌｕｅ画素値
なお、簡易的に式３を使用しても良い。
Ｙ＝（Ｒ＋２Ｇ＋Ｂ）／４式３
（２）解像度変換処理は、周波数変換処理部３０２が行う周波数変換時に出力される周波数変換係数（ＤＣＴ係数）の周波数を統一する目的で実施する。本実施例で示すように、８ｘ８画素の領域固定で周波数変換を行う場合、登録画像１１２の解像度が異なる場合に、出力される空間周波数も異なるものになるため、予め前処理部３０１において周波数変換処理部３０２へ入力される画像解像度を統一することにより、全体として処理コストが低減される。なお、解像度変換を実施しなくても周波数変換処理部３０２で登録画像１１２の解像度に応じて周波数変換に使用する領域面積（画素数）を変更しても同様の効果が得られる。

また、解像度は周波数変換に使用する領域面積に応じて決定することが望ましい。本実施例では、８ｘ８画素分の領域面積において、線画を文字と区別して抽出する必要がある。このため、解像度が高すぎると文字の辺や棒部分を線画として誤識別する可能性が高くなり、逆に、解像度が低すぎると、例えば表部分等の線画と文字部分が結合してしまうため、線画を誤識別する可能性が高くなる。

また、解像度変換処理、いわゆる画像の拡大、縮小処理についても、ニアレストネイバー法、線形補間法、キュービックコンボリューション法等種々の方法があるが、特に画像を縮小する場合は、細線画像が途切れたりしないように間引き処理を行わない、線形補間法等が好適である。線形補間法は画像のＭＴＦが落ちるので、解像度変換実施後に空間フィルタ処理等でＭＴＦ補正を行っても良い。

次に、周波数変換処理部３０２において、縦横８画素の計６４画素を使用して、式１に示すようなＤＣＴを行い、６４個のＤＣＴ変換係数を出力する。局所領域識別処理部３０８では、ＤＣＴ係数から、８ｘ８画素領域が線画か否かを識別する。

ＤＣＴ係数を使用した局所領域識別手法について、以下説明する。図５は、式１のＤＣＴ係数であるＦ（ｕ，ｖ）を２次元上に配置した図であり、縦線、横線、斜め線が入力された場合の、ＤＣＴ係数の電力が集中する主な係数を黒で塗りつぶして示す。座標（０，０）は、直流（ＤＣ）成分を表す。

図５（ａ）は、縦線画像が入力された場合に集中するＤＣＴ係数であり、便宜上、縦線成分とする。図５（ｂ）は、横線画像に対応し横線成分、図５（ｃ）は、斜め線画像に対応し斜め線成分とする。各図のＤＣ成分以外の白塗り部分を各々、非縦線、非横線、非斜め線成分とする。

図５に示すように、ＤＣＴ係数は、入力画像に対して電力の集中する係数がほぼ予想できる性質を有し、非線成分は低い値を示す。このような性質を使って、ＤＣＴ係数から線画とそれ以外を識別することが可能となる。

具体的には、図１３のフローチャートに示すように、各線成分、非線成分に対する「ＤＣＴ係数の絶対値」の合計値、または最大値を予め算出し、縦、横、斜め線各々で線成分、非線成分の差を所定値と比較して（ステップ２１〜２３）、その差が所定値以上のとき、線画と識別する。

また、他の方法として、サポート・ベクタ・マシン（以下ＳＶＭ）等の学習機械を使用して、ＤＣ成分以外の交流（ＡＣ）成分の絶対値を特徴量として入力し、予め線画から算出されるＤＣＴ係数を学習させたモデルを使用することによって線画とそれ以外を識別する。なお、このような性質は他の周波数変換方法でも同様の性質を示す。例えば、周波数変換処理にＤＷＴを使用し、ＤＷＴ係数を使用して局所領域識別を行っても同様の識別が可能である。

図６（ａ）は帳票の登録画像１１２を示し、（ｂ）は登録画像１１２に対する線画識別結果画像（局所領域識別結果）３０４を示す。図６（ｂ）では、線画部分を黒、それ以外の部分を白の２値画像として表した。また、図６は、入力画像を縦横８画素のＤＣＴを行った矩形領域単位に、局所領域識別を行った例を示す。従って、識別結果の画像は、周波数変換処理部３０２に入力される画像と比較して、縦横１／８のサイズである。

このように、矩形領域の複数画素により周波数変換処理を使用した局所領域識別を行う場合に、識別単位を矩形単位で行うか、画素単位で行うかは求める精度によって異なる。本実施例のように、矩形領域単位に処理を行えば、処理量が大幅に低減され処理コストを下げることができるが、画素単位に識別する処理（つまり、ＤＣＴを行う画素をオーバーラップさせて注目画素単位にＤＣＴを行い、画素単位に識別結果を出力する。線画識別結果画像３０４は、周波数変換処理部３０２に入力された画像と等しい大きさになる）と比較して精度が低い。

次いで、特徴量算出処理部３０５は、線画識別結果画像３０４から特徴量を算出する。画像特徴量としては、画像のモーメントやテクスチャ、エッジ量などがあり、また、算出手法として、画像をいくつかの領域に区切って各々の領域毎に特徴量を算出する。画像の配置情報を特徴量とすることも可能である。

本実施例では、高次局所自己相関特徴量を使用した例を示す。２値画像に対して、高次局所自己相関特徴量を使用する場合、図７に示す２５種類の３×３の局所パターンに対して、各々のパターン毎に特徴量が算出される。つまり、２５次元の特徴量が算出される。各特徴量の計算は、局所パターンの対応する画素値の積（図７のパターンの“１”に対応する画素の積であり、２値画像の場合、局所パターンの“１”に対応する画素の論理積となる）を全画素に対して走査し、足し合わせることにより実現される。ただし、算出される特徴量が画像サイズの影響を受けるので、サイズの異なる画像が登録画像１１２に入力される場合は、正規化する。このようにして、局所領域識別処理３０３で識別された線画識別結果が２５次元の特徴量へ変換される。

２５次元の特徴量がタイプ属性識別処理部３０６へ入力され、タイプ属性識別処理部３０６は、登録画像１１２の文書タイプ属性３０７を識別する。本実施例のタイプ属性識別処理部３０６は、一例として「帳票」、「図面」、「その他」の文書タイプを識別する。

タイプ属性識別処理部３０６が文書タイプ属性を識別するには、入力された２５次元の特徴量から、「帳票」、「図面」における特徴量に着目して識別すれば良い。図８は、帳票、図面、論文の各文書画像を入力した場合の特徴量を表したグラフである。図８の各グラフは、各々の文書タイプの特徴的な傾向を示す。すなわち、
・帳票は、Ｎｏ３、Ｎｏ６の次元の特徴量が多く、Ｎｏ１０〜Ｎｏ２５までの次元の特徴量も少ないながらもある。
・図面は、帳票の特徴量に比べて全体的に特徴量が多い（数値が高い）。
・論文は、帳票、図面の特徴量に比べて全体的に特徴量が少ない（数値が低い）。

従って、これらの特徴を使用することにより、「帳票」、「図面」を識別することができる。識別は、特徴量の値を比較することにより、あるいは所定のしきい値を超えているか否かのしきい値処理などにより行う。

図９は、タイプ属性識別処理部３０６のフローチャートである。ステップＳ０１１において、特徴量Ｎｏ２〜Ｎｏ２５の合計値を算出し、所定のしきい値以下か否かを比較する。所定値以下である場合は、「その他」属性を選択する。

ステップＳ０１２において、特徴量Ｎｏ２〜Ｎｏ２５の合計値が所定値より大きい場合は、特徴量Ｎｏ３＋Ｎｏ６とＮｏ４＋Ｎｏ５の比率が所定値以下か否か比較し、所定値以下の場合は、「図面」属性を選択し、所定値より大きな場合は「帳票」属性を選択する。

また、他の方法として、ＳＶＭ等の学習機械を使用して、２５次元の特徴量を入力し、予め学習させたモデルを使用することによって文書タイプを識別しても良い。

以上の処理により、実施例１の文書タイプ識別処理が完了し、登録画像１１２の文書タイプ属性が識別される。

図１０は、文書タイプ識別処理による文書分類処理を使用して文書画像を検索するときの動作フローチャートである。

ステップＳ１０１において、ユーザは、クライアント装置１００において、アプリケーションプログラム１０２を使用して、文書分類をサーバ装置１１０へ指示する。このときの指示手段は、例えば図１１に示すようなサムネイル一覧の表示画面をクライアント装置１００の表示デバイス１０１上へ表示する。

図１１において、４０１は文書分類による表示画面を指示する分類ラジオボタン、４０２はサムネイル表示を指示するサムネイルラジオボタン、４０３は画像を表示するフレーム、４０４は画像のサムネイルである。複数の画像サムネイル４０４がフレーム４０３上に表示され、一般的な画像ＤＢで使用されるサムネイルが一覧で表示されている。通常、画像ＤＢ１１４には多数の画像が登録されているが、一度に表示できない画像サムネイルは、フレームに上下のスライダを設けてスクロールして画像を閲覧したり、ページ送り機能を設けて表示画像群を変更することにより閲覧する。

ユーザは、入力デバイス１０３のマウス等のポインティングデバイスを使用して分類ラジオボタン４０１をクリックすることによって、サーバ側に文書分類指示である画面制御データ１２０が外部通信路１０４を介して転送される。

ステップＳ１０２において、サーバ装置１１０は、文書分類指示である画面制御データ１２０を受信すると、表示画面制御処理部１１８は、画面情報ＤＢ１１７の文書タイプ識別データ（以下分類カテゴリ）毎の文書画像数の集計等を行い、表示画面のレイアウトや表示する文書画像データを決定する。

次いで、画像ＤＢ１１４より、表示する文書画像データまたは文書画像データのサムネイルを入力し、分類結果の表示画面１１９を生成し、外部Ｉ／Ｆ１１１より外部通信路１０４を経由してクライアント装置１００へ送信する。

図１２は、分類結果の表示画面の一例を示す。図１２の「帳票」、「図面」などの文字はカテゴリを表す。４１１は分類カテゴリを表し、３つのカテゴリに分類した例を示す。また、４１１の楕円の大きさは各カテゴリ内に含まれる文書数を模式的に表し（文書数を数字で直接表すようにしても良い）、カテゴリ内のサムネイルは、各カテゴリに含まれる文書画像によるものである。ここで表示される画像サムネイルは、画像ＤＢ１１４に登録されている画像数が少ない場合には全ての画像を表示し、そうでない場合には各カテゴリ内のいくつかの代表画像を表示する。このように表示画像数を絞ることによってクライアント装置１００での表示時間や外部転送路を介した転送時間、サーバ装置１１０での処理時間が共に短縮される。処理速度が十分得られる場合には、全ての画像を重ね合わせたり、スライダを設ける等して表示しても良い。

上記したような表示画面の作成方法やサーバクライアント間の通信方法には種々の手法があるが、一般的によく使用される手法としてサーバ装置１１０をＷｅｂサーバとしてＷｏｒｌｄＷｉｄｅＷｅｂベースの技術を使用することにより実現可能となる。そして、表示画面１１９はＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇａｇｅ）によって記述され、アプリケーション１０２は一般的なＷｅｂブラウザを使用すれば良い。

ステップＳ１０３において、クライアント装置１００では、表示デバイス１０１上に表示画面１１９を表示する。

ステップＳ１０４において、ユーザは、検索している文書画像に近いカテゴリを、入力デバイス１０３を使用して選択し、選択したカテゴリデータをサーバ装置１１０へ送信する。例えば、ここでは図１２の「帳票」のカテゴリを選択したとする。選択方法としては、カテゴリ内をマウス等のポインティングデバイスでクリックすることによりカテゴリを選択する。また、カテゴリ毎に選択／非選択を可能とし、複数のカテゴリを選択可能なように構成することも可能である。

ステップＳ１０５において、サーバ装置１１０は、カテゴリ内の選択指示を表示画面制御処理部１１８で受信し、図１１に示すように、選択されたカテゴリ（帳票カテゴリ）内のサムネイル一覧の表示画面を作成し、クライアント装置１００へ送信する。

ステップＳ１０６において、クライアント装置１００では、表示デバイス１０１上に、図１１に示す表示画面１２０を表示する。

このように文書タイプを識別し、文書タイプを分類表示することにより、ユーザは、文書画像登録数の多い画像ＤＢにおいても画像の概観等の特徴を確認しながら検索対象画像を絞り込むことができる。

以上説明したように本実施例によれば、ビットマップ画像の文書タイプを識別する画像処理装置、方法において、局所領域毎に線画か否かを識別し、局所領域の識別結果から特徴量を算出し、算出された特徴量に基づいて文書タイプを識別し文書分類を行うので、複雑なレイアウト形状を持つ文書画像においても、精度良く文書タイプの識別が可能であり、レイアウト解析の領域識別のように画像を複数回走査する必要がなく、一回の走査により実現できるので、処理コストが低減され、かつ処理時間が予測しやすく使い勝手の良い処理が実現できる。

実施例２：
実施例２では、局所領域識別処理部３０３において線画を識別すると共に、文字画像を識別し、文書タイプ属性の精度を向上させる実施例である。実施例２のシステム構成は実施例１と同様である。

文字画像のＤＣＴ係数は、線画のそれと比較して、複数の線成分が含まれている。図１４は、実施例２の局所領域識別処理部３０３のフローチャートを示す。実施例１では、線成分と非線成分の差が所定値以上である場合に、線画と識別したが、実施例２では、予めＡＣ成分の最大値を算出し、最大値が所定値以下である場合には（ステップＳ０３１でｙｅｓ）、「その他」とし、最大値が所定値以下ではなく（ステップＳ０３１でｎｏ）、線成分と非線成分の差が所定値以上の場合は（ステップＳ０３２でｙｅｓ）、「線画」とし、すべての線成分と非線成分の差が所定値以上ではない場合には（ステップＳ０３３、Ｓ０３４でｎｏ）、「文字」とする。なお、実施例１の場合と同様にＳＶＭ等の学習機械を使用しても良い。

実施例２の局所領域識別処理部３０３において、「線画」、「文字」を識別するため、識別結果画像は、線画識別結果画像と文字識別結果画像の２種類となる。図６（ｃ）は、実施例２における文字識別結果画像を示す。線画識別結果画像は、実施例１の場合と同様の結果になる。

実施例２では、各々の識別結果画像３０４に対して、特徴量算出処理部３０５は、実施例１の場合と同様に特徴量を算出する。例えば、高次局所自己相関特徴量を算出する場合には、線画識別結果画像から２５次元の特徴量が算出され、文字識別結果画像から２５次元の特徴量が算出され、これら５０次元の特徴量がタイプ属性識別処理部３０６へ入力される。

実施例２では、一例として、入力された登録画像１１２を「帳票」、「図面」、「書籍」、「その他」の４種類の属性を識別する例を示す。図１５は、実施例２のタイプ属性識別処理部３０６の構成を示す。実施例２では、タイプ属性識別処理をＳＶＭ等の学習機械を用いた識別器により識別する例を示す。

図１５において、５０１は特徴量算出処理部３０５より出力される５０次元の特徴量、５０２は入力された特徴量５０１に基づいて文書属性タイプが帳票か否かを識別する帳票識別器、５０３は予め帳票画像の学習データによる特徴量を基に学習され、作成された帳票モデル、５０４は帳票か否かの識別結果、５０５は入力された特徴量５０１に基づいて文書属性タイプが図面か否かを識別する図面識別器、５０６は予め図面画像の学習データによる特徴量を基に学習され、作成された図面モデル、５０７は図面か否かの識別結果、５０８は入力された特徴量５０１に基づいて文書属性タイプが書籍か否かを識別する書籍識別器、５０９は予め書籍画像の学習データによる特徴量を基に学習され、作成された書籍モデル、５１０は書籍か否かの識別結果である。

ＳＶＭは、多次元の特徴量を空間射影して識別平面を自動的に作成し、カーネルと呼ばれる識別関数を使用して識別を行う識別器である。実際に識別を行うためには、予め学習データを使用して学習させ、学習結果のモデリングを行う必要がある。学習結果のモデリング結果はモデルと呼ばれるファイルに格納されることになる。学習の際には、実際に識別に使用する「特徴量」と「識別結果の正解」の組を用意して学習させる。一度学習させることにより、後はモデルファイルを使用して識別するのみで高速な識別が可能となる。本実施例では、帳票、図面、書籍の学習結果を各々のモデルファイル５０３、５０６、５０９に格納している。

以下、実施例２のタイプ属性識別処理部３０６の動作を説明する。特徴量算出処理部３０５から出力される５０次元の特徴量を帳票識別器５０２、図面識別器５０５、書籍識別器５０８へ各々入力し、各モデル５０３、５０６、５０９を使用して各々識別し、識別結果を各々出力する。すべての識別結果が否（オフ）の場合には、「その他」属性が選択されたことになる。文書タイプ属性は、通常１つの登録画像について１つの属性が付与されるが、例えばユーザが画像を識別し、分類する場合でも、どのような属性を付与すべきか迷うことがある。このようなユーザの主観が分かれるような場合に、分類表示を使用して画像を検索すると、ユーザの主観と識別結果が異なり、ユーザが望むような検索結果が得られない。

そこで、予め、ユーザの主観が分かれるような画像の場合は、複数の属性を付与しておき、ユーザがどちらのカテゴリを選択しても検索対象文書にヒットするように構成することが望ましい。

これを実現するには、学習の際にタイプ属性を重複させるべき学習データを用意して学習させることが必要となる。図１６は、重複データの学習を説明する図である。図１６の矩形６０１は画像を表し、６０２、６０３は同一属性のカテゴリを表す。すなわち、図１６のモデルは、特徴量を使用して、２次元上に画像をマッピングした場合の各画像がマップ上にとり得る位置を表している。図１６の黒い画像６０４（以下、重複画像）は、帳票、図面の両方のカテゴリ６０２、６０３に含まれている。これらを学習する際に、帳票モデル５０３の学習時に帳票を正解として学習させ、図面モデル５０６の学習時に図面を正解として学習させる。このように、帳票データを重複して学習させることにより、帳票とも図面とも判然としない画像が帳票、図面の双方に識別されることになる。

なお、通常、書籍等の文書画像は複数ページで入力される場合が多いが、本実施例のようにページ単位に処理を行い、ページ単位に識別し、最終的に識別されたタイプ属性が多いものを複数ページの文書画像の代表文書タイプ属性とする。また、各ページと複数ページの属性を異ならせて、「ページ単位の表示画面」を生成する場合と「文書単位の表示画面」を生成する場合とに、使い分けしても良い。

以上、説明したように本実施例によれば、局所領域毎に線画／文字／その他を識別するように構成し、特徴量の次元を増やしているため、識別の精度が向上する。また、タイプ属性を識別する際に、複数の識別器を並列に使用して識別結果に重複を許すことによって識別の精度が向上することに加えて、ユーザの主観が分かれるような画像を検索する場合にも、文書タイプ識別を用いた分類表示によって検索が可能となる。

実施例３：
実施例３は、局所領域識別処理部３０３において線画、文字画像を識別すると共に、写真画像を識別し、文書タイプ属性の精度を向上させる実施例である。実施例３のシステム構成も実施例１と同様である。

写真画像のＤＣＴ係数は、線画や文字画像のそれと比較して、基本的にＡＣ成分の電力が弱く、ＤＣＴ係数の電力が比較的広い範囲に分布している。図１７は、実施例３の局所領域識別処理部のフローチャートを示す。実施例３では、ＡＣ成分の最大値と第１のしきい値を比較し、ＡＣ成分の最大値が第１のしきい値以下のとき（ステップＳ０４１でｙｅｓ）、「その他」と識別し、ＡＣ成分の最大値が第１のしきい値以下ではなく（ステップＳ０４１でｎｏ）、ＡＣ成分の最大値が第２のしきい値以下のとき（ステップＳ０４２でｙｅｓ）、「写真」と識別する。

実施例３の局所領域識別処理部３０３において、「線画」、「文字」、「写真」を識別するため、識別結果画像は、線画識別結果画像、文字識別結果画像、写真識別結果画像の３種類となり、各々の識別結果画像３０４に対して、特徴量算出処理部３０５は実施例２と同様に特徴量を算出する。例えば、高次局所自己相関特徴量を算出する場合を例にとると、７５次元の特徴量が算出され、タイプ属性識別処理部３０６へ入力される。タイプ属性識別処理部３０６では、７５次元の特徴量を使用して、実施例２と同様に複数の識別器を使用して複数の文書タイプを識別する。

実施例３では、局所領域識別処理部３０３において写真画像を識別しているので、カタログやチラシ等の文字と写真が含まれている文書タイプや写真のみの画像等を識別できる。

以上、説明したように本実施例によれば、局所領域毎に線画／文字／写真／その他を識別するように構成し、特徴量の次元を増やしているため、識別の精度が向上すると共に写真を含む文書タイプのカテゴリの識別が可能となる。

本発明の実施例１のシステム構成を示す。サーバ装置／クライアント装置の構成を示す。文書画像登録時の動作フローチャートを示す。文書タイプ識別処理部の構成を示す。ＤＣＴ係数の分布を示す。局所領域識別出力の結果を示す。高次局所自己相関用のパターンを示す。帳票、図面、論文の各画像の特徴量を示す。実施例１のタイプ属性識別処理部のフローチャートである。実施例１の文書画像検索時の動作フローチャートである。サムネイル一覧表示画面の例を示す。分類表示の例を示す。実施例１の局所領域識別処理部のフローチャートである。実施例２の局所領域識別処理部のフローチャートである。実施例２のタイプ属性識別処理部の構成を示す。重複データの学習を説明する図である。実施例３の局所領域識別処理部のフローチャートである。

符号の説明

１００クライアント装置
１０１表示デバイス
１０２アプリケーションプログラム
１０３入力デバイス
１０４外部通信路
１１０サーバ装置
１１１外部インターフェース
１１２登録画像データ
１１３サムネイル生成処理部
１１４画像ＤＢ
１１５文書タイプ識別処理部
１１７画像情報ＤＢ
１１８表示画面制御処理部
１１９表示画面データ
１２０画面制御データ

Claims

画像の文書タイプを識別する画像処理装置であって、前記画像の所定領域の複数画素に対して周波数変換を行い、複数の周波数変換係数を出力し、前記複数の周波数変換係数の内、線成分と非線成分の差が所定値以上である場合に、前記所定領域を線画領域と識別する局所領域識別手段と、前記局所領域識別手段により識別された線画識別結果から特徴量を算出する特徴量算出手段と、前記特徴量に応じて前記画像の文書タイプを識別する文書タイプ識別手段を備えたことを特徴とする画像処理装置。
画像の文書タイプを識別する画像処理装置であって、前記画像の所定領域の複数画素に対して周波数変換を行い、複数の周波数変換係数を出力し、前記複数の周波数変換係数の内、交流成分の最大値が所定値以下ではなく、線成分と非線成分の差が所定値以上の場合に、前記所定領域を線画領域と識別し、前記線成分と非線成分の差が所定値以上ではない場合に、前記所定領域を文字領域と識別する局所領域識別手段と、前記局所領域識別手段により識別された線画識別結果および文字識別結果から特徴量を算出する特徴量算出手段と、前記特徴量に応じて前記画像の文書タイプを識別する文書タイプ識別手段を備えたことを特徴とする画像処理装置。
画像の文書タイプを識別する画像処理装置であって、前記画像の所定領域の複数画素に対して周波数変換を行い、複数の周波数変換係数を出力し、前記複数の周波数変換係数の内、交流成分の最大値が第１の閾値以下ではなく、第２の閾値以下の場合に、前記所定領域を写真領域と識別し、前記交流成分の最大値が第２の閾値以下ではなく、線成分と非線成分の差が所定値以上の場合に、前記所定領域を線画領域と識別し、前記線成分と非線成分の差が所定値以上ではない場合に、前記所定領域を文字領域と識別する局所領域識別手段と、前記局所領域識別手段により識別された線画識別結果、文字識別結果および写真識別結果から特徴量を算出する特徴量算出手段と、前記特徴量に応じて前記画像の文書タイプを識別する文書タイプ識別手段を備えたことを特徴とする画像処理装置。
画像の文書タイプを識別する画像処理方法であって、前記画像の所定領域の複数画素に対して周波数変換を行い、複数の周波数変換係数を出力し、前記複数の周波数変換係数の内、線成分と非線成分の差が所定値以上である場合に、前記所定領域を線画領域と識別する局所領域識別工程と、前記局所領域識別工程により識別された線画識別結果から特徴量を算出する特徴量算出工程と、前記特徴量に応じて前記画像の文書タイプを識別する文書タイプ識別工程を有することを特徴とする画像処理方法。
画像の文書タイプを識別する画像処理方法であって、前記画像の所定領域の複数画素に対して周波数変換を行い、複数の周波数変換係数を出力し、前記複数の周波数変換係数の内、交流成分の最大値が所定値以下ではなく、線成分と非線成分の差が所定値以上の場合に、前記所定領域を線画領域と識別し、前記線成分と非線成分の差が所定値以上ではない場合に、前記所定領域を文字領域と識別する局所領域識別工程と、前記局所領域識別工程により識別された線画識別結果および文字識別結果から特徴量を算出する特徴量算出工程と、前記特徴量に応じて前記画像の文書タイプを識別する文書タイプ識別工程を有することを特徴とする画像処理方法。
画像の文書タイプを識別する画像処理方法であって、前記画像の所定領域の複数画素に対して周波数変換を行い、複数の周波数変換係数を出力し、前記複数の周波数変換係数の内、交流成分の最大値が第１の閾値以下ではなく、第２の閾値以下の場合に、前記所定領域を写真領域と識別し、前記交流成分の最大値が第２の閾値以下ではなく、線成分と非線成分の差が所定値以上の場合に、前記所定領域を線画領域と識別し、前記線成分と非線成分の差が所定値以上ではない場合に、前記所定領域を文字領域と識別する局所領域識別工程と、前記局所領域識別工程により識別された線画識別結果、文字識別結果および写真識別結果から特徴量を算出する特徴量算出工程と、前記特徴量に応じて前記画像の文書タイプを識別する文書タイプ識別工程を有することを特徴とする画像処理方法。
請求項４乃至６のいずれか１項に記載の画像処理方法をコンピュータに実現させるためのプログラム。
請求項４乃至６のいずれか１項に記載の画像処理方法をコンピュータに実現させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。