JP4859054B2 - 画像処理装置、画像処理方法、プログラムおよび記録媒体 - Google Patents

画像処理装置、画像処理方法、プログラムおよび記録媒体 Download PDF

Info

Publication number
JP4859054B2
JP4859054B2 JP2007039787A JP2007039787A JP4859054B2 JP 4859054 B2 JP4859054 B2 JP 4859054B2 JP 2007039787 A JP2007039787 A JP 2007039787A JP 2007039787 A JP2007039787 A JP 2007039787A JP 4859054 B2 JP4859054 B2 JP 4859054B2
Authority
JP
Japan
Prior art keywords
image
identifying
component
frequency conversion
document type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007039787A
Other languages
English (en)
Other versions
JP2008204184A (ja
Inventor
幸二 小林
浩久 稲本
酉華 木原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2007039787A priority Critical patent/JP4859054B2/ja
Publication of JP2008204184A publication Critical patent/JP2008204184A/ja
Application granted granted Critical
Publication of JP4859054B2 publication Critical patent/JP4859054B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Image Analysis (AREA)

Description

本発明は、文書画像の文書タイプを認識および/または自動分類する画像処理装置、画像処理方法、プログラムおよび記録媒体に関し、例えば、複写機の複合機(MFP(Multi Function Printer))、ファイルサーバ、画像処理プログラムなどに好適な技術に関する。
紙文書をスキャナなどの入力デバイスを使用して電子化する例えば電子ファイリングなどの装置があるが、専ら紙文書を大量に扱う業務用途として使用されていた。近年、スキャナの低価格化やスキャン機能を搭載したMFPの普及やe−文書法などの法制化により、オフィスでもそのハンドリングの良さや利便性が認知され、紙文書が電子化されている。一方では、電子化された文書画像データや写真画像データ、PCなどのアプリケーションによって作成された文書データなどをデータベース(以下DB)化して一元管理する画像DBの利用も増大している。例えば紙文書の原本を保存する必要があっても管理や検索のし易さから、画像DBを構築する場合もある。
上記した画像DBは、サーバ装置を設置して多数のユーザがアクセスする大規模なものから、個人のPC内にDBを構築するパーソナル用途まで様々であり、例えば、近年のMFPは内蔵のHDDに文書を蓄積する機能が備えられ、MFPをベースとした画像DBが構築されている。
このような文書画像DBにおいて、大量の文書画像から所望の文書画像を検索するために検索機能を備えたものがある。文書画像における現在主流の検索機能は、OCR(Optical Character Reader)処理した文字認識結果をキーワードとして全文検索、または概念検索等を行うのが一般的である。しかし、このようなテキストベースの検索においては、
(1)OCRの精度に依存する
(2)検索キーワードが必要
(3)ヒット数が多い場合に絞り込みが困難
という問題点がある。
上記(1)については、OCRにより100%の正解を得ることは現状では不可能であるため、入力した検索キーワードの部分にOCRのミスがあればヒットしないという問題が生じる。上記(2)については、テキストベースの検索は、例えば、インターネットのHPを検索するような未知のものを検索する場合や、そのキーワードが明らかな場合には有効性が高いが、例えば数年前に入力した記憶が曖昧な文書を検索するような場合には、適切なキーワードが思い浮かばなければ検索することができない。また、ページ全体が写真やグラフィクスで文章が存在しない場合には当然ながら検索することができない。上記(3)については、テキストベースの検索は順位付けが困難であるため、キーワードにヒットしたものは同格に扱われる。そのため、ヒット数が多い場合、ヒットした多数の文書画像を一つ一つ確認する必要があり、ユーザビリティが悪い。
そこで、テキストベース検索の問題を改善する手法として、テキストベース検索と異なるアプローチによる検索手法がある。この検索手法は、文書画像を複数のカテゴリに分類して徐々に文書画像を絞り込む手法であり、あるいは付与されたカテゴリ属性とテキストベースの検索との連携により画像を検索する、文書画像分類(文書画像の属性付与)という方法である。
文書画像分類は、例えばユーザが文書画像を登録する際に、所望の文書カテゴリ属性を付与し、ユーザの分類体系に基づいて文書画像を分類する。この分類方法は、個々のユーザにとって理想的な分類カテゴリを得る方法であるが、多量の文書画像を登録する際の処理が煩雑であり、またユーザの作業負担が大きいことから、専門のオペレータが作業を行う場合を除いては一般的ではない。
例えば、MFPのスキャン機能を使用し、スキャンした文書にカテゴリ属性を付与する場合に、MFPの操作パネル上で行うが、一文書毎にスキャニング作業を中断し、カテゴリ名を入力しなければならず作業効率が悪い。別な方法として、全ての文書をスキャニングした後、各々の文書にカテゴリ属性を付与する方法もあるが、それぞれの文書を確認する必要があり、ユーザの作業負担が大きい。
このような問題を解決する手段として、文書画像を自動分類する技術がある。文書画像の自動分類は、ユーザの理想的な分類カテゴリが得られ難いが、ユーザの負担が大幅に軽減され、またテキストベース検索の問題が解決できることから、文書画像の検索手法として有効な手段である。
文書画像の自動分類(もしくは文書画像への自動属性付与)の技術としては、例えば特許文献1がある。特許文献1では、スキャンされた文書画像を、属性の等しい矩形領域に分割し、各領域の属性を判定するレイアウト解析処理を行い、レイアウトの特徴(各ブロックの属性、その大きさ等)を認識することで、文書画像を、表や帳票文書、写真文書、及びその他の文書の何れかの文書に自動分類する。
また、他の例として特許文献2がある。特許文献2では、入力文書画像を圧縮し2値の圧縮画像とし、2値の圧縮画像の黒画素連結成分に外接する矩形を抽出し、その矩形を文字矩形とそれ以外の矩形に分類し、それぞれの矩形の統合により文字領域やその他の領域を抽出して属性の等しい領域を、文章領域、表領域、罫線、図領域、写真領域等の矩形領域に分割してレイアウト解析を行い、これらの領域の種類と数に関する情報を属性として文書画像を分類する。
特開2001−101213号公報 特開2003−178071号公報
しかし、上記したレイアウト解析処理による文書画像の自動分類手法には、以下のような問題がある。
(1)カギ形のように領域の形状が複雑である場合や、領域が重なり合って込み入っている場合など、領域を精度よく抽出することが難しい。
(2)領域属性を誤って識別(分類、属性判定)した場合の回復手段がない。
つまり、上記従来技術のように、レイアウト解析による矩形領域情報を基に文書画像を自動分類する手法は、上記したような誤った識別(分類判定)が避けられない。
例えば、「帳票」カテゴリに分類されるべき文書画像が入力され、文書画像の表領域が図領域として誤って識別された場合、文書画像を正しく「帳票」として分類することができない。また、チラシ等のように込み入ったレイアウトに対して、正しく領域を判定できない場合には、領域の形状を誤って識別するだけではなく、領域の属性も誤って判定し、その結果、文書画像を誤って分類することになる。このように誤分類された文書画像を検索しても正しい検索結果が得られず、また検索に時間がかかり、検索効率が悪化する。
上記した手法では、特に表や図形等に使用されている線画を主体とした領域を誤って判定する。一般的に罫線の判定は、前掲した特許文献2のように、2値化した画像の黒画素連結成分(黒ラン)の長さによって判定する方法を用いているが、この方法では、スキャン画像の2値化時に線が途切れることにより、誤判定を引き起こし、精度に問題がある。また、属性の等しい画像領域を一つのまとまった領域として検出する場合の一般的な手法では、前掲した特許文献2のように、領域の外接矩形を検出するために、同一画像を複数回走査しなければならず、一回の走査による処理、つまり例えば画像を左上からラスタ走査するに従って処理が進み、画像の右下に達すると処理が終了するような処理が難しく、処理時間がかかり、複雑な処理を必要とする。また文書画像毎に処理時間が異なるため、処理時間の予測が難しい。
本発明は上記した問題点に鑑みてなされたもので、
本発明の目的は、処理時間を短縮すると共に、処理を簡単化しつつ、画像の文書タイプを高精度に識別し、自動的に分類する画像処理装置、画像処理方法、プログラムおよび記録媒体を提供することにある。
本発明は、画像の文書タイプを識別する画像処理装置であって、前記画像の所定領域の複数画素に対して周波数変換を行い、複数の周波数変換係数を出力し、前記複数の周波数変換係数の内、線成分と非線成分の差が所定値以上である場合に、前記所定領域を線画領域と識別する局所領域識別手段と、前記局所領域識別手段により識別された線画識別結果から特徴量を算出する特徴量算出手段と、前記特徴量に応じて前記画像の文書タイプを識別する文書タイプ識別手段を備えたことを最も主要な特徴とする。
(1)スキャン画像のようなビットマップ画像の文書タイプを識別する画像処理装置、方法において、局所領域毎に線画か否かを識別し、局所領域識別結果から特徴量を算出し、算出された特徴量に基づいて文書タイプを識別し文書分類を行うので、複雑なレイアウト形状を持つ文書画像においても、精度良く文書タイプの識別が可能であり、レイアウト解析の領域識別のように画像を複数回走査する必要がなく、一度の走査で実現できるため、処理コスト(処理時間が短縮され、複雑な処理を必要としない)を低減することができ、かつ処理時間を予測しやすく使い勝手の良い処理を実現できる。
(2)局所領域毎に線画/文字を識別するように構成し、特徴量の次元を増やしているため、識別の精度が向上する。
(3)局所領域毎に線画/文字/写真を識別するように構成し、特徴量の次元を増やしているため、識別の精度が向上すると共に写真を含む文書タイプのカテゴリを識別できる。
(4)周波数変換を行うことによって、線画等の局所領域を識別する際に特定の周波数係数へ電力を集中させることが可能となり局所領域の識別精度が向上する。
(5)文書タイプ属性を識別する際に、複数の識別手段を並列に使用して識別結果に重複を許すことにより識別の精度が向上するとともに、ユーザの主観が異なるような画像を検索する場合にも文書タイプ識別を用いた分類表示によって検索が可能となる。
以下、発明の実施の形態について図面により詳細に説明する。
実施例1:
図1は、本発明の実施例1のシステム構成を示す。図1において、100はパーソナルコンピュータ(以下PC)、PDAや携帯電話などのモバイル端末などのクライアント装置である。101はモニタなどの表示デバイス、102はユーザ指示の解釈、サーバ装置110との通信、表示デバイス101の制御を行うアプリケーションプログラム、103はユーザからの指示入力手段であるキーボードやマウスなどの入力デバイス、104はLANやインターネットなどの外部通信路である。
110は画像データを蓄積するデータベース(以下DB)を有し、入力された画像データの文書タイプを識別し、DBへ文書画像およびその属性情報を登録し、クライアント装置100からのコマンドに応じて表示画面を生成してクライアント装置100へ出力するサーバ装置、111は外部通信路104とのインターフェース(以下I/F)、112は画像DB114へ登録する登録画像データ、113は登録画像112を所定サイズ以下に変倍してサムネイル画像を生成するサムネイル生成処理部、114は登録画像112の画像データ、登録画像112のサムネイル画像データを蓄積する画像DB、115は登録画像112の画像データについて文書タイプを識別する文書タイプ識別処理部、117は画像DB114へ登録されている画像データ毎の情報を蓄積する画像情報DBである。ここで情報とは、例えば、登録画像データのファイル名、作成日、画像データとの紐付け情報(紐付け情報とは例えば、画像DB114に蓄積されるとき、各画像データ固有に付されたIDやファイル名など)、文書タイプ(属性)などを言う。
118はクライアント装置100へ表示するための表示画面を生成し、かつ画面制御データ120の内容に応じて表示画面を制御する表示画面制御処理部、119はクライアント装置100の表示デバイス101上へ表示するための表示画面データ、120はクライアント装置100によって指定され、入力される画面制御データである。図中の点線は、画像登録時のデータの流れを表し、実線は表示画面の生成時のデータの流れを表している。
図2は、サーバ装置110/クライアント100装置の構成を示す。図2において、201はプログラムに応じた演算や処理を行うCPU、202はプログラムのコードや画像の符号データなどのデータを一時的に記憶、保持するワーク領域として使用される揮発性のメモリ、203は画像データやプログラムなどを保存、蓄積するためのハードディスク(以下HDD)であり、画像DB114、画像情報DB117を保持する。204はモニタ205へ表示するためのデータバッファであるビデオメモリである。ビデオメモリ204に書き込まれた画像データは、定期的にモニタ205へ表示される。206はマウスやキーボードなどの入力デバイス、207はインターネットやLANなどの外部通信路104を介してデータを送受信する外部I/F、208は各々の構成要素を接続するバスである。
本実施例では、サーバ装置110がサーバコンピュータにより構成され、表示画面生成などの処理がソフトウェによって実現する例を示す。すなわち、サーバ内の処理は図示しないアプリケーションプログラムによって実現される。本発明の実施形態はこれに限定されず、MFPなどの装置内にハードウェアによって処理を行うように構成しても良いし、また、サーバ、クライアント構成を採らずに、例えば1つのPCやMFPなどの機器内に、図1を構成するようにしても良い。
以下、本実施例の動作概要を説明する。実施例1のシステムは、大別すると二つの動作に分かれている。一つは文書画像の登録動作であり、他の一つは所望の文書画像を検索し、閲覧し、取得(サーバからのダウンロード)する「DB内の文書画像を利用する」動作である。文書画像の利用においては、まず所望の文書画像を検索し、その後、アプリケーションのビューアーを使用して画像を閲覧し、ユーザのPC内へ蓄積する。以下、本実施例の文書画像登録時の動作と、文書画像の検索動作を説明する。
図3は、文書画像登録時の動作フローチャートを示す。図1(破線は登録時の動作を示す)、図3を参照して文書画像登録動作を説明する。
ステップS001において、ユーザは、クライアント装置100からアプリケーションプログラム102を介してサーバ装置110へ画像データの登録の指示と登録する登録画像データ112を指示する。
ステップS002において、登録画像データ112は、外部通信路104を介してサーバ装置110へファイル名、作成日等のファイル情報と共に入力され、外部I/F111を経由して画像DB114へID番号が付与されて登録される。同時に、サムネイル生成処理部113は登録画像112を変倍処理して所定サイズ以下のサムネイル画像を生成し、画像DB114へID番号を付与して登録する。登録画像データ112が複数ページの画像データの場合には、ページ単位でサムネイルを生成する。
ステップS003において、登録画像データ112は、後述する文書タイプ識別処理部115へ入力され、文書タイプ属性が識別される。識別された文書タイプ属性は、以下の画像情報データと共に画像情報DB117へ登録される。
・ファイル名、作成日
・画像データID
・サムネイル画像データID
・文書タイプ属性
なお、画像情報DB117は、一般的なRDB(リレーショナルデータベース)を使用することにより、情報の登録、管理、検索などの処理を簡易に実現できる。また、画像DB114、画像情報DB117は上述の機能を満たせば、同じDBに例えばXML(eXtensible Markup Langage)などの言語を使用し、階層的なデータ構造などを構築して蓄積しても良く、また、異なるサーバ毎にそれぞれDBとして蓄積してもよい。画像登録は、スキャナやデジタルカメラなどの画像入力装置から直接、画像データをサーバ装置110へ登録するようにしても良い。
図4は、実施例1の文書タイプ識別処理部115の構成を示す。301は、入力された登録画像112に対して、後段処理の処理量(処理コスト)を低減し、局所領域識別処理部303の精度を向上するための画像処理を行う前処理部である。例えば、画素数を減らして処理コストを低減する処理としては、カラー画像のグレー画像への変換処理、縮小変倍処理等があり、精度向上の処理としては、画像のトーンカーブを補正するγ補正処理、例えばデバイス固有の色空間を標準色空間へ変換を行う色補正処理、画像のMTFを補正する空間フィルタ処理、所定の解像度への変換処理(変倍処理と同様)等がある。
302は、複数の画素を実空間から周波数空間へ変換する周波数変換処理部である。画像の周波数変換処理は、離散フーリエ変換(DFT)、離散コサイン(DCT)、離散ウェーブレット変換(DWT)等種々の方法があるが、本実施例では一例としてJPEG圧縮等で使用されている離散コサイン変換(以下DCT)を縦横8画素の64画素単位に行うものとする。DCTは式1により実現される。
Figure 0004859054
N=8:ブロック内水平(垂直)画素数
u,v=0,1,〜N−1:ブロック内DCT係数座標
x,y=0,1,〜N−1:ブロック内画素座
f(x,y)=入力画素値
F(u,v)=DCT係数値
303は、周波数変換処理部302から出力されるDCT係数を基にして、線画か否かを識別する局所領域識別処理部、304は、線画の識別結果(オン/オフ)により構成される識別結果画像、305は、線画の識別結果画像304から特徴量を算出する特徴量算出処理部、306は、特徴量算出処理部305で算出された特徴量に基づいて登録画像112の文書タイプ属性を識別するタイプ属性識別処理部、307は、識別された文書タイプ属性情報である。
登録画像112に対して、前処理部301は所定の前処理を行う。本実施例では、一例として(1)処理コスト低減のために、入力画像がカラー画像の場合、グレー画像へ変換するグレー画像変換処理を行い、(2)処理コスト低減と後段の局所領域識別処理の精度向上のための解像度変換処理が行われる。
(1)グレー画像変換処理は、カラー画像が入力された場合、画像データ量を1/3に低減する処理であり、処理コストが低減される。変換方法は種々の方法があるが、入力される登録画像112がR(ed)G(reen)B(lue)画像の場合は、輝度Yへ変換する。RGBから輝度Yへの変換式は、式2で表される。
Y=0.299R+0.587G+0.114B 式2
但し、Y:輝度
R:Red画素値
G:Green画素値
B:Blue画素値
なお、簡易的に式3を使用しても良い。
Y=(R+2G+B)/4 式3
(2)解像度変換処理は、周波数変換処理部302が行う周波数変換時に出力される周波数変換係数(DCT係数)の周波数を統一する目的で実施する。本実施例で示すように、8x8画素の領域固定で周波数変換を行う場合、登録画像112の解像度が異なる場合に、出力される空間周波数も異なるものになるため、予め前処理部301において周波数変換処理部302へ入力される画像解像度を統一することにより、全体として処理コストが低減される。なお、解像度変換を実施しなくても周波数変換処理部302で登録画像112の解像度に応じて周波数変換に使用する領域面積(画素数)を変更しても同様の効果が得られる。
また、解像度は周波数変換に使用する領域面積に応じて決定することが望ましい。本実施例では、8x8画素分の領域面積において、線画を文字と区別して抽出する必要がある。このため、解像度が高すぎると文字の辺や棒部分を線画として誤識別する可能性が高くなり、逆に、解像度が低すぎると、例えば表部分等の線画と文字部分が結合してしまうため、線画を誤識別する可能性が高くなる。
また、解像度変換処理、いわゆる画像の拡大、縮小処理についても、ニアレストネイバー法、線形補間法、キュービックコンボリューション法等種々の方法があるが、特に画像を縮小する場合は、細線画像が途切れたりしないように間引き処理を行わない、線形補間法等が好適である。線形補間法は画像のMTFが落ちるので、解像度変換実施後に空間フィルタ処理等でMTF補正を行っても良い。
次に、周波数変換処理部302において、縦横8画素の計64画素を使用して、式1に示すようなDCTを行い、64個のDCT変換係数を出力する。局所領域識別処理部308では、DCT係数から、8x8画素領域が線画か否かを識別する。
DCT係数を使用した局所領域識別手法について、以下説明する。図5は、式1のDCT係数であるF(u,v)を2次元上に配置した図であり、縦線、横線、斜め線が入力された場合の、DCT係数の電力が集中する主な係数を黒で塗りつぶして示す。座標(0,0)は、直流(DC)成分を表す。
図5(a)は、縦線画像が入力された場合に集中するDCT係数であり、便宜上、縦線成分とする。図5(b)は、横線画像に対応し横線成分、図5(c)は、斜め線画像に対応し斜め線成分とする。各図のDC成分以外の白塗り部分を各々、非縦線、非横線、非斜め線成分とする。
図5に示すように、DCT係数は、入力画像に対して電力の集中する係数がほぼ予想できる性質を有し、非線成分は低い値を示す。このような性質を使って、DCT係数から線画とそれ以外を識別することが可能となる。
具体的には、図13のフローチャートに示すように、各線成分、非線成分に対する「DCT係数の絶対値」の合計値、または最大値を予め算出し、縦、横、斜め線各々で線成分、非線成分の差を所定値と比較して(ステップ21〜23)、その差が所定値以上のとき、線画と識別する。
また、他の方法として、サポート・ベクタ・マシン(以下SVM)等の学習機械を使用して、DC成分以外の交流(AC)成分の絶対値を特徴量として入力し、予め線画から算出されるDCT係数を学習させたモデルを使用することによって線画とそれ以外を識別する。なお、このような性質は他の周波数変換方法でも同様の性質を示す。例えば、周波数変換処理にDWTを使用し、DWT係数を使用して局所領域識別を行っても同様の識別が可能である。
図6(a)は帳票の登録画像112を示し、(b)は登録画像112に対する線画識別結果画像(局所領域識別結果)304を示す。図6(b)では、線画部分を黒、それ以外の部分を白の2値画像として表した。また、図6は、入力画像を縦横8画素のDCTを行った矩形領域単位に、局所領域識別を行った例を示す。従って、識別結果の画像は、周波数変換処理部302に入力される画像と比較して、縦横1/8のサイズである。
このように、矩形領域の複数画素により周波数変換処理を使用した局所領域識別を行う場合に、識別単位を矩形単位で行うか、画素単位で行うかは求める精度によって異なる。本実施例のように、矩形領域単位に処理を行えば、処理量が大幅に低減され処理コストを下げることができるが、画素単位に識別する処理(つまり、DCTを行う画素をオーバーラップさせて注目画素単位にDCTを行い、画素単位に識別結果を出力する。線画識別結果画像304は、周波数変換処理部302に入力された画像と等しい大きさになる)と比較して精度が低い。
次いで、特徴量算出処理部305は、線画識別結果画像304から特徴量を算出する。画像特徴量としては、画像のモーメントやテクスチャ、エッジ量などがあり、また、算出手法として、画像をいくつかの領域に区切って各々の領域毎に特徴量を算出する。画像の配置情報を特徴量とすることも可能である。
本実施例では、高次局所自己相関特徴量を使用した例を示す。2値画像に対して、高次局所自己相関特徴量を使用する場合、図7に示す25種類の3×3の局所パターンに対して、各々のパターン毎に特徴量が算出される。つまり、25次元の特徴量が算出される。各特徴量の計算は、局所パターンの対応する画素値の積(図7のパターンの“1”に対応する画素の積であり、2値画像の場合、局所パターンの“1”に対応する画素の論理積となる)を全画素に対して走査し、足し合わせることにより実現される。ただし、算出される特徴量が画像サイズの影響を受けるので、サイズの異なる画像が登録画像112に入力される場合は、正規化する。このようにして、局所領域識別処理303で識別された線画識別結果が25次元の特徴量へ変換される。
25次元の特徴量がタイプ属性識別処理部306へ入力され、タイプ属性識別処理部306は、登録画像112の文書タイプ属性307を識別する。本実施例のタイプ属性識別処理部306は、一例として「帳票」、「図面」、「その他」の文書タイプを識別する。
タイプ属性識別処理部306が文書タイプ属性を識別するには、入力された25次元の特徴量から、「帳票」、「図面」における特徴量に着目して識別すれば良い。図8は、帳票、図面、論文の各文書画像を入力した場合の特徴量を表したグラフである。図8の各グラフは、各々の文書タイプの特徴的な傾向を示す。すなわち、
・帳票は、No3、No6の次元の特徴量が多く、No10〜No25までの次元の特徴量も少ないながらもある。
・図面は、帳票の特徴量に比べて全体的に特徴量が多い(数値が高い)。
・論文は、帳票、図面の特徴量に比べて全体的に特徴量が少ない(数値が低い)。
従って、これらの特徴を使用することにより、「帳票」、「図面」を識別することができる。識別は、特徴量の値を比較することにより、あるいは所定のしきい値を超えているか否かのしきい値処理などにより行う。
図9は、タイプ属性識別処理部306のフローチャートである。ステップS011において、特徴量No2〜No25の合計値を算出し、所定のしきい値以下か否かを比較する。所定値以下である場合は、「その他」属性を選択する。
ステップS012において、特徴量No2〜No25の合計値が所定値より大きい場合は、特徴量No3+No6とNo4+No5の比率が所定値以下か否か比較し、所定値以下の場合は、「図面」属性を選択し、所定値より大きな場合は「帳票」属性を選択する。
また、他の方法として、SVM等の学習機械を使用して、25次元の特徴量を入力し、予め学習させたモデルを使用することによって文書タイプを識別しても良い。
以上の処理により、実施例1の文書タイプ識別処理が完了し、登録画像112の文書タイプ属性が識別される。
図10は、文書タイプ識別処理による文書分類処理を使用して文書画像を検索するときの動作フローチャートである。
ステップS101において、ユーザは、クライアント装置100において、アプリケーションプログラム102を使用して、文書分類をサーバ装置110へ指示する。このときの指示手段は、例えば図11に示すようなサムネイル一覧の表示画面をクライアント装置100の表示デバイス101上へ表示する。
図11において、401は文書分類による表示画面を指示する分類ラジオボタン、402はサムネイル表示を指示するサムネイルラジオボタン、403は画像を表示するフレーム、404は画像のサムネイルである。複数の画像サムネイル404がフレーム403上に表示され、一般的な画像DBで使用されるサムネイルが一覧で表示されている。通常、画像DB114には多数の画像が登録されているが、一度に表示できない画像サムネイルは、フレームに上下のスライダを設けてスクロールして画像を閲覧したり、ページ送り機能を設けて表示画像群を変更することにより閲覧する。
ユーザは、入力デバイス103のマウス等のポインティングデバイスを使用して分類ラジオボタン401をクリックすることによって、サーバ側に文書分類指示である画面制御データ120が外部通信路104を介して転送される。
ステップS102において、サーバ装置110は、文書分類指示である画面制御データ120を受信すると、表示画面制御処理部118は、画面情報DB117の文書タイプ識別データ(以下分類カテゴリ)毎の文書画像数の集計等を行い、表示画面のレイアウトや表示する文書画像データを決定する。
次いで、画像DB114より、表示する文書画像データまたは文書画像データのサムネイルを入力し、分類結果の表示画面119を生成し、外部I/F111より外部通信路104を経由してクライアント装置100へ送信する。
図12は、分類結果の表示画面の一例を示す。図12の「帳票」、「図面」などの文字はカテゴリを表す。411は分類カテゴリを表し、3つのカテゴリに分類した例を示す。また、411の楕円の大きさは各カテゴリ内に含まれる文書数を模式的に表し(文書数を数字で直接表すようにしても良い)、カテゴリ内のサムネイルは、各カテゴリに含まれる文書画像によるものである。ここで表示される画像サムネイルは、画像DB114に登録されている画像数が少ない場合には全ての画像を表示し、そうでない場合には各カテゴリ内のいくつかの代表画像を表示する。このように表示画像数を絞ることによってクライアント装置100での表示時間や外部転送路を介した転送時間、サーバ装置110での処理時間が共に短縮される。処理速度が十分得られる場合には、全ての画像を重ね合わせたり、スライダを設ける等して表示しても良い。
上記したような表示画面の作成方法やサーバクライアント間の通信方法には種々の手法があるが、一般的によく使用される手法としてサーバ装置110をWebサーバとしてWorldWideWebベースの技術を使用することにより実現可能となる。そして、表示画面119はHTML(HyperTextMarkupLangage)によって記述され、アプリケーション102は一般的なWebブラウザを使用すれば良い。
ステップS103において、クライアント装置100では、表示デバイス101上に表示画面119を表示する。
ステップS104において、ユーザは、検索している文書画像に近いカテゴリを、入力デバイス103を使用して選択し、選択したカテゴリデータをサーバ装置110へ送信する。例えば、ここでは図12の「帳票」のカテゴリを選択したとする。選択方法としては、カテゴリ内をマウス等のポインティングデバイスでクリックすることによりカテゴリを選択する。また、カテゴリ毎に選択/非選択を可能とし、複数のカテゴリを選択可能なように構成することも可能である。
ステップS105において、サーバ装置110は、カテゴリ内の選択指示を表示画面制御処理部118で受信し、図11に示すように、選択されたカテゴリ(帳票カテゴリ)内のサムネイル一覧の表示画面を作成し、クライアント装置100へ送信する。
ステップS106において、クライアント装置100では、表示デバイス101上に、図11に示す表示画面120を表示する。
このように文書タイプを識別し、文書タイプを分類表示することにより、ユーザは、文書画像登録数の多い画像DBにおいても画像の概観等の特徴を確認しながら検索対象画像を絞り込むことができる。
以上説明したように本実施例によれば、ビットマップ画像の文書タイプを識別する画像処理装置、方法において、局所領域毎に線画か否かを識別し、局所領域の識別結果から特徴量を算出し、算出された特徴量に基づいて文書タイプを識別し文書分類を行うので、複雑なレイアウト形状を持つ文書画像においても、精度良く文書タイプの識別が可能であり、レイアウト解析の領域識別のように画像を複数回走査する必要がなく、一回の走査により実現できるので、処理コストが低減され、かつ処理時間が予測しやすく使い勝手の良い処理が実現できる。
実施例2:
実施例2では、局所領域識別処理部303において線画を識別すると共に、文字画像を識別し、文書タイプ属性の精度を向上させる実施例である。実施例2のシステム構成は実施例1と同様である。
文字画像のDCT係数は、線画のそれと比較して、複数の線成分が含まれている。図14は、実施例2の局所領域識別処理部303のフローチャートを示す。実施例1では、線成分と非線成分の差が所定値以上である場合に、線画と識別したが、実施例2では、予めAC成分の最大値を算出し、最大値が所定値以下である場合には(ステップS031でyes)、「その他」とし、最大値が所定値以下ではなく(ステップS031でno)、線成分と非線成分の差が所定値以上の場合は(ステップS032でyes)、「線画」とし、すべての線成分と非線成分の差が所定値以上ではない場合には(ステップS033、S034でno)、「文字」とする。なお、実施例1の場合と同様にSVM等の学習機械を使用しても良い。
実施例2の局所領域識別処理部303において、「線画」、「文字」を識別するため、識別結果画像は、線画識別結果画像と文字識別結果画像の2種類となる。図6(c)は、実施例2における文字識別結果画像を示す。線画識別結果画像は、実施例1の場合と同様の結果になる。
実施例2では、各々の識別結果画像304に対して、特徴量算出処理部305は、実施例1の場合と同様に特徴量を算出する。例えば、高次局所自己相関特徴量を算出する場合には、線画識別結果画像から25次元の特徴量が算出され、文字識別結果画像から25次元の特徴量が算出され、これら50次元の特徴量がタイプ属性識別処理部306へ入力される。
実施例2では、一例として、入力された登録画像112を「帳票」、「図面」、「書籍」、「その他」の4種類の属性を識別する例を示す。図15は、実施例2のタイプ属性識別処理部306の構成を示す。実施例2では、タイプ属性識別処理をSVM等の学習機械を用いた識別器により識別する例を示す。
図15において、501は特徴量算出処理部305より出力される50次元の特徴量、502は入力された特徴量501に基づいて文書属性タイプが帳票か否かを識別する帳票識別器、503は予め帳票画像の学習データによる特徴量を基に学習され、作成された帳票モデル、504は帳票か否かの識別結果、505は入力された特徴量501に基づいて文書属性タイプが図面か否かを識別する図面識別器、506は予め図面画像の学習データによる特徴量を基に学習され、作成された図面モデル、507は図面か否かの識別結果、508は入力された特徴量501に基づいて文書属性タイプが書籍か否かを識別する書籍識別器、509は予め書籍画像の学習データによる特徴量を基に学習され、作成された書籍モデル、510は書籍か否かの識別結果である。
SVMは、多次元の特徴量を空間射影して識別平面を自動的に作成し、カーネルと呼ばれる識別関数を使用して識別を行う識別器である。実際に識別を行うためには、予め学習データを使用して学習させ、学習結果のモデリングを行う必要がある。学習結果のモデリング結果はモデルと呼ばれるファイルに格納されることになる。学習の際には、実際に識別に使用する「特徴量」と「識別結果の正解」の組を用意して学習させる。一度学習させることにより、後はモデルファイルを使用して識別するのみで高速な識別が可能となる。本実施例では、帳票、図面、書籍の学習結果を各々のモデルファイル503、506、509に格納している。
以下、実施例2のタイプ属性識別処理部306の動作を説明する。特徴量算出処理部305から出力される50次元の特徴量を帳票識別器502、図面識別器505、書籍識別器508へ各々入力し、各モデル503、506、509を使用して各々識別し、識別結果を各々出力する。すべての識別結果が否(オフ)の場合には、「その他」属性が選択されたことになる。文書タイプ属性は、通常1つの登録画像について1つの属性が付与されるが、例えばユーザが画像を識別し、分類する場合でも、どのような属性を付与すべきか迷うことがある。このようなユーザの主観が分かれるような場合に、分類表示を使用して画像を検索すると、ユーザの主観と識別結果が異なり、ユーザが望むような検索結果が得られない。
そこで、予め、ユーザの主観が分かれるような画像の場合は、複数の属性を付与しておき、ユーザがどちらのカテゴリを選択しても検索対象文書にヒットするように構成することが望ましい。
これを実現するには、学習の際にタイプ属性を重複させるべき学習データを用意して学習させることが必要となる。図16は、重複データの学習を説明する図である。図16の矩形601は画像を表し、602、603は同一属性のカテゴリを表す。すなわち、図16のモデルは、特徴量を使用して、2次元上に画像をマッピングした場合の各画像がマップ上にとり得る位置を表している。図16の黒い画像604(以下、重複画像)は、帳票、図面の両方のカテゴリ602、603に含まれている。これらを学習する際に、帳票モデル503の学習時に帳票を正解として学習させ、図面モデル506の学習時に図面を正解として学習させる。このように、帳票データを重複して学習させることにより、帳票とも図面とも判然としない画像が帳票、図面の双方に識別されることになる。
なお、通常、書籍等の文書画像は複数ページで入力される場合が多いが、本実施例のようにページ単位に処理を行い、ページ単位に識別し、最終的に識別されたタイプ属性が多いものを複数ページの文書画像の代表文書タイプ属性とする。また、各ページと複数ページの属性を異ならせて、「ページ単位の表示画面」を生成する場合と「文書単位の表示画面」を生成する場合とに、使い分けしても良い。
以上、説明したように本実施例によれば、局所領域毎に線画/文字/その他を識別するように構成し、特徴量の次元を増やしているため、識別の精度が向上する。また、タイプ属性を識別する際に、複数の識別器を並列に使用して識別結果に重複を許すことによって識別の精度が向上することに加えて、ユーザの主観が分かれるような画像を検索する場合にも、文書タイプ識別を用いた分類表示によって検索が可能となる。
実施例3:
実施例3は、局所領域識別処理部303において線画、文字画像を識別すると共に、写真画像を識別し、文書タイプ属性の精度を向上させる実施例である。実施例3のシステム構成も実施例1と同様である。
写真画像のDCT係数は、線画や文字画像のそれと比較して、基本的にAC成分の電力が弱く、DCT係数の電力が比較的広い範囲に分布している。図17は、実施例3の局所領域識別処理部のフローチャートを示す。実施例3では、AC成分の最大値と第1のしきい値を比較し、AC成分の最大値が第1のしきい値以下のとき(ステップS041でyes)、「その他」と識別し、AC成分の最大値が第1のしきい値以下ではなく(ステップS041でno)、AC成分の最大値が第2のしきい値以下のとき(ステップS042でyes)、「写真」と識別する。
実施例3の局所領域識別処理部303において、「線画」、「文字」、「写真」を識別するため、識別結果画像は、線画識別結果画像、文字識別結果画像、写真識別結果画像の3種類となり、各々の識別結果画像304に対して、特徴量算出処理部305は実施例2と同様に特徴量を算出する。例えば、高次局所自己相関特徴量を算出する場合を例にとると、75次元の特徴量が算出され、タイプ属性識別処理部306へ入力される。タイプ属性識別処理部306では、75次元の特徴量を使用して、実施例2と同様に複数の識別器を使用して複数の文書タイプを識別する。
実施例3では、局所領域識別処理部303において写真画像を識別しているので、カタログやチラシ等の文字と写真が含まれている文書タイプや写真のみの画像等を識別できる。
以上、説明したように本実施例によれば、局所領域毎に線画/文字/写真/その他を識別するように構成し、特徴量の次元を増やしているため、識別の精度が向上すると共に写真を含む文書タイプのカテゴリの識別が可能となる。
本発明の実施例1のシステム構成を示す。 サーバ装置/クライアント装置の構成を示す。 文書画像登録時の動作フローチャートを示す。 文書タイプ識別処理部の構成を示す。 DCT係数の分布を示す。 局所領域識別出力の結果を示す。 高次局所自己相関用のパターンを示す。 帳票、図面、論文の各画像の特徴量を示す。 実施例1のタイプ属性識別処理部のフローチャートである。 実施例1の文書画像検索時の動作フローチャートである。 サムネイル一覧表示画面の例を示す。 分類表示の例を示す。 実施例1の局所領域識別処理部のフローチャートである。 実施例2の局所領域識別処理部のフローチャートである。 実施例2のタイプ属性識別処理部の構成を示す。 重複データの学習を説明する図である。 実施例3の局所領域識別処理部のフローチャートである。
符号の説明
100 クライアント装置
101 表示デバイス
102 アプリケーションプログラム
103 入力デバイス
104 外部通信路
110 サーバ装置
111 外部インターフェース
112 登録画像データ
113 サムネイル生成処理部
114 画像DB
115 文書タイプ識別処理部
117 画像情報DB
118 表示画面制御処理部
119 表示画面データ
120 画面制御データ

Claims (8)

  1. 画像の文書タイプを識別する画像処理装置であって、前記画像の所定領域の複数画素に対して周波数変換を行い、複数の周波数変換係数を出力し、前記複数の周波数変換係数の内、線成分と非線成分の差が所定値以上である場合に、前記所定領域を線画領域と識別する局所領域識別手段と、前記局所領域識別手段により識別された線画識別結果から特徴量を算出する特徴量算出手段と、前記特徴量に応じて前記画像の文書タイプを識別する文書タイプ識別手段を備えたことを特徴とする画像処理装置。
  2. 画像の文書タイプを識別する画像処理装置であって、前記画像の所定領域の複数画素に対して周波数変換を行い、複数の周波数変換係数を出力し、前記複数の周波数変換係数の内、交流成分の最大値が所定値以下ではなく、線成分と非線成分の差が所定値以上の場合に、前記所定領域を線画領域と識別し、前記線成分と非線成分の差が所定値以上ではない場合に、前記所定領域を文字領域と識別する局所領域識別手段と、前記局所領域識別手段により識別された線画識別結果および文字識別結果から特徴量を算出する特徴量算出手段と、前記特徴量に応じて前記画像の文書タイプを識別する文書タイプ識別手段を備えたことを特徴とする画像処理装置。
  3. 画像の文書タイプを識別する画像処理装置であって、前記画像の所定領域の複数画素に対して周波数変換を行い、複数の周波数変換係数を出力し、前記複数の周波数変換係数の内、交流成分の最大値が第1の閾値以下ではなく、第2の閾値以下の場合に、前記所定領域を写真領域と識別し、前記交流成分の最大値が第2の閾値以下ではなく、線成分と非線成分の差が所定値以上の場合に、前記所定領域を線画領域と識別し、前記線成分と非線成分の差が所定値以上ではない場合に、前記所定領域を文字領域と識別する局所領域識別手段と、前記局所領域識別手段により識別された線画識別結果、文字識別結果および写真識別結果から特徴量を算出する特徴量算出手段と、前記特徴量に応じて前記画像の文書タイプを識別する文書タイプ識別手段を備えたことを特徴とする画像処理装置。
  4. 画像の文書タイプを識別する画像処理方法であって、前記画像の所定領域の複数画素に対して周波数変換を行い、複数の周波数変換係数を出力し、前記複数の周波数変換係数の内、線成分と非線成分の差が所定値以上である場合に、前記所定領域を線画領域と識別する局所領域識別工程と、前記局所領域識別工程により識別された線画識別結果から特徴量を算出する特徴量算出工程と、前記特徴量に応じて前記画像の文書タイプを識別する文書タイプ識別工程を有することを特徴とする画像処理方法。
  5. 画像の文書タイプを識別する画像処理方法であって、前記画像の所定領域の複数画素に対して周波数変換を行い、複数の周波数変換係数を出力し、前記複数の周波数変換係数の内、交流成分の最大値が所定値以下ではなく、線成分と非線成分の差が所定値以上の場合に、前記所定領域を線画領域と識別し、前記線成分と非線成分の差が所定値以上ではない場合に、前記所定領域を文字領域と識別する局所領域識別工程と、前記局所領域識別工程により識別された線画識別結果および文字識別結果から特徴量を算出する特徴量算出工程と、前記特徴量に応じて前記画像の文書タイプを識別する文書タイプ識別工程を有することを特徴とする画像処理方法。
  6. 画像の文書タイプを識別する画像処理方法であって、前記画像の所定領域の複数画素に対して周波数変換を行い、複数の周波数変換係数を出力し、前記複数の周波数変換係数の内、交流成分の最大値が第1の閾値以下ではなく、第2の閾値以下の場合に、前記所定領域を写真領域と識別し、前記交流成分の最大値が第2の閾値以下ではなく、線成分と非線成分の差が所定値以上の場合に、前記所定領域を線画領域と識別し、前記線成分と非線成分の差が所定値以上ではない場合に、前記所定領域を文字領域と識別する局所領域識別工程と、前記局所領域識別工程により識別された線画識別結果、文字識別結果および写真識別結果から特徴量を算出する特徴量算出工程と、前記特徴量に応じて前記画像の文書タイプを識別する文書タイプ識別工程を有することを特徴とする画像処理方法。
  7. 請求項乃至のいずれか1項に記載の画像処理方法をコンピュータに実現させるためのプログラム。
  8. 請求項乃至のいずれか1項に記載の画像処理方法をコンピュータに実現させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2007039787A 2007-02-20 2007-02-20 画像処理装置、画像処理方法、プログラムおよび記録媒体 Expired - Fee Related JP4859054B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007039787A JP4859054B2 (ja) 2007-02-20 2007-02-20 画像処理装置、画像処理方法、プログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007039787A JP4859054B2 (ja) 2007-02-20 2007-02-20 画像処理装置、画像処理方法、プログラムおよび記録媒体

Publications (2)

Publication Number Publication Date
JP2008204184A JP2008204184A (ja) 2008-09-04
JP4859054B2 true JP4859054B2 (ja) 2012-01-18

Family

ID=39781624

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007039787A Expired - Fee Related JP4859054B2 (ja) 2007-02-20 2007-02-20 画像処理装置、画像処理方法、プログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP4859054B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5743498B2 (ja) * 2010-11-10 2015-07-01 キヤノン株式会社 画像補正装置および画像補正方法
JP5742612B2 (ja) * 2011-09-13 2015-07-01 ブラザー工業株式会社 画像処理プログラム、画像処理装置および画像処理方法
WO2016076515A1 (ko) * 2014-11-13 2016-05-19 삼성전자 주식회사 영상의 주파수 특성 정보를 포함하는 메타 데이터를 생성하는 방법 및 장치
JP6536217B2 (ja) * 2015-06-26 2019-07-03 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
WO2017094202A1 (ja) * 2015-12-01 2017-06-08 アイマトリックス株式会社 画像処理を応用した文書構造解析装置
JP2017175524A (ja) * 2016-03-25 2017-09-28 株式会社日立ドキュメントソリューションズ 文書管理システムおよびイメージデータ管理方法
JP7230343B2 (ja) 2018-05-28 2023-03-01 株式会社リコー 画像検索装置、画像検索方法、画像検索プログラム及び販売システム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0766981A (ja) * 1993-08-27 1995-03-10 Canon Inc データ圧縮方法
JPH1049674A (ja) * 1996-07-30 1998-02-20 Toshiba Corp カラー画像処理装置
JP2006303899A (ja) * 2005-04-20 2006-11-02 Fuji Photo Film Co Ltd 画像処理装置、画像処理システム、および画像処理プログラム
JP4811133B2 (ja) * 2005-07-01 2011-11-09 富士ゼロックス株式会社 画像形成装置及び画像処理装置

Also Published As

Publication number Publication date
JP2008204184A (ja) 2008-09-04

Similar Documents

Publication Publication Date Title
JP4859025B2 (ja) 類似画像検索装置、類似画像検索処理方法、プログラム及び情報記録媒体
US8112706B2 (en) Information processing apparatus and method
US9754164B2 (en) Systems and methods for classifying objects in digital images captured using mobile devices
JP7013182B2 (ja) 情報処理装置、情報処理方法およびプログラム
CN103975342B (zh) 用于移动图像捕获和处理的***和方法
JP4181892B2 (ja) 画像処理方法
US8224095B2 (en) Image processing apparatus, image forming apparatus, image processing system, and image processing method
US8488181B2 (en) Preserving user applied markings made to a hardcopy original document
KR102149050B1 (ko) 인공지능을 이용한 ocr 기반 문서 분석 시스템 및 방법
US7640269B2 (en) Image processing system and image processing method
JP4859054B2 (ja) 画像処理装置、画像処理方法、プログラムおよび記録媒体
JP4533273B2 (ja) 画像処理装置及び画像処理方法、プログラム
US8693790B2 (en) Form template definition method and form template definition apparatus
US9710524B2 (en) Image processing apparatus, image processing method, and computer-readable storage medium
JP2007286864A (ja) 画像処理装置、画像処理方法、プログラムおよび記録媒体
JP2007042106A (ja) 文書処理方法、文書処理メディア、文書管理方法、文書処理システム及び文書管理システム
JPWO2007004519A1 (ja) 検索システム及び検索方法
US20120265759A1 (en) File processing of native file formats
US20080218812A1 (en) Metadata image processing
KR102211516B1 (ko) 가상 셀을 이용한 ocr 기반 문서 분석 시스템 및 방법
JP2007004621A (ja) 文書管理支援装置、文書管理支援方法およびプログラム
US20150169510A1 (en) Method and system of extracting structured data from a document
JP4261988B2 (ja) 画像処理装置及び方法
JP2017120503A (ja) 情報処理装置、情報処理装置の制御方法、及びプログラム
CN113936764A (zh) 一种医疗报告单照片中敏感信息脱敏方法及***

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091027

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110502

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110525

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110715

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111026

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111027

R151 Written notification of patent or utility model registration

Ref document number: 4859054

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141111

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees