JP2008084186A - 画像処理システム及び画像処理プログラム - Google Patents

画像処理システム及び画像処理プログラム Download PDF

Info

Publication number
JP2008084186A
JP2008084186A JP2006265667A JP2006265667A JP2008084186A JP 2008084186 A JP2008084186 A JP 2008084186A JP 2006265667 A JP2006265667 A JP 2006265667A JP 2006265667 A JP2006265667 A JP 2006265667A JP 2008084186 A JP2008084186 A JP 2008084186A
Authority
JP
Japan
Prior art keywords
character string
document image
module
area
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006265667A
Other languages
English (en)
Inventor
Masahiro Kato
雅弘 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2006265667A priority Critical patent/JP2008084186A/ja
Publication of JP2008084186A publication Critical patent/JP2008084186A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】変換規則情報の増加を抑制することのできる画像処理システム及び画像処理プログラムを提供する。
【解決手段】文字列を含む領域を複数有する文書画像を入力する入力手段と、前記入力手段によって入力された文書画像を領域毎に分割する分割手段と、前記入力手段によって入力された文書画像から文字列を認識する認識手段と、前記分割手段によって分割された領域毎に前記認識手段によって認識された文字列が、予め記憶されている領域毎に定められた文字列に含まれているか否かを判断する判断手段と、前記判断手段により、前記認識手段によって認識された文字列が予め記憶されている領域毎に定められた文字列に含まれていると判断された場合には、前記認識手段によって認識された文字列を前記予め記憶されている領域毎に定められた文字列と対応する特定文字列に変換する変換手段とを有する。
【選択図】図1

Description

本発明は、画像処理システム及び画像処理プログラムに関する。
近年、紙文書の電子化が進み、紙文書をスキャナ等により電子化された文書(以下、画像データと称する)に対して、様々な処理が施されている。例えば、多種多様な画像データから画像処理によるフォーマット(表の位置や大きさの違いなど)や光学式文字認識処理(以下、OCR処理と称する)による文字を認識し、認識した結果を用いて、他の画像データとの関係を、変換規則情報として保持し、変換規則情報に従い変換する場合がある。具体的には、帳票を対象とした画像データで用いられ、A社、B社毎に異なる帳票のフォーマットや同一の内容を指すが表現の異なる情報(価格と値段など)などを予め変換規則情報として保持し、A社の帳票画像データからB社の帳票画像データへの変換の際に用いられる。
これらに関連する技術として、例えば、特許文献1には、文書の依存関係を効果的に管理可能な文書管理装置が開示されている。また、例えば、特許文献2には、文書のユーザに対して文脈依存ツール、制御およびヘルプコンテンツを提供するための機能が付加されたコンピュータで生成された「スマート」文書を作成、実施および使用するための方法およびシステムが開示されている。
また、例えば、特許文献3には、XML文書の表示文書上で指定された挿入位置を基に、当該XML文書への新たな要素を挿入することができる方法および装置が開示されている。
特開2003−281118号公報 特開2004−46828号公報 特開2004−272684号公報
本発明は、このような背景技術の状況の中でなされたもので、変換規則情報の増加を抑制することができなかったことを課題とし、変換規則情報の増加を抑制することのできる画像処理システム及び画像処理プログラムを提供することを目的とする。
上記目的を達成するために請求項1の発明は、文字列を含む領域を複数有する文書画像を入力する入力手段と、前記入力手段によって入力された文書画像を領域毎に分割する分割手段と、前記入力手段によって入力された文書画像から文字列を認識する認識手段と、前記分割手段によって分割された領域毎に前記認識手段によって認識された文字列が、予め記憶されている領域毎に定められた文字列に含まれているか否かを判断する判断手段と、前記判断手段により、前記認識手段によって認識された文字列が予め記憶されている領域毎に定められた文字列に含まれていると判断された場合には、前記認識手段によって認識された文字列を前記予め記憶されている領域毎に定められた文字列と対応する特定文字列に変換する変換手段とを有することを特徴とする。
なお、本発明は請求項2の発明のように、前記予め記憶されている領域毎に定められた文字列は、前記特定文字が示す意味を有する文字列毎に設けられた集団に属しており、前記特定文字列は、前記集団毎に対応づけられているようにしても良い。
なお、本発明は請求項3の発明のように、前記予め記憶されている領域毎に定められた文字列は、前記認識手段が誤認識した場合の文字列が含まれるようにしても良い。
なお、本発明は請求項4の発明のように、前記特定文字列が示す内容を含む文書画像である出力文書画像を出力するために、前記特定文字列を、前記出力文書画像に応じて変更する変更手段を更に有するようにしても良い。
なお、本発明は請求項5の発明のように、前記領域は、前記文字列に対応すると共に所定の値を示す値情報を更に含み、前記認識手段は、前記値情報を認識し、前記変更手段は、前記認識手段によって認識された値を、前記出力文書画像に応じて変更するようにしても良い。
上記目的を達成するために請求項6の発明は、文字列を含む領域を複数有する文書画像を入力する入力ステップと、前記入力ステップによって入力された文書画像を領域毎に分割する分割ステップと、前記入力ステップによって入力された文書画像から文字列を認識する認識ステップと、前記分割ステップによって分割された領域毎に前記認識ステップによって認識された文字列が、予め記憶されている領域毎に定められた文字列に含まれているか否かを判断する判断ステップと、前記判断ステップにより、前記認識ステップによって認識された文字列が予め記憶されている領域毎に定められた文字列に含まれていると判断された場合には、前記認識ステップによって認識された文字列を前記予め記憶されている領域毎に定められた文字列と対応する特定文字列に変換する変換ステップとを有する処理をコンピュータで実行する。
請求項1に記載の発明によれば、本構成を有していない場合に比較して、文書画像全体ではなく領域毎に変換規則情報を持つことができるため、他の文書画像で同様の領域があった場合には新たに変換規則情報を作成する必要がないため、変換規則情報の増加を抑制することのできる画像処理システムを提供することができる。
請求項2に記載の発明によれば、本構成を有していない場合に比較して、特定文字が示す意味を有する文字列を特定文字に統一できる。
請求項3に記載の発明によれば、本構成を有していない場合に比較して、文字列を誤認識した場合にも、特定文字列に変換することができる。
請求項4に記載の発明によれば、本構成を有していない場合に比較して、出力文書画像に応じて特定文字列を変更することができる。
請求項5に記載の発明によれば、本構成を有していない場合に比較して、文字列に対応すると共に所定の値を示す値情報が示す値を、出力文書画像に応じて変更することができる。
請求項6に記載の発明によれば、本構成を有していない場合に比較して、文書画像全体ではなく領域毎に変換規則情報を持つことができるため、他の文書画像で同様の領域があった場合には新たに変換規則情報を作成する必要がないため、変換規則情報の増加を抑制することのできる画像処理プログラムを提供することができる。
以下、図面を参照して、本発明の一実施の形態について詳細に説明する。図1は、本発明の一実施の形態の概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはプログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、プログラム、システムおよび方法の説明をも兼ねている。また、モジュールは機能にほぼ一対一に対応しているが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散または並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続を含む。
また、システムとは、複数のコンピュータ、ハードウェア、装置等がネットワーク等で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。
次に、図1を用いて本実施の形態に係る処理の概要について説明する。本実施の形態では、同図に示されるように、文書画像毎ではなく、領域毎(表領域a、b、c、d)に変換規則情報を持っている。
そして、本実施の形態では、同図に示されるように、異なる文書画像A、Bにおいて、文書画像Aから表領域a、b、c、dを抽出し、抽出した表領域a、b、c、dを文書画像Bに応じて変換規則情報を用いて変換し、それらを文書画像Bに応じて再配置する。ここでの表領域a、b、c、dの種別は例えば組織、商品などとなっている。
このようにすることで、同図に示されるように、文書画像A、Bの2種類存在しても、変換規則情報が増えることを抑制することができる。
次に、本実施の形態に係るモジュール構成について、図2を用いて説明する。本実施の形態に係るモジュールは、図2に示すように、入力モジュール18、分割モジュール20、認識モジュール22、判断モジュール24、変換モジュール26、及び変更モジュール28、出力モジュール30を含んで構成される。
入力モジュール18は、判断モジュールモジュール24及び認識モジュール22と接続されており、文字列を含む領域を複数有する文書画像を入力する。
ここで、文書画像とは、電子的な文書であり、より具体的には、スキャナにより入力された画像である文書、文書生成アプリケーション(例えば、ワープロ等)により生成された文書画像などを含む。そして、入力するとは、スキャナを用いて取得すること、文書データベースから文書を取得すること、通信回線を介して、外部のシステムから取得すること等を含む。また、取得する文書は、1ページであってもよいし、複数ページの文書であってもよい。
なお、入力モジュール18は、認識モジュール22と接続されているが、これらの関係については後述する。
分割モジュール20は、入力モジュール18と認識モジュール22に接続されており、入力モジュール18によって入力された文書画像を領域毎に分割する。
認識モジュール22は、入力モジュール18、分割モジュール20、判断モジュール24、変換モジュール26、及び変更モジュール28に接続している。認識モジュール22は、入力モジュール18によって入力された文書画像から文字列を認識するモジュールであり、分割モジュール20により分割された文書画像から文字列を認識しても良いし、入力モジュール18により入力された文書画像から文字列を認識した後に、分割モジュール20により文書画像を分割するようにしても良い。
判断モジュール24は、認識モジュール22に接続し、認識モジュール22が認識した文字列が予め記憶されている領域毎に定められた文字列に含まれているか否かを判断する。
変換モジュール26は、認識モジュール22及び変更モジュール28に接続し、判断モジュール24により、認識モジュール22によって認識された文字列が予め記憶されている領域毎に定められた文字列に含まれていると判断された場合には、認識モジュール22によって認識された文字列を予め記憶されている領域毎に定められた文字列と対応する一意の属性名(特定文字列)に変換するモジュールである。変更モジュール28は、変更モジュール28及び出力モジュール30に接続し、一意の属性名が示す内容を含む文書画像である出力文書画像を出力モジュール30が出力するために、一意の属性名を、出力文書画像に応じて変更するモジュールである。また、変更モジュール28は、認識モジュール22によって認識された値を、出力文書画像に応じて変更する。
出力モジュール30は、変更モジュール28に接続し、変更モジュール28が変更した一意の属性名、及び値を含む出力文書画像を出力する。
次に、図3を参照して、実施の形態の画像処理システムのハードウェア構成例について説明する。図3に示す構成は、例えばパーソナルコンピュータ(PC)などによって構成される画像処理システムであり、スキャナ等のデータ読み取り部1217と、プリンタなどのデータ出力部1218を備えたハード構成例を示している。なお、このハードウェア構成は、他の実施の形態についても適用する。
本実施の形態による画像処理システムは、図3に示すように、CPU(Central Processing Unit)1201、ROM(Read Only Memory)1202、RAM(Random Access Memory)1203、ホストバス1204、ブリッジ1205、外部バス1206、インタフェース1207、キーボード1208、ポインティングデバイス1209、ディスプレイ1210、HDD(Hard Disk Drive)1211、ドライブ1212、接続ポート1214、外部接続機器1215、通信部1216、データ読み取り部1217、及びデータ出力部1218を有する。
CPU1201は、上述の実施の形態において説明した各種のモジュール、すなわち、各モジュールの実行シーケンスを記述したコンピュータ・プログラムに従った処理を実行する制御部である。
ROM1202は、CPU1201が使用するプログラムや演算パラメータ等を格納する。RAM1203は、CPU1201の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはCPUバスなどから構成されるホストバス1204により相互に接続されている。
ホストバス1204は、ブリッジ1205を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス1206に接続されている。
キーボード1208、マウス等のポインティングデバイス1209は、操作者により操作される入力デバイスである。ディスプレイ1210は、液晶表示装置またはCRT(Cathode Ray Tube)などから成り、各種情報をテキストやイメージ情報として表示する。
HDD1211は、ハードディスクを内蔵し、ハードディスクを駆動し、CPU1201によって実行するプログラムや情報を記録または再生させる。ハードディスクには、各種のデータ処理プログラム等、各種コンピュータ・プログラムが格納される。
ドライブ1212は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体1213に記録されているデータまたはプログラムを読み出して、そのデータまたはプログラムを、インタフェース1207、外部バス1206、ブリッジ1205、およびホストバス1204を介して接続されているRAM1203に供給する。リムーバブル記録媒体1213も、ハードディスクと同様のデータ記録領域として利用可能である。
接続ポート1214は、外部接続機器1215を接続するポートであり、USB、IEEE1394等の接続部を持つ。接続ポート1214は、インタフェース1207、および外部バス1206、ブリッジ1205、ホストバス1204等を介してCPU1201等に接続されている。通信部1216は、ネットワークに接続され、外部とのデータ通信処理を実行する。データ読み取り部1217は、例えばスキャナであり、ドキュメントの読み取り処理を実行する。データ出力部1218は、例えばプリンタであり、ドキュメントデータの出力処理を実行する。
なお、図3に示す画像処理システムのハードウェア構成は、1つの構成例を示すものであり、本実施の形態の画像処理システムは、図2に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えばASIC等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図3に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、複写機、ファックス、スキャナ、プリンタ、複合機(多機能複写機とも呼ばれ、スキャナ、プリンタ、複写機、ファックス等の機能を有している)などに組み込まれていてもよい。
なお、説明したプログラムについては、記録媒体に格納することも可能であり、また、そのプログラムを通信手段によって提供することもできる。その場合、例えば、上記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えることもできる。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去および書換可能な読出し専用メモリ(EEPROM)、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)等が含まれる。
そして、上記のプログラムまたはその一部は、上記記録媒体に記録して保存や流通等させることが可能である。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにはこれらの組合せ等の伝送媒体を用いて伝送することが可能であり、また、搬送波に乗せて搬送することも可能である。
さらに、上記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。
次に、画像データの変換を行うための情報である変換規則情報について説明する。変換規則情報とは、多種多様な画像データAから画像処理によるフォーマット(表の位置や大きさの違いなど)やOCR処理による文字を認識し、認識した結果を用いて、他の画像データBに変換する場合に用いられる画像データAと画像データBとの関係を示す情報である。
この変換規則情報の種類として、本実施の形態では属性変換規則情報と属性名変換規則情報がある。
このうち、属性変換規則情報とは、予め記憶されている領域毎に定められた文字列であり、種別毎に設けられている。ここで種別とは、画像データの領域(表構造が形成されていると考えられる領域、この領域は図2の分割モジュール20によって得られるものである)に示される文字列が表す内容の種類によって分類して表わされるものである。
この領域には、例えば文書画像が帳票の場合、商品名や価格などに商品情報に関する文字列が記載されており、或いは文書画像が社内文書であれば、組織情報に関する文字列が記載されている。このように、同じ領域に記載されている文字列にはそれぞれ関連した特徴があり、種別は、そのような関連のある文字列を分野ごとに分類することで得られた種類を表わしている。具体的に種別として例えば上述した商品番号、組織名などがある。
また、属性変換規則情報は、言葉の表記揺れを吸収し、1つの文字列に変換するための役割を持つ。ここで、表記揺れとは、同一の対象に対して異なる複数の表記(文字列)が存在することを示す。更に本実施の形態では、後述するように画像データに対してOCR処理を実行して文字列を読み取るため、OCR処理により文字の誤認識が生じることを考慮し、属性変換規則情報はそのOCR誤りを吸収し、本来認識されるべき文字列に変換するための役割も持つ。
まず、図4、図5を用いて、属性変換規則情報の詳細について説明する。図4は、属性変換規則情報の一例として商品に関する属性変換規則情報を示している。同図に示される属性名とは、所定の種別に属する文字列を示している。上記属性名は、更に「表記」と「OCR」に分類される。「表記」とは、表記揺れしている文字列を示す。この表記揺れとは、同一の対象に対して異なる複数の表記(文字列)が存在することを示す。
また、「OCR」とは、OCR処理により正しく認識された文字列と誤認識された文字列を示す。
また、同図に示される一意の属性名とは、1つ以上の属性名を1つの文字列により示すもので、上記表記揺れ及びOCR誤りを吸収した文字列を示している。
同図に示す例では、表記揺れとして商品番号、商品ナンバー、商品コードなどが示されている。これらの文字列に対応するOCR誤りとして商品香号などが示され、これらを吸収した文字列が商品番号であることが示されている。
このように、属性変換規則情報においては、予め記憶されている領域毎に定められた文字列(表記:商品番号、商品ナンバーなど)は、一意の属性名(商品番号)が示す意味を有する文字列毎に設けられた集団に属しており、一意の属性名(商品番号)は、集団(商品番号、商品ナンバーなどを含む文字列の集団)毎に対応づけられている。
次に、図5を用いて属性変換規則情報の他の例である組織情報に関する属性変換規則情報について説明する。同図に示される属性名、表記揺れ、OCR誤り、及び一意の属性名は、図4で説明した通りである。
同図には、表記揺れとして○○○○技開部などが示されている。これらの文字列に対応するOCR誤りとして○○○○技開部、○○○○技開剖などが示され、これらを吸収した文字列が○○○○技術開発部であることが示されている。
以上説明した属性変換規則情報には、上述した商品情報に関する種別や組織情報に関する種別だけではなく、多くの種別が存在する。
次に、図6を用いて属性名変換規則情報について説明する。属性名変換規則情報は、一意の属性名と、出力に応じた属性文字列とが対応づけられた情報である。この属性名変換規則情報を用いて、変更モジュール28(図2参照)は、変換モジュール26(図2参照)により属性変換規則情報を用いて変換された一意の属性名を、出力に応じた属性文字列に変換する。
出力属性名とは、出力に対応した文字列であり、例えばA社などの出力先に応じた属性名である。具体的に同図に示される商品番号は、A社が出力先の場合、商品コードに変更されることが示されている。
以上説明した属性変換規則情報及び属性名変換規則情報により、まずOCR処理によって読み取られた文字列が属性変換規則情報を用いて一意の属性名に変換され、一意の属性名は、属性名変換DBを用いて出力先属性名に変更される。
なお、種別に応じて予め変換規則情報を設定しておくことで、属性名の変更に留まることなく、対応する属性値の表記法をも変換することが可能である。例えば、金額であれば通貨単位を変更したり、日付欄であれば西暦と和暦を変換する等である。更に、同じ日付欄であってもこれら変換を実施すべき場合と実施すべきでない場合を、領域の種別に応じて設定しておくことで、より柔軟性のある運用が可能である。
なお、上述した各DBはXMLを用いて作成することも可能である。この場合、OCR処理により読み取られた文字列である属性名をXMLのタグとしておき、更に出力先属性名もXMLのタグとしておき、それらのタグが変換可能なように、XMLスキーマを用いて定義する。
以下、本実施の形態に係る処理を、各フローチャートを用いて説明する。以下に示される各フローチャートは、スキャナなどにより読み込まれた帳票などを示す画像データに対してCPU1201が実行する処理を示している。
まず、図7のフローチャートを用いて領域分割処理について説明する。なお、この領域分割処理は、特開2002−203249号公報にその詳細が開示されている。
以上を踏まえて、図7のフローチャートについて説明をする。まず、ステップ101で、分割モジュール20は、連結部分の外接矩形を作成する。連結部分とは、例えば表の罫線のように連結されている領域である。そして、その連結部分を囲む矩形が外接矩形である。
次のステップ102で、分割モジュール20は、作成した外接矩形の縦の辺の長さHおよび横の辺の長さWと、あらかじめ定めておいた表候補を判定するための外接矩形の辺の長さに関するしきい値とを比較する。分割モジュール20は、当該外接矩形の縦の辺の長さHおよび横の辺の長さWとも上記しきい値に満たない場合には、ステップ106で当該連結部分と外接矩形の組を表候補から除外する。
一方、ステップS102において当該外接矩形の縦の辺の長さHまたは横の辺の長さWの少なくとも一方が、表候補を判定するためのしきい値よりも長かった場合には、分割モジュール20は、ステップ103で、当該連結部分および外接矩形の組に対して外接矩形内の画素密度を算出する。
この外接矩形内の画素密度は、外接矩形の縦の辺の長さHと横の辺の長さWとの積で求まる面積と、連結部分を構成するすべての画素数との比として求めることができる。
次のステップ104で、分割モジュール20は、算出した画素密度が、あらかじめ定めた表候補を判定するための画素密度に関するしきい値以下であるか否かを判定し、しきい値以下であると判定した場合には、ステップ105で分割モジュール20は当該連結部分と外接矩形の組を表候補と判定する。一方、算出した画素密度が上記しきい値を超える場合には、上述したステップ106で分割モジュール20は、当該連結部分と外接矩形の組を表候補から除外する。
以上の処理により、表候補が得られる。この表候補が表であるか否かを判定する処理を、図9のグラフ(a)(b)を参照しながら、図8のフローチャートを用いて説明する。
分割モジュール20は、表候補である連結画素成分の外接矩形に注目し、S1111でその中心座標(XCENTER,YCENTER)を算出する。次のステップS1112で、分割モジュール20は、水平方向の投影分布に注目し、当該投影分布において頻度しきい値THHを超える頻度を持つ部分を、垂直方向に伸びる垂直罫線が存在する可能性があると判定して垂直罫線候補として検出する。垂直罫線候補が全く検出されなかった場合に、分割モジュール20は、ステップS1113で、当該表候補は表ではないと判定する。
ステップS1112において1箇所以上で垂直罫線候補が検出された場合に、分割モジュール20は、垂直方向の投影分布に注目する。そして、分割モジュール20は、ステップ1114で当該投影分布において頻度しきい値THVを超える頻度を持つ部分を、水平方向に伸びる水平罫線が存在する可能性があると判定して水平罫線候補として検出する。水平罫線候補が全く検出されなかった場合に、分割モジュール20は、ステップS1113で、当該表候補は表ではないと判定する。
上記の処理において、水平罫線候補及び垂直罫線候補のどちらも検出された場合に、分割モジュール20は、水平罫線候補が2箇所以上存在するかどうかを判定する。ここで、水平罫線候補が1箇所のみであった場合に、分割モジュール20は、ステップS1116で、さらに垂直罫線候補が2箇所以上存在するかどうかを判定する。逆に、水平罫線候補が2箇所以上で存在する場合に、分割モジュール20は、ステップS1111で算出した外接矩形の中心座標YCENTERを境界とし、図9(a)に示す垂直方向の投影分布を当該境界で分割して得られる2つの投影区間YSTART〜YCENTERとYCENTER〜YENDにおいてそれぞれ少なくとも1箇所以上で頻度しきい値THVを超える水平罫線候補が存在するかどうかをステップS1117で判定する。
この条件を満足する場合は、分割モジュール20は、ステップS1119で当該表候補である連結画素成分の外接矩形で囲まれる閉領域を表領域であると決定する。逆に、この条件を満足しない場合およびステップS1116で垂直罫線候補が2箇所以上存在する場合には、ステップS1111で算出した外接矩形の中心座標XCENTERを境界とし、図9(a)に示す水平方向の投影分布を当該境界で分割して得られる2つの投影区間XSTART〜XCENTERとXCENTER〜XENDにおいてそれぞれ少なくとも1箇所以上で頻度しきい値THHを超える垂直罫線候補が存在するかどうかをステップS1118で分割モジュール20は判定する。この条件を満足する場合に、分割モジュール20は、ステップS1119で当該表候補である連結画素成分の外接矩形で囲まれる閉領域を表領域であると決定する。逆に、この条件を満足しない場合に、分割モジュール20は、ステップ1113で当該表候補は表ではないと判定する。
以上の処理により、分割モジュール20は、文書画像を領域毎に分割する。この図8で説明した処理の他に、図10に示される処理で領域を分割しても良い。まず、ステップ201で、分割モジュール20は、ラベリングを実行する。このラベリングとは、連結成分を構成するすべての画素に同一のラベル値を付加する処理である。次のステップ202で、分割モジュール20は、連結成分の外接矩形を作成し、ステップ203で外接矩形の縦の辺、横の辺の長さを算出する。次のステップ204で、分割モジュール20は、外接矩形を文字/図/フィールドセパレータ/ノイズの各候補に分類する。この分類に関する処理の詳細は、特開2000−90194号公報の段落0032から0037に開示されているので、これ以上のここでの説明は省略する。
次に、図11のフローチャートを用いて種別特定処理について説明する。まず、ステップ301で、認識モジュール22は、上記領域分割処理により得られた表領域に存在する表のセルを抽出する。次のステップ302で、認識モジュール22は、表領域に存在する各セル内の文字列をOCR処理により認識する。
次に、判断モジュール24は、ステップ303で、認識モジュール22が認識した文字列が属性変換規則情報に含まれるか否か判断する。ステップ303で、判断モジュール24が肯定判断した場合、ステップ304で、認識モジュール22は文字列を保持する。一方、ステップ303で判断モジュール24が否定判断した場合、ステップ305に処理が進む。
ステップ305で、認識モジュール22は、表領域に存在する全ての文字列を抽出したか否かを判断する。認識モジュール22が否定判断した場合、再びステップ301に処理が進む。認識モジュール22が肯定判断した場合、ステップ306で、認識モジュール22は、保持された文字列を最も多く含む属性DBが示す種別を表領域の種別とする。
このステップ306の処理について具体的に説明すると、上述したように属性変換規則情報には商品情報に関するものなど多くの種別に関するものがあり、ステップ306の処理は、一つの表に存在する各文字列を最も多く含む属性変換規則情報が示す種別が、その表領域の種別と判断する処理である。また、上述したように、属性変換規則情報は、表記揺れ、OCR揺れされた文字列も含まれるため、その文字列もステップ306では考慮されている。
このようにして種別が定まった表領域に対して、次の図12に示される属性値抽出処理が実行される。この処理は、例えば表の1つのセルに価格と記され、その例えば右隣に500円と記載されている場合、価格と500円を一つの組として抽出する処理である。この例では、500円が属性値である。
まず、ステップ401で、認識モジュール22は、セル内の文字列が属性名か否か判断する。認識モジュール22が否定判断した場合、ステップ406に処理が進み、肯定判断した場合、ステップ402で、隣接セルを特定する。この隣接セルの例として、通常の文書において属性値が記載されていることが多い右隣もしくは下隣のセルが挙げられる。
次のステップ403で、認識モジュール22は、特定したセル内の文字列が属性名か否か判断する。文字列が属性名の場合、属性値を得ることができないため、ステップ406に処理が進み、文字列が属性名ではない場合、認識モジュール22はステップ404で、特定したセル内の文字列(属性値)が属性名に対応しているか否か判断する。これは例えば属性名が価格である場合に、2006年など価格ではない文字列ではないか否かを判断する処理である。この処理は、例えば自然言語解析などを用いて実行され、その場合、例えば図13で示される固有表現例に示される文字列によりセル内の文字列が対応しているか否かを判断することができる。
上記ステップ404で認識モジュール22が否定判断した場合、ステップ406に処理が進み、肯定判断した場合、ステップ405で認識モジュール22は、属性名、属性値の組を属性として抽出する。次のステップ406で、認識モジュール22は、全てのセルに対してステップ401からステップ405の処理が実行されたか否かを判断し、肯定判断した場合、処理を終了し、否定判断した場合、処理されていないセルに対して再びステップ401以降の処理を実行する。
次に、図14を用いて、出力文書画像生成処理について説明する。この画像データ生成処理は、文字列を対応する一意の文字列に変換し、一意の文字列が示す内容を含む文書画像である出力文書画像を出力する処理である。出力文書画像を出力するために、一意の文字列及び値(属性値)を、出力文書画像に応じて変更する。
まず、ステップ501で、変換モジュール26は、属性値抽出処理(図12参照)により抽出された属性のうちの属性名を属性変換規則情報に基づき一意の属性名に変換する。次のステップ502で、変更モジュール28は、一意の属性名を属性名変換DBに基づき出力属性名に変換する。例えば出力先がA社であれば商品番号が商品コードに変換される。更に、変更モジュール28は、ステップ503で、出力文書画像に応じて属性値を変更する。
次のステップ504で、出力モジュール30は、変更された属性名と属性値を、出力先の書式に基づき配置した出力文書画像を生成し、処理を終了する。
以上の処理により変換された領域の例を、図15を用いて説明する。図15には変換前の領域と変換後の領域とが示されている。同図に示されるように、「商品コード」は「プロダクトナンバー」、「メーカー」は「製造者」、「値段」は「価格」なる出力属性名それぞれ変換されている。また、属性値である「¥500」は、「$5.00」に変換されている。出力モジュール30は、このように変換された領域を組み合わせて出力文書画像を生成する。
なお、本実施の形態に係る画像処理システムは、例えば図16に示されるように、種別毎に専門のサーバA、B、C、Dを設け、それぞれに処理を並行に実行させ、その結果を統合サーバで統合させることで、文書画像を出力することも可能である。この場合、種別特定処理(図11参照)までを1つのコンピュータで実行し、種別に対する処理を実行する上記サーバA、B、C、Dに対応する表領域の情報を転送し、各サーバがそれぞれ属性値抽出処理(図12参照)を実行し、得られた情報を統合サーバが画像データ生成処理(図14)を実行することとなる。
以上説明した各フローチャートの処理の流れは一例であり、本発明の主旨を逸脱しない範囲内で処理順序を入れ替えたり、新たなステップを追加したり、不要なステップを削除したりすることができることは言うまでもない。
本実施の形態に係る処理の概要を示す模式図である。 本実施の形態に係るモジュール構成を示す図である。 本実施の形態に係るパソコンの構成を示す図である。 本実施の形態に係る商品情報に関する属性変換規則情報例を示す図である。 本実施の形態に係る組織情報に関する属性変換規則情報例を示す図である。 本実施の形態に係る属性名変換規則情報例を示す図である。 本実施の形態に係る領域分割処理を示すフローチャート(その1)である。 本実施の形態に係る表候補判定処理を示すフローチャートである。 本実施の形態に係る投影分布を示す図である。 本実施の形態に係る領域分割処理を示すフローチャート(その2)である。 本実施の形態に係る種別特定処理を示すフローチャートである。 本実施の形態に係る属性値抽出処理を示すフローチャートである。 本実施の形態に係る固有表現例を示す図である。 本実施の形態に係る画像データ生成処理を示すフローチャートである。 本実施の形態に係る領域変換例を示す図である。 本実施の形態に係る画像処理システム構成例を示す図である。
符号の説明
18 入力モジュール
20 分割モジュール
22 認識モジュール
24 判断モジュール
26 変換モジュール
28 変更モジュール
30 出力モジュール
1201 CPU
1211 HDD

Claims (6)

  1. 文字列を含む領域を複数有する文書画像を入力する入力手段と、
    前記入力手段によって入力された文書画像を領域毎に分割する分割手段と、
    前記入力手段によって入力された文書画像から文字列を認識する認識手段と、
    前記分割手段によって分割された領域毎に前記認識手段によって認識された文字列が、予め記憶されている領域毎に定められた文字列に含まれているか否かを判断する判断手段と、
    前記判断手段により、前記認識手段によって認識された文字列が予め記憶されている領域毎に定められた文字列に含まれていると判断された場合には、前記認識手段によって認識された文字列を前記予め記憶されている領域毎に定められた文字列と対応する特定文字列に変換する変換手段と
    を有することを特徴とする画像処理システム。
  2. 前記予め記憶されている領域毎に定められた文字列は、前記特定文字列が示す意味を有する文字列毎に設けられた集団に属しており、前記特定文字列は、前記集団毎に対応づけられている請求項1に記載の画像処理システム。
  3. 前記予め記憶されている領域毎に定められた文字列は、前記認識手段が誤認識した場合の文字列が含まれる請求項1又は請求項2に記載の画像処理システム。
  4. 前記特定文字列が示す内容を含む文書画像である出力文書画像を出力するために、前記特定文字列を、前記出力文書画像に応じて変更する変更手段を更に有する請求項1から請求項3のいずれか1項に記載の画像処理システム。
  5. 前記領域は、前記文字列に対応すると共に所定の値を示す値情報を更に含み、
    前記認識手段は、前記値情報から値を認識し、
    前記変更手段は、前記認識手段によって認識された値を、前記出力文書画像に応じて変更する請求項4に記載の画像処理システム。
  6. 文字列を含む領域を複数有する文書画像を入力する入力ステップと、
    前記入力ステップによって入力された文書画像を領域毎に分割する分割ステップと、
    前記入力ステップによって入力された文書画像から文字列を認識する認識ステップと、
    前記分割ステップによって分割された領域毎に前記認識ステップによって認識された文字列が、予め記憶されている領域毎に定められた文字列に含まれているか否かを判断する判断ステップと、
    前記判断ステップにより、前記認識ステップによって認識された文字列が予め記憶されている領域毎に定められた文字列に含まれていると判断された場合には、前記認識ステップによって認識された文字列を前記予め記憶されている領域毎に定められた文字列と対応する特定文字列に変換する変換ステップと
    を有する処理をコンピュータで実行するための画像処理プログラム。
JP2006265667A 2006-09-28 2006-09-28 画像処理システム及び画像処理プログラム Pending JP2008084186A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006265667A JP2008084186A (ja) 2006-09-28 2006-09-28 画像処理システム及び画像処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006265667A JP2008084186A (ja) 2006-09-28 2006-09-28 画像処理システム及び画像処理プログラム

Publications (1)

Publication Number Publication Date
JP2008084186A true JP2008084186A (ja) 2008-04-10

Family

ID=39354969

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006265667A Pending JP2008084186A (ja) 2006-09-28 2006-09-28 画像処理システム及び画像処理プログラム

Country Status (1)

Country Link
JP (1) JP2008084186A (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05274354A (ja) * 1991-05-17 1993-10-22 Nippon Telegr & Teleph Corp <Ntt> データ編集自動化装置
JPH05346970A (ja) * 1991-04-04 1993-12-27 Fuji Xerox Co Ltd 文書認識装置
JPH06103402A (ja) * 1992-09-18 1994-04-15 Sony Corp 名刺認識装置
JP2002099451A (ja) * 2000-09-26 2002-04-05 Kawaju Techno Service Corp データ連携システム及びデータ連携方法
JP2003091530A (ja) * 2001-09-17 2003-03-28 Toshiba Corp 構造化データ変換方法、構造化データ変換プログラム、構造化データ変換装置
JP2004145736A (ja) * 2002-10-25 2004-05-20 Canon Software Inc 文字認識装置および文字認識データ出力方法およびプログラムおよび記録媒体
JP2006092226A (ja) * 2004-09-24 2006-04-06 Fuji Xerox Co Ltd 文書属性取得方法および装置並びにプログラムを記録した記録媒体

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05346970A (ja) * 1991-04-04 1993-12-27 Fuji Xerox Co Ltd 文書認識装置
JPH05274354A (ja) * 1991-05-17 1993-10-22 Nippon Telegr & Teleph Corp <Ntt> データ編集自動化装置
JPH06103402A (ja) * 1992-09-18 1994-04-15 Sony Corp 名刺認識装置
JP2002099451A (ja) * 2000-09-26 2002-04-05 Kawaju Techno Service Corp データ連携システム及びデータ連携方法
JP2003091530A (ja) * 2001-09-17 2003-03-28 Toshiba Corp 構造化データ変換方法、構造化データ変換プログラム、構造化データ変換装置
JP2004145736A (ja) * 2002-10-25 2004-05-20 Canon Software Inc 文字認識装置および文字認識データ出力方法およびプログラムおよび記録媒体
JP2006092226A (ja) * 2004-09-24 2006-04-06 Fuji Xerox Co Ltd 文書属性取得方法および装置並びにプログラムを記録した記録媒体

Similar Documents

Publication Publication Date Title
JP5663866B2 (ja) 情報処理装置及び情報処理プログラム
US8260064B2 (en) Image processing apparatus, image processing method, computer-readable medium and computer data signal
JP4623169B2 (ja) 画像処理装置及び画像処理プログラム
JP2008210237A (ja) 文書処理プログラム、文書処理装置及び文書処理システム
KR101248449B1 (ko) 정보 처리 장치, 정보 처리 방법 및 컴퓨터 판독 가능한 기억 매체
JP2015005100A (ja) 情報処理装置、テンプレート生成方法、およびプログラム
JP6221220B2 (ja) 画像処理装置及び画像処理プログラム
JP2009251872A (ja) 情報処理装置及び情報処理プログラム
JP5365440B2 (ja) 画像処理装置及び画像処理プログラム
JP4780184B2 (ja) 画像処理装置及び画像処理プログラム
JP2008052439A (ja) 画像処理システムおよび画像処理プログラム
JP5720182B2 (ja) 画像処理装置及び画像処理プログラム
JP2008084186A (ja) 画像処理システム及び画像処理プログラム
JP6682827B2 (ja) 情報処理装置及び情報処理プログラム
JP5476884B2 (ja) 画像処理装置及び画像処理プログラム
JP5928714B2 (ja) 情報処理装置及び情報処理プログラム
JP4793429B2 (ja) 画像処理装置及び画像処理プログラム
JP4973536B2 (ja) 画像処理装置及び画像処理プログラム
JP2016053797A (ja) 画像処理装置及び画像処理プログラム
JP2011061358A (ja) 情報処理装置及び情報処理プログラム
JP5531661B2 (ja) 画像処理装置及び画像処理プログラム
JP2010049336A (ja) 画像処理装置及び画像処理プログラム
JP2010026667A (ja) 情報処理装置及び情報処理プログラム
JP2010039810A (ja) 画像処理装置及び画像処理プログラム
JP2010283536A (ja) 画像処理装置及び画像処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110722

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110902

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120313