JP2008084186A

JP2008084186A - 画像処理システム及び画像処理プログラム

Info

Publication number: JP2008084186A
Application number: JP2006265667A
Authority: JP
Inventors: Masahiro Kato; 雅弘加藤
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2006-09-28
Filing date: 2006-09-28
Publication date: 2008-04-10

Abstract

【課題】変換規則情報の増加を抑制することのできる画像処理システム及び画像処理プログラムを提供する。
【解決手段】文字列を含む領域を複数有する文書画像を入力する入力手段と、前記入力手段によって入力された文書画像を領域毎に分割する分割手段と、前記入力手段によって入力された文書画像から文字列を認識する認識手段と、前記分割手段によって分割された領域毎に前記認識手段によって認識された文字列が、予め記憶されている領域毎に定められた文字列に含まれているか否かを判断する判断手段と、前記判断手段により、前記認識手段によって認識された文字列が予め記憶されている領域毎に定められた文字列に含まれていると判断された場合には、前記認識手段によって認識された文字列を前記予め記憶されている領域毎に定められた文字列と対応する特定文字列に変換する変換手段とを有する。
【選択図】図１

Description

本発明は、画像処理システム及び画像処理プログラムに関する。

近年、紙文書の電子化が進み、紙文書をスキャナ等により電子化された文書（以下、画像データと称する）に対して、様々な処理が施されている。例えば、多種多様な画像データから画像処理によるフォーマット（表の位置や大きさの違いなど）や光学式文字認識処理（以下、ＯＣＲ処理と称する）による文字を認識し、認識した結果を用いて、他の画像データとの関係を、変換規則情報として保持し、変換規則情報に従い変換する場合がある。具体的には、帳票を対象とした画像データで用いられ、Ａ社、Ｂ社毎に異なる帳票のフォーマットや同一の内容を指すが表現の異なる情報（価格と値段など）などを予め変換規則情報として保持し、Ａ社の帳票画像データからＢ社の帳票画像データへの変換の際に用いられる。

これらに関連する技術として、例えば、特許文献１には、文書の依存関係を効果的に管理可能な文書管理装置が開示されている。また、例えば、特許文献２には、文書のユーザに対して文脈依存ツール、制御およびヘルプコンテンツを提供するための機能が付加されたコンピュータで生成された「スマート」文書を作成、実施および使用するための方法およびシステムが開示されている。
また、例えば、特許文献３には、ＸＭＬ文書の表示文書上で指定された挿入位置を基に、当該ＸＭＬ文書への新たな要素を挿入することができる方法および装置が開示されている。
特開２００３−２８１１１８号公報特開２００４−４６８２８号公報特開２００４−２７２６８４号公報

本発明は、このような背景技術の状況の中でなされたもので、変換規則情報の増加を抑制することができなかったことを課題とし、変換規則情報の増加を抑制することのできる画像処理システム及び画像処理プログラムを提供することを目的とする。

上記目的を達成するために請求項１の発明は、文字列を含む領域を複数有する文書画像を入力する入力手段と、前記入力手段によって入力された文書画像を領域毎に分割する分割手段と、前記入力手段によって入力された文書画像から文字列を認識する認識手段と、前記分割手段によって分割された領域毎に前記認識手段によって認識された文字列が、予め記憶されている領域毎に定められた文字列に含まれているか否かを判断する判断手段と、前記判断手段により、前記認識手段によって認識された文字列が予め記憶されている領域毎に定められた文字列に含まれていると判断された場合には、前記認識手段によって認識された文字列を前記予め記憶されている領域毎に定められた文字列と対応する特定文字列に変換する変換手段とを有することを特徴とする。

なお、本発明は請求項２の発明のように、前記予め記憶されている領域毎に定められた文字列は、前記特定文字が示す意味を有する文字列毎に設けられた集団に属しており、前記特定文字列は、前記集団毎に対応づけられているようにしても良い。

なお、本発明は請求項３の発明のように、前記予め記憶されている領域毎に定められた文字列は、前記認識手段が誤認識した場合の文字列が含まれるようにしても良い。

なお、本発明は請求項４の発明のように、前記特定文字列が示す内容を含む文書画像である出力文書画像を出力するために、前記特定文字列を、前記出力文書画像に応じて変更する変更手段を更に有するようにしても良い。

なお、本発明は請求項５の発明のように、前記領域は、前記文字列に対応すると共に所定の値を示す値情報を更に含み、前記認識手段は、前記値情報を認識し、前記変更手段は、前記認識手段によって認識された値を、前記出力文書画像に応じて変更するようにしても良い。

上記目的を達成するために請求項６の発明は、文字列を含む領域を複数有する文書画像を入力する入力ステップと、前記入力ステップによって入力された文書画像を領域毎に分割する分割ステップと、前記入力ステップによって入力された文書画像から文字列を認識する認識ステップと、前記分割ステップによって分割された領域毎に前記認識ステップによって認識された文字列が、予め記憶されている領域毎に定められた文字列に含まれているか否かを判断する判断ステップと、前記判断ステップにより、前記認識ステップによって認識された文字列が予め記憶されている領域毎に定められた文字列に含まれていると判断された場合には、前記認識ステップによって認識された文字列を前記予め記憶されている領域毎に定められた文字列と対応する特定文字列に変換する変換ステップとを有する処理をコンピュータで実行する。

請求項１に記載の発明によれば、本構成を有していない場合に比較して、文書画像全体ではなく領域毎に変換規則情報を持つことができるため、他の文書画像で同様の領域があった場合には新たに変換規則情報を作成する必要がないため、変換規則情報の増加を抑制することのできる画像処理システムを提供することができる。

請求項２に記載の発明によれば、本構成を有していない場合に比較して、特定文字が示す意味を有する文字列を特定文字に統一できる。

請求項３に記載の発明によれば、本構成を有していない場合に比較して、文字列を誤認識した場合にも、特定文字列に変換することができる。

請求項４に記載の発明によれば、本構成を有していない場合に比較して、出力文書画像に応じて特定文字列を変更することができる。

請求項５に記載の発明によれば、本構成を有していない場合に比較して、文字列に対応すると共に所定の値を示す値情報が示す値を、出力文書画像に応じて変更することができる。

請求項６に記載の発明によれば、本構成を有していない場合に比較して、文書画像全体ではなく領域毎に変換規則情報を持つことができるため、他の文書画像で同様の領域があった場合には新たに変換規則情報を作成する必要がないため、変換規則情報の増加を抑制することのできる画像処理プログラムを提供することができる。

以下、図面を参照して、本発明の一実施の形態について詳細に説明する。図１は、本発明の一実施の形態の概念的なモジュール構成図を示している。

なお、モジュールとは、一般的に論理的に分離可能なソフトウェア、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはプログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、プログラム、システムおよび方法の説明をも兼ねている。また、モジュールは機能にほぼ一対一に対応しているが、実装においては、１モジュールを１プログラムで構成してもよいし、複数モジュールを１プログラムで構成してもよく、逆に１モジュールを複数プログラムで構成してもよい。また、複数モジュールは１コンピュータによって実行されてもよいし、分散または並列環境におけるコンピュータによって１モジュールが複数コンピュータで実行されてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続を含む。

また、システムとは、複数のコンピュータ、ハードウェア、装置等がネットワーク等で接続されて構成されるほか、１つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。

次に、図１を用いて本実施の形態に係る処理の概要について説明する。本実施の形態では、同図に示されるように、文書画像毎ではなく、領域毎（表領域ａ、ｂ、ｃ、ｄ）に変換規則情報を持っている。

そして、本実施の形態では、同図に示されるように、異なる文書画像Ａ、Ｂにおいて、文書画像Ａから表領域ａ、ｂ、ｃ、ｄを抽出し、抽出した表領域ａ、ｂ、ｃ、ｄを文書画像Ｂに応じて変換規則情報を用いて変換し、それらを文書画像Ｂに応じて再配置する。ここでの表領域ａ、ｂ、ｃ、ｄの種別は例えば組織、商品などとなっている。

このようにすることで、同図に示されるように、文書画像Ａ、Ｂの２種類存在しても、変換規則情報が増えることを抑制することができる。

次に、本実施の形態に係るモジュール構成について、図２を用いて説明する。本実施の形態に係るモジュールは、図２に示すように、入力モジュール１８、分割モジュール２０、認識モジュール２２、判断モジュール２４、変換モジュール２６、及び変更モジュール２８、出力モジュール３０を含んで構成される。

入力モジュール１８は、判断モジュールモジュール２４及び認識モジュール２２と接続されており、文字列を含む領域を複数有する文書画像を入力する。

ここで、文書画像とは、電子的な文書であり、より具体的には、スキャナにより入力された画像である文書、文書生成アプリケーション（例えば、ワープロ等）により生成された文書画像などを含む。そして、入力するとは、スキャナを用いて取得すること、文書データベースから文書を取得すること、通信回線を介して、外部のシステムから取得すること等を含む。また、取得する文書は、１ページであってもよいし、複数ページの文書であってもよい。

なお、入力モジュール１８は、認識モジュール２２と接続されているが、これらの関係については後述する。

分割モジュール２０は、入力モジュール１８と認識モジュール２２に接続されており、入力モジュール１８によって入力された文書画像を領域毎に分割する。

認識モジュール２２は、入力モジュール１８、分割モジュール２０、判断モジュール２４、変換モジュール２６、及び変更モジュール２８に接続している。認識モジュール２２は、入力モジュール１８によって入力された文書画像から文字列を認識するモジュールであり、分割モジュール２０により分割された文書画像から文字列を認識しても良いし、入力モジュール１８により入力された文書画像から文字列を認識した後に、分割モジュール２０により文書画像を分割するようにしても良い。

判断モジュール２４は、認識モジュール２２に接続し、認識モジュール２２が認識した文字列が予め記憶されている領域毎に定められた文字列に含まれているか否かを判断する。

変換モジュール２６は、認識モジュール２２及び変更モジュール２８に接続し、判断モジュール２４により、認識モジュール２２によって認識された文字列が予め記憶されている領域毎に定められた文字列に含まれていると判断された場合には、認識モジュール２２によって認識された文字列を予め記憶されている領域毎に定められた文字列と対応する一意の属性名（特定文字列）に変換するモジュールである。変更モジュール２８は、変更モジュール２８及び出力モジュール３０に接続し、一意の属性名が示す内容を含む文書画像である出力文書画像を出力モジュール３０が出力するために、一意の属性名を、出力文書画像に応じて変更するモジュールである。また、変更モジュール２８は、認識モジュール２２によって認識された値を、出力文書画像に応じて変更する。

出力モジュール３０は、変更モジュール２８に接続し、変更モジュール２８が変更した一意の属性名、及び値を含む出力文書画像を出力する。

次に、図３を参照して、実施の形態の画像処理システムのハードウェア構成例について説明する。図３に示す構成は、例えばパーソナルコンピュータ（ＰＣ）などによって構成される画像処理システムであり、スキャナ等のデータ読み取り部１２１７と、プリンタなどのデータ出力部１２１８を備えたハード構成例を示している。なお、このハードウェア構成は、他の実施の形態についても適用する。

本実施の形態による画像処理システムは、図３に示すように、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１２０１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１２０２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１２０３、ホストバス１２０４、ブリッジ１２０５、外部バス１２０６、インタフェース１２０７、キーボード１２０８、ポインティングデバイス１２０９、ディスプレイ１２１０、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）１２１１、ドライブ１２１２、接続ポート１２１４、外部接続機器１２１５、通信部１２１６、データ読み取り部１２１７、及びデータ出力部１２１８を有する。

ＣＰＵ１２０１は、上述の実施の形態において説明した各種のモジュール、すなわち、各モジュールの実行シーケンスを記述したコンピュータ・プログラムに従った処理を実行する制御部である。

ＲＯＭ１２０２は、ＣＰＵ１２０１が使用するプログラムや演算パラメータ等を格納する。ＲＡＭ１２０３は、ＣＰＵ１２０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはＣＰＵバスなどから構成されるホストバス１２０４により相互に接続されている。

ホストバス１２０４は、ブリッジ１２０５を介して、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ／Ｉｎｔｅｒｆａｃｅ）バスなどの外部バス１２０６に接続されている。

キーボード１２０８、マウス等のポインティングデバイス１２０９は、操作者により操作される入力デバイスである。ディスプレイ１２１０は、液晶表示装置またはＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）などから成り、各種情報をテキストやイメージ情報として表示する。

ＨＤＤ１２１１は、ハードディスクを内蔵し、ハードディスクを駆動し、ＣＰＵ１２０１によって実行するプログラムや情報を記録または再生させる。ハードディスクには、各種のデータ処理プログラム等、各種コンピュータ・プログラムが格納される。

ドライブ１２１２は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記録媒体１２１３に記録されているデータまたはプログラムを読み出して、そのデータまたはプログラムを、インタフェース１２０７、外部バス１２０６、ブリッジ１２０５、およびホストバス１２０４を介して接続されているＲＡＭ１２０３に供給する。リムーバブル記録媒体１２１３も、ハードディスクと同様のデータ記録領域として利用可能である。

接続ポート１２１４は、外部接続機器１２１５を接続するポートであり、ＵＳＢ、ＩＥＥＥ１３９４等の接続部を持つ。接続ポート１２１４は、インタフェース１２０７、および外部バス１２０６、ブリッジ１２０５、ホストバス１２０４等を介してＣＰＵ１２０１等に接続されている。通信部１２１６は、ネットワークに接続され、外部とのデータ通信処理を実行する。データ読み取り部１２１７は、例えばスキャナであり、ドキュメントの読み取り処理を実行する。データ出力部１２１８は、例えばプリンタであり、ドキュメントデータの出力処理を実行する。

なお、図３に示す画像処理システムのハードウェア構成は、１つの構成例を示すものであり、本実施の形態の画像処理システムは、図２に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア（例えばＡＳＩＣ等）で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図３に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、複写機、ファックス、スキャナ、プリンタ、複合機（多機能複写機とも呼ばれ、スキャナ、プリンタ、複写機、ファックス等の機能を有している）などに組み込まれていてもよい。

なお、説明したプログラムについては、記録媒体に格納することも可能であり、また、そのプログラムを通信手段によって提供することもできる。その場合、例えば、上記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えることもできる。

「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。

なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク（ＤＶＤ）であって、ＤＶＤフォーラムで策定された規格である「ＤＶＤ−Ｒ、ＤＶＤ−ＲＷ、ＤＶＤ−ＲＡＭ等」、ＤＶＤ＋ＲＷで策定された規格である「ＤＶＤ＋Ｒ、ＤＶＤ＋ＲＷ等」、コンパクトディスク（ＣＤ）であって、読出し専用メモリ（ＣＤ−ＲＯＭ）、ＣＤレコーダブル（ＣＤ−Ｒ）、ＣＤリライタブル（ＣＤ−ＲＷ）等、光磁気ディスク（ＭＯ）、フレキシブルディスク（ＦＤ）、磁気テープ、ハードディスク、読出し専用メモリ（ＲＯＭ）、電気的消去および書換可能な読出し専用メモリ（ＥＥＰＲＯＭ）、フラッシュ・メモリ、ランダム・アクセス・メモリ（ＲＡＭ）等が含まれる。

そして、上記のプログラムまたはその一部は、上記記録媒体に記録して保存や流通等させることが可能である。また、通信によって、例えば、ローカル・エリア・ネットワーク（ＬＡＮ）、メトロポリタン・エリア・ネットワーク（ＭＡＮ）、ワイド・エリア・ネットワーク（ＷＡＮ）、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにはこれらの組合せ等の伝送媒体を用いて伝送することが可能であり、また、搬送波に乗せて搬送することも可能である。

さらに、上記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。

次に、画像データの変換を行うための情報である変換規則情報について説明する。変換規則情報とは、多種多様な画像データＡから画像処理によるフォーマット（表の位置や大きさの違いなど）やＯＣＲ処理による文字を認識し、認識した結果を用いて、他の画像データＢに変換する場合に用いられる画像データＡと画像データＢとの関係を示す情報である。

この変換規則情報の種類として、本実施の形態では属性変換規則情報と属性名変換規則情報がある。

このうち、属性変換規則情報とは、予め記憶されている領域毎に定められた文字列であり、種別毎に設けられている。ここで種別とは、画像データの領域（表構造が形成されていると考えられる領域、この領域は図２の分割モジュール２０によって得られるものである）に示される文字列が表す内容の種類によって分類して表わされるものである。

この領域には、例えば文書画像が帳票の場合、商品名や価格などに商品情報に関する文字列が記載されており、或いは文書画像が社内文書であれば、組織情報に関する文字列が記載されている。このように、同じ領域に記載されている文字列にはそれぞれ関連した特徴があり、種別は、そのような関連のある文字列を分野ごとに分類することで得られた種類を表わしている。具体的に種別として例えば上述した商品番号、組織名などがある。

また、属性変換規則情報は、言葉の表記揺れを吸収し、1つの文字列に変換するための役割を持つ。ここで、表記揺れとは、同一の対象に対して異なる複数の表記（文字列）が存在することを示す。更に本実施の形態では、後述するように画像データに対してＯＣＲ処理を実行して文字列を読み取るため、ＯＣＲ処理により文字の誤認識が生じることを考慮し、属性変換規則情報はそのＯＣＲ誤りを吸収し、本来認識されるべき文字列に変換するための役割も持つ。

まず、図４、図５を用いて、属性変換規則情報の詳細について説明する。図４は、属性変換規則情報の一例として商品に関する属性変換規則情報を示している。同図に示される属性名とは、所定の種別に属する文字列を示している。上記属性名は、更に「表記」と「ＯＣＲ」に分類される。「表記」とは、表記揺れしている文字列を示す。この表記揺れとは、同一の対象に対して異なる複数の表記（文字列）が存在することを示す。

また、「ＯＣＲ」とは、ＯＣＲ処理により正しく認識された文字列と誤認識された文字列を示す。

また、同図に示される一意の属性名とは、１つ以上の属性名を１つの文字列により示すもので、上記表記揺れ及びＯＣＲ誤りを吸収した文字列を示している。

同図に示す例では、表記揺れとして商品番号、商品ナンバー、商品コードなどが示されている。これらの文字列に対応するＯＣＲ誤りとして商品香号などが示され、これらを吸収した文字列が商品番号であることが示されている。

このように、属性変換規則情報においては、予め記憶されている領域毎に定められた文字列（表記：商品番号、商品ナンバーなど）は、一意の属性名（商品番号）が示す意味を有する文字列毎に設けられた集団に属しており、一意の属性名（商品番号）は、集団（商品番号、商品ナンバーなどを含む文字列の集団）毎に対応づけられている。

次に、図５を用いて属性変換規則情報の他の例である組織情報に関する属性変換規則情報について説明する。同図に示される属性名、表記揺れ、ＯＣＲ誤り、及び一意の属性名は、図４で説明した通りである。

同図には、表記揺れとして○○○○技開部などが示されている。これらの文字列に対応するＯＣＲ誤りとして○○○○技開部、○○○○技開剖などが示され、これらを吸収した文字列が○○○○技術開発部であることが示されている。

以上説明した属性変換規則情報には、上述した商品情報に関する種別や組織情報に関する種別だけではなく、多くの種別が存在する。

次に、図６を用いて属性名変換規則情報について説明する。属性名変換規則情報は、一意の属性名と、出力に応じた属性文字列とが対応づけられた情報である。この属性名変換規則情報を用いて、変更モジュール２８（図２参照）は、変換モジュール２６（図２参照）により属性変換規則情報を用いて変換された一意の属性名を、出力に応じた属性文字列に変換する。

出力属性名とは、出力に対応した文字列であり、例えばＡ社などの出力先に応じた属性名である。具体的に同図に示される商品番号は、Ａ社が出力先の場合、商品コードに変更されることが示されている。

以上説明した属性変換規則情報及び属性名変換規則情報により、まずＯＣＲ処理によって読み取られた文字列が属性変換規則情報を用いて一意の属性名に変換され、一意の属性名は、属性名変換ＤＢを用いて出力先属性名に変更される。

なお、種別に応じて予め変換規則情報を設定しておくことで、属性名の変更に留まることなく、対応する属性値の表記法をも変換することが可能である。例えば、金額であれば通貨単位を変更したり、日付欄であれば西暦と和暦を変換する等である。更に、同じ日付欄であってもこれら変換を実施すべき場合と実施すべきでない場合を、領域の種別に応じて設定しておくことで、より柔軟性のある運用が可能である。

なお、上述した各ＤＢはＸＭＬを用いて作成することも可能である。この場合、ＯＣＲ処理により読み取られた文字列である属性名をＸＭＬのタグとしておき、更に出力先属性名もＸＭＬのタグとしておき、それらのタグが変換可能なように、ＸＭＬスキーマを用いて定義する。

以下、本実施の形態に係る処理を、各フローチャートを用いて説明する。以下に示される各フローチャートは、スキャナなどにより読み込まれた帳票などを示す画像データに対してＣＰＵ１２０１が実行する処理を示している。

まず、図７のフローチャートを用いて領域分割処理について説明する。なお、この領域分割処理は、特開２００２−２０３２４９号公報にその詳細が開示されている。

以上を踏まえて、図７のフローチャートについて説明をする。まず、ステップ１０１で、分割モジュール２０は、連結部分の外接矩形を作成する。連結部分とは、例えば表の罫線のように連結されている領域である。そして、その連結部分を囲む矩形が外接矩形である。

次のステップ１０２で、分割モジュール２０は、作成した外接矩形の縦の辺の長さＨおよび横の辺の長さＷと、あらかじめ定めておいた表候補を判定するための外接矩形の辺の長さに関するしきい値とを比較する。分割モジュール２０は、当該外接矩形の縦の辺の長さＨおよび横の辺の長さＷとも上記しきい値に満たない場合には、ステップ１０６で当該連結部分と外接矩形の組を表候補から除外する。

一方、ステップＳ１０２において当該外接矩形の縦の辺の長さＨまたは横の辺の長さＷの少なくとも一方が、表候補を判定するためのしきい値よりも長かった場合には、分割モジュール２０は、ステップ１０３で、当該連結部分および外接矩形の組に対して外接矩形内の画素密度を算出する。

この外接矩形内の画素密度は、外接矩形の縦の辺の長さＨと横の辺の長さＷとの積で求まる面積と、連結部分を構成するすべての画素数との比として求めることができる。

次のステップ１０４で、分割モジュール２０は、算出した画素密度が、あらかじめ定めた表候補を判定するための画素密度に関するしきい値以下であるか否かを判定し、しきい値以下であると判定した場合には、ステップ１０５で分割モジュール２０は当該連結部分と外接矩形の組を表候補と判定する。一方、算出した画素密度が上記しきい値を超える場合には、上述したステップ１０６で分割モジュール２０は、当該連結部分と外接矩形の組を表候補から除外する。

以上の処理により、表候補が得られる。この表候補が表であるか否かを判定する処理を、図９のグラフ（ａ）（ｂ）を参照しながら、図８のフローチャートを用いて説明する。

分割モジュール２０は、表候補である連結画素成分の外接矩形に注目し、Ｓ１１１１でその中心座標（Ｘ_CENTER，Ｙ_CENTER）を算出する。次のステップＳ１１１２で、分割モジュール２０は、水平方向の投影分布に注目し、当該投影分布において頻度しきい値ＴＨ_Hを超える頻度を持つ部分を、垂直方向に伸びる垂直罫線が存在する可能性があると判定して垂直罫線候補として検出する。垂直罫線候補が全く検出されなかった場合に、分割モジュール２０は、ステップＳ１１１３で、当該表候補は表ではないと判定する。

ステップＳ１１１２において１箇所以上で垂直罫線候補が検出された場合に、分割モジュール２０は、垂直方向の投影分布に注目する。そして、分割モジュール２０は、ステップ１１１４で当該投影分布において頻度しきい値ＴＨ_Vを超える頻度を持つ部分を、水平方向に伸びる水平罫線が存在する可能性があると判定して水平罫線候補として検出する。水平罫線候補が全く検出されなかった場合に、分割モジュール２０は、ステップＳ１１１３で、当該表候補は表ではないと判定する。

上記の処理において、水平罫線候補及び垂直罫線候補のどちらも検出された場合に、分割モジュール２０は、水平罫線候補が２箇所以上存在するかどうかを判定する。ここで、水平罫線候補が１箇所のみであった場合に、分割モジュール２０は、ステップＳ１１１６で、さらに垂直罫線候補が２箇所以上存在するかどうかを判定する。逆に、水平罫線候補が２箇所以上で存在する場合に、分割モジュール２０は、ステップＳ１１１１で算出した外接矩形の中心座標Ｙ_CENTERを境界とし、図９（ａ）に示す垂直方向の投影分布を当該境界で分割して得られる２つの投影区間Ｙ_START〜Ｙ_CENTERとＹ_CENTER〜Ｙ_ENDにおいてそれぞれ少なくとも１箇所以上で頻度しきい値ＴＨ_Vを超える水平罫線候補が存在するかどうかをステップＳ１１１７で判定する。

この条件を満足する場合は、分割モジュール２０は、ステップＳ１１１９で当該表候補である連結画素成分の外接矩形で囲まれる閉領域を表領域であると決定する。逆に、この条件を満足しない場合およびステップＳ１１１６で垂直罫線候補が２箇所以上存在する場合には、ステップＳ１１１１で算出した外接矩形の中心座標Ｘ_CENTERを境界とし、図９（ａ）に示す水平方向の投影分布を当該境界で分割して得られる２つの投影区間Ｘ_START〜Ｘ_CENTERとＸ_CENTER〜Ｘ_ENDにおいてそれぞれ少なくとも１箇所以上で頻度しきい値ＴＨ_Hを超える垂直罫線候補が存在するかどうかをステップＳ１１１８で分割モジュール２０は判定する。この条件を満足する場合に、分割モジュール２０は、ステップＳ１１１９で当該表候補である連結画素成分の外接矩形で囲まれる閉領域を表領域であると決定する。逆に、この条件を満足しない場合に、分割モジュール２０は、ステップ１１１３で当該表候補は表ではないと判定する。

以上の処理により、分割モジュール２０は、文書画像を領域毎に分割する。この図８で説明した処理の他に、図１０に示される処理で領域を分割しても良い。まず、ステップ２０１で、分割モジュール２０は、ラベリングを実行する。このラベリングとは、連結成分を構成するすべての画素に同一のラベル値を付加する処理である。次のステップ２０２で、分割モジュール２０は、連結成分の外接矩形を作成し、ステップ２０３で外接矩形の縦の辺、横の辺の長さを算出する。次のステップ２０４で、分割モジュール２０は、外接矩形を文字／図／フィールドセパレータ／ノイズの各候補に分類する。この分類に関する処理の詳細は、特開２０００−９０１９４号公報の段落００３２から００３７に開示されているので、これ以上のここでの説明は省略する。

次に、図１１のフローチャートを用いて種別特定処理について説明する。まず、ステップ３０１で、認識モジュール２２は、上記領域分割処理により得られた表領域に存在する表のセルを抽出する。次のステップ３０２で、認識モジュール２２は、表領域に存在する各セル内の文字列をＯＣＲ処理により認識する。

次に、判断モジュール２４は、ステップ３０３で、認識モジュール２２が認識した文字列が属性変換規則情報に含まれるか否か判断する。ステップ３０３で、判断モジュール２４が肯定判断した場合、ステップ３０４で、認識モジュール２２は文字列を保持する。一方、ステップ３０３で判断モジュール２４が否定判断した場合、ステップ３０５に処理が進む。

ステップ３０５で、認識モジュール２２は、表領域に存在する全ての文字列を抽出したか否かを判断する。認識モジュール２２が否定判断した場合、再びステップ３０１に処理が進む。認識モジュール２２が肯定判断した場合、ステップ３０６で、認識モジュール２２は、保持された文字列を最も多く含む属性ＤＢが示す種別を表領域の種別とする。

このステップ３０６の処理について具体的に説明すると、上述したように属性変換規則情報には商品情報に関するものなど多くの種別に関するものがあり、ステップ３０６の処理は、一つの表に存在する各文字列を最も多く含む属性変換規則情報が示す種別が、その表領域の種別と判断する処理である。また、上述したように、属性変換規則情報は、表記揺れ、ＯＣＲ揺れされた文字列も含まれるため、その文字列もステップ３０６では考慮されている。

このようにして種別が定まった表領域に対して、次の図１２に示される属性値抽出処理が実行される。この処理は、例えば表の１つのセルに価格と記され、その例えば右隣に５００円と記載されている場合、価格と５００円を一つの組として抽出する処理である。この例では、５００円が属性値である。

まず、ステップ４０１で、認識モジュール２２は、セル内の文字列が属性名か否か判断する。認識モジュール２２が否定判断した場合、ステップ４０６に処理が進み、肯定判断した場合、ステップ４０２で、隣接セルを特定する。この隣接セルの例として、通常の文書において属性値が記載されていることが多い右隣もしくは下隣のセルが挙げられる。

次のステップ４０３で、認識モジュール２２は、特定したセル内の文字列が属性名か否か判断する。文字列が属性名の場合、属性値を得ることができないため、ステップ４０６に処理が進み、文字列が属性名ではない場合、認識モジュール２２はステップ４０４で、特定したセル内の文字列（属性値）が属性名に対応しているか否か判断する。これは例えば属性名が価格である場合に、２００６年など価格ではない文字列ではないか否かを判断する処理である。この処理は、例えば自然言語解析などを用いて実行され、その場合、例えば図１３で示される固有表現例に示される文字列によりセル内の文字列が対応しているか否かを判断することができる。

上記ステップ４０４で認識モジュール２２が否定判断した場合、ステップ４０６に処理が進み、肯定判断した場合、ステップ４０５で認識モジュール２２は、属性名、属性値の組を属性として抽出する。次のステップ４０６で、認識モジュール２２は、全てのセルに対してステップ４０１からステップ４０５の処理が実行されたか否かを判断し、肯定判断した場合、処理を終了し、否定判断した場合、処理されていないセルに対して再びステップ４０１以降の処理を実行する。

次に、図１４を用いて、出力文書画像生成処理について説明する。この画像データ生成処理は、文字列を対応する一意の文字列に変換し、一意の文字列が示す内容を含む文書画像である出力文書画像を出力する処理である。出力文書画像を出力するために、一意の文字列及び値（属性値）を、出力文書画像に応じて変更する。

まず、ステップ５０１で、変換モジュール２６は、属性値抽出処理（図１２参照）により抽出された属性のうちの属性名を属性変換規則情報に基づき一意の属性名に変換する。次のステップ５０２で、変更モジュール２８は、一意の属性名を属性名変換ＤＢに基づき出力属性名に変換する。例えば出力先がＡ社であれば商品番号が商品コードに変換される。更に、変更モジュール２８は、ステップ５０３で、出力文書画像に応じて属性値を変更する。

次のステップ５０４で、出力モジュール３０は、変更された属性名と属性値を、出力先の書式に基づき配置した出力文書画像を生成し、処理を終了する。

以上の処理により変換された領域の例を、図１５を用いて説明する。図１５には変換前の領域と変換後の領域とが示されている。同図に示されるように、「商品コード」は「プロダクトナンバー」、「メーカー」は「製造者」、「値段」は「価格」なる出力属性名それぞれ変換されている。また、属性値である「￥５００」は、「＄５．００」に変換されている。出力モジュール３０は、このように変換された領域を組み合わせて出力文書画像を生成する。

なお、本実施の形態に係る画像処理システムは、例えば図１６に示されるように、種別毎に専門のサーバＡ、Ｂ、Ｃ、Ｄを設け、それぞれに処理を並行に実行させ、その結果を統合サーバで統合させることで、文書画像を出力することも可能である。この場合、種別特定処理（図１１参照）までを１つのコンピュータで実行し、種別に対する処理を実行する上記サーバＡ、Ｂ、Ｃ、Ｄに対応する表領域の情報を転送し、各サーバがそれぞれ属性値抽出処理（図１２参照）を実行し、得られた情報を統合サーバが画像データ生成処理（図１４）を実行することとなる。

以上説明した各フローチャートの処理の流れは一例であり、本発明の主旨を逸脱しない範囲内で処理順序を入れ替えたり、新たなステップを追加したり、不要なステップを削除したりすることができることは言うまでもない。

本実施の形態に係る処理の概要を示す模式図である。本実施の形態に係るモジュール構成を示す図である。本実施の形態に係るパソコンの構成を示す図である。本実施の形態に係る商品情報に関する属性変換規則情報例を示す図である。本実施の形態に係る組織情報に関する属性変換規則情報例を示す図である。本実施の形態に係る属性名変換規則情報例を示す図である。本実施の形態に係る領域分割処理を示すフローチャート（その１）である。本実施の形態に係る表候補判定処理を示すフローチャートである。本実施の形態に係る投影分布を示す図である。本実施の形態に係る領域分割処理を示すフローチャート（その２）である。本実施の形態に係る種別特定処理を示すフローチャートである。本実施の形態に係る属性値抽出処理を示すフローチャートである。本実施の形態に係る固有表現例を示す図である。本実施の形態に係る画像データ生成処理を示すフローチャートである。本実施の形態に係る領域変換例を示す図である。本実施の形態に係る画像処理システム構成例を示す図である。

符号の説明

１８入力モジュール
２０分割モジュール
２２認識モジュール
２４判断モジュール
２６変換モジュール
２８変更モジュール
３０出力モジュール
１２０１ＣＰＵ
１２１１ＨＤＤ

Claims

文字列を含む領域を複数有する文書画像を入力する入力手段と、
前記入力手段によって入力された文書画像を領域毎に分割する分割手段と、
前記入力手段によって入力された文書画像から文字列を認識する認識手段と、
前記分割手段によって分割された領域毎に前記認識手段によって認識された文字列が、予め記憶されている領域毎に定められた文字列に含まれているか否かを判断する判断手段と、
前記判断手段により、前記認識手段によって認識された文字列が予め記憶されている領域毎に定められた文字列に含まれていると判断された場合には、前記認識手段によって認識された文字列を前記予め記憶されている領域毎に定められた文字列と対応する特定文字列に変換する変換手段と
を有することを特徴とする画像処理システム。
前記予め記憶されている領域毎に定められた文字列は、前記特定文字列が示す意味を有する文字列毎に設けられた集団に属しており、前記特定文字列は、前記集団毎に対応づけられている請求項１に記載の画像処理システム。
前記予め記憶されている領域毎に定められた文字列は、前記認識手段が誤認識した場合の文字列が含まれる請求項１又は請求項２に記載の画像処理システム。
前記特定文字列が示す内容を含む文書画像である出力文書画像を出力するために、前記特定文字列を、前記出力文書画像に応じて変更する変更手段を更に有する請求項１から請求項３のいずれか１項に記載の画像処理システム。
前記領域は、前記文字列に対応すると共に所定の値を示す値情報を更に含み、
前記認識手段は、前記値情報から値を認識し、
前記変更手段は、前記認識手段によって認識された値を、前記出力文書画像に応じて変更する請求項４に記載の画像処理システム。
文字列を含む領域を複数有する文書画像を入力する入力ステップと、
前記入力ステップによって入力された文書画像を領域毎に分割する分割ステップと、
前記入力ステップによって入力された文書画像から文字列を認識する認識ステップと、
前記分割ステップによって分割された領域毎に前記認識ステップによって認識された文字列が、予め記憶されている領域毎に定められた文字列に含まれているか否かを判断する判断ステップと、
前記判断ステップにより、前記認識ステップによって認識された文字列が予め記憶されている領域毎に定められた文字列に含まれていると判断された場合には、前記認識ステップによって認識された文字列を前記予め記憶されている領域毎に定められた文字列と対応する特定文字列に変換する変換ステップと
を有する処理をコンピュータで実行するための画像処理プログラム。