JP6222541B2

JP6222541B2 - 画像処理装置及びプログラム

Info

Publication number: JP6222541B2
Application number: JP2013042800A
Authority: JP
Inventors: 真太郎安達; 徹也脇山; 洋実北; 勝也小柳; 清水　淳一; 淳一清水; 紘幸岸本
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2013-03-05
Filing date: 2013-03-05
Publication date: 2017-11-01
Anticipated expiration: 2033-03-05
Also published as: JP2014170452A

Description

本発明は、画像処理装置及びプログラムに関する。

特許文献１は、文書画像上でタイトル文字列の近傍に記載されるキーワード文字列、及びこのキーワード文字列に対する前記タイトル文字列の相対的な位置情報を取得する抽出条件取得手段と、文書画像内の少なくとも前記タイトル文字列及び前記キーワード文字列を含む領域を対象にして文字認識を行う文字認識手段と、この文字認識手段の認識結果から、前記抽出条件取得手段で取得したキーワード文字列を検索してその位置を取得するキーワード検索手段と、このキーワード検索手段で取得したキーワード文字列の位置、及び前記抽出条件取得手段で取得したキーワード文字列に対するタイトル文字列の相対的な位置に基づいて、タイトル文字列の位置を取得するタイトル位置取得手段と、このタイトル位置取得手段で取得したタイトル文字列の位置に基づいて、タイトル文字列のデータを出力するタイトル出力手段とを有することを特徴とするタイトル抽出装置について開示している。

特許文献２は、複数の項目に関して、その記入欄と予めプリントされた項目名とが配列され、前記記入欄と項目名とがそれぞれ罫線によって区画された帳票を読み取った帳票イメージから、前記記入欄内の文字を認識する帳票ＯＣＲ処理をコンピュータに実行させる帳票ＯＣＲプログラムにおいて、前記帳票イメージの全面に対してＯＣＲ処理を実行し、前記記入欄を区画する記入枠の位置，前記項目名を取り囲む項目名枠の位置，及びこれらの枠内の文字列を認識する全面ＯＣＲ処理ステップと、前記全面ＯＣＲ処理ステップの結果情報に基づいて、再度ＯＣＲ処理をすべき記入欄を特定する記入欄特定処理ステップと、特定された記入欄に対して部分的にＯＣＲ処理を実行する部分ＯＣＲ処理ステップとからなることを特徴とする帳票ＯＣＲプログラムについて開示している。

特開２００８−０７７４５４号公報特開２００５−１７３７３０号公報

本発明の目的は、記録媒体を読み取って得られた文書画像からの所望の文字列の抽出精度を向上することができる画像処理装置及びプログラムを提供することである。

請求項１に係る本発明は、記録媒体を読み取って得られた文書画像を解析する解析手段と、前記解析手段による解析結果から前記文書画像における予め定められた複数の文字列の座標を検出する座標検出手段と、前記文書画像に対応する基準画像に含まれる前記予め定められた複数の文字列の座標及び該基準画像に含まれる目標点の座標と、前記座標検出手段により検出された複数の座標とに基づいて、該基準画像の目標点に対応する前記文書画像の目標点の座標を取得する座標取得手段と、前記解析手段による解析結果から、前記座標取得手段により取得された座標を基点とした領域の文字列を抽出する文字列抽出手段とを有する画像処理装置である。

請求項２に係る本発明は、前記座標検出手段は、正規表現を用いて予め定められた複数の文字列の座標を検出する請求項１記載の画像処理装置である。

請求項３に係る本発明は、前記座標取得手段は、前記基準画像に含まれる前記予め定められた複数の文字列の座標と前記座標検出手段により検出された座標とを用いて、前記基準画像と前記文書画像との間の拡大又は縮小の倍率を取得し、該倍率に基づいて前記文書画像の目標点の座標を取得する請求項１又は２記載の画像処理装置である。

請求項４に係る本発明は、前記座標取得手段は、前記基準画像に含まれる前記予め定められた複数の文字列の座標から該基準画像に含まれる目標点への相対座標に応じて、該基準画像の目標点に対応する前記文書画像の目標点の座標を複数取得し、前記文字列抽出手段は、前記座標取得手段により取得された各座標を基点とした複数の領域のうち、いずれかの領域に含まれる文字列を抽出する請求項１又は２記載の画像処理装置である。

請求項５に係る本発明は、前記文字列抽出手段は、前記座標取得手段により取得された各座標を基点とした複数の領域全てに含まれる文字列を抽出する請求項４記載の画像処理装置である。

請求項６に係る本発明は、前記文字列抽出手段は、予め定められた条件を満たす文字列を抽出対象とする請求項４又は５記載の画像処理装置である。

請求項７に係る本発明は、前記座標検出手段は、少なくとも３つの予め定められた文字列の座標を検出し、前記座標取得手段は、前記基準画像に含まれる前記少なくとも３つの予め定められた文字列の座標及び該座標により囲まれる領域内における目標点の座標と、前記座標検出手段により検出された複数の座標とに基づいて、前記文書画像の目標点の座標を取得する請求項１又は２記載の画像処理装置である。

請求項８に係る本発明は、記録媒体を読み取って得られた文書画像を解析する解析ステップと、前記解析ステップでの解析結果から前記文書画像における予め定められた複数の文字列の座標を検出する座標検出ステップと、前記文書画像に対応する基準画像に含まれる前記予め定められた複数の文字列の座標及び該基準画像に含まれる目標点の座標と、前記座標検出ステップで検出された複数の座標とに基づいて、該基準画像の目標点に対応する前記文書画像の目標点の座標を取得する座標取得ステップと、前記解析ステップでの解析結果から、前記座標取得ステップで取得された座標を基点とした領域の文字列を抽出する文字列抽出ステップとをコンピュータに実行させるプログラムである。

請求項１に係る本発明によれば、記録媒体を読み取って得られた文書画像からの所望の文字列の抽出精度を、本構成を有しない場合に比べ向上することができる画像処理装置を提供することができる。

請求項２に係る本発明によれば、請求項１に係る本発明の効果に加え、所望の文字列の抽出に用いる予め定められた文字列の座標の検出を効率的に行なうことができる画像処理装置を提供することができる。

請求項３に係る本発明によれば、請求項１又は２に係る本発明の効果に加え、文書画像が元の画像に比べて拡大又は縮小されている場合であっても、所望の文字列を抽出することができる画像処理装置を提供することができる。

請求項４に係る本発明によれば、請求項１又は２に係る本発明の効果に加え、文書画像に含まれる各文字列の位置関係が、元の画像における位置関係から崩れている場合であっても、所望の文字列を抽出することができる画像処理装置を提供することができる。

請求項５に係る本発明によれば、請求項４に係る本発明の効果に加え、本構成を有しない場合に比べ、より確実に所望の文字列を抽出することができる画像処理装置を提供することができる。

請求項６に係る本発明によれば、請求項４又は５に係る本発明の効果に加え、本構成を有しない場合に比べ、より確実に所望の文字列を抽出することができる画像処理装置を提供することができる。

請求項７に係る本発明によれば、請求項１又は２に係る本発明の効果に加え、文書画像が元の画像に比べて拡大又は縮小されている場合であっても、所望の文字列を抽出することができる画像処理装置を提供することができる。

請求項８に係る本発明によれば、記録媒体を読み取って得られた文書画像からの所望の文字列の抽出精度を、本構成を有しない場合に比べ向上することができるプログラムを提供することができる。

本発明の実施形態に係る画像処理装置２のハードウェア構成を示す模式図である。プログラムが実行されることにより実現される画像処理装置２の機能構成を示すブロック図である。本実施形態の文字列の抽出について説明する模式図であり、（ａ）は、基準画像を例示し、（ｂ）は、基準情報格納部３４に予め格納されている情報を例示し、（ｃ）は、文書画像を例示している。基準情報格納部３４への基準情報の格納の流れを示すフローチャートである。文書画像から文字列を抽出する動作について例示するフローチャートである。第１の変形例における文字列の抽出について説明する模式図であり、（ａ）は、基準画像を例示し、（ｂ）は、基準情報格納部３４に予め格納されている情報を例示し、（ｃ）は、文書画像を例示している。第１の変形例において、文書画像から文字列を抽出する動作について例示するフローチャートである。第２の変形例における文字列の抽出について説明する模式図であり、（ａ）は、基準画像を例示し、（ｂ）は、基準画像における３つの利用文字列の座標点に囲まれた領域内の目標点の位置関係を図示している。第２の変形例における文字列の抽出について説明する模式図であり、（ａ）は、文書画像を例示し、（ｂ）は、文書画像における３つの利用文字列の座標点に囲まれた領域内の目標点の位置関係を図示している。第２の変形例において、文書画像から文字列を抽出する動作について例示するフローチャートである。

以下、本発明の実施形態について図面を参照して詳細に説明する。
図１は、本発明の実施形態に係る画像処理装置２のハードウェア構成を示す模式図である。

図１に示すように、画像処理装置２は、ＣＰＵ４及びメモリ６などを含む本体８、入力装置１０、出力装置１２、記憶装置１４、記憶媒体１６、通信装置１８及び画像読取装置２０から構成され、画像処理装置２は、他の装置との通信が可能なコンピュータとしての構成部分を有している。

ＣＰＵ４は、メモリ６に記憶されたプログラムに基づく処理を実行する。記憶装置１４は、内蔵ＨＤＤなどであり、記憶媒体１６は、ＣＤ、ＦＤ及び外付けＨＤＤなどである。なお、ＣＰＵ４は、記憶装置１４又は記憶媒体１６に記憶されたプログラムを実行してもよい。

入力装置１０は、キーボード、マウス及びジョイスティックなどであり、出力装置１２は、ディスプレイなどの表示装置である。なお、入力装置１０及び出力装置１２を、タッチパネルなどにより構成してもよい。

通信装置１８は、ＬＡＮ、インターネットなどの通信回線を介して他の装置と通信を行う、データ回線終端装置などの通信装置である。

画像読取装置２０は、スキャナなどの画像読取装置であり、用紙などの記録媒体を文書画像として読み取る。

図２は、プログラムが実行されることにより実現される画像処理装置２の機能構成を示すブロック図である。なお、図２に示される構成の一部又は全ては、ＡＳＩＣ，ＦＰＧＡなどのハードウェアにより実現されてもよい。

図２に示すように、画像処理装置２は、文書画像取得部３０と、解析部３２と、基準情報格納部３４と、座標検出部３６と、座標取得部３８と、文字列抽出部４０とを有し、記録媒体を読み取って得られた文書画像から文字列を抽出する処理を行う。

文書画像取得部３０は、記録媒体を読み取って得られた文書画像データを取得する。本実施形態では、文書画像取得部３０は、画像読取装置２０により読み取られた文書画像データを画像読取装置２０から取得するが、文書画像取得部３０は、例えば、通信装置１８を介して送信された文書画像データを取得してもよいし、記憶媒体１６に格納された文書画像データを読み出して取得してもよい。なお、以下の説明において、文書画像とは、文書画像取得部３０により取得された文書画像データを示す。

解析部３２は、文書画像取得部３０により取得された文書画像データを解析する。解析部３２は、例えば、ＯＣＲ（Optical Character Recognition：光学文字認識）機能を使用することによって文書画像を解析し、文書画像に含まれる文字及び文字の位置を検出する。

基準情報格納部３４は、文書画像取得部３０が取得した文書画像に対応する基準画像についての情報を格納する。基準画像とは、文書画像取得部３０が取得した文書画像に対応した予め定められた画像であり、例えば、記録媒体に当該文書画像を形成する際に形成対象となった画像データ、文書の雛形となる画像データなどが該当する。なお、基準情報格納部３４が格納する情報の詳細については、後述する。

ここで、基準画像に含まれる文字列の基準画像内における位置と、当該文字列の文書画像内における位置とは、異なる場合がある。例えば、画像読取装置２０により記録媒体を読み取る際にずれて読み取られた場合には、当該文字列の文書画像内の位置は、基準画像内の位置に比べてずれてしまう。また、基準画像に比べ画像が拡大又は縮小された場合にも、当該文字列の文書画像内の位置は、基準画像内の位置とは異なることとなる。このような場合、当該文字列の基準画像における絶対座標（例えば、画像の左上端を原点とした座標）を用いて、文書画像取得部３０が取得した文書画像から当該文字列を抽出しようとしても、当該文字列の文書画像における絶対座標は変移しているため、抽出できないおそれがある。

本実施形態では、文書画像取得部３０が取得した文書画像から所望の文字列を抽出する際、絶対座標により抽出対象の文字列を指定するのではなく、予め定められた複数の文字列からの相対座標を用いて抽出対象の文字列を指定する。なお、以下の説明において、この予め定められた文字列を利用文字列と呼ぶことがある。

座標検出部３６は、解析部３２による解析結果から、文書画像取得部３０が取得した文書画像における上述の予め定められた複数の文字列（利用文字列）の座標（絶対座標）を検出する。なお、利用文字列が何であるかについては、基準情報格納部３４に予め格納されている。

座標取得部３８は、文書画像取得部３０が取得した文書画像に対応する基準画像に含まれる上述の予め定められた複数の文字列の座標（絶対座標）と、基準画像に含まれる目標点の座標と、座標検出部３６により検出された複数の座標とに基づいて、基準画像の目標点に対応する文書画像の目標点の座標を取得する。なお、目標点とは、抽出対象の文字列の位置を示す点ある。ここで、基準画像に含まれる目標点の座標としては、本実施形態では、予め定められた文字列の座標からの相対座標として説明するが、相対座標は、絶対座標がわかれば算出できるので絶対座標であってもよい。

なお、文書画像取得部３０が取得した文書画像に対応する基準画像に含まれる利用文字列の座標及び基準画像に含まれる目標点の座標は、基準情報格納部３４に予め格納されている。

文字列抽出部４０は、解析部３２による解析結果から、座標取得部３８により取得された目標点の座標を基点とした領域の文字列を抽出する。本実施形態では、目標点の座標を基点とした矩形領域内の文字列を抽出する。なお、矩形領域の幅及び高さについては、基準情報格納部３４に予め格納されている、幅及び高さについての情報に基づき決定される。

次に、本実施形態における文字列の抽出について、具体例により説明する。
図３は、本実施形態の文字列の抽出について説明する模式図であり、図３（ａ）は、基準画像を例示し、図３（ｂ）は、基準情報格納部３４に予め格納されている情報を例示し、図３（ｃ）は、文書画像を例示している。ここでは、基準画像が画像形成された記録媒体についてファクシミリ送信された結果、ファクシミリの受信画像としての文書画像が、基準画像に比べて、縮小され、かつ、全体的に文字列の位置が平行移動している場合を例に説明する。

なお、図３で示した例では、抽出対象の文字列が、受注番号として記載されている「７８９１２３」であるものと仮定し、また、この文字列の抽出のために用いる予め定められた複数の文字列（利用文字列）が、「注文書」及び「エベレスト」の２つであるものと仮定する。

また、図３（ａ）において、＋印は、利用文字列の座標位置を示し、枠線は、基準画像における抽出対象の文字列の領域を示している。この例では、枠線の左上隅の点が基準画像における目標点であるが、目標点が枠線の他の隅の点になるようにしてもよい。

図３（ｂ）に示すように、例えば、基準情報格納部３４は、基準画像における利用文字列の座標と、基準画像における目標点の座標及び当該目標点を基点とした矩形領域の幅及び高さ情報を格納している。

なお、図３に示した例において、利用文字列「注文書」の基準画像における座標は、(x1_org, y1_org)であり、利用文字列「エベレスト」の基準画像における座標は、(x2_org, y2_org)であり、基準画像における目標点の相対座標（利用文字列「注文書」の座標からの相対座標）は、(x_org, y_org)であり、基準画像における枠線の幅は、w_orgであり、枠線の高さは、h_orgであるものとする。

また、同様に、利用文字列「注文書」の文書画像における座標は、(x1_img, y1_img)であり、利用文字列「エベレスト」の文書画像における座標は、(x2_img, y2_img)であり、文書画像における目標点の相対座標（利用文字列「注文書」の座標からの相対座標）は、(x_img, y_img)であり、文書画像における枠線の幅は、w_imgであり、枠線の高さは、h_imgであるものとする。

また、図３（ｃ）において、＋印は、基準画像における利用文字列の座標位置を投影したものであり、×印は、文書画像における利用文字列の座標位置を示している。また、破線の枠線は、基準画像における枠線を投影したものであり、実線の枠線は、文書画像における抽出対象の文字列の領域を示している。このように、文書画像が基準画像に比べて縮小及び移動した結果、破線の枠内には抽出対象の文字列「７８９１２３」が存在していない。

図３に示した例では、座標検出部３６は、文書画像についての解析部３２のＯＣＲ結果から、利用文字列の座標(x1_img, y1_img)及び(x2_img, y2_img)を検出する。

また、座標取得部３８は、例えば次のような算出式により、文書画像における目標点の相対座標 (x_img, y_img)を取得する。

このように、座標取得部３８は、基準画像に含まれる予め定められた複数の文字列（利用文字列）の座標と座標検出部３６により検出された座標とを用いて、基準画像と文書画像との間の拡大又は縮小の倍率を取得し、この倍率に基づいて文書画像の目標点の座標を取得する。

これに対し、文字列抽出部４０は、文書画像おける(x_img, y_img)を基点とした領域内に含まれる文字列を解析部３２のＯＣＲ結果から抽出する。なお、(x_img, y_img)を基点とした領域の幅及び高さは、w_img及びh_imgである。ここで、w_img及びh_imgの値は、例えば、基準画像における枠線の幅w_org及び高さh_orgに、基準画像に対する文書画像の倍率を乗じることにより算出される。

以上、図３により示した例では、利用文字列として、「注文書」、「エベレスト」としているが、利用文字列は、例えば、基準画像に含まれる文字列のうち、文書画像内においても予め定められた領域内に存在することが期待される文字列であることが好ましい。例えば、文書の題名、項目名など、文書の雛形のデータに予め含まれる文字列などが利用文字列として選択されることが好ましい。

また、図３に示した例では、利用文字列として、「注文書」、「エベレスト」といった一意の文字列を用いる例を示したが、正規表現により表された文字列を利用文字列としてもよい。例えば、メタ文字を用いて、３文字の漢字からなる文字列、「注文」の文字列の後に任意の１文字がある文字列などに該当する文字列を利用文字列として指定するようにしてもよい。例えば、座標検出部３６により利用文字列「注文書」の座標を検出する際に、「書」について文字認識ができず、解析部３２の解析結果から「注文書」という文字列を探すことが出来ない場合であっても、利用文字列を「注文書」ではなく、正規表現により「注文」の文字列の後に任意の１文字がある文字列を指定すれば、利用文字列が見つかることとなる。

図４は、基準情報格納部３４への基準情報の格納の流れを示すフローチャートである。
ステップ１０（Ｓ１０）において、利用文字列を決定する。例えば、使用者によって、基準画像に含まれる文字列のうちいずれの文字列を利用文字列とするかが指定され、画像処理装置２は、指定された文字列を利用文字列として決定する。なお、本実施形態では、利用文字列としては、複数の文字列が指定される。

ステップ１２（Ｓ１２）において、ステップ１０で決定された利用文字列からの抽出対象の文字列への相対座標を指定する。例えば、使用者によって、目標点が指定されることにより、相対座標が決定される。また、使用者によって、目標点を基点とした抽出領域の幅及び高さが指定される。

ステップ１４（Ｓ１４）において、各利用文字列に対する座標情報と、目標点の相対座標及び目標点を基点とした抽出領域の幅及び高さの情報が、基準情報格納部３４に格納される。

図５は、文書画像から文字列を抽出する動作について例示するフローチャートである。
ステップ２０（Ｓ２０）において、画像読取装置２０により読み取られた文書画像を文書画像取得部３０が取得する。

ステップ２２（Ｓ２２）において、解析部３２が、文書画像に含まれる文字及び文字の位置について解析する。

ステップ２４（Ｓ２４）において、基準情報格納部３４に格納されている基準情報を読み込む。

ステップ２６（Ｓ２６）において、基準情報に定義されている利用文字列が文書画像に存在するか否かが判定され、利用文字列が存在する場合には、ステップ２８へ移行し、存在しない場合には、ステップ３４へ移行する。

ステップ２８（Ｓ２８）において、座標検出部３６が、文書画像における利用文字列の絶対座標を検出する。

ステップ３０（Ｓ３０）において、座標取得部３８が、基準情報に定義されている基準画像における利用文字列の座標及び目標点の座標と、ステップ２８で検出した利用文字列の文書画像における座標とから、文書画像における目標点の相対座標を取得する。

ステップ３２（Ｓ３２）において、文字列抽出部４０が、ステップ３０で取得した相対座標に基づいて、目標点を基点とした領域内の文字列を、ステップ２２の解析結果から抽出する。

一方、ステップ３４（Ｓ３４）では、相対座標に基づく文字列の抽出が行なえないため、予め定められた絶対座標に基づく領域内の文字列を抽出する。

なお、以上説明した実施形態では、利用文字列を複数設けているが、利用文字列を１つとし、当該１つの利用文字列から目標点までの相対距離により文書画像における文字列の抽出領域を求めるようにしてもよい。ただし、利用文字列が１つの場合、文書画像が基準画像に対して拡大又は縮小されたときには、対応できないことがある。

次に、本実施形態の第１の変形例について説明する。上記の実施形態では、基準情報格納部３４には、目標点の座標として、複数の利用文字列のうちいずれかの利用文字列からの相対座標を格納していた。これに対し、第１の変形例では、複数の利用文字列それぞれからの相対座標を格納している。そして、第１の変形例では、座標取得部３８は、基準画像に含まれる複数の利用文字列の座標から基準画像に含まれる目標点への相対座標に応じて、基準画像の目標点に対応する文書画像の目標点の座標を複数取得し、文字列抽出部４０は、座標取得部３８により取得された各座標を基点とした複数の領域のうち、いずれかの領域に含まれる文字列を抽出する。

図６は、第１の変形例における文字列の抽出について説明する模式図であり、図６（ａ）は、基準画像を例示し、図６（ｂ）は、基準情報格納部３４に予め格納されている情報を例示し、図６（ｃ）は、文書画像を例示している。

なお、ここでは、例えば文書データのデータ形式が変換されることにより、文書画像における文字列の配置が、基準画像のおける文字列の配列と異なっている場合を例に説明する。例えば、基準画像が、ＰＤＦ(ＰｏｒｔａｂｌｅＤｏｃｕｍｅｎｔＦｏｒｍａｔ)形式の文書データに基づく画像である場合に、当該文書データを他の形式の文書データに変換し、変換後の文書データについて記録媒体に画像形成した場合、この記録媒体を読み取った文書画像の文字列の配置は、基準画像における文字列の配置と異なる場合がある。図６に示した例では、文書画像において、利用文字列として指定されている「注文書」の文字列が基準画像に比べ、左方向にずれている。その結果、基準画像における「注文書」の文字列と「社名」以下の文字列との位置関係と、文書画像における「注文書」の文字列と「社名」以下の文字列との位置関係とは、異なっている。また、図６に示した例では、文書画像における文字列は、さらに、全体的に右下方向にずれている。

なお、図６に示した例では、文書画像は、基準画像に対して拡大又は縮小されていないが、第１の変形例として示す処理を拡大又は縮小された文書画像に適用してもよい。

図６で示した例では、抽出対象の文字列が、受注番号として記載されている「７８９１２３」であるものと仮定し、また、この文字列の抽出のために用いる予め定められた複数の文字列（利用文字列）が、「注文書」、「エベレスト」、「ページ」の３つであるものと仮定する。

また、図６（ａ）において、＋印は、利用文字列の座標位置を示し、枠線は、基準画像における抽出対象の文字列の領域を示している。この例では、枠線の左上隅の点が基準画像における目標点である。また、＋印から目標点へと伸びる各矢印は、利用文字列の各座標位置から目標点への相対座標を明示するベクトルを説明のため明示したものである。

図６（ｂ）に示すように、例えば、基準情報格納部３４は、基準画像における利用文字列の座標と、基準画像における目標点の座標及び当該目標点を基点とした矩形領域の幅及び高さ情報を格納している。ここで、第１の変形例では、複数の利用文字列それぞれからの相対座標を格納している点で上記の実施形態と異なっている。

また、図６（ｃ）において、×印は、文書画像における利用文字列の座標位置を示している。また、×印から伸びる各矢印は、図６（ａ）に示した矢印（利用文字列の座標位置から目標点への相対座標を示すベクトル）を投影したものであり、矢印により表されるベクトルは、図６（ａ）に示すベクトルと図６（ｃ）に示すベクトルとで等しい。また、図６（ｃ）において、ベクトルの終点は、基準画像の目標点に対応する文書画像の目標点の座標位置を示し、文書画像における、この目標点を基点とする枠線は、図６（ａ）に示した枠線と同じである。このように、図６（ａ）に示した基準画像と図６（ｃ）に示した文書画像とでは、各ベクトル及び枠線は同じであるものの、利用文字列の座標位置が変更されているため、枠線に囲まれる領域は、各々異なっている。

第１の変形例では、座標取得部３８は、座標検出部３６により検出された文書画像における利用文字列の座標と、基準情報格納部３４に格納されている目標点への相対座標とから、文書画像の目標点の利用文字列からの座標を取得する。図６に示した例では、座標取得部３８は、座標検出部３６により検出された文書画像における利用文字列「注文書」の座標と、基準情報格納部３４に格納されている利用文字列「注文書」の基準画像における座標及びこの利用文字列から目標点への相対座標とに基づいて、利用文字列「注文書」からの目標点の座標を取得する。また、座標取得部３８は、同様にして、利用文字列「エベレスト」からの目標点の座標、利用文字列「ページ」からの目標点の座標についても取得する。

また、第１の変形例では、文字列抽出部４０は、座標取得部３８により取得された各座標を基点とした複数の領域のうち、いずれかの領域に含まれる文字列を抽出する。図６に示した例では、まず、座標取得部３８により取得された利用文字列「注文書」についての座標を基点とした領域の指定が行なわれる。なお、領域の指定は、基準情報格納部３４に格納されている、矩形領域の幅及び高さ情報を用いて矩形領域を定めることにより行なわれる。同様にして、座標取得部３８により取得された他の利用文字列の座標を基点とした領域についても指定される。なお、指定された各領域は、図６（ｃ）では、各枠線内の領域として表される。次に、文字列抽出部４０は、例えば、指定された全ての領域に含まれる文字列を抽出対象の文字列として抽出する。

なお、文字列抽出部４０は、このように指定された全ての領域に含まれる文字列を抽出対象の文字列として抽出してもよいが、予め定められた閾値以上の個数の領域に含まれる文字列を抽出対象の文字列として抽出するよう構成してもよい。

また、文字列抽出部４０は、予め定められた条件を満たす文字列を抽出対象としてもよい。例えば、文字列が、数字、アルファベットなどの予め定められた文字の種別であるもののみを抽出対象とするようにしてもよいし、形態素解析などを行なうことにより領域内の文字列の内容を解析し、文字列が予め定められた内容（例えば、住所を示す文字列、氏名を示す文字列など）であるもののみを抽出対象とするようにしてもよい。

図７は、第１の変形例において、文書画像から文字列を抽出する動作について例示するフローチャートである。ここで、ステップ２０〜ステップ２４については、図４におけるフローチャートと同様なので、ステップ３０以降について説明する。

ステップ３０（Ｓ３０）において、基準情報に定義されている利用文字列が文書画像に存在するか否かが判定され、利用文字列が存在する場合には、ステップ３２へ移行し、存在しない場合には、ステップ３８へ移行する。

ステップ３２（Ｓ３２）において、座標検出部３６が、文書画像における利用文字列の絶対座標を検出する。

ステップ３４（Ｓ３４）において、座標取得部３８が、ステップ３２で検出された文書画像における利用文字列の座標と、基準情報格納部３４に格納されている目標点への相対座標とから、文書画像の目標点の当該利用文字列からの相対座標を取得する。

ステップ３６（Ｓ３６）において、文字列抽出部４０が、ステップ３４により取得された座標を基点とした領域内の文字列をステップ２２の解析結果から抽出する。

ステップ３８（Ｓ３８）において、基準情報に他の利用文字列が定義されているか否かを判定し、他の利用文字列が定義されている場合には、ステップ３０へと戻り、当該他の利用文字列について、上記の処理がなされる。一方、定義されている全ての利用文字列について上記の処理がなされた場合には、ステップ４０へと移行する。

ステップ４０（Ｓ４０）において、ステップ３０において文書画像中に存在すると判定された利用文字列があるか否かが判定され、１つ以上の利用文字列について文書画像中に存在するとステップ３０で判定されている場合には、ステップ４２へ移行し、文書画像中に存在すると判定された利用文字列が１つもなかった場合には、ステップ４４へ移行する。

ステップ４２（Ｓ４２）において、文字列抽出部４０は、ステップ３６で抽出された文字列の中から、文字列を決定する。例えば、上述のように、文字列抽出部４０は、指定された全ての領域に含まれる文字列を抽出対象の文字列として決定する。なお、ステップ３６で抽出された文字列のいずれも、条件を満たさない（例えば、指定された一部の領域にしか含まれていない等）場合、ステップ４４へ移行するようにしてもよい。

一方、ステップ４４（Ｓ４４）では、相対座標に基づく文字列の抽出が行なえないため、予め定められた絶対座標に基づく領域内の文字列を抽出する。

なお、以上説明したフローチャートにおいて、ステップ４０では、文書画像中に存在するとステップ３０で判定された利用文字列が１つ以上あれば、ステップ４２へ移行するものとして説明したが、１つに限らず、２以上としてもよい。

次に、本実施形態の第２の変形例について説明する。第２の変形例では、座標検出部３６は、少なくとも３つの利用文字列の座標を検出し、座標取得部３８は、基準情報格納部３４に格納された、基準画像に含まれる少なくとも３つの利用文字列の座標及び該座標により囲まれる領域内における目標点の座標と、座標検出部３６により検出された複数の利用文字列の座標とに基づいて、文書画像の目標点の座標を取得する。

図８は、第２の変形例における文字列の抽出について説明する模式図であり、図８（ａ）は、基準画像を例示し、図８（ｂ）は、基準画像における３つの利用文字列の座標点に囲まれた領域内の目標点の位置関係を図示している。

図８（ａ）において、＋印は、利用文字列の座標位置を示し、丸印は目標点を示し、枠線は、目標点を基点とした領域であり、基準画像における抽出対象の文字列の領域を示している。このように、第２の実施形態では、目標点を囲むように少なくとも３つの利用文字列を用いる。

第２の変形例で、基準情報格納部３４には、基準画像における少なくとも３つの利用文字列の座標と、基準画像における目標点の座標情報及び当該目標点を基点とした矩形領域の幅及び高さ情報が格納される。例えば、基準画像における目標点の座標情報としては、例えば、図８（ｂ）に示されるように、利用文字列の座標点により形成される三角形に対する目標点の相対位置を示す座標が格納される。なお、図８（ｂ）に示す例では、三角形のいずれか一辺に向けた目標点からの垂線による当該一辺の内分点の位置（図中に示される、垂線の交点から頂点までの距離ａ及びｂ）と、当該一辺の一方の頂点から目標点を通るように他の辺に向けた直線による当該他の辺の内分点の位置（図中に示される、直線の交点から頂点までの距離ｃ及びｄ）とを基準情報格納部３４は目標点の座標情報として格納する。

図９は、第２の変形例における文字列の抽出について説明する模式図であり、図９（ａ）は、文書画像を例示し、図９（ｂ）は、文書画像における３つの利用文字列の座標点に囲まれた領域内の目標点の位置関係を図示している。ここでは、文書画像が、基準画像に比べて、縮小され、かつ、全体的に文字列の位置が平行移動している場合を例に説明する。

図９（ａ）において、×印は文書画像における利用文字列の座標位置を示し、丸印は文書画像における目標点を示し、枠線は、目標点を基点とした領域であり、文書画像における抽出対象の文字列の領域を示している。第２の変形例では、図９（ｂ）に示すように、上記垂線及び直線の辺の内分比率が図８（ｂ）と同様になるよう、垂線の交点（図中に示される、垂線の交点から頂点までの距離ａ'及びｂ'）と、直線の交点（図中に示される、直線の交点から頂点までの距離ｃ'及びｄ'）が定められ文書画像における目標点の位置が求められる。座標取得部３８は、このように目標点の座標を計算し、文字列抽出部４０は、上述の実施形態と同様、目標点を基点とした枠線内の文字列を抽出する。

図１０は、第２の変形例において、文書画像から文字列を抽出する動作について例示するフローチャートである。ここで、ステップ２０〜ステップ２４については、図４におけるフローチャートと同様なので、ステップ４０以降について説明する。

ステップ４０（Ｓ４０）において、基準情報に定義されている３つの利用文字列が文書画像に存在するか否かが判定され、利用文字列が存在する場合には、ステップ４２へ移行し、存在しない場合には、ステップ４８へ移行する。

ステップ４２（Ｓ４２）において、座標検出部３６が、文書画像における各利用文字列の絶対座標を検出する。

ステップ４４（Ｓ４４）において、座標取得部３８が、ステップ４２で検出された文書画像における利用文字列の座標と、基準情報格納部３４に格納されている基準画像の利用文字列の座標及び目標点の座標情報とから、文書画像の目標点の座標を取得する。

ステップ４６（Ｓ４６）において、文字列抽出部４０が、ステップ４４により取得された座標を基点とした領域内の文字列をステップ２２の解析結果から抽出する。

一方、ステップ４８（Ｓ４８）では、予め定められた絶対座標に基づく領域内の文字列を抽出する。

以上、図８及び図９に示した例では、１つの目標点と、利用文字列の座標点からなる１つの三角形領域とを用いて説明したが、利用文字列を４つ以上設定し、目標点を囲む複数の異なる三角形領域を用いてもよい。また、複数の異なる三角形領域において、各三角形領域内の目標点は、枠線上の同じ頂点であってもよいし、異なる頂点であってもよい。このように、利用文字列を４つ以上設定し、目標点を囲む複数の異なる三角形領域を用いることにより、利用文字列として３つだけを設定する場合に比べ、ステップ４０において「有」と判定されやすくなることが期待される。

２画像処理装置
４ＣＰＵ
６メモリ
２０画像読取装置
３０文書画像取得部
３２解析部
３４基準情報格納部
３６座標検出部
３８座標取得部
４０文字列抽出部

Claims

記録媒体を読み取って得られた文書画像を解析する解析手段と、
前記解析手段による解析結果から前記文書画像における予め定められた複数の文字列の座標を検出する座標検出手段と、
前記文書画像に対応する基準画像に含まれる前記予め定められた複数の文字列の座標及び該基準画像に含まれる目標点の座標と、前記座標検出手段により検出された複数の座標とに基づいて、該基準画像の目標点に対応する前記文書画像の目標点の座標を取得する座標取得手段と、
前記解析手段による解析結果から、前記座標取得手段により取得された座標を基点とした領域の文字列を抽出する文字列抽出手段と
を有し、
前記座標取得手段は、前記基準画像に含まれる前記予め定められた複数の文字列の座標と前記座標検出手段により検出された文書画像の対応する複数の文字列の座標とを用いて、前記基準画像と前記文書画像との間の拡大又は縮小の倍率を取得し、該倍率に基づいて前記文書画像の目標点の座標を取得する
画像処理装置。
前記座標検出手段は、正規表現を用いて予め定められた複数の文字列の座標を検出する
請求項１記載の画像処理装置。
前記座標取得手段は、前記基準画像に含まれる前記予め定められた複数の文字列の座標から該基準画像に含まれる目標点への相対座標に応じて、該基準画像の目標点に対応する前記文書画像の目標点の座標を複数取得し、
前記文字列抽出手段は、前記座標取得手段により取得された各座標を基点とした複数の領域のうち、いずれかの領域に含まれる文字列を抽出する
請求項１又は２記載の画像処理装置。
前記文字列抽出手段は、前記座標取得手段により取得された各座標を基点とした複数の領域全てに含まれる文字列を抽出する
請求項３記載の画像処理装置。
前記文字列抽出手段は、予め定められた条件を満たす文字列を抽出対象とする
請求項３又は４記載の画像処理装置。
前記座標検出手段は、少なくとも３つの予め定められた文字列の座標を検出し、
前記座標取得手段は、前記基準画像に含まれる前記少なくとも３つの予め定められた文字列の座標及び該座標により囲まれる領域内における目標点の座標と、前記座標検出手段により検出された複数の座標とに基づいて、前記文書画像の目標点の座標を取得する
請求項１又は２記載の画像処理装置。
記録媒体を読み取って得られた文書画像を解析する解析ステップと、
前記解析ステップでの解析結果から前記文書画像における予め定められた複数の文字列の座標を検出する座標検出ステップと、
前記文書画像に対応する基準画像に含まれる前記予め定められた複数の文字列の座標及び該基準画像に含まれる目標点の座標と、前記座標検出ステップで検出された複数の座標とに基づいて、該基準画像の目標点に対応する前記文書画像の目標点の座標を取得する座標取得ステップと、
前記解析ステップでの解析結果から、前記座標取得ステップで取得された座標を基点とした領域の文字列を抽出する文字列抽出ステップとをコンピュータに実行させるプログラムであって、
前記座標取得ステップは、前記基準画像に含まれる前記予め定められた複数の文字列の座標と前記座標検出ステップにより検出された文書画像の対応する複数の文字列の座標とを用いて、前記基準画像と前記文書画像との間の拡大又は縮小の倍率を取得し、該倍率に基づいて前記文書画像の目標点の座標を取得する
プログラム。