JP4885112B2 - 文書処理装置、文書処理方法及び文書処理プログラム - Google Patents

文書処理装置、文書処理方法及び文書処理プログラム Download PDF

Info

Publication number
JP4885112B2
JP4885112B2 JP2007293392A JP2007293392A JP4885112B2 JP 4885112 B2 JP4885112 B2 JP 4885112B2 JP 2007293392 A JP2007293392 A JP 2007293392A JP 2007293392 A JP2007293392 A JP 2007293392A JP 4885112 B2 JP4885112 B2 JP 4885112B2
Authority
JP
Japan
Prior art keywords
distribution state
document
image
document image
collated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007293392A
Other languages
English (en)
Other versions
JP2009122758A (ja
Inventor
慶久 大黒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2007293392A priority Critical patent/JP4885112B2/ja
Publication of JP2009122758A publication Critical patent/JP2009122758A/ja
Application granted granted Critical
Publication of JP4885112B2 publication Critical patent/JP4885112B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

本発明は、文書画像間の照合を行う文書処理装置、文書処理方法および文書処理プログラムに関する。
従来、文字列が画像(文字行)として記録された文書画像中から文字列を抽出する方法として、種々の技術が提案されている。例えば、文書画像に含まれた文字行に外接する矩形の形状及び位置に関する特徴(大きさ、間隔等)について、複数の制約を適用することにより文字行を文字列として認識することが可能な技術が提案されている(例えば、特許文献1、2参照)。
特開平11−219407号公報 国際公開第00/62243号パンフレット
しかしながら、特許文献1、2に記載の技術では、文字行の認識を精度よく行うために外接矩形に関数する複数の制約を人手によって最適値に調整する必要がある。また、文字行らしさを判定することはできるものの、文字行の内容に関する特徴を認識することはできないため、文書画像間の照合に用いたとしても十分な精度を得ることができない可能性がある。また、複数行間の相対的な位置関係の利用については何等言及されていないため、文書画像の一部分となる部分画像を照合対象とした場合には、対応することができないという問題がある。
本発明は、上記に鑑みてなされたものであって、文書画像間の類似性をより効率的且つ高精度に判定することが可能な文書処理装置、文書処理方法及び文書処理プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、請求項1に係る発明は、文書画像間の照合を行う文書処理装置において、前記文書画像に含まれた文字画像毎の外接矩形に基づいて、当該外接矩形を連結した文字行を切り出す文字行切出手段と、前記文字行内における前記外接矩形の特性を表す配置情報を固定段階に量子化する量子化手段と、前記量子化された配置情報の各々を固定種類のシンボルにシンボル化するシンボル生成手段と、所定個の前記シンボルの組合せからなるシンボル系列の出現頻度を算出する出現頻度算出手段と、照合対象の文書画像と、当該文書画像の被照合対象となる複数の文書画像とについて、前記出現頻度算出手段により算出された出現頻度を照合し、より高い相関を有した被照合対象の文書画像を所定数選定する被照合対象選定手段と、前記照合対象の文書画像と、前記被照合対象選定手段により選定された被照合対象の文書画像の各々とで一致した前記シンボル系列に対応する各配置情報に基づいて、当該各配置情報の何れか又は全てが表す外接矩形の出現位置の分布状態を文書画像毎に導出する分布状態導出手段と、前記分布状態導出手段により導出された前記照合対象の文書画像についての分布状態と、前記被照合対象の文書画像についての分布状態との類似度を判定し、最も高い類似度を有した被照合対象の文書画像を照合結果として選定する照合結果選定手段と、を備えたことを特徴とする。
また、請求項2に係る発明は、請求項1に係る発明において、前記分布状態導出手段は、前記文書画像の水平方向及び/又は垂直方向について、前記外接矩形の出現位置の分布状態を導出することを特徴とする。
また、請求項3に係る発明は、請求項1又は2に係る発明において、前記分布状態導出手段は、前記外接矩形の出現位置の分布状態を度数分布ヒストグラムとして導出することを特徴とする。
また、請求項4に係る発明は、請求項1又は2に係る発明において、前記分布状態導出手段は、前記外接矩形の出現位置の分布状態を正規分布とみなし、当該正規分布の平均、標準偏差、歪度及び尖度を導出することを特徴とする。
また、請求項5に係る発明は、請求項4に係る発明において、前記分布状態導出手段は、前記照合対象の文書画像と、前記被照合対象の文書画像とにおける前記文字行に含まれた各文字画像の前記外接矩形のサイズを集計し、当該サイズの平均値又は最頻値により前記正規分布を規定する数値を正規化することを特徴とする。
また、請求項6に係る発明は、請求項5に係る発明において、前記分布状態導出手段は、前記照合対象の文書画像と、前記被照合対象の文書画像とにおいて一致した前記シンボル系列に対応する配置情報が表す外接矩形のサイズを集計することを特徴とする。
また、請求項7に係る発明は、文書画像間の照合を行う文書処理装置で実行される文書処理方法であって、文字行切出手段が、前記文書画像に含まれた文字画像毎の外接矩形に基づいて、当該外接矩形を連結した文字行を切り出す文字行切出ステップと、量子化手段が、前記文字行内における前記外接矩形の特性を表す配置情報を固定段階に量子化する量子化ステップと、シンボル系列生成手段が、前記量子化された配置情報の各々を固定種類のシンボルにシンボル化するシンボル生成ステップと、出現頻度算出手段が、所定個の前記シンボルの組合せからなるシンボル系列の出現頻度を算出する出現頻度算出ステップと、被照合対象選定手段が、照合対象の文書画像と、当該文書画像の被照合対象となる複数文書画像とについて、前記出現頻度算出手段により算出された出現頻度を照合し、より高い相関を有した被照合対象の文書画像を所定数選定する被照合対象選定ステップと、分布状態導出手段が、前記照合対象の文書画像と、前記被照合対象選定ステップで選定された被照合対象の文書画像の各々とで一致した前記シンボル系列に対応する各配置情報に基づいて、当該各配置情報の何れか又は全てが表す外接矩形の出現位置の分布状態を文書画像毎に導出する分布状態導出ステップと、照合結果選定手段が、前記分布状態導出ステップで導出された前記照合対象の文書画像についての分布状態と、前記被照合対象の文書画像についての分布状態との類似度を判定し、最も高い類似度を有した被照合対象の文書画像を照合結果として選定する照合結果選定ステップと、を含むことを特徴とする。
また、請求項8に係る発明は、請求項7に係る発明において、前記分布状態導出手段は、前記文書画像の水平方向及び/又は垂直方向について、前記外接矩形の出現位置の分布状態を導出することを特徴とする。
また、請求項9に係る発明は、請求項7又は8に係る発明において、前記分布状態導出手段は、前記外接矩形の出現位置の分布状態を度数分布ヒストグラムとして導出することを特徴とする。
また、請求項10に係る発明は、請求項7又は8に係る発明において、前記分布状態導出手段は、前記外接矩形の出現位置の分布状態を正規分布とみなし、当該正規分布の平均、標準偏差、歪度及び尖度を導出することを特徴とする。
また、請求項11に係る発明は、請求項10に係る発明において、前記分布状態導出手段は、前記照合対象の文書画像と、前記被照合対象の文書画像とにおける前記文字行に含まれた各文字画像の前記外接矩形のサイズを集計し、当該サイズの平均値又は最頻値により前記正規分布を規定する数値を正規化することを特徴とする。
また、請求項12に係る発明は、請求項11に係る発明において、前記分布状態導出手段は、前記照合対象の文書画像と、前記被照合対象の文書画像とにおいて一致した前記シンボル系列に対応する配置情報が表す外接矩形のサイズを集計することを特徴とする。
また、請求項13に係る発明は、文書画像間の照合を行うコンピュータを、前記文書画像に含まれた文字画像毎の外接矩形に基づいて、当該外接矩形を連結した文字行を切り出す文字行切出手段と、前記文字行内における前記外接矩形の特性を表す配置情報を固定段階に量子化する量子化手段と、前記量子化された配置情報の各々を固定種類のシンボルにシンボル化するシンボル生成手段と、前記シンボル系列内における、所定個のシンボルの組合せからなるシンボル系列の出現頻度を算出する出現頻度算出手段と、照合対象の文書画像と、当該文書画像の被照合対象となる複数の文書画像とについて、前記出現頻度算出手段により算出された出現頻度を照合し、より高い相関を有した被照合対象の文書画像を所定数選定する被照合対象選定手段と、前記照合対象の文書画像と、前記被照合対象選定手段により選定された被照合対象の文書画像の各々とで一致した前記シンボル系列に対応する各配置情報に基づいて、当該各配置情報の何れか又は全てが表す外接矩形の出現位置の分布状態を文書画像毎に導出する分布状態導出手段と、前記分布状態導出手段により導出された前記照合対象の文書画像についての分布状態と、前記被照合対象の文書画像についての分布状態との類似度を判定し、最も高い類似度を有した被照合対象の文書画像を照合結果として選定する照合結果選定手段と、して機能させることを特徴とする。
また、請求項14に係る発明は、請求項13に係る発明において、前記分布状態導出手段は、前記文書画像の水平方向及び/又は垂直方向について、前記外接矩形の出現位置の分布状態を導出することを特徴とする。
また、請求項15に係る発明は、請求項13又は14に係る発明において、前記分布状態導出手段は、前記外接矩形の出現位置の分布状態を度数分布ヒストグラムとして導出することを特徴とする。
また、請求項16に係る発明は、請求項13又は14に係る発明において、前記分布状態導出手段は、前記外接矩形の出現位置の分布状態を正規分布とみなし、当該正規分布の平均、標準偏差、歪度及び尖度を導出することを特徴とする。
また、請求項17に係る発明は、請求項16に係る発明において、前記分布状態導出手段は、前記照合対象の文書画像と、前記被照合対象の文書画像とにおける前記文字行に含まれた各文字画像の前記外接矩形のサイズを集計し、当該サイズの平均値又は最頻値により前記正規分布を規定する数値を正規化することを特徴とする。
また、請求項18に係る発明は、請求項17に係る発明において、前記分布状態導出手段は、前記照合対象の文書画像と、前記被照合対象の文書画像とにおいて一致した前記シンボル系列に対応する配置情報が表す外接矩形のサイズを集計することを特徴とする。
本発明によれば、照合対象の文書画像と被照合対象の文書画像とについて、文字行内における外接矩形の特徴を表した配置情報を抽出し、これらを固定段階に量子化してシンボルを生成することにより、文字認識することなく文字行の特徴の抽出が可能となり、被照合対象の文書画像から、照合対象の文書画像と相関の高い被照合対象の文書画像を所定の数だけ選定することができる。また、照合対象の文書画像と、選定された被照合対象の文書画像とについて、一致するシンボル系列の出現位置の分布状態を照合することで、当該シンボル系列の相対的な位置関係の類似性を判定することができるため、照合対象の文書画像と被検照合対象の文書画像との類似性を高精度に判定することができる。これにより、文書画像中の部分画像が照合対象の文書画像とされた場合であっても、この部分画像に含まれた文字画像の外接矩形の位置関係に基づいて、当該部分画像と類似する文書画像を高精度に検索することが可能となる。
以下に添付図面を参照して、本発明に係る文書処理装置、文書処理方法及び文書処理プログラムの最良な実施の形態を詳細に説明する。
(文書処理装置のハードウェア構成)
図1は、本発明の第1の実施形態にかかる文書処理装置100のハードウェア構成を示したブロック図である。図1に示したように、文書処理装置100は、PC(Personal Computer)などのコンピュータであり、文書処理装置100の各部を制御するCPU(Central Processing Unit)1、CPU1を起動するためのプログラムが記憶されるROM(Read Only Memory)2、後述する画像入力部21により入力された文書画像やオペレーティングシステム、種々のプログラム等を記憶するハードディスク3、CPU1のワークエリアとして機能するRAM(Random Access Memory)4、オペレータからの各種入力を受け付けるキーボード5、入力状況等を表示する表示装置6、CD−ROMなどの各種光情報記録メディア(図示せず)に記憶されたプログラム等を読み取る光ディスクドライブ7、インターネットやLAN(Local Area Network)等の電気通信回線を介して文書画像を送受信する通信装置8、原稿画像の光学的な読み取りを行うスキャナ9等から構成されており、これらの各部間で入出力されるデータをバスコントローラ10が調停して動作する。
文書処理装置100では、オペレータが電源を投入するとCPU1がROM2内のローダーというプログラムを起動させ、ハードディスク3よりオペレーティングシステムというコンピュータのハードウェアとソフトウェアとを管理するプログラムをRAM4に読み込み、このオペレーティングシステムを起動させる。このようなオペレーティングシステムは、オペレータの操作に応じてプログラムを起動したり、情報を読み込んだり、保存を行ったりする。オペレーティングシステムのうち代表的なものとしては、Windows(登録商標)、UNIX(登録商標)等が知られている。これらのオペレーティングシステム上で走る動作プログラムをアプリケーションプログラムと呼んでいる。
ここで、文書処理装置100は、CPU1が実行するプログラムとして、後述する文書照合処理)にかかる文書処理プログラムをハードディスク3に記憶している。この意味で、ハードディスク3は、文書処理プログラムを記憶する記憶媒体として機能する。
また、一般的には、文書処理装置100のハードディスク3にインストールされるプログラムは、CD−ROMなどの各種光情報記録メディアやFD等の磁気メディア等の記憶媒体に記録され、この記憶媒体に記録されたプログラムがハードディスク3にインストールされる。このため、CD−ROMなどの各種光情報記録メディアやFD等の磁気メディア等の可搬性を有する記憶媒体も、文書処理プログラムを記憶する記憶媒体となり得る。さらには、文書処理プログラムは、例えば通信装置8を介して外部から取り込まれ、ハードディスク3にインストールされても良い。
CPU1は、オペレーティングシステム上で動作する文書処理プログラムが起動すると、この文書処理プログラムとの協働により後述する各機能部を実現させる。以下、文書処理装置100の機能的構成について説明する。
(文書処理装置の機能的構成)
図2は、文書処理装置100の機能的構成を示したブロック図である。図2に示したように、文書処理装置100は機能部として、画像入力部21、照合画像選択部22、矩形抽出部23、行切出部24、量子化部25、シンボル生成部26、出現頻度集計部27、候補画像選定部28、出現位置分布導出部29、照合結果選定部30及び表示部31を含み構成される。
画像入力部21は、外部から入力される文書画像を受け付け、ハードディスク3に記憶する。具体的に、画像入力部21の機能は、図1に示した光ディスクドライブ7、通信装置8、スキャナ9により実現することができる。
照合画像選択部22は、画像入力部21から入力される文書画像や、キーボード5を介して指定されたハードディスク3に記憶された文書画像を、照合対象の文書画像として選択する。以下、照合対象の文書画像を「照合画像」という。なお、照合画像選択部22は、文書画像中の特定の領域がキーボード5を介して指定された場合には、この領域内に含まれる部分的な文書画像(部分画像)を照合画像として選択するものとする。
また、照合画像選択部22は、照合画像の照合先となる被照合対象の文書画像を選択する。ここで、被照合対象の文書画像は、例えば、ハードディスク3に予め記憶された一部又は全ての文書画像としてもよいし、キーボード5を介して指定された文書画像を被照合対象の文書画像としてもよい。以下、被照合対象の文書画像を「被照合画像」という。
矩形抽出部23は、文書画像に含まれた各文字画像の外接矩形を抽出する。ここで「文字画像」とは、所定の言語からなる文字が画像として表されたものを意味する。行切出部24は、矩形抽出部23で抽出された外接矩形を連結することで文字行の切り出しを行う。以下、文字行に含まれる外接矩形を「行内矩形」という。
量子化部25は、行切出部24で切り出された文字行に含まれる各行内矩形の特性を表す配置情報を固定段階に量子化する。ここで、行内矩形の特性とは、各行内矩形に対応する文字画像の黒画素密度や文字行内における行内矩形の高さ、始点位置等のパラメータ群であって、行内矩形に固有の配置状態を表すものである。なお、配置情報の量子化については後述する。
シンボル生成部26は、量子化部25により量子化された配置情報の各々を固定種類のシンボルにシンボル化し、文書画像を構成する各文字行に対応する一連のシンボル系列を生成する。以下、文書画像全体についてのシンボル系列を全体シンボル系列という。
出現頻度集計部27は、全体シンボル系列内において、所定個のシンボルの組合せからなるシンボル系列が出現する頻度(出現頻度)を算出する。候補画像選定部28は、照合画像と、当該照合画像の照合先となる被照合画像とについて、出現頻度集計部27により算出された出現頻度を照合し、より高い相関を有した被照合画像を所定個数選定する。以下、候補画像選定部28により選定された被照合画像を「候補画像」という。
出現位置分布導出部29は、照合画像と候補画像との各文書画像において、両文書画像で一致した各シンボル系列に対応する配置情報の何れか又は全てが表す行内矩形に基づき、当該行内矩形の出現位置の分布状態を文書画像毎に夫々導出する。また、出現位置分布導出部29は、照合画像についての分布状態と、候補画像についての分布状態との類似度を算出し、算出した類似度を対応する候補画像と対応付けてRAM4等に保持する。
照合結果選定部30は、出現位置分布導出部29により算出された類似度に基づいて、最も高い類似度を有した候補画像を照合結果として選定する。
表示部31は、画像入力部21から入力された文書画像や各処理の経過状況等の表示を行うとともに、照合結果選定部30により選定された候補画像の表示を行う。なお、表示部31の機能は、図1に示した表示装置6により実現できる。
以下、文書処理装置100が実行する各種の処理のうち、本実施の形態に特長的な処理である文書照合処理について以下に説明する。
図3は、文書照合処理の手順を示したフローチャートである。まず、照合画像選択部22は、画像入力部21から入力される文書画像や、キーボード5を介して指定された文書画像を照合画像として選択する(ステップS1)。次いで、照合画像選択部22は、ステップS1で選択した照合画像の照合先となる、被照合画像を選択する(ステップS2)。
続いて、矩形抽出部23、行切出部24、量子化部25、シンボル生成部26及び出現頻度集計部27は、ステップS1、S2で選択された各文書画像について、出現頻度集計処理を実行する(ステップS3)。以下、図4を参照して、ステップS3の出現頻度集計処理について説明する。なお、出現頻度集計処理は、照合画像及び被照合画像の各々について行われるものとするが、以下の説明では「文書画像」と総称して説明する。
図4は、出現頻度集計処理の手順を示したフローチャートである。まず、矩形抽出部23は、文書画像に含まれた各文字画像の黒画素に外接する外接矩形を抽出する(ステップS31)。続いて、行切出部24は、水平方向に隣接する外接矩形同士を連結して文字行に成長させた後、この文字行を夫々切り出す(ステップS32)。
ここで、文書画像の行の切り出しについて、図5−1〜図5−3を参照して説明する。矩形抽出部23は、文書画像(図5−1)について、黒画素の連結成分を求め、それと外接する外接矩形A,B,C・・・を求める(図5−2)。そして、行切出部24は、矩形抽出部23により求められた外接矩形を、水平方向に隣接する外接矩形同士を連結して文字行Zに成長させる(図5−3)。行内矩形の生成及び文字行の切り出しにかかる処理自体は、公知の手法を用いることができるため詳細な説明は省略する。
なお、文書画像から一つの文字行として切り出す単位は、行単位や段落単位、章単位等で切り出すことが好ましい。一般的に文書画像に含まれる文字画像のサイズは、行単位や段落単位、章単位で均一となるため、このような纏まりで文字行を切り出すことで、当該文字行内に含まれる文字画像のサイズ(文字サイズ)を揃えることが可能となる。また、本実施形態では、外接矩形の成長を水平方向で実施する態様としたが、これに限らず、文字方向等に応じて垂直方向、或いは、水平方向及び垂直方向の両方で実施する態様としてもよい。
図4に戻り、量子化部25及びシンボル生成部26は、ステップS32で切り出した各文字行について、シンボル生成処理を実行する。以下、図6を参照してステップS33のシンボル生成処理について説明する。
図6は、シンボル生成処理の手順を示したフローチャートである。まず、量子化部25は、ステップS32で切り出された各文字行の高さを計測する(ステップS331)。
次いで、量子化部25は、各文字行に含まれる各行内矩形の水平方向の始点(Xs)に基づいて、当該行内矩形を昇順にソートすることで配置順序を整列する(ステップS332)。続いて、量子化部25は、整列した各行内矩形の配置状態を表す配置情報を夫々取得し、この配置情報を固定段階に量子化する(ステップS333)。以下、図7−1、図7−2、図8および図9を参照して、ステップS332、S333の処理を説明する。
図7−1および図7−2は、行内矩形の配置例を示す説明図である。欧米系文字行は、図7−1に示すように、大文字と小文字とが混在していることに加え、アポストロフィー、アクサンテギュ、ウムラウトなど、記号類の有無が存在するので、行内矩形の始点の高さは、図7−1のaの位置とbの位置との2カ所に集中することは明らかである。つまり、矩形の配置位置は上下に対称ではない。一方、アジア系文字行は、図7−2に示すように、漢字、ひらがな、カタカナ、ハングルなど、文字の構造が複雑であり、行内矩形の始点の高さは、欧米系文字行で見られるような、2カ所への明確な集中はない。しかし、矩形の配置位置が上下左右、対称ではないことは、欧米系行と同じである。
図7−1の欧文文字の行内矩形と、図7−2のアジア系文字の行内矩形とを比較してみると、行内矩形の並び方は言語の種類に関わらず、その文字行の内容に応じて変化していることがわかる。そこで、文字の外接矩形を抽出することで、文字の大まかな特徴を捉えることができる。すなわち、文字そのものを特定しなくても、例えば図8に示すように、矩形座標の始点(Xs,Ys)と終点(Xe,Ye)を求め、これを利用した文字画像の外接矩形の配置状態を表す特徴を取得するだけで各文字行の画像特徴を捉えることができる。
行内矩形の配置位置が同じであっても、欧米系文字は構造が単純なためアジア系文字と較べて矩形内の黒画素密度は低くなる。なお、アジア系文字においても、構造が簡単なひらがな、カタカナの黒画素密度は低く、構造が複雑な漢字の黒画素密度が高くなることは言うまでもない。
このように、文字行内における一つの矩形の配置状態は、行内矩形の始点の高さ、矩形サイズ(幅、高さ)行内矩形中の黒画素密度等を計測することによって唯一に定義することができる。ステップS333の処理では、これら計測結果を配置情報として各文字行の行内矩形毎に取得し、固定段階に量子化する。
以下では、行内矩形の始点の高さを基準にして行内矩形の配置状態を定義する一例を示す。図9は、行内矩形の配置状態を示す特徴を量子化する方法を示す説明図である。原稿を特定していない状況下では、行高さは可変であり、処理が行高さの値に依存しないように、行内矩形の高さを次式で正規化する。なお、ysは行内矩形始点の高さ、HはステップS332で取得した行高を意味する。
YsRate=ys/H ・・・(1)
ここで、0<YsRate≦1であるから、YsRateを固定段階に量子化することは容易である。例えば、N段階に量子化するなら、
YsVal=INT(YsRate*(N−1)) ・・・(2)
(ただし、INT():小数点以下切捨て)
とすればよい。各段階は、0〜(N−1)とラベル付けされる。矩形幅wおよび矩形高さhも同様の手順で量子化される。
ところで、記憶容量節約および演算量低減のためなどの理由で、画像処理においては原画像そのものではなく圧縮画像を処理対象にする場合が多い。圧縮画像は、画素数が減るために文字画像の細部に関する情報は失われる。本発明は、図9に示すように、文字画像の外接矩形に注目するものであり、画像そのものの詳細な特徴に基づくものではない。したがって、原画像だけでなく、圧縮画像に対しても有効に機能しうる。
なお、上記では文字行画像の特徴として行内矩形の始点の高さを基準としたが、これに限定されない。例えば、文字行画像の特徴として行内矩形の高さを用いる場合は、図9において、次のとおりである。
HeightRate=h/H ・・・(3)
HeightVal
=INT(HeightRate*(N−1))+0.5 ・・・(4)
(ただし、INT():小数点以下切捨て)
各段階は、0〜(N−1)とラベル付けされる。
また、文字行画像の特徴として行内矩形の幅を用いる場合は、次のとおりである。
WidthRate=w/H ・・・(5)
WidthVal
=INT(WidthRate*(N−1))+0.5 ・・・(6)
(ただし、INT():小数点以下切捨て)
各段階は、0〜(N−1)とラベル付けされる。
図5に戻り、続いて、シンボル生成部26は、ステップS333で量子化された配置情報の各々を固定種類のシンボルにシンボル化した後(ステップS334)、図4のステップS34の処理に移行する。
以下、図10および図11を参照し、ステップS334の処理について説明する。上述したとおり、ステップS333で取得された配置情報は、対応する行内矩形の配置状態を特徴付けるものとなっている。ステップS334の処理では、量子化された配置情報に含まれる複数種類の測定結果を一つにまとめてシンボル化することで、一つの行内矩形を一つのシンボルに対応させる。
例えば、矩形の始点の高さ、矩形高さ、矩形幅の3種の情報をまとめる。仮に、前述の処理で、矩形の始点の高さ(ys/H)を15段階、矩形高さ(h/H)を8段階、矩形幅(w/H)を2段階に量子化するとする。この結果、図10に示すように、各情報は、矩形の始点の高さ(ys/H)は15段階であるから4bits、矩形高さ(h/H)は8段階であるから3bits、矩形幅(w/H)は2段階であるから1bitで表現することができる。また、
4bits+3bits+1bit=8bits
であるから、1byteの各ビットに全情報を格納することができる。そして、これらの3種の情報を一つにまとめたシンボルの種類は、
15段階×8段階×2段階=240種
となる。
ところで、矩形の配置状態を表す複数の特徴を多次元ベクトルの各次元とみなせば、矩形は、その各特徴を用いて一つのベクトルデータに変換(ベクトル量子化)できる。ベクトル量子化とは、周知のように、ベクトルデータの多数のバラエティから、それらを代表する少数のベクトルデータを求めることである。求められた代表ベクトルに順にラベル付けすれば、ベクトルデータの系列を単なる一次元のシンボルデータの系列に変換することができる。ベクトル量子化に関しては、「ベクトル量子化と情報圧縮」(コロナ社)Allen Gersho,Robert M.Gray著、田崎三郎ほか訳、に詳しい。
なお、まとめる情報の種類及びその格納のための記憶エリアは、記憶サイズは固定ではなく、識別対象である文字行を特定するのに好適な情報を適宜選択し、決定することが可能であることは言うまでもない。また、図10では、矩形の始点の高さ、矩形高さ、矩形幅についてシンボル化する例を示したが、これに限らず、上述した黒画素密度などの配置情報を含めてシンボル化する態様としてもよい。
以上の作業を経ることによって、シンボル生成部26は、各文字行に含まれる行内矩形を、固定個のシンボル(ラベル)に変換することができる。したがって、実際の行内矩形の配置は、図11に示すような単なるシンボルの並びとみなすことができる。これで、シンボル系列の並び傾向を記録することができ、行内矩形の並び傾向を記録することと等価となる。
図4に戻り、出現頻度集計部27は、ステップS34でシンボル化した各配置情報に対して、所定個のシンボルの組合せからなるシンボル系列の出現頻度を照合画像及び被照合画像の各々について夫々算出、集計し(ステップS34)、図3のステップS4の処理に移行する。
以下、ステップS34の処理について説明する。配置情報がシンボル化された後には、テキスト検索と同様に、一般的な検索手法によって検索することが可能になる。つまり、照合画像と被照合画像についてシンボル系列間の完全一致を求めればよい。ただし、文字行画像の読み取り誤差によって、文字矩形の特徴の計測結果は異なるので、文字行が同一であっても、そのシンボル変換結果が同一にならない場合もある。よって、シンボル系列の完全一致を求めるのみでは、同一文字行画像を検索できない虞がある。
そこで、ステップS34の処理では、シンボル系列の完全一致ではなく、シンボル系列の並び傾向の相関を求める。具体的には、照合画像及び被照合画像について生成された全シンボル系列の各々における、所定個のシンボルの組みからなるシンボル系列の出現頻度を算出し集計する。
以下、詳述する。
並びの傾向を記録する手段としては、n−gramモデルがある。n−gramモデルは、クロード・エルウッドシャノンによって提案された言語モデルである。このモデルでは、系列中のシンボルの出現が、直前のn個(nは自然数)のシンボルに影響されるとしている。現在の状態がn個前の入力に依存して決まる確率プロセスをn重マルコフ過程と呼び、n−gramモデルは(n−1)重マルコフモデルとも呼ばれる。特に、n=3の場合をtrigramと呼び、広く使用されている。
具体的には、下記式(7)で示されるモデルである。さらに、式(8)にしたがって、照合画像及び被照合画像の各全シンボル系列から3つのシンボルの組みからなるシンボル系列(trigram)の出現頻度を夫々算出する。
Figure 0004885112
一方で、trigramの出現頻度順位を求め、出現頻度の高い順にtrigramを集計する。表1に、trigram集計結果の一例を示す。
Figure 0004885112
表1において、出現頻度はtrigramに示した3つ組みのシンボル系列、即ち三つの行内矩形を表す配置情報が、全体シンボル系列中にこの順序で出現する頻度を表している。例えば、trigram[s013,s045,s032]では、s013,s045の後ろにs032が出現する頻度が324であり、trigram[s013,s064,s033]では、s013,s064の後ろにs033が出現する頻度が312であることを示している。このように、文書画像の全シンボル系列に関して表1に示したようなtigram集計結果を求めることが、各文書画像の特徴を求めること(学習)に相当する。
以上の動作を経ることによって、出現頻度集計部27は、照合画像および被照合画像の各文書画像について、表1に示したようなtrigramの出現確率の集計結果を導出する。
続いて、候補画像選定部28は、ステップS3の処理で導出された照合画像に対応する集計結果(照合画像集計結果)と、被照合画像に対応する集計結果(被照合画像集計結果)とを照合し、より高い相関を有した上位n個の被照合画像を候補画像として選定する(ステップS4)。ここで、「n」は1以上の整数であって、任意の値を設定することが可能であるものとする。
照合画像集計結果と、被照合画像集計結果とを照合する場合、一つの文字行に含まれる行内矩形の個数は同値とならないことが多いため、出現頻度そのものを比較することは有意ではない。そのため、ステップS4では、下記式(9)に示した順位相関係数を用いることで、照合画像集計結果と、被照合画像集計結果との相関を判定する。
Rxy=1−(6*Σ(Rxi−Ryi)^2)/(n*(n^2−1)) ・・・(9)
ここで、nはデータ数、Rxiは照合画像集計結果の順位毎の出現頻度、Ryiは被照合画像集計結果の順位毎の出現頻度を意味しており、各順位についてRxiとRyiとの差を二乗した値の総和がΣにより演算されるようになっている。なお、順位相関係数に関しては、「ノンパラメトリック法」(培風館)柳川尭著に詳しい。
候補画像選定部28は、照合画像集計結果と、被照合画像集計結果とに含まれる各出現頻度について、順位相関係数Rxyを算出し、被照合画像のうち、Rxyの値が“1”に近いものからn個分の被照合画像を候補画像として選定する。なお、順位相関係数を統計的に検定し、最大の順位相関係数が有意な値を示さない場合には、照合画像に類似する被照合画像はない、と判断することとしてもよい。
ここで、図12を参照して、上述したステップS1〜S4迄の処理の概要を説明する。ステップS1、S2の処理において、照合画像Xと、複数の被照合画像Yとが選択されると、ステップS3の処理では、これら文書画像を構成する各文字行に含まれた行内矩形の各々が、配置情報に基づいてシンボル化され、照合画像Xについての全シンボル系列X1と、各被照合画像Yについての全シンボル系列Y1とが夫々生成される。そして、全シンボル系列中における、trigramの出現頻度が集計されることで照合画像Xに対応する照合画像集計結果X2と、被照合画像Yの夫々に対応する被照合画像集計結果Y2とが導出される。続いて、照合画像集計結果A2に含まれた順位毎の出現頻度と、被照合画像集計結果B2の夫々に含まれた順位毎の出現頻度と、に基づいて順位相関係数Rxyが算出される。
続くステップS4において、ステップS3で算出された被照合画像Y毎の順位相関係数Rxyの値に基づいて、この値が “1”に近いものからn個分の被照合画像Yが候補画像として選定されることになる。
図3に戻り、出現位置分布導出部29は、出現位置分布照合処理を実行する(ステップS5)。以下、ステップS5の出現位置分布照合処理について説明する。
図13は、出現位置分布照合処理の手順を示したフローチャートである。まず、出現位置分布導出部29は、ステップS4の処理で選定されたn個の候補画像から、本処理の対象とする候補画像を一つ選択する(ステップS51)。
続いて、出現位置分布導出部29は、ステップS51で処理対象とした候補画像の被照合画像集計結果と、照合画像の照合画像集計結果とに基づいて、両文書画像の間で一致するtrigram、即ち三つのシンボルの組みからなるシンボル系列を選択する(ステップS52)。ここで、選択するtrigramの個数は特に問わないものとするが、より出現頻度の高いtrigramを選択することが好ましい。また、trigramを構成する三つのシンボルのうち、何れかのシンボルを選択する態様としてもよい。
次いで、出現位置分布導出部29は、照合画像と処理対象の候補画像とについて、文書画像の水平方向および垂直方向における、ステップS52で選択したシンボル系列に対応する行内矩形の出現位置の分布状態をヒストグラム(度数分布ヒストグラム)として導出する(ステップS53)。
図8に示したように、行内矩形は始点(Xs、Ys)と終点(Xe、Ye)との2点により表現される。そのため、水平方向(X軸)に関して分布をとる場合、始点Xsについてヒストグラムを生成すればよく、垂直方向(Y軸)に関しては分布をとる場合、始点Ysについてヒストグラムを生成すればよい。
図14は、行内矩形の存在位置の分布状態をヒストグラムで表現した一例を示した図である。同図に示したように、照合画像と被照合画像との両文書画像の間で一致した行内矩形(図中K)について、文書画像の水平方向と垂直方向でのヒストグラムを夫々導出する。ヒストグラム集計にあたっての集計幅は、特に問わないものとするが、例えば、ステップS3の処理で切り出した各文字行の高さの平均値程度とすることとしてもよい。
図13に戻り、次に出現位置分布導出部29は、ステップS53で求めた両ヒストグラムを照合し、その類似度を算出する(ステップS54)。なお、本実施形態では両ヒストグラムの照合方法として、メジアン(中央値)、モード(最頻値)、平均の各々が属するデータ区間のヒストグラム値を、両ヒストグラムの間で比較するものとする。
具体的には、ヒストグラムのデータ区間を座標の小さいものから順次番号付けし、メジアン、モード、平均の所属するデータ区間の番号を求める。ここで、メジアン、モード、平均の所属するデータ区間番号を(MedianClassNo, ModeClassNo, AvClassNo)と表現すれば、以下の4種の組が求められる。
(MedianClassNoXaxQuery,ModeClassNoXaxQuery,AvClassNoXaxQuery) ・・・(10)
(MedianClassNoYaxQuery,ModeClassNoYaxQuery,AvClassNoYaxQuery) ・・・(11)
(MedianClassNoXaxDB,ModeClassNoXaxDB,AvClassNoXaxDB) ・・・(12)
(MedianClassNoYaxDB,ModeClassNoYaxDB,AvClassNoYaxDB) ・・・(13)
なお、「XaxQuery」は、照合画像の水平方向のヒストグラムを意味するものであり、上記(10)式は、照合画像の水平方向のヒストグラムにおける、該当するデータ区間番号のヒストグラム値を夫々意味する。また、「YaxQuery」は、照合画像の垂直方向のヒストグラムを意味するものであり、上記(11)式は、照合画像の垂直方向のヒストグラムにおける、該当するデータ区間番号のヒストグラム値を夫々意味する。また、「XaxDB」は、被照合画像の水平方向のヒストグラムを意味するものであり、上記(12)式は、被照合画像の水平方向のヒストグラムにおける、該当するデータ区間番号のヒストグラム値を夫々意味する。また、「YaxDB」は、被照合画像の垂直方向のヒストグラムを意味するものであり、上記(13)式は、被照合画像の垂直方向のヒストグラムにおける、該当するデータ区間番号のヒストグラム値を夫々意味する。
出現位置分布導出部29は、上記4種の組の値を算出した後、下記(14)〜(16)式を用いて、垂直方向についての照合画像のヒストグラムと、被照合画像のヒストグラムとの形状の類似度を算出する。
MedianClassNoXaxDB+CA=MedianClassNoXaxQuery ・・・(14)
ModeClassNoXaxDB+CA=ModeClassNoXaxQuery ・・・(15)
AvClassNoXaxDB+CA=AvClassNoXaxQuery ・・・(16)
上記(14)〜(16)式において、「CA」は定数であって、最初に処理する1式(例えば(14)式)から求まる値である。出現位置分布導出部29は、この定数CAの値が残りの2式にて成立するか否か、つまり、残り2式での定数CAからのずれの度合いを、照合画像のヒストグラムと、被照合画像のヒストグラムとの形状の類似度として算出する。なお、定数CAからのずれの度合いは、例えば、CA’/CAを算出することで導出できる。ここで、CA’は、CA+α(αは定数CAからのずれ値)であり、完全一致する際のずれの度合い、即ち類似度は“1”となる。
また、同様に出現位置分布導出部29は、下記(17)〜(19)式を用いて、垂直方向についての、照合画像のヒストグラムと、被照合画像のヒストグラムとの形状の類似度を算出する。
MedianClassNoYaxDB+CB=MedianClassNoYaxQuery ・・・(17)
ModeClassNoYaxDB+CB=ModeClassNoYaxQuery ・・・(18)
AvClassNoYaxDB+CB=AvClassNoYaxQuery ・・・(19)
上記(17)〜(19)式において、「CB」は定数であって、上述したCAと同様、最初に処理する1式(例えば(17)式)から求まる値である。出現位置分布導出部29は、この定数CBの値が残りの2式にて成立するか否か、つまり、残り2式での定数CBからのずれの度合いを、照合画像のヒストグラムと、被照合画像のヒストグラムとの形状の類似度として算出する。なお、定数CBからのずれの度合いは、上述した定数CAについてと同様に導出することができる。
出現位置分布導出部29は、上記の手続きにより算出した水平方向および垂直方向での類似度を、処理対象の被照合画像と対応付けてRAM4等に保持する。ここで、水平方向(又は垂直方向)に対して導出されるずれの度合いの個数は、2式(或いは3式)分となるが、これらを個別に類似度として保持する態様としてもよいし、これらの平均値を類似度として保持する態様としてもよい。
なお、本実施形態では、文書画像の水平方向および垂直方向の両方向について、ヒストグラムの形状の類似度を算出したが、何れか一方向のみについて算出する態様としてもよい。また、本実施形態では、行内矩形の出現位置の分布状態をヒストグラムで表すものとしたが、これに限らず、例えば正規分布を用いて表すものとしてもよい。
図15は、行内矩形の存在位置の分布状態を正規分布で表現した一例を示した図である。同図に示したように、正規分布を用いて表す場合には、各行内矩形の始点に基づいた集計結果から、水平方向(X軸)に関して、平均μx、標準偏差σx、歪度、尖度を算出し、また同様に垂直方向(Y軸)に関して、平均μy、標準偏差σy、歪度、尖度を算出すればよい。
この場合、平均値については、照合画像と被照合画像とで画像サイズが異なる可能性があるため、直接比較することは有意ではない。正規分布の形状が一致しているか否かを求めるには、標準偏差、歪度、尖度が類似しているかを判定すればよい。例えば、検索画像の標準偏差、歪度、尖度と、被検索画像の標準偏差、歪度、尖度との各々を比較し、比率が1に近いものほど正規分布の形状が類似するものと判断することができる。
なお、照合画像の解像度と、被照合画像の解像度とが一致している場合には、同一文字を構成するドット数は同じになるが、解像度が異なる場合にはドット数は同じにならない。つまり、ヒストグラムや正規分布の形状の一致を評価する場合にも、解像度が同じ場合には両者の数値をそのまま利用しても構わないが、解像度が異なる場合には、ドット数に基づく数値をそのまま利用することができない。
そこで、両文書画像の解像度が異なる場合、或いは解像度自体が未知の場合には、数値の正規化を行う必要がある。一般的な文書画像においては段落単位では文字のサイズは同一であるため、同じ段落に属する文字行は行高さが等しくなる。また、照合画像が被照合画像の一部分であれば、同じ行高さになる可能性が高いことは明らかである。よって、被検索画像および検索画像において、各文字行の行高さを集計し、最頻出となる行高さについて、ヒストグラムを規定する数値(平均、モード、メジアン)を除算する。なお、正規分布の場合も同様である。また、最頻出の行高さではなく、各文字行の行高さの平均値で除算してもよい。いずれを選択するかは設計事項であり、使用する環境に応じて決定すればよい。
また、照合画像が被照合画像の一部分であっても、その一部分の特異な部分だけが照合画像となった場合には、全体画像において最頻出する行高さが、部分画像において最頻出となる行高さと一致しないことが考えられる。例えば、本文行と見出し行とは行高さが大きく異なる文書画像において、全体画像の行数としては本文行が圧倒的に多いと予想される。その文書の部分画像には見出し行だけしか含まれていない場合には、最頻出行は見出し行となり、全体画像の最頻出行から推定した行高さとは一致しないため、この一致しない結果に基づいて正規化しても正しい比較結果を得ることができないのは明らかである。
このような場合、照合画像と被照合画像との両文書画像内において、一致した行内矩形(シンボル系列)だけを対象に矩形サイズの集計を行い、最頻出した矩形サイズのドット数に基づいて、数値(平均、モード、メジアン)を正規化することで対応することができる。
図13に戻り、出現位置分布導出部29は、ステップS54の処理で求めた類似度を、処理対象の候補画像に対応付けてハードディスク3又はRAM4に保持する(ステップS55)。続いて、出現位置分布導出部29は、ステップS4の処理で選定されたn個の被候補画像の全てに対して、本処理の処理対象としたか否かを判定する(ステップS56)。ここで、本処理の対象としていない未処理の候補画像が存在すると判定した場合には(ステップS56;No)、ステップS51へと再び戻り、未処理の候補画像のうち一つを処理対象として選択する。
一方、ステップS56において、全ての候補画像を処理対象としたと判定した場合(ステップS56;Yes)、図3のステップS6の処理に移行する。
図3に戻り、照合結果選定部30は、ステップS5の処理によりRAM4等に保持されたn個の候補画像の類似度に基づいて、最も高い類似度を有した候補画像、即ち類似度の値が“1”に最も近かった候補画像を照合結果として選定する(ステップS6)。
続いて、表示部31は、ステップS6の処理で照合結果に選定された文書画像を、照合画像に対する照合結果として表示装置6に表示し(ステップS7)、本処理を終了する。
図16は、上記文書照合処理の動作を説明するための図である。同図において、D11は照合画像であって、特定の文書画像中の一部分となる部分画像が照合画像に選択された場合を示している。また、D21〜D24は、ステップS4までの処理により選定された4つの候補画像を示している。なお、照合画像D11は、候補画像D24の部分画像となっている。即ち、候補画像D24が照合画像D11に最も類似する文書画像となっている。
上述したようにステップS4の処理では、行内矩形の配置情報に対応するシンボル系列を照合することで、照合画像D11と相関関係にある文書画像として、候補画像D21〜D24までを絞り込むことが可能である。なお、照合画像D11、候補画像D21〜D24中矩形Kで表した部分が、各文書画像で一致したシンボル系列(或いはシンボル)の行内矩形を意味している。
しかしながら、ステップS4の処理ではシンボル系列の出現頻度に基づいて類似度を判断するのみであるため、候補画像D24が照合画像D11に最も類似する文書画像であること、即ち、照合画像D11が候補画像D24の一部分であることまでを判断することはできない。そのため、ステップS5の処理では、各文書画像で一致したシンボル系列の相対的な位置関係、即ち出現位置の分布状態を照合することで、候補画像D24が照合画像D11に最も類似する文書画像であることを特定することが可能となる。
以上のように、本実施形態によれば、照合画像と被照合画像とについて、文字行内における外接矩形の特徴を表した配置情報を抽出し、これらを固定段階に量子化してシンボルを生成することにより、文字認識することなく文字行の特徴の抽出が可能となり、被照合画像から、照合画像と相関の高い被照合画像を所定の数だけ候補画像として選定することができる。また、照合画像と候補画像とについて、一致するシンボル系列の出現位置の分布状態を照合することで、当該シンボル系列の相対的な位置関係の類似性を判定することができるため、照合対象画像と候補画像との類似性を高精度に判定することができる。これにより、文書画像中の部分画像が照合対象の文書画像とされた場合であっても、この部分画像に含まれた文字画像の外接矩形の位置関係に基づいて、当該部分画像と類似する文書画像を高精度に検索することが可能となる。
なお、本発明は、上記実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施の形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態にわたる構成要素を適宜組み合わせても良い。
例えば、本実施形態で実行される文書照合処理にかかるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、本実施形態の文書処理装置100で実行される文書照合処理にかかるプログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。
また、本実施形態で実行される文書照合処理にかかるプログラムを、ROM等の記憶媒体に予め組み込んで提供するように構成してもよい。
また、上記実施形態では、図2に示した各機能部をCPU1とROM2に記憶された所定のプログラムとの協働により実現する態様としたが、これに限らず、ハードウェア構成により実現する態様としてもよい。具体的には、リアルタイム性が重要視される場合には、処理を高速化する必要があるため、論理回路(図示せず)を別途設け、論理回路の動作により各種の演算処理を実行するようにすることが好ましい。
また、上記実施形態では、文字行よりも小さな単位として行内矩形に着目したが、これに限らず、他の単位でも適用可能である。例えば、文字(文字画像)単位や単語単位の画像特徴でも数値化し量子化することで、上記と同様にシンボル化することが可能であり、照合することが可能である。この場合、黒画画素に基づいて文字画像を切り出したのち、当該文字画像の外接矩形を文字単位又は単語単位で用いることで対応することが可能である。なお、文字単位又は単語単位での分割は、OCR(Optical Character Recognition)等で用いられる公知の文字切り出し手法を用いればよい。
代表的な文字切り出し手法として、射影を利用する方法がある。この方法では、水平行について、垂直方向に黒画素数を集計し、その分布を求め、ある黒画素数がしきい値以下の部分を分割位置候補とする。また、分割位置候補に対しては、行高さから推定した文字幅、隣接する分割位置との距離、行全体に亘る分割位置の周期性等の観点から妥協点を評価し、適当な分割位置の選択を行う(垂直行も同様)。
また、単語単位に分割する他の方法としては、欧文等分かち書きの習慣のある言語については、単語間の空白に基づいて容易に実現することが可能である。このように、文字単位、単語単位等の単位で分割された場合であっても、その範囲の画像に外接する矩形を求めることが可能であり、その外接矩形の開始位置、終点位置を用いることで行内矩形に対する場合と同様な手順で量子化を行うことができる。
以上のように、本発明に係る文書処理装置、文書処理方法および文書処理プログラムは、文書画像間を照合する文字処理装置に有用であり、特に、文書画像の一部分となる部分画像を照合対象とし、この部分画像に類似する文書画像の検索を行う文書処理装置に適している。
文書処理装置のハードウェア構成を示したブロック図である。 文書処理装置の機能的構成を示したブロック図である。 文書照合処理の手順を示したフローチャートである。 出現頻度集計処理の手順を示したフローチャートである。 文字行の切り出しを説明するための図である。 文字行の切り出しを説明するための図である。 文字行の切り出しを説明するための図である。 シンボル生成処理の手順を示したフローチャートである。 行内矩形の配置例を示した図である。 行内矩形の配置例を示した図である。 行内矩形に対する座標の設定例を説明するための図である。 行内矩形の配置状態を説明するための図である。 配置情報の量子化を説明するための図である。 量子化された配置情報をシンボル化した一例を示した図である。 文書照合処理の概要を説明するための図である。 出現位置分布照合処理の手順を示したフローチャートである。 行内矩形の存在位置の分布状態をヒストグラムで表現した一例を示した図である。 行内矩形の存在位置の分布状態を正規分布で表現した一例を示した図である。 文書照合処理の概要を説明するための図である。
符号の説明
100 文書処理装置
1 CPU
2 ROM
3 ハードディスク
4 RAM
5 キーボード
6 表示装置
7 光ディスクドライブ
8 通信装置
9 スキャナ
10 バスコントローラ
21 画像入力部
22 照合画像選択部
23 矩形抽出部
24 行切出部
25 量子化部
26 シンボル生成部
27 出現頻度集計部
28 候補画像選定部
29 出現位置分布導出部
30 照合結果選定部
31 表示部

Claims (18)

  1. 文書画像間の照合を行う文書処理装置において、
    前記文書画像に含まれた文字画像毎の外接矩形に基づいて、当該外接矩形を連結した文字行を切り出す文字行切出手段と、
    前記文字行内における前記外接矩形の特性を表す配置情報を固定段階に量子化する量子化手段と、
    前記量子化された配置情報の各々を固定種類のシンボルにシンボル化するシンボル生成手段と、
    所定個の前記シンボルの組合せからなるシンボル系列の出現頻度を算出する出現頻度算出手段と、
    照合対象の文書画像と、当該文書画像の被照合対象となる複数の文書画像とについて、前記出現頻度算出手段により算出された出現頻度を照合し、より高い相関を有した被照合対象の文書画像を所定数選定する被照合対象選定手段と、
    前記照合対象の文書画像と、前記被照合対象選定手段により選定された被照合対象の文書画像の各々とで一致した前記シンボル系列に対応する各配置情報に基づいて、当該各配置情報の何れか又は全てが表す外接矩形の出現位置の分布状態を文書画像毎に導出する分布状態導出手段と、
    前記分布状態導出手段により導出された前記照合対象の文書画像についての分布状態と、前記被照合対象の文書画像についての分布状態との類似度を判定し、最も高い類似度を有した被照合対象の文書画像を照合結果として選定する照合結果選定手段と、
    を備えたことを特徴とする文書処理装置。
  2. 前記分布状態導出手段は、前記文書画像の水平方向及び/又は垂直方向について、前記外接矩形の出現位置の分布状態を導出することを特徴とする請求項1に記載の文書処理装置。
  3. 前記分布状態導出手段は、前記外接矩形の出現位置の分布状態を度数分布ヒストグラムとして導出することを特徴とする請求項1又は2に記載の文書処理装置。
  4. 前記分布状態導出手段は、前記外接矩形の出現位置の分布状態を正規分布とみなし、当該正規分布の平均、標準偏差、歪度及び尖度を導出することを特徴とする請求項1又は2に記載の文書処理装置。
  5. 前記分布状態導出手段は、前記照合対象の文書画像と、前記被照合対象の文書画像とにおける前記文字行に含まれた各文字画像の前記外接矩形のサイズを集計し、当該サイズの平均値又は最頻値により前記正規分布を規定する数値を正規化することを特徴とする請求項4に記載の文書処理装置。
  6. 前記分布状態導出手段は、前記照合対象の文書画像と、前記被照合対象の文書画像とにおいて一致した前記シンボル系列に対応する配置情報が表す外接矩形のサイズを集計することを特徴とする請求項5に記載の文書処理装置。
  7. 文書画像間の照合を行う文書処理装置で実行される文書処理方法であって、
    文字行切出手段が、前記文書画像に含まれた文字画像毎の外接矩形に基づいて、当該外接矩形を連結した文字行を切り出す文字行切出ステップと、
    量子化手段が、前記文字行内における前記外接矩形の特性を表す配置情報を固定段階に量子化する量子化ステップと、
    シンボル系列生成手段が、前記量子化された配置情報の各々を固定種類のシンボルにシンボル化するシンボル生成ステップと、
    出現頻度算出手段が、所定個の前記シンボルの組合せからなるシンボル系列の出現頻度を算出する出現頻度算出ステップと、
    被照合対象選定手段が、照合対象の文書画像と、当該文書画像の被照合対象となる複数文書画像とについて、前記出現頻度算出手段により算出された出現頻度を照合し、より高い相関を有した被照合対象の文書画像を所定数選定する被照合対象選定ステップと、
    分布状態導出手段が、前記照合対象の文書画像と、前記被照合対象選定ステップで選定された被照合対象の文書画像の各々とで一致した前記シンボル系列に対応する各配置情報に基づいて、当該各配置情報の何れか又は全てが表す外接矩形の出現位置の分布状態を文書画像毎に導出する分布状態導出ステップと、
    照合結果選定手段が、前記分布状態導出ステップで導出された前記照合対象の文書画像についての分布状態と、前記被照合対象の文書画像についての分布状態との類似度を判定し、最も高い類似度を有した被照合対象の文書画像を照合結果として選定する照合結果選定ステップと、
    を含むことを特徴とする文書処理方法。
  8. 前記分布状態導出手段は、前記分布状態導出ステップにおいて、前記文書画像の水平方向及び/又は垂直方向について、前記外接矩形の出現位置の分布状態を導出することを特徴とする請求項7に記載の文書処理方法。
  9. 前記分布状態導出手段は、前記分布状態導出ステップにおいて、前記外接矩形の出現位置の分布状態を度数分布ヒストグラムとして導出することを特徴とする請求項7又は8に記載の文書処理方法。
  10. 前記分布状態導出手段は、前記分布状態導出ステップにおいて、前記外接矩形の出現位置の分布状態を正規分布とみなし、当該正規分布の平均、標準偏差、歪度及び尖度を導出することを特徴とする請求項7又は8に記載の文書処理方法。
  11. 前記分布状態導出手段は、前記分布状態導出ステップにおいて、前記照合対象の文書画像と、前記被照合対象の文書画像とにおける前記文字行に含まれた各文字画像の前記外接矩形のサイズを集計し、当該サイズの平均値又は最頻値により前記正規分布を規定する数値を正規化することを特徴とする請求項10に記載の文書処理方法。
  12. 前記分布状態導出手段は、前記分布状態導出ステップにおいて、前記照合対象の文書画像と、前記被照合対象の文書画像とにおいて一致した前記シンボル系列に対応する配置情報が表す外接矩形のサイズを集計することを特徴とする請求項11に記載の文書処理方法。
  13. 文書画像間の照合を行うコンピュータを、
    前記文書画像に含まれた文字画像毎の外接矩形に基づいて、当該外接矩形を連結した文字行を切り出す文字行切出手段と、
    前記文字行内における前記外接矩形の特性を表す配置情報を固定段階に量子化する量子化手段と、
    前記量子化された配置情報の各々を固定種類のシンボルにシンボル化するシンボル生成手段と、
    前記シンボル系列内における、所定個のシンボルの組合せからなるシンボル系列の出現頻度を算出する出現頻度算出手段と、
    照合対象の文書画像と、当該文書画像の被照合対象となる複数の文書画像とについて、前記出現頻度算出手段により算出された出現頻度を照合し、より高い相関を有した被照合対象の文書画像を所定数選定する被照合対象選定手段と、
    前記照合対象の文書画像と、前記被照合対象選定手段により選定された被照合対象の文書画像の各々とで一致した前記シンボル系列に対応する各配置情報に基づいて、当該各配置情報の何れか又は全てが表す外接矩形の出現位置の分布状態を文書画像毎に導出する分布状態導出手段と、
    前記分布状態導出手段により導出された前記照合対象の文書画像についての分布状態と、前記被照合対象の文書画像についての分布状態との類似度を判定し、最も高い類似度を有した被照合対象の文書画像を照合結果として選定する照合結果選定手段と、
    して機能させることを特徴とする文書処理プログラム。
  14. 前記分布状態導出手段は、前記文書画像の水平方向及び/又は垂直方向について、前記外接矩形の出現位置の分布状態を導出することを特徴とする請求項13に記載の文書処理プログラム。
  15. 前記分布状態導出手段は、前記外接矩形の出現位置の分布状態を度数分布ヒストグラムとして導出することを特徴とする請求項13又は14に記載の文書処理プログラム。
  16. 前記分布状態導出手段は、前記外接矩形の出現位置の分布状態を正規分布とみなし、当該正規分布の平均、標準偏差、歪度及び尖度を導出することを特徴とする請求項13又は14に記載の文書処理プログラム。
  17. 前記分布状態導出手段は、前記照合対象の文書画像と、前記被照合対象の文書画像とにおける前記文字行に含まれた各文字画像の前記外接矩形のサイズを集計し、当該サイズの平均値又は最頻値により前記正規分布を規定する数値を正規化することを特徴とする請求項16に記載の文書処理プログラム。
  18. 前記分布状態導出手段は、前記照合対象の文書画像と、前記被照合対象の文書画像とにおいて一致した前記シンボル系列に対応する配置情報が表す外接矩形のサイズを集計することを特徴とする請求項17に記載の文書処理プログラム。
JP2007293392A 2007-11-12 2007-11-12 文書処理装置、文書処理方法及び文書処理プログラム Expired - Fee Related JP4885112B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007293392A JP4885112B2 (ja) 2007-11-12 2007-11-12 文書処理装置、文書処理方法及び文書処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007293392A JP4885112B2 (ja) 2007-11-12 2007-11-12 文書処理装置、文書処理方法及び文書処理プログラム

Publications (2)

Publication Number Publication Date
JP2009122758A JP2009122758A (ja) 2009-06-04
JP4885112B2 true JP4885112B2 (ja) 2012-02-29

Family

ID=40814876

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007293392A Expired - Fee Related JP4885112B2 (ja) 2007-11-12 2007-11-12 文書処理装置、文書処理方法及び文書処理プログラム

Country Status (1)

Country Link
JP (1) JP4885112B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5298830B2 (ja) * 2008-12-19 2013-09-25 富士ゼロックス株式会社 画像処理プログラム、画像処理装置及び画像処理システム
CN101944091A (zh) * 2009-07-07 2011-01-12 夏普株式会社 图像检索装置
JP6187237B2 (ja) * 2013-12-19 2017-08-30 富士通株式会社 文書画像検索装置、方法、及びプログラム
US10579707B2 (en) * 2017-12-29 2020-03-03 Konica Minolta Laboratory U.S.A., Inc. Method for inferring blocks of text in electronic documents

Also Published As

Publication number Publication date
JP2009122758A (ja) 2009-06-04

Similar Documents

Publication Publication Date Title
JP4504702B2 (ja) 文書処理装置、文書処理方法、および文書処理プログラム
US11804056B2 (en) Document spatial layout feature extraction to simplify template classification
US8416982B2 (en) Image processing apparatus, image processing method and program
JP3345350B2 (ja) 文書画像認識装置、その方法、及び記録媒体
JP5188334B2 (ja) 画像処理装置、画像処理方法およびプログラム
JP2014232533A (ja) Ocr出力検証システム及び方法
JP2006260274A (ja) 文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法
JP4300098B2 (ja) オブジェクト識別方法とその装置、プログラム及び記録媒体
JP2004139484A (ja) 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム
JP2006031546A (ja) 文字方向識別装置、文書処理装置及びプログラム並びに記憶媒体
KR20170004983A (ko) 라인 분할 방법
JP4885112B2 (ja) 文書処理装置、文書処理方法及び文書処理プログラム
CN112560849B (zh) 基于神经网络算法的文理分割方法及***
US20030123730A1 (en) Document recognition system and method using vertical line adjacency graphs
CN114494678A (zh) 文字识别方法和电子设备
JP5046241B2 (ja) 画像処理装置、画像処理方法およびプログラム
JP5712415B2 (ja) 帳票処理システム及び帳票処理方法
CN112084979A (zh) 食品成分识别方法、装置、设备及存储介质
JP5683287B2 (ja) パターン認識装置及びパターン認識方法
JPH11328417A (ja) 画像処理装置、画像処理方法及び画像処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3187899B2 (ja) 文字認識装置
JPH06223121A (ja) 情報検索装置
JPH07319880A (ja) キーワード抽出・検索装置
CN113850073A (zh) 文档识别方法、工程词库构建方法、电子设备及存储介质
JP2004192310A (ja) オブジェクト学習装置、オブジェクト識別装置、これらの方法、これらのプログラムおよびこれらのプログラムを記録した媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100603

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111115

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111207

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141216

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4885112

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees