JP4334068B2 - イメージ文書のキーワード抽出方法及び装置 - Google Patents

イメージ文書のキーワード抽出方法及び装置 Download PDF

Info

Publication number
JP4334068B2
JP4334068B2 JP19421199A JP19421199A JP4334068B2 JP 4334068 B2 JP4334068 B2 JP 4334068B2 JP 19421199 A JP19421199 A JP 19421199A JP 19421199 A JP19421199 A JP 19421199A JP 4334068 B2 JP4334068 B2 JP 4334068B2
Authority
JP
Japan
Prior art keywords
keyword
character
information
image document
certainty factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP19421199A
Other languages
English (en)
Other versions
JP2001022773A (ja
Inventor
淳之 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP19421199A priority Critical patent/JP4334068B2/ja
Publication of JP2001022773A publication Critical patent/JP2001022773A/ja
Application granted granted Critical
Publication of JP4334068B2 publication Critical patent/JP4334068B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、イメージ文書のキーワード抽出方法、より詳細には、OCR文字認識により認識されたイメージ文書からキーワードを抽出するキーワード抽出方法に関する。
【0002】
【従来の技術】
近年のPCの普及、インターネットなどを中心としたインフラの整備、また森林資源保護などの環境意識の高まりから、情報伝達、蓄積の方法が従来の紙を主体としたものからデジタル情報を主体としたものへ変化しつつある。e−mailによる情報交換、web上での情報の閲覧、及び出版などがその良い例である。しかし、従来の紙を主体とした膨大な情報は、個人にとっても企業にとっても知的資産であるのには変わりなく、切り捨てるわけにはいかない。そこで紙による情報を何とか利用できるようにデジタル情報に変換しなければならない。
【0003】
上記のデジタル情報への変換は、一般的には次のようにする。まず紙文書(文書の情報媒体が紙であるという意味)をスキャナから読み込み、イメージ文書に変換する。単にデジタル情報にするだけならこのままで良いが、文書の内容を検索できるようにするためには、イメージ文書をOCR(Optical Character Recognition)を使用してコード情報に変換する必要がある(イメージ文書に文字情報がある場合)。管理する文書数が多く、また不特定多数の人間が文書を利用する場合は、要約文またはキーワードなどの情報により、文書の検索、及び閲覧の際に概要が把握し易くなる。
【0004】
上述したように“スキャン+OCR+キーワード・要約文抽出”により紙文書を有効なデジタル情報に変換することが可能である。しかし、漢字などの複雑な形状を文字セットに持つ日本語文はもとより、英文に対してもOCRは100%の認識率を保証できないので、OCRにより変換されたコード情報には誤りのあるコードが含まれるのが常である。紙文書の状態やスキャナのスキャン面の汚れなどが原因でスキャンされたイメージの品質が良くない場合は、OCRにより変換されたテキストには高い割合で誤りが含まれる。このような誤りを含むテキストからキーワード抽出を行うと、抽出されたキーワードに誤りのある文字が含まれる可能性は十分に高い。
【0005】
自動OCRは人手を介さずOCRを行うが、人手を介してOCRの誤認識文字を逐次修正してキーワード抽出を行えば、キーワードに誤認識文字が含まれることはなくなる。しかしながら紙文書のスキャンからキーワード抽出までの時間を考えた場合、人手を介してのOCRは処理時間と人手がかかり過ぎて実用的でない。自動OCRは、変換結果としてOCR結果ファイルを出力する。OCR結果ファイルは、1文字ごとの確信度、文字位置情報を含むバイナリファイルである。
【0006】
上述したごとくに、一般的にイメージ文書をOCRにかけて生成されたテキストからキーワードを抽出すると、誤認識された文字で構成された文字列がキーワードリストに含まれる可能性がある。この問題は、OCRの認識結果に対して確信度が低い文字をテキストから排除するという誤認識対策を施せば解決するように思われるが、実際には次のような問題が発生する。
【0007】
(1)誤認識文字を排除して何らかの加工をした文字列がキーワードになり、その文字列が原イメージ文書で確認できない文字列であったとしたらユーザにとっては、不具合になる。
(2)ユーザが確認できる文字列に加工するには、少なくともキーワード抽出ユニットに渡すテキストが単語分割されている必要がある。すなわち単語長を検査して、何文字まで誤認識文字が含まれていても問題がないか判断できる必要がある。そのためには自動OCRは、イメージをテキストに変換したあとに形態素解析をする必要があり、処理系が重くなる。
【0008】
本発明は、上述のごとき実情に鑑みてなされたもので、OCRにより変換されたテキストに誤りがあっても、抽出するキーワードには許容範囲の誤りしかないことを保証する(たとえば、6文字で構成されるキーワードのうち1文字に誤りがあっても、容易にこのキーワードが何を意味するかは理解できる)ことを可能にしたイメージ文書のキーワード抽出方法及び装置を提供することを目的とするものである。
【0009】
【課題を解決するための手段】
請求項1の発明は、プレーンテキスト・確信度ファイル生成手段により、イメージ文書のOCR文字認識により文字コードと該文字コードの確信度情報とを含む文字情報の候補が各文字毎に生成されたOCR結果ファイルを入力し、該文字情報の候補のなかから、第1候補の文字情報に含まれる文字コードと確信度情報とを各文字毎に抜き出し、該文字コードによるプレーンテキストと該確信度情報による確信度ファイルとを生成するステップと、キーワード抽出手段により、得られた前記プレーンテキストの形態素解析及びキーワード抽出を行ってキーワードリストを生成するステップと、キーワード検証手段により、生成された前記キーワードリストのキーワードに対し、予め設定されたしきい値に基づいて文字を誤認しているかどうかを一文字ずつ判断し、所定条件に基づき算出された数よりも多い誤認文字数を含むキーワードを前記キーワードリストから外す処理を行うステップと、を有することを特徴としたものである。
【0012】
請求項2の発明は、請求項1の発明において、前記キーワードリストに含まれるキーワードに対応した前記確信度リストのエントリを参照し、参照したエントリから、イメージ文書における該キーワードの位置情報を特定し、特定した位置情報に基づいてイメージ文書における該キーワードの強調表示を行うステップを有することを特徴としたものである。
請求項3の発明は、イメージ文書のOCR文字認識により文字コードと該文字コードの確信度情報とを含む文字情報の候補が各文字毎に生成されたOCR結果ファイルを入力し、該文字情報の候補のなかから、第1候補の文字情報に含まれる文字コードと確信度情報とを各文字毎に抜き出し、該文字コードによるプレーンテキストと該確信度情報による確信度ファイルとを生成するプレーンテキスト・確信度ファイル生成手段と、得られた前記プレーンテキストの形態素解析及びキーワード抽出を行ってキーワードリストを生成するキーワード抽出手段と、該キーワード抽出手段により生成された前記キーワードリストのキーワードに対し、予め設定されたしきい値に基づいて文字を誤認しているかどうかを一文字ずつ判断し、所定条件に基づき算出された数よりも多い誤認文字数を含むキーワードを前記キーワードリストから外す処理を行うキーワード検証手段と、を有することを特徴としたものである。
請求項4の発明は、請求項の発明において、前記キーワードリストに含まれるキーワードに対応した前記確信度リストのエントリを参照し、参照したエントリから、イメージ文書における該キーワードの位置情報を特定し、特定した位置情報に基づいてイメージ文書における該キーワードの強調表示を行う手段を有することを特徴としたものである。
【0013】
【発明の実施の形態】
本発明の動作を説明する前にOCR結果ファイルとキーワードリストの構造の概要について説明する。図1は、OCR結果ファイルのTAG構造の一例を示す図である。
【0014】
代表的なTAGとして以下の3つがある。
▲1▼ページ情報タグ
開始オフセットでポイントされる領域には、1ページについての画像情報(解像度,サイズ,領域数など)のような情報が格納される。
▲2▼領域情報タグ
開始オフセットでポイントされる領域には、領域の位置などのような情報が格納される。なお、領域はネストする可能性があるのでページ情報タグとは少し異なる構造を持つが、これについては本発明とは直接関係しないので説明を省略する。
▲3▼文字情報タグ
1つの領域内の文字情報として、認識結果である文字コード、認識結果の確信度、及び認識座標位置(文字を囲む矩形の位置:ピクセル値)などの情報が格納される。
【0015】
領域内にn個の文字が存在したと仮定すると、文字情報タグと文字情報領域は、図2に示すごとくの構造となり、このときのi番目の文字の認識結果(Ci)は図3に示すようなデータ構造になる。文字情報に関しては、1つの文字に対して複数の認識結果が出るので、1つの文字に対して複数の候補がある。
【0016】
(動作説明)
図4は、本発明が適用されるキーワード抽出処理の概略フローを説明するための図である。紙文書1に対しスキャナによるスキャン2を実行して、イメージ文書3に変換し、自動OCR4により処理を行ってOCR結果ファイル5を出力する。得られたOCR結果ファイル5に対して、キーワード抽出部6による処理を行い、キーワードリスト7を出力する。図5は、図4において示された本発明のキーワード抽出を行うキーワード抽出部6をさらに詳しく示す図である。以下に、キーワード抽出部6における処理について詳しく説明する。
【0017】
[1]前処理
前処理としてプレーンテキスト・確信度ファイル生成部6aにおいては、自動OCR4により得られたOCR結果ファイル5から第1候補の文字コードと確信度を抜き出し、プレーンテキスト6cと確信度ファイル6bを生成する。プレーンテキスト6cは、キーワード抽出ユニット6eに渡される。確信度ファイル6bは、図6に示すごとくの構造を有するもので、1文字につき第一候補だけの確信度を保持する。
【0018】
入力イメージ文書が1枚の用紙であれば、直接OCR結果ファイルを参照して、確信度を参照すればよいが、そうでない場合は、文書を構成する入力イメージのOCR結果ファイルをキーワード抽出が終わるまですべて保持する必要があるので、確信度ファイルを別に作成する。確信度ファイル6bは、ページ毎に作成され、プレーンテキスト6cは、文書1つにつき、1つだけ作成される。確信度ファイル6bの各エントリとプレーンテキスト6c中の文字は完全に同期がとられる必要がある。
【0019】
[2]キーワード抽出ユニット
キーワード抽出ユニット6eは、テキストの形態素解析及び構文解析を行い、名詞句を中心に出現頻度、類似度の検査、慣用句検査、1文における修飾関係、及び係り受けなどの情報からキーワードを抽出し、キーワードリストを生成する。ここでキーワード抽出ユニット6eは、プレーンなテキストだけを受け付け、確信度ファイルなどの非テキストファイルは受け付けない。生成されるキーワードリストの構造の概要を図7に示す。キーワード抽出ユニット6eから出力されるキーワードリストは、誤認を含むキーワードリスト6gである。
【0020】
[3]後処理
後処理として、キーワード検証部6fでは、キーワードリストの上位のキーワードから、誤認文字があるかどうかを一文字づつ検査する。文字を誤認しているかどうかは、しきい値により判定する。しきい値は、イメージごとに動的に決定される。キーワード抽出ユニット6eは、キーワードの情報として、キーワード位置もアプリケーションに公開しているので、キーワード抽出ユニット6eの入力であるプレーンテキストにおけるキーワード先頭位置がわかる。
【0021】
OCR結果ファイル5とプレーンテキスト6cは、認識文字に対して同期がとれているので、OCR結果ファイル5を参照すれば、該当文字の確信度がわかる。図8に示すように、確信度が低い文字を含むキーワードをキーワードリストからはずし、次点のキーワードの順位を上げる。この操作を希望するキーワード数に達するまで繰り返せば、誤認文字を含まないキーワードリスト7を獲得できる。
【0022】
キーワードリストからはずか否かの判断は、次のような判定式を使用する。
キーワード中の誤認文字数>キーワードを構成する文字数×(α/100)
上記αはユーザが与える%値である。たとえば、10%以上の誤認文字を含むキーワードを必要としない場合には、αに10を指定する。現実的には、誤認文字を1文字程度含む4文字のキーワードならば、ユーザはその文字を判別可能なので、誤認文字を“?”などの記号に置換してユーザに提示する(2文字のうち、1文字が誤認されていた場合は、“?”に置換できない。常識的な範囲で処理する)。以上により、判読可能なキーワードをイメージ文書からテキストコードの形式で獲得できる。
【0023】
[4]イメージ文書にキーワードを強調表示
確信度ファイルの文字の位置情報(イメージの位置情報)を利用すれば、イメージ文書上で抽出したキーワードを表示させることが可能になる。確信度ファイルの各エントリとプレーンテキストの各エントリは1対1に対応しているので、キーワードリストによりキーワードのプレーンテキストでの位置がわかれば、確信度ファイルでのキーワードの位置もわかる。確信度ファイル上での位置が分かれば、イメージ文書のページ内でのキーワードの先頭文字位置がわかる。同様にしてキーワードを構成する各文字の位置も分かる。各文字位置は矩形で表現されるので、キーワードを強調する場合は、文字を囲む矩形領域に対して適当な色を表すRGB値でORマスクを施せばよい。bit操作により文字の色だけを変更することも可能である。
【0024】
[5]イメージ文書のイメージ品質
イメージ文書のイメージ品質が悪い場合、OCR結果ファイルに大量の誤認文字が入り込むことになる。このような状況で、上記[1]〜[3]の方法によりキーワードを抽出しても、それらはキーワードリストの下位に属するキーワード群に属するかあるいはキーワードリストにキーワードがなくなる可能性もあり、キーワード抽出処理が無意味になる。こうした場合は、確信度ファイルの各文字ごとの確信度の統計値(標準偏差など)6dを確信度ファイルごとに計算しておき、統計値と“しきい値”の大小関係を比較することによりキーワード抽出を行うか否かを判断する。
【0025】
また、この統計値は、OCR結果ファイル中の文字が誤認されているかどうか判定する場合に使用する“しきい値”も決定する。
文字誤認判定のしきい値=Func(確信度ファイルの統計値)
Func(確信度ファイルの統計値)の具体的な定義式は省略する。この式は、確信度ファイルの統計値が文字誤認判定のしきい値に影響を与えることを示している。“しきい値”は、イメージ毎に動的に決定される。イメージ毎にイメージの状態が異なるのでOCRの結果からイメージの品質を定量化するのは合理的な方法である。
【0026】
【発明の効果】
本発明によれば、OCRにより変換されたテキストに誤りがあっても、抽出するキーワードには許容範囲の誤りしかないことを保証する(たとえば、6文字で構成されるキーワードのうち1文字に誤りがあっても、容易にこのキーワードが何を意味するかは理解できる)ことが可能となり、処理系を重くすることなくユーザの利便性を高めることができる。
【図面の簡単な説明】
【図1】 OCR結果ファイルのTAG構造の一例を示す図である。
【図2】 OCR結果ファイルにおける文字情報タグと文字情報領域の構造の一例を示す図である。
【図3】 図2に示すi番目の文字のデータ構造の一例を示す図である。
【図4】 本発明によるキーワード抽出方法の処理動作の概略を説明するためのフロー図である。
【図5】 図4に示すキーワード抽出部をより詳しく説明するための図である。
【図6】 確信度ファイルの構造の一例を示す図である。
【図7】 キーワードリストの構造の一例を示す図である。
【図8】 キーワードリストからキーワードを外す処理を説明するための図である。
【符号の説明】
1…紙文書、2…スキャン、3…イメージ文書、4…自動OCR、5…OCR結果ファイル、6…キーワード抽出部、6a…プレーンテキスト・確信度ファイル生成部(前処理)、6b…確信度ファイル、6c…プレーンテキスト、6d…確信度の統計値、6e…キーワード抽出ユニット、6f…キーワード検証部(後処理)、6g…誤認を含むキーワードリスト、7…キーワードリスト。

Claims (4)

  1. プレーンテキスト・確信度ファイル生成手段により、イメージ文書のOCR文字認識により文字コードと該文字コードの確信度情報とを含む文字情報の候補が各文字毎に生成されたOCR結果ファイルを入力し、該文字情報の候補のなかから、第1候補の文字情報に含まれる文字コードと確信度情報とを各文字毎に抜き出し、該文字コードによるプレーンテキストと該確信度情報による確信度ファイルとを生成するステップと、キーワード抽出手段により、得られた前記プレーンテキストの形態素解析及びキーワード抽出を行ってキーワードリストを生成するステップと、
    キーワード検証手段により、生成された前記キーワードリストのキーワードに対し、予め設定されたしきい値に基づいて文字を誤認しているかどうかを一文字ずつ判断し、所定条件に基づき算出された数よりも多い誤認文字数を含むキーワードを前記キーワードリストから外す処理を行うステップと、を有することを特徴とするイメージ文書のキーワード抽出方法。
  2. 請求項1に記載のイメージ文書のキーワード抽出方法において、前記キーワードリストに含まれるキーワードに対応した前記確信度リストのエントリを参照し、参照したエントリから、イメージ文書における該キーワードの位置情報を特定し、特定した位置情報に基づいてイメージ文書における該キーワードの強調表示を行うステップを有することを特徴とするイメージ文書のキーワード抽出方法。
  3. イメージ文書のOCR文字認識により文字コードと該文字コードの確信度情報とを含む文字情報の候補が各文字毎に生成されたOCR結果ファイルを入力し、該文字情報の候補のなかから、第1候補の文字情報に含まれる文字コードと確信度情報とを各文字毎に抜き出し、該文字コードによるプレーンテキストと該確信度情報による確信度ファイルとを生成するプレーンテキスト・確信度ファイル生成手段と、得られた前記プレーンテキストの形態素解析及びキーワード抽出を行ってキーワードリストを生成するキーワード抽出手段と、
    該キーワード抽出手段により生成された前記キーワードリストのキーワードに対し、予め設定されたしきい値に基づいて文字を誤認しているかどうかを一文字ずつ判断し、所定条件に基づき算出された数よりも多い誤認文字数を含むキーワードを前記キーワードリストから外す処理を行うキーワード検証手段と、を有することを特徴とするイメージ文書のキーワード抽出装置。
  4. 請求項に記載のイメージ文書のキーワード抽出装置において、前記キーワードリストに含まれるキーワードに対応した前記確信度リストのエントリを参照し、参照したエントリから、イメージ文書における該キーワードの位置情報を特定し、特定した位置情報に基づいてイメージ文書における該キーワードの強調表示を行う手段を有することを特徴とするイメージ文書のキーワード抽出装置。
JP19421199A 1999-07-08 1999-07-08 イメージ文書のキーワード抽出方法及び装置 Expired - Fee Related JP4334068B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP19421199A JP4334068B2 (ja) 1999-07-08 1999-07-08 イメージ文書のキーワード抽出方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP19421199A JP4334068B2 (ja) 1999-07-08 1999-07-08 イメージ文書のキーワード抽出方法及び装置

Publications (2)

Publication Number Publication Date
JP2001022773A JP2001022773A (ja) 2001-01-26
JP4334068B2 true JP4334068B2 (ja) 2009-09-16

Family

ID=16320808

Family Applications (1)

Application Number Title Priority Date Filing Date
JP19421199A Expired - Fee Related JP4334068B2 (ja) 1999-07-08 1999-07-08 イメージ文書のキーワード抽出方法及び装置

Country Status (1)

Country Link
JP (1) JP4334068B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8261200B2 (en) * 2007-04-26 2012-09-04 Fuji Xerox Co., Ltd. Increasing retrieval performance of images by providing relevance feedback on word images contained in the images
CN115116082B (zh) * 2022-03-04 2023-09-01 杭州京胜航星科技有限公司 一种基于ocr识别算法的一键成档***
KR102475964B1 (ko) * 2022-10-12 2022-12-09 조인환 상품 추천 서비스 제공 시스템

Also Published As

Publication number Publication date
JP2001022773A (ja) 2001-01-26

Similar Documents

Publication Publication Date Title
JP3289968B2 (ja) 電子的文書処理のための装置および方法
JP3292388B2 (ja) 文書画像の復号なしに文書を要約するための方法と装置
Singh Optical character recognition techniques: a survey
JP3282860B2 (ja) 文書上のテキストのデジタル画像を処理する装置
Hochberg et al. Automatic script identification from document images using cluster-based templates
US6694053B1 (en) Method and apparatus for performing document structure analysis
JP3232143B2 (ja) 復号していない文書画像の修正版を自動的に作成するための装置
JP2713622B2 (ja) 表形式文書読取装置
JPH05307638A (ja) ビットマップ・イメージ・ドキュメントのコード化データへの変換方法
WO2007005937A2 (en) Grammatical parsing of document visual structures
JPH0798765A (ja) 方向検出方法および画像解析装置
US20060285748A1 (en) Document processing device
US20040139384A1 (en) Removal of extraneous text from electronic documents
CN108197119A (zh) 基于知识图谱的纸质档案数字化方法
JPH09223240A (ja) 文書電子化装置
JP2007122403A (ja) 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム
Hasnat et al. An open source tesseract based optical character recognizer for bangla script
JP2008225695A (ja) 文字認識誤り修正装置およびプログラム
Garain et al. Identification of embedded mathematical expressions in scanned documents
JP4334068B2 (ja) イメージ文書のキーワード抽出方法及び装置
KR102516560B1 (ko) 수기로 작성된 문서의 관리 시스템
Aliwy et al. Corpus-based technique for improving Arabic OCR system
Kumar et al. Line based robust script identification for indianlanguages
US11270153B2 (en) System and method for whole word conversion of text in image
Batomalaque et al. Image to text conversion technique for anti-plagiarism system

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060404

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060425

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060822

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061005

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070116

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090623

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120703

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120703

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130703

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees