JP4334068B2

JP4334068B2 - イメージ文書のキーワード抽出方法及び装置

Info

Publication number: JP4334068B2
Application number: JP19421199A
Authority: JP
Inventors: 淳之後藤
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1999-07-08
Filing date: 1999-07-08
Publication date: 2009-09-16
Anticipated expiration: 2019-07-08
Also published as: JP2001022773A

Description

【０００１】
【発明の属する技術分野】
本発明は、イメージ文書のキーワード抽出方法、より詳細には、ＯＣＲ文字認識により認識されたイメージ文書からキーワードを抽出するキーワード抽出方法に関する。
【０００２】
【従来の技術】
近年のＰＣの普及、インターネットなどを中心としたインフラの整備、また森林資源保護などの環境意識の高まりから、情報伝達、蓄積の方法が従来の紙を主体としたものからデジタル情報を主体としたものへ変化しつつある。ｅ−ｍａｉｌによる情報交換、ｗｅｂ上での情報の閲覧、及び出版などがその良い例である。しかし、従来の紙を主体とした膨大な情報は、個人にとっても企業にとっても知的資産であるのには変わりなく、切り捨てるわけにはいかない。そこで紙による情報を何とか利用できるようにデジタル情報に変換しなければならない。
【０００３】
上記のデジタル情報への変換は、一般的には次のようにする。まず紙文書（文書の情報媒体が紙であるという意味）をスキャナから読み込み、イメージ文書に変換する。単にデジタル情報にするだけならこのままで良いが、文書の内容を検索できるようにするためには、イメージ文書をＯＣＲ（Optical Character Recognition）を使用してコード情報に変換する必要がある（イメージ文書に文字情報がある場合）。管理する文書数が多く、また不特定多数の人間が文書を利用する場合は、要約文またはキーワードなどの情報により、文書の検索、及び閲覧の際に概要が把握し易くなる。
【０００４】
上述したように“スキャン＋ＯＣＲ＋キーワード・要約文抽出”により紙文書を有効なデジタル情報に変換することが可能である。しかし、漢字などの複雑な形状を文字セットに持つ日本語文はもとより、英文に対してもＯＣＲは１００％の認識率を保証できないので、ＯＣＲにより変換されたコード情報には誤りのあるコードが含まれるのが常である。紙文書の状態やスキャナのスキャン面の汚れなどが原因でスキャンされたイメージの品質が良くない場合は、ＯＣＲにより変換されたテキストには高い割合で誤りが含まれる。このような誤りを含むテキストからキーワード抽出を行うと、抽出されたキーワードに誤りのある文字が含まれる可能性は十分に高い。
【０００５】
自動ＯＣＲは人手を介さずＯＣＲを行うが、人手を介してＯＣＲの誤認識文字を逐次修正してキーワード抽出を行えば、キーワードに誤認識文字が含まれることはなくなる。しかしながら紙文書のスキャンからキーワード抽出までの時間を考えた場合、人手を介してのＯＣＲは処理時間と人手がかかり過ぎて実用的でない。自動ＯＣＲは、変換結果としてＯＣＲ結果ファイルを出力する。ＯＣＲ結果ファイルは、１文字ごとの確信度、文字位置情報を含むバイナリファイルである。
【０００６】
上述したごとくに、一般的にイメージ文書をＯＣＲにかけて生成されたテキストからキーワードを抽出すると、誤認識された文字で構成された文字列がキーワードリストに含まれる可能性がある。この問題は、ＯＣＲの認識結果に対して確信度が低い文字をテキストから排除するという誤認識対策を施せば解決するように思われるが、実際には次のような問題が発生する。
【０００７】
（１）誤認識文字を排除して何らかの加工をした文字列がキーワードになり、その文字列が原イメージ文書で確認できない文字列であったとしたらユーザにとっては、不具合になる。
（２）ユーザが確認できる文字列に加工するには、少なくともキーワード抽出ユニットに渡すテキストが単語分割されている必要がある。すなわち単語長を検査して、何文字まで誤認識文字が含まれていても問題がないか判断できる必要がある。そのためには自動ＯＣＲは、イメージをテキストに変換したあとに形態素解析をする必要があり、処理系が重くなる。
【０００８】
本発明は、上述のごとき実情に鑑みてなされたもので、ＯＣＲにより変換されたテキストに誤りがあっても、抽出するキーワードには許容範囲の誤りしかないことを保証する（たとえば、６文字で構成されるキーワードのうち１文字に誤りがあっても、容易にこのキーワードが何を意味するかは理解できる）ことを可能にしたイメージ文書のキーワード抽出方法及び装置を提供することを目的とするものである。
【０００９】
【課題を解決するための手段】
請求項１の発明は、プレーンテキスト・確信度ファイル生成手段により、イメージ文書のＯＣＲ文字認識により文字コードと該文字コードの確信度情報とを含む文字情報の候補が各文字毎に生成されたＯＣＲ結果ファイルを入力し、該文字情報の候補のなかから、第１候補の文字情報に含まれる文字コードと確信度情報とを各文字毎に抜き出し、該文字コードによるプレーンテキストと該確信度情報による確信度ファイルとを生成するステップと、キーワード抽出手段により、得られた前記プレーンテキストの形態素解析及びキーワード抽出を行ってキーワードリストを生成するステップと、キーワード検証手段により、生成された前記キーワードリストのキーワードに対し、予め設定されたしきい値に基づいて文字を誤認しているかどうかを一文字ずつ判断し、所定条件に基づき算出された数よりも多い誤認文字数を含むキーワードを前記キーワードリストから外す処理を行うステップと、を有することを特徴としたものである。
【００１２】
請求項２の発明は、請求項１の発明において、前記キーワードリストに含まれるキーワードに対応した前記確信度リストのエントリを参照し、参照したエントリから、イメージ文書における該キーワードの位置情報を特定し、特定した位置情報に基づいてイメージ文書における該キーワードの強調表示を行うステップを有することを特徴としたものである。
請求項３の発明は、イメージ文書のＯＣＲ文字認識により文字コードと該文字コードの確信度情報とを含む文字情報の候補が各文字毎に生成されたＯＣＲ結果ファイルを入力し、該文字情報の候補のなかから、第１候補の文字情報に含まれる文字コードと確信度情報とを各文字毎に抜き出し、該文字コードによるプレーンテキストと該確信度情報による確信度ファイルとを生成するプレーンテキスト・確信度ファイル生成手段と、得られた前記プレーンテキストの形態素解析及びキーワード抽出を行ってキーワードリストを生成するキーワード抽出手段と、該キーワード抽出手段により生成された前記キーワードリストのキーワードに対し、予め設定されたしきい値に基づいて文字を誤認しているかどうかを一文字ずつ判断し、所定条件に基づき算出された数よりも多い誤認文字数を含むキーワードを前記キーワードリストから外す処理を行うキーワード検証手段と、を有することを特徴としたものである。
請求項４の発明は、請求項３の発明において、前記キーワードリストに含まれるキーワードに対応した前記確信度リストのエントリを参照し、参照したエントリから、イメージ文書における該キーワードの位置情報を特定し、特定した位置情報に基づいてイメージ文書における該キーワードの強調表示を行う手段を有することを特徴としたものである。
【００１３】
【発明の実施の形態】
本発明の動作を説明する前にＯＣＲ結果ファイルとキーワードリストの構造の概要について説明する。図１は、ＯＣＲ結果ファイルのＴＡＧ構造の一例を示す図である。
【００１４】
代表的なＴＡＧとして以下の３つがある。
▲１▼ページ情報タグ
開始オフセットでポイントされる領域には、１ページについての画像情報（解像度，サイズ，領域数など）のような情報が格納される。
▲２▼領域情報タグ
開始オフセットでポイントされる領域には、領域の位置などのような情報が格納される。なお、領域はネストする可能性があるのでページ情報タグとは少し異なる構造を持つが、これについては本発明とは直接関係しないので説明を省略する。
▲３▼文字情報タグ
１つの領域内の文字情報として、認識結果である文字コード、認識結果の確信度、及び認識座標位置（文字を囲む矩形の位置：ピクセル値）などの情報が格納される。
【００１５】
領域内にｎ個の文字が存在したと仮定すると、文字情報タグと文字情報領域は、図２に示すごとくの構造となり、このときのｉ番目の文字の認識結果(Ｃｉ)は図３に示すようなデータ構造になる。文字情報に関しては、１つの文字に対して複数の認識結果が出るので、１つの文字に対して複数の候補がある。
【００１６】
（動作説明）
図４は、本発明が適用されるキーワード抽出処理の概略フローを説明するための図である。紙文書１に対しスキャナによるスキャン２を実行して、イメージ文書３に変換し、自動ＯＣＲ４により処理を行ってＯＣＲ結果ファイル５を出力する。得られたＯＣＲ結果ファイル５に対して、キーワード抽出部６による処理を行い、キーワードリスト７を出力する。図５は、図４において示された本発明のキーワード抽出を行うキーワード抽出部６をさらに詳しく示す図である。以下に、キーワード抽出部６における処理について詳しく説明する。
【００１７】
[１]前処理
前処理としてプレーンテキスト・確信度ファイル生成部６ａにおいては、自動ＯＣＲ４により得られたＯＣＲ結果ファイル５から第1候補の文字コードと確信度を抜き出し、プレーンテキスト６ｃと確信度ファイル６ｂを生成する。プレーンテキスト６ｃは、キーワード抽出ユニット６ｅに渡される。確信度ファイル６ｂは、図６に示すごとくの構造を有するもので、1文字につき第一候補だけの確信度を保持する。
【００１８】
入力イメージ文書が１枚の用紙であれば、直接ＯＣＲ結果ファイルを参照して、確信度を参照すればよいが、そうでない場合は、文書を構成する入力イメージのＯＣＲ結果ファイルをキーワード抽出が終わるまですべて保持する必要があるので、確信度ファイルを別に作成する。確信度ファイル６ｂは、ページ毎に作成され、プレーンテキスト６ｃは、文書１つにつき、１つだけ作成される。確信度ファイル６ｂの各エントリとプレーンテキスト６ｃ中の文字は完全に同期がとられる必要がある。
【００１９】
[２]キーワード抽出ユニット
キーワード抽出ユニット６ｅは、テキストの形態素解析及び構文解析を行い、名詞句を中心に出現頻度、類似度の検査、慣用句検査、１文における修飾関係、及び係り受けなどの情報からキーワードを抽出し、キーワードリストを生成する。ここでキーワード抽出ユニット６ｅは、プレーンなテキストだけを受け付け、確信度ファイルなどの非テキストファイルは受け付けない。生成されるキーワードリストの構造の概要を図７に示す。キーワード抽出ユニット６ｅから出力されるキーワードリストは、誤認を含むキーワードリスト６ｇである。
【００２０】
［３］後処理
後処理として、キーワード検証部６ｆでは、キーワードリストの上位のキーワードから、誤認文字があるかどうかを一文字づつ検査する。文字を誤認しているかどうかは、しきい値により判定する。しきい値は、イメージごとに動的に決定される。キーワード抽出ユニット６ｅは、キーワードの情報として、キーワード位置もアプリケーションに公開しているので、キーワード抽出ユニット６ｅの入力であるプレーンテキストにおけるキーワード先頭位置がわかる。
【００２１】
ＯＣＲ結果ファイル５とプレーンテキスト６ｃは、認識文字に対して同期がとれているので、ＯＣＲ結果ファイル５を参照すれば、該当文字の確信度がわかる。図８に示すように、確信度が低い文字を含むキーワードをキーワードリストからはずし、次点のキーワードの順位を上げる。この操作を希望するキーワード数に達するまで繰り返せば、誤認文字を含まないキーワードリスト７を獲得できる。
【００２２】
キーワードリストからはずか否かの判断は、次のような判定式を使用する。
キーワード中の誤認文字数＞キーワードを構成する文字数×（α／１００）
上記αはユーザが与える％値である。たとえば、１０％以上の誤認文字を含むキーワードを必要としない場合には、αに１０を指定する。現実的には、誤認文字を１文字程度含む４文字のキーワードならば、ユーザはその文字を判別可能なので、誤認文字を“？”などの記号に置換してユーザに提示する（２文字のうち、１文字が誤認されていた場合は、“？”に置換できない。常識的な範囲で処理する）。以上により、判読可能なキーワードをイメージ文書からテキストコードの形式で獲得できる。
【００２３】
［４］イメージ文書にキーワードを強調表示
確信度ファイルの文字の位置情報（イメージの位置情報）を利用すれば、イメージ文書上で抽出したキーワードを表示させることが可能になる。確信度ファイルの各エントリとプレーンテキストの各エントリは１対１に対応しているので、キーワードリストによりキーワードのプレーンテキストでの位置がわかれば、確信度ファイルでのキーワードの位置もわかる。確信度ファイル上での位置が分かれば、イメージ文書のページ内でのキーワードの先頭文字位置がわかる。同様にしてキーワードを構成する各文字の位置も分かる。各文字位置は矩形で表現されるので、キーワードを強調する場合は、文字を囲む矩形領域に対して適当な色を表すＲＧＢ値でＯＲマスクを施せばよい。ｂｉｔ操作により文字の色だけを変更することも可能である。
【００２４】
［５］イメージ文書のイメージ品質
イメージ文書のイメージ品質が悪い場合、ＯＣＲ結果ファイルに大量の誤認文字が入り込むことになる。このような状況で、上記［１］〜［３］の方法によりキーワードを抽出しても、それらはキーワードリストの下位に属するキーワード群に属するかあるいはキーワードリストにキーワードがなくなる可能性もあり、キーワード抽出処理が無意味になる。こうした場合は、確信度ファイルの各文字ごとの確信度の統計値（標準偏差など）６ｄを確信度ファイルごとに計算しておき、統計値と“しきい値”の大小関係を比較することによりキーワード抽出を行うか否かを判断する。
【００２５】
また、この統計値は、ＯＣＲ結果ファイル中の文字が誤認されているかどうか判定する場合に使用する“しきい値”も決定する。
文字誤認判定のしきい値＝Ｆｕｎｃ（確信度ファイルの統計値)
Ｆｕｎｃ(確信度ファイルの統計値)の具体的な定義式は省略する。この式は、確信度ファイルの統計値が文字誤認判定のしきい値に影響を与えることを示している。“しきい値”は、イメージ毎に動的に決定される。イメージ毎にイメージの状態が異なるのでＯＣＲの結果からイメージの品質を定量化するのは合理的な方法である。
【００２６】
【発明の効果】
本発明によれば、ＯＣＲにより変換されたテキストに誤りがあっても、抽出するキーワードには許容範囲の誤りしかないことを保証する（たとえば、６文字で構成されるキーワードのうち１文字に誤りがあっても、容易にこのキーワードが何を意味するかは理解できる）ことが可能となり、処理系を重くすることなくユーザの利便性を高めることができる。
【図面の簡単な説明】
【図１】ＯＣＲ結果ファイルのＴＡＧ構造の一例を示す図である。
【図２】ＯＣＲ結果ファイルにおける文字情報タグと文字情報領域の構造の一例を示す図である。
【図３】図２に示すｉ番目の文字のデータ構造の一例を示す図である。
【図４】本発明によるキーワード抽出方法の処理動作の概略を説明するためのフロー図である。
【図５】図４に示すキーワード抽出部をより詳しく説明するための図である。
【図６】確信度ファイルの構造の一例を示す図である。
【図７】キーワードリストの構造の一例を示す図である。
【図８】キーワードリストからキーワードを外す処理を説明するための図である。
【符号の説明】
１…紙文書、２…スキャン、３…イメージ文書、４…自動ＯＣＲ、５…ＯＣＲ結果ファイル、６…キーワード抽出部、６ａ…プレーンテキスト・確信度ファイル生成部（前処理）、６ｂ…確信度ファイル、６ｃ…プレーンテキスト、６ｄ…確信度の統計値、６ｅ…キーワード抽出ユニット、６ｆ…キーワード検証部（後処理）、６ｇ…誤認を含むキーワードリスト、７…キーワードリスト。

Claims

プレーンテキスト・確信度ファイル生成手段により、イメージ文書のＯＣＲ文字認識により文字コードと該文字コードの確信度情報とを含む文字情報の候補が各文字毎に生成されたＯＣＲ結果ファイルを入力し、該文字情報の候補のなかから、第１候補の文字情報に含まれる文字コードと確信度情報とを各文字毎に抜き出し、該文字コードによるプレーンテキストと該確信度情報による確信度ファイルとを生成するステップと、キーワード抽出手段により、得られた前記プレーンテキストの形態素解析及びキーワード抽出を行ってキーワードリストを生成するステップと、
キーワード検証手段により、生成された前記キーワードリストのキーワードに対し、予め設定されたしきい値に基づいて文字を誤認しているかどうかを一文字ずつ判断し、所定条件に基づき算出された数よりも多い誤認文字数を含むキーワードを前記キーワードリストから外す処理を行うステップと、を有することを特徴とするイメージ文書のキーワード抽出方法。
請求項１に記載のイメージ文書のキーワード抽出方法において、前記キーワードリストに含まれるキーワードに対応した前記確信度リストのエントリを参照し、参照したエントリから、イメージ文書における該キーワードの位置情報を特定し、特定した位置情報に基づいてイメージ文書における該キーワードの強調表示を行うステップを有することを特徴とするイメージ文書のキーワード抽出方法。
イメージ文書のＯＣＲ文字認識により文字コードと該文字コードの確信度情報とを含む文字情報の候補が各文字毎に生成されたＯＣＲ結果ファイルを入力し、該文字情報の候補のなかから、第１候補の文字情報に含まれる文字コードと確信度情報とを各文字毎に抜き出し、該文字コードによるプレーンテキストと該確信度情報による確信度ファイルとを生成するプレーンテキスト・確信度ファイル生成手段と、得られた前記プレーンテキストの形態素解析及びキーワード抽出を行ってキーワードリストを生成するキーワード抽出手段と、
該キーワード抽出手段により生成された前記キーワードリストのキーワードに対し、予め設定されたしきい値に基づいて文字を誤認しているかどうかを一文字ずつ判断し、所定条件に基づき算出された数よりも多い誤認文字数を含むキーワードを前記キーワードリストから外す処理を行うキーワード検証手段と、を有することを特徴とするイメージ文書のキーワード抽出装置。
請求項３に記載のイメージ文書のキーワード抽出装置において、前記キーワードリストに含まれるキーワードに対応した前記確信度リストのエントリを参照し、参照したエントリから、イメージ文書における該キーワードの位置情報を特定し、特定した位置情報に基づいてイメージ文書における該キーワードの強調表示を行う手段を有することを特徴とするイメージ文書のキーワード抽出装置。