JP3803219B2

JP3803219B2 - 全文検索装置及び全文検索方法

Info

Publication number: JP3803219B2
Application number: JP35477799A
Authority: JP
Inventors: 泰三亀代; 敬平野
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1999-12-14
Filing date: 1999-12-14
Publication date: 2006-08-02
Anticipated expiration: 2019-12-14
Also published as: CN1300026A; CN1118034C; JP2001175661A

Description

【０００１】
【発明の属する技術分野】
この発明は、例えば、文書や図面に記載された文字画像を識別することにより作成された文書・図面データから、任意のキーワードを用いて全文検索する全文検索装置及び全文検索方法に関するものである。
【０００２】
【従来の技術】
コンピュータが読取可能な電子化テキストを蓄積し、キーワードを用いて電子化テキストの検索処理を行う方法には、（１）テキストの内容とキーワードを１文字ずつ直接照合する方法、（２）テキスト内に出現する文字とその位置情報を予め抽出してインデックスを作成し、検索時にインデックスを用いてキーワードとテキスト内の文字の位置関係を検定する方法とがある。
【０００３】
上記（２）ではインデックスを作成する文字列の単位から、連続するＮ（Ｎは整数）文字単位でのインデックスと、単語、形態素等の文法的要素を含む単位によるインデックスに大きく分類できる。更に位置情報の記述内容からテキスト番号等を記述する方法、テキスト番号に加えてテキスト内の文字の出現位置を記述する方法がある。
【０００４】
上記（１）では、テキストとキーワードの照合を高速に行うためには、テキストをメモリに展開する必要があるが、保存しているテキスト数が多くなるとテキストをメモリに展開する時間が長くなるため、高速に検索できない問題が発生する。しかし、予めインデックスを作成せずに済む点から、頻繁に登録、削除を行う場合に都合がよい。
上記（２）は、予めインデックスを作成する必要があるため、上記（１）に比べ登録、削除に時間を費やすが、一般的に検索における処理時間は、上記（１）に比べ少ない。このため、登録、削除があまり頻繁に行われず、大量文書を扱う場合に適している。
【０００５】
図２１は例えば特開平１０−１４９３６７号公報に示された従来の全文検索装置（以下、従来例１という）を示す構成図であり、当該従来例１は上記（２）に関するインデックス作成方法を適用するものである。
図において、２０１はテキスト格納手段、２０２は主インデックス登録手段、２０３は副インデックス登録手段、２０４は主インデックス格納手段、２０５は副インデックス格納手段、２０６は副インデックス管理手段、２０７は主インデックス検索手段、２０８は副インデックス検索手段、２０９はキーワード検索制御手段、２１０はキーワード検索結果格納手段、２１１は検索条件入力手段、２１２は論理条件解析手段、２１３は検索結果出力手段である。
【０００６】
次に動作について説明する。
テキスト格納手段２０１によって格納されたテキストは、主インデックス登録手段２０２によって連続するＮ文字のインデックスを登録し、主インデックス格納手段２０４によって格納される。
【０００７】
検索時には、検索条件入力手段２１１から得た検索条件を用いて、キーワード検索制御手段２０９が主インデックスと副インデックスを検索することにより検索結果を得る。その検索結果からキーワード検索結果格納手段２１０が検索結果の件数（テキスト識別数）の多いものや、検索結果のテキスト内文字位置数とテキスト識別数の比が大きいものに対し、副インデックス作成手段２０６を起動し、副インデックスの作成を行う。
【０００８】
従来例１では、Ｎ文字インデックスの主インデックスに加え、副インデックスを保持し、始めに副インデックスをアクセスし、キーワードが副インデックスに存在しない場合、主インデックスをアクセスする。
主インデックスは文書番号と文字位置番号を保持し、副インデックスは文書番号のみを保持している。このため、副インデックスは主インデックスに比べ、サイズが小さく、インデックスの検定処理も少なく済む。
副インデックス内にキーワードのＮ文字インデックスがある場合、主インデックスをアクセスする必要がなく、検索処理時間が短くなる。また、検索履歴を元に検索される頻度が小さいインデックスを副インデックスから削除することで、インデックスのサイズを小さくすることができる。
【０００９】
次に、文書を文字コード化していない（電子化テキストを作成していない）文書画像に対して検索を行うには、文字認識処理を実行して文書画像から文字部分を抽出することにより、電子化テキストを作成して保存するようにする。例えば、特開平８−７０３３号公報では、文字認識の結果として、各文字画像に対する認識候補文字を複数保持することにより、正解文字が含まれる割合を高める技術を開示している。
【００１０】
図２２は特開平８−７０３３号公報に示された従来の全文検索装置（以下、従来例２という）を示す構成図であり、図において、２２１は画像入力手段、２２２は出力手段、２２３は文字認識手段、２２４は文書検索手段、２２５はキーワード入力手段、２２６はイメージデータ、２２７はテキスト情報、２２８は検索用ファイルである。
【００１１】
次に動作について説明する。
従来例２では、文書画像を画像入力手段２２１から入力すると、文字認識手段２２３を用いて文字認識を実行し、その認識候補文字を検索用ファイル２２８に格納する。
複数の認識候補文字を格納するために、検索用ファイル２２８の記述は、認識候補文字数と認識候補文字を用いて、［候補文字数］［候補文字１］［候補文字２］・・・と記述する。
【００１２】
例えば、「新文書ファイリング」という文字画像に対して、複数の認識候補文字を格納する場合、［１］新［４］丈文女交［１］書［１］フ［１］ァ［１］イ［１］リ［１］ン［１］グなどと記述する。
検索時には、文書検索手段２２４が検索用ファイル２２８内のテキストとキーワードの照合を実行し、認識候補文字中にキーワードと同一文字が全て含まれている場合に、照合の成功を認定する。例えば、「新文書ファイリング」のテキストに対してキーワード「文書」で検索すると、［４］［丈文女交］［１］［書］の認識候補文字内に「文」及び「書」が存在するので照合に成功し、検索結果として出力する。
【００１３】
なお、従来例１と従来例２を組み合わせることによって、認識候補文字を含めたインデックスを作成して検索を行うことが可能となる。例えば、Ｎ＝２とすると、従来例２の「新文書ファイリング」の例では、「新丈」、「新文」、「新女」、「新交」、「丈書」、「文書」、「女書」、「交書」のような認識候補文字を用いたインデックスを作成することで、従来例１に適応可能となる。
【００１４】
【発明が解決しようとする課題】
従来の全文検索装置は以上のように構成されているので、文字認識の結果作成されたテキストからインデックスを作成する場合において、文字認識結果の第１位認識候補文字のみを用いたインデックスを作成すると、文字認識結果が誤りを含む確率が高くなり、キーワードとテキスト内の文字が一致せず、正しく検索されないことが多くなる課題があった。
【００１５】
また、従来例２のように認識候補文字を用いたテキストを実際に照合する検索では、正解文字がテキストに含まれる確率が第１位認識候補文字のみを保持する場合に比べて高くなるが、大量データになる程、テキストファイルをメモリにロードするための時間が長くなるため、検索の高速を図ることができなくなる課題があった。
【００１６】
また、認識候補文字を用いてインデックスを作成して検索する場合、正解文字が認識候補文字内に全て含まれないと、正解文字列のインデックスを正しく作成することができず、検索時に正しく検索されない課題があった。
例えば、「文字認識」という文字画像の認識結果が「文宇認識」のように「字」を「宇」に誤って認識した場合、作成するインデックスは「文宇」、「宇認」、「認識」となり、本来あるべき「文字」、「字認」のインデックスが作成できず、その結果「文字認識」のキーワードで正しく検索されなくなる。
【００１７】
さらに、例えば、各文字に対して認識候補文字を３文字ずつ保持すると、連続する２文字のインデックスを作成する場合の組合せは３×３＝９通りとなり、認識候補文字を１文字ずつ保持する場合の９倍となる。連続する３文字の組合せでは３×３×３＝２７通りとなり、認識候補文字を多く保持するほど、連続するＮ文字の組合せが多くなり、その結果、インデックスの容量が非常に大きくなる課題もあった。
【００１８】
この発明は上記のような課題を解決するためになされたもので、高速かつ高精度な全文検索を実施することができる全文検索装置及び全文検索方法を得ることを目的とする。
また、この発明は、インデックスの容量を小さくすることができる全文検索装置を得ることを目的とする。
【００１９】
【課題を解決するための手段】
この発明に係る全文検索装置は、連接文字を構成している各認識候補文字が、文字画像に対する唯一の認識候補文字である場合、その連接文字の出現回数をカウントアップして、その連接文字が文書全体に出現する出現確率を更新する出現確率更新手段を設け、インデックス作成手段が当該連接文字をインデックスの作成対象に含める場合には、その出現確率更新手段により更新された出現確率を考慮して、当該連接文字をインデックスの作成対象に含めるか否かを判定するようにしたものである。
また、この発明に係る全文検索装置は、キーワードと一致する連接文字の出現回数をカウントアップして、その連接文字が文書全体に出現する出現確率を更新する出現確率更新手段を設け、インデックス作成手段が当該連接文字をインデックスの作成対象に含める場合には、上記出現確率更新手段により更新された出現確率を考慮して、当該連接文字をインデックスの作成対象に含めるか否かを判定するようにしたものである。
また、この発明に係る全文検索装置は、文字認識手段が出力する認識候補文字が修正された場合、修正後の認識候補文字を含む連接文字の出現回数をカウントアップして、その連接文字が文書全体に出現する出現確率を更新する出現確率更新手段を設け、インデックス作成手段が当該連接文字をインデックスの作成対象に含める場合には、その出現確率更新手段により更新された出現確率を考慮して、当該連接文字をインデックスの作成対象に含めるか否かを判定するようにしたものである。
【００２１】
この発明に係る全文検索装置は、文字認識手段が出力する各認識候補文字の中で、基準確度より確度が低い認識候補文字をインデックスの作成対象から除外するようにしたものである。
【００２２】
この発明に係る全文検索装置は、文字認識手段が出力する認識候補文字の確度が基準確度より低い場合でも、基準確度を超える確度の認識候補文字を有しない文字画像に係る認識候補文字の場合、その認識候補文字をインデックスの作成対象に含めるとともに、その認識候補文字に対して他の認識候補文字と区別する識別記号を付加するようにしたものである。
【００２３】
この発明に係る全文検索装置は、文字画像の形状特徴をデータベースに格納するとともに、その文字画像に対する各認識候補文字と単語を構成する可能性のある文字の文字コードをデータベースに格納するようにしたものである。
【００２４】
この発明に係る全文検索装置は、言語的情報又は文字の種類を考慮して、各認識候補文字と単語を構成する可能性のある文字を判定するようにしたものである。
【００２５】
この発明に係る全文検索装置は、特徴抽出手段により抽出された文字画像の形状特徴とキーワードを構成する文字の形状特徴との距離を計算し、その距離が所定の基準を満たすとき検索条件の合致を認定するようにしたものである。
【００２６】
この発明に係る全文検索装置は、検索手段による形状特徴照合処理の実行の有無を設定する設定手段を設けたものである。
【００２７】
この発明に係る全文検索装置は、キーワードと一致する認識候補文字を含む文書を形状特徴の照合対象から除外するようにしたものである。
【００２８】
この発明に係る全文検索装置は、キーワードと一致する認識候補文字が存在しない場合に限り、特徴抽出手段により抽出された文字画像の形状特徴とキーワードを構成する文字の形状特徴を照合するようにしたものである。
【００２９】
この発明に係る全文検索装置は、キーワードに対する形状特徴の照合対象を特定する際、識別符号が付加された認識候補文字をワイルド・カードとして取り扱うようにしたものである。
【００３４】
この発明に係る全文検索方法は、出現確率更新手段が連接文字を構成している各認識候補文字が、文字画像に対する唯一の認識候補文字である場合、その連接文字の出現回数をカウントアップして、その連接文字が文書全体に出現する出現確率を更新し、インデックス作成手段が当該連接文字をインデックスの作成対象に含める場合には、その出現確率更新手段により更新された出現確率を考慮して、当該連接文字をインデックスの作成対象に含めるか否かを判定するようにしたものである。
また、この発明に係る全文検索方法は、出現確率更新手段がキーワードと一致する連接文字の出現回数をカウントアップして、その連接文字が文書全体に出現する出現確率を更新し、インデックス作成手段が当該連接文字をインデックスの作成対象に含める場合には、その出現確率更新手段により更新された出現確率を考慮して、当該連接文字をインデックスの作成対象に含めるか否かを判定するようにしたものである。
また、この発明に係る全文検索方法は、文字認識手段が出力する認識候補文字が修正された場合、出現確率更新手段が修正後の認識候補文字を含む連接文字の出現回数をカウントアップして、その連接文字が文書全体に出現する出現確率を更新し、インデックス作成手段が当該連接文字をインデックスの作成対象に含める場合には、その出現確率更新手段により更新された出現確率を考慮して、当該連接文字をインデックスの作成対象に含めるか否かを判定するようにしたものである。
【００３５】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態１．
図１はこの発明の実施の形態１による全文検索装置を示す構成図であり、図において、１は画像を入力する画像入力手段、２は入力画像に含まれる各文字画像を識別して、各文字画像に対する１以上の認識候補文字を出力するとともに、各認識候補文字の確度（類似度）を出力する文字認識手段、３は文字認識手段２が出力する各認識候補文字と文字位置の対応関係を示すインデックスを作成するインデックス作成手段である。
【００３６】
４は入力画像に含まれる各文字画像の中で、基準確度を超える確度の認識候補文字を有しない文字画像が存在する場合、その文字画像の形状特徴を抽出するとともに、言語的情報又は文字の種類を考慮して、その文字画像に対する認識候補文字と単語（文字列）を構成する可能性のある文字を判定し、その文字列を曖昧テキストとして抽出する曖昧テキスト抽出手段（特徴抽出手段）、５は文書の検索条件としてキーワードを入力する検索条件入力手段（入力手段、設定手段）、６はインデックスを参照して、そのキーワードと一致する認識候補文字の文書番号を検索する一方、曖昧テキスト抽出手段４により抽出された文字画像の形状特徴とキーワードを構成する文字の形状特徴を照合して、文書の検索条件に合致する文書番号を検索する検索手段、７は検索手段６の検索結果を出力する出力手段である。
【００３７】
８は文字認識手段２が文字認識に使用する文字認識辞書、９は検索手段６がキーワード検索時に使用する形状特徴辞書、１０は曖昧テキスト抽出手段４により抽出された曖昧テキストを格納する曖昧テキストデータベース、１１はインデックス作成手段３により作成されたインデックスを格納するインデックスデータベース、１２は認識候補文字等を格納する認識文字データベースである。
【００３８】
次に動作について説明する。
最初に、図２を参照して文書の登録方法を説明する。まず、ステップＳＴ１００において、画像入力手段１はコンピュータで処理可能な文書画像を入力する。画像入力手段１の構成としては、スキャナあるいはディジタルカメラ等を用いてもよいし、予め作成されたコンピュータ処理可能な画像をネットワーク経由等で入力してもよい。ここでは、画像入力手段１から図３の文書イメージを入力するものとする。
【００３９】
次に、ステップＳＴ１１０において、文字認識手段２は、画像入力手段１から入力された入力画像に対し文字認識処理を実行し、文字コードとその確からしさを示す類似度を出力する。
文字認識の方法は、公知となっている技術を用いることにより可能であるので詳細は省略する。文字認識手段２は入力画像に含まれる各文字画像に対し、複数の認識候補文字とそれぞれの類似度を出力する。
【００４０】
図４は文字認識手段２の認識結果の一部であり、ここでは、図３の１行目から２行目までの各文字画像の認識結果について、認識候補第１位から第５位までの認識候補文字とその類似度を示している。
図４で認識候補文字中に存在する「◆」は、対応する文字コードが格納されていないことを意味する。
【００４１】
次に、ステップＳＴ１２０において、インデックス作成手段３は、図４に示す認識結果から検索に用いる認識候補文字の絞込みを実施する。
認識候補文字の絞込みを行う方法としては、例えば、認識候補文字の類似度の値と当該認識候補文字が、正解である確率を予め学習データから求めておき、正解である確率が高く、かつ、十分な絞込みが行える閾値ＴＨ１を設定し、閾値ＴＨ１以上の類似度の認識候補文字を保持するようにする。
【００４２】
閾値ＴＨ１以上の類似度の認識候補文字が存在しない場合は、正解文字が含まれない確率が高いため、各認識候補文字に加えて正解文字が含まれない可能性が高いことを示す「＊」記号を付加する。
この例では「＊」を用いているが、他の文字コードを割り当ててもよいし、文字コード以外の値を割り当てるようにしてもよい。
図５は認識候補文字の絞込み結果を示している。例えば、ＴＨ１＝８０と設定すると、文字位置番号４と文字位置番号９に対しては、類似度が８０以上の認識候補文字が存在しないので（図４を参照）、これらに対して、「＊」を付加するようにしている（図５の符号２３，２４を参照）。インデックス作成手段３は図５に示す絞込み後の認識候補文字を認識文字データベース１２に保存する。
【００４３】
次に、ステップＳＴ１３０において、インデックス作成手段３は、インデックスを作成する。ここでは、図５に示す認識候補文字から１文字毎のインデックスと、連続する２文字のインデックスを作成する。
ここで、インデックスの作成方法を具体的に説明する。
図９はインデックス作成手段３が図５に示す認識候補文字から作成した２文字のインデックスを示している。その作成方法は、図５の１文字目から順番に隣り合う文字同士について、隣り合う２文字の前の文字と後の文字の文字コード、前の文字の出現位置、前の文字の認識候補順位と後の文字の認識候補順位との積を計算して保存する。出現位置は「Ｘ−Ｙ」と記述し、文書番号Ｘの文頭からＹ文字目を意味する。ここでは、図３の文書イメージの文書番号を“１”としている。
【００４４】
例えば、図５の「文」２１と「書」２２から図９の「文書」２５のインデックスを作成する。この場合、「文」２１の位置情報が文書１の先頭から１文字目であるので、文字位置は「１−１」となり、「文」２１と「書」２２の認識候補順位が共に１位であるので、認識候補順位は１×１＝１となる。
図１０は１文字インデックスの位置と認識順位を記憶したテーブルであり、文字コード、文字出現位置及び認識候補順位を保持する。正解文字コードが含まれないと判定した文字に対しては、「＊」３１と文字位置３２を保持するようにしている。
【００４５】
次に、ステップＳＴ１４０において、曖昧テキスト抽出手段４は、正解文字コードが含まれない文字を含む曖昧テキストを抽出する。
即ち、曖昧テキスト抽出手段４は、図５に示す認識候補文字から、「＊」が付いた文字コードの文字画像から文字の形状特徴を作成し、その前後の数文字と共に曖昧テキストデータベース１０内に格納する。
前後の文字の判定方法は、例えば、公知である形態素解析を実行し、「＊」が付いた文字コードの前後から形態素解析に失敗した文字としてもよいし、「＊」が付いた文字コードと同一カテゴリ（英字、漢字、数字、ひらがな、かたかなの何れか）で連続する文字としてもよいし、文字数を固定してもよい。ここでは、後ろの１文字を保持するようにしている。
【００４６】
図８は具体的な形状特徴の作成方法を示し、図８では文字画像のイメージを８分割して、各領域の黒画素数を求めるようにしている。例えば、領域４１に対して黒画素数が１３個（符号４９を参照）、領域４２に対しては黒画素数が１０個（符号５０を参照）として求まる。こうして作成した形状特徴を認識候補文字とともに保存する。図６は４文字目と９文字目の文字画像から抽出された形状特徴を保持する例を示している。
また、曖昧テキスト抽出手段４は、認識文字データベース１２に形状特徴を作成した文字の位置とその特徴値を格納する（図５の下部を参照）。
【００４７】
次に、文書の検索方法を説明する。
ここでは、文書登録処理の結果、インデックスデータベース１１及び曖昧テキストデータベース１０には文書番号１の文書に関するデータのみが格納されているものとする。図１１は文書の検索方法を示すフローチャートである。
【００４８】
まず、ステップＳＴ２００において、ユーザは検索条件入力手段５を用いて、キーワードを入力する。検索条件入力手段５を構成するには、コンピュータのキーボードやマウスで可能であるが、これに限らずマイク、電話などを用いた音声入力も可能である。ここでは「文字」というキーワードを入力するものとする。
次に、ステップＳＴ２１０において、検索手段６は、入力されたキーワードを分割する。ここでは、１文字および２文字連接文字列の組に分解する。即ち、「文」、「字」、「文字」に分割する。
【００４９】
次に、ステップＳＴ２２０において、検索手段６は、インデックスを用いた文書の検索を実施する。図１２はインデックス照合を示すフローチャートである。
まず、ステップＳＴ２２１において、検索手段６は、その分割した「文字」、「文」、「字」の各インデックス（図９の符号２６、図１０の符号２７，２８を参照）を取り出す処理を実行する。具体的には、図示しないメモリ上に各インデックスの内容をロードする。
【００５０】
次に、ステップＳＴ２２２において、文字位置の検証を実施して文書番号を検索する。即ち、「文」、「字」の文字位置をそれぞれ検証して文書番号を検索してもよいが、「文字」のインデックス２６を用いて文書番号を検索するようにしてもよい。ここでは、「文字」のインデックス２６を用いて検索する。この場合、「文字」の文字位置が「１−７」であるので、文書番号１が検索結果となる。
最後に、ステップＳＴ２２４において、検索手段６は、インデックス検索での検索結果を出力する。
【００５１】
次に、図１１のステップＳＴ２３０において、検索手段６は曖昧テキストを用いた検索を実施する。図１３は曖昧テキスト照合を示すフローチャートである。
まず、ステップＳＴ２３１において、検索対象文書の決定を実行する。ここでは、処理の無駄を省くためにインデックス照合（ステップＳＴ２２０）による検索の結果、出力候補となった文書番号の文書を検索対象から除外する。
【００５２】
具体的には、キーワード「文字」の「文」、「字」何れかの文字を含む文書番号をピックアップし、そこからステップＳＴ２２０において出力された文書番号の文書を除いたものを検索対象文書とする。つまり、図１０から「文」のインデックス２７が示す文書番号と「字」のインデックス２８が示す文書番号とのＯＲをとり、これからステップＳＴ２２０での検索結果を除くようにする。
この場合、「文」と「字」の文書番号のＯＲは“１”であり、ステップＳＴ２２０において、文書番号１を出力しているので、文書番号１から文書番号１を除いて対象文書なしとする。
【００５３】
次に、ステップＳＴ２３２において、対象文書をメモリにロードする。ここでは、対象文書なしなのでロードしない。続いて、ステップＳＴ２３３において、文字コードレベルでの照合を行うが、対象文書なしなので照合を行わない。同様に、ステップＳＴ２３４において、形状特徴の照合を行うが対象文書なしなので照合を行わない。ステップＳＴ２３５において、Ｙに進み、ステップＳＴ２３６において、結果なしを出力して終了する。
最後に、図１１のステップＳＴ２４０において、各検索結果（文書番号１）を出力して終了する。
【００５４】
次に、ユーザがキーワードとして「課題」を入力した場合の検索について説明する。
図１１のステップＳＴ２００において、ユーザは検索条件入力手段５から「課題」をキーワードとして入力する。ステップＳＴ２１０において、検索手段６はキーワード分割する。ここでは、「課」、「題」、「課題」とに分割する。
次に、ステップＳＴ２２０において、検索手段６は、インデックス照合による検索を実行する。図１２のステップＳＴ２２１において、各インデックスを取り出すが、ここでは、「題」のインデックス３０は存在するが、「課題」、「課」のインデックスは存在しない。ステップＳＴ２２２，ステップＳＴ２２４と進み、「課題」のインデックスが存在しないので、結果なしで終了する。
【００５５】
次に、図１１のステップＳＴ２３０において、検索手段６は曖昧テキストを検索する。まず、図１３のステップＳＴ２３１において、検索対象文書の決定を実行する。「課」のインデックスが示す文書番号と、「題」のインデックスが示す文書番号とのＯＲをとり、これからステップＳＴ２２０における検索結果を除く処理を実行する。
【００５６】
「題」のインデックス３０が示す文書番号が“１”で、ステップＳＴ２２０での検索結果がなしであるから対象文書の文書番号は“１”となる。
次に、ステップＳＴ２３２において、対象文書の曖昧テキストをメモリにロードする。ここでは、図６に示す文書番号１のテキスト及び形状特徴をメモリにロードする。
【００５７】
次に、ステップＳＴ２３３において、検索手段６は文字コードレベルでの照合を実行する。ここでは、検索キーワードと１文字でも一致した場合に、一致した文字位置付近を形状特徴照合範囲として記憶し次に進む。具体的には、キーワード「課題」の「課」又は「題」いずれかの文字が存在した部分の付近を形状特徴照合範囲とする。ここでは、図６で「題」３３が一致するので、これを形状特徴照合範囲とする。
【００５８】
次に、ステップＳＴ２３４において、検索手段６は、形状特徴を用いた照合を実行する。ここでは、図６の形状特徴３４と形状特徴辞書９から「課」の形状特徴をロードする。図８で、４１〜４８の領域を領域１〜領域８に割り当てる。形状特徴の計算は、下記に示すように、各領域毎の特徴の差分を計算する。
【００５９】
【数１】

【００６０】
ここで、Ｄは形状特徴間の距離、Ｘ_i は曖昧テキストデータベース１０内のテキストのｉ番目の形状特徴であり、Ｙ_i は対応するキーワード文字のｉ番目の形状特徴（形状特徴辞書９内に格納されている）である。
【００６１】
距離Ｄがある閾値ＴＨＲ以下の場合に形状特徴の照合に成功したものとし、この文書を検索結果として出力する。いま、形状特徴辞書９内の「課」の領域１〜８までの特徴値をそれぞれ「１０」「７」「１２」「１２」「１０」「５」「１０」「９」とすると、図６の形状特徴３４との距離はＤ＝３０となる。
従って、ＴＨＲ≧Ｄが成立するので、この特徴間の照合は成功し、文書番号１を検索結果として出力する。
最後に、ステップＳＴ２４０において、その検索結果である文書番号１を出力する。
【００６２】
この実施の形態１では、インデックスを１文字と２文字の場合で説明したが、これに限らず、連続する３文字のインデックスを用いてもよいし、それ以上でもよい。
また、この実施の形態１では、インデックスと曖昧テキストの両方を用いて検索を行ったが、これに限らず、図２０に示すように、曖昧テキストの照合を実施せずに検索結果を出力してもよい。曖昧テキストを用いないことで、文字認識で失敗した部分の検索を実施することができないが、結果出力の高速化を図ることができる。
また、曖昧テキストを用いることによって高精度検索が可能となるので、検索条件入力手段５に検索条件を入力する際、曖昧テキストを用いた検索を行うか否かを指定することで、検索精度の優先又は検索速度の優先を自由に指定することができる。
【００６３】
また、曖昧テキストは図６を用いたが、図７に示すように曖昧テキストのある文書番号の開始位置と終了位置及び曖昧テキストの文字コードをどの文書に含むかを示す表を作成してもよい。
この場合の動作について説明する。登録時において、曖昧テキスト抽出手段４は、上述したように、類似度がＴＨ１以下の文字を含む前後数文字の文字列を曖昧テキストと決定し、その開始文字位置と終了文字位置及び文書番号を保持する。いま、図５の「＊」２３で説明すると、ここでは、この文字を含む後１文字を曖昧テキストとする。図７で開始文字位置４（符号５００を参照）、終了文字位置５（符号５０１を参照）、文書番号１（符号５０２を参照）を保持する。
【００６４】
また、曖昧テキスト抽出手段４は、図７（Ｂ）に示す曖昧テキストが出現する文字の表を作成する。いま、開始文字位置４と終了文字位置５に存在する認識候補文字の全てに対して文書番号１を保持する。図５からこの例では、図７（Ｂ）の「諜」５０３，「訓」５０４，「詰」５０５，「語」５０６，「話」５０７，「題」５０８に対して文書番号１を保持する。
【００６５】
検索処理は、図１１のステップＳＴ２２０まで、上記実施の形態１と同一である。ステップＳＴ２３０において、キーワード「課題」に対しては、検索手段６は図７（Ｂ）の表から「課」、「題」のインデックスをロードし、該当文書を決定する。
ここでは、「課」を含む文書が存在せず、「題」を含む文書の文書番号が“１”であるので、文書番号１に対し、形状特徴を用いた検索を実行する。
図７（Ａ）で文書番号１の４から５文字目と、９から１０文字目に対し、図５の認識文字データベース１２から文字と形状特徴をロードして照合を行う。以下、上記実施の形態１と同一である。
これにより、認識文字データベース１２と曖昧テキストデータベース１０の２重保持が防止され、大量データになる程、データ保持のための容量を抑えることが可能となる。
【００６６】
以上で明らかなように、この実施の形態１によれば、インデックスを参照して、キーワードと一致する認識候補文字の文書番号を検索する一方、文字画像の形状特徴とキーワードを構成する文字の形状特徴を照合して、文書の検索条件に合致する文書番号を検索するように構成したので、高速かつ高精度な全文検索を実施することができる効果を奏する。
【００６７】
実施の形態２．
上記実施の形態１では、文字コードが全て一致しない場合、形状特徴を用いて文書番号を検索するものについて示したが、形状特徴を用いずにインデックスファイルのみで検索を実施するようにしてもよい。
文書の登録方法は上記実施の形態１と同様であるので、文書の検索方法について説明する。
【００６８】
まず、図１１のステップＳＴ２００において、キーワード「課題」を入力するものとする。次に、ステップＳＴ２１０において、キーワード分割を実施する。ここでは、「課」、「題」、「課題」を作成する。次に、ステップＳＴ２２０において、インデックス照合による検索を実施するが、インデックス照合のフローチャートは図１４を用いる。
ステップＳＴ２２１において、検索手段６は、各分割キーワード文字列のインデックスを取り出す処理を実行する。「課題」、「課」のインデックスは存在せず「題」のみのインデックスが存在するので、図１０から「題」のインデックス３０を取り出す。
【００６９】
次に、ステップＳＴ２２２において、文字位置の照合を実施する。ここでは、「課題」のインデックスが存在しないので、照合した文書は該当なしとなりステップＳＴ２２３に進む。ステップＳＴ２２３では、一部不一致である文字位置に対して「＊」記号を用いた照合を実施する。
この検索は、「課題」のようにキーワードと完全に一致しなくとも「＊題」、「課＊」の文字列でも照合を可能とする。処理の手順は、「課」、「題」のインデックスを用いて、「課」または「題」のインデックスから文字位置を検出する。「課」に対してはインデックスが存在しないが、「題」についてはインデックス３０が存在する。
【００７０】
次に、「＊」文字のインデックス３１をロードする。「＊」のインデックス３１で、「題」のインデックス３０に連接するものが存在するかを検証する。「＊」の始めの文字位置「１−４」３２は「題」の１−５の１文字前にあるため条件を満たす。他に、「題」の文字位置が存在しないので、ステップＳＴ２２４において、検索結果（文書番号１）を出力して終了する。
図１１で、ステップＳＴ２３０の曖昧テキスト照合を実施せず、ステップＳＴ２４０へと進み、その検索結果（文書番号１）を出力して終了する。
【００７１】
この実施の形態２では、認識候補文字に正解が存在しないと思われる文字に対し「＊」記号を認識候補文字に加え、この文字はどの文字とも照合に一致するものとして検索を行う。ただし、「＊＊」のように正解文字が１文字も含まれない場合は成功としない。これにより、誤認識による検索もれを減少させることができる効果を奏する。
【００７２】
実施の形態３．
図１５はこの発明の実施の形態３による全文検索装置を示す構成図であり、図において、図１と同一符号は同一または相当部分を示すので説明を省略する。
１３は文字認識手段２の認識結果を修正する認識結果修正手段、１４は文字連鎖出現確率を変更する文字連鎖出現確率辞書更新手段（出現確率更新手段）、１５は文字連鎖の出現確率を格納する文字連鎖出現確率辞書、１６はインデックスを作成する際、文字連鎖出現確率辞書１５を参照して、２以上の認識候補文字が組み合わされた連接文字をインデックスの作成対象に含めるか否かを判定するインデックス作成手段である。
【００７３】
次に動作について説明する。
ここでは、文字連鎖出現確率辞書１５を用いたインデックスの作成方法と、文字連鎖出現確率辞書１５の更新方法について説明する。
文書の登録処理では、図２のステップＳＴ１２０までは上記実施の形態１と同様に処理する。
【００７４】
図２のステップＳＴ１３０において、インデックス作成手段１６は、上記実施の形態１と同様に認識候補文字の絞り込みを実施し、図５に示す認識候補文字からインデックスを作成する。このとき、文字連鎖出現確率辞書１５を用いて、認識候補文字の組み合わせに対し、インデックスを作成するか否かを決定する。
図１６は文字連鎖出現確率辞書１５の一例を示し、図１５の「確率」には、予め多くの学習文書から文書内に連続するＮ文字の組合せの出現数を計算し、文書全体に対して出現確率を求める。総数は実際に学習文書に出現する組合せ数である。組合せ文字（連接文字）の始めの文字が同一であるグループの確率の和は“１”である。例えば、「文字」、「文学」、「文章」など「文」から始まる組合せの確率の和は“１”となる。
【００７５】
以下の式を定義し、図５の認識候補文字の組合せから、Ｅを計算し、そのＥの値によってインデックスを作成するか否かを決定する。
【００７６】
【数２】

【００７７】
ここで、Ｒは文字認識での類似度を表し、Ｒ_ijとは、文頭からｉ番目の文字位置における第ｊ位認識候補文字の類似度を示す。同様に、Ｒ_(i+1)kとは、文頭から（ｉ＋１）番目の文字位置における第ｋ位認識候補文字の類似度を示す。
Ｐ_ij(i+1)kは、文頭からｉ番目の文字位置における第ｊ位認識候補文字の次に、文頭から（ｉ＋１）番目の文字位置における第ｋ位認識候補文字が続いて出現する確率を示す。α，βは定数である。
【００７８】
具体的には、図５において、例えば、ｉ＝７の場合、「文宇」、「文字」、「文学」、「丈宇」、「丈字」、「丈学」の６通りに対して、Ｅの計算を実施し、各値がある閾値以上になれば、その組合せをインデックスに作成し、ある閾値以下になれば、インデックスに残さないようにする。
いま、α＝０．５、β＝３００とすると、Ｅ（文宇）＝０．５×（９０＋８６）＋（１−０．５）×３００×０．００１＝８８．１５となる。同様に計算し、Ｅ（文字）＝１０２、Ｅ（文学）＝８６．５、Ｅ（丈宇）＝７８．１５、Ｅ（丈字）＝７７．１５、Ｅ（丈学）＝７５．１５となる。
したがって、Ｅ＞８５以上の文字組をインデックスとして保存する場合、「文字」、「文宇」、「文学」の組み合わせのみを登録する。このとき、図９の２文字インデックスでは、Ｅの値が大きい順に割り当てるようにしている。ここでは、「文字」を１、「文宇」を２、「文学」を３と保持する。
【００７９】
文書の検索方法は、上記実施の形態１と同様である。
文字認識に用いた類似度と、文書中に文字同士の組合せが連続して出現する確率を用いて値を算出することで、文字としての正解である可能性が低かったり、文字列として文書中に存在する確率が低い組合せを排除することにより、検索のためのインデックスをコンパクトに、かつ正解文字の誤った削除を少なく作成することが可能となる。
【００８０】
実施の形態４．
次に、文字連鎖出現確率辞書１５を変更する方法について説明する。
内容、分野が同一又は類似する文書においては、各文書内に出現する重要単語が類似しており、比較的多く出現する。そこで、出現する文字の組合せを学習し、各分野毎の文書の文字連鎖出現確率辞書１５を更新していくことで、検索の精度をそれほど落とさずにインデックスのコンパクト化が可能となる。
この実施の形態４では、文字認識結果から、正しいと思われる文字の組合せに対して出現数をカウントし、この値を文字連鎖出現確率辞書１５に反映させる例について説明する。
【００８１】
図１７は文書の登録方法を示すフローチャートである。文書登録に用いる文書は、上記実施の形態１と同一とする。
ステップＳＴ１２０までは、上記実施の形態１と同様に処理する。ステップＳＴ１３５において、上記実施の形態１と同様にインデックスを作成する。その後、文字連鎖出現確率辞書更新手段１４は、図５に示す認識候補文字の中から、候補数が１文字で連続する文字の組合せの出現数をカウントする。
【００８２】
図５では、「文書」、「識性」、「性能」、「能の」、「の向」、「向上」の組み合わせに対して出現数をカウントする。文字連鎖出現確率辞書更新手段１４は、各組合せとその数を図示しないバッファに保持し、あるタイミング、例えば、数回の文書登録に一度の割合で図１６の文字連鎖出現確率辞書１５を更新する。または、ユーザが更新の命令を行うことによって更新してもよい。
以下、ステップＳＴ１４０では、上記実施の形態１と同様に曖昧テキストを作成して終了する。
【００８３】
また、認識候補文字に対し、ユーザが認識結果修正手段１３を用いて、文字認識誤りを修正した場合に、修正した文字の組合せの数をカウントして文字連鎖出現確率辞書１５を更新することも可能である。
図１９は文書の登録方法を示すフローチャートである。図１９でステップＳＴ１２０までは上記実施の形態１と同様に処理する。
【００８４】
ステップＳＴ１２５において、認識結果修正手段１３を用いて文字の修正を行う。例えば、図５の文字位置８，９を図１８の６０，６１のようにユーザが修正する。
次に、ステップＳＴ１３３において、インデックス作成手段１６は、図１８に示す認識候補文字からインデックスを作成する。次に、ステップＳＴ１４３において、文字連鎖出現頻度をカウントする。文字連鎖出現確率辞書更新手段１４は、修正した文字の前後も含め認識候補文字が１文字である組み合わせの数をカウントする。ここでは、図１８で「字認」、「認識」に対して組合せ数をカウントする。文字連鎖出現確率辞書１５の更新は、あるタイミング、例えば、一定数修正した後に更新する。
【００８５】
また、誤認識文字の修正に限らず、検索に用いたキーワードから文字連鎖出現頻度をカウントし、文字連鎖出現確率辞書１５に反映させることで、登録時においてキーワードに用いた文字列をより正確に残すことが可能となる。
【００８６】
【発明の効果】
以上のように、この発明によれば、連接文字を構成している各認識候補文字が、文字画像に対する唯一の認識候補文字である場合、その連接文字の出現回数をカウントアップして、その連接文字が文書全体に出現する出現確率を更新する出現確率更新手段を設け、インデックス作成手段が当該連接文字をインデックスの作成対象に含める場合には、その出現確率更新手段により更新された出現確率を考慮して、当該連接文字をインデックスの作成対象に含めるか否かを判定するように構成したので、高速かつ高精度な全文検索を実施することができる他に、インデックスの効率的な容量削減を実施することができるとともに、重要なキーワードが検索されない確率を低減することができる効果がある。
また、この発明によれば、キーワードと一致する連接文字の出現回数をカウントアップして、その連接文字が文書全体に出現する出現確率を更新する出現確率更新手段を設け、インデックス作成手段が当該連接文字をインデックスの作成対象に含める場合には、上記出現確率更新手段により更新された出現確率を考慮して、当該連接文字をインデックスの作成対象に含めるか否かを判定するように構成したので、高速かつ高精度な全文検索を実施することができる他に、インデックスの効率的な容量削減を実施することができるとともに、重要な文字の優先度が高められて、重要な文字が検索されない確率を低減することができる効果がある。
また、この発明によれば、文字認識手段が出力する認識候補文字が修正された場合、修正後の認識候補文字を含む連接文字の出現回数をカウントアップして、その連接文字が文書全体に出現する出現確率を更新する出現確率更新手段を設け、インデックス作成手段が当該連接文字をインデックスの作成対象に含める場合には、その出現確率更新手段により更新された出現確率を考慮して、当該連接文字をインデックスの作成対象に含めるか否かを判定するように構成したので、高速かつ高精度な全文検索を実施することができる他に、インデックスの効率的な容量削減を実施することができるとともに、重要な文字の優先度が高められて、重要な文字が検索されない確率を低減することができる効果がある。
【００８８】
この発明によれば、文字認識手段が出力する各認識候補文字の中で、基準確度より確度が低い認識候補文字をインデックスの作成対象から除外するように構成したので、検索精度の劣化を招くことなく、インデックスの容量を小さくすることができる効果がある。
【００８９】
この発明によれば、文字認識手段が出力する認識候補文字の確度が基準確度より低い場合でも、基準確度を超える確度の認識候補文字を有しない文字画像に係る認識候補文字の場合、その認識候補文字をインデックスの作成対象に含めるとともに、その認識候補文字に対して他の認識候補文字と区別する識別記号を付加するように構成したので、キーワードと文字コードが一致しない検索において、インデックスデータベースのみを用いた検索が可能になる効果がある。
【００９０】
この発明によれば、文字画像の形状特徴をデータベースに格納するとともに、その文字画像に対する各認識候補文字と単語を構成する可能性のある文字の文字コードをデータベースに格納するように構成したので、検索精度の向上を図ることができる効果がある。
【００９１】
この発明によれば、言語的情報又は文字の種類を考慮して、各認識候補文字と単語を構成する可能性のある文字を判定するように構成したので、検索精度が向上する効果がある。
【００９２】
この発明によれば、特徴抽出手段により抽出された文字画像の形状特徴とキーワードを構成する文字の形状特徴との距離を計算し、その距離が所定の基準を満たすとき検索条件の合致を認定するように構成したので、形状特徴辞書をカスタマイズすることができる効果がある。
【００９３】
この発明によれば、検索手段による形状特徴照合処理の実行の有無を設定する設定手段を設けるように構成したので、検索速度と検索精度の重要性を考慮して、検索処理における処理種別の優先度を設定することができる効果がある。
【００９４】
この発明によれば、キーワードと一致する認識候補文字を含む文書を形状特徴の照合対象から除外するように構成したので、形状特徴を照合する際の検索の無駄を削減することができる効果がある。
【００９５】
この発明によれば、キーワードと一致する認識候補文字が存在しない場合に限り、特徴抽出手段により抽出された文字画像の形状特徴とキーワードを構成する文字の形状特徴を照合するように構成したので、検索速度を高めることができる効果がある。
【００９６】
この発明によれば、キーワードに対する形状特徴の照合対象を特定する際、識別符号が付加された認識候補文字をワイルド・カードとして取り扱うように構成したので、インデックスデータベースのみを用いた検索を実施することができる効果がある。
【０１０１】
この発明によれば、出現確率更新手段が連接文字を構成している各認識候補文字が、文字画像に対する唯一の認識候補文字である場合、その連接文字の出現回数をカウントアップして、その連接文字が文書全体に出現する出現確率を更新し、インデックス作成手段が当該連接文字をインデックスの作成対象に含める場合には、その出現確率更新手段により更新された出現確率を考慮して、当該連接文字をインデックスの作成対象に含めるか否かを判定するように構成したので、高速かつ高精度な全文検索を実施することができる他に、インデックスの効率的な容量削減を実施することができるとともに、重要なキーワードが検索されない確率を低減することができる効果がある。
また、この発明によれば、出現確率更新手段がキーワードと一致する連接文字の出現回数をカウントアップして、その連接文字が文書全体に出現する出現確率を更新し、インデックス作成手段が当該連接文字をインデックスの作成対象に含める場合には、その出現確率更新手段により更新された出現確率を考慮して、当該連接文字をインデックスの作成対象に含めるか否かを判定するように構成したので、高速かつ高精度な全文検索を実施することができる他に、インデックスの効率的な容量削減を実施することができるとともに、重要な文字の優先度が高められて、重要な文字が検索されない確率を低減することができる効果がある。
また、この発明に係る全文検索方法は、文字認識手段が出力する認識候補文字が修正された場合、出現確率更新手段が修正後の認識候補文字を含む連接文字の出現回数をカウントアップして、その連接文字が文書全体に出現する出現確率を更新し、インデックス作成手段が当該連接文字をインデックスの作成対象に含める場合には、その出現確率更新手段により更新された出現確率を考慮して、当該連接文字をインデックスの作成対象に含めるか否かを判定するように構成したので、高速かつ高精度な全文検索を実施することができる他に、インデックスの効率的な容量削減を実施することができるとともに、重要な文字の優先度が高められて、重要な文字が検索されない確率を低減することができる効果がある。
【図面の簡単な説明】
【図１】この発明の実施の形態１による全文検索装置を示す構成図である。
【図２】文書の登録方法を示すフローチャートである。
【図３】入力画像を示す説明図である。
【図４】文字認識手段の認識結果を示す説明図である。
【図５】認識候補文字の絞込み結果を示す説明図である。
【図６】文字画像から抽出された形状特徴を保持する例を示す説明図である。
【図７】曖昧テキストのある文書番号の開始位置等を示す説明図である。
【図８】具体的な形状特徴の作成方法を示す説明図である。
【図９】２文字のインデックス例を示す説明図である。
【図１０】１文字インデックスの位置と認識順位を記憶したテーブルを示す説明図である。
【図１１】文書の検索方法を示すフローチャートである。
【図１２】インデックス照合を示すフローチャートである。
【図１３】曖昧テキスト照合を示すフローチャートである。
【図１４】インデックス照合を示すフローチャートである。
【図１５】この発明の実施の形態３による全文検索装置を示す構成図である。
【図１６】文字連鎖出現確率辞書を示す説明図である。
【図１７】文書の登録方法を示すフローチャートである。
【図１８】認識結果の修正内容を示す説明図である。
【図１９】文書の登録方法を示すフローチャートである。
【図２０】文書の検索方法を示すフローチャートである。
【図２１】従来の全文検索装置（従来例１）を示す構成図である。
【図２２】従来の全文検索装置（従来例２）を示す構成図である。
【符号の説明】
１画像入力手段、２文字認識手段、３インデックス作成手段、４曖昧テキスト抽出手段（特徴抽出手段）、５検索条件入力手段（入力手段、設定手段）、６検索手段、７出力手段、８文字認識辞書、９形状特徴辞書、
１０曖昧テキストデータベース、１１インデックスデータベース、１２認識文字データベース、１３認識結果修正手段、１４文字連鎖出現確率辞書更新手段（出現確率更新手段）、１５文字連鎖出現確率辞書、１６インデックス作成手段。

Claims

入力画像に含まれる各文字画像を識別して、各文字画像に対する１以上の認識候補文字を出力するとともに、各認識候補文字の確度を出力する文字認識手段と、上記文字認識手段が出力する各認識候補文字と文書の対応関係を示すインデックスを作成するインデックス作成手段と、上記入力画像に含まれる各文字画像の中で、基準確度を超える確度の認識候補文字を有しない文字画像が存在する場合、その文字画像の形状特徴を抽出する特徴抽出手段と、文書の検索条件としてキーワードを入力する入力手段と、上記インデックスを参照して、そのキーワードと一致する認識候補文字の文書を検索する一方、そのキーワードと一致する認識候補文字が存在しない場合、上記特徴抽出手段により抽出された文字画像の形状特徴と当該キーワードを構成する文字の形状特徴を照合して、検索条件に合致する文書を検索する検索手段とを備えた全文検索装置において、連接文字を構成している各認識候補文字が、当該文字画像に対する唯一の認識候補文字である場合、その連接文字の出現回数をカウントアップして、その連接文字が文書全体に出現する出現確率を更新する出現確率更新手段を設け、上記インデックス作成手段が当該連接文字をインデックスの作成対象に含める場合には、上記出現確率更新手段により更新された出現確率を考慮して、当該連接文字をインデックスの作成対象に含めるか否かを判定することを特徴とする全文検索装置。
入力画像に含まれる各文字画像を識別して、各文字画像に対する１以上の認識候補文字を出力するとともに、各認識候補文字の確度を出力する文字認識手段と、上記文字認識手段が出力する各認識候補文字と文書の対応関係を示すインデックスを作成するインデックス作成手段と、上記入力画像に含まれる各文字画像の中で、基準確度を超える確度の認識候補文字を有しない文字画像が存在する場合、その文字画像の形状特徴を抽出する特徴抽出手段と、文書の検索条件としてキーワードを入力する入力手段と、上記インデックスを参照して、そのキーワードと一致する認識候補文字の文書を検索する一方、そのキーワードと一致する認識候補文字が存在しない場合、上記特徴抽出手段により抽出された文字画像の形状特徴と当該キーワードを構成する文字の形状特徴を照合して、検索条件に合致する文書を検索する検索手段とを備えた全文検索装置において、キーワードと一致する連接文字の出現回数をカウントアップして、その連接文字が文書全体に出現する出現確率を更新する出現確率更新手段を設け、上記インデックス作成手段が当該連接文字をインデックスの作成対象に含める場合には、上記出現確率更新手段により更新された出現確率を考慮して、当該連接文字をインデックスの作成対象に含めるか否かを判定することを特徴とする全文検索装置。
入力画像に含まれる各文字画像を識別して、各文字画像に対する１以上の認識候補文字を出力するとともに、各認識候補文字の確度を出力する文字認識手段と、上記文字認識手段が出力する各認識候補文字と文書の対応関係を示すインデックスを作成するインデックス作成手段と、上記入力画像に含まれる各文字画像の中で、基準確度を超える確度の認識候補文字を有しない文字画像が存在する場合、その文字画像の形状特徴を抽出する特徴抽出手段と、文書の検索条件としてキーワードを入力する入力手段と、上記インデックスを参照して、そのキーワードと一致する認識候補文字の文書を検索する一方、そのキーワードと一致する認識候補文字が存在しない場合、上記特徴抽出手段により抽出された文字画像の形状特徴と当該キーワードを構成する文字の形状特徴を照合して、検索条件に合致する文書を検索する検索手段とを備えた全文検索装置において、上記文字認識手段が出力する認識候補文字が修正された場合、修正後の認識候補文字を含む連接文字の出現回数をカウントアップして、その連接文字が文書全体に出現する出現確率を更新する出現確率更新手段を設け、上記インデックス作成手段が当該連接文字をインデックスの作成対象に含める場合には、上記出現確率更新手段により更新された出現確率を考慮して、当該連接文字をインデックスの作成対象に含めるか否かを判定することを特徴とする全文検索装置。
インデックス作成手段は、文字認識手段が出力する各認識候補文字の中で、基準確度より確度が低い認識候補文字をインデックスの作成対象から除外することを特徴とする請求項１から請求項３のうちのいずれか１項記載の全文検索装置。
インデックス作成手段は、文字認識手段が出力する認識候補文字の確度が基準確度より低い場合でも、基準確度を超える確度の認識候補文字を有しない文字画像に係る認識候補文字の場合、その認識候補文字をインデックスの作成対象に含めるとともに、その認識候補文字に対して他の認識候補文字と区別する識別記号を付加することを特徴とする請求項４記載の全文検索装置。
特徴抽出手段は、文字画像の形状特徴をデータベースに格納するとともに、その文字画像に対する各認識候補文字と単語を構成する可能性のある文字の文字コードを当該データベースに格納することを特徴とする請求項１から請求項５のうちのいずれか１項記載の全文検索装置。
特徴抽出手段は、言語的情報又は文字の種類を考慮して、各認識候補文字と単語を構成する可能性のある文字を判定することを特徴とする請求項６記載の全文検索装置。
検索手段は、特徴抽出手段により抽出された文字画像の形状特徴とキーワードを構成する文字の形状特徴との距離を計算し、その距離が所定の基準を満たすとき検索条件の合致を認定することを特徴とする請求項１から請求項７のうちのいずれか１項記載の全文検索装置。
検索手段による形状特徴照合処理の実行の有無を設定する設定手段を設けたことを特徴とする請求項１から請求項８のうちのいずれか１項記載の全文検索装置。
検索手段は、キーワードと一致する認識候補文字を含む文書を形状特徴の照合対象から除外することを特徴とする請求項１から請求項８のうちのいずれか１項記載の全文検索装置。
検索手段は、キーワードと一致する認識候補文字が存在しない場合に限り、特徴抽出手段により抽出された文字画像の形状特徴と当該キーワードを構成する文字の形状特徴を照合することを特徴とする請求項１から請求項８のうちのいずれか１項記載の全文検索装置。
検索手段は、キーワードに対する形状特徴の照合対象を特定する際、識別符号が付加された認識候補文字をワイルド・カードとして取り扱うことを特徴とする請求項５記載の全文検索装置。
文字認識手段が入力画像に含まれる各文字画像を識別して、各文字画像に対する１以上の認識候補文字と各認識候補文字の確度を出力し、インデックス作成手段が各認識候補文字と文書の対応関係を示すインデックスを作成するとともに、特徴抽出手段が上記入力画像に含まれる各文字画像の中で、基準確度を超える確度の認識候補文字を有しない文字画像の形状特徴を抽出し、入力手段が文書の検索条件としてキーワードを入力すると、検索手段が上記インデックスを参照して、そのキーワードと一致する認識候補文字の文書を検索する一方、そのキーワードと一致する認識候補文字が存在しない場合、上記文字画像の形状特徴と当該キーワードを構成する文字の形状特徴を照合して、検索条件に合致する文書を検索する全文検索方法において、出現確率更新手段が連接文字を構成している各認識候補文字が、当該文字画像に対する唯一の認識候補文字である場合、その連接文字の出現回数をカウントアップして、その連接文字が文書全体に出現する出現確率を更新し、上記インデックス作成手段が当該連接文字をインデックスの作成対象に含める場合には、上記出現確率更新手段により更新された出現確率を考慮して、当該連接文字をインデックスの作成対象に含めるか否かを判定することを特徴とする全文検索方法。
文字認識手段が入力画像に含まれる各文字画像を識別して、各文字画像に対する１以上の認識候補文字と各認識候補文字の確度を出力し、インデックス作成手段が各認識候補文字と文書の対応関係を示すインデックスを作成するとともに、特徴抽出手段が上記入力画像に含まれる各文字画像の中で、基準確度を超える確度の認識候補文字を有しない文字画像の形状特徴を抽出し、入力手段が文書の検索条件としてキーワードを入力すると、検索手段が上記インデックスを参照して、そのキーワードと一致する認識候補文字の文書を検索する一方、そのキーワードと一致する認識候補文字が存在しない場合、上記文字画像の形状特徴と当該キーワードを構成する文字の形状特徴を照合して、検索条件に合致する文書を検索する全文検索方法において、出現確率更新手段がキーワードと一致する連接文字の出現回数をカウントアップして、その連接文字が文書全体に出現する出現確率を更新し、上記インデックス作成手段が当該連接文字をインデックスの作成対象に含める場合には、上記出現確率更新手段により更新された出現確率を考慮して、当該連接文字をインデックスの作成対象に含めるか否かを判定することを特徴とする全文検索方法。
文字認識手段が入力画像に含まれる各文字画像を識別して、各文字画像に対する１以上の認識候補文字と各認識候補文字の確度を出力し、インデックス作成手段が各認識候補文字と文書の対応関係を示すインデックスを作成するとともに、特徴抽出手段が上記入力画像に含まれる各文字画像の中で、基準確度を超える確度の認識候補文字を有しない文字画像の形状特徴を抽出し、入力手段が文書の検索条件としてキーワードを入力すると、検索手段が上記インデックスを参照して、そのキーワードと一致する認識候補文字の文書を検索する一方、そのキーワードと一致する認識候補文字が存在しない場合、上記文字画像の形状特徴と当該キーワードを構成する文字の形状特徴を照合して、検索条件に合致する文書を検索する全文検索方法において、上記文字認識手段が出力する認識候補文字が修正された場合、出現確率更新手段が修正後の認識候補文字を含む連接文字の出現回数をカウントアップして、その連接文字が文書全体に出現する出現確率を更新し、上記インデックス作成手段が当該連接文字をインデックスの作成対象に含める場合には、上記出現確率更新手段により更新された出現確率を考慮して、当該連接文字をインデックスの作成対象に含めるか否かを判定することを特徴とする全文検索方法。